Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

trabajo escrito sobre regresion lineal, Apuntes de Estadística

trabajo en donde explica lo que es la regreion lineal y sus funcionamientos asi como tambien algunos ejemplos de los mismos

Tipo: Apuntes

2018/2019
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 05/11/2019

jerson-soto
jerson-soto 🇬🇹

5

(1)

1 documento

1 / 78

Toggle sidebar
Discount

En oferta

Vista previa parcial del texto

¡Descarga trabajo escrito sobre regresion lineal y más Apuntes en PDF de Estadística solo en Docsity! UNIVERSIDAD MARIANO GALVEZ DE GUATEMALA ESTADISTICA M.A. César Guillermo Marroquín G. UNIVERSIDAD MARIANO GALVEZ DE GUATEMALA Regresión LINEAL UNIVERSIDAD MARIANO GALVEZ DE GUATEMALA REGRESION LINEAL SIMPLE Se dispone de una muestra de observaciones formadas por pares de variables: (x1, y1) (x2, y2) .. (xn, yn) A través de esta muestra, se desea estudiar la relación existente entre las dos variables X e Y. Es posible representar estas observaciones mediante un gráfico de dispersión, como el anterior. También se puede expresar el grado de asociación mediante algunos indicadores, que se verán a continuación. Ejemplo 1 DATOS DEL CLUB DE SALUD Datos correspondientes a 20 empleados del club de salud de una empresa X pulsasiones or minuto en reposo Y tiempo en correr 1 milla ( reg) Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression" obs X Y 1 67 481 2 52 292 3 56 357 4 66 396 5 65 345 6 80 469 7 77 425 8 65 393 9 68 346 10 66 401 11 70 267 12 59 368 13 58 295 14 52 391 15 64 487 16 72 481 17 57 374 18 59 367 19 70 469 20 63 252 Promedios: 64,3 382,8 Calcularemos de la covarianza entre estas dos variables. Covarianza Valores centrados y productos: obs X-64,3 Y-382,8 prod 1 2,7 98,2 265,14 2 -12,3 -90,8 1116,84 3 -8,3 -25,8 214,14 4 1,7 13,2 22,44 5 0,7 -37,8 -26,46 6 15,7 86,2 1353,34 7 12,7 42,2 535,94 8 0,7 10,2 7,14 9 3,7 -36,8 -136,16 10 1,7 18,2 30,94 11 5,7 -115,8 -660,06 12 -5,3 -14,8 78,44 13 -6,3 -87,8 553,14 14 -12,3 8,2 -100,86 15 -0,3 104,2 -31,26 16 7,7 98,2 756,14 17 -7,3 -8,8 64,24 18 -5,3 -15,8 83,74 19 5,7 86,2 491,34 20 -1,3 -130,8 170,04 Promedio : 239,41 La covarianza entre las variables X e Y es igual a 239,41 Coeficiente de correlación lineal. La covarianza tiene el inconveniente de que su valor no es acotado, por lo que, a partir de él es difícil juzgar si es grande o pequeña. Se define la correlación, que es una medida de asociación lineal independiente de las unidades de medida: Es igual a la covarianza dividida por las desviaciones estandar: yyxx xy ii ii SS S yyxx yyxx dsYdsX YX YXcorr        22 )()( ))(( * ),cov( ),( Ejemplo (continuación) Coeficiente de Correlación Se deben calcular las desviaciones standard. Para ello se deben elevar al cuadrado las observaciones centradas y promediar, obteniéndose las varianzas. Las desviaciones standard son las raíces cuadradas de éstas. cuadrados de obs X-64,3 Y-382,8 1 7,3 9643,2 2 151,3 8244,6 3 68,9 665,6 4 2,9 174,2 5 0,5 1428,8 6 246,5 7430,4 7 161,3 1780,8 8 0,5 104,0 9 13,7 1354,2 10 2,9 331,2 11 32,5 13409,6 12 28,1 219,0 13 39,7 7708,8 14 151,3 67,2 15 0,1 10857,6 16 59,3 9643,2 17 53,3 77,4 18 28,1 249,6 19 32,5 7430,4 20 1,7 17108,6 Promedios : 54,11 4896,46 (varianzas) Las desviaciones standard son dsX = 7,36 ds Y = 69,97 Para obtener las correlaciones se debe dividir la covarianza por las desviaciones standard: corr(X,Y) = 239.41 / ( 7.36 * 69.97 ) = 0,465 Interpretación: 1. El valor absoluto de r indica la fuerza de la relación entre Y y X. 2. El signo la dirección de la relación (directa o inversamente proporcional) (tener cuidado con relaciones espúreas) r = 1 correlación positiva perfecta. r = -1 correlación negativa perfecta. r = 0 no hay relación lineal entre Y y X. La interpretación del coeficiente de correlación puede ilustrarse mediante los siguientes gráficos. UNIVERSIDAD MARIANO GALVEZ DE GUATEMALA p c a g T E obs IX Y x-med y-med producto |cuadradoc |cuadrado d 1 3.6 11.28| -1.77333333| -4.865333333| 8.62785778| 3.14471111| 23.6714684| 2 5.2] 14,74| -0.17333333| -1.405333333| 0.24359111| 0.03004444| 1.97496178| 3 5.3 18.46| -0.07333333| 2.314666667| -0.169/4222| 0.00537778| 5.25/681783| 4 7.3 20.01, 1.926666667| 3.864666667| 7.44592444| 3.71204444| 14.9356484. 5 5 12.43| -0.37333333| -3.715333333| 1.38705778| 0.13937778| 13.8037018| 6 5.2 15.37| -0,17333333| -0.775333333| 0.13439111| 0.03004444| 0.60114178| 7 3 9.59| -2.3/333333| -6.555333333/ 15.5579911| 5.632/1111| 42.9723951 8 3.1 11.26| -2.2/333333| -4.885333333| 11.1059911| 5.16804444| 23.8664818| 9 3.2 8.05| -2.17333333| -8.095333333| 17.5938578| 4.72337778| 65.5344218 10 7.5| 27.91| 2.126666667| 11.76466667| 25.0195244| 4.52271111| 138.407382 11; 8.3 24.62 2.920666667| 8.474660067| 24.8025244| 8.56537778| 71.8199751 12 6.1| 18.8| 0.7266606667| 2.654666667| 1.92905778| 0.52804444| 7.04725511)| 13 4.9| 13.87| -0.47333333| -2.275333333| 1.07699111| 0.22404444| 5.17714178| 14 5.8| 12.11| 0.426666667| -4.035333333| -1.72174222| 0.18204444| 16.2839151| 15 7.1 23.68 1.726666667| 7.534666067| 13.0098578| 2.98137778| 56.7712018 ia 80.6] 242.18| 4.44039E-15| -5.15143£-14| 126.043133| 39.5893333| 488.224773 Título del gráfico 30 ds(x) 1.62458884 25 ? . as(y) 5.70511334 20 A 10 . m 4 m va 5 a b c d e f g obs x y x-med y-med producto cuadrado c cuadrado d 1 3.6 11.28 -1.773333333 -4.865333333 8.62785778 3.14471111 23.6714684 2 5.2 14.74 -0.173333333 -1.405333333 0.24359111 0.03004444 1.97496178 3 5.3 18.46 -0.073333333 2.314666667 - 0.16974222 0.00537778 5.35768178 4 7.3 20.01 1.926666667 3.864666667 7.44592444 3.71204444 14.9356484 5 5 12.43 -0.373333333 -3.715333333 1.38705778 0.13937778 13.8037018 6 5.2 15.37 -0.173333333 -0.775333333 0.13439111 0.03004444 0.60114178 7 3 9.59 -2.373333333 -6.555333333 15.5579911 5.63271111 42.9723951 8 3.1 11.26 -2.273333333 -4.885333333 11.1059911 5.16804444 23.8664818 9 3.2 8.05 -2.173333333 -8.095333333 17.5938578 4.72337778 65.5344218 10 7.5 27.91 2.126666667 11.76466667 25.0195244 4.52271111 138.407382 11 8.3 24.62 2.926666667 8.474666667 24.8025244 8.56537778 71.8199751 12 6.1 18.8 0.726666667 2.654666667 1.92905778 0.52804444 7.04725511 13 4.9 13.87 -0.473333333 -2.275333333 1.07699111 0.22404444 5.17714178 14 5.8 12.11 0.426666667 -4.035333333 - 1.72174222 0.18204444 16.2839151 15 7.1 23.68 1.726666667 7.534666667 13.0098578 2.98137778 56.7712018 Sumatoria 80.6 242.18 0.000000000000004440892098 5 - 0.0000000000000515143483426073 126.043133 39.5893333 488.224773 media 5.37333333 16.1453333 0.000000000000000296059473 2 -3.43429E-15 8.40287556 2.63928889 32.5483182 cov(x,y) 8.40 ds(x) 1.62458884 ds(y) 5.70511334 corr(x,y) 0.90660934 0 5 10 15 20 25 30 0 1 2 3 4 5 6 7 8 9 Título del gráfico REGRESION LINEAL SIMPLE Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además, se sabe que esa relación es de tipo lineal, dentro del rango de los datos. Estableceremos un modelo para explicar la causa (Y) en términos del efecto (X), del tipo siguiente: para i = 1,2,..., n en que a y b son dos cantidades fijas (parámetros del modelo) y los ei son cantidades aleatorias que representan las diferencias entre lo que postula el modelo y lo que realmente se observa, y. Por esa razón a los que los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor esperado 0 y desviación estándar común . iii ebXaY  Ejemplo 2 Venta de automóviles Se piensa que si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta. Estudio sobre 15 concesionarios similares X Comisiones pagadas a vendedores de autos en un mes (%) Y Ganancias netas por ventas, en el mismo mes (Millones de $) obs X Y 1 3.6 11.28 2 5.2 14.74 3 5.3 18.46 4 7.3 20.01 5 5.0 12.43 6 5.2 15.37 7 3.0 9.59 8 3.1 11.26 9 3.2 8.05 10 7.5 27.91 11 8.3 24.62 12 6.1 18.80 13 4.9 13.87 14 5.8 12.11 15 7.1 23.68 En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe minimizar, para determinar a y b. Estos segmentos representan los errores e del modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto sobre el eje vertical. La solución está dada por las siguientes fórmulas: xx xy i ii S S xx yyxx b       2)( ))(( xbya  Ejemplo 2 (continuación) Calculamos los promedios de ambas variables y se las restamos a los valores. Promedio de la X : 5.4 Promedio de la Y : 16.1 Desviaciones respecto de las medias, sus cuadrados y productos: obs X-5.4 Y-16.1 cuadrados prod. 1 -1.8 -4.9 3.1 23.7 8.6 2 -0.2 -1.4 0.0 2.0 0.2 3 -0.1 2.3 0.0 5.3 -0.2 4 1.9 3.9 3.7 14.9 7.4 5 -0.4 -3.7 0.1 13.8 1.4 6 -0.2 -0.8 0.0 0.6 0.1 7 -2.4 -6.6 5.6 42.9 15.6 8 -2.3 -4.9 5.2 23.8 11.1 9 -2.2 -8.1 4.7 65.6 17.6 10 2.1 11.8 4.5 138.5 25.0 11 2.9 8.5 8.6 71.8 24.8 12 0.7 2.7 0.5 7.0 1.9 13 -0.5 -2.3 0.2 5.2 1.1 14 0.4 -4.0 0.2 16.3 -1.7 15 1.7 7.5 3.0 56.8 13.0 sumas 0.0 0.0 39.6 488.3 126.1 Sxx Syy Sxy Entonces utilizando las fórmulas de arriba, b = 3.18 a = -0.96 xx xy i ii S S xx yyxx b       2)( ))(( xbya  El modelo, para estos datos, es para i=1,2,.. 15 Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisión X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos. iii eXY  18,396.0 X y Y AJUSTADO Ejemplo 1 DATOS DEL CLUB DE SALUD Datos correspondientes a 20 empleados del club de salud de una empresa X pulsasiones or minuto en reposo Y tiempo en correr 1 milla ( reg) Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression" obs X Y 1 67 481 2 52 292 3 56 357 4 66 396 5 65 345 6 80 469 7 77 425 8 65 393 9 68 346 10 66 401 11 70 267 12 59 368 13 58 295 14 52 391 15 64 487 16 72 481 17 57 374 18 59 367 19 70 469 20 63 252 Promedios: 64,3 382,8 Título del gráfico Título del gráfico COL1 COL2 COL3 COL4 COL5 X Y X-MEDIA Y-MEDIA PRODUCTO CUADRADO COL3 Yi 1 52 292 -12.30 -90.80 1116.84 151.29 328.38 2 52 391 -12.30 8.20 -100.86 151.29 328.38 3 56 357 -8.30 -25.80 214.14 68.89 346.08 4 57 374 -7.30 -8.80 64.24 53.29 350.50 5 58 295 -6.30 -87.80 553.14 39.69 354.93 6 59 368 -5.30 -14.80 78.44 28.09 359.35 7 59 367 -5.30 -15.80 83.74 28.09 359.35 8 63 252 -1.30 -130.80 170.04 1.69 377.05 9 64 487 -0.30 104.20 -31.26 0.09 381.47 10 65 345 0.70 -37.80 -26.46 0.49 385.90 11 65 393 0.70 10.20 7.14 0.49 385.90 12 66 396 1.70 13.20 22.44 2.89 390.32 13 66 401 1.70 18.20 30.94 2.89 390.32 14 67 481 2.70 98.20 265.14 7.29 394.75 15 68 346 3.70 -36.80 -136.16 13.69 399.17 16 70 267 5.70 -115.80 -660.06 32.49 408.02 17 70 469 5.70 86.20 491.34 32.49 408.02 18 72 481 7.70 98.20 756.14 59.29 416.87 19 77 425 12.70 42.20 535.94 161.29 438.99 20 80 469 15.70 86.20 1353.34 246.49 452.26 21 81 456.69 22 82 461.11 23 83 465.54 24 100 540.75 Se puede observar que el promedio de los valores ajustados es igual al promedio de los valores observados, y que el promedio de las diferencias es cero. La raíz cuadrada del promedio de los cuadrados de las diferencias entre los valores observados y ajustados, es una estimación de la varianza del error, s . En el ejemplo, la suma de las diferencias al cuadrado es 19.8, luego la estimación de la desviación estándar del error es igual a Millones de pesos41.2796.5933.86 15 1 s Coeficiente de determinación. Es una medida de bondad de ajuste del modelos de regresión lineal a los datos. Es deseable que los valores de Y ajustados al modelo, sean lo más parecidos posible a los valores observados. Una medida de lo parecido que son, es el coeficiente de correlación. Se define el coeficiente de determinación, R2, como el cuadrado del coeficiente de correlación entre los valores de Y observados y los valores de Y ajustados. Sin embargo se puede demostrar que es igual a la siguiente expresión: El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en un línea recta).          22 22 2 )()( ))(( yyxx yyxx SS S R ii ii yyxx xy Es un índice cuya base 100 es el promedio de producción de cada agrupación, en el año 1989. El gráfico de dispersión es el siguiente: Prod. Física Industria Manufacturera 0 200 400 600 0 100 200 300 400 Indice mayo 2002 In d ic e m a y o 2 0 0 3 Cálculos parciales, en que X es el índice mayo 2002, Y el índice mayo 2003: Estimación de los parámetros del modelo: 9.1446.13628  yxn 6.913,134)( 2  xxS ixx 7.813,187)( 2  yyS iyy 8.350,154))((  yyxxS iixy 14.1 6.913,134 8.350,154  xx xy S S b 61.13 xbya Bondad de ajuste: que indica un muy buen ajuste. El siguiente gráfico muestra de recta de regresión estimada: 940.0 )8.350,187(*)6.913,134( )8.350,154( 2 2 2  yyxx xy SS S R Prod. Física Industria Manufacturera -200 0 200 400 600 0 100 200 300 400 Indice mayo 2002 In d ic e m a y o 2 0 0 3 Si unimos los extremos superiores (o los inferiores) de todos los intervalos de confianza, se obtienen dos curvas con forma de hipérbola, como se muestra en la figura: El gráfico siguiente muestra las bandas de confianza de coeficiente 95%, para el ejemplo de la producción física manufacturera. Mientras mayor es el coeficiente de determinación R2, más angostas son las bandas de confianza; lo mismo mientras mayor es la desviación estándar de las X, y lo mismo si el tamaño muestral aumenta. Y a medida que nos alejamos del promedio de las X, se ensanchan las bandas. ESTUDIO DE CASO Relación entre población y número de nacimientos. Comuna menos 1 e 1 - 4 e 5-9 e 10-19 e 20-44 e 45-64 e 65-79 mas 80 Nacimien tos 1 Huasco 116 486 677 1,501 2735 1802 624 124 101 2 Las Cabras 305 1,299 1,794 3,872 7995 4661 1639 378 1066 3 El Monte 508 2,079 2,634 5,634 11082 5467 1700 464 392 4 Alto Biobío 140 544 617 1,108 4146 2038 387 74 176 5 San Nicolás 132 538 761 1,736 3684 2216 779 165 118 6 San Fernando 960 4,090 5,756 12,911 25627 14007 4446 1098 965 7 Aisén 427 1,682 2,121 4,790 9951 4535 1234 271 409 8 Llanquihue 280 1,155 1,581 3,327 6619 3446 1078 234 218 9 Victoria 471 1,760 2,547 6,500 11768 6995 2751 707 462 10 Arauco 613 2,678 3,573 7,521 15147 7119 2140 517 528 11 El Bosque 2,655 10,647 13,257 31,249 66602 35983 11795 2547 2573 12 San Vicente 568 1,392 3,462 7,955 15458 9518 3202 785 561 13 Yerbas Buenas 244 978 1,362 3,189 6265 3512 1050 240 216 14 Pemuco 101 507 794 1,692 3295 1844 691 153 90 15 Chiguayante 1,537 6,152 8,612 20,445 39650 20500 5239 1552 1145 16 Porvenir 67 271 366 994 2275 1157 382 77 80 17 Combarbalá 161 661 934 2,010 4225 2962 1521 395 168 18 Conchalí 1,686 6,676 8,286 18,977 44767 25540 11377 2842 1958 19 Tucapel 190 745 1,058 2,391 4609 2787 1205 305 175 20 Camarones 18 74 100 255 546 346 106 26 4 Comuna menos 1 e 1 - 4 e 5-9 e 10-19 e 20-44 e 45-64 e 65-79 mas 80 Nacimien tos 21 Quinta de Tilcoco 160 635 894 2,179 4279 2556 813 203 162 22 Ovalle 1,661 6,712 9,140 20,281 38840 20843 7750 1833 1653 23 Pica 75 304 354 746 7218 2487 338 100 59 24 Ninhue 60 310 455 939 1738 1272 550 134 49 25 Taltal 177 735 950 1,939 4075 2336 655 143 199 26 Molina 538 2,297 3,224 7,218 15539 8832 2803 666 521 27 Arica 2,842 11,630 15,545 33,775 67981 38405 12487 2767 3079 28 Navidad 54 263 369 752 1658 1396 709 184 45 29 Graneros 429 1,757 2,406 5,480 10809 5659 1634 217 86 30 Coronel 1,471 6,248 8,681 20,287 39860 20784 5792 1130 1509 31 Caldera 249 966 1,266 2,941 5512 2810 837 138 264 32 Mejillones 177 682 830 1,836 3954 1943 408 81 139 33 Colchane 26 101 120 249 620 347 140 47 14 34 Chillán 2,283 9,549 13,437 30,848 66475 35890 11216 2527 2479 35 Lago Verde 13 53 68 139 390 258 69 13 12 36 Futrono 278 1,150 1,541 3,211 5420 2886 976 208 214 37 Máfil 111 368 521 1,516 2472 1436 569 160 86 38 Canela 121 515 716 1,437 2818 1986 1101 261 103 39 Freire 402 1,667 2,337 5,134 9525 5416 2093 542 311 40 Valdivia 2,173 8,470 11,336 28,184 59713 30986 10176 2539 2192 Se presentan los gráficos de los nacimientos versus población, de cada tramo. menos de 1 año N a ci m ie n to s 300025002000150010005000 3500 3000 2500 2000 1500 1000 500 0 Nacimientos versus enores de 1 año e 10-19 N a c 35000300002500020000150001000050000 3500 3000 2500 2000 1500 1000 500 0 Scatterplot of Nac vs e 10-19 e 20-44 N a c 700006000050000400003000020000100000 3500 3000 2500 2000 1500 1000 500 0 Scatterplot of Nac vs e 20-44 e 45-64 N a c 400003000020000100000 3500 3000 2500 2000 1500 1000 500 0 Scatterplot of Nac vs e 45-64 Se observa que persistentemente una comuna tiene un número de nacimientos mayor que el resto, según su población, en todos los tramos. Es la Comuna de Las Cabras. Las comunas con ambos números más grandes son Arica, El Bosque y Chillán. Para los gráficos y los cálculos siguientes se usó el software MINITAB., Hay una correlación muy fuerte entre las poblaciones de los distintos tramos de edad, siendo un poco menos entre el tramo “más de 80” y las demás. Esto se puede apreciar en la siguiente figura, en que grafican las variables de a pares. menos 1 1000050000 30000150000 40000200000 300015000 3000 1500 0 10000 5000 0 e 1 - 4 e 5-9 16000 8000 0 30000 15000 0 e 10-19 e 20-44 50000 25000 040000 20000 0 e 45-64 e 65-79 10000 5000 0 300015000 3000 1500 0 1600080000 50000250000 1000050000 mas 80 Matrix Plot of menos 1, e 1 - 4, e 5-9, e 10-19, e 20-44, e 45-64, ... (cont.) S = 166.564 R-Sq = 96.0% R-Sq(adj) = 95.9% Analysis of Variance Source DF SS MS F P Regression 1 25065853 25065853 903.49 0.000 Residual Error 38 1054251 27743 Total 39 26120104 De las pruebas t de hipótesis, se concluye que el intercepto a = - 14.2 no es significativo, mientras que la pendiente b = 1.03 si lo es. Por lo tanto la relación entre nacimientos y el tamaño de la población de menores de 1 año es Nac = 1.03 (menos 1) Relaciones similares se puede obtener para las otras variables poblacionales y su efecto sobre el número de nacimientos.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved