Análisis de Regresión

ANLISIS DE REGRESIN
Edgar Acua Fernandez

Departamento de Matemticas Universidad de Puerto Rico Recinto Universitario de Mayagez
REGRESIN LINEAL SIMPLE

Regresin: conjunto de tcnicas que son usadas para establecer una relacin entre una variable cuantitativa llamada variable dependiente y una o ms variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Modelo de regresin. Ecuacin que representa la relacin entre las variables. Para estimar la ecuacin del modelo se debe tener una muestra de entrenamiento.
Ejemplo
NACION %INMUNIZACION 1 "Bolivia" 77 2 "Brazil" 69 3 "Cambodia" 32 4 "Canada" 85 5 "China" 94 6 "Czech_Republic" 99 7 "Egypt" 89 8 "Ethiopia" 13 9 "Finland" 95 10 "France" 95 11 "Greece" 54 12 "India" 89 13 "Italy" 95 14 "Japan" 87 15 "Mexico" 91 16 "Poland" 98 17 "Russian_Federation" 73 18 "Senegal" 47 19 "Turkey" 76 20 "United_Kingdom" 90 TASA_mor 118 65 184 8 43 12 55 208 7 9 9 124 10 6 33 16 32 145 87 9
Ejemplo de una linea de Regresion
Usos del anlisis de regresin:

a) Prediccin b) Descripcin c) Control d) Seleccin de variables
El modelo de Regresin Lineal simple
Y ! E FX I
Considerando la muestra (xi,yi) para i=1,n
Yi ! E FX iei
Suposiciones del modelo:
La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante W2. Los errores ei y e j (i{j=1,n) son independientes entre si
Estimacin de la lnea de regresin usando Mnimos Cuadrados

Se debe Minimizar
Q F = E,
2 i
i !1
(y
i !1
E Fx i ) 2
Derivando se obtiene un par de ecuaciones normales para el modelo, cuya solucion produce
n n n
F!
nxi yi xi yi
i!1 n 2 i i!1 n i!1 2
O equivalentemente
F !
S xy S xx
nx (xi )
i!1 i !1
! y Fx
1.2.2 Interpretacin de los coeficientes de regresin estimados

La pendiente indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretacin prctica si es irrazonable considerar que el rango de valores de x incluye a cero.

F
1.2.3 Propiedades de los estimadores mnimos cuadrticos de regresin

a) F es un estimador insegado de F. Es decir, E( F )=F
b)
es un estimador insegado de E. Es decir, E( E )=E E

varianza de F
c) La
es
W2 Sxx
y la de E
es
1 x2 2 ( ) n Sxx
1.2.4 Propiedades de los residuales

Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la lnea de regresin.
n
a) b) c)
La suma de los residuales es 0. Es decir, ri ! 0 i !1

n
ri x i ! 0
i !1
n
ri y i ! 0
i !1
1.2.5 Estimacin de la varianza del error

Un estimador insesgado de W 2 es:
s2 ! ( yi yi ) 2
n i !1 n
r
!
i !1
n2
n2
s 2 es tambien llamado el cuadrado medio del error
(MSE)
1.2.6 Descomposicin de la suma de cuadrados total

La desviacion de un valor observado con respecto a la media se puede escribir como:
( yi y ) ! ( yi yi ) ( yi y )
( yi y ) 2 !
i !1
( yi yi ) 2
n i !1
n i !1
(y
y) 2
SST = SSE + SSR Se puede deducir que
SSR ! F 2 ( xi x ) 2
i !1
R2 1.2.7 El Coeficiente de Determinacin

Es una medida de la bondad de ajuste del modelo
2
SS * 100 % SST
R2 mayor o igual a 75% se puede Un modelo de regresion con

considerar bastante aceptable.
R 2 es afectado por la presencia de valores Nota: El valor de anormales.
1.2.8 Distribucin de los estimadores mnimos cuadrticos

Para efecto de hacer inferencia en regresin, se requiere asumir que los errors ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante W . En consecuencia, tambin las y i ' s se distribuyen normalmente con E Fxi y varianza W 2 media . Se puede establecer que: W2 1 x2 2 F ~ N(F , ) E N (E , ( )W ) Sxx n S xx
Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados: i)
SS ~ G '(2n 1) (Ji-Cuadrado no central con n-1 g.l) W2
ii)
SSE ~ G (2n 2) W2
Equivalentemente
(n 2) s 2 ~ G (2n 2 ) 2 W
iii)
SSR ~ G '(21) (Ji-Cuadrado no central con 1 g.l) W2
Podemos mostrar que:
E ( SSR ) ! E ( F 2 S xx ) ! W 2 F 2 S xx
1.3 Inferencia en Regresion Lineal Simple

Pruebas de hiptesis e intervalos de confianza acerca de los coeficientes de regresin del modelo de regresin poblacional. Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta
1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t.

La pendiente de regresin se distribuye como una normal con W2 media F y varianza
Sxx
Un intervalo de confianza del 100(1-E)% para la pendiente poblacional F es de la forma:

( F t ( n 2 ,E / 2 ) s Sxx , F t ( n 2 ,E / 2 ) s Sxx )
El nivel de significacin E, vara entre 0 y 1.
Intervalo de confianza para el intercepto E

Un intervalo de confianza del 100(1-E)% para el intercepto E de la linea de regresin poblacional es de la forma:
1 x2 1 x2 (E t ( n 2,E / 2 ) s , E t ( n 2,E / 2 ) s ) n Sxx n Sxx
Pruebas de hiptesis para la pendiente F (asuminendo que su valor es F* )

Caso I Ho: F=F* Ha: F F* Caso II Ho: F=F* Ha: F{F* Caso III Ho: F=F* Ha: F"F*
Prueba Estadstica
Regla de Decisin Rechazar Ho, Rechazar Ho
F F* t! ~ t( n 2) s Sxx
Rechazar Ho
si tcal<-t(E,n-2) si |tcal |>t(E/2,n-2) si tcal>t(E,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
1.3.2 El anlisis de varianza para regresin lineal simple

El anlisis de varianza para regresin consiste en descomponer la variacin total de la variable de respuesta en varias partes llamadas fuentes de variacin. La divisin de la suma de cuadrados por sus grados de libertad es llamada cuadrado medio. As se tienen tres cuadrados medios. Cuadrado Medio de Regresin=MSR=SSR/1 Cuadrado Medio del Error= MSE=SSE/(n-2) Cuadrado Medio del Total=MST=SST/(n-1)
Tabla de Anlisis de Varianza

________________________________________________________________ Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F ________________________________________________________________ Debido a MS la Regresion 1 SSR MSR=SSR/1 Error n-2 SSE MSE=SSE/(n-2) MSE Total n-1 SST ________________________________________________________________
Se rechazara la hiptesis nula Ho:F=0 si el P-value de la prueba de F es menor de 0.05
1.3.3 Intervalo de confianza para el valor medio de

la variable de respuesta e Intervalo de Prediccin
Queremos predecir el valor medio de las Y para un valor x0 de la variable predictora x. (Y / x ! x0 ) ! E Fx 0 Como y se distribuyen normalmente, entonces tambin se distribuye normalmente con media y varianza igual a:
1 ( x0 x ) 2 ) Var (Y0 ) ! W 2 ( n Sxx
Intervalo de confianza para el valor medio

Un intervalo de confianza del 100(1-E )% para el valor medio de las ys dado que x=x0 es de la forma:
1 ( x0 x ) 2 E F x 0 s t (E / 2 , n 2 ) s n Sxx
Trabajando con la diferencia Y0

E (Y0 Y0 ) ! 0
Y0
1 ( x0 x ) 2 Var (Y0 Y0 ) ! W 2 (1 ) n Sxx
intervalo de prediccin para un valor individual de Y dado x=x0 es de la forma

1 ( x0 x ) 2 E F x 0 s t (E / 2 , n 2 ) s 1 n Sxx
1.4 Anlisis de residuales

Los residuales, son estimaciones de los errores del modelo sirven para establecer si las suposiciones del modelo se cumplen y para explorar el porqu de un mal ajuste del modelo. Podemos ver: Si la distribucin de los errores es normal y sin outliers. Si la varianza de los errores es constante y si se requieren transformaciones de las variables. Si la relacin entre las variables es efectivamente lineal o presenta algn tipo de curvatura Si hay dependencia de los errores, especialmente en el caso de que la variable predictora sea tiempo.
Tipos de residuales
i) Residual Estandarizado, se divide el residual entre la
desviacin estndar del error. Es decir, yi yi s
ii) Residual Estudentizado, se divide el residual entre su

desviacin estndar estimada. Es decir,
y i yi 1 ( xi x ) 2 ) s (1 n Sxx
1.4.1 Cotejando normalidad de los errores y detectando outliers

La normalidad de los errores es un requisito indispensable para que tengan validez las pruebas estadsticas de t y F que se usan en regresin. La manera ms fcil es usando grficas tales como: histogramas, stem-and-leaf o Boxplots. El plot de Normalidad, plotea los residuales versus los valores que se esperaran si existiera normalidad.
1.4.2 Cotejando que la varianza sea constante

Se plotea los residuales estandarizados versus los valores ajustados o versus la variable predictora X. Si los puntos del plot caen en una franja horizontal alrededor de 0 entonces la varianza es constante. Si los puntos siguen algn patrn entonces se dice que la varianza no es constante. Nota: Se debe tener cuidado con la presencia de outliers.
1.4.3 Cotejando si los errores estan correlacionados.

Cuando la variable predictora es tiempo, puede ocurrir que los errores esten correlacionados secuecialmente entre si.
Prueba de Durbin-Watson, mide el grado de correlacin de un error con el anterior y el posterior a l. Estadstico n
(e
D!
i!2
i n
ei 1 ) 2
2 i
e
i !1
D vara entre 0 y 4. Si D esta cerca de 0 los errores estn correlacionados positivamente. Si D est cerca de 4 entonces la correlacin es negativa. La distribucin de D es simtrica con respecto a 2. As que un valor de D cercano a 2 indica que no hay correlacin de los errores.
1.5 El Coeficiente de Correlacin

mide el grado de asociacn lineal entre las variables X y Y y se define como:
Cov( X , Y ) V! W xW y
a) 1 e V e 1 b) La media condicional de Y dado X es E(Y / X ) ! E Fx , donde: F ! V W y y E ! Q y FQ x Wx c) La varianza condicional de las Y dado X, est dado por
2 2 W y / x ! W y (1 V 2 )
Si V ! s1 entonces W 2 ! 0 (perfecta relacin lineal). y/x
Coeficiente de correlacin muestral

Considerando una muestra de n pares (xi,yi)
r !
Notar que:
Sxx r!F Syy
Sxy SxxSyy
2 F Sxx SS 2 r ! ! Syy SST
El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin.

Análisis de Regresión

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis de Regresión

Uploaded by

Copyright:

Available Formats

ANLISIS DE REGRESIN

Edgar Acua Fernandez

REGRESIN LINEAL SIMPLE

Ejemplo de una linea de Regresion

Usos del anlisis de regresin:

El modelo de Regresin Lineal simple

Estimacin de la lnea de regresin usando Mnimos Cuadrados

1.2.2 Interpretacin de los coeficientes de regresin estimados

1.2.3 Propiedades de los estimadores mnimos cuadrticos de regresin

es un estimador insegado de E. Es decir, E( E )=E E

1.2.4 Propiedades de los residuales

La suma de los residuales es 0. Es decir, ri ! 0 i !1

1.2.5 Estimacin de la varianza del error

s 2 es tambien llamado el cuadrado medio del error

1.2.6 Descomposicin de la suma de cuadrados total

SST = SSE + SSR Se puede deducir que

R2 1.2.7 El Coeficiente de Determinacin

R2 mayor o igual a 75% se puede Un modelo de regresion con

1.2.8 Distribucin de los estimadores mnimos cuadrticos

SS ~ G '(2n 1) (Ji-Cuadrado no central con n-1 g.l) W2

SSR ~ G '(21) (Ji-Cuadrado no central con 1 g.l) W2

Podemos mostrar que:

1.3 Inferencia en Regresion Lineal Simple

1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t.

Un intervalo de confianza del 100(1-E)% para la pendiente poblacional F es de la forma:

El nivel de significacin E, vara entre 0 y 1.

Intervalo de confianza para el intercepto E

1 x2 1 x2 (E  t ( n 2,E / 2 ) s  , E  t ( n  2,E / 2 ) s  ) n Sxx n Sxx

Pruebas de hiptesis para la pendiente F (asuminendo que su valor es F* )

Regla de Decisin Rechazar Ho, Rechazar Ho

1.3.2 El anlisis de varianza para regresin lineal simple

Tabla de Anlisis de Varianza

Se rechazara la hiptesis nula Ho:F=0 si el P-value de la prueba de F es menor de 0.05

1.3.3 Intervalo de confianza para el valor medio de

Intervalo de confianza para el valor medio

Trabajando con la diferencia Y0

1 ( x0  x ) 2 Var (Y0  Y0 ) ! W 2 (1   ) n Sxx

intervalo de prediccin para un valor individual de Y dado x=x0 es de la forma

1.4 Anlisis de residuales

ii) Residual Estudentizado, se divide el residual entre su

1.4.1 Cotejando normalidad de los errores y detectando outliers

1.4.2 Cotejando que la varianza sea constante

1.4.3 Cotejando si los errores estan correlacionados.

1.5 El Coeficiente de Correlacin

Si V ! s1 entonces W 2 ! 0 (perfecta relacin lineal). y/x

Coeficiente de correlacin muestral

El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin.

You might also like

SS ~ G '(2n 1) (Ji-Cuadrado no central con n-1 g.l) W2

1 x2 1 x2 (E t ( n 2,E / 2 ) s , E t ( n 2,E / 2 ) s ) n Sxx n Sxx

1 ( x0 x ) 2 Var (Y0 Y0 ) ! W 2 (1 ) n Sxx