You are on page 1of 31

ANLISIS DE REGRESIN

Edgar Acua Fernandez


Departamento de Matemticas Universidad de Puerto Rico Recinto Universitario de Mayagez

REGRESIN LINEAL SIMPLE


Regresin: conjunto de tcnicas que son usadas para establecer una relacin entre una variable cuantitativa llamada variable dependiente y una o ms variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Modelo de regresin. Ecuacin que representa la relacin entre las variables. Para estimar la ecuacin del modelo se debe tener una muestra de entrenamiento.

Ejemplo
NACION %INMUNIZACION 1 "Bolivia" 77 2 "Brazil" 69 3 "Cambodia" 32 4 "Canada" 85 5 "China" 94 6 "Czech_Republic" 99 7 "Egypt" 89 8 "Ethiopia" 13 9 "Finland" 95 10 "France" 95 11 "Greece" 54 12 "India" 89 13 "Italy" 95 14 "Japan" 87 15 "Mexico" 91 16 "Poland" 98 17 "Russian_Federation" 73 18 "Senegal" 47 19 "Turkey" 76 20 "United_Kingdom" 90 TASA_mor 118 65 184 8 43 12 55 208 7 9 9 124 10 6 33 16 32 145 87 9

Ejemplo de una linea de Regresion

Usos del anlisis de regresin:


a) Prediccin b) Descripcin c) Control d) Seleccin de variables

El modelo de Regresin Lineal simple

Y ! E  FX  I
Considerando la muestra (xi,yi) para i=1,n

Yi ! E  FX iei
Suposiciones del modelo:
La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante W2. Los errores ei y e j (i{j=1,n) son independientes entre si

Estimacin de la lnea de regresin usando Mnimos Cuadrados


Se debe Minimizar

Q F = E,

2 i

i !1

(y
i !1

 E  Fx i ) 2

Derivando se obtiene un par de ecuaciones normales para el modelo, cuya solucion produce
n n n

F!

nxi yi  xi yi
i!1 n 2 i i!1 n i!1 2

O equivalentemente

F !

S xy S xx

nx  (xi )
i!1 i !1

! y  Fx

1.2.2 Interpretacin de los coeficientes de regresin estimados


La pendiente indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretacin prctica si es irrazonable considerar que el rango de valores de x incluye a cero.

F

1.2.3 Propiedades de los estimadores mnimos cuadrticos de regresin


a) F es un estimador insegado de F. Es decir, E( F )=F

b)

es un estimador insegado de E. Es decir, E( E )=E E


varianza de F

c) La

es

W2 Sxx

y la de E

es

1 x2 2 (  ) n Sxx

1.2.4 Propiedades de los residuales


Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la lnea de regresin.
n

a) b) c)

La suma de los residuales es 0. Es decir, ri ! 0 i !1


n

ri x i ! 0
i !1
n

ri y i ! 0

i !1

1.2.5 Estimacin de la varianza del error


Un estimador insesgado de W 2 es:
s2 ! ( yi  yi ) 2
n i !1 n

r
!
i !1

n2

n2

s 2 es tambien llamado el cuadrado medio del error

(MSE)

1.2.6 Descomposicin de la suma de cuadrados total


La desviacion de un valor observado con respecto a la media se puede escribir como:
( yi  y ) ! ( yi  yi )  ( yi  y )

( yi  y ) 2 !
i !1

( yi  yi ) 2 
n i !1

n i !1

(y

 y) 2

SST = SSE + SSR Se puede deducir que

SSR ! F 2 ( xi  x ) 2
i !1

R2 1.2.7 El Coeficiente de Determinacin


Es una medida de la bondad de ajuste del modelo
2

SS * 100 % SST

R2 mayor o igual a 75% se puede Un modelo de regresion con


considerar bastante aceptable.
R 2 es afectado por la presencia de valores Nota: El valor de anormales.

1.2.8 Distribucin de los estimadores mnimos cuadrticos


Para efecto de hacer inferencia en regresin, se requiere asumir que los errors ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante W . En consecuencia, tambin las y i ' s se distribuyen normalmente con E  Fxi y varianza W 2 media . Se puede establecer que: W2 1 x2 2 F ~ N(F , ) E N (E , (  )W ) Sxx n S xx

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados: i)

SS ~ G '(2n 1) (Ji-Cuadrado no central con n-1 g.l) W2

ii)

SSE ~ G (2n  2) W2

Equivalentemente

(n  2) s 2 ~ G (2n 2 ) 2 W

iii)

SSR ~ G '(21) (Ji-Cuadrado no central con 1 g.l) W2

Podemos mostrar que:

E ( SSR ) ! E ( F 2 S xx ) ! W 2  F 2 S xx

1.3 Inferencia en Regresion Lineal Simple


Pruebas de hiptesis e intervalos de confianza acerca de los coeficientes de regresin del modelo de regresin poblacional. Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta

1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t.


La pendiente de regresin se distribuye como una normal con W2 media F y varianza
Sxx

Un intervalo de confianza del 100(1-E)% para la pendiente poblacional F es de la forma:


( F  t ( n  2 ,E / 2 ) s Sxx , F  t ( n  2 ,E / 2 ) s Sxx )

El nivel de significacin E, vara entre 0 y 1.

Intervalo de confianza para el intercepto E


Un intervalo de confianza del 100(1-E)% para el intercepto E de la linea de regresin poblacional es de la forma:

1 x2 1 x2 (E  t ( n 2,E / 2 ) s  , E  t ( n  2,E / 2 ) s  ) n Sxx n Sxx

Pruebas de hiptesis para la pendiente F (asuminendo que su valor es F* )


Caso I Ho: F=F* Ha: F F* Caso II Ho: F=F* Ha: F{F* Caso III Ho: F=F* Ha: F"F*

Prueba Estadstica

Regla de Decisin Rechazar Ho, Rechazar Ho

F F* t! ~ t( n  2) s Sxx

Rechazar Ho

si tcal<-t(E,n-2) si |tcal |>t(E/2,n-2) si tcal>t(E,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.

1.3.2 El anlisis de varianza para regresin lineal simple


El anlisis de varianza para regresin consiste en descomponer la variacin total de la variable de respuesta en varias partes llamadas fuentes de variacin. La divisin de la suma de cuadrados por sus grados de libertad es llamada cuadrado medio. As se tienen tres cuadrados medios. Cuadrado Medio de Regresin=MSR=SSR/1 Cuadrado Medio del Error= MSE=SSE/(n-2) Cuadrado Medio del Total=MST=SST/(n-1)

Tabla de Anlisis de Varianza


________________________________________________________________ Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F ________________________________________________________________ Debido a MS la Regresion 1 SSR MSR=SSR/1 Error n-2 SSE MSE=SSE/(n-2) MSE Total n-1 SST ________________________________________________________________

Se rechazara la hiptesis nula Ho:F=0 si el P-value de la prueba de F es menor de 0.05

1.3.3 Intervalo de confianza para el valor medio de


la variable de respuesta e Intervalo de Prediccin
Queremos predecir el valor medio de las Y para un valor x0 de la variable predictora x. (Y / x ! x0 ) ! E  Fx 0 Como y se distribuyen normalmente, entonces tambin se distribuye normalmente con media y varianza igual a:
1 ( x0  x ) 2 ) Var (Y0 ) ! W 2 (  n Sxx

Intervalo de confianza para el valor medio


Un intervalo de confianza del 100(1-E )% para el valor medio de las ys dado que x=x0 es de la forma:
1 ( x0  x ) 2 E  F x 0 s t (E / 2 , n  2 ) s  n Sxx

Trabajando con la diferencia Y0


E (Y0  Y0 ) ! 0

 Y0

1 ( x0  x ) 2 Var (Y0  Y0 ) ! W 2 (1   ) n Sxx

intervalo de prediccin para un valor individual de Y dado x=x0 es de la forma


1 ( x0  x ) 2 E  F x 0 s t (E / 2 , n  2 ) s 1   n Sxx

1.4 Anlisis de residuales


Los residuales, son estimaciones de los errores del modelo sirven para establecer si las suposiciones del modelo se cumplen y para explorar el porqu de un mal ajuste del modelo. Podemos ver: Si la distribucin de los errores es normal y sin outliers. Si la varianza de los errores es constante y si se requieren transformaciones de las variables. Si la relacin entre las variables es efectivamente lineal o presenta algn tipo de curvatura Si hay dependencia de los errores, especialmente en el caso de que la variable predictora sea tiempo.

Tipos de residuales
i) Residual Estandarizado, se divide el residual entre la
desviacin estndar del error. Es decir, yi  yi s

ii) Residual Estudentizado, se divide el residual entre su


desviacin estndar estimada. Es decir,
y i  yi 1 ( xi  x ) 2 ) s (1   n Sxx

1.4.1 Cotejando normalidad de los errores y detectando outliers


La normalidad de los errores es un requisito indispensable para que tengan validez las pruebas estadsticas de t y F que se usan en regresin. La manera ms fcil es usando grficas tales como: histogramas, stem-and-leaf o Boxplots. El plot de Normalidad, plotea los residuales versus los valores que se esperaran si existiera normalidad.

1.4.2 Cotejando que la varianza sea constante


Se plotea los residuales estandarizados versus los valores ajustados o versus la variable predictora X. Si los puntos del plot caen en una franja horizontal alrededor de 0 entonces la varianza es constante. Si los puntos siguen algn patrn entonces se dice que la varianza no es constante. Nota: Se debe tener cuidado con la presencia de outliers.

1.4.3 Cotejando si los errores estan correlacionados.


Cuando la variable predictora es tiempo, puede ocurrir que los errores esten correlacionados secuecialmente entre si.
Prueba de Durbin-Watson, mide el grado de correlacin de un error con el anterior y el posterior a l. Estadstico n

(e
D!
i!2

i n

 ei 1 ) 2
2 i

e
i !1

D vara entre 0 y 4. Si D esta cerca de 0 los errores estn correlacionados positivamente. Si D est cerca de 4 entonces la correlacin es negativa. La distribucin de D es simtrica con respecto a 2. As que un valor de D cercano a 2 indica que no hay correlacin de los errores.

1.5 El Coeficiente de Correlacin


mide el grado de asociacn lineal entre las variables X y Y y se define como:
Cov( X , Y ) V! W xW y

a)  1 e V e 1 b) La media condicional de Y dado X es E(Y / X ) ! E  Fx , donde: F ! V W y y E ! Q y  FQ x Wx c) La varianza condicional de las Y dado X, est dado por
2 2 W y / x ! W y (1  V 2 )

Si V ! s1 entonces W 2 ! 0 (perfecta relacin lineal). y/x

Coeficiente de correlacin muestral


Considerando una muestra de n pares (xi,yi)

r !
Notar que:
Sxx r!F Syy

Sxy SxxSyy
2 F Sxx SS 2 r ! ! Syy SST

El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin.

You might also like