19 - Regresion Lineal Simple

Regresin Lineal Simple
1. REGRESIN SIMPLE El anlisis de regresin es una herramienta estadstica la cual utiliza la relacin, entre dos o ms variables de modo que una variable pueda ser predicha desde la (s) otra (s). Por ejemplo los economistas podran basar sus predicciones del producto nacional bruto (PNB) en el gasto destinado al consumo final dentro de la economa. En esta seccin estudiaremos el caso en que se usa un solo "Predictor" para predecir la variable de inters (Y ) 1.1 Relacin entre variables a) Relacin funcional entre dos variables. Una relacin funcional entre dos variables es explicada por una ecuacin. Sean
x : Variable independiente Y : Variable dependiente
Una relacin funcional es de la forma

Y = f (x )
Dado un valor particular de x , la funcin indica el valor correspondiente de Y . Ejemplo 1: Supongamos y :$ vendidos, x : unidades vendidas (precio por unidad $2) Luego: Y = 2x (= f (x )) As para:
x = 75 x = 25 x = 130
y = 150 y = 50 y = 260
250
200
Y=2x
150
100
50
20
40
60 x
80
100
120
140
todos los puntos estn sobre la lnea.

Manuel Galea Rojas.
b) Relacin Estadstica entre dos variables Una relacin estadstica, a diferencia de una relacin funcional, no es perfecta. En general las observaciones en una relacin estadstica no caen sobre la curva de la relacin.
Ejemplo 2: como parte de un estudio de sucursales de un banco mercantil, se han obtenido datos acerca del nmero de negocios independientes (x ) localizados en una muestra de reas seleccionadas por medio del cdigo postal y del nmero de sucursales del banco (y ) ubicadas en dichas reas. Se excluyeron los centros comerciales de las ciudades.
x y
92 3
116 124 210 216 267 306 378 415 502 615 703 2 3 5 4 5 5 6 7 7 9 9
10
y
4 2 0 0 100 200 300 400 500 600 700 800
Observacin: Este grfico nos da una idea de cmo es la relacin entre las dos variables. 1.2 Modelo Lineal Simple
Consideremos un experimento el cual involucra dos variables de las cuales una es aleatoria denotada por "Y " y la otra es una variable matemtica que se mide sin error la que denotamos por " x ". La variable de inters es llamada Respuesta mientras que la x ; Predictor (tambin recibe los nombres de variable controlada, regresor o variable explicativa). En el experimento primero seleccionamos n valores de x , denotados por x 1 , x 2 ,K, x n y luego observamos Y en estos valores de x , de modo que obtenemos una muestra de la forma: (x 1 ; y1 ), (x 2 ; y 2 ),K, (x n , y n ) . En anlisis de regresin estamos interesados en la dependencia de Y sobre x , es decir suponemos que la media de Y , denotada por E (Y ) , depende de x . As podemos escribir: E (Y ) = E (Y x ) = f (x )
Manuel Galea Rojas.
La curva E (Y ) = f (x ) es llamada Funcin de Regresin. Observacin: Tambin recibe el nombre de Curva de Regresin de Y sobre x . El caso ms simple es: E (Y ) = f (x ) = 0 + 1 x Grficamente
Modelo: El modelo estadstico puede ser establecido como sigue:
Y i = 0 + 1 x i + i , i = 1,2,K,n donde Yi : xi : valor de la variable respuesta en el i-simo ensayo. valor de la variable controlada en el i-simo ensayo. ( 0 , 1 ) : parmetros. error aleatorio, con E ( i ) = 0 y V ( i ) = 2
i :
i y j se suponen no correlacionados de modo que Cov ( i , j ) = 0 , i j

Consecuencias 1. Y i es una variable aleatoria con E (Y i ) = 0 + 1 x i
V (Y i ) = 2
2. Cov (y i , y j ) = Cov ( i , j ) = 0 Luego y i , y j no son correlacionadas
Manuel Galea Rojas.
probabilidades cuya media es: E (Y i ) = 0 + 1 x i y varianza: V (Y i ) = 2 . Grficamente
3. La respuesta y i cuando el nivel de x es x i proviene desde una distribucin de
1.3 Estimacin de la Funcin de Regresin
Supongamos que tenemos una muestra de n observaciones:
(x1 ; y1 ), (x 2 ; y 2 ),K, (x n , y n )
Estimacin Mnima Cuadrtica
El mtodo de los mnimos cuadrados consiste en minimizar la suma de cuadrados de los errores:
S S ( 0 , 1 ) i2 = (Y i 0 1 x i )
i =1 i =1
Los valores de 0 y 1 que hacen mnimo S se obtienen resolviendo el sistema:
S =0 0 S =0 1
En efecto
n S = 2 (Y i 0 1 x i ) 0 i =1 n S = 2 (Y i 0 1 x i )x i 1 i =1
Manuel Galea Rojas.
0 , 1 se tiene: Igualando a cero y denotando la solucin por
1 =
(Y
n i =1
Y )(x i x )
i
(x
i =1
x)
0 = Y 1 x
Observaciones:
0 y 1 se denominan Estimadores Mnimos Cuadrticos de 0 y 1 1. respectivamente.
2. Para efectos de clculo se pueden usar las siguientes identidades:
(Y
n i =1
n n n Y )(x i x ) = Y i x i Y i x i n i =1 i =1 i =1
(x i
i =1
x ) = x i2 nx 2
2
i =1
i E Y i = 0 + 1 x i se le llama: Funcin de Regresin Estimada o Lnea de 3. A Y Regresin Ajustada.
( )
4. Los Residuos se definen como:

i , i = 1,2,K,n e i = Yi Y
5. Propiedades de los residuos: 5.1 5.2 5.3
e
i =1 n i =1 n i =1
=0
i
x e
i
=0 =0
e Y
i
6. Estimacin de 2 : como estimador de 2 usaremos:
S2 =
(Y
n i =1
i Y
n 2
e
i =1
2 i
n 2
Manuel Galea Rojas.
Ejemplo 3: Consideremos el ejemplo 2.Supongamos que:
Y i = 0 + 1 x i + i , i = 1,2,K,n . donde i ~ N 0, 2 . Ajuste el modelo y estime 2 . Solucin: Tenemos

n = 12
x i = 3944 y
i =1 i =1 n 2 i
x x
i =1 i =1 n
2 i
= 1732500 y i = 26208
i =1
y i = 65
= 409
Luego
1 =
(y i
i =1 n i =1
y )(x i x )
i
(x
x)
n n 1 x y n x yi i i i i =1 i =1 i =1 = 4844.67 = 0.0111 = n 436238.67 x i2 nx 2 n i =1
Interpretacin: Esperamos 111 nuevas sucursales bancarias, como consecuencia de 10000 nuevos negocios locales.
0 = 1.767
Interpretacin: Esperamos 1.767 sucursales bancarias, cuando no existen negocios locales.
La funcin de reagresin ajustada es:

i = 1.767 + 0.0111x i Y
Para estimar la varianza usamos S 2 , que puede escribirse como:

S =
2 2 S yy S xy S xx
n 2
donde S yy = (y i y ) S xx = (x i x )
i =1 i =1 n n 2
S xy = (y i y ) (x i x )
i =1
Aqu S yy = 56.92
Manuel Galea Rojas.
luego S2 = 56.92 (4844.67 2 436238.67 ) = 0.3117 12 2
Un estimador puntual de , la desviacin estimada, de la distribucin de = 0.3117 = 0.558 probabilidades de Y para cualquier x es Si el nmero de negocios es independientes es x = 150 , estimamos que la Y tiene una media de distribucin de probabilidades de = 1.767 + 0.0111 150 = 3.432 . Y
1.4 Inferencias en Anlisis de Regresin
Para obtener inferencias sobre los parmetros del modelo lineal 0 , 1 , 2 , necesitamos una distribucin de probabilidades para los errores. La distribucin comnmente postulada para los errores es la distribucin normal de media cero y varianza 2 . Es decir dado el modelo lineal: Y i = 0 + 1 x i + i , i = 1,2,...,n distribucin N (0, 2 ) . Suponemos que 1 , 2 ,..., n son variables aleatorias independientes cada una
Observacin: Esta suposicin implica que:
1. Y1 ,Y 2 ,...,Yn sean variables aleatorias independientes con Y i ~ N 0 + 1 x i , 2 , i = 1,...,n

1 x 0 ~ N 0 ; 2 2. n + S xx y
1 ~ N 1 ;
S xx
Manuel Galea Rojas.
1.4.1 Inferencias sobre 0 a) Intervalo de Confianza. Un intervalo confidencial del 100(1 )% para utilizando el hecho de que la variable aleatoria
T = 0 0 1 x2 + S n S xx ~ t (n 2 )
0 , se puede construir
As un intervalo confidencial del 100(1 )% para 0 est dado por: 0 S 1 x2 + t n 2,1 2 n S xx
Donde t n 2,1 2 es el percentil 1 2 de la distribucin t (n 2 ) , para 0 < < 1 . b) Test sobre 0 . Supongamos que deseamos probar las hiptesis:
* * H 0 : 0 = 0 v s H 0 : 0 0
* es conocido. donde 0
Est prueba se basa en el estadstico: T =

* 0 0
1 x2 + S n S xx
~ t (n 2 ) bajo H 0
La Regin de Rechazo (RR) (Regin Crtica) es:

t > t n 2,1 2 , con t valor de T .
Observacin:
* entonces RR: t > t n 2,1 Si H 1 : 0 > 0 * H1 : 0 < 0 entonces RR: t < t n 2,1
Manuel Galea Rojas.
1.4.2 Inferencias sobre 1 a) Intervalo de Confianza. Un intervalo confidencial del 100(1 )% para 1 , se puede construir usando el hecho de que la variable aleatoria
T = 1 1 S xx S
)~t
(n 2 )
As un intervalo confidencial del 100(1 )% para 1 est dado por:

1 S t n 2,1 2
(x
i =1
x)
b) Test sobre 1 Supongamos que deseamos probar las hiptesis: H 0 : 1 = 1* v s H 0 : 1 1* donde 1* es conocido. Esta prueba se basa en el estadstico:
T = 1 1* S xx S
) ~t
(n 2 )
bajo H 0
La Regin de Rechazo (RR) (Regin Crtica) es:

t > t n 2,1 2 , con t valor de T .
Observacin: Si H 1 : 1 > 1* entonces RR: t > t n 2,1 H 1 : 0 < 1* entonces RR: t < t n 2,1
Manuel Galea Rojas.
Ejemplo: tomemos los ejemplos 2 y 3 (a) Encuentre un IC del 95% para 1 . (b) Pruebe H 0 : 1 = 0 v /s H 1 : 1 > 0 Solucin: Tomemos = 0.05 con t10,0.975 = 2.228 (a) 1 IC 95% (1 ) = S S xx t10,0.975 = 0.0111 0.558 436238.67 2.228 = (0.00922;0.01298 )
Esto significa que estamos un 95% seguros que por cada 10000 nuevos negocios locales, la cantidad promedio de nuevas sucursales bancarias estar entre 92 y 129. (b) Aqu 1* = 0 . Supongamos = 0.05 y t10,0.95 = 1.812
1 RR t > 1.812 , t = S xx S = 0.0111 436238 .67 = 13.139 0.558
Como 13.139>1.812 H 0 es rechazada, reflejando un aumento significativo en el nmero de sucursales bancarias cuando se abren nuevos negocios locales
1.5 Anlisis de Varianza Aplicado a Anlisis de Regresin
El anlisis de varianza, ms apropiadamente el anlisis de varianza alrededor del promedio, consiste en particionar la variacin total presente en un conjunto de datos en componentes cada uno de los cuales es atribuido a una fuente identificable. La variacin de las Y i desviaciones Y i Y . La medida de la variacin total, denotada por SCT , es la suma de los cuadrados de las desviaciones Y i Y . Es decir: SCT = (Y i Y
n i =1
es convencionalmente medida en trminos de las
Manuel Galea Rojas.
Las desviaciones Y i Y pueden escribirse como:

i Y + Y i Y i Yi Y = Y
) (
donde: Y i Y : Desviacin total. i Y : Desviacin del ajuste de la regresin alrededor de la media. Y i : Desviacin alrededor de la lnea de regresin. Yi Y
( (
) )
tambin se cumple:
(Y
n i =1
) = (Y
2 n i =1
) + (Y
2 n i =1
i Y
SCT
SCR
SCE
Cualquier suma de cuadrados tiene asociado un nmero, llamado grados de libertad. Este nmero indica cuantas piezas de informacin independientes involucran las n variables aleatorias Y1 ,Y 2 ,...,Yn resumidas en sumas de cuadrados. Por ejemplo:
SCT tiene n 1 grados de libertad ya que
SCE tiene n 2 grados de libertad ya que
(y
i =1 n i =1
y)= 0
n
ei = ei xi = 0
i =1
Esta informacin se puede resumir en una Tabla de Anlisis de Varianza Tabla ANDEVA para regresin simple: Fuente de Variacin Debido a la regresin Sumas de Cuadrados
SCR
SCE
Grados de Libertad 1
n 2
Cuadrados Medios
Error
SCR 1 SCE n 2
Total
SCT
n 1
Manuel Galea Rojas.
Observaciones:
12S xx . 1. SCR =
2. El estadstico F =
CMR se puede utilizar tambin para probar H 0 : 1 = 0 v /s CME H 1 : 1 0 . Bajo H 0 F ~ F(1,n 2 ) . Rechazamos H 0 si F > F1,n 2;1 .
Donde F1,n 2;1 corresponde al percentil 1 de la distribucin F(1,n 2 ) 3. Como ndice de cuan bueno es el modelo es razonable considerar la proporcin:
(Y
n i
Y Y
)
)
R2 =
(Y
i =1
i =1 n
SCR SCT
donde R 2 representa la proporcin de la variabilidad explicada por la relacin lineal con x . A R 2 se le llama "Coeficiente de Determinacin" y puede escribirse como:
R =
2
2 S xy
S XX S yy
, note que 0 R 2 1
Para los datos del ejemplo se tiene que:
S xx = 436238.67
SCE = S yy
2 S xy
S yy = SCT = 56.92
SCR = 53.803
S xy = 4844.67
S xx
= 3.117
TABLA ANDEVA Fuente de Variacin Debido a la regresin Error Total Sumas de Cuadrados 53.803 3.117 56.92 Grados de Libertad 1 10 11 Cuadrados Medios 53.08 0.3117
Manuel Galea Rojas.
Pruebe H 0 : 1 = 0 v /s H 1 : 1 0 . Sea = 0.05 Regin Crtica
F > F1,10;0.95 = 4.965 . F =
53.08 = 170.292 0.3117
Rechazamos H 0 con un nivel de significacin del 5%. El coeficiente de determinacin es:

R2 = 4844.67 2 = 0.954 (436238.67 56.92)
Esto significa que el 95.4% de la variabilidad en la variable de Respuesta Y : nmero de sucursales del banco, es explicada por la regresin lineal. El modelo lineal parece satisfactorio en este caso.
MGR/pvj.
Manuel Galea Rojas.

19 - Regresion Lineal Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

19 - Regresion Lineal Simple

Uploaded by

Copyright:

Available Formats

Regresin Lineal Simple

Una relacin funcional es de la forma

todos los puntos estn sobre la lnea.

Regresin Lineal Simple

Regresin Lineal Simple

Modelo: El modelo estadstico puede ser establecido como sigue:

i y j se suponen no correlacionados de modo que Cov ( i , j ) = 0 , i j

Manuel Galea Rojas.

Regresin Lineal Simple

probabilidades cuya media es: E (Y i ) = 0 + 1 x i y varianza: V (Y i ) = 2 . Grficamente

3. La respuesta y i cuando el nivel de x es x i proviene desde una distribucin de

1.3 Estimacin de la Funcin de Regresin

Supongamos que tenemos una muestra de n observaciones:

Los valores de 0 y 1 que hacen mnimo S se obtienen resolviendo el sistema:

Manuel Galea Rojas.

Regresin Lineal Simple

0 , 1 se tiene: Igualando a cero y denotando la solucin por

2. Para efectos de clculo se pueden usar las siguientes identidades:

i E Y i = 0 + 1 x i se le llama: Funcin de Regresin Estimada o Lnea de 3. A Y Regresin Ajustada.

4. Los Residuos se definen como:

5. Propiedades de los residuos: 5.1 5.2 5.3

6. Estimacin de 2 : como estimador de 2 usaremos:

Manuel Galea Rojas.

Regresin Lineal Simple

Ejemplo 3: Consideremos el ejemplo 2.Supongamos que:

Y i = 0 + 1 x i + i , i = 1,2,K,n . donde i ~ N 0, 2 . Ajuste el modelo y estime 2 . Solucin: Tenemos

n n 1 x y n x yi i i i i =1 i =1 i =1 = 4844.67 = 0.0111 = n 436238.67 x i2 nx 2 n i =1

Interpretacin: Esperamos 1.767 sucursales bancarias, cuando no existen negocios locales.

La funcin de reagresin ajustada es:

Para estimar la varianza usamos S 2 , que puede escribirse como:

Manuel Galea Rojas.

Regresin Lineal Simple

luego S2 = 56.92 (4844.67 2 436238.67 ) = 0.3117 12 2

Observacin: Esta suposicin implica que:

1. Y1 ,Y 2 ,...,Yn sean variables aleatorias independientes con Y i ~ N 0 + 1 x i , 2 , i = 1,...,n

Manuel Galea Rojas.

Regresin Lineal Simple

As un intervalo confidencial del 100(1 )% para 0 est dado por: 0 S 1 x2 + t n 2,1 2 n S xx

Est prueba se basa en el estadstico: T =

La Regin de Rechazo (RR) (Regin Crtica) es:

Manuel Galea Rojas.

Regresin Lineal Simple

As un intervalo confidencial del 100(1 )% para 1 est dado por:

La Regin de Rechazo (RR) (Regin Crtica) es:

Manuel Galea Rojas.

Regresin Lineal Simple

es convencionalmente medida en trminos de las

Manuel Galea Rojas.

Regresin Lineal Simple

Las desviaciones Y i Y pueden escribirse como:

Manuel Galea Rojas.

Regresin Lineal Simple

Para los datos del ejemplo se tiene que:

Manuel Galea Rojas.

Regresin Lineal Simple

Pruebe H 0 : 1 = 0 v /s H 1 : 1 0 . Sea = 0.05 Regin Crtica

F > F1,10;0.95 = 4.965 . F =

53.08 = 170.292 0.3117

Rechazamos H 0 con un nivel de significacin del 5%. El coeficiente de determinacin es:

Manuel Galea Rojas.

You might also like