Professional Documents
Culture Documents
1. REGRESIN SIMPLE El anlisis de regresin es una herramienta estadstica la cual utiliza la relacin, entre dos o ms variables de modo que una variable pueda ser predicha desde la (s) otra (s). Por ejemplo los economistas podran basar sus predicciones del producto nacional bruto (PNB) en el gasto destinado al consumo final dentro de la economa. En esta seccin estudiaremos el caso en que se usa un solo "Predictor" para predecir la variable de inters (Y ) 1.1 Relacin entre variables a) Relacin funcional entre dos variables. Una relacin funcional entre dos variables es explicada por una ecuacin. Sean
x : Variable independiente Y : Variable dependiente
Dado un valor particular de x , la funcin indica el valor correspondiente de Y . Ejemplo 1: Supongamos y :$ vendidos, x : unidades vendidas (precio por unidad $2) Luego: Y = 2x (= f (x )) As para:
x = 75 x = 25 x = 130
y = 150 y = 50 y = 260
250
200
Y=2x
150
100
50
20
40
60 x
80
100
120
140
b) Relacin Estadstica entre dos variables Una relacin estadstica, a diferencia de una relacin funcional, no es perfecta. En general las observaciones en una relacin estadstica no caen sobre la curva de la relacin.
Ejemplo 2: como parte de un estudio de sucursales de un banco mercantil, se han obtenido datos acerca del nmero de negocios independientes (x ) localizados en una muestra de reas seleccionadas por medio del cdigo postal y del nmero de sucursales del banco (y ) ubicadas en dichas reas. Se excluyeron los centros comerciales de las ciudades.
x y
92 3
116 124 210 216 267 306 378 415 502 615 703 2 3 5 4 5 5 6 7 7 9 9
10
y
4 2 0 0 100 200 300 400 500 600 700 800
Observacin: Este grfico nos da una idea de cmo es la relacin entre las dos variables. 1.2 Modelo Lineal Simple
Consideremos un experimento el cual involucra dos variables de las cuales una es aleatoria denotada por "Y " y la otra es una variable matemtica que se mide sin error la que denotamos por " x ". La variable de inters es llamada Respuesta mientras que la x ; Predictor (tambin recibe los nombres de variable controlada, regresor o variable explicativa). En el experimento primero seleccionamos n valores de x , denotados por x 1 , x 2 ,K, x n y luego observamos Y en estos valores de x , de modo que obtenemos una muestra de la forma: (x 1 ; y1 ), (x 2 ; y 2 ),K, (x n , y n ) . En anlisis de regresin estamos interesados en la dependencia de Y sobre x , es decir suponemos que la media de Y , denotada por E (Y ) , depende de x . As podemos escribir: E (Y ) = E (Y x ) = f (x )
Manuel Galea Rojas.
La curva E (Y ) = f (x ) es llamada Funcin de Regresin. Observacin: Tambin recibe el nombre de Curva de Regresin de Y sobre x . El caso ms simple es: E (Y ) = f (x ) = 0 + 1 x Grficamente
Y i = 0 + 1 x i + i , i = 1,2,K,n donde Yi : xi : valor de la variable respuesta en el i-simo ensayo. valor de la variable controlada en el i-simo ensayo. ( 0 , 1 ) : parmetros. error aleatorio, con E ( i ) = 0 y V ( i ) = 2
i :
V (Y i ) = 2
2. Cov (y i , y j ) = Cov ( i , j ) = 0 Luego y i , y j no son correlacionadas
(x1 ; y1 ), (x 2 ; y 2 ),K, (x n , y n )
Estimacin Mnima Cuadrtica
El mtodo de los mnimos cuadrados consiste en minimizar la suma de cuadrados de los errores:
S S ( 0 , 1 ) i2 = (Y i 0 1 x i )
i =1 i =1
S =0 0 S =0 1
En efecto
n S = 2 (Y i 0 1 x i ) 0 i =1 n S = 2 (Y i 0 1 x i )x i 1 i =1
1 =
(Y
n i =1
Y )(x i x )
i
(x
i =1
x)
0 = Y 1 x
Observaciones:
0 y 1 se denominan Estimadores Mnimos Cuadrticos de 0 y 1 1. respectivamente.
(Y
n i =1
n n n Y )(x i x ) = Y i x i Y i x i n i =1 i =1 i =1
(x i
i =1
x ) = x i2 nx 2
2
i =1
( )
e
i =1 n i =1 n i =1
=0
i
x e
i
=0 =0
e Y
i
S2 =
(Y
n i =1
i Y
n 2
e
i =1
2 i
n 2
x i = 3944 y
i =1 i =1 n 2 i
x x
i =1 i =1 n
2 i
= 1732500 y i = 26208
i =1
y i = 65
= 409
Luego
1 =
(y i
i =1 n i =1
y )(x i x )
i
(x
x)
Interpretacin: Esperamos 111 nuevas sucursales bancarias, como consecuencia de 10000 nuevos negocios locales.
0 = 1.767
n 2
donde S yy = (y i y ) S xx = (x i x )
i =1 i =1 n n 2
S xy = (y i y ) (x i x )
i =1
Aqu S yy = 56.92
Un estimador puntual de , la desviacin estimada, de la distribucin de = 0.3117 = 0.558 probabilidades de Y para cualquier x es Si el nmero de negocios es independientes es x = 150 , estimamos que la Y tiene una media de distribucin de probabilidades de = 1.767 + 0.0111 150 = 3.432 . Y
1.4 Inferencias en Anlisis de Regresin
Para obtener inferencias sobre los parmetros del modelo lineal 0 , 1 , 2 , necesitamos una distribucin de probabilidades para los errores. La distribucin comnmente postulada para los errores es la distribucin normal de media cero y varianza 2 . Es decir dado el modelo lineal: Y i = 0 + 1 x i + i , i = 1,2,...,n distribucin N (0, 2 ) . Suponemos que 1 , 2 ,..., n son variables aleatorias independientes cada una
1 ~ N 1 ;
S xx
1.4.1 Inferencias sobre 0 a) Intervalo de Confianza. Un intervalo confidencial del 100(1 )% para utilizando el hecho de que la variable aleatoria
T = 0 0 1 x2 + S n S xx ~ t (n 2 )
0 , se puede construir
Donde t n 2,1 2 es el percentil 1 2 de la distribucin t (n 2 ) , para 0 < < 1 . b) Test sobre 0 . Supongamos que deseamos probar las hiptesis:
* * H 0 : 0 = 0 v s H 0 : 0 0
* es conocido. donde 0
1 x2 + S n S xx
~ t (n 2 ) bajo H 0
Observacin:
* entonces RR: t > t n 2,1 Si H 1 : 0 > 0 * H1 : 0 < 0 entonces RR: t < t n 2,1
1.4.2 Inferencias sobre 1 a) Intervalo de Confianza. Un intervalo confidencial del 100(1 )% para 1 , se puede construir usando el hecho de que la variable aleatoria
T = 1 1 S xx S
)~t
(n 2 )
(x
i =1
x)
b) Test sobre 1 Supongamos que deseamos probar las hiptesis: H 0 : 1 = 1* v s H 0 : 1 1* donde 1* es conocido. Esta prueba se basa en el estadstico:
T = 1 1* S xx S
) ~t
(n 2 )
bajo H 0
Observacin: Si H 1 : 1 > 1* entonces RR: t > t n 2,1 H 1 : 0 < 1* entonces RR: t < t n 2,1
Ejemplo: tomemos los ejemplos 2 y 3 (a) Encuentre un IC del 95% para 1 . (b) Pruebe H 0 : 1 = 0 v /s H 1 : 1 > 0 Solucin: Tomemos = 0.05 con t10,0.975 = 2.228 (a) 1 IC 95% (1 ) = S S xx t10,0.975 = 0.0111 0.558 436238.67 2.228 = (0.00922;0.01298 )
Esto significa que estamos un 95% seguros que por cada 10000 nuevos negocios locales, la cantidad promedio de nuevas sucursales bancarias estar entre 92 y 129. (b) Aqu 1* = 0 . Supongamos = 0.05 y t10,0.95 = 1.812
1 RR t > 1.812 , t = S xx S = 0.0111 436238 .67 = 13.139 0.558
Como 13.139>1.812 H 0 es rechazada, reflejando un aumento significativo en el nmero de sucursales bancarias cuando se abren nuevos negocios locales
1.5 Anlisis de Varianza Aplicado a Anlisis de Regresin
El anlisis de varianza, ms apropiadamente el anlisis de varianza alrededor del promedio, consiste en particionar la variacin total presente en un conjunto de datos en componentes cada uno de los cuales es atribuido a una fuente identificable. La variacin de las Y i desviaciones Y i Y . La medida de la variacin total, denotada por SCT , es la suma de los cuadrados de las desviaciones Y i Y . Es decir: SCT = (Y i Y
n i =1
) (
donde: Y i Y : Desviacin total. i Y : Desviacin del ajuste de la regresin alrededor de la media. Y i : Desviacin alrededor de la lnea de regresin. Yi Y
( (
) )
tambin se cumple:
(Y
n i =1
) = (Y
2 n i =1
) + (Y
2 n i =1
i Y
SCT
SCR
SCE
Cualquier suma de cuadrados tiene asociado un nmero, llamado grados de libertad. Este nmero indica cuantas piezas de informacin independientes involucran las n variables aleatorias Y1 ,Y 2 ,...,Yn resumidas en sumas de cuadrados. Por ejemplo:
SCT tiene n 1 grados de libertad ya que
SCE tiene n 2 grados de libertad ya que
(y
i =1 n i =1
y)= 0
n
ei = ei xi = 0
i =1
Esta informacin se puede resumir en una Tabla de Anlisis de Varianza Tabla ANDEVA para regresin simple: Fuente de Variacin Debido a la regresin Sumas de Cuadrados
SCR
SCE
Grados de Libertad 1
n 2
Cuadrados Medios
Error
SCR 1 SCE n 2
Total
SCT
n 1
Observaciones:
12S xx . 1. SCR =
2. El estadstico F =
CMR se puede utilizar tambin para probar H 0 : 1 = 0 v /s CME H 1 : 1 0 . Bajo H 0 F ~ F(1,n 2 ) . Rechazamos H 0 si F > F1,n 2;1 .
Donde F1,n 2;1 corresponde al percentil 1 de la distribucin F(1,n 2 ) 3. Como ndice de cuan bueno es el modelo es razonable considerar la proporcin:
(Y
n i
Y Y
)
)
R2 =
(Y
i =1
i =1 n
SCR SCT
donde R 2 representa la proporcin de la variabilidad explicada por la relacin lineal con x . A R 2 se le llama "Coeficiente de Determinacin" y puede escribirse como:
R =
2
2 S xy
S XX S yy
, note que 0 R 2 1
S xx = 436238.67
SCE = S yy
2 S xy
S yy = SCT = 56.92
SCR = 53.803
S xy = 4844.67
S xx
= 3.117
TABLA ANDEVA Fuente de Variacin Debido a la regresin Error Total Sumas de Cuadrados 53.803 3.117 56.92 Grados de Libertad 1 10 11 Cuadrados Medios 53.08 0.3117
Esto significa que el 95.4% de la variabilidad en la variable de Respuesta Y : nmero de sucursales del banco, es explicada por la regresin lineal. El modelo lineal parece satisfactorio en este caso.
MGR/pvj.