You are on page 1of 13

Regresin Lineal Simple

1. REGRESIN SIMPLE El anlisis de regresin es una herramienta estadstica la cual utiliza la relacin, entre dos o ms variables de modo que una variable pueda ser predicha desde la (s) otra (s). Por ejemplo los economistas podran basar sus predicciones del producto nacional bruto (PNB) en el gasto destinado al consumo final dentro de la economa. En esta seccin estudiaremos el caso en que se usa un solo "Predictor" para predecir la variable de inters (Y ) 1.1 Relacin entre variables a) Relacin funcional entre dos variables. Una relacin funcional entre dos variables es explicada por una ecuacin. Sean
x : Variable independiente Y : Variable dependiente

Una relacin funcional es de la forma


Y = f (x )

Dado un valor particular de x , la funcin indica el valor correspondiente de Y . Ejemplo 1: Supongamos y :$ vendidos, x : unidades vendidas (precio por unidad $2) Luego: Y = 2x (= f (x )) As para:
x = 75 x = 25 x = 130

y = 150 y = 50 y = 260

250

200
Y=2x

150

100

50

20

40

60 x

80

100

120

140

todos los puntos estn sobre la lnea.


Manuel Galea Rojas.

Regresin Lineal Simple

b) Relacin Estadstica entre dos variables Una relacin estadstica, a diferencia de una relacin funcional, no es perfecta. En general las observaciones en una relacin estadstica no caen sobre la curva de la relacin.
Ejemplo 2: como parte de un estudio de sucursales de un banco mercantil, se han obtenido datos acerca del nmero de negocios independientes (x ) localizados en una muestra de reas seleccionadas por medio del cdigo postal y del nmero de sucursales del banco (y ) ubicadas en dichas reas. Se excluyeron los centros comerciales de las ciudades.
x y

92 3

116 124 210 216 267 306 378 415 502 615 703 2 3 5 4 5 5 6 7 7 9 9
10

y
4 2 0 0 100 200 300 400 500 600 700 800

Observacin: Este grfico nos da una idea de cmo es la relacin entre las dos variables. 1.2 Modelo Lineal Simple

Consideremos un experimento el cual involucra dos variables de las cuales una es aleatoria denotada por "Y " y la otra es una variable matemtica que se mide sin error la que denotamos por " x ". La variable de inters es llamada Respuesta mientras que la x ; Predictor (tambin recibe los nombres de variable controlada, regresor o variable explicativa). En el experimento primero seleccionamos n valores de x , denotados por x 1 , x 2 ,K, x n y luego observamos Y en estos valores de x , de modo que obtenemos una muestra de la forma: (x 1 ; y1 ), (x 2 ; y 2 ),K, (x n , y n ) . En anlisis de regresin estamos interesados en la dependencia de Y sobre x , es decir suponemos que la media de Y , denotada por E (Y ) , depende de x . As podemos escribir: E (Y ) = E (Y x ) = f (x )
Manuel Galea Rojas.

Regresin Lineal Simple

La curva E (Y ) = f (x ) es llamada Funcin de Regresin. Observacin: Tambin recibe el nombre de Curva de Regresin de Y sobre x . El caso ms simple es: E (Y ) = f (x ) = 0 + 1 x Grficamente

Modelo: El modelo estadstico puede ser establecido como sigue:

Y i = 0 + 1 x i + i , i = 1,2,K,n donde Yi : xi : valor de la variable respuesta en el i-simo ensayo. valor de la variable controlada en el i-simo ensayo. ( 0 , 1 ) : parmetros. error aleatorio, con E ( i ) = 0 y V ( i ) = 2

i :

i y j se suponen no correlacionados de modo que Cov ( i , j ) = 0 , i j


Consecuencias 1. Y i es una variable aleatoria con E (Y i ) = 0 + 1 x i

V (Y i ) = 2
2. Cov (y i , y j ) = Cov ( i , j ) = 0 Luego y i , y j no son correlacionadas

Manuel Galea Rojas.

Regresin Lineal Simple

probabilidades cuya media es: E (Y i ) = 0 + 1 x i y varianza: V (Y i ) = 2 . Grficamente

3. La respuesta y i cuando el nivel de x es x i proviene desde una distribucin de

1.3 Estimacin de la Funcin de Regresin

Supongamos que tenemos una muestra de n observaciones:

(x1 ; y1 ), (x 2 ; y 2 ),K, (x n , y n )
Estimacin Mnima Cuadrtica

El mtodo de los mnimos cuadrados consiste en minimizar la suma de cuadrados de los errores:

S S ( 0 , 1 ) i2 = (Y i 0 1 x i )
i =1 i =1

Los valores de 0 y 1 que hacen mnimo S se obtienen resolviendo el sistema:

S =0 0 S =0 1
En efecto
n S = 2 (Y i 0 1 x i ) 0 i =1 n S = 2 (Y i 0 1 x i )x i 1 i =1

Manuel Galea Rojas.

Regresin Lineal Simple

0 , 1 se tiene: Igualando a cero y denotando la solucin por

1 =

(Y
n i =1

Y )(x i x )
i

(x
i =1

x)

0 = Y 1 x

Observaciones:
0 y 1 se denominan Estimadores Mnimos Cuadrticos de 0 y 1 1. respectivamente.

2. Para efectos de clculo se pueden usar las siguientes identidades:

(Y
n i =1

n n n Y )(x i x ) = Y i x i Y i x i n i =1 i =1 i =1

(x i
i =1

x ) = x i2 nx 2
2

i =1

i E Y i = 0 + 1 x i se le llama: Funcin de Regresin Estimada o Lnea de 3. A Y Regresin Ajustada.

( )

4. Los Residuos se definen como:


i , i = 1,2,K,n e i = Yi Y

5. Propiedades de los residuos: 5.1 5.2 5.3

e
i =1 n i =1 n i =1

=0
i

x e
i

=0 =0

e Y
i

6. Estimacin de 2 : como estimador de 2 usaremos:

S2 =

(Y
n i =1

i Y

n 2

e
i =1

2 i

n 2

Manuel Galea Rojas.

Regresin Lineal Simple

Ejemplo 3: Consideremos el ejemplo 2.Supongamos que:

Y i = 0 + 1 x i + i , i = 1,2,K,n . donde i ~ N 0, 2 . Ajuste el modelo y estime 2 . Solucin: Tenemos


n = 12

x i = 3944 y
i =1 i =1 n 2 i

x x
i =1 i =1 n

2 i

= 1732500 y i = 26208

i =1

y i = 65

= 409

Luego

1 =

(y i
i =1 n i =1

y )(x i x )
i

(x

x)

n n 1 x y n x yi i i i i =1 i =1 i =1 = 4844.67 = 0.0111 = n 436238.67 x i2 nx 2 n i =1

Interpretacin: Esperamos 111 nuevas sucursales bancarias, como consecuencia de 10000 nuevos negocios locales.
0 = 1.767

Interpretacin: Esperamos 1.767 sucursales bancarias, cuando no existen negocios locales.

La funcin de reagresin ajustada es:


i = 1.767 + 0.0111x i Y

Para estimar la varianza usamos S 2 , que puede escribirse como:


S =
2 2 S yy S xy S xx

n 2

donde S yy = (y i y ) S xx = (x i x )
i =1 i =1 n n 2

S xy = (y i y ) (x i x )
i =1

Aqu S yy = 56.92

Manuel Galea Rojas.

Regresin Lineal Simple

luego S2 = 56.92 (4844.67 2 436238.67 ) = 0.3117 12 2

Un estimador puntual de , la desviacin estimada, de la distribucin de = 0.3117 = 0.558 probabilidades de Y para cualquier x es Si el nmero de negocios es independientes es x = 150 , estimamos que la Y tiene una media de distribucin de probabilidades de = 1.767 + 0.0111 150 = 3.432 . Y
1.4 Inferencias en Anlisis de Regresin

Para obtener inferencias sobre los parmetros del modelo lineal 0 , 1 , 2 , necesitamos una distribucin de probabilidades para los errores. La distribucin comnmente postulada para los errores es la distribucin normal de media cero y varianza 2 . Es decir dado el modelo lineal: Y i = 0 + 1 x i + i , i = 1,2,...,n distribucin N (0, 2 ) . Suponemos que 1 , 2 ,..., n son variables aleatorias independientes cada una

Observacin: Esta suposicin implica que:

1. Y1 ,Y 2 ,...,Yn sean variables aleatorias independientes con Y i ~ N 0 + 1 x i , 2 , i = 1,...,n


1 x 0 ~ N 0 ; 2 2. n + S xx y

1 ~ N 1 ;

S xx

Manuel Galea Rojas.

Regresin Lineal Simple

1.4.1 Inferencias sobre 0 a) Intervalo de Confianza. Un intervalo confidencial del 100(1 )% para utilizando el hecho de que la variable aleatoria
T = 0 0 1 x2 + S n S xx ~ t (n 2 )

0 , se puede construir

As un intervalo confidencial del 100(1 )% para 0 est dado por: 0 S 1 x2 + t n 2,1 2 n S xx

Donde t n 2,1 2 es el percentil 1 2 de la distribucin t (n 2 ) , para 0 < < 1 . b) Test sobre 0 . Supongamos que deseamos probar las hiptesis:
* * H 0 : 0 = 0 v s H 0 : 0 0

* es conocido. donde 0

Est prueba se basa en el estadstico: T =


* 0 0

1 x2 + S n S xx

~ t (n 2 ) bajo H 0

La Regin de Rechazo (RR) (Regin Crtica) es:


t > t n 2,1 2 , con t valor de T .

Observacin:
* entonces RR: t > t n 2,1 Si H 1 : 0 > 0 * H1 : 0 < 0 entonces RR: t < t n 2,1

Manuel Galea Rojas.

Regresin Lineal Simple

1.4.2 Inferencias sobre 1 a) Intervalo de Confianza. Un intervalo confidencial del 100(1 )% para 1 , se puede construir usando el hecho de que la variable aleatoria
T = 1 1 S xx S

)~t

(n 2 )

As un intervalo confidencial del 100(1 )% para 1 est dado por:


1 S t n 2,1 2

(x
i =1

x)

b) Test sobre 1 Supongamos que deseamos probar las hiptesis: H 0 : 1 = 1* v s H 0 : 1 1* donde 1* es conocido. Esta prueba se basa en el estadstico:
T = 1 1* S xx S

) ~t

(n 2 )

bajo H 0

La Regin de Rechazo (RR) (Regin Crtica) es:


t > t n 2,1 2 , con t valor de T .

Observacin: Si H 1 : 1 > 1* entonces RR: t > t n 2,1 H 1 : 0 < 1* entonces RR: t < t n 2,1

Manuel Galea Rojas.

Regresin Lineal Simple

Ejemplo: tomemos los ejemplos 2 y 3 (a) Encuentre un IC del 95% para 1 . (b) Pruebe H 0 : 1 = 0 v /s H 1 : 1 > 0 Solucin: Tomemos = 0.05 con t10,0.975 = 2.228 (a) 1 IC 95% (1 ) = S S xx t10,0.975 = 0.0111 0.558 436238.67 2.228 = (0.00922;0.01298 )

Esto significa que estamos un 95% seguros que por cada 10000 nuevos negocios locales, la cantidad promedio de nuevas sucursales bancarias estar entre 92 y 129. (b) Aqu 1* = 0 . Supongamos = 0.05 y t10,0.95 = 1.812
1 RR t > 1.812 , t = S xx S = 0.0111 436238 .67 = 13.139 0.558

Como 13.139>1.812 H 0 es rechazada, reflejando un aumento significativo en el nmero de sucursales bancarias cuando se abren nuevos negocios locales
1.5 Anlisis de Varianza Aplicado a Anlisis de Regresin

El anlisis de varianza, ms apropiadamente el anlisis de varianza alrededor del promedio, consiste en particionar la variacin total presente en un conjunto de datos en componentes cada uno de los cuales es atribuido a una fuente identificable. La variacin de las Y i desviaciones Y i Y . La medida de la variacin total, denotada por SCT , es la suma de los cuadrados de las desviaciones Y i Y . Es decir: SCT = (Y i Y
n i =1

es convencionalmente medida en trminos de las

Manuel Galea Rojas.

Regresin Lineal Simple

Las desviaciones Y i Y pueden escribirse como:


i Y + Y i Y i Yi Y = Y

) (

donde: Y i Y : Desviacin total. i Y : Desviacin del ajuste de la regresin alrededor de la media. Y i : Desviacin alrededor de la lnea de regresin. Yi Y

( (

) )

tambin se cumple:

(Y
n i =1

) = (Y
2 n i =1

) + (Y
2 n i =1

i Y

SCT

SCR

SCE

Cualquier suma de cuadrados tiene asociado un nmero, llamado grados de libertad. Este nmero indica cuantas piezas de informacin independientes involucran las n variables aleatorias Y1 ,Y 2 ,...,Yn resumidas en sumas de cuadrados. Por ejemplo:
SCT tiene n 1 grados de libertad ya que
SCE tiene n 2 grados de libertad ya que

(y
i =1 n i =1

y)= 0
n

ei = ei xi = 0
i =1

Esta informacin se puede resumir en una Tabla de Anlisis de Varianza Tabla ANDEVA para regresin simple: Fuente de Variacin Debido a la regresin Sumas de Cuadrados
SCR
SCE

Grados de Libertad 1
n 2

Cuadrados Medios

Error

SCR 1 SCE n 2

Total

SCT

n 1

Manuel Galea Rojas.

Regresin Lineal Simple

Observaciones:
12S xx . 1. SCR =

2. El estadstico F =

CMR se puede utilizar tambin para probar H 0 : 1 = 0 v /s CME H 1 : 1 0 . Bajo H 0 F ~ F(1,n 2 ) . Rechazamos H 0 si F > F1,n 2;1 .

Donde F1,n 2;1 corresponde al percentil 1 de la distribucin F(1,n 2 ) 3. Como ndice de cuan bueno es el modelo es razonable considerar la proporcin:
(Y
n i

Y Y

)
)

R2 =

(Y
i =1

i =1 n

SCR SCT

donde R 2 representa la proporcin de la variabilidad explicada por la relacin lineal con x . A R 2 se le llama "Coeficiente de Determinacin" y puede escribirse como:

R =
2

2 S xy

S XX S yy

, note que 0 R 2 1

Para los datos del ejemplo se tiene que:

S xx = 436238.67
SCE = S yy
2 S xy

S yy = SCT = 56.92
SCR = 53.803

S xy = 4844.67

S xx

= 3.117

TABLA ANDEVA Fuente de Variacin Debido a la regresin Error Total Sumas de Cuadrados 53.803 3.117 56.92 Grados de Libertad 1 10 11 Cuadrados Medios 53.08 0.3117

Manuel Galea Rojas.

Regresin Lineal Simple

Pruebe H 0 : 1 = 0 v /s H 1 : 1 0 . Sea = 0.05 Regin Crtica

F > F1,10;0.95 = 4.965 . F =

53.08 = 170.292 0.3117

Rechazamos H 0 con un nivel de significacin del 5%. El coeficiente de determinacin es:


R2 = 4844.67 2 = 0.954 (436238.67 56.92)

Esto significa que el 95.4% de la variabilidad en la variable de Respuesta Y : nmero de sucursales del banco, es explicada por la regresin lineal. El modelo lineal parece satisfactorio en este caso.

MGR/pvj.

Manuel Galea Rojas.

You might also like