You are on page 1of 44

Regresión Lineal Simple

yi = 0 + 1xi + ui

Javier Aparicio
División de Estudios Políticos, CIDE
javier.aparicio@cide.edu

Primavera 2011

http://www.cide.edu/investigadores/aparicio/metodos.html

1
Contenido
 Estimación mediante el método de
momentos
 Estimación por mínimos cuadrados
ordinarios
 Bondad de ajuste: R2
 Propiedades de los estimadores MCO
 Supuestos Gauss-Markov
 Insesgamiento
 Eficiencia

2
y = 0 + 1x + u
 donde y es:  mientras que x es:
 Variable dependiente  Variable independiente
 Variable explicada  Variable explicativa
 Variable de lado  Covariable
izquierdo (duh!)
 Regresando
 Variable de control
 Regresor
 u es:
 Residual
 Variable de lado derecho
 Término de error  0 y 1: parámetros o
coeficientes a estimar

3
Algunos supuestos

 El valor promedio de u, el término de error,


en la población es = 0. Es decir,
E(u) = 0
 Este supuesto no es muy restrictivo puesto
que siempre podemos ajustar el intercepto 0
para normalizar E(u) = 0

4
Media condicional = 0
 Hay un supuesto crucial sobre la relación
entre el error y la variable explicativa:
cov(x, u)
 Queremos que la información contenida en x
sea independiente de la información
contenida en u (ie, que no estén
relacionados), de modo que:
 E(u|x) = E(u) = 0, lo cual implica:
 E(y|x) = 0 + 1x

5
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)

. E(y|x) =  +  x
.
0 1

x1 x2
6
Mínimos Cuadrados Ordinarios (MCO)

 La idea básica es estimar parámetros


poblacionales a partir de una muestra.
 Sea {(xi,yi): i=1, …,n} una muestra aleatoria
de tamaño n de una población.
 Para cada observación en la muestra,
tenemos:
yi = 0 + 1xi + ui

7
Línea de regresión, observaciones y errores

y E(y|x) = 0 + 1x
y4 .{
u4

y3 .} u3
y2 u2 {.

y1 .} u1

x1 x2 x3 x4 x
8
Derivación de estimadores MCO /OLS

 El supuesto E(u|x) = E(u) = 0 implica que

Cov(x,u) = E(xu) = 0

 ¿Por qué? En probabilidad básica sabemos


que:
Cov(x,u) = E(xu) – E(x)E(u)
y dado que E(u)=0  Cov(x,u) = E(xu) = 0

9
…continuación MCO/OLS
 El doble supuesto E(xu) = E(u) = 0 se
traduce en dos restricciones.
 Y dado que: u = y – 0 – 1x,
podemos reescribir estas dos restricciones
en términos de x, 0 y  :
 E(u) = E(y – 0 – 1x) = 0
 E(xu) = E[x(y – 0 – 1x)] = 0
 Conocidas como las “restricciones de
momentos”

10
Derivación de MCO usando el
Método de Momentos (MOM)
 (Breviario: el 1º, 2º, 3º y 4º momentos de una función de distribución
de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
 El método de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la población, en los momentos de la muestra.
 ¿Pero cómo? Recuerden que un estimador
muestral de E(X), la media de una población, es
simplemente la media aritmética de la muestra.

11
Derivación de MCO / OLS
 La idea es buscar parámetros que nos aseguren
que las restricciones de momentos se cumplan en
la muestra.
 Las restricciones muestrales son (el gorrito denota
“parámetros estimados”):

 
n
n 1

i 1
y i
ˆ
 0  ˆ x 0
1 i (1ª)

 
n
n 1
 i i 0 1i
x
i 1
y  ˆ  ˆ x  0
 (2ª )

12
Estimador MCO / OLS: intercepto
 Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir la
primera restricción como sigue:

 
n
n 1

i 1
y  ˆ

i 0  ˆ x 0
1 i

ˆ ˆ
y   0  1 x ,
o bien
ˆ  y  ˆ x
0 1
13
Derivación de MCO / OLS
Y ahora, sustituyendo 0 en la segunda restricción, tenemos:

 
n
n 1  xi yi  ˆ0  ˆ1 xi  0
i 1

   
n

i i
x y
i 1
 y  ˆ x  ˆ x  0
 1 1 i

n n
x 
i i y  y   ˆ
 1  xi  xi  x 
i 1 i 1
Aquí hay un paso “mágico” ver apéndice A.7 y A.8.
n n

  xi  x  yi  y   1   xi  x 
ˆ 2

i 1 i 1
14
…estimador MCO / OLS: pendiente 1
n n
̂1   xi  x     xi  x  yi  y 
2

i 1 i 1
n

  x  x  y
i i  y
cov( x, y )
ˆ1  i 1
n

var( x)
 x  x
2
i
i 1
n

 x  x
2
toda vez que x tenga varianza : i 0
i 1

15
Sobre el estimador MCO de 1
 1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
 Si x y y están correlacionados positivamente, 1
será positivo (pues la varianza del denominador
siempre es positiva).
 Si x y y están correlacionados negativamente, 1
será negativo.
 Si x y y no tienen correlación alguna, 1 no será
estadísticamente distinto de cero (volveremos a
esto más tarde).
 Obviamente, requerimos que x tenga cierta varianza
en la muestra.

16
MCO / OLS
 Intuitivamente, MCO ajusta una línea a
través de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mínima posible: de ahí el término
“mínimos cuadrados”.
 El residual, û, es un estimado del término de
error entre lo observado y lo predicho, es
decir, la diferencia entre la línea de regresión
(fitted line) y el dato observado.
 Ver gráfica...
17
Línea de regresión muestral, observaciones, y
residuales estimados
y
y4 .
û4 {
yˆ  ˆ0  ˆ1 x
y3 .} û3
y2 û2 {.

y1
}
. û1

x1 x2 x3 x4 x
18
Un enfoque alternativo:
Minimizar residuales al cuadrado
 Siguiendo la idea de ajustar una línea de regresión,
podemos plantear un problema de minimización.
 Es decir, buscar parámetros  tales que minimicen
la siguiente expresión:

 
n n

  ui    yi   0  1 xi
2
ˆ 2 ˆ ˆ
i 1 i 1

19
...continuación
 Usando cálculo para resolver un problema de
minimización con dos parámetros resulta en dos
condiciones de primer orden (FOC)–similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:

 
n

 y
i 1
 ˆ

i 0  ˆ x 0
 1 i

 
n

 i i 0 1i
x y
i 1
 ˆ  ˆ x  0

20
Propiedades algebraicas de MCO / OLS

 Al minimizar los residuales cuadrados:


 La suma de los residuales de MCO será igual a
cero.
 Por ende, la media muestral de los residuales será
cero también.
 La covarianza muestral entre las variables
explicativas y los residuales será cero.
 La línea de regresión de MCO siempre cruzará la
media de la muestra, ie, la media de x y la media
de y.

21
Propiedades algebraicas
(matemáticamente)
n

n  uˆ i

 uˆi  0 por tanto,


i 1
i 1
n
0
n

 x uˆ
i 1
i i  0 por tanto, cov (x,u)  0

y  ˆ0  ˆ1 x

Es decir, la solución de MCO es idéntica a la del método de momentos.

22
Suma de cuadrados: Terminología
Podemos separar cada observación en un componente
explicado (sistemático) y un componente no explicado :
yi  yˆ i  uˆi De modo que podemos definir lo siguiente :
  y  y  es la Suma Total de cuadrados : SST
2
i

  yˆ  y  es la Suma Explicada de cuadrados : SSE


2
i

 uˆ es la Suma Residual de cuadrados : SSR


2
i

Lo cual implica que SST  SSE  SSR


SST es la suma de “desviaciones al cuadrado” de las observaciones
de la muestra: es proporcional, más no igual, a VAR(y).

23
Demostración: SST = SSE + SSR
SST    yi  y      yi  yˆ i    yˆ i  y  
2 2

   uˆi   yˆ i  y  
2

  uˆ  2 uˆi  yˆ i  y     yˆ i  y 
2 2
i

 SSR  2 uˆi  yˆ i  y   SSE


y como sabemos que  uˆi  yˆ i  y   0
 SSR  SSE

24
Bondad de ajuste: R2
 ¿Cómo saber qué tan bueno es el ajuste
entre la línea de regresión y los datos de la
muestra?
 Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
 Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST

25
Haciendo regresiones con stata
 Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros
parámetros de interés .
 Podemos calcularlos “a mano” (muy tedioso),
o aplicar estas fórmulas en una hoja de
cálculo como excel (algo tedioso), o bien
usar un paquete estadístico estándar como
stata (muy fácil)
 Para correr una regresión de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)

26
Sesgo y eficiencia de MCO
 Dos características deseables de cualquier
estimador estadístico son:
 Insesgamiento (unbiasedness): que el parámetro
estimado sea, en promedio, igual al “verdadero”
parámetro poblacional.
 Eficiencia (efficiency): que la varianza del
estimador sea mínima (ie, máxima precisión).
 Así, buscamos estimadores con sesgo mínimo y
máxima eficiencia (ie, mínima varianza).
 MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.

27
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1. El modelo poblacional es lineal en sus
parámetros: y = 0 + 1x + u
2. Muestra aleatoria de tamaño n,
{(xi, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral
es: yi = 0 + 1xi + ui
3. Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
28
Insesgamiento de MCO
 Para analizar el sesgo del estimador, necesitamos
reescribirlo en términos del parámetro poblacional.
 De modo que reescribimos la fórmula para 1 como:

  x  x y
ˆ1  i
2
i
, donde
s x

s    xi  x 
2 2
x

29
Insesgamiento de MCO (cont.)
Sustituyendo para yi, el numerador de la expresión anterior
puede descomponerse como sigue:

  x  x  y   x  x     x  u 
i i i 0 1 i i

   x  x     x  x  x    x  x u
i 0 i 1 i i i

    x  x      x  x  x    x  x u
0 i 1 i i i i

desviaciones de x + n*var(x) + n*cov(x,u)

30
Insesgamiento de MCO (cont.)
Por estadístic a básica, sabemos que :
  x  x   0, y
i

 x  xx   x  x
2
i i i  s x2
de modo que el numerador puede reescribirse así :
1s x2    xi  x ui , y por lo tanto
  x  x u
ˆ1  1  i i

s x2

31
Insesgamiento de MCO (cont.)
Finalmente, si definimos d i   xi  x  , de modo que
 1 
 i  1   2  d i ui , y aplicamos valor esperado :
ˆ
 sx 

 
ˆ
E 1  1  
 1 
2  d i E  ui   1
 sx 
El operador E(.) aplica a ui, el único componente aleatorio de la
expresión.
El valor esperado de la  estimada es el “verdadero” parámetro
poblacional—toda vez que los 4 supuestos Gauss-Markov se
cumplan.
32
Insesgamiento: resumen
 Los estimadores MCO de 1 y 0 son
insesgados.
 La demostración de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente será
insesgado.
 El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
éste puede estar cerca o lejos del verdadero
parámetro poblacional.
33
Varianza de los estimadores MCO
 Ya vimos que la “distribución muestral” de
nuestro estimador está centrada en torno al
“verdadero” parámetro.
 ¿Qué tan dispersa será la distribución del
estimador?
 Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5º):
var(u|x) = 2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
34
Varianza de MCO (cont.)
 Por estadística sabemos que:
2 = Var(u|x) = E(u2|x)-[E(u|x)]2
 Y como E(u|x) = 0, entonces:
2 = E(u2|x) = E(u2) = Var(u)
 De modo que 2 es la varianza no condicional de los
residuales, también llamada varianza del error.
 , la raíz cuadrada de la varianza del error, se conoce
como la desviación estándar del error.
 Con lo cual podemos decir que:
 E(y|x)=0 + 1x
 Var(y|x) = 2

35
Homoscedasticidad
y
f(y|x)

. E(y|x) =  +  x
.
0 1

x1 x2
36
Heteroscedasticidad

f(y|x)

y
.
. E(y|x) = 0 + 1x

.
x1 x2 x3 x
37
Varianza de MCO (cont.)

 
ˆ   1 
Var 1  Var  1  
s

2   d i ui 

  x  
2 2

2  Var   d i ui   
 1   1 

 sx 
2
 sx 
 i Var  ui 
d 2

2 2
 1   1 
 2
 sx 
 d     sx2 
i
2 2 2
 i
d 2

 
2
 1  2 2 ˆ
 2
2  sx  2  Var 1
 sx  sx

38
Varianza de MCO: resumen

 A mayor varianza del error, 2, mayor


varianza del estimador de 1.
 A mayor varianza en xi, menor varianza
del estimador de 1.
 Por ende, a mayor tamaño de muestra, n,
menor varianza del estimador de 1.
 Pero ojo, la varianza del error es
“desconocida”: necesitamos estimarla
también.
39
Estimación de la varianza del error
 No conocemos la varianza del error, 2, porque no
observamos los errores de la población, ui
 Lo que observamos son los residuales (estimados)
del modelo muestral:

uˆi  yi  ˆ0  ˆ1 xi


 Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.

40
Estimación de la varianza del error
uˆi  yi  ˆ0  ˆ1 xi , y sustituyendo para yi
     x  u   ˆ  ˆ x
0 1 i i 0 1 i

  
 ui  ˆ0   0  ˆ1  1 xi
por insesgamiento, ambos paréntesis se eliminan...
de modo que un estimador insesgado de  2 es :
1 SSR
ˆ 
2

 n  2  uˆi 
2

 n  2

41
Estimación de la varianza del error
    error estándar de la regresión
ˆ ˆ 2

recordemos que : std.dev ˆ  


sx
 
si sustituimos ˆ en vez de  , entonces tenemos
el error estándar de ˆ : 1

 
se ˆ1 
ˆ
  x  x  
i
2
1
2

Y, una vez que conocemos el error estándar de 1 estimada, podemos


calcular su intervalo de confianza y hacer pruebas de hipótesis.

42
Apéndice A.
Propiedades del operador Suma

43
Apéndice A.
Propiedades del operador Suma

44

You might also like