Professional Documents
Culture Documents
yi = 0 + 1xi + ui
Javier Aparicio
División de Estudios Políticos, CIDE
javier.aparicio@cide.edu
Primavera 2011
http://www.cide.edu/investigadores/aparicio/metodos.html
1
Contenido
Estimación mediante el método de
momentos
Estimación por mínimos cuadrados
ordinarios
Bondad de ajuste: R2
Propiedades de los estimadores MCO
Supuestos Gauss-Markov
Insesgamiento
Eficiencia
2
y = 0 + 1x + u
donde y es: mientras que x es:
Variable dependiente Variable independiente
Variable explicada Variable explicativa
Variable de lado Covariable
izquierdo (duh!)
Regresando
Variable de control
Regresor
u es:
Residual
Variable de lado derecho
Término de error 0 y 1: parámetros o
coeficientes a estimar
3
Algunos supuestos
4
Media condicional = 0
Hay un supuesto crucial sobre la relación
entre el error y la variable explicativa:
cov(x, u)
Queremos que la información contenida en x
sea independiente de la información
contenida en u (ie, que no estén
relacionados), de modo que:
E(u|x) = E(u) = 0, lo cual implica:
E(y|x) = 0 + 1x
5
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)
. E(y|x) = + x
.
0 1
x1 x2
6
Mínimos Cuadrados Ordinarios (MCO)
7
Línea de regresión, observaciones y errores
y E(y|x) = 0 + 1x
y4 .{
u4
y3 .} u3
y2 u2 {.
y1 .} u1
x1 x2 x3 x4 x
8
Derivación de estimadores MCO /OLS
Cov(x,u) = E(xu) = 0
9
…continuación MCO/OLS
El doble supuesto E(xu) = E(u) = 0 se
traduce en dos restricciones.
Y dado que: u = y – 0 – 1x,
podemos reescribir estas dos restricciones
en términos de x, 0 y :
E(u) = E(y – 0 – 1x) = 0
E(xu) = E[x(y – 0 – 1x)] = 0
Conocidas como las “restricciones de
momentos”
10
Derivación de MCO usando el
Método de Momentos (MOM)
(Breviario: el 1º, 2º, 3º y 4º momentos de una función de distribución
de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
El método de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la población, en los momentos de la muestra.
¿Pero cómo? Recuerden que un estimador
muestral de E(X), la media de una población, es
simplemente la media aritmética de la muestra.
11
Derivación de MCO / OLS
La idea es buscar parámetros que nos aseguren
que las restricciones de momentos se cumplan en
la muestra.
Las restricciones muestrales son (el gorrito denota
“parámetros estimados”):
n
n 1
i 1
y i
ˆ
0 ˆ x 0
1 i (1ª)
n
n 1
i i 0 1i
x
i 1
y ˆ ˆ x 0
(2ª )
12
Estimador MCO / OLS: intercepto
Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir la
primera restricción como sigue:
n
n 1
i 1
y ˆ
i 0 ˆ x 0
1 i
ˆ ˆ
y 0 1 x ,
o bien
ˆ y ˆ x
0 1
13
Derivación de MCO / OLS
Y ahora, sustituyendo 0 en la segunda restricción, tenemos:
n
n 1 xi yi ˆ0 ˆ1 xi 0
i 1
n
i i
x y
i 1
y ˆ x ˆ x 0
1 1 i
n n
x
i i y y ˆ
1 xi xi x
i 1 i 1
Aquí hay un paso “mágico” ver apéndice A.7 y A.8.
n n
xi x yi y 1 xi x
ˆ 2
i 1 i 1
14
…estimador MCO / OLS: pendiente 1
n n
̂1 xi x xi x yi y
2
i 1 i 1
n
x x y
i i y
cov( x, y )
ˆ1 i 1
n
var( x)
x x
2
i
i 1
n
x x
2
toda vez que x tenga varianza : i 0
i 1
15
Sobre el estimador MCO de 1
1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
Si x y y están correlacionados positivamente, 1
será positivo (pues la varianza del denominador
siempre es positiva).
Si x y y están correlacionados negativamente, 1
será negativo.
Si x y y no tienen correlación alguna, 1 no será
estadísticamente distinto de cero (volveremos a
esto más tarde).
Obviamente, requerimos que x tenga cierta varianza
en la muestra.
16
MCO / OLS
Intuitivamente, MCO ajusta una línea a
través de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mínima posible: de ahí el término
“mínimos cuadrados”.
El residual, û, es un estimado del término de
error entre lo observado y lo predicho, es
decir, la diferencia entre la línea de regresión
(fitted line) y el dato observado.
Ver gráfica...
17
Línea de regresión muestral, observaciones, y
residuales estimados
y
y4 .
û4 {
yˆ ˆ0 ˆ1 x
y3 .} û3
y2 û2 {.
y1
}
. û1
x1 x2 x3 x4 x
18
Un enfoque alternativo:
Minimizar residuales al cuadrado
Siguiendo la idea de ajustar una línea de regresión,
podemos plantear un problema de minimización.
Es decir, buscar parámetros tales que minimicen
la siguiente expresión:
n n
ui yi 0 1 xi
2
ˆ 2 ˆ ˆ
i 1 i 1
19
...continuación
Usando cálculo para resolver un problema de
minimización con dos parámetros resulta en dos
condiciones de primer orden (FOC)–similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:
n
y
i 1
ˆ
i 0 ˆ x 0
1 i
n
i i 0 1i
x y
i 1
ˆ ˆ x 0
20
Propiedades algebraicas de MCO / OLS
21
Propiedades algebraicas
(matemáticamente)
n
n uˆ i
x uˆ
i 1
i i 0 por tanto, cov (x,u) 0
y ˆ0 ˆ1 x
22
Suma de cuadrados: Terminología
Podemos separar cada observación en un componente
explicado (sistemático) y un componente no explicado :
yi yˆ i uˆi De modo que podemos definir lo siguiente :
y y es la Suma Total de cuadrados : SST
2
i
23
Demostración: SST = SSE + SSR
SST yi y yi yˆ i yˆ i y
2 2
uˆi yˆ i y
2
uˆ 2 uˆi yˆ i y yˆ i y
2 2
i
24
Bondad de ajuste: R2
¿Cómo saber qué tan bueno es el ajuste
entre la línea de regresión y los datos de la
muestra?
Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST
25
Haciendo regresiones con stata
Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros
parámetros de interés .
Podemos calcularlos “a mano” (muy tedioso),
o aplicar estas fórmulas en una hoja de
cálculo como excel (algo tedioso), o bien
usar un paquete estadístico estándar como
stata (muy fácil)
Para correr una regresión de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)
26
Sesgo y eficiencia de MCO
Dos características deseables de cualquier
estimador estadístico son:
Insesgamiento (unbiasedness): que el parámetro
estimado sea, en promedio, igual al “verdadero”
parámetro poblacional.
Eficiencia (efficiency): que la varianza del
estimador sea mínima (ie, máxima precisión).
Así, buscamos estimadores con sesgo mínimo y
máxima eficiencia (ie, mínima varianza).
MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.
27
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1. El modelo poblacional es lineal en sus
parámetros: y = 0 + 1x + u
2. Muestra aleatoria de tamaño n,
{(xi, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral
es: yi = 0 + 1xi + ui
3. Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
28
Insesgamiento de MCO
Para analizar el sesgo del estimador, necesitamos
reescribirlo en términos del parámetro poblacional.
De modo que reescribimos la fórmula para 1 como:
x x y
ˆ1 i
2
i
, donde
s x
s xi x
2 2
x
29
Insesgamiento de MCO (cont.)
Sustituyendo para yi, el numerador de la expresión anterior
puede descomponerse como sigue:
x x y x x x u
i i i 0 1 i i
x x x x x x x u
i 0 i 1 i i i
x x x x x x x u
0 i 1 i i i i
30
Insesgamiento de MCO (cont.)
Por estadístic a básica, sabemos que :
x x 0, y
i
x xx x x
2
i i i s x2
de modo que el numerador puede reescribirse así :
1s x2 xi x ui , y por lo tanto
x x u
ˆ1 1 i i
s x2
31
Insesgamiento de MCO (cont.)
Finalmente, si definimos d i xi x , de modo que
1
i 1 2 d i ui , y aplicamos valor esperado :
ˆ
sx
ˆ
E 1 1
1
2 d i E ui 1
sx
El operador E(.) aplica a ui, el único componente aleatorio de la
expresión.
El valor esperado de la estimada es el “verdadero” parámetro
poblacional—toda vez que los 4 supuestos Gauss-Markov se
cumplan.
32
Insesgamiento: resumen
Los estimadores MCO de 1 y 0 son
insesgados.
La demostración de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente será
insesgado.
El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
éste puede estar cerca o lejos del verdadero
parámetro poblacional.
33
Varianza de los estimadores MCO
Ya vimos que la “distribución muestral” de
nuestro estimador está centrada en torno al
“verdadero” parámetro.
¿Qué tan dispersa será la distribución del
estimador?
Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5º):
var(u|x) = 2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
34
Varianza de MCO (cont.)
Por estadística sabemos que:
2 = Var(u|x) = E(u2|x)-[E(u|x)]2
Y como E(u|x) = 0, entonces:
2 = E(u2|x) = E(u2) = Var(u)
De modo que 2 es la varianza no condicional de los
residuales, también llamada varianza del error.
, la raíz cuadrada de la varianza del error, se conoce
como la desviación estándar del error.
Con lo cual podemos decir que:
E(y|x)=0 + 1x
Var(y|x) = 2
35
Homoscedasticidad
y
f(y|x)
. E(y|x) = + x
.
0 1
x1 x2
36
Heteroscedasticidad
f(y|x)
y
.
. E(y|x) = 0 + 1x
.
x1 x2 x3 x
37
Varianza de MCO (cont.)
ˆ 1
Var 1 Var 1
s
2 d i ui
x
2 2
2 Var d i ui
1 1
sx
2
sx
i Var ui
d 2
2 2
1 1
2
sx
d sx2
i
2 2 2
i
d 2
2
1 2 2 ˆ
2
2 sx 2 Var 1
sx sx
38
Varianza de MCO: resumen
40
Estimación de la varianza del error
uˆi yi ˆ0 ˆ1 xi , y sustituyendo para yi
x u ˆ ˆ x
0 1 i i 0 1 i
ui ˆ0 0 ˆ1 1 xi
por insesgamiento, ambos paréntesis se eliminan...
de modo que un estimador insesgado de 2 es :
1 SSR
ˆ
2
n 2 uˆi
2
n 2
41
Estimación de la varianza del error
error estándar de la regresión
ˆ ˆ 2
se ˆ1
ˆ
x x
i
2
1
2
42
Apéndice A.
Propiedades del operador Suma
43
Apéndice A.
Propiedades del operador Suma
44