You are on page 1of 46

BANCO CENTRAL DE RESERVA DEL PER

Curso de Actualizacin en Economa 2016


Econometra
Profesor Diego Winkelried (Universidad del Pacfico)

Notas de clase

Algebra matricial

Estas notas presentan resultados de lgebra matricial que sern de utilidad para el curso de Econometra.
1.1

Productos matriciales

Los productos matriciales son multiplicaciones del tipo fila-columna. Sea A una matriz de dimensin n m cuya
i-sima fila es el vector ai 0 (es decir, ai Rm es la i-sima columna de A0), sea C una matriz de orden r s cuya
i-sima fila es el vector c i 0 (c i Rs ) y sea B una matriz de dimensin n r con elemento tpico bi j . As
A0BC =

n X
r
X

bi j a i c j 0 .

(1)

i=1 j=1

1.2

Rango

El rango de una matriz A de dimensin n r (r n) es definido como el nmero de columnas (o filas) linealmente
independientes y se denota como rk(A). Obviamente, rk(A) r . Cuando rk(A) = r se dice que A tiene rango
completo. Una propiedad de utilidad es que rk(A) = rk(A0A).
1.3

Inversa

La inversa de una matriz cuadrada A de dimensin n n es otra matriz (nica) de dimensin n n denotada como
A1 que satisface AA1 = A1A = I n . La inversa no siempre existe. Cuando A1 no existe se dice que A es una
matriz singular, mientras que de existir la inversa A es no singular.
Una matriz cuadrada es no singular si tiene rango completo, rk(A) = n, lo que significa que no existe ningn vector
c , 0 tal que Ac = 0. Si tal vector existiera, entonces A sera singular y por tanto rk(A) < n.
Algunas propiedades de la inversa (para A y B no singulares):
(A0 ) 1 = (A1 ) 0 .
(AB) 1 = B 1A1 .
(A + B) 1 = A1 (A1 + B 1 ) 1 B 1 .
A1 (A + B) 1 = A1 (A1 + B 1 )A1 .

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 1 - Algebra matricial

La inversa de una matriz puede calcularse como


A1 =

adjA
,
det A

donde adjA es la matriz adjunta de A (la traspuesta de la matriz de cofactores de A). La matriz adjunta siempre
existe y se concluye que una condicin suficiente para la existencia de la inversa es det A , 0.
En general, es tedioso calcular adjA, con la excepcin de una matriz de 2 2 (se intercambian los elementos de la
diagonal principal y se cambia el signo a los elementos de la diagonal secundaria):
"
#
"
#
"
#
1
a b
d b
d b
1
Si A =
,
adjA =
por tanto
A =
.
(2)
c d
c a
ad bc c a
1.4

Inversa y determinante de matrices estructuradas

Un resultado de inters es la frmula de Woodbury


(A + BCD) 1 = A1 A1 B(C 1 + DA1 B) 1 DA1 ,

(3)

de donde se deduce que, para dos vectores b y d


!
1
0 1
1
A1bd 0A1 ,
(A bd ) = A
1 d 0A1b

(4)

un resultado conocido como la frmula de ShermanMorrison. Asimismo,


det(A BCD) = det A det(I CDA1 B) .

(5)

Por su parte, dos igualdades relacionadas con una matriz simtrica particionada son:
"

A B
B0 C

# 1

"
=

A1 0
0 0

"
+

A1 B
I

#
W 1

B 0A1 I

(6)

y
"
det

A B
B0 C

#
= det A detW

(7)

donde W = C B 0A1 B es el complemento de Schur de la matriz A.


1.5

Valores y vectores propios

La ecuacin caracterstica de una matriz cuadrada A de orden n es


det(A I n ) = 0 .
El lado izquierdo es un polinomio de grado n en que contiene exactamente n races, reales o complejas. Estas
races son los valores propios de A. Por construccin, si i es un valor propio de A, (A i I n ) es singular y por
tanto existe un vector hi , 0 que satisface
(A i I n )hi = 0

o, alternativamente,

Ahi = i hi .

El vector hi es el vector propio de A asociado con i . Usualmente hi es normalizado tal que khi k = 1.
Sea una matriz diagonal de orden n que contiene sobre la diagonal los valores propios de A, []ii = i y []i j = 0
para i , j. Asimismo, defina H como la matriz cuadrada de orden n cuyas columnas vienen dadas por los vectores
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 1 - Algebra matricial

propios correspondientes, H = [ h 1 h 2 hn ]. Si todos valores propios de A son distintos, entonces H es no


singular y A presenta la siguiente descomposicin espectral
A = H 1 H

o, anlogamente,

= HAH 1 .

(8)

Si A es simtrica, entonces hi0h j = 0 para todo i , j. Ello implica que H es una matriz ortogonal, H 1 = H 0:
A = H 0H

= HAH 0

cuando A es simtrica .

(9)

Algunas propiedades importantes:


Los valores propios de A1 son i1 , esto es los recprocos de los valores propios de A: A1 = H 1 1H .
Los valores propios de Ak son ki , esto es los valores propios de A a la k-sima potencia: Ak = H 1 k H .
A es no singular si y slo si todos sus valores propios son i , 0.
El rango de A es el nmero de valores propios distintos de cero.
Q
det(A) = det() = ni=1 i .
Si A es idempotente, AA = A, entonces i = 1 i = 0.
Si A es ortogonal, A0A = AA0 = I n , entonces i = 1.
1.6

Matrices definidas

Una matriz cuadrada y simtrica A es semidefinida positiva (A  0) si para todo vector c , 0 se cumple que la
forma cuadrtica c 0Ac 0. Por su parte, A es definida positiva (A  0) si la desigualdad es estricta c 0Ac > 0.
Igualmente, una matriz cuadrada A es semidefinida negativa (A  0) si c 0Ac 0, mientras que A es definida
negativa (A 0) si c 0Ac < 0. Una matriz no es definida si c 0Ac 0 para algunos vectores c y c 0Ac 0 para otros.
Entre las propiedades ms importantes se tiene:
Si A = B 0B para cualquier matriz B, entonces A  0: para cualquier c , 0, c 0Ac = d 0d 0, donde d = Bc.
Si B es de rango completo (es no singular), entonces A  0.
Si A  0, entonces A es no singular y A1 es tambin definida positiva.
A  0 [resp., A 0] si todos sus valores propios son positivos [negativos].
A  0 [resp., A  0] si todos sus valores propios son positivos [resp., negativos] y al menos uno es igual a
cero. Es decir, una matriz semidefinida es singular.
Si A  0, es posible encontrar una matriz B tal que A = BB 0. Usualmente, B se denomina raz cuadrada
de A y no es necesariamente nica. Una manera comn de encontrar B es inspirada por la descomposicin
espectral (9): B = H 1/2 .
A B  0 si y slo si B 1 A1  0.
1.7

Traza

La traza de una matriz cuadrada A = [ai j ] es la suma de los elementos de la diagonal:


tr(A) = a 11 + a 22 + . . . + ann .

(10)

Algunas propiedades importantes de este operador son:


tr(A + B + C) = tr(A) + tr(B) + tr(C)
Bajo la traza el producto matricial es cclicamente conmutativo: tr(ABC) = tr(BCA) = tr(CAB).
Para dos matrices semidefinidas positivas, 0 tr(AB) tr(A)tr(B).
De la segunda propiedad se desprenden los siguientes colorarios:
Para un vector y de dimensin n, y 0Ay = tr(y 0Ay) = tr(Ayy 0 ).
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 1 - Algebra matricial

P
tr(A) = ni=1 i , donde i son los valores propios de A. Para ello, note que A = H H 1 , donde es la matriz
diagonal cuyo i-simo es i . Luego, tr(A) = tr().
Si A es idempotente, tr(A) = rk(A). Ello se debe a que los valores propios de A son en este caso iguales a 0
1. El nmero de valores propios distintos de cero (es decir, iguales a 1) corresponde al rango de A.
1.8

Clculo vectorial

Sea x Rn y defina una funcin : Rn R. El vector de primeras derivadas o gradiente (x )/x tiene como
i-simo elemento (x )/x i , mientras que la matriz de segundas derivadas o Hessiano 2(x )/x x 0 es simtrica
y contiene como (i, j)-simo elemento 2(x )/x i x j .
Algunos resultados son:
x 0a a 0x
x 0a a 0x
=
= a0 ,
=
= a y, anlogamente,
x
x
x 0
x 0
Ax
Ax

= A0 y, anlogamente,
= A0 ,
x
x 0
x 0Ax
= A + A0 .

x
Es bueno notar que las segundas derivadas vectoriales en el Hessiano implican dos operaciones: primero,
diferenciacin y segundo post o pre multiplicacin. El resultado de primera diferenciacin, asociada con x, entra
premultiplicando mientras que el resultado de la segunda diferenciacin, asociada con x 0, entra postmultiplicando.
Esta manera de computar la matriz de segundas derivadas es particularmente til al combinarla con la regla de la
cadena. Por ejemplo,
!
2x 0Ax
(A + A0 )x
x 0Ax
=
=
= A + A0 .
x x 0
x
x 0
x

Otros ejemplos ilustrativos son:


2 (x 0a) 2
x x 0

2 log(x 0a)
x x 0

2 exp(x 0a)
x x 0

1.9

!
(x 0a) 2
(x 0a) 2 x 0a
(x 0a) 0
=
=
2
a = 2aa 0 .
x
x 0
x (x 0a) x 0
x
!
!
log(x 0a)
log(x 0a) x 0a
a0
(x 0a) a 0
aa 0
=
=
=

.
x
x 0
x (x 0a) x 0
x x 0a
x (x 0a) 2
(x 0a) 2
!
exp(x 0a)
exp(x 0a) x 0a exp(x 0a) 0 exp(x 0a) (x 0a) 0
=
=
a =
a = exp(x 0a)aa 0 .
x
x 0
x (x 0a) x 0
x
(x 0a)
x

Teorema del valor medio

Sea f (x ) una funcin escalar de la variable escalar x y suponga que f () es continua y diferenciable en el intervalo
x [a,b]. Luego, si f 0 (x ) denota la derivada de f () respecto a x, existe un punto c [a,b] tal que
f (a) = f (b) + f 0 (c)(a b) .

(11)

Al resultado en (11) se le conoce como expansin del valor medio.


El teorema del valor medio se aplica tambin a funciones vectoriales. Sea f : Rn Rm una funcin vectorial que
da como resultado f (x ) Rm tras ser evaluada en el vector x Rn . Se asume que f () es continua y diferenciable
en un conjunto convexo que contiene los vectores a y b. Defina J (x ) como el Jacobiano de f (), es decir la matriz
de dimensin m n que contiene las derivadas de los elementos de f (x ) respecto a los elementos de x. As,
f (a) = f (b) + J (c)(a b) .

(12)

donde cada elemento del vector c se encuentra en el segmento que conecta los elementos correspondientes de los
vectores a y b. Es decir, c i = i ai + (1 i )bi y por tanto c i [ai ,bi ], donde x i denota al i-simo elemento de x
(para x = a,b,c) y i [0, 1] (para i = 1, 2, . . . ,n).
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

BANCO CENTRAL DE RESERVA DEL PER


Curso de Actualizacin en Economa 2016
Econometra
Profesor Diego Winkelried (Universidad del Pacfico)

Notas de clase

Conceptos generales de estadstica multivariada

A continuacin se repasan algunos conceptos de estadstica multivariada. Se trabajar con dos variables aleatorias,
w e y, y ocasionalmente se har referencia al comportamiento de un grupo de variables aleatorias recogidas en el
vector w junto con un conjunto de otras variables aleatorias recogidas en el vector y.
2.1

Funciones de probabilidad o funciones de distribucin

Sea f (w,y) la funcin de densidad conjunta de dos variables aleatorias w e y. Esta funcin dicta el comportamiento
aleatorio de w e y y define cmo una depende de la otra. Por su parte, defina f (w ) y f (y) como las respectivas
funciones de densidades marginales. Las distribuciones marginales rescatan el comportamiento de una de las
variables, una vez que se toma en cuenta todos los posibles eventos que ocurrirn con la otra. Estas funciones se
definen como
Z
Z
f (w ) =
f (w,y) d y
y, de la misma manera,
f (y) =
f (w,y) d w .
(1)
La integracin es el modo de descontar toda la influencia de una variable aleatoria sobre la otra.
Finalmente, la funcin de densidad condicional de w dado y, denotada por f (w | y), da cuenta del comportamiento
de w tomando a y como dado (es decir, ignorando la aleatoriedad en y). Obviamente, los momentos de f (w | y) son
funciones de y. Por la ley multiplicativa de probabilidades, f (w,y) = f (w | y) f (y), se deduce que
f (w | y = y)
=

f (w, y)

f (y)

y, anlogamente,

f (y | w = w ) =

f (w,y)

,
f (w )

(2)

para los puntos en donde f (y)


, 0 y/o f (w ) , 0.
2.2

Expectativa

Dada una variable aleatoria w y una funcin (), puede crease una nueva variable aleatoria (w ). La expectativa o
valor esperado de (w ) es un promedio ponderado de todos los posibles valores de (w ), donde las ponderaciones
vienen dadas por la probabilidad de ocurrencia de los diversos valores que puede tomar (w ):
Z
E( (w ) ) =
(w ) f (w ) d w .
(3)

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 2 - Conceptos generales de estadstica multivariada

A menudo al valor esperado de w, es decir E( w ) =

w f (w ) d w, se le conoce como media poblacional.

En el caso de contar con una funcin de densidad bivariada, por ejemplo de w e y, el valor esperado de una funcin
arbitraria (w,y) se define como
Z Z
E( (w,y) ) =
(w,y) f (w,y) d w d y ,
(4)
definicin que se extiende naturalmente a integrales de rdenes superiores. En general, si w denota un vector de
variables aleatorias, (3) se generaliza a
Z
E( (w ) ) =
(w ) f (w ) d w .
(5)
donde se entiende que la integracin es sobre cada elemento del vector w.
El operador de expectativas es tan slo una integral y como tal hereda sus propiedades. En particular, E( ) es un
operador lineal: si w 1 ,w 2 , . . . ,w p denotan vectores o matrices con elementos aleatorios y A1 ,A2 , . . . ,Ap ,B denotan
vectores o matrices confortables de constantes (elementos no aleatorios), es fcil verificar que
E( A1w 1 + A2w 2 + . . . + Ap w p + B ) = A1 E( w 1 ) + A2 E( w 2 ) + . . . + Ap E( w p ) + B .
2.3

(6)

Matriz de covarianzas

La varianza es la medida de dispersin ms popular. Para un escalar w, sta es definida como


V( w ) = E( (w E( w )) 2 ) = E( w 2 ) E( w ) 2 ,

(7)

y es siempre positiva, al menos que w no sea una variable aleatoria, en cuyo caso V( w ) = 0.
La covarianza entre dos variables aleatorias w e y es la medida de asociacin lineal relacionada:
C( w,y ) = E( (w E( w ))(y E( y )) ) = E( xy ) E( x )E( y ) .

(8)

La desigualdad de Cauchy-Schwarz implica que C( w,y ) 2 V( w )V( y ).


Para un vector w Rn , (7) se generaliza a una matriz de covarianzas de dimensin n n:
V( w ) = E( (w E( w ))(w E( w )) 0 ) = E( ww 0 ) E( w )E( w ) 0 .

(9)

El elemento (i,i) de V( w ) es igual a V( w i ), la varianza del i-simo elemento de w, mientras que el elemento (i, j)
contiene la covarianza entre w i y w j . Debido a que C( w i ,w j ) = C( w j ,w i ), la matriz de covarianzas V( w ) es
necesariamente simtrica.
Considere un vector de variables aleatorias de dimensin m 1 que es formado por combinaciones lineales de los
elementos del vector w (de dimension n 1), y = Aw donde A es una matriz de constantes de dimensin m n.
Luego, la matriz de covarianzas de y de dimensin m m viene dada por
V( y ) = E( yy 0 ) E( y )E( y ) 0 = E( Aww 0A0 ) E( Aw )E( w 0A0 ) = AV( w )A0 .

(10)

En el clculo anterior la matriz A no es afectada por la expectativa al no contener elementos aleatorios. El resultado
(10) se conoce como la forma sandwich de la matriz de covarianzas. sta es una generalizacin del resultado escalar
V( aw ) = a 2 V( w ) para una constante a.
El resultado en (10) permite concluir que las matrices de covarianza son, en general, definidas positivas. Considere al
vector aleatorio w y un vector de constantes a. El escalar a 0w es una variable aleatoria formada por una combinacin
lineal arbitraria de los elementos del vector w. Como tal, su varianza debe ser positiva. Utilizando la forma sandwich
se tiene luego que
V( a 0w ) = a 0V( w )a > 0 .

(11)

Dado que a es arbitrario, la desigualdad en (11) se cumple si y slo si V( w ) es definida positiva, ver seccin 1.6.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 2 - Conceptos generales de estadstica multivariada

2.4

Error cuadrtico medio

La pregunta de cun cerca se encuentran dos variables aleatorias es central en estadstica. El objetivo de los
ejercicios de inferencia es encontrar variables aleatorias observadas que sean cercanas a otras variables aleatorias
no observadas o a parmetros (desconocidos) de inters. Estas variables aleatorias de denominan estimadores
cuando la cantidades no observadas son parmetros (no aleatorios), mientras que se llaman predictores si las
variables no observadas son aleatorias. El error cuadrtico medio es un criterio de cercana muy difundido y al
que prestaremos especial atencin en este curso.
Sea q el estimador (o predictor) de (no observable). El error cuadrtico medio de q es
ECM( q, ) = E( (q ) 2 ) .

(12)

As, el estimador (o predictor) q es mejor que la alternativa q si ECM( q, ) < ECM( q,


). Note que mejor se
refiere a que q est ms cerca de que q,
de acuerdo con la distancia esperada tomada como criterio en (12).
Considere ahora el caso multivariado, donde q es el estimador (o predictor) del vector (no observable). El error
cuadrtico medio matricial es
ECM( q, ) = E( (q )(q ) 0 ) .

(13)

No es difcil verificar que


ECM( q, ) = V( q ) + E( q )E( q ) 0 ,

(14)

es decir, el error cuadrtico medio es la suma de un componente de varianza ms un componente de sesgo (al
cuadrado). Cuando no es aleatorio, el caso ms estudiado en este curso, (14) se simplifica a
ECM( q, ) = V( q ) + ( E( q ) )( E( q ) ) 0 .

(15)

Note que si q es insesgado, E( q ) = , el error cuadrtico medio coincide con la matriz de covarianzas de q.
) ECM( q, ) es una matriz semidefinida positiva .
En general, q ser preferible a la alternativa q si ECM( q,
Este postulado es equivalente a la siguiente condicin: para toda matriz semi definida positiva A,
E( (q ) 0A(q ) ) E( (q ) 0A(q ) )

) ECM( q, )  0 ,
si y slo si ECM( q,

por lo que pasamos de un criterio de comparacin matricial a uno escalar. Cuando A = I las formas cuadrticas
anteriores se suelen llamar funcin de riesgo.
Asimismo, utilizando A = aa 0, donde a es un vector, es posible estudiar comparaciones de combinaciones lineales
de , a 0 . Dado que ECM( a 0q,a 0 ) = a 0ECM( q, )a, se concluye que
) ECM( q, ))a 0
0 ) ECM( a 0q,a 0 ) = a 0 (ECM( q,
ECM( a 0q,a
si y slo si
2.5

) ECM( q, )  0 . (16)
ECM( q,

Mtodo de momentos

El r -simo momento poblacional de w es definido como


Z
r
r = E( w ) =
w r f (w ) d w .

(17)

Un momento tiene una contraparte muestral. Si se tiene informacin de n observaciones, el r -simo momento
muestral es
n
1X
mr =
(w i ) r .
(18)
n i=1
El mtodo de momentos es un principio de estimacin que consiste en igualar los momentos poblacionales, que
dependen de parmetros desconocidos, con los momentos muestrales. Es decir, el valor de que resuelve igualdades
del tipo mr = r ( ) es un estimador del mtodo de momentos.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 2 - Conceptos generales de estadstica multivariada

2.6

Ley de expectativas iteradas

La ley de expectativas iteradas (LEI) provee un mtodo para computar expectativas que involucran mltiples
variables aleatorias. Sean w e y dos variables aleatorias cuya funcin densidad conjunta es f (w,y). Si se desea
calcular la expectativa de w, la LEI indica que primero puede calcularse (y) = Ew ( w | y ), que es una funcin
exclusivamente de y (ya que w fue integrada), y luego calcular Ey ( (y) ). Formalmente,
E( w ) = Ey ( Ew ( w | y ) ) .

(19)

Los subndices en las expectativas son slo indicativos. La demostracin utiliza propiedades de integracin doble y
distribuciones multivariadas (seccin 2.1):
Ey ( Ew ( w | y ) ) =

Ew ( w | y ) f (y) d y
#
Z "Z
Z Z
=
w f (w | y) d w f (y) d y =
w f (w | y) f (y) d w d y
Z Z
Z Z
=
w f (w,y) d w d y =
w f (w,y) d y d w
"Z
#
Z
Z
=
w
f (w,y) d y d w =
w f (w ) d w = E( w ) .

La LEI se generaliza naturalmente a ms de dos variables: E( w ) = E( E( w | y ) ) donde w e y son vectores de


dimensin arbitraria, ver (5).
2.7

Independencia

La nocin de independencia en estadstica apunta a que el comportamiento aleatorio de w ser el mismo sin importar
lo que suceda con y. Ello ocurre cuando la funcin de probabilidad condicional es idntica a la funcin de densidad
marginal. Formalmente,
f (w | y) = f (w )

si w e y son independientes .

(20)

Una consecuencia importante de (20) y de la descomposicin f (w,y) = f (w | y) f (y) es


f (w,y) = f (w ) f (y)

si w e y son independientes .

(21)

Es decir, si w e y son independientes, la funcin de densidad conjunta es igual al producto de las respectivas
funciones marginales.
Independencia y expectativas

De (20) se desprende que, para cualquier funcin () bien comportada en el soporte de w,


Z
Z
E( (w ) | y ) =
(w ) f (w | y) d w =
(w ) f (w ) d w = E( (w ) ) .

(22)

La relacin del tipo f (w | y) = f (w ) se cumple tambin al nivel de expectativas.


Por su parte, combinando (22) con la LEI, se obtiene para dos funciones () y h() cualesquiera,
E( (w )h(y) ) = Ey ( E( (w )h(y) | y ) ) = Ey ( E( (w ) | y )h(y) ) = Ey ( Ew ( (w ) )h(y) ) = E( (w ) )E( h(y) ) . (23)
La relacin del tipo f (w,y) = f (w ) f (y) se cumple tambin al nivel de expectativas.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

NC 2 - Conceptos generales de estadstica multivariada

Independencia y covarianza

La covarianza (y, por tanto la correlacin) entre dos variables aleatorias independientes es cero: Si w e y son
independientes, de (23) se concluye que E( xy ) = E( w )E( y ) y, por tanto, C( x,y ) = E( xy ) E( w )E( y ) = 0.
El resultado converso no es necesariamente cierto. El hecho que C( w,y ) = 0 no implica necesariamente que w e y
sean independientes. Considere un contraejemplo: sean w e y dos variables aleatorias discretas tal que
- y toma los valores de 1 2 con igual probabilidad;
- una vez obtenido el valor de y, w toma los valores de y o y con igual probabilidad.
En este caso E( w | y = 1 ) = E( w | y = 2 ) = 0, es decir la expectativa condicional es independiente de y. Para
obtener E( w ) note que existen cuatro posible valores para w, cada uno con probabilidad 41 . As,
E( w ) =

1
4

(1 1 + 2 2) = 0.

De este modo se obtiene que E( w ) = E( w | y = y ) para todo y:


la expectativa condicional es igual a la
incondicional, un resultado parecido a (22). No obstante, por construccin w e y no son independientes. Si lo
fueran, se tendra que
Pr( w = 1, y = 2 ) = Pr( w = 1 ) Pr( y = 2 ) > 0 ,
igualdad que no se cumple ya que cuando y = 2 es imposible observar w = 1, por tanto Pr( w = 1, y = 2 ) = 0.
Lo que ocurre en este contraejemplo es que y afecta la variabilidad de w pero no su media (diferentes valores de y
resultan en diferentes distribuciones de w que son ms o menos disperas alrededor de la media cero). De este modo,
existe dependencia entre w e y que se manifiesta a travs del segundo momento, la informacin sobre y no ayuda a
predecir la media de w.
2.8

Media condicional

Como se aprecia en la demostracin de la LEI lneas arriba, la expectativa condicional E( w | y ) es simplemente


una expectativa ordinaria calculada utilizando la distribucin condicional f (w | y).
la expectativa condicional E( w | y ) es, como cualquier otra expectativa, determinstica o no
Para un valor dado y,
aleatoria. Sin embargo, si se considera la expectativa de w condicional a toda posible realizacin de y, E( w | y ) es
una nueva variable aleatoria al ser una funcin (determinstica) de la variable aleatoria y.
Una propiedad (un poco obvia) de expectativas condicionales es que para cualquier funcin determinstica h(),
E( h(y) | y ) = h(y). As,
E( h(y)w | y ) = h(y)E( w | y ) .

(24)

Una consecuencia de este resultado junto con la LEI es que si E( w | y ) = E( w ), entonces para cualquier h():
E( h(y)w ) = E( E( h(y)w | y ) ) = E( h(y)E( w | y ) ) = E( h(y)E( w ) ) = E( h(y) )E( w ) .

(25)

La condicin E( w | y ) = E( w ) se denomina independencia de w e y en media condicional y es un requerimiento


ms fuerte que la simple falta de correlacin w no slo no est correlacionado con y sino con toda funcin que
dependa de y, C( h(y),w ) = 0 pero ms debil que independencia en distribucin, ver (20).
2.9

Varianza condicional

La varianza condicional del vector w dado el vector y es V(w | y) = E( ww 0 | y ) E( w | y )E( w | y ) 0. sta, al


igual que E( w | y ), es claramente una funcin de y. Utilizando la LEI es posible mostrar el siguiente resultado:
V( w ) = E( V( w | y ) ) + V( E( w | y ) ) .

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

(26)

NC 2 - Conceptos generales de estadstica multivariada

2.10

Expectativas como predictores

Las expectativas y expectativas condicionales tienen propiedades de optimalidad como predictores.


Suponga que desea predecir una variable aleatoria w mediante una constante Cul es el valor ptimo de si la
bondad de la prediccin se mide en trminos del error cuadrtico medio E( k w k 2 )? Note que
(w ) 2 = [ (w E( w )) (E( w ) ) ]2 = (w E( w )) 2 + (E( w ) ) 2 2(w E( w ))(E( w ) ) ,
de modo que al tomar expectativas se tiene
E( (w ) 2 ) = V( w ) + (E( w ) ) 2 .
El primer trmino, V( w ), no depende de , mientras que el segundo es minimizado cuando = E( w ). El valor
esperado de w es, pues, la constante que como predictor minimiza el error cuadrtico medio.
Un caso ms interesante se da cuanto se desea predecir w no en trminos de una constante sino de una funcin del
vector aleatorio y, h(y). Siguiendo un procedimiento similar al anterior, se tiene que
(w h(y)) 2 = [ ( w E( w | y ) ) ( E( w | y ) h(y) ) ]2
= ( w E( w | y ) ) 2 + ( E( w | y ) h(y) ) 2 2( w E( w | y ) )( E( w | y ) h(y) ) .
La expectativa del tercer trmino es igual a cero. Para corroborar esta afirmacin aplique la LEI junto con (24),
E( ( w E( w | y ) )( E( w | y ) h(y) ) ) = E( E( ( w E( w | y ) )( E( w | y ) h(y) ) | y ) )
= E( E( ( wE( w | y ) ) | y )( E( w | y )h(y) ) ) = E( ( E( w | y )E( w | y ) )( E( w | y )h(y) ) ) = E( 0 ) = 0.
De este modo,
E( (w h(y)) 2 ) = E( ( w E( w | y ) ) 2 ) + E( ( E( w | y ) h(y) ) 2 )
es minimizado por h(y) = E( w | y ). El mejor predictor de w basado en la informacin contenida en y es la
expectativa condicional.
Defina u = w E( w | y ). Se tienen las siguientes propiedades:
E( u | y ) = 0 ya que E( u | y ) = E( w | y ) E( E( w | y ) | y ) = E( w | y ) E( w | y ) = 0.
E( u ) = 0, lo que se desprende por la LEI: E( u ) = E( E( u | y ) ) = E( 0 ) = 0. Es decir, el error de prediccin
u y el vector y son independientes en media condicional.
Se desprende adems que E( u h(y) | y ) = 0 y del mismo modo que E( u h(y) ) = 0 para cualquier funcin
h()).
Finalmente, u e y no estn correlacionados: C( u,y ) = E( u y ) E( u )E( y ) = 0.
Estos resultados tienen la siguiente interpretacin: u es el error de la mejor prediccin de w basada en y. Si u tuviera
alguna dependencia con y, por ejemplo estuviera correlacionado con y, entonces podra utilizarse esta dependencia
para mejorar la proyeccin basada en y. Dado el carcter de ptimo de E( w | y ), tal dependencia no debe existir.
2.11

Esperanza de una forma cuadrtica y estimador de varianzas

Suponga que se dispone de un vector w de dimensin n 1 tal que E( w ) = y V( w ) = . Defina la


forma cuadrtica Q = w 0Aw, donde A es una matriz simtrica de dimensin n n. Utilizando la identidad
E( ww 0 ) = 0 + (que proviene de la definicin de la matriz de covarianzas) y el hecho que Q = tr(Q ) ya
que Q es un escalar, se consigue el siguiente resultado de importancia:
E( Q ) = E( tr(Q ) ) = E( tr(Aww 0 ) ) = tr( AE( ww 0 ) ) = 0A + tr(A) .

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

(27)

10

NC 2 - Conceptos generales de estadstica multivariada

Estimador de varianza

Una aplicacin interesante del resultado anterior se da cuando A = I n 1n 1n 0/n, donde 1n es un vector de dimensin
P
n 1 lleno de unos. Dado que 1n 0w = ni=1 w i , donde w i es el i-simo elemento de w, 1n se conoce como un vector
suma. Por otro lado, es sencillo verificar que en este caso A es simtrica e idempotente. As, la forma cuadrtica
puede escribirse como Q = w 0A0Aw = (Aw ) 0 (Aw ) y equivale al producto interno del vector Aw (es decir, Q es la
suma de cuadrados de los elementos de Aw). Defina a w = 1n 0w/n como el promedio de todos los elementos de w.
Con ello, Aw = w 1n w,
de modo que el i-simo elemento de Aw es w i w.
La forma cuadrtica es, pues, igual a
la suma de los cuadrados de los desvos de los elementos de w respecto a su promedio,
Q=

n
X

(w i w ) 2 .

i=1

Usualmente, se tiene que todos los elementos de w provienen de una misma distribucin y no se encuentran
correlacionados entre ellos. En este caso, = 1n (la media es el mismo escalar para todo w i ) y = 2 I n (la
varianza de w i es 2 para todo i, y la covarianza entre w i y w j , i , j, es cero). Luego, evaluando el resultado general
en este caso particular se consigue
E( Q ) = 2 1n 0A1n + 2 tr(A) = 2 (n 1) ,
donde se han utilizado los resultados A1n = 0 y tr(A) = n 1 (por ser una matriz idempotente). En consecuencia,
se tiene que s 2 = Q/(n 1) es un estimador insesgado de 2 : E( s 2 ) = E( Q )/(n 1) = 2 .
2.12

Momentos de un promedio

Los promedios juegan un rol fundamental en la teora estadstica. Nuevamente, considere un vector w de dimensin
n 1 tal que E( w ) = y V( w ) = . Asimismo, su promedio es igual a w = 1n 0w/n. Note que w no es ms que
una combinacin lineal de los elementos de w.
En primer lugar,
n

E( w ) =

1n 0E( w ) 1n 0 1 X
=
=
i .
n
n
n i=1

(28)

La expectativa del promedio es igual al promedio de expectativas (ambos operadores son lineales). En el caso
particular en el que i = para todo i, se tiene que w es un estimador insesgado de , E( w ) = .
En segundo lugar, utilizando la forma sandwich de la matriz de covarianzas,
!
n
n
n
1n 0w
1n 0 1n
1 X
2 X X
V( w ) = V
=
=

+
i j ,
ii
n
n2
n2 i=1
n2 i=1 j=i+1

(29)

donde i j es el (i, j)-simo elemento de , y se ha utilizado el hecho que i j = ji . El resultado (29) es una
expresin muy general que en la prctica se ve simplificada cuando se imponen supuestos sobre la naturaleza de los
elementos de w. Por ejemplo, si se asume que estos elementos no se encuentran correlacionados, i j = 0 para todo
i , j, se tiene que
V( w ) =

1
n

n
1
ii ,
n i=1

es decir, la varianza del promedio es 1/n veces el promedio de las varianzas de los elementos de w. Si se asume,
adems, homocedasticidad (ii = para todo i) se llega al resultado ms familiar
V( w ) =

.
n

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

11

Pgina en blanco

BANCO CENTRAL DE RESERVA DEL PER


Curso de Actualizacin en Economa 2016
Econometra
Profesor Diego Winkelried (Universidad del Pacfico)

Notas de clase

Resultados sobre distribuciones especficas

A continuacin se revisan propiedades importantes de variables normalmente distribuidas y distribuidas como chicuadrado. Ambas son de primera importancia en el anlisis economtrico.
3.1

Variables normalmente distribuidas

Sea w Rn un vector cuyos elementos son normalmente distribuidos con media E( w ) = Rn y varianza
V( w ) = (una matriz definida positiva de dimensin n n). Ello se denota cotidianamente como w N (, ) ya
que y caracterizan completamente la distribucin de w. La funcin de densidad conjunta de w es
(
)
1
1
0 1
exp (w ) (w ) .
f (w ) =
(1)
2
( 2 ) n (det ) 1/2
Resultado 1: Combinaciones lineales

Las variables aleatorias obtenidas como combinaciones lineales de variables normalmente distribuidas, son
normalmente distribuidas. Es decir, si w N (, ) luego y = Aw N (A,AA0 ), donde A es una matriz
arbitraria de dimensin m n matrix (tal que y Rp ).
Corolario 1: Distribuciones marginales

Si w N (, ), entonces w i N ( i ,ii ), donde w i es el i-simo elemento de w, i es el i-simo elemento de


y ii es el elemento (i,i) de . Ello implica que la distribucin marginal de todo elemento w i (i = 1, 2, . . . ,n) es
tambin normal.
Esta proposicin se demuestra fcilmente al utilizar el Resultado 1 para un vector A de dimensin 1n que contiene
1 en la i-sima posicin y cero como cualquier otro elemento, tal que y = Aw = w i .
Ms an, bajo la misma lgica el Corolario se extiende a cualquier subconjunto de w. Considere por ejemplo
w = (w 1 ,w 2 ,w 4 ) 0 R3 . Luego w N (A,AA0 ), donde
1 0 0 0 0 0
A = 0 1 0 0 0 0 .
0 0 0 1 0 0

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

13

NC 3 - Resultados sobre distribuciones especficas

Resultado 2: Distribucin condicional

Suponga que w N (, ) y considere la siguiente particin


#
#
"
#
"
"
1
11 12
w1
.
,
=
y
=
w=
2
21 22
w2

(2)

La distribucin de w 1 condicional a w 2 es tambin normal, w 1 | w 2 N ( 1|2 , 1|2 ) donde


1|2 = 1 + 12 1
22 (w 2 2 )

1|2 = 11 12 1
22 21 .

(3)

Por definicin, la distribucin de w 1 condicional a w 2 (es decir, tomando w 2 como dado) es igual a
f (w 1 | w 2 ) =

f (w )
Distribucin conjunta entre w 1 y w 2
=
.
Distribucin marginal de w 2
f (w 2 )

Siguiendo el Corolario 1, se tiene que si w N (, ), entonces w 2 N ( 2 , 22 ). As,


(
)
1
0 1
(n
+n
)/2
1/2
1
2
(
)
(2 )
(det )
exp (w ) (w )
2
1
1
)
(
f (w 1 | w 2 ) =
exp B .
A
2
1
0
n
/2
1/2
2
(2 )
(det 22 )
exp (w 2 2 ) 22 (w 2 2 )
2
La siguiente igualdad sencilla de verificar se utiliza para obtener f (w 1 | w 2 ):
"
# "
# "
#
I n1
0
1|2 0
I n1 12 1
22

=
.
0
22
0
I n2
1
22 21 I n 2

(4)

(5)

donde la matriz 1|2 es definida en (3). Tomando determinantes a (5) ver ecuacin (7) se consigue
det = det 1|2 det 22 .

(6)

y, por consiguiente, el escalar A en (4) es igual a


A = (2 ) (n1 +n2 )/2n2 /2 (det / det 22 ) 1/2 = (2 ) n1 /2 (det 1|2 ) 1/2 .
Por su parte, tomando inversas a (5) y resolviendo para la inversa de se tiene que
"
# " 1
#"
#
I
0
1|2
0
I 12 1
1
22
=
.
0
I
1
0
1
22 21 I
22

(7)

(8)

Luego de postmultiplicar la primera matriz de (8) por el vector (w ) 0 y de premultiplicar la ltima por w se
obtiene
0 1
(w ) 0 1 (w ) = (w 1 1|2 ) 0 1
1|2 (w 1 1|2 ) + (w 2 2 ) 22 (w 2 2 ) ,

(9)

donde el vector 1|2 es definido en (3). De este modo, el escalar B en (4) es igual a
0 1
B = (w ) 0 1 (w ) (w 2 2 ) 0 1
22 (w 2 2 ) = (w 1 1|2 ) 1|2 (w 1 1|2 ) .

(10)

Resultado 3: Independencia

Anteriormente se concluy que un conjunto de variables aleatorias independientes mostraran covarianza igual a
cero, pero el resultado converso no era necesariamente cierto. El caso de variables normalmente distribuidas es
particular: si dos variables normales tienen covarianza cero entonces son independientes.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

14

NC 3 - Resultados sobre distribuciones especficas

Es sencillo verificar este resultado. Si 12 = 0 en la particin (2), entonces los momentos de la distribucin
condicional w 1 | w 2 en (3) se simplifican a 1|2 = 1 y 1|2 = 11 y, por consiguiente, la distribucin condicional
es idntica a la distribucin marginal, f (w 1 | w 2 ) = f (w 1 ), ver (20).
Alternativamente, cuando 12 = 0 en la particin (2), la forma cuadrtica de la distribucin conjunta puede
escribirse como la suma de dos formas cuadrticas:
0 1
(w ) 0 1 (w ) = (w 1 1 ) 0 1
11 (w 1 1 ) + (w 2 2 ) 22 (w 2 2 ) .

Asimismo, det = det 11 det 22 . De esta forma, es posible escribir la distribucin conjunta de w como el
producto de la distribucin de w 1 por la distribucin de w 2 , f (w ) = f (w 1 ) f (w 2 ).
Corolario 2

Bajo normalidad y la particin (2), las variables w 1 1 |2 y w 2 son independientes.


Para aliviar la notacin, defina w i = w i i para i = 1, 2. As,
2 ) = 12 12 = 0 .
2 )w 2 0 ) = E( w 1w 2 0 ) 12 1
C( w 1 1|2 ,w 2 ) = E( (w 1 12 1
22 V( w
22 w

(11)

Como era de esperar, w 1 1|2 puede entenderse como w 1 libre de toda influencia de w 2 .
3.2

Formas cuadrticas y distribucin chi-cuadrado

Considere un vector de n variables independientes y normalmante distribuidas, w N (,I n ). Luego, la distribucin


de la suma de cuadrados
w 0w = w 12 + w 22 + . . . + w n2 n2 ()

(12)

es chi-cuadrado no centrada con n grados de libertad y parmetro de no centralidad = 21 0 .


Si w N (0,I n ), la distribucin de w 0w n2 es chi-cuadrado (centrada) con n grados de libertad (el parmetro
de no centralidad es cero). En otras palabras, la distribucin chi-cuadrado proviene de la suma de cuadrados de
variables normales estndares independientes.
Momentos: Si w n2 (), entonces E( w ) = n + 2 y V( w ) = 2n + 8.
Resultado 1

Considere w N (,I n ). Luego, Q = w 0Aw v2 () donde = 21 0A si y slo si A es simtrica e idempotente de


rango v.
Para verificar este resultado, note que dado que A es simtrica e idempotente, se puede descomponer como
A = H H 0 donde es una matriz diagonal con elementos ii = 1 para i v (el rango de A) y ii = 0 para
i > v, y H es una matriz ortogonal H 0H = HH 0 = I n .
Defina y = H 0w tal que Q = w 0Aw = w 0H H 0w = y 0y. Note que y contiene variables normalmente distribuidas
con media y = E( y ) = H 0E( w ) = H 0 y varianza V( y ) = H 0V( w )H = H 0H = I n . Ms an,
Q = y 0y =

n
X
i=1

ii yi2 =

v
X

yi2 ,

i=1

por lo que Q es la suma del cuadrado de v variables normales independientes. El parmetro de no centralidad
satisface 2 = y 0 y = 0HH 0 = 0 . As, la distribucin de Q se desprende inmediatamente por la definicin de
la distribucin chi-cuadrado no centrada.
Como caso particular, si w N (0,I n ) entonces la forma cuadrtica Q = w 0Aw v2 se distribuye como chicuadrado con v grados de libertad si y slo si A es simtrica e idempotente de rango v.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

15

NC 3 - Resultados sobre distribuciones especficas

Resultado 2

Suponga que w N (, ) donde es la matriz de covarianzas (usualmente no singular) de orden n. Si A es


una matriz idempotente, la forma cuadrtica Q = w 0Aw se distribuye como chi-cuadrado con parmetro de no
centralidad = 12 0A y v = rk(A) grados de libertad.
Para el caso centrado, = 0, si w N (0, ) la forma cuadrtica Q = w 0Aw v2 donde v es el rango de A, si y
slo si A es idempotente.
Corolario del Resultado 2

Una aplicacin de este resultado es que si w N (, ) donde es no singular, entonces la forma cuadrtica
Q = w 0 1w se distribuye como n2 (), donde = 12 0 1 .
Una manera alternativa de llegar a esta conclusin sin utilizar el postulado del Resultado 2 es la siguiente: dado que
es definida positiva, puede escribirse como = L 0L lo que implica que 1 = (L1 )(L1 ) 0. Defina y = (L1 ) 0w
tal que Q = w 0 1w = w 0 (L1 )(L1 ) 0w = y 0y. Note que y contiene variables normalmente distribuidas con
media y = E( y ) = (L1 ) 0E( w ) = (L1 ) 0 y varianza V( y ) = (L1 ) 0V( w )(L1 ) = (L1 ) 0L 0L(L1 ) = I n .
El parmetro de no centralidad satisface 2 = y 0 y = 0 (L1 )(L1 ) 0 = 0 1 . As, distribucin de Q se
desprende inmediatamente de la definicin de la distribucin chi-cuadrado no centrada.
Resultado 3

Suponga que w N (, ). Luego, Q 1 = w 0Aw y Q 2 = w 0Bw son independentes si y slo si AB = 0.


3.3

Distribucin t de student

Si z N (0, 1) y V v2 son dos variables aleatorias independientes, entonces


r
v
=z
tv ,
V

(13)

es una distribucin t (de Student) con v grados de libertad.


 v 
Momentos: E( ) = 0 y V( ) =
.
v 2
El caso ms conocido de una variable distribuido como t es el siguiente. Suponga que w N (1n , 2 I n ).

Luego, w = 1n 0w/n (, 2 /n) por lo que z = n(w ). Asimismo, s 2 = w 0 (I n 1n 1n 0/n)w/(n 1) es el


estimador insesgado de 2 por lo que V = (n 1)s 2 / 2 . w y s 2 son independientes ya que (I n 1n 1n 0/n)1n = 0.
3.4

Distribucin F

Si Q 1 v21 y Q 2 v22 son dos variables independientes, entonces el ratio = (Q 1 /v 1 )/(Q 2 /v 2 ) es una variable
aleatoria que se distribuye como F (v 1 ,v 2 ), una F centrada (F de Snedecor).
De los Resultados 1 y 4 se deduce que si w N (0,I n ), entonces
w 0Aw rk(B)

F ( rk(A), rk(B) )
w 0Bw rk(A)

(14)

si A y B son idempotentes y si, adems, AB = 0.


Cuando Q 1 v21 () tiene un parmetro de no centralidad , entonces = (Q 1 /v 1 )/(Q 2 /v 2 ) es una variable aleatoria
que se distribuye como F (; v 1 ,v 2 ), una F no centrada.
!
!2 "
#
v1 +
v2
v2
(v 1 + ) 2 + (v 1 + 2)(v 2 2)
Momentos: E( ) =
y V( ) = 2
.
v1
v2 2
v1
(v 2 2) 2 (v 2 4)
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

16

BANCO CENTRAL DE RESERVA DEL PER


Curso de Actualizacin en Economa 2016
Econometra
Profesor Diego Winkelried (Universidad del Pacfico)

Notas de clase

Teora asinttica (con nfasis en muestras aleatorias)

Obtener resultados analticos en muestras finitas sobre las propiedades de estadsticos y estimadores de inters
puede ser sumamente engorroso o requerir de supuestos muy restrictivos. La teora asinttica provee un marco de
anlisis en donde se estudian estas propiedades a medida que el tamao muestral va creciendo indefinidamente,
n . Este lmite elimina la aleatoriedad observada en la muestra (digamos, la variabilidad muestral) y provee
aproximaciones del comportamiento de los estadsticos en muestras grandes.
4.1

Convergencia en probabilidad

) converge en probabilidad a w si,


Una secuencia de variables aleatorias w 1 ,w 2 , . . . (o ms compactamente {w n }n=1
para cualquier > 0,

Pr {kw n w k > } 0

conforme

n .

(1)

El lmite w se denomina lmite probablstico o lmite en probabilidad y usualmente se denota como


plim w n = w
4.2

o, alternativamente,

w n w .

(2)

Consistencia

Sea qn un estimador del vector de parmetros obtenido a partir de una muestra de tamao n. Luego, {qn }n=1
es la secuencia de estimadores de conseguidos a medida que el tamao muestral aumenta. El estimador qn es
consistente si

plim qn =

o, alternativamente,

qn .

(3)

En otras palabras, un estimador es consistente si converge (en probabilidad) al valor del parmetro que pretende
estimar conforme n tiende a infinito. La consistencia es quiz uno de los requerimientos mnimos (en muchas
ocasiones es el requerimiento) para que un estimador sea considerado aceptable.
4.3

Convergencia en distribucin

Sean F 1 (), F 2 (), . . . las funciones de distribucin acumuladas (fda) asociadas con una secuencia de variables
. Esto es, F (w ) = Pr(w w ).
aleatorias {w n }n=1
n
n
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

17

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Suponga que la variable aleatoria w tiene una fda F (). Luego, w n converge en distribucin a w si
Fn (w ) F (w )

conforme

n .

(4)

para todos los valores de w. La fda F () usualmente se denomina distribucin lmite o distribucin asinttica y la
convergencia en distribucin se denota como
d

w n w .
4.4

(5)

Equivalencia asinttica
p

Considere dos secuencias de vectores aleatorios w n y w n . Si w n w y w n w n 0, entonces w n w.


Cuando w n y w n presentan la misma distribucin asinttica se dice que son asintticamente equivalentes.
Notar que la equivalencia asinttica es muy utilizada para simplificar el anlisis bsicamente para determinar
el comportamiento de un estimador complejo a travs de las caractersticas de un estimador ms sencillo pero
asintticamente equivalente.
Resultados tiles en econometra

El anlisis asinttico de los estimadores ms utilizados en econometra consiste escencialmente en tres pasos.
Primero, los estimadores son escritos como funciones (continuas) de momentos muestrales, es decir de promedios
muestrales. Segundo, una batera de teoremas que conforman la teora asinttica (leyes de grandes nmeros y
teoremas de lmite central) muestran cmo estos promedios convergeran en probabilidad a momentos poblacionales
y proveen informacin sobre su distribucin asinttica. Tercero, el teorema del mapeo continuo o el teorema de
Cramr entran en accin. A continuacin se presentan resultados vinculados con los dos ltimos puntos arriba
mencionados.
4.5

Teorema de Slustky

Un atractivo de los lmites probablsticos es que, a pesar de lidiar con variables aleatorias, tienen el mismo
tratamiento que lmites ordinarios (aquellos aplicados a secuencias determinsticas) para funciones continuas. ste
es el teorema de Slutsky:
p

Sea (.) una funcin continua de w. Si w n w, entonces


p

(w n ) (w )

o, alternativamente,

plim (w n ) = (plim w n ) .

(6)

Note que el operador de expectativas no presenta esta propiedad: en general, E( (w n ) ) , (E( w n )).
4.6

Teorema del mapeo continuo

Este teorema es una suerte de generalizacin del teorema de Slutsky.


d

Sea (w,a) una funcin continua en sus dos argumentos, w y a. Si w n w y an a, entonces


d

(w n ,an ) (w,a) .

(7)
d

Obviamente, si (.) depende slo de w n , entonces (w n ) (w ).

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

18

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

4.7

Teorema de Cramr
d

Este teorema es un corolario popular del teorema del mapeo continuo. Si qn N (, ) y An A, luego
d

An qn N (A,AA0 ) .

(8)

Note que An qn = Aqn +(An A)qn . El segundo trmino converge, por el teorema del mapeo continuo, a cero por una
variable aleatoria normalmente distribuida, o en concreto converge a cero. As, se tiene que An qn es asintticamente
equivalente a Aqn que converge a una distribucin normal (note que A no es aleatoria).
4.8

Teorema de Khinchine (Ley dbil de los grandes nmeros)

Este teorema sostiene en trminos simples que, en una muestra aleatoria, promedios muestrales tienden a
expectativas conforme n crece. En otras palabras, momentos muestrales convergen hacia momentos poblacionales.
Suponga que se tiene una muestra w i para i = 1, 2, . . . ,n donde todas las variables aleatorias w i son idntica e
independientemente distribuidas, iid. Adems, considere que E( w i ) = para todo i. Luego,
n

w n =

4.9

p
1X
w i .
n i=1

(9)

Teorema de Chebyshev

En la ley dbil de los grandes nmeros, el supuesto de que todas las w i son iid puede relajarse tras imponer
ciertas restricciones en los momentos de estas variables. Suponga que w i es tal que E( w i ) = i , V( w i ) = i y
C( w i ,w j ) = 0 para todo i , j. Sea n el promedio de los n vectores i . Si
n
1 X
i 0
n2 i=1

(10)

entonces,
n

w n n =

p
1X
( w i i ) 0 .
n i=1

(11)

Es decir, el promedio muestral converge en probabilidad al lmite del promedio de las medias problacionales:
p

w n lim n .

(12)

4.10

Teorema del Lmite Central (Linderberg - Lvy)

Recuerde que si w i N (, ) para i = 1, 2, . . . ,n, entonces la distribucin muestral del promedio w n (en una
muestra aleatoria) es

n(w n ) N (0, ) .
(13)
w n N (, /n)
o, alternativamente,
El teorema del lmite central generaliza (asintticamente) este resultado.
Suponga que w i (i = 1, 2, . . . ,n) son iid con E( w i ) = y V( w i ) = , ambas cantidades finitas. Luego,

n(w n ) N (0, ) .

(14)

Frecuentemente este resultado se escribe tal que la funcin lmite sea normal estndar. Sea B la raz cuadrada de ,
= BB 0 (ver seccin 1.6, p. 3), entonces

nB 1 (w n ) N (0,I ) .

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

(15)
19

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

4.11

Teorema del Lmite Central (Linderberg - Feller)

Suponga que w i (i = 1, 2, . . . ,n) son independientes con E( w i ) = i y V( w i ) = i finitas para todo i. Sea n el
promedio de los n vectores i y defina el lmite
n

1X
.
i
n i=1

(16)

Luego,

4.12

d
.
n(w n n ) N (0, )

(17)

Ilustracin: ley de grandes nmeros y teorema del lmite central

Con el propsito de ilustrar el funcionamiento de la ley de grandes nmeros y del teorema del lmite central,
considere el siguiente ejercicio de simulacin. Para u N (0, 1) se generan variables aleatorias de la forma
w= p

u a E( u a )
E( u 2a ) E( u a ) 2

donde a es un nmero entero. Note que w es una variable estandarizada, de modo que para cualquier valor de a,
E( w ) = 0 y V( w ) = 1. Conforme a se incrementa, la distribucin de w se vuelve cada vez ms asimtrica, con
una cola larga hacia la derecha. El caso de a = 1 corresponde a w N (0, 1) y por tanto a puede interpretarse como
una medida de desvo de la normalidad. Asimismo, se disponen de resultados analticos para a = 1, w N (0, 1/n)

y nw N (0, 1). Las medias y varianzas muestrales sern las mismas para a , 1, pero la distribuciones variarn.

Este procedimiento se
Para un valor de a se generan n nmeros aleatorios w y se calcula su promedio w y nw.
repite un gran nmero de veces (un milln) y se reporta la distribucin muestral de estos estadsticos (dado el gran
nmero de repeticiones en la simulacin, esta distribucin ser casi idntica a la distribucin muestral analtica).
El panel (a) del Grfico 1 muestra cmo opera la ley de grandes nmeros. Conforme n se incrementa, la distribucin
muestral de w va concentrado cada vez ms masa probabilstica alrededor de E( w ) = 0. Ello refleja que muestrar
cada vez ms observaciones de w (provenientes de la misma distribucin) provee informacin creciente para
caracterizar tal variable aleatoria. En particular, dado que V( w ) = 1/n, cuando n se incrementa la dispersin
de distintas realizaciones de w alrededor de E( w ) = 0 se amortigua. En el lmite, conforme n , V( w ) ir
convergiendo a cero, por lo que plim w deja de ser aleatorio. Grficamente, la distribucin muestral de w colapsa
a una masa de probabilidad igual a 1 ubicada en E( w ) = E( w ), tal y cmo predice la ley dbil de los grandes
nmeros.

El panel (b) muestra la distribucin muestral de nw para a = 4 (la distribucin de w es bastante asimtrica)
y para distintos valores de n. Note que a diferencia de lo ocurrido con la distribucin de w,
estas distribuciones

muestrales no colapsan conforme n . La razn es simple. La multiplicacin de w por n estabiliza la

varianza del estimador y evita que sta converja a cero, V( nw ) = nV( w ) = 1. Tras estabilizar la varianza y

mantener la media, que en todo caso es cero, nw = n(w E( w )), se aprecia que mayores valores de n van
redituando distribuciones cada vez ms cercanas a la normal estndar. En particular, se observa cmo a medida que
n se incrementa la asimetra en las distribuciones muestrales va reducindose y sus modas van aproximndose a
E( w ) = 0. ste es el principal postulado del teorema del lmite central.
Los paneles (c) y (d) permiten reflexionar sobre el alcance de este teorema. En ambos paneles los casos donde a = 1
corresponden a la distribucin normal estndar predicha por el teorema del lmite central. En el panel (c) se aprecia
que para tamaos muestrales reducidos (n = 25 en este caso), no hay garanta que las aproximaciones asintticas
sean satisfactorias. Esto es particularmente cierto cuando la distribucin de w es lejana a la normal (a = 4 y a = 6),
caractersticas que se transmiten a las distribuciones muestrales de los estadsticos de inters. Por su parte, el panel
(d) muestra cmo un mayor tamao muestral (en este caso se pasa de n = 25 a n = 100) aminora los efectos de la
no-normalidad y da respaldo emprico al teorema del lmite central. En resumen, cuando el tamao de la muestra
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

20

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Grfico 1. Ilustracin de la ley de grandes nmeros y del teorema del lmite central

(a) Distribucin muestral de w para a = 4


(b) Distribucin muestral de nw para a = 4
3.0

n = 25
n = 50
n = 100
n = 200

0.6

n = 25
n = 50
n = 100
n = 200

2.0
0.3
1.0

0.6

0.4

0.2

(c) Distribucin muestral de

0.2

0.4

0.6

nw para n = 25
a=6
a=4
a=2
a=1

1.2

0.6

0.6

0.3

0.3

nw para n = 100
a=6
a=4
a=2
a=1

1.2

0.9

(d) Distribucin muestral de

0.9

Nota: Los paneles muestran los histogramas de w y nw basados en un milln de repeticiones. En el caso del panel (a) el eje vertical
muestra frecuencias relativas porcentuales, mientras que el eje vertical del resto de paneles son funciones de densidad.

es lo suficientemente grande y las distribuciones de las que provienen los datos no son muy lejanas a la normal (por
ejemplo, no son muy asimtricas), la aproximacines asintticas proveen un marco de inferencia adecuado. Cun
grande n depende de las caractersticas poblacionales de w, y es por tanto una pregunta abierta. Por ejemplo, para
a 2, n = 25 parece ser razonable, mientras que n = 100 provee aproximaciones aceptables para a 4.
4.13

El mtodo delta

Suponga que plim qn = y que

n(qn ) N (0, ) .

(18)

El mtodo delta provee una herramienta sencilla para derivar la distribucin asinttica de una funcin continua del
vector qn , (qn ). Utilizando el teorema del valor medio (seccin 1.9, p. 4), (qn ) puede expresarse como
(qn ) ( ) = J (n )(qn ) ,

(19)

donde J () es el Jacobiano (la matriz que contiene derivadas parciales) de (). Note que si : Rk Rp , entonces
J () es de dimensin p k.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

21

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Por el postulado del teorema del valor medio, cada elemento del vector n se encuentra en el segmento que une a
los elementos correspondientes de los vectores qn y . Un caso muy particular es que n es una combinacin lineal
convexa de qn y : n = qn + (1 ) para [0, 1]. Dado que plim qn = , se deduce que plim n = . Luego,
considerando que J () es una funcin continua, el teorema de Slutsky implica que plim J (n ) = J ( ). Aplicando
este hallazgo en (19), junto con el teorema de Cramr y la distribucin en (18), se obtiene

4.14

n( (qn ) ( ) ) N (0, J ( )J ( ) 0 ) .

(20)

Distribucin asinttica de formas cuadrticas

Los teoremas de lmite central dan un lugar primordial a la distribucin normal en el anlisis asinttico. As como
en muestras finitas, a partir de formas cuadrticas de variables normalmente distribuidas en el lmite, es posible
encontrar estadsticos cuya distribucin converja a una chi-cuadrado. Estos procedimientos son muy utilizados en
el contexto de pruebas de hiptesis.
Suponga que

n(qn ) N (0, ) .

(21)
p

Considere una matriz confortable tal que An A, donde v = rk(A). El teorema de Cramr establece que

nAn (qn ) N (0,AA0 ) .

(22)

Utilizando el Resultado 3 de la p. 15, se obtiene


f
g0
f
g d
Q1 =
nAn (qn ) (AA0 ) 1
nAn (qn ) v2 .

(23)

Dado que An A, el teorema de Slustky establece que una forma cuadrtica asintticamente equivalente a Q 1 es
f
g0
f
g d
Q2 =
nAn (qn ) (An An 0 ) 1
nAn (qn ) v2 .
(24)
p

ya que An An 0 AA0 0. Ms an, usualmente es una matriz desconocida y precisa ser reemplazada por
p

un estimator. Si n es un estimador consistente de , se concluye que


d

Q 3 = n (qn ) 0An 0 (An n An 0 ) 1An (qn ) v2 .

(25)

es asintticamente equivalente a Q 2 (y, por tanto, a Q 1 ) en virtud nuevamente del teorema de Slustky.
4.15

Juego de palabras sobre la varianza asinttica

Suponga que

n(qn ) N (0, ) .

La matriz es la varianza asinttica de qn y se denota AV( qn ) = /n. La divisin entre n puede causar confusin
ya que es obvio que /n 0 a medida que n . Es por ello que el uso de igualdades como AV( qn ) = /n

debe entenderse como que es la varianza de la distribucin lmite (que es usualmente normal) de n(qn ) o,

en su defecto, el lmite de V( n(qn ) ).


a
Usualmente, de manera poco rigurosa, se suele denotar la normalidad asinttica de qn como qn
N ( , /n).
Ello da nfasis al hecho de que la distribucin muestral de qn (la mayora de veces desconocida), es aproximada
mediante una distribucin normal.
p

. En este caso lo usual es decir que /n

Rutinariamente se precisa un estimador consistente de , digamos

es un estimador consistente de AV( qn ), que deber entenderse como una forma corta de decir que es consistente

para el lmite de V( n(qn ) ).


c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

22

BANCO CENTRAL DE RESERVA DEL PER


Curso de Actualizacin en Economa 2016
Econometra
Profesor Diego Winkelried (Universidad del Pacfico)

Notas de clase

Mnimos cuadrados: lgebra y primeras propiedades

El modelo de regresin lineal establece una relacin lineal entre la variable aleatoria y llamada variable
dependiente y un conjunto de variables independientes, variables explicativas o regresores recogidas en el vector
x de dimensin k 1. Para una muestra aleatoria de tamao n que contiene observaciones independientes indizadas
por i = 1, 2, . . . ,n se postula que
yi = x i 0 + i

(1)

donde i es una variable aleatoria de media cero, E( i ) = 0 para todo i, denominada error de regresin o
perturbacin. El vector contiene k parmetros desconocidos y el objetivo es estimarlo.
El modelo (1) tiene la siguiente representacin matricial:
y = X + ,

(2)

donde y es un vector de dimensin n 1 cuyo i-simo elemento es yi , es un vector de dimensin n 1 cuyo


i-simo elemento es i y X es una matriz de dimensin n k cuya i-sima fila es x i 0.
Supuestos clsicos

Adems del supuesto de muestra aleatoria, considere los siguientes supuestos:


S1: i es independiente en media condicional de x i para todo i, E( i | x i ) = 0.
S2: i es homocedstico dado x i para todo i, V( i | x i ) = E( i2 | x i ) = 2 .
S3: i | x i N (0,i2 ) para todo i.

Veremos cul es el rol de cada supuesto en el anlisis en muestras finitas de estimadores de en (1). El supuesto
ms importante es S1 e implica que la media condicional de yi dado x i es una funcin lineal:
E( yi | x i ) = x i 0

bajo el supuesto S1 .

(3)

En otras palabras, S1 establece que en la poblacin la relacin entre yi y x i es lineal y i se interpreta como el
desvo de yi respecto a su media condicional, i = yi E( yi | x i ). Es decir, es un supuesto sobre la forma funcional
de (1). Note que (3) establece adems que E( yi | x i ) = L( yi | x i ) por lo que es el coeficiente de proyeccin
lineal de yi sobre x i en la poblacin: = E( xx 0 ) 1 E( x y ). Ms an, en una muestra se observa yi y x i y a partir
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

23

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

de esa informacin se desea inferir sobre el vector de parmetros y la variable aleatoria i , ambos no observables.
El supuesto S1 permite separar la contribucin de estos dos componentes sobre la variable observable yi y es, por
tanto, un supuesto de identificacin.
1

Mnimos cuadrados

El principio de estimacin ms popular en el contexto del modelo lineal es el de mnimos cuadrados. El estimador
de Mnimos Cuadrados Ordinarios (MCO) se obtiene tras minimizar la suma de perturbaciones (vistas como una
funcin de ) al cuadrado
n

1
1
1X
1X
Q ( ) = ( ) 0 ( ) =
i ( ) 2 =
(yi x i 0 ) 2 = (y X ) 0 (y X ) .
2
2 i=1
2 i=1
2

(4)

El vector gradiente de Q ( ) es1


n
n
n
X
X
X
Q ( )
0
*
S( ) =
=
x i (yi x i ) =
x i yi +
x i x i 0+ = X 0y + (X 0X ) .

, i=1
i=1
i=1

(5)

El estimador MCO es el vector b de dimension k 1 que satisface las k condiciones de primer orden S(b) = 0.
Estas condiciones de optimalidad son las denominadas ecuaciones normales y equivalen a X 0Xb = X 0y.
El Hessiano de Q ( ) es igual a
n

Q ( ) X
x i x i 0 = X 0X .
0 =

i=1

(6)

Un supuesto usual que no hemos detallado, pero que es importante para la existencia de b, es que la matriz X 0X
sea no singular. Si X 0X es definida positiva, las condiciones de segundo orden establecen que Q () es estrictamente
convexa y por tanto que el estimador MCO es un mnimo global y es nico. Cuando X 0X es semidefinida positiva
(es singular), entonces existen mltiples mnimos locales y en general las ecuaciones normales son satisfechas por
un nmero indeterminado de vectores b. Una condicin suficiente para la no singularidad de X 0X (y por tanto para
la unicidad del estimador MCO) es que el rango de X sea igual a k, lo que se traduce en que las columnas de X
sean linealmente independientes: cada regresor debe contener informacin nica.
Luego, con una matrix X de rango k, las ecuaciones normales se resuelven para
1 n
n
X
X
0+
*
b=
xixi
x i yi = (X 0X ) 1X 0y .
, i=1
- i=1

1.1

(7)

Linealidad

Dado X , MCO es un estimador lineal. Ello significa que b es un vector aleatorio que puede ser expresado como una
combinacin lineal de los elementos de y, b = W y:
b=

n
X
i=1

w i yi

donde

1
n
X
w i = * x i x i 0+ x i = (X 0X ) 1x i .
, i=1
-

(8)

Un estimador es no lineal cuando no puede ser expresado como en (8). En otras palabras, cuando las ponderaciones
w i dependen de y. La linealidad es un atributo conveniente de b ya que sus propiedades estadsticas en muestras
finitas (dado X ) pueden ser deducidas directamente a travs de las caractersticas de y o de .
1 Recuerde que (A )/ = A0 y que ( 0A )/ = (A + A0 ).

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

24

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

1.2

Mtodo de momentos

El estimador MCO es tambin un estimador del mtodo de momentos. Como se mencion, la relacin lineal
en (1) puede entenderse como una proyeccin lineal de y sobre x y, por consiguiente, en la poblacin =
E( xx 0 ) 1 E( x y ). Tras reemplazar las expectativas E( xx 0 ) y E( x y ) por sus contrapartes muestrales X 0X /n y
X 0y/n se obtiene (7).
Alternativamente, al surgir de la proyeccin lineal de y sobre x se cumple por construccin que E( x i i ) = 0.
stas son las condiciones de momentos que definen al estimador de . La contraparte muestral de estas condiciones
es X 0e/n = 0, donde e = y Xb, lo que deriva en las ecuaciones normales.
1.3

Valores predichos y residuos

el anlogo muestral de X ) y
El vector y puede descomponerse en dos partes: un vector de valores predichos (y,
un vector de residuos (e, el anlogo muestral de ).
El vector de valores predichos de y es y = Xb, donde b es el estimador MCO de . Tras reemplazar el estimador
b por (7) se obtiene y = X (X 0X ) 1X 0y. Se aprecia que cada elemento de y es una combinacin lineal de los
elementos de y. La matriz
P = X (X 0X ) 1X 0

(9)

es una matriz de proyeccin y, como su nombre sugiere, la operacin y = Py proyecta el vector y sobre el espacio
vectorial formado por las columnas de X . Por construccin, la matriz P es simtrica (P = P 0), idempotente (PP = P)
y de rango igual a k (rk(P ) = tr(P ) = tr(X (X 0X ) 1X 0 ) = tr((X 0X ) 1X 0X ) = tr(I k ) = k). Adems, se cumple que
PX = X .
Por su parte, el vector de residuos de la regresin es e = y y = y Xb. Tras reemplazar b por (7) se obtiene
que e = (I n X (X 0X ) 1X 0 )y = My donde M = I n P es la matriz de proyeccin al espacio ortogonal al espacio
formado por las columnas de X . Por definicin, sta es simtrica (M = M 0), idempotente (MM = M) y de rango
igual a n k (rk(M ) = tr(M ) = tr(I n P ) = n tr(P ) = n k). Adems, se cumple que MX = 0.
Note que debido a que e = My, se tiene que X 0e = X 0My = 0: los residuos son ortogonales a X . Ello se da por
construccin a travs de las condiciones de primer orden del problema de minimizacin que da lugar a MCO (las
ecuaciones normales, S(b) = 0). Una implicancia es que si algunas de las columnas de X es un vector de dimensin
n 1 lleno de unos 1, es decir si el modelo incluye una constante como regresor (una prctica muy usual), entonces
P
la suma y por tanto el promedio muestral de los residuos es exactamente igual a cero: 10e = ni=1 ei = 0 donde ei
es el i-simo elemento de e (ver ejercicio E2, p. 32).
Asimismo, dado que PM = MP = 0 (ya que estas matrices proyectan espacios ortogonales), entonces el vector de
valores predichos es ortogonal al vector de residuos: e 0y = y 0MPy = 0. Este resultado permite entender cmo opera
el estimador MCO: escencialmente el estimador utiliza toda la informacin disponible en X al dividir el universo
en el espacio formado por las columnas de X , donde cae lo que la regresin predice o explica Py, y su espacio
ortogonal, donde reside el componente no explicado de la regresin My.
1.4

Regresiones particionadas

Considere el modelo de regresin lineal en forma matricial y = X + donde la matriz de regresores X es


particionada en dos bloques X = (X 1 : X 2 ) que contienen k 1 y k 2 = k k 1 columnas. El vector de parmetros se
particiona de manera anloga, = ( 1 0, 2 0 ) 0. En otras palabras, se expresa (2) como
y = X 1 1 + X 2 2 + .

(10)

El inters se centra en derivar un mtodo para la estimacin MCO de 1 sin necesidad de calcular el estimador MCO
de todo el vector . El postulado principal de esta seccin, conocido como el teorema de Frisch-Waugh-Lovell, es
de utilidad cuando se cuenta con dos conjuntos de variables, un grupo de variables relevantes (X 1 ) y un grupo de
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

25

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

variables menos importantes (X 2 ). Las variables menos importantes son conocidas como variables de control y
su rol es asistir la estimacin de 1 ya que usualmente los parmetros en 2 no son de inters per se.
Recuerde las ecuaciones normales (X 0X )b = X 0y. Tras particionar este sistema se obtiene
(X 1 0X 1 )b 1 + (X 1 0X 2 )b 2 = X 1 0y ,

(11a)

(X 2 0X 1 )b 1 + (X 2 0X 2 )b 2 = X 2 0y .

(11b)

De (11b) se deduce que


b 2 = (X 2 0X 2 ) 1X 2 0 (y X 1b 1 ) .

(12)

Denote P 2 = X 2 (X 2 0X 2 ) 1X 2 0 a la matriz de proyeccin (simtrica e idempotente) sobre el espacio formado por


las columnas de X 2 (P 2X 2 = X 2 ) y llame M 2 = I n P 2 a la matriz de proyeccin ortogonal a X 2 (M 2X 2 = 0). Tras
reemplazar (12) en (11a) se tiene que
(X 1 0X 1 )b 1 + X 1 0P 2 (y X 1b 1 ) = X 1 0y

que reordenando implica

(X 1 0M 2X 1 )b 1 = X 1 0M 2y .

(13)

De esta forma,
b 1 = (X 1 0M 2X 1 ) 1X 1 0M 2y .

(14)

Note que e 2 = M 2y es el vector de residuos de una regresin de y sobre X 2 . Del mismo modo, cada columna de la
matriz E 1|2 = M 2X 1 (de dimensin n k 1 ) es el vector de residuos de la regresin de la columna correspondiente de
X 1 sobre el conjunto de regresores X 2 . Dado que M 2 es simtrica e idempotente, X 1 0M 2X 1 = (M 2X 1 ) 0 (M 2X 1 ) =
E 1|2 0E 1|2 y X 1 0M 2y = (M 2X 1 ) 0 (M 2y) = E 1|2 0e 2 tal que b 1 es el resultado de estimar por MCO una regresin de e 2
sobre E 1|2 : b 1 = (E 1|2 0E 1|2 ) 1 E 1|2 0e 2 .
Este hallazgo sugiere que la estimacin MCO de un modelo de regresin lineal puede efectuarse en dos etapas.
Primero, se estiman regresiones auxiliares sobre las variables X 2 y, segundo, utilizando los residuos generados se
consiguen los coeficientes de las variables X 1 . Mediante el procedimiento de preservar los residuos e 2 y E 1|2 se
obtienen las variables y y X 1 tras haber descontado el efecto comn que puedan tener con las variables X 2 o, en
jerga economtrica, las variables y y X 1 controlando por X 2 (es decir, netas de X 2 ).
Una aplicacin directa se da cuando X 2 = 1, un vector lleno de unos, por lo que el modelo original incluye
una constante. En este caso M 2 = I n 110/n por lo que e 2 = y y1,
donde y es el promedio muestral de las
observaciones en el vector y. En palabras, corregir el efecto de un intercepto en la regresin equivale a ingresar
los datos como desvos de sus promedios muestrales. Otra aplicacin usual se da cuando se incluye como X 2 un
conjunto de variables ficticias (dummies) estacionales o que denotan la pertenencia a un grupo (ver ejercicio E3, p.
32): el teorema sugiere primero desestacionalizar o remover las medias grupales de y y X 1 a travs de regresiones
de las variables en cuestin sobre el conjunto de dummies, y utilizar los datos desestacionalizados o como desvos
de los promedios grupales para obtener los coeficientes de inters.
2

Propiedades en muestras finitas

Recuerde que b es un vector aleatorio. A continuacin se describen sus propiedades estadsticas y se estudia cmo
se ven afectadas por diversos supuestos sobre la relacin entre x i y i .
2.1

Sesgo

Tras reemplazar (2) en (7) se obtiene b como una combinacion lineal del vector no observable ,
b = + (X 0X ) 1X 0 .

(15)

Tomando expectativas condicionales a X se encuentra que


E( b | X ) = + (X 0X ) 1X 0E( | X ) .
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

(16)
26

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

Dada la muestra aleatoria, E( i | X ) = E( i | x 1 , . . . ,x n ) = E( i | x i ) para todo i. Por tanto, el supuesto


S1 implica E( | X ) = 0 y permite concluir que E( b | X ) = : MCO es condicionalmente insesgado. Ms
an, aplicando la LEI, E( b ) = E( E( b | X ) ) = E( ) = , se concluye que el insesgamiento se cumple
incondicionalmente.
2.2

Varianza

De (15), b E( b | X ) = (X 0X ) 1X 0. Luego, de (15) se desprende que


V( b | X ) = E( ( b E( b | X ) )( b E( b | X ) ) 0 | X ) = (X 0X ) 1X 0 X (X 0X ) 1 ,

(17)

donde = E( 0 | X ). Al tratarse de una muestra aleatoria los elementos de son


(i,i) E( i2 | X ) = E( i2 | x i ) = i2 ,
(i, j) E( i j | X ) = E( i | X )E( j | X ) = E( i | x i )E( j | x j ) = 0 ,
es decir, es una matriz diagonal. De este modo, la varianza (condicional) del estimador MCO es
V( b | X ) = (X X ) X X (X X )
0

1 n
1
n
n
X
X
X
0+
2
0*
0+
*
=
xixi
i x i x i
xixi
.
, i=1
- i=1
, i=1
-

(18)

El supuesto S2 (es decir, = 2 I n ) simplifica considerablemente la expresin de V( b | X ): 2


V( b | X ) = (X X )
2

n
X

2*

xixi

, i=1
2.3

1
0+

(19)

Residuos

Utilizando la definicin del modelo lineal (2) se tiene que


e = My = M (X + ) = M ,

(20)

de modo que cada elemento del vector e es una combinacin lineal de todos los elementos de . En el anlisis de
regresin, los residuos juegan un rol primordial ya que permiten inferir ciertas propiedades de las perturbaciones
poblacionales, al ser ei un predictor de i (se reserva el trmino estimador para variables aleatorias que infieren
sobre un parmetro y predictor para variables aleatorias que infieren sobre otras variables aleatorias). Sin embargo,
las propiedades de e son distintas a las de . Ello se debe en parte a que en el modelo lineal no est identificado
por la prdida de grados de libertad, en el contexto de la relacin e = M donde M es no singular.
En particular, si bien bajo S1
E( e | X ) = ME( | X ) = 0 ,

y por la LEI

E( e ) = 0 ,

(21)

(una consecuencia del insesgamiento de b y que implica E( y | X ) = y) la matriz de covarianzas de e es


V( e | X ) = MV( | X )M 0 = M M 0 ,

(22)

que, a diferencia de con observaciones independientes, no es diagonal: mientras que i y j no presentan


correlacin, ei y e j estn correlacionados. Note que ei = yi x i 0b = i x i 0 (b ) por lo que
2 La varianza de b depende de X y en ese sentido la inferencia es condicional. La varianza no condicional de b es, bajo S2, igual a
V( b ) = 2 E( (X 0X ) 1 ), por lo que en general se precisan supuestos sobre la naturaleza aleatoria de X para llegar a conclusiones ms
definitivas. El ejercicio E12 muestra, sin embargo, que podran establecerse ordenamientos categricos de varianzas no condicionales a
partir de V( b | X ), bajo circunstancias bastante generales.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

27

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

E( ei e j | X ) = E( i j + x i 0 (b )(b ) 0x j j x i 0 (b ) i x j 0 (b ) | X )
= E( x i 0 (b )(b ) 0x j | X ) = x i 0V( b | X )x j , 0 . (23)
La expresin (22) se simplifica bajo el supuesto S2: V( e | X ) = 2 M, donde se puede apreciar con mayor
claridad la existencia de correlacin entre residuos: M no es diagonal. Ms an, a pesar de suponer que i es
condicionalmente homocedstico, ei es siempre heterocedstico: V( ei | X ) = 2mii , donde mii es el i-simo
elemento de la diagonal de M y depende de x i .
2.4

Varianza del error

En general, no es posible hallar un estimador insesgado de la matriz de covarianzas (18), aunque s es posible
encontrar estimadores consistentes (ver NC 6). Sin embargo, bajo el supuesto S2 la matriz de covarianzas
(condicional) de b se reduce a (19) que depende de un nico parmetro, 2 , que puede ser estimado sin sesgo.
De hecho,
s2 =

e 0e
n k

(24)

es un estimador insesgado de 2 . Recuerde que e = M de modo que e 0e = 0M. As,


E( s 2 | X ) =

E( e 0e | X ) E( 0M | X ) tr(M E( 0 | X )) tr(M )
=
=
=
.
n k
n k
n k
n k

(25)

Bajo S2, = 2 I n y
E( s 2 | X ) = 2

tr(M )
n k
= 2
= 2
n k
n k

(26)

y por la LEI E( s 2 ) = E( E( s 2 | X ) ) = E( 2 ) = 2 .3
Un estimador alternativo es 2 = e 0e/n que es sesgado (aunque el sesgo no es importante si n es grande): utilizando
los mismos pasos arriba descritos es sencillo verificar que E( 2 | X ) = E( 2 ) = 2 (n k )/n < 2 . La diferencia
se debe a que s 2 incluye una correccin por la prdida de grados de libertad (el rango de M es n k). En el ejercicio
E11 (p. 35) se consideran otros estimadores (en general, sesgados).
3

Inferencia en el modelo normal homocedstico

Los supuestos S2 y S3 (note que S3 reemplaza a S1) son la base para un marco de inferencia exacta en el modelo
de regresin lineal. Ellos permiten obtener resultados relevantes para el contraste de hiptesis lineales sobre los
elementos del vector en muestras finitas.
3.1

Normalidad

Dado X , tanto b como e pueden expresarse como combinaciones lineales de , ver las ecuaciones (15) y (20).
El supuesto de normalidad S3 implica | X N (0, ), lo que lleva a concluir que b | X N (, V( b | X )) y del
mismo modo, e | X N (0, V( e | X )).
Ms an bajo S2 y condicional en X ,
#
"
# "
b
(X 0X ) 1X 0
=
N
e
M

"

0
0

# " 2 0 1
#!
(X X )
0
,
0
2M

(27)

por lo que b y e son independientes (con cero covarianza).


3 Este resultado implica directamente que s 2 (X 0X ) 1 es un estimador insesgado de la varianza 2 (X 0X ) 1 definida en (19). Ms an,
utilizando la LEI se tiene que E( s 2 (X 0X ) 1 ) = E( E( s 2 | X )(X 0X ) 1 ) = 2 E( (X 0X ) 1 ), por lo que tambin es un predictor (tomando
en cuenta la aleatoriedad en X ) incondicionalmente insesgado. Ver nota al pie 2.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

28

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

3.2

Varianza del error

En la seccin 2.4 se determin que e 0e = 0M. Bajo S2 y S3, / | X N (0,I n ) y por consiguiente,
2 . Se concluye que
(/ ) 0M (/ ) = e 0e/ 2 nk
(n k )s 2
2
nk
.
2

(28)

Es bueno notar que a diferencia de (27), la distribucin en (28) depende nicamente del nmero de grados de
libertad n k y no depende de X . Ello implica que el resultado en (28) se cumple tanto condicional en X como
incondicionalmente.
3.3

Restricciones lineales

El inters es contrastar hiptesis lineales del tipo H 0 : R = r donde R es una matriz no aleatoria de dimensin q k
y r es un vector de constantes de dimensin q 1. Se asume que las q < k filas de R son linealmente independientes,
de otra forma se incluiran restricciones lineales redundantes. Ello implica que q = rk(R).4
Recuerde que = ( 1 , 2 , . . . , k ) 0. Algunos ejemplos de las matrices R y r bajo diversas restricciones lineales son:
H 0 : 1 = 0, entonces q = 1, R = (1, 0, . . . , 0) y r = 0;
H 0 : 1 + 2 2 = 3, entonces q = 1, R = (1, 2, 0, . . . , 0) y r = 3;
P
H 0 : ki=1 i = 0, entonces q = 1, R = (1, 1, . . . , 1) y r = 0;
H 0 : 1 + 2 = 1 y adems 1 3 = 0, entonces q = 2,
"
#
" #
1 1
0 0
1
R=
y
r=
;
1 0 1 0
0
H 0 : 1 + 2 = 3, 3 2 4 = 5 y 1 5 = 0, entonces q = 3,
1 1 0
0
0 0 0

0 0 0
R = 0 0 1 2
1 0 0
0 1 0 0

3
r = 5 ;
0

H 0 : = 0, entonces q = k, R = I k y r = 0.
Bajo normalidad S3, b | X N (, V( b | X )) por lo que Rb r | X N (R r ,R 0V( b | X )R). Si se impone la
hiptesis nula Rb r | X N (0,RV( b | X )R 0 ) y por ende
(Rb r ) 0 (RV( b | X )R 0 ) 1 (Rb r ) | X q2 .

(29)

Bajo S2, (29) se simplifica a


(Rb r ) 0 (R(X 0X ) 1R 0 ) 1 (Rb r )/ 2 | X q2 .

(30)

Los estadsticos del tipo (29) (30) se conocen como criterios de Wald. Intuitivamente, casi siempre ocurrir
que Rb r , 0 pero la pregunta relevante desde el punto de vista estadstico es si esta discrepancia de cero
puede atribuirse a un simple error de muestreo o si es significativa. Note que cuanto ms grande es Rb r , es
decir en ocasiones donde el estimador MCO b incumple las restricciones notoriamente, el estadstico chi-cuadrado
(una forma cuadrtica) toma un valor ms alto. As, un valor elevado de los estadsticos en (29) (30) constituye
evidencia en contra de la hiptesis H 0 : R = r .
Si bien la prueba de Wald (30) ofrece una alternativa de contraste H 0 , no es del todo til en la prctica ya que depende
del parmetro 2 que es desconocido y precisa ser reemplazado por un estimador factible. El estadstico (30)
4 Cuando q = k, R es una matriz cuadrada. Si fuera no singular, los coeficientes satisfaran = R 1r y no habra problema de estimacin.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

29

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

depende de b y de X y de (27) se desprende que es independiente de e y funciones derivadas de este vector, como
s 2 . En otras palabras (30) y (28) son dos variables aleatorias distribuidas como chi-cuadrado que son independientes.
Ello forma la base para construir un estadstico F . As, bajo la hiptesis nula5
=

(Rb r ) 0 (R(X 0X ) 1R 0 ) 1 (Rb r ) n k

F (q,n k ) .
e 0e
q

(31)

Note que al igual que (28), la distribucin del estadstico bajo H 0 depende nicamente del nmero de grados de
libertad nk y del nmero de restricciones q. No depende de X . El marco de hiptesis es vlido incondicionalmente.
El procedimiento de prueba de hiptesis es mecnico. Dadas las restricciones R = r , se calcula y ese valor se
compara con las tabulaciones de la funcin de distribucin F con q y n k grados de libertad. Si > F , el valor
crtico al nivel de significacin del 100(1 )% o el 100-simo percentil de F (q,n k ), entonces se rechaza H 0 .
Por el contrario, si < F entonces no se cuenta con suficiente evidencia como para rechazar H 0 (se acepta H 0 ).
Pruebas t

Cuando se contrasta una sola restriccin (q = 1) se puede utilizar la distribucin de Student para inferencia. Ello se
debe a que si tv ( se distribuye como una t de Student con v grados de libertad), entonces 2 F (1,v). As, si
R = c 0 es un vector de dimension 1 k, (31) implica que
= p

c 0b r
s 2c 0 (X 0X ) 1c

tnk

(32)

puede emplearse para contrastar la hiptesis c 0 = r . El denominador de (32) es igual a un estimador de la


desviacin estndar de c 0b. La aplicacin ms conocida de la prueba t es el contraste de significacin de coeficientes
individuales, H 0 : h = 0, en cuyo caso c es un vector con 1 en la h-sima posicin y 0 de otro modo, y r = 0.
En este punto, es ilustrativo relacionar la regla de decisin de contrastes de hiptesis con la nocin de un intervalo
de confianza. El estadstico se distribuye como tnk . Si tnk (/2) denota el 100/2-simo percentil de tnk , a
partir de (32) se llega al intervalo de confianza
q
q
c 0 C donde C = { c 0b tnk (/2) s 2c 0 (X 0X ) 1c, c 0b + tnk (/2) s 2c 0 (X 0X ) 1c } .
La interpretacin es la siguiente. Contamos con una muestra de tamao n conformada por X y (y, por tanto,
y), y con esta informacin calculamos el estimador c 0b como la contraparte muestral de c 0 . El valor puntual del
estimador c 0b, de hecho, nunca ser igual el parmetro poblacional c 0 , por la aleatoriedad inherente en la muestra
(lo que se conoce como error muestral). Sin embargo, si pudiramos muestrear repetidamente, esto es acceder a un
nmero ilimitado de muestras con las mismas caractersticas que la muestra efectivamente disponible (esto es, el
mismo tamao n, la misma matriz X y un nuevo vector de perturbaciones proveniente de la misma distribucin
de ) y estimar c 0b para cada una de estas muestras, el 100 por ciento de los estimadores de c 0 tendrn valores
contenidos en el intervalo de confianza C.
El procedimiento de prueba de hiptesis consiste en comparar con tnk (/2). Si | | > tnk (/2), entonces se
rechaza H 0 . Ello indica que el valor hipotetizado de c 0 cae fuera de C; es decir, c 0 ocurrira en casos anmalos
en nuestro muestreo repetido. Por ello, dados los datos y los supuestos del modelo de regresin, no contamos con
la confianza suficiente como para tomar H 0 como una conjetura vlida. Por el contrario, si | | tnk (/2), el valor
hipotetizado de c 0 se encuentra contenido en C, lo que indica que la estimacin puntual c 0b y su variabilidad
muestral no permiten invalidar H 0 .6
5 Note que bajo H 0 , Rb r = R(b ) = R(X 0X ) 1X 0 A. Luego, el numerador de (31) es igual a (/ ) 0A0B 1A(/ )/q donde
B = R(X 0X ) 1 R 0 y es igual a una variable q2 dividida por q. Asimismo, el denominador es igual a (/ ) 0M (/ )/(n k ) que es igual
2
a una variable nk
dividida por n k, ver (28). Ya que MA = 0, la distribucin F en (31) se obtiene al combinar el Resultado 4 y el
Colorario de la p. 16.
6 Aunque los detalles difieren, la misma dualidad entre el estadstico que contrasta H 0 y la regin de confianza de R se cumple para las
mtliples restricciones detrs de .
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

30

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

Valor-p

Una probabilidad que tiene un rol especial en el contexto de pruebas de hiptesis es el denominado Valor-p o pvalue. Mecnicamente, en el caso de mltiples restricciones p es igual al percentil de la distribucin F (q,n k ) que
corresponde exactamente al valor del estadstico calculado , mientras que en el caso de una sola restriccin p es
el percentil de la distribucin tnk que corresponde al valor del estadstico . El valor p denota el mnimo nivel de
significacin para el que H 0 ser rechazada.
Bajo la hiptesis nula y en un contexto de muestreo repetido, p es igual a la probabilidad de encontrar un estadstico
( o ) que exceda el valor del estadstico encontrado en la muestra. La regla de decisin respecto a H 0 se puede
entender alternativamente como: si p , entonces H 0 se rechaza. As, el valor-p tiene la virtud de mostrar cun
sensible puede ser la decisin de rechazar una hiptesis ante distintas elecciones del nivel de significacin (que
es impuesto por el investigador). Por ejemplo, p = 0.08 indica que H 0 ser rechazada si = 0.10, pero no ser
rechazada si = 0.05.
Errores tipo I y tipo II

El marco de inferencia descrito puede resumirse de la siguiente manera: (i) se formula una hiptesis H 0 ; (ii) se
construye algn estadstico por ejemplo, o que es tpicamente una variable aleatoria que refleja la naturaleza
estocstico de los datos; (iii) se evala el comportamiento de esta variable aleatoria, bajo el supuesto que H 0
efectivamente se cumple; (iv) se decide si rechazar H 0 o no. Se ha verificado que, bajo el supuesto S3, el estadstico
se distribuye como una variable F , mientras que lo hace como una variable t en caso de cumplirse la hiptesis.
Valores extremos de estos estadsticos conllevan al rechazo de H 0 .
El nivel de significacin , conocido tambin como tamao estadstico (statistical size), se define como
= Pr(Rechazo H 0 | H 0 es verdadera). Es decir es la probabilidad de cometer un error tipo I (no
encarcelar a un delincuente; no vacunar a un enfermo). El anlisis hasta el momento requiere saber slo el
comportamiento de los estadsticos bajo H 0 . No obstante, otro elemento relevante del marco de inferencia es la
probabilidad de comenter un error tipo II, = Pr(No rechazo H 0 | H 0 es falsa) (encarcelar a un inocente; vacunar a
una persona sana). Ello requiere conocer el comportamiento de los estadsticos bajo una situacin alternativa, donde
no se cumple H 0 .
Suponga que R r = , que puede ser distinto de cero. Bajo normalidad S3, b | X N (, V( b | X )) por lo que
Rb r | X N (,RV( b | X )R 0 ) y el criterio de Wald pasa a ser
(Rb r ) 0 ( 2R(X 0X ) 1R 0 ) 1 (Rb r ) | X q2 ()

1
donde = 0 ( 2R(X 0X ) 1R 0 ) 1 .
2

(33)

sta es una variable distrbuida como 2 no centrada con parmetro de no centralidad . As, se puede concluir que
=

(Rb r ) 0 (R(X 0X ) 1R 0 ) 1 (Rb r ) n k

F (; q,n k ) ,
e 0e
q

(34)

es un variable distribuida como F no centrada con parmetro de no centralidad . Ntese que depende de X y de
y, por tanto, el anlisis del error tipo II es, necesariamente, condicional a lo que ocurra con estas cantidades.
Finalmente, cuando q = 1, el estadstico en (32) se distribuye como una variable t no centrada, tnk ().
La potencia estadstica o el poder estadstico (statistical power) de una prueba se define como 1 , la probabilidad
de rechazo de una hiptesis falsa. El Grfico 1 (p. 33) ilustra cmo se determina, considerando el estadstico para
q = 5 y n k = 100. La lnea continua del panel (a) representa la distribucin centrada F (5, 100), mientras que la
lnea punteada representa la distribucin no centrada F ( = 2; 5, 100). Para un nivel de significacin de = 0.05,
el valor crtico es F = 2.31 y valores hacia la derecha de F se asocian con rechazos de H 0 (por construccin el
rea hacia la derecha de F y por debajo de la lnea continua es igual a = 0.05). La potencia es la probabilidad de
rechazo ( > F ) bajo el supuesto de que H 0 es falsa, es decir bajo el supuesto que la distribucin muestral de es
la no centrada. Esta probabilidad es representada por el rea sombreada bajo la curva punteada.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

31

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

De este anlisis puede concluirse que la potencia dependen positivamente de : una menor valor de implica un
mayor valor de F y, por tanto, una menor probabilidad de > F . Ello ilustra cmo interactan las probabilidades
de error tipo I y tipo II. Un valor de muy exigente (muy cercano a cero) implica valores elevados de F , por lo
que H 0 no ser rechazada fcilmente. Si H 0 es verdadera esto es una buena noticia, mientras que si H 0 es falsa,
no la rechazaremos con la fecuencia con la que quisiramos. Por el contrario, un valor muy laxo de (digamos,
= 0.20) inducira a un rechazo cotidiano de H 0 . La prueba en este caso tendra alta potencia, bajo el riesgo de
rechazar hiptesis verdaderas frecuentemente.
El panel (b) es similar al panel (a), pero el parmetro de no centralidad vara de = 2 a = 10. Claramente, la
potencia es creciente en , lo que se confirma en el panel (c) que presenta 1 como funcin de y de .
El parmetro de no centralidad , fundamentalmente, de dos cantidades. La primera es, obviamente, el desvo . Si
ste es muy reducido, ser difcil distinguirlo de cero y, aunque se d que R = r + , r en realidad tenderemos a
no rechazar R = r . La potencia es baja en este caso. Si es notoriamente distinto de cero, resulta ms probable el
rechazo de H 0 . En segundo lugar, depende proporcionalmente del tamao de la muestra, ya que cuando mayor sea
n, la matriz X 0X contendr elementos cada vez ms grandes. As, considerando adems la relacin negativa entre
y la potencia, una estrategia de inferencia es utilizar valores bajos de en muestras grandes (donde el parmetro
de no centralidad ser, tambin, grande).
Ejercicios
E1

Proyecciones lineales

Sean y y x dos variables aleatorias con varianzas finitas y positivas. Si se quiere predecir y a partir de una funcin
lineal de la forma + x, muestre que la eleccin de y que minimiza ECM( y, + x ) es = C( x,y )/V( x ) y
= E( y ) E( x ). Encuentre, adems, el error cuadrtico medio de este predictor lineal.
Considere ahora el predictor de y que se obtiene a partir de la combinacin lineal de un vector aleatorio x. En
particular, muestre que el vector que minimiza ECM( y,x 0 ) es = E( xx 0 ) 1 E( x y ).
E2

Intercepto en la regresin

Considere el modelo de regresin y = X +, donde X es tal que existe un vector a de dimensin k 1 que satisface
1 = Xa, donde 1 es un vector de dimensin n 1 lleno de unos. Defina el vector x 0 = 10X /n, cuyo j-simo elemento
es el promedio muestral de los elementos de la j-sima columna de X .
Utilizando las ecuaciones normales del problema de estimacin MCO, muestre que y = x 0b, donde b es el
estimador MCO de .
Muestre que los residuos de esta regresin tienen una media muestral igual a cero.
Este resultado significa que la lnea de regresin (mejor dicho, el plano de regresin) contiene a los promedios de
los datos. Cuando a es igual a un vector unitario, un vector lleno de ceros excepto por el j-simo elemento que es
igual a 1, entonces el modelo de regresin incluye una constante como regresor (es un modelo con intercepto).
E3

Variable ficticia o dummy

Considere el modelo de regresin lineal


E( yi | x i ) = 1 + x i 2

para i = 1, 2, . . . ,n .

donde x i = 1 si el individuo i pertenece al grupo 1 y x i = 0 si el individuo individuo i pertenece al grupo 2. Muestre


que el estimador MCO de 2 puede expresarse como b2 = y1 y2 , donde yj es el promedio de las observaciones del
grupo j (j = 1, 2). Muestre adems que el estimador MCO de 1 es b1 = y2 Podra interpretar estos resultados a la
luz del mtodo de momentos?

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

32

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

Grfico 1. Potencia estadstica

(a) Distribucin muestral de para = 0 y = 2

(b) Distribucin muestral de para = 0 y = 2

F centrada
F no centrada ( = 2)
Potencia

F centrada
F no centrada ( = 10)
Potencia

(c) Potencia estadstica como funcin de y


1.0
0.8
0.6
0.4
0.2
0.0
0

= 0.01
= 0.05
= 0.10
3

12

15

18

21

24

27

30

Nota: Las distribuciones F utilizan q = 5 y n k = 10. En los paneles (a) y (b) la potencia es igual al rea sombreada, bajo las distribuciones
no centradas.

E4

Alterando los regresores

Considere el modelo de regresin lineal en forma matricial y = X + , donde es un vector de k parmetros.


Suponga que los regresores son sometidos a una transformacin lineal Z = XA donde A es una matriz no singular
de dimensin k k: cada columna de Z es una combinacin lineal de las columnas de X .
Muestre que el vector de residuos de la regresin de y sobre X es el mismo que el vector de residuos de la
regresin de y sobre Z . Explique a qu se debe este resultado.
Compare los estimados MCO de las dos regresiones anteriores.
Utilizando los resultados previos muestre que si en un modelo de regresin lineal una variable explicativa es
multiplicada por una constante , el coeficiente estimado MCO correspondiente es multiplicado por 1/ .
Suponga que el modelo contiene una constante (la primera de columna de X es un vector de unos). Muestre,
utilizando los resultados previos, que si una constante es sumada a una variable explicativa, el coeficiente
estimado MCO correspondiente no se altera Algn otro coeficiente estimado vara con esta transformacin?
Suponga que todas las variables del modelo estn en logaritmos Cul es el efecto sobre el vector de
coeficientes estimados de cambiar la unidad de medida de las variables originales (por ejemplo, de kilmetros

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

33

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

a millas o de kilos a libras)?


E5

Suma de residuos al cuadrado

Sean b y M el estimador MCO y la matriz de proyeccin ortogonal, respectivamente, de una regresin de y sobre
X . Considere un vector arbitrario de dimensin k 1. Completando cuadrados, muestre que la suma de errores
al cuadrado Q ( ) = (y X ) 0 (y X ) puede reexpresarse como Q ( ) = y 0My + ( b) 0X 0X ( b). Con ello
responda Cul es el vector que minimiza Q () y cul es el valor mnimo de esta funcin?
E6

Suma de residuos al cuadrado II

Suponga que b es el estimador MCO de una regresin de y sobre X y considere un vector arbitrario b de dimensin
k 1. Defina Q (b ) = (y Xb ) 0 (y Xb ) (y Xb) 0 (y Xb). Muestre que Q (b ) = (b b) 0X 0X (b b) y que
Q (b ) > 0 si b , b Cmo se puede interpretar este resultado?
E7

Modelo de regresin simple I

Considere el modelo de regresin simple


yi = + x i + i

i = 1, 2, . . . ,n .

para

Esta ecuacin equivale a (1) con x i = (1,x i ) 0 y = (, ) 0. Por simplicidad, asuma que x i es determinstico.
Utilizando los resultados matriciales derivados en estas notas por ejemplo (7) muestre que los estimadores
MCO de y son, respectivamente
Pn
Pn

(x i x )yi
i=1 (x i x )(yi y)
b=
= Pi=1
y
a = y xb
,
Pn
n
2
2
i=1 (x i x )
i=1 (x i x )
P
P
donde y = ni=1 yi /n y x = ni=1 x i /n son los promedios muestrales de yi e x i . Compare estos resultados con
el caso escalar del ejercicio E1 a la luz del mtodo de momentos.
Encuentre V( b ), V( a ) y C( a,b ) bajo el supuesto de homocedasticidad S2.
E8

Modelo de regresin simple II

Considere el modelo de regresin


yi = x i + i

para

i = 1, 2, . . . ,n ,

donde los valores de x i son determinsticos, E( i ) = 0 y V( i ) = 2 para todo i.


Obtenga b, el estimador MCO de , diga si es insesgado y encuentre su varianza.
Considere el estimador alternativo
Pn
(x i x )(yi y)

.
b = i=1
Pn
2
i=1 (x i x )
Como se vio anteriormente, ste sera el estimador MCO de si el modelo original incluyera una constante.
Es b insesgado? Encuentre la varianza de b y diga cul estimador es preferible, b o b ?
Considere el estimador alternativo
Pn
yi

b = Pni=1 .
i=1 x i
Es b insesgado? Encuentre la varianza de b y diga cul estimador es preferible, b o b ?

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

34

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

E9

Modelo de regresin simple III

Considere el modelo de regresin simple del ejercicio E7,


yi = + x i + i

i = 1, 2, . . . ,n ,

para

y considere el estimador
Pn
x i yi

b = Pi=1
.
n
2
i=1 x i
Muestre que b es sesgado, E( b ) , , siempre que , 0.
Calcule la varianza de b y muestre que es menor a la varianza de b, el estimador MCO analizado en el
ejercicio E7.
Sea a el estimador MCO de . Muestre que ECM( b , ) es menor que ECM( b, ) si y slo si 2 < V( a ).
Encuentre el estadstico F que contrasta H 0 : = 0. Concluya que ECM( b , ) < ECM( b, ) si y slo si
F < 1.
E10

Prediccin

Suponga que y = X + d + donde X es n k y d es un vector que contiene una variable dummy igual a 1 en la
ltima observacin [d]n = 1 y 0 de otro modo, [d]i = 0 para i < n. Utilizando el teorema de Frisch-Waugh-Lovell
muestre que los estimadores MCO de b y de son
b = (X 0X ) 1X 0y

= yn x n 0b ,

donde X es la matriz de dimensin (n 1) k que se obtiene al eliminar la ltima fila de X (x n ) y anlogamente y


es el vector de Rn1 que se obtiene al eliminar el ltimo elemento de y (yn ).
Ello significa que es el error de prediccin de la regresin de y sobre X en la n-sima observacin, que ha sido
excluida de la regresin a travs de la inclusin de la variable ficticia d.
E11

Estimador de varianza

Considere una regresin lineal bajo los supuestos S2 y S3. Considere, adems estimadores de 2 de la forma
2
sm
=

e 0e
,
m

donde e es el vector de residuos de la regresin y m es una constante por determinar. Claramente, m = n k redita
2 , 2 ).
el estimador insesgado (24). Encuentre el valor de m que minimiza ECM( sm
2 . Ms an, no olvide que si w 2 , entonces E( w ) = q y V( w ) = 2q.
Ayuda: Recuerde que e 0e/ 2 nk
q

E12

Ordenamientos de varianzas

Sean b 1 y b 2 dos estimadores de . Suponga que V( b 1 | X )  V( b 2 | X ), para X aleatorio Bajo qu condiciones


V( b 1 )  V( b 2 )? Qu podemos concluir respecto al ordenamiento de V( b 1 ) y V( b 2 ) si b 1 y b 2 son ambos
estimadores insesgados?
Ayuda: Utilice la LEI para varianzas.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

35

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

Pgina en blanco

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

36

BANCO CENTRAL DE RESERVA DEL PER


Curso de Actualizacin en Economa 2016
Econometra
Profesor Diego Winkelried (Universidad del Pacfico)

Notas de clase

Mnimos cuadrados: Anlisis asinttico

Anteriormente analizamos las propiedades en muestras finitas del estimador MCO de en el modelo lineal
yi = x i 0 + i

para i = 1, 2, . . . ,n

y = X + ,

o matricialmente

(1)

con ayuda de los supuestos clsicos:


S1: i es independiente en media condicional de x i para todo i, E( i | x i ) = 0.
S2: i es condicionalmente homocedstico para todo i, V( i | x i ) = 2 .
S3: i es normalmente distribuido, dado x i : i | x i N (0,i2 ) para todo i.

A continuacin se estudian las propiedades asintticas (conforme n ) del estimador MCO. El anlisis en
muestras grandes permite relajar o debilitar algunos supuestos y, por tanto, provee resultados que se aplican en
contextos ms generales. En particular, los supuestos clsicos sern reemplazados por:
S1*: i y x i no estn correlacionados para todo i, E( x i i ) = 0.
S2*: i es homocedstico, E( i2 ) = 2 , y C( i2 ,x i x i 0 ) = 0 para todo i.

Cuando i es independiente en media condicional de x i significa que i no est correlacionado con ninguna funcin
de x i . Es decir, S1 implica S1* pero lo contrario no ocurre necesariamente. Igualmente, note que por construccin
S2* implica
E( i2x i x i 0 ) = C( i2 ,x i x i 0 ) + E( i2 )E( x i x i 0 ) = E( i2 )E( x i x i 0 ) = 2 E( x i x i 0 ) ,
lo que constituye un requerimiento menos exigente que S2. Finalmente, no se requieren supuestos distributivos
de i . Basta con trabajar con una muestra aleatoria para que los teoremas de lmite central otorguen normalidad
asinttica, lo que es el punto de partida de un marco de inferencia en muestras grandes.
Note que X 0X /n y X 0/n son promedios muestrales con observaciones tpicas x i x i 0 y x i i , respectivamente. De
este modo, se puede aplicar una ley de grandes nmeros para analizar sus lmites probabilsticos. Cuando x i y i
son iid, por el teorema de Khinchine
n

p
1X
X 0X
=
x i x i 0 E( x i x i 0 ) Q
n
n i=1

p
X 0 1 X
=
x i i E( x i i ) ,
n
n i=1

(2)

y se asumir que Q es una matriz no singular. Casi siempre, Q y el lmite probabilstico de X 0/n pueden
ser redefinidos con las condiciones ms dbiles del teorema de Chebyshev. Dado que tanto x i como i son
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

37

NC 6 - Mnimos cuadrados: Anlisis asinttico

independientemente distribuidas en este caso, x i x i 0 y x i i son tambin variables aleatorias independientes de x t x t 0


y de x t t para i , t. As, bajo la ptica del teorema de Chebyshev
n

p
1X
X 0X
1X
x i x i 0 lim
E( x i x i 0 ) Q
=
n n
n
n i=1
i=1

p
X 0 1 X
1X
x i i lim
E( x i i ) .
=
n n
n
n i=1
i=1

(3)

Por brevedad, asumiremos que x i y i son iid y por tanto favoreceremos el uso de la ley de grandes nmeros de
Khinchine. No obstante, anotaremos las circunstancias en donde los resultados ms generales (3) aplican sin alterar
las principales conclusiones cualitativas del anlisis asinttico.
1

Propiedades asintticas

El estimador MCO es consistente si se trabaja con el supuesto S1* y es asintticamente normal bajo condiciones
bastante generales.
1.1

Consistencia

De la ecuacin (15) de las NC 5 (p. 26) se tiene que


X 0X
b =
n

! 1

X 0 * 1 X
=
x i x i 0+
n
n
, i=1
-

*1
,n

n
X

x i i + Q 1 E( x i i )
i=1

(4)

donde se han utilizado los lmites probabilsticos en (2) y el teorema de Slustky. De este modo, bajo S1*,
p

b + Q 1 0 =

(5)

y por tanto MCO es consistente. El uso de la ley dbil de los grandes nmeros podra reemplazarse por el teorema
de Chebyshev sin comprometer la consistencia de MCO. En ambos casos, X 0/n converge a 0 de acuerdo con S1*.
1.2

Normalidad asinttica

Bajo S1*, E( x i i ) = 0. De esta forma, el teorema del lmite central de Linderberg - Lvy permite concluir que1
n
n
1X
X 0
1 X
d
x i i = n *
( x i i E( x i i ) ) + N (0, E( i2x i x i 0 )) .
=
n
n i=1
, n i=1
-

(6)

Luego, utilizando el teorema de Cramr se llega a

X 0X
n(b ) =
n

! 1

X 0 d
N (0,Q 1 E( i2x i x i 0 )Q 1 ) .
n

(7)

Vale la pena notar que n(b ) es una funcin de dos matrices aleatorias: Q n = X 0X /n y qn = X 0/ n. Conforme
n se incrementa, el primer trmino Q n se aproxima a su lmite a una velocidad n, mientras que el segundo qn lo

hace a una tasa n. Es decir, dado que la velocidad de convergencia de qn es menor que la de Q n , llegar un
momento (digamos, un tamao muestral n 0 tal que para todo n > n 0 ) en donde qn se sigue aproximando a su lmite
(una variable aleatoria normalmente distribuida), mientras que Q n ya habr alcanzado su lmite probabilstico Q.
Por ello, la aleatoriedad de Q n qn en muestras grandes la otorga qn , mientras que Q n slo afecta la varianza, de un
modo casi determinstico. Otra manera de analizar el problema es reescribir (7) como
Q n1qn = Q 1qn + (Q n1 Q 1 )qn

(8)

1 Se concluye lo mismo al utilizar el teorema del lmite central de Linderberg - Feller con la salvedad de que la varianza asinttica E( i2x i x i 0 )
debe ser reemplazada por el lmite de la expectativa promedio de i2x i x i 0 .
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

38

NC 6 - Mnimos cuadrados: Anlisis asinttico

donde se ha agregado y restado la expresin Q 1qn . El segundo trmino es importante. Note que Q n1 Q 1 0
mientras que, siguiendo a (6), qn converge en distribucin a un vector normalmente distribuido. Por el teorema
del mapeo continuo se tiene, luego, que este segundo trmino converge en probabilidad a cero. Es decir, Q n1qn es
asintticamente equivalente a Q 1qn . La distribucin asinttica de este ltimo trmino (conocido como la funcin
de influencia del estimador) es, precisamente, (7).
Finalmente, la varianza asinttica de b se simplifica bajo el supuesto S2*:

n(b ) N (0, 2Q 1 ) .

(9)

Inferencia en muestras grandes

Una ventaja evidente del enfoque asinttico sobre el anlisis en muestras finitas es que el mismo marco terico
ofrece un procedimiento para el contraste de restricciones no lineales bajo condiciones ms generales que en
muestras finitas. Ello es consecuencia de una simple aplicacin del mtodo delta. Las frmulas (10) a (14) lneas
abajo se aplican no slo a MCO sino que son vlidas para una gran variedad de estimadores economtricos
(asegrese de entenderlas a plenitud).
Defina la funcin vectorial : Rk Rq tal que ( ) es un vector de dimensin q 1 y la matriz Jacobiana
J ( ) = [( )/] tiene rango q. Partiendo de

n(b ) N (0,V ) ,

(10)

donde V es la varianza asinttica en (7) o en (9), se tiene que

n((b) ( )) N (0, J ( )V J ( ) 0 ) .

(11)

Suponga que se desea contrastar H 0 : ( ) = 0. As, bajo la hiptesis nula


d

n (b) 0 (J ( )V J ( ) 0 ) 1(b) q2 .

(12)
p

Dado que b es consistente bajo S1*, el teorema de Slutsky conlleva a J (b) J ( ). Luego, para un estimador
consistente de V , que denotamos como V n , el estadstico factible
d

w = n (b) 0 (J (b)V n J (b) 0 ) 1(b) q2

(13)

es asintticamente equivalente a (12). Este criterio de Wald es vlido asintticamente para el contraste H 0 : ( ) = 0
y no requiere de supuestos distributivos. La regla de decisin respecto a la evidencia en torno a H 0 es mecnica.
Si w > q2 ( ), el 100-simo percentil de q2 , entonces se rechaza H 0 . De otro modo, no se cuenta con suficiente
evidencia como para rechazar H 0 (en corto, se acepta H 0 ).
Un caso particular se da cuando las restricciones son lineales, ( ) = R r , J ( ) = R y (13) se reduce a
d

w = n (Rb r ) 0 (RV n R 0 ) 1 (Rb r ) q2 .

(14)

Conviene comparar esta expresin con la ecuacin (29) de las NC 5 (p. 29):
w = (Rb r ) 0 (RV( b | X )R 0 ) 1 (Rb r ) | X q2 .
Ambos estadsticos presentan claras similitudes. Mientras que (14) contiene a V n /n como estimador de la varianza
asinttica de b, el estadstico w utiliza la varianza muestral V( b | X ). Es bueno enfatizar, sin embargo, que
mientras que la elaboracin de w requiere condiciones dbiles, w es vlido slo bajo el supuesto distributivo S3.
En la misma lnea, el estadstico F presentado en la ecuacin (31) de las NC 5 (p. 30), , incorpora correcciones por
grados de libertad y reemplaza la varianza muestral por un estimador. Bajo los supuestos de las NC 5, F (q,nk ).
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

39

NC 6 - Mnimos cuadrados: Anlisis asinttico

No obstante, se deduce que nicamente bajo el supuesto de homocedasticidad S2 (o, mejor an, S2*), el estadstico
q (es decir, despus de remover un ajuste por grados de libertad) es asintticamente equivalente a w en (14) y
por tanto converge en distribucin a una variable chi-cuadrado con q grados de libertad. Ms an, el estadstico
utiliza s 2 , el estimador insesgado de 2 . Ello puede cambiarse por cualquiera de los estimadores barajados en las
NC 5 (e 0e/n presentado en la p. 28 o el estimador deducido en el ejercicio E11, p. 35) sin alterar en absoluto la
distribucin asinttica de q (ver seccin 2.1 lneas abajo).
Por su parte, cuando se contrasta slo una restriccin, R 0 = c Rk , el estadstico t converge a una variable aleatoria
z distribuida como normal estndar (recuerde que si a N (0, 2 ) entonces a = z donde z N (0, 1)):
s
0
c 0 (b )
nc (b ) d
c 0b r
c 0V c
=
=
=

z =z,
(15)
plim c 0V n c
c 0V n c/n
c 0V n c/n
c 0V n c
por el teorema de Cramr aplicado a (10) y el teorema de Slutsky. Luego, si | | > z , el 100-simo percentil de
una normal estndar, entonces se rechaza H 0 : c 0 = r . De otro modo, se acepta H 0 .
En resumen, se ha conseguido un marco de constraste de hiptesis general sin la necesidad de imponer supuestos
distributivos muy estrictos a las variables involucradas en la muestra aleatoria. Un requisito fundamental es contar
con el estimador consistente V n , un punto que se aborda enseguida.
2.1

Varianza con homocedasticidad

Como se vio en las NC 5, bajo S2, la varianza condicional de MCO es V( n(b ) | X ) = 2 (X 0X /n) 1 y un
estimador insesgado (bajo S1 y S2) es V n = s 2 (X 0X /n) 1 . Para que este estimador sea consistente de la varianza
asinttica en (9), se necesita (por el teorema de Slutsky) que s 2 sea consistente bajo S2*. Note que
!0
! 1
!

X 0
X 0X
X 0 0
e 0e
n
0M
n 0
2

s =
=

+a.
(16)
n k n k
n
n k n
n
n
n
n

Dado que n/(n k ) 1 y que X 0/n 0, es sencillo verificar que a 0. Por tanto, el lmite probabilstico de
s 2 es igual al lmite probabilstico de 0/n que, a su vez, es igual a la varianza no condicional de i (por la ley dbil
de grandes nmeros):
0 p
E( i2 ) = V( i ) = 2
n

si S2* se cumple.

(17)

Se concluye que s 2 2 con las condiciones arriba discutidas. En general, cualquier estimador de la forma e 0e/m
donde m/n 1 conforme n ser consistente (ver ejercicio E19, p. 45).
2.2

Varianza robusta

En el caso ms general (sin imponer S2*), la varianza asinttica de b es V = Q 1 E( i2x i x i0 )Q 1 . Dado que ya se
cuenta con un estimador consistente de Q, se precisa un estimador consistente de = E( i2x i x i 0 ) para implementar
V n . Sea ei el i-simo residuo de la regresin. Luego, el estimador de momentos de
n

X
=1

e 2x i x i 0 ,
n i=1 i

(18)

es consistente y, usando el teorema de Slustky,


p

0X /n) 1 V .
V n = (X 0X /n) 1 (X

(19)

Recuerde que ei = i x i 0 (b ). As,


n

X
1X 2
2X 2
1X
=1
ei2x i x i 0 =
i x i x i 0
i x i x i 0[x i 0 (b )] +
x i x i 0[x i 0 (b )]2 = T 1 +T 2 +T 3 . (20)

n i=1
n i=1
n i=1
n i=1
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

40

NC 6 - Mnimos cuadrados: Anlisis asinttico

P
El segundo trmino es tal que kT 2 k kb k[ 2 kx i k 3i2 /n ] mientras que el tercer tmino satisface kT 3 k
P
kb k kx i k 4 /n (demostrar estas desigualdades va ms all del alcance de esta clase). En ambos casos se tiene
que las normas son menores que kb k multiplicado por la norma de promedios que convergen en probabilidad a
cantidades finitas, por la ley dbil de los grandes nmeros. Dado que b es consistente, se tiene que plim kb k = 0
y, en virtud del teorema de Slustky, se puede concluir que tanto T 2 como T 3 convergen en probabilidad a 0.
p

.
Asimismo, es sencillo notar que T 1 E( i2x i x i 0 ), dictado por el teorema de Khinchine. De este modo,
0
2
Ms an, (20) establece la equivalencia asinttica entre el promedio de los trminos ei x i x i y los trminos i2x i x i 0,
por lo que su consistencia ocurre bajo condiciones ms generales como las del teorema de Chebyshev:
n

X
X
lim 1
plim 1
plim
E( i2x i x i 0 ) = plim
i2x i x i 0 = 0.
n n
n
i=1
i=1
Note la versatilidad que ofrece este estimador. La inferencia correcta del estimador MCO con un estimador de
varianza como (19) es posible valindose slo de un supuesto: el de identificacin S1*. No se requiere especificar
la forma de heterocedasticidad V( i ) o V( i | x i ), un atributo muy valioso en situaciones donde no se sabe con
certeza la naturaleza de la heterocedasticidad (probablemente, la mayora de veces). Adems, los residuos ei pueden
ser reemplazados por residuos basados en cualquier estimador de que sea consistente (ver ejercicio E20, p. 45).
Finalmente, el estimador es vlido tambin bajo homocedasticidad (supuesto S2*).
El estimador V n se conoce como estimador robusto (de la varianza), estimador corregido por heterocedasticidad
o estimador consistente de White. Es bueno hacer una aclaracin sobre la naturaleza de este estimador. Para ello,
compare la expresin de la varianza de b deducida en la ecuacin (18) de las NC 5 (p. 27) con nV n :
V( b | X ) = (X 0X ) 1X 0 X (X 0X ) 1

nV n = (X 0X ) 1X 0HX (X 0X ) 1 ,

donde = diag(12 ,22 , . . . ,n2 ) y H = diag(e 12 ,e 22 , . . . ,en2 ). A primera vista podra pensarse que ei2 es un estimador
consistente de i2 . Esto es, sin embargo, una conclusin apresurada e incorrecta. Sin imponer restricciones o
estructura a los elementos de , no es posible obtener estimadores consistentes de i2 . La razn es que conforme
n , se incrementa tambin el nmero de parmetros por estimar y por tanto a pesar de disponer de muestras
cada vez ms grandes, no se dispone de ms informacin para la estimacin de estos parmetros. Las n varianzas i2
son lo que se denominan parmetros incidentales. El estimador de White explota (creativamente) el hecho de que
el estadstico relevante para la determinacin de la varianza de b es X 0 X /n que es de dimensin k k (contiene
tan slo k (k + 1)/2 parmetros) y es estimado consistentemente por X 0HX /n. En resumen, (19) se cumple a pesar
de que H no es necesariamente un buen estimador de .
3

Errores de especificacin

Esta seccin estudia las consecuencias de estimar modelos mal especificados por MCO, bajo los supuestos S1*
y S2*. Vale la pena aclarar que las conclusiones sobre la eficiencia asinttica relativa de los estimadores que
analizaremos dependen del cumplimiento del supuesto S2*. Bajo formas generales de heterocedasticidad, no es
posible establecer ordenamientos categricos.
Considere una particin del vector x i = (x 1i 0,x 2i 0 ) 0 que conlleva a la particin X = (X 1 : X 2 ). Luego, el lmite
probabilstico de X 0X /n se puede particionar como
X 0X
n

#
X 1 0X 1 X 1 0X 2
X 2 0X 1 X 2 0X 2
#
"
# "
#
n "
p
1 X x 1i x 1i 0 x 1i x 2i 0
E( x 1i x 1i 0 ) E( x 1i x 2i 0 )
Q 11 Q 12
=
=Q.
=

E( x 2i x 1i 0 ) E( x 2i x 2i 0 )
Q 21 Q 22
n i=1 x 2i x 1i 0 x 2i x 2i 0
1
=
n

"

(21)

En virtud de S1*, E( x 1i i ) = 0 y de S2* V( x 1i i ) = 2 E( x 1i x 1i 0 ) = 2Q 11 . Luego, por la ley dbil de grandes


c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

41

NC 6 - Mnimos cuadrados: Anlisis asinttico

nmeros y el teorema del lmite central, se tiene que


X 1 0 p
E( x 1i i ) = 0
n

X 1 0 d
N ( 0, 2Q 11 ) .
n

(22)

Por otro lado, sea M 2 = I n P 2 = I n X 2 (X 2 0X 2 ) 1X 2 0 la matriz de proyeccin (simtrica e idempotente) ortogonal


a X 2 , M 2X 2 = 0. Luego,
X 1 0M 2X 1 X 1 0X 1 X 1 0X 2 X 2 0X 2
=

n
n
n
n

! 1

X 2 0X 1 p
Q 11 Q 12Q 1
22 Q 21 Q 1|2 .
n

(23)

Defina Z = M 2X 1 como una matriz de regresores corregidos que tiene la misma dimensin de X 1 . Utilizando
S1*, E( z i i ) = 0 y de S2* se tiene que V( z i i ) = 2 E( z i z i 0 ), donde z i es la i-sima columna de Z . Note que
Z 0Z = X 1 0M 2X 1 y por consiguiente plim Z 0Z /n = E( z i z i 0 ) = Q 1 |2 . As,
X 1 0M 2 p
E( z i i ) = 0
n

X 1 0M 2 d
N ( 0, 2Q 1|2 ) .

(24)

1
Finalmente, requeriremos comparaciones entre Q 1
1|2 y Q 11 . Recuerde que
1
Q 1
1|2 Q 11  0

si y slo si

Q 11 Q 1|2  0

(ver seccin 1.6, NC 1, p. 3), lo que se cumple ya que Q 11 Q 1|2 = Q 21 0Q 1


22 Q 21 y Q 22  0. Es decir, en sentido
1
1
matricial, Q 1|2 es mayor que Q 11 .
3.1

Variables omitidas

Suponga que se tiene el modelo lineal


y = X 1 1 + X 2 2 + ,

(25)

pero se omite el conjunto de variables en X 2 . Es decir, se estima 1 por MCO utilizando nicamente a X 1 como
regresores o, en otras palabras, el modelo efectivamente estimado es
y = X 1 1 + .

(26)

siendo un vector de perturbaciones que luego se detalla. Usualmente esta situacin se da cuando X 2 son variables
no observables. La pregunta es Cules son las implicancias en el estimador MCO de 1 cuando se utiliza (26) en
lugar de la especificacin correcta (25)?
El estimador MCO en (26) es
b malo

X 1 0X 1
=
n

! 1

X 1 0y
n

X 1 0X 1
1 +
n

! 1

!
! 1
X 1 0X 2
X 1 0X 1
X 1 0
2 +
n
n
n

(27)

1
1
1 + Q 1
11 Q 12 2 + Q 11 E( x 1i i ) = 1 + Q 11 Q 12 2 .

En (27), la segunda igualdad se consigue al reemplazar y por su definicin en (25) el modelo correctamente
espeficado , mientras que el lmite probabilstico utiliza el teorema de Slutsky, la ley dbil de grandes nmeros y
las definiciones de las matrices Q i j , ver (21). La ltima igualdad se cumple bajo S1*, ver (22).
Dado que Q 11 es definida positiva, de (27) se concluye que b malo es inconsistente al menos que Q 12 = 0 (para
casos no triviales con 2 , 0): b malo es inconsistente si x 1i (las variables incluidas) est correlacionado con x 2i (las
variables omitidas). Ello ilustra lo que se conoce como el sesgo de variables omitidas.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

42

NC 6 - Mnimos cuadrados: Anlisis asinttico

Esta situacin alude a un problema de mucho inters en econometra: 1 no est identificado en (26).
Puede manipularse (27) para obtener la distribucin asinttica de b malo . Se tiene que

n(b malo

1 Q 1
11 Q 12 2 )

X 1 0X 1
n

! 1

! 1
!

X 1 0 X 1 0X 1
X 1 0X 2

Q 1
Q
+ n
11 12 2
n
n

(28)

N (0, 2Q 1
11 ) .
El segundo trmino a la derecha de (28) (aqul postmultiplicado por 2 ) converge en probabilidad a cero, mientras
que la distribucin asinttica proviene de aplicar el teorema de Cramr a (22).
Suponga ahora que se observa X 2 y se estima 1 basado en el modelo correctamente especificado (25). Por el
teorema de Frisch-Waugh-Lovell (p. 25),
b bueno

X 1 0M 2X 1
=
n

! 1

X 1 0M 2y
X 1 0M 2X 1
= 1 +
n
n

! 1

X 1 0M 2 p
1 ,
n

(29)

La ltima igualdad se cumple por (24). No sorprende verificar que MCO es consistente en el modelo correctamente
especificado. La distribucin asinttica de b bueno se consigue tras aplicar el teorema de Cramr a (24),

X 1 0M 2X 1
n(b bueno 1 ) =
n

! 1

X 1 0M 2 d
N (0, 2Q 1

1|2 ) .
n

(30)

Al comparar las distribuciones asintticas de b malo y la de b bueno se aprecia que la varianza asinttica del estimador
1
inconsistente es menor (Q 1
1|2  Q 11 ), lo que se explica porque b malo ignora la variabilidad proveniente de X 2 en
la estimacin. La pregunta es Es esto deseable? Es difcil establecer un ordenamiento concluyente en trminos
del error cuadrtico medio, ya que para el caso de b malo ste contiene un sesgo positivo (aumenta el ECM) y
una menor varianza (disminuye el ECM). Sin embargo, un estimador sesgado (inconsistente) con baja variabilidad
(asinttica) puede ser muy inconveniente para la inferencia. En trminos simples, b malo se podra encontrar centrado
lo suficientemente lejos de 1 al punto de que la poca variabilidad del estimador no permita que la distribucin
asinttica tenga informacin til sobre 1 , por ejemplo por tener intervalos de confianza angostos que incluso
podran no incluir a 1 .
3.2

Variables redundantes

Considere ahora el caso opuesto: en un modelo de regresin se incluyen ms regresores que los necesarios
(esencialmente, b malo pasa a ser b malo y vice versa). Es decir, en el modelo
y = X 1 1 + X 2 2 + ,

(31)

X 2 contiene variables redundantes o irrelevantes, que implica 2 = 0 en la poblacin. Para calcular el estimador
MCO de 1 utilizando la matriz completa de X , se acude al teorema de Frisch-Waugh-Lovell por lo que
! 1
! 1
X 1 0M 2y
X 1 0M 2X 1
X 1 0M 2X 1
X 1 0M 2 p
b malo =
= 1 +
1 + Q 1
(32)
1|2 0 = 1 .
n
n
n
n
El estimador MCO sigue siendo consistente incluso cuando el modelo estimado contiene variables redundantes. La
distribucin asinttica de b malo es idntica a la del estimador en (30),

d
n(b malo 1 ) N (0, 2Q 1
(33)
1|2 ) .
Note que en este caso el estimador definido en (27) es el estimador correcto. Sin embargo, dado que 2 = 0 en la
poblacin, su distribucin asinttica pasa a ser

n(b bueno 1 ) N (0, 2Q 1


11 ) .

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

(34)
43

NC 6 - Mnimos cuadrados: Anlisis asinttico

La varianza asinttica de b malo es mayor que la varianza asinttica de b bueno : introducir variables irrelevantes
incrementa la dispersin del estimador MCO. Ello puede causar problemas de inferencia que si bien son
inconvenientes (el ECM podra incrementarse aceleradamente adems de dar la impresin en el extremo de
que ningn regresor es significativo), son en la prctica menos severos que lo inducido por la omisin de variables.
Ejercicios
E13

Convergencia en media cuadrtica

Un estimador qn converge en media cuadrtica a , si E( qn ) y V( qn ) 0. Si qn converge en media


cuadrtica a , entonces plim qn = .
Considere el modelo de regresin lineal yi = x i + i , donde x i es determinstico. Utilizando el resultado sobre
convergencia en media cuadrtica, muestre si el estimador MCO de es consistente, cuando:

x i = i y V( i ) = 2i.
x i = i y V( i ) = 2 .
P
P
Ayuda: Recuerde que ni=1 i = n(n + 1)/2 y ni=1 i 2 = n(n + 1)(2n + 1)/6.
E14

Convergencia en distribucin y convergencia en probabilidad

n(b ) N (0,V ) Ello implica b ?

Ayuda: b = ( n) 1 n(b ).

Suponga que

E15

Estimadores alternativos

Suponga que en el modelo de regresin lineal


yi = x i + i

para

i = 1, 2, . . . ,n ,

donde x i > 0 es una variable aleatoria escalar, se cumplen los supuestos S1 y S2. Considere los estimadores:
Pn
Pn
n
yi
1 X yi
i=1 x i yi

b = Pn 2 ,
.
b = Pni=1
y
b =
n i=1 x i
i=1 x i
i=1 x i
Muestre que estos estimadores son consistentes, encuentre sus distribuciones asintticas y establezca cul de ellos
es asintticamente ms eficiente.
E16

Motivacin para perturbaciones heterocedsticas

Considere un modelo de regresin de la forma yi = x i 0 i +ui , donde E( ui | x i ) = 0 y V( ui | x i ) = u2 . A diferencia


de la regresin estndar, el coeficiente de regresin depende de i. Suponga que i = + v i , donde v i iid (0, )
es independiente de x i . Muestre que este modelo de parmetros aleatorios puede expresarse como una regresin
estndar yi = x i 0 + i con perturbaciones no correlacionadas, C( i , j ) = 0 para i , j, y condicionalmente
heterocedsticas, V( i | x i ) = i2 .
E17

Mtodo delta

Suponga que se tiene la siguiente regresin y = 0 + 1x + 2x 2 + . El valor ptimo de x es x = 1 /(2 2 ).


Explique cmo calculara un estimador del error estndar de x y cmo contrastara H 0 : x = 1.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

44

NC 6 - Mnimos cuadrados: Anlisis asinttico

E18

Sobre el estimador s 2

En la seccin 2.1 se concluy que


s2 =

0
+a.
n
p

Encuentre a y compruebe que a 0 y, ms an,


E19

na 0.

Estimador consistente de 2
p

En la seccin 2.1 se concluy que s 2 E( i2 ). Muestre la siguiente generalizacin de este resultado:


n
p
1 X
2
(yi x i 0b)
E( i2 )
s =
m i=1
2

p
donde b es cualquier estimador consistente, b (no necesariamente MCO bajo S1*), y m/n 1.

E20

Estimador consistente de

Considere el modelo lineal yi = x i 0 + i . Estudie la siguiente generalizacin del resultado en (20):


n

p
1X
2z i z i 0
(yi x i 0b)
E( i2z i z i 0 ) ,
n i=1
p
donde b es cualquier estimador consistente, b , y z i es cualquier vector (no necesariamente x i ).

Esboce una prueba como la de la seccin 2.2 (p. 40). Si gusta, asuma que z i es un escalar, y que existe alguna
constante C tal que | E( zi ) | < C, k E( zi x i ) k < C y k E( zi x i x i 0 ) k < C para todo > 0.

c 2016, Diego Winkelried (Universidad del Pacfico)


Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per

45

Pgina en blanco

You might also like