Econometría - Básica e Intermedia PDF

ECONOMETRÍA
INTERMEDIA Y BÁSICA
ALVARO MONTENEGRO
Profesor Titular
Departamento de Economía
Universidad Javeriana
Bogotá
Montenegro ECONOMETRÍA
CONTENIDO
EL MODELO DE REGRESIÓN Y MÍNIMOS CUADRADOS ORDINARIOS
PRUEBAS DE HIPÓTESIS Y PROPIEDADES ASINTÓTICAS
ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
ESPECIFICACIÓN, NO LINEALIDAD Y MULTICOLINEALIDAD
HETEROSCEDASTICIDAD Y AUTOCORRELACIÓN
SESGO EN LA ESTIMACIÓN POR MCO
ESTIMACIÓN POR VARIABLE INSTRUMENTAL
CONCEPTOS DE SERIES DE TIEMPO
MODELOS PARA SERIES DE TIEMPO ESTACIONARIAS
ESTIMACIÓN DE LOS MODELOS ARMA
MODELO ESTACIONARIO MULTIVARIADO VAR
SERIES DE TIEMPO NO ESTACIONARIAS
MODELOS PARA DATOS PANEL
CAUSALIDAD E IMPACTO
BOOTSTRAPPING Y PERMUTACIÓN
MODELOS DE VARIABLE DEPENDIENTE LIMITADA
MODELOS ARCH
EJERCICIOS
RESPUESTAS
REFERENCIAS
PRESENTACIÓN
Econometría se refiere al desarrollo y uso de técnicas estadísticas y

probabilísticas para el análisis de datos económicos. A diferencia de la
información generada en un experimento de laboratorio puro, donde el
entorno y las variables están bajo control, la mayor parte de los datos que
debe analizar la econometría proviene del sistema económico en su marcha
diaria, y están por fuera del control del analista; son lo que produce el
sistema, de manera que es difícil saber qué causa qué.
La econometría trata con variables aleatorias; esto es, con variables que
miden el resultado de experimentos repetidos, o que pueden ser vistos como
repetibles; por ejemplo, la medición periódica del Pib, el desempleo, la
inflación, etc. Una variable, digamos y , es aleatoria si, antes de observar el
resultado del experimento, su predicción es incierta. Sin embargo, esto no
quiere decir que estemos a oscuras acerca de la variable. Si bien ex ante no
sabemos el valor exacto que va a tomar, con frecuencia sabemos o intuimos
el rango dentro del cual suele moverse, su valor promedio, su dispersión, o si
tiene relación con valores del pasado. El comportamiento de la variable se
resume en su función de probabilidad, f ( y ) , la cual subyace todo el análisis
econométrico. Es por esto que estadística y probabilidad forman la base de la
econometría.
Existe un debate acerca del papel que juega la teoría económica en la
econometría. Econometría, como tal, compendia las técnicas estadísticas y
probabilísticas, y en este sentido es aplicable a otras áreas del conocimiento,
como la biología, por ejemplo. Pero su práctica depende fuertemente de la
teoría económica, que la guía en la especificación de los modelos y en la
evaluación de los resultados.
Este texto es una introducción a los temas econométricos de mayor uso
en el análisis de los datos económicos, separado en tres partes: cortes
transversales (básicamente la econometría tradicional), series de tiempo, y
temas adicionales. Muchos de los ejemplos utilizados fueron desarrollados
en varias versiones del software EViews.
Cortes trasversales (también conocido como secciones transversales) se
refiere a datos tomados en un momento de tiempo, razón por la cual los
datos se identifican con un subíndice para cada observación individual, por
ejemplo y i . Series de tiempo se refiere a datos tomados a través del tiempo,
razón por la cual se identifican con un subíndice para cada período de

tiempo, por ejemplo y t . Entre los temas adicionales se encuentran los
modelos para datos panel, que combinan los dos anteriores; esto es, cortes y
series, los mismos individuos medidos a través del tiempo, y suelen
denotarse con dos subíndices, yit , uno para identificar la unidad de
observación de corte (persona 1, persona 2, o país 1, país 2, etc.) y otro para
identificar el período de tiempo al cual pertenece la observación (mes 1, mes
2, o año 1, año 2, etc.).
El presente texto requiere un manejo adecuado de probabilidad,
estadística, y álgebra matricial, aunque esta última se podría aprender por el
camino.
Sobre el autor:
ALVARO MONTENEGRO PhD en Economía de New York University; magíster en
economía de la Universidad Javeriana; ingeniero electrónico de la Universidad Javeriana.
En el pasado: director del Centro sobre Desarrollo Económico CEDE de la Universidad
de los Andes, profesor titular de la Facultad de Economía de la Universidad de los Andes;
asesor del Instituto de Ahorro y Vivienda, de la Superintendencia de Industria y
Comercio, de la Contraloría General de la República; y columnista y editorialista del
diario El Tiempo. Áreas de interés: macroeconomía cuantitativa, desarrollo económico,
econometría y series de tiempo. Sus contribuciones han sido publicadas en Journal of
Econometrics, Constitutional Political Economy, Journal of Applied Statistics, Labour,
Applied Financial Economics, Desarrollo y Sociedad, y Revista de Economía
Institucional, entre otras. Es autor de libros sobre temas de crecimiento económico (con
Lauchlin Currie), economía experimental y análisis de series de tiempo. Actualmente es
miembro de la Academia Colombiana de Ciencias Económicas.
Capítulo 1
EL MODELO DE REGRESIÓN Y MÍNIMOS

CUADRADOS ORDINARIOS
La tarea básica en econometría es modelar y explicar una variable

aleatoria en función de otras variables, buscando la relación que mejor se
ajuste a los datos y a la teoría. Un modelo debe ser una simplificación útil de
la realidad, no una réplica, de manera que procedemos a hacer supuestos
razonables. Por ejemplo, que
y = f ( x1 , x2 ,K, xk , ε ) (1.1)
donde decimos que la variable y , llamada dependiente, es igual a una

función f de las variables x1 , x 2 ,K, x k , llamadas explicativas o
independientes, y de un término de error ε que recoge el efecto de todo lo
que no explican las variables x1 , x 2 ,K , x k . Por razones a dilucidar más
adelante, las variables explicativas o independientes x1 , x 2 ,K , x k también se
conocen con el nombre genérico de regresores porque, a veces, ni explican
ni son independientes. La función f podría cambiar con el tiempo (en cuyo
caso tendría un subíndice t ) pero escogemos que sea constante.
Tal como está, y a pesar de los supuestos hechos, la ecuación postulada
es de poca ayuda porque no sabemos cuál es la forma de f , esto es, su
expresión matemática. Quizá f no deba ser lineal, dado que la realidad es
no lineal. El problema es que hay infinitas formas funcionales no lineales y
sería difícil generalizar alguna. Buena parte de la econometría estudia las
consecuencias de hacer uno u otro supuesto.
Por ahora, asumimos una forma funcional lineal para el modelo con la
esperanza de que provea una aproximación útil a la realidad, al menos en el
rango usual en que se mueven las variables. La forma funcional y las
variables involucradas se resumen en el supuesto 1,
Supuesto 1
y = β 0 + β1 x1 + β 2 x2 + L + β k xk + ε (1.2)
Esta forma funcional, con su intercepto β 0 y demás coeficientes β1 , β 2 ,K, β k ,

las variables explicativas y el término de error, se conoce como Modelo
Clásico Lineal, también llamado modelo de regresión lineal, y constituye
el supuesto 1. En esencia, el modelo dice que el sistema económico (o
cualquiera que estemos estudiando) toma valores para las variables
explicativas, las multiplica por los coeficientes, suma un ε , y produce el
valor de y .
La Figura 1.1 muestra un diagrama de flujo que representa el modelo
clásico lineal de la ecuación (1.2). Cada variable se multiplica por su
coeficiente y entra en la suma que produce y . Nótese que el intercepto tiene
su origen en 1, el cual se multiplica por β 0 . Por su parte el error ε se
multiplica por 1 para entrar en la suma.
β0
1
y
β1
x1
β2
x2
M
βk
xk
1
ε Figura 1.1
Observamos las variables explicativas y la variable y , pero no

observamos ni el error ni los coeficientes. De hecho, nuestro objetivo inicial
es encontrar (estimar) los valores numéricos de los coeficientes β 0 , β1 ,K, β k a
partir de los datos observados, los cuales constituyen una muestra de tamaño
n . Para cada una de las n observaciones de la muestra podemos escribir,
y1 = β 0 + β1 x11 + β 2 x21 + L + β k xk1 + ε1
y2 = β 0 + β1 x12 + β 2 x22 + L + β k xk 2 + ε 2
(1.3)
M
yn = β 0 + β1 x1n + β 2 x2 n + L + β k xkn + ε n
Las ecuaciones anteriores, en formato de matrices y vectores, y mostrando

su orden en la parte inferior, quedarían
 y1  1 x11 x21 L xk 1   β 0   ε1 
 y  1 x x22 L xk 2   β1  ε 2 
 2 =  12
+ (1.4)
 M  M M M L M  M   M 
      
 yn  1 x1n x2 n L xkn   β k  ε n 
n×1 n× k +1 k +1×1 n×1
La columna de 1´s representa la constante o el intercepto de las

ecuaciones y, aunque no varía, se considera una de las k + 1 variables
explicativas. Definiendo
 y1 
y 
y =  2 (1.5)
M
 
 yn 
n×1
1 x11 x21 L xk 1 
1 x x22 L xk 2 
X = 12
(1.6)
M M M L M 
 
1 x1n x2 n L xkn 
n× k +1
 β0 
β 
β =  1 (1.7)
M
 
β k 
k +1×1
 ε1 
ε 
ε =  2 (1.8)
M
 
ε n 
n×1
escribimos el modelo en notación matricial como
y = Xβ + ε (1.9)
En algunos textos las variables van de x1 a xk pero hacen x1 igual a la

columna de unos de la constante, de manera que la matriz X tiene orden
n × k y el vector de coeficientes β orden k × 1 . En este texto, al menos
inicialmente, usaremos k + 1 con el objeto de enfatizar la columna de unos
del intercepto, la cual juega un papel importante en la regresión.
Mínimos Cuadrados Ordinarios, MCO
Con los valores observados de y y X trataremos de estimar los valores

de los elementos desconocidos del modelo, esto es, los k + 1 elementos de β ,
que denotamos β̂ , y los n × 1 elementos de ε , que denotamos εˆ . En otras
palabras, denotamos con gorrito las variables o parámetros estimados (con
valor numérico o calculable de la muestra) y sin gorrito las variables o
parámetros de la población.
Hay varios métodos que se puede proponer para estimar el vector β del
modelo clásico lineal. Uno de ellos, quizá el más popular, se conoce como
mínimos cuadrados ordinarios, MCO, y consiste en escoger el vector β̂ ,
 βˆ0 
ˆ
β
β =  1
ˆ (1.10)
M
 
ˆ
 β k 
k +1×1
que minimiza la suma de los errores estimados al cuadrado.

Con cualquier β̂ finito propuesto, estos errores estimados, también
conocidos como residuos, se definen de la resta
 εˆ1 
εˆ 
ε = y − Xβ = y − y =  2 
ˆ ˆ ˆ (1.11)
M
 
εˆn 
La suma de estos residuos al cuadrado se escribe
 εˆ1 
εˆ 
∑ εˆ 2
= εˆ12 + εˆ22 + L + εˆn2 = [εˆ1 εˆ2 L εˆn ]  2  = εˆ′εˆ (1.12)
i
M
 
εˆn 
donde εˆ′ denota el vector transpuesto de εˆ . Remplazando,
εˆ′εˆ = ( y − Xβˆ )′( y − Xβˆ )
= ( y′ − βˆ ′ X ′)( y − Xβˆ )
(1.13)
= y′y − y′Xβˆ − βˆ ′X ′y + βˆ ′X ′Xβˆ
= y′y − 2 βˆ ′X ′y + βˆ ′X ′Xβˆ
donde el último paso se da porque εˆ′εˆ es un escalar (una simple suma, de

orden 1 × 1 ), al igual que tienen que serlo todos los sumandos del lado
derecho. Dado que un escalar es igual a su transpuesto, tenemos que
y ′Xβˆ = βˆ ′X ′y .
Para minimizar, y recordando que X y y son dadas y no dependen de β̂ ,
derivamos la expresión anterior con respecto a cada uno de los k + 1
elementos del vector β̂ e igualamos estas k + 1 derivadas a cero,
∂ εˆ′εˆ ∂
= ( y′y − 2 βˆ ′X ′y + βˆ ′X ′Xβˆ ) = 0 (1.14)
∂β ˆ ∂βˆ k +1×1
La derivada de los términos dentro del paréntesis será

∂ y′y
= 0 (1.15)
∂βˆ k +1×1
∂ (−2 βˆ ′X ′y )
= − 2 X ′y (1.16)
∂βˆ k +1×1
∂ βˆ ′X ′Xβˆ
= 2 X ′Xβˆ (1.17)
∂βˆ k +1×1
De manera que, sumando las tres derivadas anteriores,
∂ εˆ′εˆ
= −2 X ′y + 2 X ′Xβˆ = 0 (1.18)
∂βˆ k +1×1
donde tenemos k + 1 ecuaciones para resolver las k + 1 incógnitas del vector

β̂ , las cuales, cancelando el 2 que se encuentra en ambos términos, pueden
escribirse como
X ′Xβ̂ = X ′y (1.19)
Para despejar β̂ tenemos que hacer el siguiente supuesto,
Supuesto 2
( X ′X ) −1 existe (1.20)
La existencia del inverso ( X ′X ) −1 equivale a suponer que la matriz X ′X , de

orden k + 1 × k + 1 , tiene rango r completo o, dicho de otra forma, que las
k + 1 variables explicativas, las columnas de X , son linealmente
independientes. En otras palabras, la existencia de ( X ′X ) −1 implica
r ( X ) = r ( X ′) = r ( X ′X ) = r ( XX ′) = k + 1 (1.21)
porque el rango de X ′X es igual al rango de X [ver Johnston (1984, p.

120)]. La independencia lineal significa que cada variable aporta
información adicional en la regresión; esto es, que una variable explicativa

no es un múltiplo de otra ni una combinación lineal de otras.
Una condición necesaria más no suficiente para la existencia de ( X ′X ) −1
es que n sea mayor o igual a k + 1 . Sabemos del álgebra lineal que el rango
de una matriz es menor o igual al mínimo número de filas o columnas de la
misma. Según esto, si n < k + 1 el rango de X sería inferior a k + 1 , la matriz
X ′X tendría rango inferior a k + 1 y su inverso no existiría. Por otro lado, si
n = k + 1 entonces X ′X sí tiene inverso y se puede correr MCO, aunque de
manera trivial porque los residuos serían cero ya que tendríamos tantas
observaciones como incógnitas y el ajuste sería perfecto. La Figura 1.2
puede ayudar en la intuición ilustrando el modelo y = β 0 + β1 x1 + ε , que es
una línea con dos incógnitas, β 0 y β1 . Si tenemos una muestra de tamaño
n = 2 (dos puntos en el plano x , y ), entonces no hay residuos porque
cualquier línea pasa exactamente por dos puntos. Tampoco habrá residuos
cuando se trate de tres coeficientes β 0 , β1 y β 2 y la muestra sea n = 3 . Y así
sucesivamente cuando el número de coeficientes a estimar k + 1 sea igual al
tamaño de la muestra n .
y2
Figura 1.2
y1
x1 x2
Volviendo al supuesto 2, podemos premultiplicar ambos lados de la

expresión (1.19) por ( X ′X ) −1 y despejar el estimador de mínimos cuadrados
ordinarios β̂ , cual queda
β̂ = ( X ′X ) −1 X ′ y (1.22)
Podríamos llamarlo β̂ MCO pero omitiremos el subíndice mientras no haya

lugar a confusión. Nótese que β̂ depende de la muestra y por tanto es una
variable aleatoria, con distribución de probabilidad, media, varianza, etc. De
hecho, si tomamos muchas muestras podemos formar un histograma con los
β̂ estimados. En contraste, β es constante, es un parámetro de la población.
Rescribiendo la expresión (1.19), encontramos una interesante propiedad
de la estimación por MCO
X ′( y − Xβˆ ) = X ′( y − yˆ ) = X ′εˆ = 0 (1.23)

k +1×1
donde
1 1 L 1   εˆ1  0 
x x12 L x1n  εˆ2  0 
X ′εˆ =  11 =   (1.24)
 M M  M  M 
    
 xk 1 xk 2 L xkn  εˆn  0 
k +1× n n ×1 k +1×1
La expresión anterior representa k + 1 restricciones sobre los n elementos del

vector εˆ , lo que, en la práctica, lleva a que tengamos n − (k + 1) elementos
libres en ese vector. Viendo el primer término, ∑ εî = 0 , deducimos que
cuando se estima por MCO el promedio de los residuos εˆ , esto es, εˆ , es
cero (siempre y cuando se incluya la constante en la regresión). De cada fila
vemos que el vector εˆ es ortogonal a todas las variables explicativas,
incluyendo los 1’s de la constante (recordamos que dos variables son
ortogonales si la sumatoria de sus productos es cero). En otras palabras, las
k + 1 condiciones (restricciones) son
∑ εˆ = ∑ x εˆ =∑ x
i 1i i εˆ = L = ∑ xkiεî =0
2i i (1.25)
La propiedad anterior se puede ilustrar apelando a conceptos de álgebra

vectorial. Con un poco de imaginación, las variables x1 y x 2 se dibujan en la
Figura 1.3 como vectores de n dimensiones (en un espacio n dimensional,
esto es ℜ n ). De igual manera la variable y es un vector de n dimensiones,
el cual no puede estar en el plano generado por x1 y x 2 ya que, de ser así,
sería generado exactamente por los vectores x1 y x 2 y no habría errores ε en
el modelo (similar al caso de la Figura 1.2). La técnica de MCO encuentra la

combinación lineal de las variables explicativas (los vectores x1 y x 2 ) que
más se aproxima al vector y , la cual es yˆ = βˆ1 x1 + βˆ 2 x 2 . La menor distancia
entre el vector y y ŷ es un vector perpendicular denotado εˆ , el cual, como
se dijo, es perpendicular a ŷ y por lo tanto a cada componente de ŷ , esto es,
a x1 y x 2 y, en general, a todas las variables explicativas que haya en la
regresión.
εˆ
x1
Figura 1.3
ŷ
x2
Ejemplo de regresión con una variable
Consideremos el modelo yi = β xi + ε i . Este ejemplo corresponde a la

regresión simple, con una sola variable explicativa y sin constante. Vemos
que, vectorialmente, puede escribirse como
 y1   x1   ε1 
 y  x   
 2  =  2  β + ε 2  (1.26)
 M   M  1×1  M 
     
 yn   xn  ε n 
n ×1 n ×1 n ×1
Aplicando la fórmula del estimador de MCO a la estructura de este ejemplo,

tenemos
−1
  x1    y1 
  x  y 
β = ( X ′X ) X ′y = [x1
ˆ −1
x2 L xn ] 2   [x1 x2 L xn ] 2  =
1×1   M  M
    
  xn    yn 
(1.27)
(∑ x ) ∑ x y = ∑ xxy
2 −1 i i
∑ 2
i i i
i
Ejemplo de regresión con intercepto y una variable
Considere el modelo yi = β 0 + β1 xi + ε i . En este ejemplo tenemos la constante

y una variable. En general, cuando la matriz X tiene dos o más columnas se
denomina regresión múltiple. La estructura del modelo es
 y1  1 x1  ε1 
 y  1 x  β  
 2 =  2   0  ε 2 
+ (1.28)
 M  M M   β1   M 
    2×1  
 yn  1 xn  ε n 
n×1 n×2 n×1
y el estimador, utilizando la fórmula de MCO, se expresa

−1
 1 x1    y1 
 
ˆ  βˆ0    1 1 L 1  1 x2    1 1 L 1   y2 
β = =  =
ˆ 
 β1    x1 x2 L xn  M M    x1 x2 L xn   M 
   
 1 xn    yn 
−1
 n

∑ x   ∑ y 
i i
∑ xi ∑ x  ∑ x y 
2
i i i
Invertir una matriz a mano es en general una tarea difícil, excepto cuando se
trata de un escalar o de una matriz de orden 2 × 2 , como el caso del ejemplo.
Para invertirla, se cambian de lugar los dos elementos de la diagonal
principal, se cambia el signo de los dos elementos que están fuera de la
diagonal, y se dividen los cuatro elementos por el determinante

∆ = n∑ xi2 − (∑ xi ) . Haciendo esto obtenemos los coeficientes estimados,
2
 ∑ xi2 − ∑ xi 
∆   ∑ yi  =
 
= ∆  
 − ∑ xi n  ∑ xi yi 
 ∆ ∆ 
(1.29)
 ∑ xi2 ∑ yi − ∑ xi ∑ xi yi 
 
 ∆ 
 − ∑ xi ∑ yi + n∑ xi yi 
 ∆ 
Cov ( x, y )
Mostramos a continuación que βˆ1 = , lo cual es cierto solo para
Var ( x)
este ejemplo donde hay una constante y una variable; la expresión de β̂1 será
diferente si hay más variables explicativas o falta el intercepto. La
demostración puede hacerse dividiendo la expresión de β̂1 arriba y abajo por
n 2 y recordando la definición de varianza y covarianza,
− ∑ xi ∑ yi + n∑ xi yi
βˆ1 = ∑ i ∑ i
− x y + n∑ xi yi n2
=
n∑ xi2 − (∑ xi )
2
∆
n2
(1.30)
− ∑ xi ∑ yi ∑ xi yi
+
= n2 n = − ExEy + Ex y = Cov( x, y )
∑ xi2 − (∑ xi )
2
Ex 2 − ( Ex) 2 Var ( x)
2
n n
ˆ
 β  0 
En el ejemplo anterior puede notarse que si xi = yi entonces βˆ =  0  =   .
ˆ
 β1  1 
Ejemplo de regresión con dos variables
Considere el modelo yi = β1 x1i + β 2 x 2i + ε i de regresión múltiple. En este

ejemplo tenemos dos variables sin constante, de manera que la línea (plano
en este caso) de regresión debe pasar por el origen. Se podría incluir la

constante pero entonces la matriz X quedaría de orden 3× 3 y sería difícil de
invertir a mano. En matrices y vectores,
 y1   x11 x21  ε1 

 y  x x22   β1  ε 2 

 2  =  12 + (1.31)
M M M   β 2   M 
    2×1  
 yn   x1n x2 n  ε n 
n ×1 n× 2 n ×1
y, aplicando la fórmula de MCO,

−1
  x11 x21    y1 
 
ˆ
 βˆ1    x11 x12 L x1n   x12 x22    x11 x12 L x1n   y2 
β = = 
ˆ 
 β 2    x21 x22 L x2 n   M M    x21 x22 L x2 n   M 
   
  x1n x2 n    yn 
−1
 ∑ x22 − ∑ x1 x2 
 ∑ x12 ∑ x1x2   ∑ x1 y   ∆ ∆
  ∑ x1 y 
=  =   (1.32)
∑ x1 x2 ∑ x22  ∑ 2   ∑ x1 x2
x y − ∑ x12  ∑ x2 y 
 ∆ ∆ 
 ∑ x22 ∑ x1 y − ∑ x1 x2 ∑ x2 y 
 
= ∆ 
 ∑ x1 ∑ x2 y − ∑ x1 x2 ∑ x1 y 
2
 ∆ 
donde el determinante es ∆ = ∑ x12 ∑ x 22 − ( ∑ x1 x 2 ).

2
Es importante notar que si ambas variables son iguales, esto es, si x1 = x2 ,

entonces tanto los numeradores como denominadores serán cero y los
coeficientes estimados indeterminados. También, si las dos variables son
ortogonales, esto es, si ∑ x1 x 2 = 0 , entonces cada uno de los coeficientes
estimados tendrá una expresión como la del ejemplo 1, de manera que la
regresión múltiple arroja coeficientes estimados iguales a los que se
obtendrían corriendo la regresión de y contra cada variable por separado.
¿Qué ocurre si, digamos, y i = x1i ? Puede observarse de las expresiones
para los coeficientes estimados que estos serán βˆ1 = 1 y βˆ 2 = 0 .
También vale la penar notar de este ejemplo que para que todos los
coeficientes estimados β̂1 y β̂ 2 sean cero es necesario que ∑ x1 y = ∑ x 2 y =0 .
Ejemplo de estimación
El Cuadro 1.1 ilustra una regresión estimada con observaciones de 59

programas de economía cuyos alumnos de último año fueron evaluados. La
variable dependiente NP es la nota promedio de los alumnos de cada
programa, C es la constante (estimada en 9.489068), MAT es el valor de la
matrícula (cuyo coeficiente estimado es 0.086591) y EST es el número de
alumnos evaluados por programa (cuyo coeficiente estimado es 0.006403).
Como información adicional, la media de la variable dependiente NP es
9.865932 y su desviación estándar es 0.366734. Los demás resultados
reportados se verán más adelante.
Dependent Variable: NP
Method: Least Squares
Date: 10/19/17 Time: 12:25
Sample: 1 59
Included observations: 59
Variable Coefficient Std. Error t-Statistic Prob.
C 9.489068 0.079308 119.6478 0.0000

MAT 0.086591 0.031901 2.714356 0.0088
EST 0.006403 0.001585 4.038520 0.0002
R-squared 0.357642 Mean dependent var 9.865932

Adjusted R-squared 0.334700 S.D. dependent var 0.366734
S.E. of regression 0.299130 Akaike info criterion 0.473629
Sum squared resid 5.010794 Schwarz criterion 0.579266
Log likelihood -10.97205 Hannan-Quinn criter. 0.514866
F-statistic 15.58939 Durbin-Watson stat 0.814577
Prob(F-statistic) 0.000004
Cuadro 1.1
Teorema de Frisch Waugh
Considere el modelo y = X 1 β1 + X 2 β 2 + ε donde X 1 y X 2 pueden ser

matrices o vectores. Según el teorema de Frisch Waugh, el vector de
coeficientes β1 puede estimarse corriendo los residuos de una regresión de
y contra todas las variables de X 2 , contra los residuos de una regresión de
cada variable X 1 contra todas las variables de X 2 . Este procedimiento arroja
β̂1 y εˆ correctos. También se puede correr y directamente contra los
residuos de una regresión de cada variable X 1 contra todas las variables de

X 2 ; en este caso, la estimación para β1 será correcta pero no los residuos εˆ .
Igual para β 2 , mutatis mutandis.
Insesgamiento
Se define que un estimador es insesgado si Eβˆ = β . Esto quiere decir que,

en promedio, un estimador insesgado da en el blanco. Para explorar esta
propiedad escribimos, remplazando (1.9) en (1.22),
βˆ = ( X ′X ) −1 X ′y = ( X ′X ) −1 X ′( Xβ + ε )
(1.33)
= ( X ′X ) −1 X ′Xβ + ( X ′X ) −1 X ′ε = β + ( X ′X ) −1 X ′ε
y tomamos valor esperado,
Eβˆ = β + E [( X ′X ) −1 X ′ε ] (1.34)
Para que β̂ sea insesgado necesitamos que el segundo término al lado

derecho desaparezca, lo cual requiere algún supuesto. ¿Serviría suponer
Eε = 0 ? No serviría por sí solo dado que no podemos tomar el valor
esperado dentro del paréntesis cuadrado sin supuestos adicionales. La razón
es que de la teoría de probabilidad sabemos que, para dos variables a y b ,
Eab ≠ EaEb , excepto si hay independencia entre a y b . De manera que no
podríamos escribir E ( X ′X ) −1 X ′ Eε sin antes suponer que hay independencia
entre los términos, o que X es fija, básicamente igual de muestra a muestra;
muchos textos toman este camino de suponer X fija. Sin embargo, en la
realidad, X cambia de muestra a muestra. Una alternativa, que seguimos
acá, es suponer que el valor esperado de los elementos del vector ε son cero
dada la matriz X (dada la muestra); esto es,
Supuesto 3
 Eε1 X  0
 
 Eε 2 X  0
Eε X = 0 = =  (1.35)
n×1  M  M
   
 Eε n X  0
con lo cual se logra insesgamiento porque la ecuación (1.34) quedaría

Eβˆ X = β + ( X ′X ) −1 X ′ Eε X = β (1.36)
Debe subrayarse que no se ha demostrado que el estimador de mínimos

cuadrados β̂ sea insesgado, sino que se ha forzado a que lo sea a través del
supuesto 3.
De paso, vale la pena indicar que aplicando expectativas iterativas
(promedio de los promedios condicionales), el supuesto 3 supone que la
expectativa incondicional de ε es cero, esto es, Eε = EEε X = 0 . Pero lo
contrario no es cierto, Eε = 0 no implica Eε X = 0 .
Adicionalmente, el supuesto 3 supone que no hay correlación entre el
error ε y las variables explicativas contenidas en X . Por expectativas
iterativas tenemos,
EX ′ε = EEX ′ε X = EX ′Eε X = 0 (1.37)
En otras palabras Eε X = 0 implica EX ′ε = 0 pero no al contrario.

Igualmente, aplicando expectativas iterativas también podemos mostrar
que β̂ es insesgado incondicionalmente ya que
Eβˆ = EEβˆ X = Eβ = β (1.38)
Varianza de β̂
Llamando la matriz de varianzas y covarianzas de β̂ como Var ( βˆ ) , y

recordando que Eβˆ = β , escribimos
 ′ 
( )( ) ( )(
Var ( βˆ ) = E  βˆ − E ( βˆ ) βˆ − E ( βˆ )  = E  βˆ − β βˆ − β )′  (1.39)
   
Detallando la expresión de Var ( βˆ ) para ilustrar, tenemos

  βˆ0 − β 0  
 ˆ  
β1 − β1  ˆ
E  
 M  0
[β − β0 βˆ1 − β1 L βk − βk 
ˆ

]
  
  βˆk − β k  
(1.40)
 E ( βˆ0 − β 0 ) 2 E ( βˆ0 − β 0 )( βˆ1 − β1 ) L E ( βˆ0 − β 0 )( βˆk − β k )
 ˆ 
E ( β1 − β1 )( βˆ0 − β 0 ) E ( βˆ1 − β1 ) 2 L E ( βˆ1 − β1 )( βˆk − β k ) 
=
 M M O M 
 
 E ( β k − β k )( β 0 − β 0 ) E ( β k − β k )( βˆ1 − β1 )
ˆ ˆ ˆ L E ( βˆk − β k ) 2 
La matriz de varianza covarianza anterior es de orden k + 1 × k + 1 y tiene k + 1

varianzas bajando por su diagonal principal. El primer elemento de la
diagonal principal corresponde a la varianza de β̂ 0 , el segundo elemento a la
varianza de β̂1 , el último a la varianza de β̂ k . Por fuera de la diagonal están
las covarianzas. Es una matriz simétrica de manera que las covarianzas que
están por encima de la diagonal principal son iguales a las que están por
debajo.
De la ecuación (1.33) vemos que βˆ − β = ( X ′X ) −1 X ′ε de manera que (1.39)
se convierte en
(
Var ( βˆ ) = E ( X ′X ) −1 X ′ ε ε ′ X ( X ′X ) −1 ) (1.41)
Nótese que el último término se omite el símbolo del transpuesto porque

( X ′X ) −1 es una matriz simétrica y por lo tanto igual a su transpuesta.
Para continuar no serviría apelar a Eε = 0 por la misma razón dada antes,
porque no podemos entrar el valor esperado sin suponer también
independencia entre X y ε , o que X es fijo. Tampoco sirve el supuesto 3,
Eε X = 0 , porque este se hace sobre un solo ε y no sobre εε ′ como es el caso
acá. El supuesto debe hacerse sobre el término Eεε ′ X , que resulta ser la
matriz de varianza covarianza del error,
 Eε12 X Eε1ε 2 X L Eε1ε n X 

 2 
Eε ε X Eε X L Eε 2ε n X 
Eε ε ′ X =  2 1 2
(1.42)
 M M O M 
 2 
 Eε nε1 X Eε n ε 2 X L Eε n X 
Podríamos hacer cualquier supuesto sobre la estructura de la matriz de

varianza covarianza del error, pero debemos escoger uno que sea razonable
y que, en lo posible, ayude a simplificar la expresión de la matriz Var ( βˆ ) . En
consecuencia se elige suponer que todas las varianzas son iguales y que no
hay covarianzas entre un error y otro.
Supuesto 4
σ ε2 0 L 0 1 0 L 0
  0
0 σ ε2 L 0 1 L 0
Eεε ′ X =  = σ ε2  = σ ε2 I (1.43)
M M O M  M M O M
 2  
 0 0 L σ ε  0 0 L 1
donde I es la matriz identidad de orden n × n . La igualdad de todas las

varianzas se llama homoscedasticidad (los contrario se llama
heteroscedasticidad) y la ausencia de covarianza entre errores diferentes se
llama no autocorrelación. Nótese que, por la ley de expectativas iterativas,
Eεε ′ X =σ ε2 I implica la expectativa incondicional
Eεε ′ = EEεε ′ X = Eσ ε I = σ ε I , pero no al contrario.
2 2
Bajo el supuesto 4, la matriz de varianza covarianza de los estimadores

queda
( )
Var ( βˆ X ) = E ( X ′X ) −1 X ′ ε ε ′ X ( X ′X ) −1 X = ( X ′X ) −1 X ′ E (εε ′ X )X ( X ′X ) −1
k +1× k +1
(1.44)
= ( X ′X ) X ′ (σ ε I )X ( X ′X ) = σ ε ( X ′X ) X ′X ( X ′X ) = σ ε ( X ′X )
−1 2 −1 2 −1 −1 2 −1
Ejemplo
Para ilustrar, recurrimos a un ejemplo anterior cuyo modelo era

yi = β 1 x1i + β 2 x 2i + ε i . La matriz ( X ′X ) −1 calculada en ese ejemplo era
 ∑ x22 − ∑ x1 x2 
 
( X ′X )−1 =  ∆ ∆  (1.45)
 ∑ x1 x2
− ∑ x12 
 ∆ ∆ 
De manera que la matriz de varianza covarianza es



∑ x22 − ∑ x1 x2 

2  ∑ x1 ∑ x2 − (∑ x1 x2 ) ∑ x12 ∑ x22 − 2(∑ x1x2 ) 
2 2
 βˆ1  2 −1
2 2
Var   = σ ε ( X ′X ) = σ ε  
ˆ
β2  − ∑ x1 x2 ∑ x1
 
 ∑ x12 ∑ x22 − (∑ x1 x2 ) ( )
2 2
∑ 1 ∑ 2 ∑ 1 2 
x 2
x 2
− x x
Específicamente, las varianzas de los dos coeficientes estimados son
σ ε2 ∑ x22
Var ( βˆ1 ) =
∑ x ∑ x − (∑ x x )
2 2 2
1 2 1 2
(1.46)
σε ∑ x
2 2
Var ( βˆ2 ) = 1
∑ x ∑ x − (∑ x x )
2 2 2
1 2 1 2
Nótese que la variación común ∑ x1 x 2 entra restando en el denominador y,

si es muy grande, el denominador tiende a cero y las varianzas serán muy
grandes. Cada variable debe aportar información. Pero si las variables se
parecen ( ∑ x1 x 2 grande) entonces queda poca variación individual y la
estimación de cada coeficiente será imprecisa (varianza grande). Esto se
conoce como multicolinealidad, tema sobre el cual volveremos más
adelante.
Por otro lado, si las variables explicativas son ortogonales, ∑ x1 x 2 = 0 , las
varianzas se reducen a
ˆ σ ε2
Var ( β1 ) =
∑ x12
(1.47)
2
σ
Var ( βˆ2 ) = ε 2
∑ x2
donde en general puede verse que cuanto mayor sea la variación en las
variables, ∑ x12 o ∑ x 22 , menores serán las varianzas de β̂1 o β̂ 2 .
Teorema de Gauss Markov

Este teorema reafirma la importancia de MCO como método de

estimación. En esencia dice que, bajo los cuatro supuestos anteriores, es
imposible encontrar un estimador lineal insesgado mejor (con menor
varianza) que el de mínimos cuadrados ordinarios, β̂ . Esta condición se
conoce en inglés como BLUE (Best Linear Unbiased Estimator).
En otras palabras, para cualquier otro estimador lineal insesgado que se
~
pudiera proponer, que denotaremos β , también de orden k + 1× 1 , será cierto
que su matriz de varianza covarianza
~  ~ ~
( )(
Var ( β ) = E  β − β β − β )′  = σ 2
ε ( X ′X ) −1 + Ρ (1.48)
k +1×k +1  
donde Ρ es una matriz positiva semidefinida. Las matrices positivas

semidefinidas tienen elementos no negativos en la diagonal principal.
Antes de hacer la demostración veamos en qué sentido se dice que β̂ es
un estimador lineal. Esto se refiere a que β̂ es una combinación lineal del
vector y , lo cual podemos ilustrar con el modelo del ejemplo de intercepto y
una variable, escribiéndolo de forma un poco diferente. Para ese ejemplo
teníamos,
−1
 1 x1    y1 
 
ˆ
 βˆ0    1 1 L 1  1 x2    1 1 L 1   y2 
β = = 
ˆ 
 β1    x1 x2 L xn  M M    x1 x2 L xn   M 
   
 1 xn    yn 
 ∑ xi2 − ∑ xi   y1 
 
∆  1 1 L 1   y2 
= ∆  (1.49)
 − ∑ xi n   x1 x2 L xn   M 
 ∆  
∆   yn 
 ∑ xi2 − x1 ∑ xi ∑x 2
− x2 ∑ xi − xn ∑ xi   y1 
∑x 2
  y2 
i i
 L
= ∆ ∆ ∆  
 − ∑ xi + nx1 − ∑ xi + nx2
L
− ∑ xi + nxn  M 
 ∆ ∆ ∆   y 
 n
y finalmente
βˆ0 = ∑
xi2 − x1 ∑ xi ∑x 2
i − x2 ∑ xi ∑x 2
i − xn ∑ xi
y1 + y2 + L + yn
∆ ∆ ∆
(1.50)
nx1 − ∑ xi nx2 − ∑ xi nxn − ∑ xi
βˆ1 = y1 + y2 + L + yn
∆ ∆ ∆
donde puede verse que los β̂ estimados son combinaciones lineales de los
valores y1 , y2 ,K, yn .
Aclarado este punto, pasamos a la demostración del teorema de Gauss
Markov, sin olvidar que siguen vigentes los cuatro supuestos hechos hasta el
momento.
Definamos cualquier otro estimador lineal insesgado de β , el cual
~
denotamos β , cuya expresión deberá conformarse a
~
β = A y
k +1× n n ×1
(1.51)
k +1×1
~
donde A es una matriz de coeficientes. En otras palabras, β será una
combinación lineal del vector y
~
 β 0   A01 A02 L A0 n   y1 
~ 
~  β1   A11 A12 L A1n   y2 
β= = (1.52)
M  M M O M  M 
~    
 β k   Ak 1 Ak 2 L Akn   yn 
Sea su valor esperado

~
Eβ X = EAy X = EA( Xβ + ε ) X = AXβ + AEε X = AXβ (1.53)
~
Una condición que debe cumplir β es la de ser insesgado. Esto requiere que
~
Eβ X debe ser igual a β , de manera que, de (1.53) se deduce que
AX = I
k +1× k +1
(1.54)
Ni la matriz A ni X tienen inverso (mucho menos una es el inverso de la

otra) a pesar de que su producto sea la matriz unitaria. Un rápido ejemplo de
matrices cuyo producto es unitario y no tienen inverso (por no ser

cuadradas) ni una es el inverso de la otra es
1 0.5
− 2 0 1    − 2 + 3 − 1 + 1 1 0
 − 2 1 0   2 2  =  − 2 + 2 − 1 + 2  = 0 1  (1.55)
  3 1     
 
Remplazando la ecuación de y en (1.51) concluimos que

~
β = A( Xβ + ε ) = β + Aε (1.56)
~
con lo cual la matriz de varianza covarianza de β queda
~  ~ ~ ′
( )( )
Var ( β X ) = E  β − β β − β  X = E [ Aεε ′A′] X
 
(1.57)
= AE (εε ′ X ) A′ = σ ε2 AA′
Esta es la expresión que debemos comparar con la del estimador de la

varianza de mínimos cuadrados σ ε2 ( X ′X ) −1 . Para tal efecto definimos
A = ( X ′X ) −1 X ′ + Β (1.58)
donde el término ( X ′X ) −1 X ′ es igual al que multiplica al vector y en la

expresión de β̂ = ( X ′X ) −1 X ′y , y Β es una matriz de orden k + 1 × n . Siempre
podremos escribir A de esta forma ya que Β recoge cualquier diferencia
entre A y ( X ′X ) −1 X ′ . Así las cosas, el término AA′ será
′
( )( ) ( )(
AA′ = ( X ′X ) −1 X ′ + Β ( X ′X ) −1 X ′ + Β = ( X ′X ) −1 X ′ + Β X ( X ′X ) −1 + Β′ )
(1.59)
−1 −1 −1 −1
= ( X ′X ) X ′X ( X ′X ) + ( X ′X ) X ′ Β′ + Β X ( X ′X ) + ΒΒ′
En el primer término de la expresión anterior vemos que hay una matriz

identidad. Además el segundo y tercer términos son cero porque, de (1.54) y
(1.58), tenemos que
AX = I = ( X ′X ) −1 X ′X + ΒX = I + ΒX (1.60)
de manera que debe ser cierto que
ΒX = 0 = X ′Β′ (1.61)
k +1× k +1
con lo cual
AA′ = ( X ′X ) −1 + ΒΒ′ (1.62)

~
y, finalmente, la matriz de varianza covarianza de β será
~
Var ( β ) = σ ε2 AA′ = σ ε2 ( X ′X ) −1 + σ ε2ΒΒ′ (1.63)
En razón de que los elementos de la diagonal principal de ΒΒ′ son no

negativos por ser ΒΒ′ una matriz simétrica positiva semidefinida (como se
muestra abajo), podemos decir que las varianzas (los elementos de la
diagonal) del estimador de MCO, Var ( βˆ ) , nunca serán mayores que los del
~
estimador competidor, Var ( β ) ; esto es, el estimador de MCO β̂ tiene
mínima varianza individual. Igualmente, en términos de la suma de las
varianzas (la suma de los elementos de la diagonal o traza), se puede afirmar
Tr (σ ε2 ( X ′X ) −1 + σ ε2ΒΒ′) ≥ Tr (σ ε2 ( X ′X ) −1 ) (1.64)
Una matriz Ω es positiva semidefinida si, para cualquier vector λ ≠ 0 , es

verdad que
λ ′Ωλ ≥ 0 (1.65)
a b 
Por ejemplo, ilustramos tres casos sencillos para una matriz Ω =  
b d 
b  1 1
[1 0]
a
   = [a b]  = a ≥ 0
b d  0  0 
b  0  0 
[0 1]
a
   = [b d ]  = d ≥ 0 (1.66)
b d  1 1
b  1 1
[1 1]
a
   = [a + b b + d ]  = a + b + b + d ≥ 0
b d  1 1
donde se observa que una matriz positiva semidefinida tiene elementos no

negativos en su diagonal.
Para demostrar que ΒΒ′ es una matriz positiva semidefinida utilizamos
un vector λ ′ ≠ 0 de orden 1 × k + 1 para construir un vector λ ′Β que será de
orden 1 × n (porque Β es de orden k + 1 × n ). Ahora, con λ ′Β construimos
λ ′ Β Β′λ ≥ 0 (1.67)
1× n n ×1 1×1
un escalar, que necesariamente es mayor o igual a cero por ser la suma de

los elementos al cuadrado de un vector, de manera que la matriz ΒΒ′ cumple
con la definición de positiva semidefinida. Nótese que la matriz Β′Β también
es positiva semidefinida pero en este caso el vector λ ′ ≠ 0 deberá ser de
orden 1 × n .
Estimación de σ ε2
Volviendo a la matriz de varianza covarianza de los coeficientes

estimados, Var ( βˆ ) = σ ε2 ( X ′X ) −1 , vemos que su estimación aún está incompleta
porque falta estimar σ ε2 , que llamaremos σˆ ε2 . Es importante recalcar que
buscamos estimar la varianza del error ε y no la del residuo εˆ . Sin embargo,
los residuos εˆ son lo más cercano que tenemos a ε y los usaremos para
intentar la estimación de varianza del error ε . Para tal fin, escribimos
εˆ = y − yˆ = y − Xβˆ = y − X ( X ′X ) −1 X ′ y = (I n − X ( X ′X ) −1 X ′) y
( )
= I n − X ( X ′X ) −1 X ′ ( Xβ + ε )
(1.68)
(
= Xβ − X ( X ′X ) −1 X ′Xβ + I n − X ( X ′X ) −1 X ′ ε )
( )
= I n − X ( X ′X ) −1 X ′ ε = M ε
n× n
donde usamos la notación I n cuando queremos especificar que la matriz

identidad es de orden n × n . La matriz simétrica M = I n − X ( X ′X ) −1 X ′ , también
de orden n × n , se conoce como idempotente. Una matriz idempotente tiene
la propiedad de que si se multiplica por sí misma produce la misma matriz;
esto es, MM = M ′M = MM ′ = M . Las matrices idempotentes no tienen inverso
con excepción de la idempotente más famosa, la matriz identidad I . Por
ejemplo
( )(
MM = I n − X ( X ′X ) −1 X ′ I n − X ( X ′X ) −1 X ′ )
= I n − X ( X ′X ) −1 X ′ − X ( X ′X ) −1 X ′ + X ( X ′X )−1 X ′X ( X ′X )−1 X ′ (1.69)
= I n − X ( X ′X ) −1 X ′ = M
Incluso la matriz X ( X ′X ) −1 X ′ es idempotente.

Aunque es cierto que de la ecuación (1.68)
εˆ = My = Mε (1.70)
no podemos despejar ε porque, como se mencionó, M no tiene inverso; por

la misma razón, tampoco podemos concluir que ε = y .
Usaremos la expresión εˆ = Mε para acercarnos a la varianza del error ε .
Comenzamos por escribir la expresión de la varianza de los residuos
E (εˆ′εˆ ) = E (ε ′M ′Mε ) = E (ε ′Mε ) (1.71)

1×1
Para ilustrar, y recordando que M es simétrica, usamos un ejemplo irreal

pero sencillo, de tan solo 2 observaciones, esto es, n = 2
 m m12   ε1    ε  
E  [ε 1 ε 2 ]  11     = E  [m11ε1 + m12ε 2 m12ε 1 + m22ε 2 ]  1  
 m12 m22  ε 2   
 ε 2  
(1.72)
( 2
= E m ε + m12ε 1ε 2 + m12ε 1ε 2 + m ε
11 1
2
22 2 ) = σ (m
2
ε 11 + m22 )
Recordamos que, por el supuesto 4, el valor esperado de los errores con

diferentes subíndices (las covarianzas) son cero y el valor esperado de los
errores al cuadrado (las varianzas) se asumen todas iguales a σ ε2 .
Si generalizamos el ejemplo anterior a n observaciones, intuimos que la
expresión será de la forma
(
Eεˆ′εˆ = E m11ε12 + 2m12ε 1ε 2 + 2m13ε 1ε 3 + L + m22ε 22 + L + mnnε n2 )
(1.73)
= σ ε (m11 + m22 + L + mnn )
2
Notamos que m11 + m22 + L + mnn es la suma de los elementos de la diagonal de

M , o sea su traza Tr (M ) . Recordando que la traza tiene las siguientes
propiedades, Tr ( A + B ) = Tr ( A) + Tr (B ) y Tr ( ABC ) = Tr (BCA) = Tr (CAB ) , siempre
y cuando las matrices en los argumentos existan, obtenemos
(
Eεˆ′εˆ = σ ε2Tr (M ) = σ ε2Tr I n − X ( X ′X ) −1 X ′ )
( ( )) ( (
= σ ε2 Tr (I n ) − Tr X ( X ′X ) −1 X ′ = σ ε2 Tr (I n ) − Tr ( X ′X ) −1 X ′X )) (1.74)
= σ ε2 (Tr (I n ) − Tr (I k +1 )) = σ ε2 (n − (k + 1))
Pasando el término (n − (k + 1)) a dividir al lado izquierdo de la ecuación

anterior
 εˆ′εˆ 
E  = σ ε2 (1.75)
 n − (k + 1) 
εˆ ′εˆ
En otras palabras, el valor esperado de la expresión es el
(n − (k + 1))
verdadero parámetro, lo que quiere decir que podemos usar esta expresión
como estimador insesgado de σ ε2 , así
εˆ′εˆ
σˆ ε2 = (1.76)
n − (k + 1)
El denominador de σˆ ε2 merece especial atención. En efecto, está diciendo

que el tamaño de la muestra no es n sino un número menor, (n − (k + 1)) . La
razón es que realmente tenemos (n − (k + 1)) datos libres porque, recordando
(1.24), hay k +1 restricciones sobre εˆ que son
∑ εî = ∑ x1i εî =L = ∑ xkiεî =0 . Tomemos la primera restricción,
∑ εî = εˆ1 + εˆ2 + L + εˆn−1 + εˆn = 0 , como ejemplo. Se observa que una vez
tengamos n − 1 observaciones de εî no necesitamos la última porque
automáticamente sabremos su valor, será el que haga cero la suma. De igual
manera, cada una de las restricciones siguientes restringe una observación
adicional. Es como si solo (n − (k + 1)) observaciones pueden variar libremente
porque k + 1 quedan fijas por las restricciones. Por esta razón, la expresión
(n − (k + 1)) se conoce como grados de libertad y la expresión k + 1 como los
grados de libertad que se pierden.
Ejemplo
En el Cuadro 1.1 la raíz del estimador de la varianza del error aparece como
εˆ′εˆ 5.010794
σˆ ε2 = = = 0.299130 . También se presenta la desviación
n − (k + 1) 56
estándar (raíz de la varianza) de los coeficientes estimados; estos son
0.079308 para la constante, 0.031901 para MAT y 0.001585 para EST.
Aprovechamos para obtener un resultado adicional sobre la matriz de

varianza covarianza de εˆ condicional a X
Var (εˆ ) = Eεˆεˆ′ = EMεε ′M = M (σ ε2 I ) M = σ ε2 M (1.77)
y para mostrar que, aunque ε cumpla el supuesto 4 es posible que εˆ tenga

autocorrelación o heteroscedasticidad. La naturaleza de la matriz M se
puede ilustrar con un modelo muy sencillo, y = β + ε , cuya estimación por

MCO arroja β̂ = y , como puede verificarse fácilmente.
−1
1 0 L 0 1  1 
0 1  1  1 
′ −1
M = In − X ( X X ) X =
′   −   [1 1 L 1]   [1 1 L 1]
M O  M   M
    
0 1 1  1 
1 0 L 0 1 1 − n −1 − n −1 L − n −1 
0 1  1  
 − n −1 1 − n −1 
= 
M
 − 
O  M 
 −1
( )
n [1 1 L 1] =
 M 
O
    −1 
0 1 1  − n 1 − n −1 
Recordando (1.68) tenemos
 (1 − n −1 )ε1 − n −1ε 2 − L − n −1ε n 

 −1 
 − n ε1 + (1 − n −1 )ε 2 − L − n −1ε n 
ˆ
ε = Mε =
 M 
 −1 −1 −1 
− n ε1 − n ε 2 − L + (1 − n )ε n 
y deducimos que εî es una combinación lineal de todos los elementos de ε ;

esto los hace correlacionados aunque no haya correlación entre los
elementos de ε . Por otro lado, a medida que crece n , los residuos εî
convergen a ε .
Igualmente, recordando (1.77), puede verse que cuando la muestra crece
la varianza del residuo, σ ε2 (1 − n −1 ) , converge a σ ε2 y que la covarianza entre
residuos, − σ ε2 n −1 , tiende a cero.
Si alteramos un poco el modelo y escribimos y = β x + ε , puede mostrase
que
1 − x12 (∑ xi2 ) −1 − x1 x2 (∑ xi2 ) −1 L − x1 xn (∑ xi2 ) −1 

 
− x x (∑ xi2 ) −1 1 − x22 (∑ xi2 ) −1 L − x2 xn (∑ xi2 ) −1 
M = I n − X ( X ′X ) X ′ =  2 1
−1
 M O 
 
− xn x1 (∑ xi ) − xn x2 (∑ xi2 ) −1 L 1 − xn2 (∑ xi2 ) −1 
2 −1
donde existe heteroscedasticidad (porque los elementos de la diagonal

difieren entre sí) y covarianza diferente de cero entre residuos (porque los
elementos por fuera de la diagonal son diferentes de cero); todo lo anterior
aunque el error de la población ε cumpla el supuesto 4. Nótese también que
M tiende a I n a medida que la muestra crece.
Supuesto 5
Para efectos de probar hipótesis aún nos falta la forma general de la

distribución de probabilidad de β̂ . Recordamos que βˆ = β + ( X ′X ) −1 X ′ε es
una combinación lineal de ε de manera que, dado X , y si suponemos que ε
es normal, la distribución de probabilidad de β̂ tendrá la misma forma que
la de ε , excepto que su media será β y su varianza σ ε2 ( X ′X ) −1 .
Formalizando, enunciamos el supuesto 5 como
ε X ~ N (0,σ ε2 I ) (1.78)
donde se ve que la distribución de ε dado X no depende de X , de manera

que ε y X son independientes. Con lo anterior, la distribución de β̂ ,
condicional a X , queda
βˆ X ~ N (β , σ ε2 ( X ′X ) −1 ) (1.79)
lo cual nos permite hacer pruebas de hipótesis sobre β̂ .

La distribución normal es un buen supuesto; fue ideada originalmente
para modelar errores de medición los cuales suelen tomar valores positivos y
negativos, tiene una expresión relativamente sencilla que depende solo de la
media y la varianza, y da origen a varias otras distribuciones como la normal
estándar, la chi cuadrado, la t Student y la F , utilizadas en diversas pruebas
de hipótesis.
Adicionalmente, con el supuesto 5 el teorema de Gauss Markov adquiere
mayor fortaleza ya que ningún otro estimador insesgado tendrá menor
varianza que β̂ , lineal o no. En la estimación por el método de máxima
verosimilitud (que verá más adelante), bajo el supuesto 5 la varianza de β̂
alcanza el límite inferior de Cramer Rao; esto es, la menor varianza posible
para estimadores insesgados.
Capítulo 2
PRUEBAS DE HIPÓTESIS Y PROPIEDADES

ASINTÓTICAS
En el capítulo anterior derivamos el estimador de mínimos cuadrados

ordinarios, MCO. Sin embargo, el hecho de calcular β̂ no implica
automáticamente que la estimación sea útil. Incluso si β̂ es estadísticamente
significativo no necesariamente es económicamente significativo. Esto
quiere decir que, aunque un coeficiente resulte significativamente diferente
de cero en términos estadísticos, el producto de su magnitud por la variable
explicativa puede ser tan pequeño que no contribuya de manera importante a
la explicación de la variable dependiente.
A continuación veremos varias propuestas para evaluar las regresiones y
sus coeficientes en muestras finitas, junto con algunas propiedades
asintóticas.
R Cuadrado
Una forma popular de evaluar una regresión es por medio del R 2 , el cual
se define como la variación explicada (explained sum of squares, ESS), que
n
se calcula como ∑ ( yˆ − y )
i =1
i
2
, dividida por la variación total de la variable
n
dependiente (total sum of squares, TSS), que se calcula como ∑ ( y − y)
i =1
i
2
,
esto es,
n
∑ ( yˆ − y )
i
2
R2 = i =1
n
(2.1)
∑ ( y − y)
i =1
i
2
donde las comparaciones se hacen contra y porque se supone que cualquier

método de estimación le debe atinar por lo menos al promedio de la variable
dependiente.
El R 2 está entre 0 y 1, cercano a cero para regresiones que poco explican

la variable dependiente y cercano de 1 para regresiones que más la explican;
será 1 cuando la explicación de y sea perfecta.
Es importante notar que adicionar variables explicativas (útiles o no) a la
regresión o disminuir el tamaño de la muestra, no disminuye el R 2 sino que,
con frecuencia, lo aumenta. Podemos intuir esto imaginando, como en la
Figura 1.2, que solo tenemos dos observaciones y corremos una regresión
con constante y una variable; en el plano cartesiano solo habrá dos puntos
(correspondientes a las dos observaciones) y la línea de regresión puede
pasar exactamente por ellos sin dejar residuo alguno de manera que el
R 2 = 1 . Si adicionamos una tercera observación (obviamente no colineal con
las dos anteriores) se ve que es imposible pasar la línea de regresión por los
tres puntos y necesariamente R 2 < 1 . Pero si adicionamos una tercera
variable entonces será posible pasar el ahora plano de regresión exactamente
por los tres puntos y de nuevo el R 2 = 1 .
Una versión popular del R 2 , que castiga la adición de variables
innecesarias (que no contribuyen a explicar y ) se conoce como R 2 ajustado,
R 2 adj , y tiene la siguiente expresión
k
R 2 adj = R 2 − (1 − R 2 ) (2.2)
n − (k + 1)
donde k es el número de parámetros sin contar la constante. En ocasiones, el

R 2 adj puede arrojar una cifra negativa dependiendo del valor del R 2 , del
tamaño de la muestra y del número de parámetros estimados. Por ejemplo,
una regresión de y = {1,0,1} contra una constante y x = {0,1,1} arroja un
R 2 = 0.25 y un R 2 adj = −0.5 . Tanto el R 2 como el R 2 adj suelen incluirse por
default en las salidas del software econométrico.
Para encontrar otra expresión del R 2 procedemos escribiendo la variación
total como
n n
∑ ( yi − y )2 = ∑ (( yi − yî ) + ( yî − y ))
i =1 i =1
2
n
(
= ∑ ( yi − yî ) 2 + ( yî − y )2 + 2( yi − yî )( yî − y ) )
i =1
n n
(
= ∑ ( yi − yî ) 2 + ( yî − y )2 + 2∑ ( yi − yî )( yî − y ) ) (2.3)
i =1 i =1
n n
( )
= ∑ εî2 + ( yî − y ) 2 + 2∑ εî ( yî − y )
i =1 i =1
n n n
=∑ ( )
εî2 + ( yî − y ) 2 = ∑ εî2 + ∑ ( yî − y ) 2
i =1 i =1 i =1
n
En la derivación anterior el término 2∑ εî ( yˆ i − y ) desaparece porque, como
i =1
habíamos encontrado en el capítulo anterior, los residuos tienen media cero

y son ortogonales a las variables explicativas (y por tanto a sus
combinaciones lineales, como lo es ŷ ). En palabras, (2.3) expresa que la
n
variación total, ∑ ( y − y)
i =1
i
2
, es igual a la suma de residuos al cuadrado
n
(residual sum of squares, RSS), ∑ εˆ
i =1
i
2
, más la variación explicada,
n
∑ ( yˆ − y )
i =1
i
2
, lo que nos lleva a la conocida identidad, TSS=RSS+ESS.
n n n
Despejando de (2.3) escribimos ∑ i =1
( yˆ i − y ) 2 = ∑
i =1
( yi − y ) 2 − ∑ εˆ
i =1
i
2
y
remplazando en (2.1) encontramos una forma alternativa del R 2 como,

n n n n
∑ ( yî − y )2 ∑ ( yi − y )2 −∑ εî2 ∑ εˆ i
2
R2 = i =1
n
= i =1
n
i =1
=1− n
i =1
(2.4)
∑ ( y − y)
i =1
i
2
∑ ( y − y)
i =1
i
2
∑ ( y − y)
i =1
i
2
De (2.4) se deduce que si los residuos tienen media diferente de cero,

como podría suceder si se omite la constante en la regresión, el tamaño del
n
término ∑ εˆ
i =1
i
2
, que entra restando, podría aumentar hasta el punto de arrojar
un R 2 o R 2 adj negativos; y aunque R 2 sea positivo, la omisión de la
constante hace difícil interpretar el R 2 o el R 2 adj . En contraste, la expresión
del R 2 en (2.1) no llega a ser negativa. Por lo anterior, usualmente se
recomienda incluir la constante en las regresiones.
En el Cuadro 1.1, del capítulo 1, se lee que el R 2 es 0.357642 y el R 2 adj
es 0.334700. Estos cálculos se realizan con la información contenida (a
veces de manera indirecta) en el mismo Cuadro 1.1.
Pruebas de Hipótesis
Una hipótesis es cualquier teoría o afirmación que pudiera ser sometida a

prueba. Por ejemplo, ‘todos los cisnes son blancos’ es una hipótesis porque
se refuta si aparece uno negro. Pero ‘los cisnes blancos son más bonitos que
los negros’ no es una hipótesis porque es un tema subjetivo que no podría
someterse a prueba.
La hipótesis tenida como cierta se conoce como hipótesis nula ( H 0 ) y se
mantiene como cierta a menos que la evidencia demuestre lo contrario. Por
ejemplo, en materia jurídica, la hipótesis nula ‘la persona es inocente’ solo
se refuta si la evidencia demuestra lo contrario. Por otro lado, la hipótesis
alterna ( H A ) denota lo que sería cierto si se refuta la nula.
En estadística y econometría, las hipótesis suelen escribirse en términos
matemáticos ya que es su lenguaje común, por ejemplo, β1 = 0 , β 2 + 2β 3 = 0
o β 2 − β 4 = 1 . En general, una hipótesis nula que involucra r restricciones se
puede escribir como
H 0 : g (β ) = q (2.5)
r ×1
donde g es una función del vector β y q es un vector r × 1 de valores

numéricos. En MCO la función g usualmente se trabaja en forma lineal. La
no linealidad dificulta la estimación de la varianza de las restricciones
necesarias para construir las pruebas de hipótesis (prueba t , prueba F , etc.)
que se ven a continuación; además el resultado de las pruebas puede
depender de la forma cómo se escriben las restricciones. En el caso lineal las
hipótesis se escriben
H 0 : Rβ = q (2.6)
r ×1
donde R es una matriz de orden r × k + 1 .
Ejemplo
Usando las tres restricciones enunciadas arriba, β1 = 0 , β 2 + 2β 3 = 0 y

β 2 − β 4 = 1 , la hipótesis se escribiría
 β0 
 
 0 1 0 0 0   β1  0
 0 0 1 2 0   β  = 0 
   2  
0 0 1 0 − 1  β 3  1
 β 4 
No podemos probar la hipótesis utilizando directamente los parámetros

de la población porque son desconocidos; por eso usamos lo más cercano
que tenemos que son los parámetros estimados. Mientras los parámetros son
de la población y en general se suponen fijos, los estimados cambian de
muestra a muestra, de manera que los estimados son variables aleatorias con
distribución de probabilidad. En estadística se requiere conocer el
comportamiento usual del estimador (su distribución de probabilidad) para
compararlo con lo observado. Si lo observado está muy lejos de lo que
afirma la hipótesis nula entonces la ponemos en duda y la rechazamos.
Cabe advertir que, si bien podemos abstenernos de rechazar una hipótesis
o teoría por encontrarla compatible con los datos, nunca estaremos seguros
que sea verdad.
Distribuciones chi cuadrado, t -Student y F
La distribución chi cuadrado con m grados de libertad, denominada

χ , es la distribución de una suma de variables normales estándar
2
m
independientes elevadas al cuadrado. En otras palabras, si z es una variable

tomada de una distribución normal estándar N (0,1) entonces la variable
∑z 2
i ~ χ m2 (2.7)
tiene una distribución chi cuadrado con m grados de libertad. Los grados de
libertad son iguales al número de términos independientes que entran en la
suma, lo cual no necesariamente es igual al número de términos que entran
en la suma. De la ecuación anterior podemos inferir que una variable chi
cuadrado solo toma valores positivos. La Figura 2.1 ilustra la forma general
de esta distribución.
f ( x)
Figura 2.1
La media de una chi cuadrado es igual a sus grados de libertad, en este caso
m y su varianza es igual al doble de sus grados de libertad, en este caso 2m .
Para m términos independientes, es fácil mostrar que la media es m
escribiendo
m m
E ∑
I =1
z i2 = ∑ E( z
i =1
2
i )=m
porque E ( z i2 ) es la varianza de la normal estándar, que es 1. Para la varianza

de la chi cuadrado escribimos
m m m
Var ∑ zi2 = ∑Var ( zi2 ) = ∑ E zi2 − 1 ( ) 2
i =1 i =1 i =1
(2.8)
m m
( )
= ∑ E zi4 − 2 zi2 + 1 =∑ (3 − 2 + 1) = 2m
i =1 i =1
donde E ( zi4 ) es la kurtosis (cuarto momento), que en una distribución normal

vale 3.
La distribución t Student, con m grados de libertad, se obtiene al
dividir una normal estándar z por la raíz de una chi cuadrado, llamémosla
u , ajustada por sus grados de libertad m , ambas independientes,
z
~ tm (2.9)
u
m
expresión que tiene una distribución t con m grados de libertad. Se ve que

el numerador puede tomar valores positivos y negativos pero el
denominador es positivo de manera que la variable puede tomar valores
positivos y negativos; de hecho, es parecida a la normal solo que tiene colas
más gordas y tiende a la normal cuando sus grados de libertad tienden a
infinito.
La distribución F , con s grados de libertad en el numerador y m grados
de libertad en el denominador, se obtiene al dividir una chi cuadrado por
otra, ambas independientes, ajustadas por sus grados de libertad. Sea v una
chi cuadrado con s grados de libertad y u otra chi cuadrado con m grados
de libertad, entonces
v/s
~ Fs , m (2.10)
u/m
tiene una distribución F con s grados de libertad en el numerador y m

grados de libertad en el denominador. Tanto el numerador como el
denominador son positivos. Su distribución de probabilidad es parecida a la
de la Figura 2.1. Una cosa son las distribución t o F y otra las pruebas t o
F que se hacen con estas distribuciones, las cuales se ven a continuación.
La Prueba t
En regresión se utiliza la prueba t en lugar de la normal estándar para

probar la significancia estadística de elementos individuales de β̂ . Veamos
por qué. Con el supuesto de normalidad recordamos que
βˆ X ~ N (β , σ ε2 ( X ′X ) −1 ) . Así las cosas, bajo la hipótesis nula H 0 : β i = q
podríamos pensar en usar el estadístico z para β̂ i
βî − Eβî βî − q

= ~ N (0,1) (2.11)
Var ( βî ) σ ε2 ( X ′X )i−1
donde σ ε2 ( X ′X ) i−1 representa el elemento de la diagonal de la matriz

σ ε2 ( X ′X ) −1 que corresponde a la varianza de β̂ i . El problema es que, si bien la
expresión anterior tiene una distribución normal estándar, no la podemos
usar porque no conocemos la varianza del error σ ε2 . Si usamos σˆ ε2 , que sí
conocemos, en lugar de σ ε2 , la expresión dejaría de ser una normal estándar.
¿Y si pudiésemos construir una nueva prueba donde se elimine el término
σ ε2 y aparezca σˆ ε2 ? Para este fin, tomamos un resultado del álgebra lineal
donde las formas cuadráticas que involucran una variable normal y una
matriz idempotente tienen distribución de probabilidad chi cuadrado (ver
Johnston 1984, p. 167). La aplicación de este resultado al caso que nos
ocupa, junto con el supuesto normalidad en el error, nos permite escribir
ε ′Mε
2
~ χ n2− ( k +1) (2.12)
σε
donde M = I − X ( X ′X ) −1 X ′ es la matriz idempotente simétrica vista en el

capítulo 1. Los grados de libertad de la chi cuadrado son iguales al rango de
la matriz M , el cual en las matrices idempotentes es igual a su traza, que en
este caso es n − (k + 1) . De la discusión que llevó a la estimación de σ ε2 en el
capítulo 1, tenemos,
ε ′Mε εˆ′εˆ (n − (k + 1)) σˆ ε2

= 2 = ~ χ n2− ( k +1) (2.13)
σ ε2 σε σ ε2
Puede mostrarse que la forma cuadrática (n − (k + 1))σˆ ε2 / σ ε2 es independiente

de la forma lineal βˆ = β + ( X ′X ) −1 X ′ε que entra en (2.11) [ver, por ejemplo,
Johnston (1984, p. 182)]. Con lo anterior, podemos formar una variable con
distribución t Student siguiendo su definición; esto es, dividiendo la normal
estándar de (2.11) por la raíz de la chi cuadrado de (2.13) dividida, a su vez,
por sus grados de libertad, así
βî − q
σ ε2 ( X ′X )i−1 βî − q
= ~ tn − ( k +1) (2.14)
(n − (k + 1)) σˆ ε2 / σ ε2 σˆ ε2 ( X ′X )i−1
n − (k + 1)
Esta es la conocida prueba t para cualquier hipótesis H 0 : β i = q . Sin

embargo, la versión más popular, la que se hace automáticamente en el
software econométrico, usa la hipótesis H 0 : β i = 0 , esto es, que la variable
i ésima no contribuye a la explicación de la variable dependiente y, en
consecuencia, su coeficiente es cero. Con esta hipótesis automática la prueba
t queda
βî
~ tn − ( k +1) (2.15)
σˆ ε2 ( X ′X )i−1
El estadístico de la prueba t automática se calcula dividiendo el coeficiente

estimado por su error estándar. Este valor se juzga con respecto a una
distribución t con n − (k + 1) grados de libertad.
En el Cuadro 1.1 se ejemplifica el resultado de esta división. Las pruebas
t arrojan los estadísticos 119.6478 para la constante, 2.714356 para MAT y
4.038520 para EST. También se observan las probabilidades asociadas a los
valores anteriores. Estas representan el área en ambos extremos (prueba de
dos colas) de la curva de la distribución t con 56 grados de libertad para
valores superiores al valor absoluto tˆ . Por ejemplo, en el caso de la
constante el área en las colas de la distribución para valores mayores que el
valor absoluto 119.6478 es de 0.0000, para valores superiores al valor
absoluto 2.714356 es 0.0088 y para valores superiores a 4.038520 es de
0.0002. Puede decirse que los tres coeficientes son significativos
(estadísticamente diferentes de cero).
La Prueba F
La prueba t es una prueba individual y se utiliza sobre un solo parámetro.

Para probar r restricciones simultáneamente, esto es H 0 : Rβ = q donde q es
de orden r × 1 , se utiliza la prueba F . Básicamente, esta prueba compara la
suma de los residuos al cuadrado de dos regresiones: la original (con todas
las variables) y la restringida (excluyendo algunas o todas las variables
según lo que diga H 0 ). Si ambas sumas de residuos al cuadrado son
estadísticamente iguales quiere decir que la regresión da igual imponiendo o
no imponiendo las restricciones, en cuyo caso no rechazamos H 0 .
Recordando que, en general, la suma o resta de dos chi cuadrados es otra

chi cuadrado con grados de libertad iguales a la suma o resta de los grados
de libertad originales, y siguiendo las instrucciones de (2.10), escribimos
 ∑ εˆ 2 − ∑ εˆNR
2 
 R 1
 σε2 r
  ~F (2.16)
 ∑ εˆNR 
2 r , n − ( k +1)
  1
 σ 2  n − (k + 1)
 ε 
∑ εˆ
2
donde R
es la suma de residuos al cuadrado de la regresión a la cual se le
aplican las restricciones dictadas por H 0 y ∑ εˆ NR es la suma de residuos al
2
cuadrado de la regresión a la cual no se le aplica restricción alguna (en este

caso, con todas las variables originales). Bajo la hipótesis nula de
normalidad condicional en los errores, los términos en paréntesis en el
numerador y el denominador son variables chi cuadrado [ver (2.13)], la del
numerador con r grados de libertad y la del denominador con n − (k + 1)
grados de libertad. Los σ ε2 del numerador y denominador se cancelan, lo
cual es afortunado porque no los conocemos. Así, la expresión queda
 ∑ εˆ 2 − ∑ εˆNR
2 
 R  n − (k + 1)  ~ F (2.17)
 ∑ εˆNR  r 
2 r , n − ( k +1)

que es la fórmula usual en el software econométrico. Es importante resaltar

que, a diferencia de la expresión general (2.10) de la distribución F que
permitiría la heteroscedasticidad, la versión anterior supone
homoscedasticidad (porque usa el mismo σ ε2 para todo ε ). También
notamos que la expresión de la prueba siempre es ≥ 0 porque la suma de
residuos al cuadrado de una regresión restringida es mayor o igual que la de
una regresión no restringida.
La hipótesis nula automática en el software econométrico es que, aparte
de la constante que solo mide el promedio de y , ninguna variable
explicativa sirve para explicar la variable dependiente; esto es,
H 0 : β 1 = β 2 = L = β k = 0 ; son r = k restricciones porque no se incluye β 0 . En
términos de la notación usada hasta ahora tenemos H 0 : Rβ = q , y la
k ×1
hipótesis automática para la prueba F podría escribirse como
β0 
0 1 0 L 0    0 
0 β1
 0 1 L 0   0
β2  = (2.18)
 M M M O M    M
  M  
0 0 0 L 1   0
k ×k +1  
 β k  k ×1
k +1×1
La prueba F también se puede escribir en términos del R 2 de la regresión

restringida, que llamaremos R R2 , y del R 2 de la regresión no restringida, que
llamaremos R NR2
. Esto se puede ver dividiendo arriba y abajo la expresión del
lado izquierdo de (2.17) por la variación total ∑(y i
− y) 2 ,
∑ εˆ − ∑ εˆ 1
2 2
R NR
∑ ( y − y) ri
2
∑ εˆ 2
NR 1
∑ ( y − y ) n − (k + 1)
i
2
(2.19)
((1 − R ) − (1 − R ))1r
2
R
2
(R − R )1r
NR
2
NR
2
R
= = ~F
(1 − R ) n − (1k + 1) (1 − R ) n − (1k + 1)
r , n − ( k +1)
2 2
NR NR
expresión que siempre será ≥ 0 porque el R NR 2

de una regresión no restringida
es mayor o igual al R R2 de una regresión restringida.
Cuando la restricción hace cero todos los coeficientes excepto la
constante ( r = k ) entonces ∑ ( y i − y ) 2 = ∑ εˆ R2 , el RR2 = 0 , y la expresión
anterior se escribe como
(R )1r
2
NR (R ) n − (k + 1) ~ F
2
= NR
(2.20)
(1 − R ) n − (1k + 1) (1 − R ) k
2 k , n − ( k +1)
2 NR
NR
En el Cuadro 1.1 el cálculo de (2.20) arroja un valor de 15.58939

asociado a una probabilidad de 0.000004 que representa el área bajo la curva
de una distribución F2,56 a partir de 15.58939. Se rechaza la hipótesis nula de
que todos los coeficientes son cero.
El Tamaño de la Muestra
En la práctica surge con frecuencia la pregunta de cuál debe ser el tamaño

de la muestra. La respuesta es sencilla: tan grande como sea posible. Lo cual
quiere decir, por una parte, que cuánto más grande mejor porque en general
aumenta la cantidad de información disponible y aumenta la precisión
(menor varianza) de los estimadores. Pero, por otra parte, no siempre es
posible alcanzar la muestra deseada. En ocasiones simplemente no hay
opción porque el tamaño está dado por la entidad que suministra la
estadística. El costo y el tiempo también son factores que limitan el tamaño
de la muestra. De hecho, en la práctica lo ideal es observar toda la población
pero con frecuencia debemos contentarnos con una muestra. Lo importante
es que la muestra sea aleatoria.
El econometrista debe hacer un análisis costo beneficio en la selección de
la muestra para determinar si vale la pena el esfuerzo adicional de
incrementarla. Entran muchas consideraciones que difieren según el estudio
y su objetivo; por ejemplo, si podría ser aceptable una muestra de menor
tamaño en una exploración inicial. Un enfoque alternativo, que relaciona el
tamaño de la muestra n , el número de variables k + 1 y la precisión de la
estimación, se encuentra en Montenegro (2001). La medida de precisión
propuesta es el promedio de la desviación al cuadrado entre el error ε y el
residuo εˆ , como proporción de la variación total del error ε . Mide, en
esencia, qué tan lejos están los residuos de los errores verdaderos. Utilizando
la matriz idempotente y el estimador de la varianza del error del capítulo 1,
la medida se escribe,
E (ε − εˆ )′(ε − εˆ ) E (ε − Mε )′(ε − Mε )
=
Eε ′ε Eε ′ε
(2.21)
E (ε ′ε − ε ′Mε ) nσ ε2 − (n − (k + 1))σ ε2 k + 1
= = =
Eε ′ε nσ ε2 n
E (ε − εˆ )′(ε − εˆ)
Por ejemplo, si queremos < 0.1 entonces n deberá ser mayor
Eε ′ε
que 10(k + 1) ; así, esto indicaría mínimo 20 datos en una regresión con una
E (ε − εˆ )′(ε − εˆ)
variable y constante. Igualmente, la condición < 0.05 exigiría
Eε ′ε
n > 20(k + 1) o mínimo 40 observaciones en una regresión con una variable y

E (ε − εˆ)′(ε − εˆ)
la constante, y < 0.01 mínimo 200 datos en la misma regresión.
Eε ′ε
Propiedades Asintóticas
Mínimos cuadrados ordinarios es una de las pocas técnicas estadísticas

para las cuales se pueden calcular propiedades para muestras finitas; por
ejemplo, sabemos que β̂ es insesgado y tiene menor varianza. Pero esto es
más la excepción que la regla. En otras técnicas de estimación (que veremos
más adelante) es difícil establecer el comportamiento del estimador en
muestras finitas, por ejemplo si es insesgado o tiene distribución normal. De
hecho, sin hacer el supuesto 5 que impone normalidad, tampoco sabríamos
en la estimación por MCO cómo es la distribución de probabilidad del β̂ .
En ausencia de propiedades de muestras finitas, podría ser útil explorar
las propiedades de muestras grandes; esto es, explorar el comportamiento de
los estimadores a medida que n crece. Por ejemplo, en el caso de MCO se
observará que si n crece, el β̂ tiende a una distribución normal aunque no se
cumpla el suspuesto 5, lo que permite hacer pruebas de hipótesis bajo la
distribución asintótica.
El comportamiento asintótico se refiere a lo que ocurre cuando la
muestra crece, de hecho cuando n → ∞ . Para estudiar ese comportamiento
debemos precisar el concepto de límite aplicable a secuencias de variables
aleatorias en razón de que difiere un poco del límite aplicable a secuencias
determinísticas.
En el caso determinístico, podemos graficar la secuencia, por ejemplo la
1
secuencia X n = 1 + contra n , para n = 1, 2, 3,K , y sabemos que su límite es
n
 1
lim X n = lim 1 +  = 1 ; esto es, 1 es el número al cual podemos acercarnos
n →∞ n →∞  n
tanto como queramos aumentando n , como se ilustra en la Figura 2.2.
Xn
1 Figura 2.2
Informalmente, el límite de una secuencia determinística X n puede

ilustrarse con un juego. Si el primer jugador escoge cualquier intervalo δ > 0
alrededor de X , y el segundo jugador puede apostar su cabeza a que
encuentra un valor M tal que para n ≥ M todos los valores de X n están
contenidos en el intervalo X ± δ , entonces se dice que X es el límite de X n .
En contraste, en el caso de una secuencia de variables aleatorias, el
segundo jugador perdería su cabeza porque las variables aleatorias pueden
tomar cualquier valor permitido por su distribución de probabilidad y no hay
garantía de que dicho valor permanezca dentro de cualquier intervalo que
escoja el primer jugador. El límite determinístico ( lim X n = X ) no es
n →∞
aplicable si X n es estocástica porque no podemos garantizar que, de algún
n ≥ M en adelante, X n permanezca dentro del intervalo X ± δ .
El problema es que las distribuciones de probabilidad permiten
observaciones extremas o por fuera de cualquier intervalo escogido y,
aunque estas observaciones sean poco probables, de todas maneras tienen
probabilidad de ocurrencia diferente de cero, y no podemos decir que X n se
acerca tanto como queramos a X . Por ejemplo, en el caso de una normal,
aun cuando su varianza se aproxime a cero, la probabilidad en las colas no
desparece y no puede descartarse la ocurrencia de observaciones atípicas
(extremas o outliers). De manera que no podemos confinar la variable
aleatoria X n a un intervalo cada vez más pequeño alrededor de X . Dicho
sea de paso, una distribución uniforme no sería un contraejemplo porque el
primer jugador puede escoger cualquier intervalo, por pequeño que sea.
Convergencia en Probabilidad
Si bien en el caso de una secuencia de variables aleatorias X n no es

posible hablar del límite de dicha secuencia, sí es posible hablar del límite de
la probabilidad de que X n se acerque cada vez más a X , donde X puede ser
una variable aleatoria o una constante (una constante puede verse como una
variable aleatoria con toda la probabilidad concentrada en el valor de la
constante). Si este límite es 1 entonces decimos que el límite en probabilidad
de X n es X . En otras palabras, si para cualquier δ > 0 arbitrariamente
pequeño,
lim P [ X n − X < δ ] = 1 (2.22)

n →∞
entonces el límite de probabilidad de X n es X . La expresión anterior se

abrevia
plim X n = X (2.23)
n→∞
y, cuando no haya lugar a confusión acerca del índice, simplemente se

escribe plim X n = X .
Cabe advertir que el límite de probabilidad puede no existir. Por ejemplo,
plim (∑ z i2 ) no existe porque la suma indicada crece con n y no converge a
ninguna parte.
El ejemplo más famoso de convergencia en probabilidad es la ley de los
grandes números: el promedio aritmético de los datos converge al valor
esperado de la población a medida que aumenta el tamaño de la muestra,
esto es, plim X n = E (X ) .
n →∞
La cantidad X n − X en la definición de convergencia en probabilidad es
una variable aleatoria (aun si X es una constante) y generalmente podemos
asociarle una distribución de probabilidad; en la convergencia en
probabilidad la distribución de X n − X se concentra sobre cero. Por otro
lado, P [ X n − X < δ ] es una secuencia de números positivos y por tanto sujeto
al juego que usamos para definir el límite determinístico, como se muestra
en la Figura 2.3.
P[ X n − X < δ ]
Figura 2.3
Un supuesto implícito en la definición de convergencia en probabilidad

es que los componentes de la secuencia { X n } no necesariamente son idéntica
e independientemente distribuidos ( iid ) precisamente porque su distribución
puede ir cambiando con n .
Ejemplo
El límite de probabilidad puede diferir del valor esperado. Supongamos una

1
variable aleatoria X n que vale 0 con probabilidad 1 − y vale n con
n
1
probabilidad . Su valor esperado será EX n = 1 para todo n y su límite de
n
probabilidad será plim X n = 0 porque la distribución de probabilidad se
concentra sobre cero.
El límite de probabilidad es más sencillo de manejar que el valor

esperado. A diferencia del valor esperado donde, excepto para una función
g lineal, E ( g ( X n )) ≠ g ( E ( X n )) , cuando se trata de límites (sean
determinísticos o estocásticos) se cumple plim g ( X n ) = g ( plim X n ) , también
1 1 1
plim = = y, en general, plim (ab) = ( plim a ) ( plim b) ,
g ( X n ) plim g ( X n ) g ( plim X n )
siempre y cuando los límites de probabilidad existan y, finalmente, si
plim X n = X entonces plim g ( X n ) = plim g ( X ) .
Convergencia en Distribución
Una secuencia de variables aleatorias { X n } a la cual corresponde una

secuencia de distribuciones acumulativas {Fn } , converge en distribución a la
variable X con distribución F , si lim Fn ( x) = F ( x) . Este modo de
n →∞
convergencia se abrevia X n → X , donde F se conoce como la
d
distribución asintótica de X n . Nótese que en este modo de convergencia,

aunque hablamos de una secuencia de variables aleatorias, lo que converge
es la secuencia de distribuciones. La densidad de probabilidad f asintótica
puede concentrarse sobre un solo valor (lo que se conoce como una
distribución degenerada) pero no necesariamente.
Una propiedad importante es que plim X n = X implica X n → d
X ; otra es
que X n → X implica que, para una función g continua, g ( X n ) →
d d
g( X )
(esta última conocida en inglés como continuous mapping theorem). Lo
contrario, que X n →
d
X implica plim X n = X , solo sería cierto si X es una
constante, porque dos variables diferentes pueden tener aproximadamente la
misma distribución pero realizaciones muy diferentes.
El más famoso ejemplo de este tipo de convergencia es el Teorema del
Límite Central donde una suma, como X n , converge a una normal cuando
n crece. Este tipo de convergencia indica que la distribución del próximo
elemento de la secuencia { X n } se parece cada vez más a la distribución F .
No siempre contamos con la distribución de probabilidad de muestra
finita (por ejemplo, cuando no se cumple el supuesto 5 en MCO) lo cual
dificulta las pruebas de hipótesis. Afortunadamente, cuando aplique el
teorema del límite central o cuando sea posible derivar la distribución
asintótica, ésta puede proponerse como aproximación a la distribución en la
muestra finita.
Propiedades de Estimadores
Algunas propiedades de estimadores que se consideran cuando se trata de

muestras finitas son: insesgamiento, eficiencia y mínimo error cuadrado
medio.
El insesgamiento, como se vio antes, se refiere a que el valor esperado
del estimador sea igual al verdadero parámetro de la población; esto es, un
estimador α̂ del parámetro α , será insesgado si Eαˆ = α . De hecho, vimos
antes que el estimador de MCO es insesgado porque obtuvimos Eβˆ = β .
La eficiencia se da si, dentro de los estimadores insesgados, un estimador
tiene la menor varianza. Este criterio ayuda a comparar entre los insesgados.
Por ejemplo, si solo nos limitáramos al insesgamiento entonces nos daría

igual estimar la media poblacional µ utilizando el promedio muestral X
para n = 2 , n = 100 o n = 1000 , porque X 2 , X 100 y X 1000 son insesgados. Sin
embargo, al adicionar el criterio de la eficiencia escogeríamos X 1000 porque
la varianza del promedio disminuye al aumentar el tamaño de la muestra
(por el Teorema del Límite Central). Recordamos que, según el Teorema de
Gauss Markov, β̂ tiene la menor varianza y por tanto es eficiente.
¿Pero cómo escogeríamos entre un estimador sesgado y uno insesgado, o
dos sesgados? El criterio del mínimo error cuadrado medio puede ayudar en
este caso porque toma en cuenta tanto el sesgo como la varianza. Este
criterio escoge el estimador que minimiza la expresión E (αˆ − α ) 2 , donde α̂
es el estimador del parámetro α . Se puede mostrar que
E (αˆ − α ) 2 = ( Eαˆ − α ) 2 + E (αˆ − E (αˆ )) 2 ; esto es, el error cuadrado medio es igual
al sesgo al cuadrado más la varianza.
En cuanto a criterios asintóticos, esto es, para muestras que crecen sin
límite ( n → ∞ ), una importante propiedad es la consistencia. Se dice que un
estimador α̂ es consistente si se cumple plim αˆ n = α , donde α es el
verdadero parámetro de la población. Recalcamos que la mera existencia de
plim α̂ n no garantiza consistencia porque para ello dicho plim α̂ n debe ser
igual al verdadero parámetro poblacional. Consistencia implica que
conseguir más datos (ampliar la muestra) ayuda al estimador a acercarse en
probabilidad al verdadero parámetro.
La convergencia en error cuadrado medio (que también es conocida como
convergencia en media al cuadrado) implica convergencia en probabilidad,
esto es, lim E (αˆ n − α ) 2 = 0 implica plim αˆ n = α . Lo anterior, a su vez, implica
n→∞
consistencia pero solo cuando α es el verdadero parámetro de la población
alrededor del cual se concentra la probabilidad de α̂ cuando n → ∞ .
Hasta ahora la notación β̂ no estaba asociada explícitamente al tamaño
de la muestra; podríamos escribir β̂ n lo cual hace explícita su dependencia;
sin embargo, en la mayoría de los casos esto no será necesario mientras se
mantenga clara esta dependencia.
Asintóticamente, esto es, cuando n → ∞ , encontraremos que β̂ n es
consistente y converge en distribución a una normal (sin necesidad de hacer
el supuesto 5), como se muestra a continuación.
Consistencia de MCO
Para establecer si β̂ es consistente debemos tomar su límite de

probabilidad. Para tal fin, recordamos que βˆ = β + ( X ′X ) −1 X ′ε . Tomar límite
de la expresión anterior se complica porque X ′ε no tiene plim ; esto se debe
a que su varianza no cae a cero a medida que aumenta el tamaño de la
muestra. Para que el plim exista modificamos un poco la expresión
dividiendo arriba y abajo por n . Así, tomando límite de probabilidad
 X ′X  −1  X ′ε   X ′X 
−1
 X ′ε 
ˆ
plim β = β + plim     = β + plim   plim   (2.24)
 n   n   n   n 
Como se anotó antes, si bien EX ′ε = 0 por el supuesto 3, lo cual es bueno, su

varianza no cae a cero de manera que su probabilidad no se concentra sobre
cero. Pero al dividir por n , la varianza Var 
X ′ε 
 → 0 cuando n → ∞ . Con
 n 
esta consideración obtenemos plim 
X ′ε 
 = 0 , y la ecuación anterior logra la
 n 
consistencia del estimador de MCO β̂ , quedando
−1
 X ′X 
plim βˆ = β + plim  −1
 (0) = β + Q (0) = β (2.25)
 n 
donde la matriz Q = plim 

X ′X 
 , de orden k + 1 × k + 1 , se supone finita no
 n 
singular (eso quiere decir que tiene inverso). Nótese que Q es simplemente
una matriz de momentos, esto es, sumas de las variables al cuadrado y sumas
de los productos cruzados de las variables, todos divididos por n , de manera
que intuitivamente es razonable que sea finita y tenga inverso.
Podemos precisar un poco más sobre la derivación de plim 
X ′ε 
=0
 n 
recurriendo explícitamente al hecho mencionado arriba de que la
convergencia en error cuadrado medio (a cero en este caso) implica
convergencia en probabilidad. Recordamos que los 4 supuestos de MCO
siguen válidos. Por el lado del valor esperado sabemos que
  X ′ε   1
E    X  = E X ′ε X = 0
 n   n
para cualquier n , lo que quiere decir que el sesgo es cero. Por el lado de la
varianza del vector X ′ε ,
  X ′ε   1 1
lim Var    (
X  = lim 2 E (X ′εε ′X X ) = lim 2 X ′σ ε2 IX )
n →∞
  n   n →∞ n n→∞ n
 σ ε   σ ε2 
2
 X ′X
= lim 
n →∞  n
  = Q nlim  =0
→∞  n 
 n   
lo que quiere decir que la varianza es cero. Como el error cuadrado medio es
igual a la suma del sesgo al cuadrado más la varianza, y dado que ambos son
cero, concluimos que hay convergencia en error cuadrado medio alrededor
de cero, lo que implica plim 
X ′ε 
 = 0 . Notamos que en la derivación
 n 
anterior, dado X , Q = plim 
X ′X  X ′X
= .
 n  n
Convergencia en Distribución de MCO

−1
Volviendo a la expresión βˆ = β + 
X ′X   X ′ε 
   vemos que, dado X , la
 n   n 
−1 −1
X ′ε d  X ′X   X ′ε  d  X ′X 
condición → F implicaría     →  F por la
n  n   n   n 
propiedad de la convergencia en distribución vista arriba (continuous
mapping theorem). Se deduce entonces que la forma de la distribución
X ′ε X ′ε
asintótica de β̂ está dada por la distribución de . Ahora bien, es el
n n
promedio de términos de la forma xiε i con varianzas xi2σ ε2 . Existe una
versión del Teorema del Límite Central (Lindberg Levy) que permite
X ′ε
varianzas diferentes y garantiza que converja a una distribución normal.
n
−1
Por tanto, 
X ′X   X ′ε 
   converge a una normal. Sabemos que la media de
 n   n 
esta distribución normal es cero y su varianza será la varianza de
−1
 X ′X   X ′ε 
    , esto es,
 n   n 
−1 −1 −1 −1
 X ′X    X ′ε   X ′X   X ′X   E ( X ′εε ′X X )   X ′X 
  Var     =    
 n    n   n   n   n2  n 
(2.26)
−1 −1
 X ′X   X ′X  σ ε   X ′X 
2
2 −1
=     
  = σ ε ( X ′X )
 n   n  n   n 
de manera que, en conclusión,
βˆ →
d
N (β ,σ ε2 ( X ′X ) −1 ) (2.27)
donde no fue necesario hacer el supuesto 5.

Por la consistencia de β̂ sabemos que su varianza tiende a cero cuando
n → ∞ de manera que la distribución colapsa sobre β , como una aguja
vertical (distribución degenerada). Para evitar este colapso, es común ver la
convergencia en distribución escrita así
  X ′X  
−1
n ( βˆ − β ) →
d
N  0, σ ε2   (2.28)
  n  

o también
n ( βˆ − β ) →
d
(
N 0, σ ε2 Q −1 ) (2.29)
dado X .
Capítulo 3
ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
El método de Máxima Verosimilitud, MV, puede utilizarse para estimar

muchos modelos incluyendo el modelo clásico lineal. Este método requiere
que se escoja una distribución de probabilidad para los datos, pero el
problema es que no siempre es obvio cuál es la que mejor se ajusta. La
Figura 3.1 muestra una distribución de probabilidad f ( y ) que parece
ajustarse bien a los valores y a la concentración de las observaciones (las
cruces sobre el eje). La variable y podría medir, por ejemplo, la distancia en
una competencia de salto largo. Es intuitivo que no se ajustaría una
distribución uniforme ni una normal, de hecho ninguna simétrica.
f ( y)
Figura 3.1
y
El principio que guía este método de estimación es el de adivinar el valor

de los parámetros de la distribución escogida que hacen menos sorpresivos
los datos de la muestra. Es un argumento circular: la muestra está dada y
debemos ajustar a los datos de la muestra la distribución de probabilidad
propuesta de manera que los datos de la muestra parezcan haber salido de
una población con la distribución de probabilidad propuesta.
Por ejemplo, si el parámetro a estimar es la probabilidad P de que una
moneda caiga cara, y lanzamos la moneda cinco veces y las cinco veces cae
cara, entonces la estimación por máxima verosimilitud es Pˆ = 1 . Esto nos
puede parecer extraño ya que sabemos que dicha probabilidad debe ser 0.5.
Máxima verosimilitud le hace caso a los datos y no a nuestras ideas
preconcebidas, y en este ejemplo los datos son menos sorprendentes si P es
1 que si P es 0.5. Si queremos que nuestras ideas preconcebidas (priors)
sean tenidas en cuenta junto con lo que digan los datos, debemos usar el
método de estimación llamado Bayesiano, pero ese es otro tema.
La distribución normal es un buen punto de partida porque es de
aplicación general y es la que usaremos en la ilustración del método. En la
práctica se debe utilizar otra distribución si la normal no parece una buena
aproximación a los datos, como en la Figura 3.1.
La distribución de probabilidad normal para n observaciones de la
variable y , independientes, con media µ y varianza σ 2 , esto es,
y ~ N ( µ , σ 2 ) , tiene la siguiente expresión matemática
 n 
 ∑ ( yi − µ )
2
n 
 1 
(
f y µ ,σ 2 ) =
2 2 
exp  − i =1
2
 2σ 2


(3.1)
 πσ 
 
 
La verosimilitud es la misma función pero desde el punto de vista de µ y

σ 2 , no como parámetros sino como variables, y asumiendo la muestra dada.
Con el objeto de enfatizar esto, la verosimilitud suele denotarse con la letra
L (por likelihood, en inglés) y se ponen gorritos a los parámetros a estimar,
 n 
 ∑ ( yi − µˆ )
2
n

 1  2
( )
L µˆ , σˆ 2 y =  
2 
exp  − i =1  (3.2)
 2π σˆ   2σˆ 2 
 
 
Dada la muestra y , debemos estimar los valores de los parámetros µ̂ y

σˆ que maximicen L . Esto se logra derivando con respecto a los parámetros
2
e igualando las derivadas a cero.

Aunque las derivadas se pueden hacer directamente sobre la
verosimilitud L , hay varias razones por las cuales es preferible derivar sobre
el logaritmo de la verosimilitud l = ln L ; por un lado, el logaritmo es una
transformación monotónica (mantiene el mismo ordenamiento) de manera
que el máximo de L es el mismo de l . Por otro lado, tomar logaritmos
convierte el producto en una suma más fácil de derivar. Finalmente, porque
L , al ser un producto de probabilidades, usualmente minúsculas, puede
resultar en un valor con tantos ceros a la derecha del punto decimal que se
perdería en el proceso computacional; lo cual no ocurre al tomar logaritmo
ya que así las probabilidades se suman en lugar de multiplicarse. La
verosimilitud logarítmica se escribe
n n 1 n
( )
l = ln L µˆ , σˆ 2 y = − ln(2π ) − ln(σˆ 2 ) − ∑ (y − µˆ )
2
(3.3)
2σˆ 2
i
2 2 i =1
Derivando la verosimilitud logarítmica anterior con respecto a µ̂ , e

igualando a cero, tenemos
∂l 1 n
= 2
∂µˆ σˆ
∑ (y
i =1
i − µˆ ) = 0 (3.4)
n n
de donde ∑ yi = ∑ µˆ = nµˆ , lo que
i =1 i =1
lleva al estimador de máxima
verosimilitud para la media,
n
∑y i
µ̂ = i =1
=y (3.5)
n
Ahora, derivando con respecto a σˆ 2 e igualando a cero, tenemos
∂l n 1 n
∂σˆ 2
=− 2 +
2σˆ 2σˆ 4
∑(y
i =1
i − µˆ ) 2 = 0 (3.6)
de donde, remplazando µ̂ por y , obtenemos el estimador de máxima

verosimilitud para la varianza,
1 n
σˆ 2 = ∑ ( yi − y )2
n i=1
(3.7)
Estimación del Modelo Clásico
El desarrollo anterior fue para una variable y con un único valor

esperado µ . Pero ¿que ocurre si, por ejemplo, y = Xβ + ε como en el modelo
clásico? Dado el supuesto de normalidad condicional ε X ~ N (0, σ ε2 I ) , la
variable y sigue siendo normal con la misma varianza σ ε2 del error (porque
Xβ está dada y es constante de manera que lo aleatorio en y viene de ε )
pero con valor esperado Ey = Xβ , el cual ahora es un vector de orden n × 1 .
Con esta consideración, la verosimilitud logarítmica se escribe
1 ′
n n
l = − ln(2π ) − ln(σˆ ε2 ) −
2 2 2
2σˆ ε
(
y − Xβˆ y − Xβˆ )( ) (3.8)
( )′ ( )
n
∑ (y )
2
también podríamos escribir i − xi′β̂ , en lugar de y − Xβˆ y − Xβˆ , donde
i =1
xi′ es la fila i ésima de X .

La derivada de la verosimilitud logarítmica con respecto a β̂ resulta
idéntica a la que se hizo para encontrar el estimador de MCO, esto es,
∂l ∂ ′ ∂
ˆ
=
∂β ∂β ˆ
(
y − Xβˆ y − Xβˆ =)(
∂βˆ
) (
y′y − 2 βˆ ′ X ′ y + βˆ ′ X ′Xβˆ = 0
k +1×1
) (3.9)
por lo cual se deduce que el estimador de máxima verosimilitud,

denotémoslo β̂ MV , es el mismo de MCO, β̂ = ( X ′X ) −1 X ′y . Cuando no haya
lugar a confusión se podrá omitir el subíndice MV .
De manera similar, para estimar la varianza del error derivamos con
respecto a σˆ ε2
∂l 1 ′
2
∂σˆ ε
n
=− 2 + 4
2σˆ ε 2σˆ ε
( )(
y − Xβˆ y − Xβˆ = 0
1×1
) (3.10)
de donde, despejando, obtenemos el estimador de la varianza que llamamos

2
σˆ MV ,
′
σˆ 2
MV =
( y − Xβˆ )(y − Xβˆ ) εˆ′εˆ
= (3.11)
n n
εˆ′εˆ
Comparando este estimador de la varianza, σˆ MV
2
= , con el estimador
n
εˆ ′εˆ
insesgado derivado por MCO, σˆ ε2 = , concluimos que el estimador
n − (k + 1)
de máxima verosimilitud de la varianza del error es sesgado; sin embargo, es
consistente porque la diferencia entre ambos disminuye a medida que n
crece.
El Cuadro 1.1 muestra el valor -10.97205 que corresponde a la
verosimilitud logarítmica (3.8) maximizada.
Propiedades de Máxima Verosimilitud
Aunque en muestras finitas la estimación por máxima verosimilitud

puede ocasionalmente ser sesgada, el método tiene varias propiedades de
muestra grande que lo hacen atractivo. La consistencia es una de ellas, esto
es, plim βˆ MV = β , lo cual aplica para cualquier otro estimador de máxima
verosimilitud, por ejemplo plim θˆMV = θ donde θˆMV es cualquier otro
estimador y θ es el verdadero parámetro de la población.
También son estimadores que tienen normalidad asintótica, lo cual se
expresa como
βˆ MV →
d
(
N β , (I ( β ) )
−1
) (3.12)
donde I ( β ) es la expectativa de la matriz de segundas derivadas
 ∂ 2l 
I (β ) = − E   (3.13)
 ∂β ∂β ′ 
conocida como matriz de información, sobre la cual volveremos más

adelante.
Otra propiedad de los estimadores de máxima verosimilitud es que son
asintóticamente eficientes, lo que quiere decir que tienen la menor varianza
posible. Es por esta razón que, con la adición del supuesto de normalidad, y
dado que la estimación del vector β por mínimos cuadrados coincide con la
de máxima verosimilitud, el Teorema de Gauss Markov aplica entre los
estimadores insesgados, no solo lineales (porque los de máxima
verosimilitud no tienen que ser lineales y aún así son asintóticamente
eficientes). Los estimadores de máxima verosimilitud tienen como varianza
(I (β ))−1 que es el límite inferior a la varianza de cualquier estimador
insesgado (lineal o no), según Cramer y Rao.
Finalmente, la estimación de máxima verosimilitud posee la propiedad de
invarianza ante funciones de los estimadores; por ejemplo, el estimador de
()
máxima verosimilitud de un parámetro γ = c(θ ) es γˆ = c θˆ , lo cual puede ser
útil cuando sea más fácil encontrar θˆ que γˆ directamente.
Las propiedades anteriores pueden fallar si la densidad de probabilidad
escogida no es apropiada. Sin embargo, en la variante llamada Cuasi
Máxima Verosimilitud (QML en inglés), que es menos eficiente que
máxima verosimilitud, se maximiza una densidad de probabilidad que
difiere de la verdadera pero que tiene las mismas condiciones de primer

orden, de manera que los parámetros estimados siguen siendo consistentes.
Las varianza de los estimadores pueden no corresponder al inverso de la
matriz de información y debe utilizarse algún estimador de errores robustos
(que se verán en otro capítulo).
Por ejemplo, supongamos que una variable x toma dos valores, 1 con
probabilidad P y 0 con probabilidad 1 − P . La muestra obviamente no se
conforma a una normal. Sin embargo, empleando la normal en la estimación
1
de MV encontraremos que la media es la correcta,
n
∑ xi , igual a la
proporción de 1´s en la muestra, lo cual es un estimador consistente de P .
De hecho, si x > 0 obviamente la normal no es la distribución apropiada pero
podemos usarla en la estimación QML.
Razón de Verosimilitud
Esta es una prueba similar a la prueba F . Requiere estimar ambas

verosimilitudes, la restringida y la no restringida. La idea es que si las r
restricciones de la hipótesis nula, H 0 : g ( β ) = q , son válidas, entonces
forzarlas no debe tener mayor impacto sobre la verosimilitud estimada. La
expresión de la prueba es (usando LR del inglés likelihood ratio)
d
LR = −2(l R − l NR ) → χ r2 (3.14)
donde l R y l NR son las verosimilitudes maximizadas restringida y no

restringida respectivamente. Si LR es mayor que el valor crítico se rechaza
H 0 . Nótese que LR será siempre mayor que cero (como debe ser toda chi
cuadrado) porque una estimación con restricciones nunca supera a una sin
restricciones, por lo cual el término l R − l NR es negativo pero al multiplicarlo
por el signo negativo LR da positiva.
La distribución chi cuadrado a la cual converge la razón de verosimilitud
LR puede intuirse suponiendo verosimilitudes normales y escribiendo
LR = −2(l R − l NR )
 n n 1 n 2 n n 1 n 2 
= −2 − ln(2π ) − ln(σˆ 2 ) −
 2 2
∑
2σˆ 2 i =1
ε Ri +
2
ln( 2π ) +
2
ln(σˆ 2
) + ∑ ε NRi 
2σˆ 2 i =1
(3.15)
 1 n ε Ri2 1 n ε NRi
2
 n ε Ri2 n 2
ε NRi
− 2 − ∑ 2 + ∑ 2  = ∑ 2 − ∑ 2 → d
χ r2
 2 i =1 σˆ 2 i =1 σˆ  i =1 σˆ i =1 σˆ
donde los r grados de libertad salen de restar los n − (k + 1) grados de

2
n
ε NRi
libertad de la chi cuadrado ∑
i =1 σˆ
2
a los n − (k + 1) + r grados de libertad de la
n
ε Ri2
chi cuadrado ∑
i =1 σ̂
2
. La restringida tiene más grados de libertad porque se
estiman menos parámetros. Lo anterior se hizo bajo la hipótesis nula por lo
cual la varianza σˆ 2 es común a ambas verosimilitudes.
Prueba de Wald
Mientras que para calcular la razón de verosimilitud LR es necesario

estimar la verosimilitud restringida y la no restringida, para la prueba de
Wald se utiliza el β̂ obtenido de la verosimilitud no restringida. Sea
H 0 : g ( β ) = q la hipótesis nula. Si las r restricciones son verdaderas,
entonces β̂ debe satisfacerlas y el vector g ( βˆ ) − q debe estar cerca de cero.
Por el contrario, si las restricciones no son válidas entonces el
vector g ( βˆ ) − q debe estar lejos de cero. Con esta idea se construye el
estadístico de la prueba,
′
1×1
( )( (
W = g ( βˆ ) − q Var g ( βˆ ) − q )) (g (βˆ ) − q )→
−1 d
χ 2
r (3.16)
el cual, bajo la hipótesis nula, tiene distribución asintótica chi cuadrado con
r grados de libertad. Debe ser clara la intuición de por qué W es una suma
de variables normales estándar elevadas al cuadrado, lo que por definición es
una distribución chi cuadrado. Un valor de W mayor que el valor crítico
lleva al rechazo de H 0 .
En general, la expresión de la matriz de varianza covarianza, de orden

k + 1 × k + 1 , es
( )  ∂ g βˆ
Var g ( βˆ ) − q = 
( ) Var (βˆ )  ∂ g (βˆ )′ (3.17)
ˆ   ∂βˆ ′ 
 ∂β ′   
la cual se obtiene por el método Delta o sea usando una aproximación lineal
de Taylor evaluada en β̂ . Var ( βˆ ) es el inverso de la matriz de información.
Esto puede intuirse considerando una sola variable, digamos x , y una
función no lineal f (x) , como se ve en la Figura 3.2.
f (x)
f (a )
Figura 3.2
a x
Sabemos que
f ( x) − f (a ) df
≈ x =a (3.18)
x−a dx
donde el símbolo ≈ quiere decir ‘aproximadamente’. Despejando
df
f ( x) ≈ f (a) + ( x − a) x=a (3.19)
dx
y se obtiene la varianza de f (x) como
2
 df 
Var ( f ( x)) ≈  x = a  Var ( x ) (3.20)
 dx 
df
donde la derivada x =a es constante. La expresión (3.20) tiene una forma
dx
similar a (3.17); f hace el papel de g y x el del parámetro a estimar β . Si
f es lineal entonces (3.17) se reduce a la conocida expresión de la varianza
de una variable multiplicada por una constante al cuadrado.
En un ejemplo sencillo de una sola restricción H 0 : β = q , la prueba Wald
se escribiría,
W=
(βˆ − q ) 2
~ χ12
Var ( βˆ )
Multiplicador de Lagrange
Esta prueba (también conocida como Score Test) utiliza la estimación

restringida. De nuevo mantenemos la hipótesis H 0 : g ( β ) = q que contiene r
restricciones. Definimos el vector λ de multiplicadores de Lagrange de
orden r × 1 y escribimos la función objetivo como
l ∗ (β ) = l(β ) + λ ′( g ( β ) − q ) (3.21)
cuyas condiciones de primer orden son
′
∂l ∗ ( β ) ∂l( β )  ∂g ( β ) 
= +   λ = 0
∂β ∂β  ∂β 
(3.22)
∂l ( β )
∗
= g (β ) − q = 0
∂λ
Si las restricciones son correctas entonces imponerlas no debe cambiar la

optimización, de manera que podríamos probar si λ = 0 , de allí el nombre de
la prueba. Sin embargo, la forma usual de la prueba se basa en reconocer
que, si la hipótesis H 0 : g ( β ) = q es cierta, entonces β̂ R debe estar cerca del
verdadero valor poblacional y la derivada de la verosimilitud restringida
(evaluada en β̂ R ) debe estar cerca de cero por ser horizontal cerca de la cima
de la verosimilitud, esto es,
∂l( βˆR )
→0 (3.23)
∂βˆR
Podemos usar esta derivada de la verosimilitud para construir el estadístico

chi cuadrado
′
 ∂l( βˆ R )   ∂l( βˆ R )  d
LM = 
 ∂βˆ 
(
 I ( βˆ R ) ) −1

 ∂βˆ 
 → χ r2 (3.24)
 R   R 
Para la intuición de los grados de libertad vemos de la condición de primer

′ ′
∂l( β )  ∂g ( β )   ∂g ( β ) 
orden que = −  λ . La matriz de derivadas   de orden
∂β  ∂β   ∂β 
k + 1 × r máximo tiene rango r dado que el rango no puede ser mayor que el
menor orden y r ≤ k + 1 , de tal manera que de las k + 1 × 1 combinaciones
∂l( β )
lineales que componen el vector solo r serán independientes.
∂β
Una versión de popular de esta prueba es
d
LM = nR 2 → χ r2 (3.25)
donde R 2 es el R 2 de una regresión auxiliar, como se ilustra en el ejemplo a

continuación.
Ejemplo
Supongamos que tenemos el siguiente modelo
y = β 0 + β 1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 + ε
junto con la hipótesis H 0 : β 3 = β 4 = 0 , de manera que la regresión restringida

estimada queda
y = βˆ0 + βˆ1 x1 + βˆ 2 x 2 + uˆ
Si la H 0 es verdadera entonces û no debe contener el efecto de x3 y x 4 , ni

tampoco el efecto de las demás variables porque los residuos son
ortogonales a las variables explicativas de la regresión que los generó. Por lo

tanto, si corremos la siguiente regresión auxiliar
uˆ = α 0 + α 1 x1 + α 2 x 2 + α 3 x3 + α 4 x 4 + v
esperamos que el R 2 de esta regresión auxiliar tienda a cero, al igual que

nR 2 (bajo la hipótesis nula). Así, solo si nR 2 sobrepasa el valor crítico de
una chi cuadrado con dos grados de libertad, rechazamos H 0 .
La intuición de porque nR 2 de la regresión auxiliar de este ejemplo tiende
a distribución chi cuadrado con 2 grados de libertad sigue porque, bajo la
hipótesis nula, los errores de la restringida y de la no restringida deben ser
similares y tener la misma varianza. Además, para efectos prácticos, la
regresión auxiliar solo contiene las variables x3 y x 4 , mientras los
coeficientes de las demás deben dar cero y solo se incluyen para que el
estadístico tenga buena forma dado que las excluidas en la regresión
restringida, x3 y x 4 , pueden estar correlacionadas con las incluidas. Así, en
esencia, la regresión auxiliar solo prueba la inclusión o exclusión de las
variables x3 y x 4 , y estos serán los grados de libertad de la chi cuadrado.
Para una demostración seria ver Engle (1982, p. 791). En general, para r
restricciones, y rescribiendo la definición de R 2 en términos de los residuos
v̂ de la regresión auxiliar
 ∑ vˆ NR2
 ∑ vˆ − ∑ vˆ
2 2
∑ vˆ 2
∑ vˆ 2
nR 2 = n 1 − = d
χ r2 (3.26)
R NR R NR
= − →
 
 ∑ vˆ R2  ∑ vˆ 2
R σˆ 2
v σˆ 2
v
Finalmente, comparando las tres pruebas, debemos decir que en muestras

finitas y para el modelo clásico lineal, los estadísticos W , LR , y LM tienen
el siguiente orden
W ≥ LR ≥ LM (3.27)
por tanto, usando la distribución χ r2 asintótica común a las tres pruebas, se

tiende a rechazar H 0 con mayor frecuencia usando la prueba W que usando
la prueba LM .
Criterios de Akaike, Schwarz, Hannan Quinn

Estos criterios son algo ad hoc pero populares como guía para escoger el
número de variables en un modelo. No tienen gran utilidad para evaluar un
solo modelo sino que se utilizan para comparar entre diferentes modelos
estimados.
El de Akaike (AIC) tiene la siguiente expresión
AIC = −2l + 2(k + 1) (3.28)
el de Schwarz (SC)
SC = −2l + (k + 1) ln n (3.29)
y el de Hannan Quinn
HQ = −2l + 2(k + 1) ln (ln n) (3.30)
donde l es la verosimilitud maximizada y k + 1 es el número agregado de

parámetros del modelo contando la constante, si la hay. Es de advertir que de
un texto o software a otro pueden encontrarse variaciones de las expresiones
anteriores. Por ejemplo algunos autores utilizan el logaritmo la suma de
errores al cuadrado ln εˆ' εˆ en lugar de − 2l en el primer término de cada
criterio, otros dividen toda la expresión por n ; por estas modificaciones no
es recomendable comparar criterios calculados en diferente software.
El primer término en estos criterios tiende a caer cuando se adicionan
variables y el segundo a aumentar. La idea es buscar un número de variables
que minimice estos criterios (incluso pueden ser negativos, en cuyo caso se
busca el más negativo). Obviamente, las variables adicionales deben
contribuir a explicar la variable dependiente ya que lo contrario aumenta
k + 1 sin que caiga − 2l .
Es conocido que el criterio AIC tiende a sobrestimar el número de
variables k + 1 . Para subsanar esto, el criterio SC impone una mayor
penalización que el AIC a medida que se incluyen más variables. El HQ es
intermedio entre AIC y SC. Esto se puede deducir notando que, por ejemplo,
el numerador del último término en cada criterio introduce penalidades
diferentes ya que, para tamaños n usuales de muestras, ln(7.5) = 2 ,
ln(10) = 2.3 , ln(100) = 4.3 , etc. Los criterios no siempre se mueven en la misma
dirección al adicionar variables de manera que, cuando esto suceda, el
investigador podrá ponderarlos según su criterio.
En el Cuadro 1.1 el cálculo de estos criterios (dividiendo por n = 59)

arroja 0.473629 para el AIC, 0.579266 para el SC y 0.514866 para el HQ.
Intuición de la Optimización Numérica
Intentaremos explicar de manera intuitiva, y no rigurosa, la forma como

funcionan los algoritmos de optimización que se utilizan para resolver
problemas de máxima verosimilitud. Es de anotar que también se utilizan
para muchos otros métodos de estimación, por ejemplo mínimos cuadrados
no lineales. Supongamos que se trata de encontrar el valor del parámetro β
que coincida con el máximo de una función cóncava (como una
verosimilitud). Es como tratar de llegar, paso a paso, o de manera iterativa, a
la cima de una colina como la mostrada en la Figura 3.3.
Figura 3.3
Llamemos esta colina l y βt el valor de β en el paso t ésimo. Suponga

que usted está en un punto inicial β0 , que está vendado y no puede ver, que
tiene un bastón y que debe llegar a la cima de la colina. ¿Cómo lo haría?
Usaría la punta del bastón para saber en qué dirección sube la colina. En
otras palabras, comparará la diferencia de nivel entre la punta del bastón y
sus pies. Si la punta del bastón está más alta que sus pies, usted dará un paso
en esa dirección. Una vez ubicado en la nueva posición, llámese ahora β1 , se

repite el experimento del bastón.
Siempre que la punta del bastón indique desnivel, usted deberá avanzar.
Cuando no haya desnivel, o el desnivel sea muy pequeño o indetectable,
habrá llegado a la cima. Si se pasa de la cima, el bastón estará más bajo que
sus pies y debe devolverse.
El punto importante es este: usar las diferencias de nivel a lo largo de la
colina para saber en qué dirección moverse, equivale a usar las primeras
derivadas con respecto a β de esa curva (la colina l ) para saber en qué
dirección moverse. Siempre que la primera derivada de la curva de la
función a maximizar sea positiva, podemos avanzar en la dirección β . Si es
negativa quiere decir que nos pasamos de la cima y debemos retroceder.
Cuando sea cero habremos llegado a la cima.
Entonces el algoritmo iterativo consiste en iniciar en algún punto βt
sobre la curva, evaluar la primera derivada en ese punto y si es positiva dar
un paso en la dirección + β , de lo contrario se da un paso en la dirección
− β . Una vez se llega a ese nuevo punto, llámese β t +1 , se repite el
procedimiento hasta cuando la primera derivada sea cero. En símbolos,
dl
β t +1 = β t + Λ (3.31)
dβ
dl
donde el símbolo Λ es el tamaño del paso. Obsérvese que si >0
dβ
dl
estaremos en la subida y entonces β t +1 > β t ; de igual forma cuando <0
dβ
dl
estaremos en la bajada y entonces β t +1 < β t . Al acercarnos a la cima será
dβ
cada vez menor de manera que la diferencia entre β t +1 y β t también será
menor.
dl
No siempre se puede obtener una expresión útil y manejable para .
dβ
Cuando sí sea posible, simplemente se evalúa la expresión de la derivada
reemplazando el valor de β en ese punto. De lo contrario, se debe utilizar
una aproximación numérica a la primera derivada. Por ejemplo, evaluada en
el punto β t , esto es, en l( β t ) , dicha aproximación numérica podría ser
dl( β t ) l( β t +∈)−l( β t −∈)

≈ (3.32)
dβ 2∈
donde ∈ es un número pequeño que se suma y resta al punto β t .

La expresión (3.32) es el principio general de los métodos de
optimización. Existen innumerables variaciones a partir de este principio,
todas con nombres diferentes. Un buen resumen se encuentra en Greene
(2012).
Obviamente, si se trata de un ejercicio de minimización (y no de
maximización como aquí) simplemente maximizamos − l . En este caso no
tenemos una colina sino un valle y queremos llegar al punto más bajo.
Una de las variantes más populares es el llamado método de Newton, del
cual intentaremos a continuación un acercamiento intuitivo siguiendo el
mismo ejemplo de la colina. Observando la Figura 3.3, vemos que cuando
más rápido cambia la primera derivada es al acercarse a la cima, que es,
precisamente, cuando más cortos deben ser los pasos (para no pasarnos y
poder llegar exactamente a β̂ ).
Pero cuando más rápido está cambiando la primera derivada es también
cuando más grande es la segunda derivada, de manera que si dividimos el
paso Λ de la ecuación (3.31) por la segunda derivada, este se hará muy
pequeño cerca de la cima y grande lejos de ella. La segunda derivada es
siempre negativa, como se ve en la Figura 3.3, razón por la cual será
necesario multiplicarla por un signo negativo para no cambiar la dirección
del paso indicada por el signo de la primera derivada. Haciendo Λ = 1 por
simplicidad, tenemos
 
 
β t +1 = β t −  2
1  dl 
 (3.33)
d l  dβ 
 2  
 dβ 
donde ambas derivadas se evalúan en el punto βt . De nuevo, si carecemos

de una expresión matemática para las derivadas entonces éstas deberán
evaluarse de manera aproximada.
Volviendo al ejemplo de la Figura 3.3, notamos que hemos estado
trabajando con una sola variable, β . ¿Y sí hubiera dos variables, digamos β 1
y β 2 ? Usando la imaginación vemos que en ese caso habría un eje para β 1 y
otro para β 2 y nos estaríamos enfrentando ya no a una curva sino a una
superficie con el objetivo de llegar a su cima. Al igual que en el caso de un

solo eje, las primeras derivadas nos dirán si debemos avanzar o retroceder.
∂l
Sí >0 daremos un paso en la dirección β 1 , en caso contrario
∂β 1
∂l
retrocederemos. Igualmente si > 0 daremos un paso en la dirección β 2 y
∂β 2
viceversa. De manera similar al caso de una sola variable, podemos usar las
segundas derivadas para disminuir el tamaño de los pasos cuando nos
acercamos a la cima o alargarlos lejos de ella.
Generalizando este razonamiento a k variables, la expresión (3.33) del
método de Newton quedaría
−1
 2   ∂l 
β t +1 = β t −  ∂ l    (3.34)
 ∂β ∂β '   ∂β 
∂l
donde los β son vectores de k elementos, es el vector de las primeras
∂β
∂ 2l
derivadas de l con respecto a cada una de las k variables (o ejes) y
∂β ∂β '
es la matriz de segundas derivadas de orden k × k , conocida también como
matriz Hessiana, y donde las derivadas se evalúan en el punto β t .
Muchas de las variaciones que existen en la optimización numérica
surgen con el objeto de mejorar la expresión anterior o para acomodar el
hecho de que no siempre la función a optimizar tiene un comportamiento
ideal como el de la Figura 3.3. Las superficies pueden tener, por ejemplo,
varias cimas y valles o tener segundas derivadas positivas (y no negativas
como aquí) lejos de la vecindad del máximo. En cualquier caso, las
diferentes versiones utilizadas para optimizar funciones de verosimilitud son
intuitivamente similares al método de Newton aquí explicado.
Para encontrar otro uso importante de la segunda derivada preguntamos
¿cuál de los dos β̂ estimados, el de la Figura 3.4a o el de la Figura 3.4b,
tendría mayor confiabilidad, significancia o precisión? La respuesta es el de
la Figura 3.4b porque se puede ver que un cambio alrededor de β̂ tendría
mucho más impacto sobre el nivel de l que en la Figura 3.4a. En
consecuencia, el parámetro de la Figura 3.4b se puede estimar con mayor
precisión; esto es, con menor varianza.
Figura 3.4a Figura 3.4b
¿Cuál de las dos l , el de la Figura 3.4a o el de la Figura 3.4b, tiene

mayor segunda derivada (en valor absoluto) cerca de la cima? La respuesta
es el de la Figura 3.4b porque es más puntiaguda, esto es, la primera
derivada cambia más rápido en la cima. En consecuencia, intuimos que el
inverso de la segunda derivada puede servir para aproximar la varianza de
β̂ ; obviamente en valor absoluto o con signo negativo para que den
positivas las varianzas; a mayor segunda derivada, menor varianza. [Nótese,
en cambio, que la varianza de la primera derivada es proporcional a la
segunda derivada (y no a su inverso), lo que explica la varianza al armar la
chi cuadrado de la prueba LM en (3.24)].
Un importante resultado de la estimación por máxima verosimilitud, que
mencionamos antes, dice que, asintóticamente, el vector estimado β̂ se
distribuye normalmente con media β y varianza igual al inverso del valor
esperado de la segunda derivada de la función de verosimilitud (con signo
negativo para que la varianza dé positiva)
  ∂ 2l  
−1
ˆ
β 
→ N β , − E
d
(3.35)
  ∂β ∂β '  
 
 ∂ 2l 
donde − E es la matriz de información. La matriz de varianza
 ∂β ∂β ' 
covarianza del vector β̂ se evalúa en β̂ . Si no se dispone de una expresión
matemática para estas segundas derivadas, será necesario aproximarlas
numéricamente. Existen varias alternativas en la literatura para remplazar el

valor esperado desconocido de la matriz de segundas derivadas. Estas
varianzas o desviaciones estándar pueden utilizarse para realizar pruebas de
hipótesis sobre los coeficientes β̂ .
Un problema en algunos ejercicios de optimización numérica tiene que
ver con los valores iniciales de los parámetros a estimar, esto es, con el
punto de arranque del proceso iterativo. Este es un problema cuando la
función a optimizar l no tiene un comportamiento ideal, especialmente
cuando no tiene un óptimo global sino varios valles y picos en su geografía.
Dependiendo de los valores iniciales, podemos llegar a uno u otro óptimo o
quedarnos pegados a la frontera.
Capítulo 4
ESPECIFICACIÓN, NO LINEALIDAD Y
MULTICOLINEALIDAD
El modelo clásico lineal ha sido descrito hasta ahora por el supuesto 1, el

cual dice
y = β 0 + β1 x1 + β 2 x 2 + L + β k x k + ε
donde linealidad se refiere a la forma en que los coeficientes y el error ε

entran en la ecuación, aunque las variables explicativas sean
transformaciones no lineales. Por ejemplo, los siguientes modelos son
lineales y podrían ser estimados por MCO sin problema
y = α + β Cos ( x) + ε
1
y =α +β +ε
x
(4.1)
y = α + β log( x) + ε
y = α + β x2 + ε
en los anteriores simplemente se corre y contra la variable explicativa

1
construida a partir de x , ya sea Cos(x) , , log(x) , x 2 , o cualquier otra como
x
Sen (x) , x 3 , etc. Es de notar que estas transformaciones tienen que existir, por
ejemplo, log( x) no existe si algún x es cero o negativo.
Algunas formas funcionales no son lineales pero pueden linealizarse y
estimarse por MCO, por ejemplo, la forma
y = α x β eε (4.2)
donde, en general, x y y podrían ser negativos; sin embargo, si y > 0 y

x > 0 , entonces se pueden tomar logaritmos transformando el modelo en
ln y = ln α + β ln x + ε (4.3)
en el cual correríamos ln y contra una constante y ln x .

Por el contrario, un modelo como
y = α xβ + ε (4.4)
no es linealizable; por ejemplo, tomar logaritmos no ayuda. Si bien no aplica

la fórmula β̂ = ( X ′X ) −1 X ′y , es posible estimarlo utilizando una variante del
principio de mínimos cuadrados llamada mínimos cuadrados no lineales,
para la cual, en este ejemplo escribiríamos
min ∑ ( y − α x β ) 2 (4.5)
{α , β }
En general, para una función no lineal f ( x, β ) ,
min ∑ ( y − f ( x, β )) 2 (4.6)
{β }
Volveremos sobre este tema más adelante.

Otros ejemplos de formas no lineales y no linealizables son
β 0 + β1 x1
y= +ε
1 + β 2 x2
y = β 0 + β1e − β 2 x + ε
(4.7)
y = β1Sen ( β 2 x1 + β 3 ) + β 4Cos ( β 5 x2 + β 6 ) + ε
1
y =α + +ε
β+x
Es importante notar que cuando se trabaja con formas no lineales, el número

de variables puede diferir del número de coeficientes a estimar, cosa que no
sucede en el modelo clásico lineal donde hay k + 1 variables (incluyendo la

constante) y hay k + 1 coeficientes a estimar.
Elasticidades y Cambios en Variables
La forma ln y = α + β ln x + ε se conoce como log-log y su popularidad

radica en que al estimar la regresión, el coeficiente β resulta igual a la
elasticidad de y con respecto a x . Para ver esto, derivamos con respecto a x
1 dy 1
=β (4.8)
y dx x
de donde, reorganizando, tenemos la elasticidad
dy
x dy y
= =β (4.9)
y dx dx
x
Recordamos que la elasticidad se define como el cambio porcentual en y

asociado a un cambio porcentual en x (realmente el numerador y el
denominador estarían multiplicados por 100 para que dé cambio porcentual
pero se cancelan y no se ven).
Es importante subrayar que elasticidad no lleva implícita una connotación
de causalidad sino de asociación. Así, elasticidad no se define como un
cambio porcentual en y causado por un cambio porcentual en x sino
asociado a un cambio porcentual en x . Puede haber causalidad o no, pero
establecer causalidad requiere la identificación de un mecanismo específico
por medio del cual un movimiento en x desencadena un movimiento en y
[este tema se verá en otro capítulo].
Notamos que en la forma log-log la elasticidad no varía con x , es
constante e igual a β . En otras formas funcionales esto puede no ser cierto.
Por ejemplo, derivando el modelo lineal
y =α + β x+ε
dy
obtenemos = β y, para acomodar la definición de elasticidad, hacemos
dx
dy
x dy y βx
= = (4.10)
y dx dx α + β x + ε
x
expresión en la cual la elasticidad varía a lo largo del eje x .

Cuando tenemos la forma log-lineal
ln y = α + β x + ε (4.11)
la derivada será
d ln y 1 dy
= =β (4.12)
dx y dx
y en este caso β (100) se conoce como semielasticidad y representa el

cambio porcentual en y asociado al cambio de una unidad en x .
Una alternativa para encontrar el cambio en una variable asociado al
cambio en otra, es agregar una unidad a la variable y observar el cambio en
la otra. Por ejemplo, si tenemos el modelo y = α + β x + ε , escribimos
y = α + β ( x + 1) + ε = α + β + β x + ε (4.13)
restando las dos expresiones obtenemos
α + β + β x + ε − (α + β x + ε ) = β
de manera que β es el cambio en y asociado a un aumento de una unidad en

x.
En el caso de las variables dummy, que solo toman valores uno o cero, se
observa la diferencia en y cuando la dummy vale uno y cuando vale cero.
Por ejemplo, si en ln y = α + β x + ε queremos encontrar el cambio porcentual
en y cuando la variable dummy x pasa de cero a uno, hacemos
ln y x =1 =α + β +ε
ln y x =0 =α +ε
y restando
y x =1
ln y x =1 − ln y x =0 = ln =β
y x =0
de donde
y x =1
= eβ
y x =0
resultando en el cambio porcentual en y ,
y 

y
x =1
(
− 1100 = e β − 1 100 )
 x =0 
En la discusión anterior es importante advertir que si hay otras variables

explicativas en el modelo también será necesario involucrarlas en las
derivadas. Por ejemplo, si el modelo es
y =α + β x +γ z +ε
el efecto de x sobre y sería
dy dz
= β +γ
dx dx
Ejemplo
Sea el modelo ln y = 2 + 0.04 ln x 2 + ε . ¿Un aumento de 1% en x se asocia con

un aumento en y aproximadamente de qué porcentaje? Derivando con
respecto a x
1 dy 1
= 0.08
y dx x
La elasticidad será
x dy
= 0.08
y dx
de manera que un aumento de 1% en x se asocia a un aumento en y

aproximadamente de 0.08 por ciento. Aproximadamente porque el cambio
en x de 1% no es exactamente un infinitesimal dx .
Si modificamos un poco el modelo escribiendo ln y = 2 + 0.04 x + ε , y
preguntamos ¿un aumento de x en una unidad se asocia con un aumento en
y aproximadamente de qué porcentaje? La respuesta se encuentra
derivando,
1 dy
= 0.04
y dx
de donde escribimos
dy
= 0.04dx
y
siendo dx = 1 podemos decir que el cambio porcentual en y será

dy
100 = 4 por ciento (aproximadamente porque dx = 1 no es un cambio
y
infinitesimal).
Algunas modificaciones en variables (dependientes o independientes),

como puede ser sumarles una cantidad o cambiar las unidades de medición,
altera un poco la especificación del modelo, al menos su aspecto visual. Sin
embargo, la igualdad de la ecuación del modelo debe mantenerse. El efecto
práctico será poco si la variable explicativa, por ejemplo la distancia, se
mide en metros o kilómetros, o si trata del peso, en gramos o kilos; el
coeficiente de la variable se ajustará apropiadamente para mantener la
igualdad.
Ejemplo
Considere el modelo estimado y = 2 + 0.04 x donde y está en kilómetros y x

en horas. Si ahora medimos y en metros y x en minutos, ¿cómo queda el
modelo estimado con las nuevas variables? Cambiar de kilómetros a metros
multiplica la variable dependiente por 1000 y para mantener la igualdad
también hay que multiplicar el lado derecho por 1000
1000 y = 2000 + 40 x
Dicho sea de paso, el error ε también se multiplica por 1000 pero, igual, no
lo vemos. Cambiar de horas a minutos multiplica la variable x por 60 y para
mantener la igualdad dividimos el coeficiente por 60, así
40 2
(1000 y ) = 2000 + (60 x) = 2000 + (60 x)
60 3
donde las nuevas variables con las cuales se corre la regresión están en
paréntesis; esto es, se corre 1000 y contra una constante y 60 x , y los nuevos
coeficientes serán 2000 y 2 / 3 .
Ejemplo
Si en el modelo y = α + β x + ε sumamos 3 a y y restamos 2 a x , la

estimación con las nuevas variables (mostradas en paréntesis) queda
( y + 3) = α + 3 + 2 β + β ( x − 2) + ε
donde la nueva constante será α + 3 + 2 β y las variables con las cuales se

corre la regresión serán ( y + 3) y ( x − 2) . Nótese que, como se sumó 3 al lado
izquierdo, fue necesario sumar 3 al lado derecho para mantener la igualdad.
El término 2β compensa el efecto de restar 2 a la variable x (lo que
multiplicado por β equivale a restar 2β al lado derecho).
Ejemplo
Supongamos el modelo y = α + β ln x + ε donde multiplicamos x por 5. Con

la nueva variable, el modelo queda y = α + β ln(5 x) − β ln 5 + ε , y la nueva
constante será α − β ln 5 .
Coeficientes Estandarizados
Se argumenta, no sin controversia, que estandarizar coeficientes los hace

más comparables y facilita mostrar cuál variable explicativa tiene mayor
efecto sobre la dependiente. Se trata de una simple transformación de
manera que el coeficiente estandarizado representa el efecto que tiene un
cambio de una desviación estándar en x sobre el valor esperado de y en

desviaciones estándar.
Una forma de obtener estos coeficientes estandarizados es estandarizando
todas las variables (dependiente y explicativas) antes de correr la regresión.
Para ello se toma cada variable, se resta su media y se divide por su
desviación estándar. Luego, al correr la regresión no se necesita la constante
ya que todas las variables transformadas tienen media cero.
Otra forma de obtener estos coeficientes es correr MCO sobre la
regresión original y luego transformar los coeficientes utilizando las
desviaciones estándar de las variables x y y . En el fondo se trata de un
cambio en unidades de variables. Supongamos el modelo
y = β x+ε
Si dividimos x y y por sus respectivas desviaciones estándar tenemos las

nuevas variables (mostradas en paréntesis)
 y   
  = β DS x  x  + ε
 DS
 y

 DS y  DS x 
de manera que el coeficiente estandarizado, transformado a partir del

original estimado por MCO, es
DS x
βêstandarizado = βˆ MCO (4.14)
DS y
Prueba RESET
La palabra RESET representa Regression Equation Specification Error

Test. Esta prueba, debida a Ramsey (1969), sirve para detectar no
linealidades en los modelos pero no especifica el tipo de no linealidad. Hay
que tener en cuenta que si se encuentra no linealidad en un modelo puede
deberse a otras razones (como variables omitidas) en lugar de no linealidad.
La hipótesis nula es que el modelo lineal es correcto. Para ilustrar,
supongamos que corremos un modelo sencillo de una sola variable
y i = β xi + ε i y guardamos y i estimado, esto es, yˆ i = β̂ xi . A continuación
corremos la regresión auxiliar
yi = β xi + θ yˆ i2 + ε i (4.15)
La hipótesis nula, θ = 0 , se puede evaluar con una prueba t . En este caso la

variable independiente yˆ i = β̂ xi es estocástica (no puede tomarse como
dada) porque β̂ contiene a ε . Por esta razón, la prueba t es asintótica, lo
que realmente la convierte en prueba z . Generalizando y agregando más
términos a la regresión auxiliar,
p
yi = β 0 + β1 x1i + L + β k xki + ∑θ j yîj +1 + ε i (4.16)
j =1
donde se aplica una prueba Fp , n − ( k +1) − p a la hipótesis nula θ1 = θ 2 = L = θ p = 0 .

También se puede usar la Razón de Verosimilitud. Usualmente basta con
agregar yˆ i2 , o yˆ i2 y yˆ i3 , ya que demasiados términos puede producir una
matriz de variables explicativas singular (no invertible) imposibilitando el
cálculo del estimador β̂ .
Se utilizan exponentes de ŷ i ya que si hay no linealidades en el modelo
estás se recogen elevando ŷ i al cuadrado, al cubo, etc.; tendremos no solo
variables y coeficientes elevados a varias potencias sino además los
productos cruzados de estas variables y coeficientes. Por ejemplo,
supongamos que el verdadero modelo es y = α x1θ x 2λ + ε pero corremos
y = α + θ x1 + λ x 2 + ε . La expansión de Taylor del modelo verdadero produce
potencias y productos cruzados de las variables explicativas y los
coeficientes. O supongamos que corremos el modelo y = β 0 + β1 x1 + β 2 x 2 + ε
pero sospechamos la presencia de no linealidades; en lugar de agregar x12 ,
x 22 , x1 x 2 , como variables explicativas al modelo, simplemente agregamos ŷ 2 .
Existen otros indicadores y técnicas que pueden ser útiles para evaluar la
estabilidad de una especificación. Por ejemplo, los coeficientes recursivos,
muestran la evolución (usualmente gráfica) de un coeficiente estimado a
medida que se aumenta el tamaño de la muestra. Iniciando con una
submuestra pequeña ( k + 1 es el límite inferior) se estima la regresión
adicionando sucesivamente una observación a la muestra hasta completarla.
Si la estimación del coeficiente no se estabiliza al incrementar n puede ser
un indicio de mala especificación o de cambios estructurales. También
existen los residuos recursivos, que básicamente son predicciones sucesivas
del siguiente residuo que se construyen con el coeficiente recursivo anterior.
Un cambio en los coeficientes puede probarse ya que este tiende a inducir
correlación en los residuos recursivos mientras tratan de ajustarse a dicho

cambio.
Mínimos Cuadrados No Lineales
Supongamos el modelo
y = f (X ,β ) + ε (4.17)
n×1 n×1 n×1
donde resaltamos que el argumento de la función f no es ( Xβ ) sino ( X , β ) .

El vector β es de orden k (usamos k para facilitar la notación, si hay
constante, está incluida en k ). Como se discutió antes, para el caso de los
modelos no lineales X no necesariamente tiene el mismo orden k del vector
β . Por ejemplo, en y = α x γ + ε hay dos coeficientes a estimar y una sola
variable explicativa. En mínimos cuadrados no lineales, MCNL, puede
haber múltiples soluciones y no hay garantía de que los residuos tengan
media cero.
Aplica el mismo principio de mínimos cuadrados, cual es minimizar la
suma de los errores al cuadrado para estimar el vector β , que ahora podrá
denotarse β̂ MCNL . Despejando ε formamos la función objetivo con la suma de
errores al cuadrado así
′
min ( y − f ( X , β ) ) ( y − f ( X , β ) )
β
min ( y′y − y′f − f ′ y + f ′ f ) = min ( y′y − 2 f ′ y + f ′ f )

β β
donde, de manera similar a la derivación del estimador del modelo lineal,

reconocemos que todos los términos son escalares y vemos que los dos
centrales se suman por ser idénticos, esto es, f ′ y = y ′f , en razón de que el
transpuesto de un escalar es igual a sí mismo.
Derivando con respecto a β̂ e igualando a cero tenemos las k ecuaciones
necesarias para resolver las k incógnitas
′ ′ ′
 ∂f   ∂f   ∂f 
− 2   y + 2   f =   ( y − f ) = 0 (4.18)
 ∂βˆ   ∂βˆ   ∂βˆ  n×1 k ×1
k ×n
Resolviendo el anterior sistema de ecuaciones se obtiene β̂ MCNL . Puede

mostrarse que, asintóticamente,
  ′ 
−1

ˆ    ∂f   ∂f  
→ N  β , σˆ ε2  
β MCNL d
     (4.19)
   ∂β   ∂β  
   
′
 ∂f 
donde la varianza es una matriz k × k en razón de que   es k × n .
 ∂β̂ 
∂f
En el caso del modelo lineal f = Xβ y = X , de manera que remplazando
∂β
en (4.18) obtendríamos el mismo resultado que obtuvimos para el modelo
lineal
′ ′
 ∂f   ∂f 
    ′ ˆ (4.20)
 ∂βˆ  y −  ∂βˆ  f = X y − X X β = 0
′
   
expresión de la cual obtenemos β̂ = ( X ′X ) −1 X ′y así como la condición

X ′( y − Xβˆ ) = X ′εˆ = 0 que coinciden con las obtenidas al derivar el estimador
MCO para el modelo lineal. Nótese que en la expresión anterior no es
′
 ∂f 
posible cancelar los términos   que están al lado izquierdo porque no

 ∂β̂ 
son matrices cuadradas y por tanto carecen de inverso.
Transformación Box-Cox
Esta es una transformación de variables que depende de la muestra y

sirve para decidir si una variable se ajusta mejor en logaritmos o elevada a
alguna potencia. Para ilustrar utilizando una variable se correría el modelo
 xλ − 1 
y = α 0 + α1   + ε (4.21)
 λ 
para x > 0 y cualquier λ ≠ 0 . Por ejemplo, ayudaría a decidir entre las dos
especificaciones siguientes,
y = α 0 − α1 + α1 x + ε si λ → 1
y = α 0 + α1 ln x + ε si λ → 0
La variable ln x incluida en la segunda especificación sale de aplicar la regla

xλ − 1
de L´Hôpital, diferenciando el término arriba y abajo con respecto a λ
λ
antes de tomar el límite para λ → 0 , esto es,
d λ
( x − 1)
dλ d λ
plim = plim x = plim x λ ln x = ln x
λ →0 d λ → 0 dλ λ →0
λ
dλ
xλ − 1
La transformación no funciona si en el término no se resta -1 ya que
λ
xλ 1
en este caso plim = de manera que no podemos aplicar L´Hôpital,
λ →0 λ 0
procedimiento que es válido solo si los límites del numerador y el
denominador son ambos cero o ∞ . Agregar − 1 habilita la aplicación de
xλ − 1 0
L´Hôpital ya que plim = .
λ →0 λ 0
Se pueden usar la transformación Box-Cox en varias variables en un
modelo, incluyendo la dependiente. También se puede utilizar sobre una
variable individual con el objeto que, al transformarla, su distribución se
acerque más a la normal.
El modelo con la transformación Box-Cox puede estimarse por MCO
para una grilla de λ ’s dados (digamos de − 2 a + 2 , en pequeños
incrementos), escogiendo el mejor resultado. Pero si tratamos el parámetro
λ como una incógnita adicional entonces tenemos una especificación con no
linealidad en los coeficientes y la estimación podría hacerse por MCNL o
MV.
Multicolinealidad
Multicolinealidad se refiere a la violación del supuesto 2, el cual

básicamente dice que las variables explicativas (la constante incluida) deben
ser linealmente independientes entre sí. A su turno, linealmente
independientes quiere decir que no es posible despejar una de las variables
como una función lineal de un subconjunto de las demás. Específicamente,

el supuesto 2 dice que ( X ′X ) −1 existe; esto es, que la matriz X ′X tiene
inverso. Lo anterior no ocurre si el determinante de X ′X es cero, lo que
sucedería cuando una de las columnas de X puede escribirse como una
ecuación lineal de las demás columnas de X .
Ahora bien, hay grados de multicolinealidad. De hecho la
multicolinealidad no es un problema en la mayoría de las regresiones. Todo
depende de qué tan fuerte sea la relación lineal; solo es un problema cuando
es muy alta. Si la relación lineal entre variables explicativas es perfecta,
MCO no corre y no podemos calcular β̂ = ( X ′X ) −1 X ′y simplemente porque
( X ′X ) −1 no existe; el determinante de X ′X es cero y como entra dividiendo al
formar la matriz inversa entonces la inversa será indeterminada. Pero si la
relación lineal entre variables explicativas es solo aproximada (no perfecta)
entonces podemos calcular β̂ = ( X ′X ) −1 X ′y porque ( X ′X ) −1 sí existe.
Cuando la relación lineal entre variables aumenta, las varianzas de β̂
tienden a crecer. Si el determinante de X ′X es cercano a cero (pero no es
cero), al entrar dividiendo cuando se forma la inversa ( X ′X ) −1 , llevará a que
la matriz de varianza covarianza de los coeficientes estimados σ ε2 ( X ′X ) −1 sea
grande.
En otras palabras, si hay multicolinealidad perfecta, como se ilustra en la
Figura 4.1, MCO ni siquiera corre (y será obvio que hay un problema). En la
Figura 4.1 las variables x1 y x2 se representan como vectores sobre la misma
línea (perfectamente colineales); hay infinitas combinaciones lineales de
ellos que servirían para explicar y y no hay forma de que la fórmula de β̂
escoja una.
ŷ
Figura 4.1
x1 x2
Si la correlación entre las variables explicativas es alta pero no perfecta,

se vería en la Figura 4.1 como dos vectores x1 y x2 casi (pero no
exactamente) sobre la misma línea, con un ángulo muy pequeño entre ellos.
En este caso MCO sí corre pero en general los estimadores β̂ tendrán

varianzas grandes, lo que los hace poco precisos y sensibles a pequeños
cambios en los datos. Se tiene un efecto similar cuando las variables
explicativas varían poco o la muestra es pequeña.
La mayoría de las variables que se usan en econometría están
correlacionadas en alguna medida y MCO no tiene problema en manejarlas.
La multicolinealidad no invalida la propiedad de Gauss Markov para β̂ ; esto
es, β̂ sigue siendo insesgado y eficiente (aunque tenga varianza grande).
Ejemplo
Considere el modelo y = β 0 + β1 ln x + β 2 ln ( x 2 ) + ε . Este modelo no corre por

MCO porque es equivalente a y = β 0 + β1 ln x + β 2 2 ln x + ε donde es evidente
la relación lineal exacta entre las variables ln x y 2 ln x . En otras palabras,
hay una relación lineal exacta en la cual la tercera columna de la matriz X
es igual a dos veces la segunda columna. En contraste, el modelo
y = β 0 + β 1 x + β 2 x 2 + ε sí corre porque no hay una relación lineal entre x y x 2
(la relación es cuadrática). Por la misma razón también correría
y = β 0 + β 1 x + β 2 ln x + ε , porque no hay relación lineal entre x y ln x .
Ejemplo
Considere el modelo de la Figura 4.2 el cual, para las flechas sólidas,

corresponde a la ecuación que deseamos estimar y = β 0 + β1 x1 + β 2 x 2 + ε y a
la ecuación adicional x 2 = 2 x1 + 1 . La ecuación a estimar no corre por MCO
porque x 2 es una combinación lineal exacta de las variables explicativas.
Tampoco correría si x 2 = 2x1 o, en general, si x 2 = c1 x1 + c 2 para constantes c1
y c 2 . Sin embargo, al adicionar el efecto de la flecha punteada, tenemos
x 2 = 2 x1 + 1 + z , y la regresión sí corre porque la variable z no está en el
modelo original como variable explicativa de y , de manera que x 2 deja de
ser una combinación lineal exacta de las variables explicativas.
β0
1
y
β1
x1
2
z β2
x2
ε Figura 4.2
Detección
Vimos que cuando la multicolinealidad es perfecta la regresión

simplemente no corre, por ejemplo, cuando la misma variable entra dos
veces en el modelo, una vez en metros y otra en kilómetros. Cuando la
multicolinealidad es alta pero no perfecta las varianzas se amplifican y la
estimación suele caracterizarse por tener estadísticos t bajos aunque el R 2
sea significativo. Por esta razón, la multicolinealidad preocupa más cuando
se trata de establecer el efecto preciso de alguna variable explicativa (el
valor preciso del coeficiente) sobre la variable dependiente y , que cuando la
regresión se usa para predecir el valor de y dado un conjunto de valores de
las variables explicativas.
Una forma de detectar la multicolinealidad es correr regresiones
auxiliares de cada variable explicativa i ésima, incluyendo una regresión
para la constante, contra las demás variables explicativas. Como regla
general, si alguno de los Ri2 de estas regresiones auxiliares es mayor que 0.9
se considera indicativo de que la multicolinealidad es muy elevada y puede
causar problemas. Un estadístico equivalente se conoce como Factor de
1
Inflación de Varianza, cuya expresión es 2
, formado con los Ri2 de las
1 − Ri
regresiones auxiliares anteriores; su valor mínimo es 1 cuando la variable
i ésima es linealmente independiente de todas las demás explicativas y
mayor que 1 cuando hay relación lineal. Sin embargo, en general la
multicolinealidad se considera preocupante para valores mayores que 10, lo
que corresponde a valores de Ri2 > 0.9 .
Soluciones
Una solución es no hacer nada, justificándose en que la covarianza entre

variables es más la regla que la excepción. Esto sería lo indicado si la
especificación del modelo cuenta con respaldo teórico. Obviamente es
importante revisar la especificación teórica. Eliminar una de las variables
multicolineales es una sugerencia frecuente pero además de contradecir la
teoría puede inducir sesgo en los coeficientes estimados (por el problema de
omisión de variable relevante que se verá más adelante).
Si hay muchas variables colineales se puede reducir su número utilizando
una técnica conocida como componentes principales. En esta técnica se
transforma la matriz X en otra del mismo orden donde cada nueva columna
es una combinación lineal de las variables originales pero linealmente
independientes entre sí. La primera combinación representará la máxima
variabilidad posible de las variables X , y cada combinación siguiente
representará menos variabilidad. Así será posible correr la regresión original
con menos variables. El problema es la interpretación que pueda asignarse a
las nuevas variables ya que son combinaciones lineales de las originales.
En ocasiones se sugiere utilizar la regresión Ridge, que consiste en
aumentar las varianzas de las variables explicativas para reversar el efecto de
un aumento en sus covarianzas. En otras palabras, se le suma una cantidad
constante c > 0 a la diagonal de la matriz X ′X ,
β̂ RIDGE = ( X ′X + cI ) −1 X ′y (4.22)
donde la matriz unitaria es de orden k + 1 × k + 1 . El parámetro c se fija de

manera más o menos arbitraria lo que hace difícil interpretar los
estimadores. El estimador β̂ RIDGE es sesgado ya que su valor esperado
condicional
EβˆRIDGE = E ( X ′X + cI ) −1 X ′y = ( X ′X + cI ) −1 X ′Xβ + E ( X ′X + cI ) −1 X ′ε
(4.23)
−1
= ( X ′X + cI ) X ′Xβ ≠ β
Por otro lado, notando que βˆ RIDGE = ( X ′X + cI ) −1 X ′Xβ + ( X ′X + cI ) −1 X ′ε , de

manera que βˆ RIDGE − Eβˆ RIDGE = ( X ′X + cI ) −1 X ′ε , puede mostrarse que β̂ RIDGE
tiene varianza menor que la del estimador de MCO, β̂ MCO ,
′
( )(
Var ( βˆRIDGE ) = E βˆRIDGE − EβˆRIDGE βˆRIDGE − EβˆRIDGE)
(
= E ( X ′X + cI ) −1 X ′ε ε ′X ( X ′X + cI ) −1 ) (4.24)
= σ ε2 ( X ′X + cI ) −1 X ′X ( X ′X + cI ) −1
En resumen, β̂ RIDGE es sesgado pero con menor varianza de manera que

podría superar al estimador de MCO bajo el criterio de Mínimo Error
Cuadrado Medio, esto es, si E ( βˆ RIDGE − β ) 2 < E ( βˆ MCO − β ) 2 .
Capítulo 5
HETEROSCEDASTICIDAD Y
AUTOCORRELACIÓN
En este capítulo exploramos lo que ocurre cuando se viola el supuesto 4,

Eεε ′ X =σ ε2 I , bajo el cual se obtuvo la expresión de la matriz de varianza
covarianza del estimador β̂ de MCO, Var ( βˆ ) = σ ε2 ( X ′X ) −1 . El incumplimiento
puede ilustrarse escribiendo la matriz de varianza covarianza del error como
V11 V12 L V1n  φ11 φ12 L φ1n 

V V 
L V2 n  φ φ22 L φ2 n 
Eεε ′ X = V =  12 22 2 2  12
= σεφ = σε ≠ σ ε2 I (5.1)
 M M O M  M M O M 
   
V1n V2 n L Vnn  φ1n φ2 n L φnn 
donde V y φ son matrices simétricas positivas definidas. Ambas formas de

escribir las matrices de varianza covarianza, V y σ ε2φ , son posibles; de
hecho siempre podemos factorizar σ ε2 de V , y ambas incluyen la matriz de
varianza covarianza del supuesto 4 como caso especial. El supuesto 4 se
puede violar porque los elementos de la diagonal, las varianzas, son
diferentes entre sí (heteroscedasticidad) o porque los elementos por fuera
de la diagonal, las covarianzas, son diferentes de cero (autocorrelación).
En muchos textos la violación del supuesto 4 se conoce como no
esfericidad de los errores. Esta terminología, un poco arcana, se deriva de la
distribución de probabilidad conjunta de los errores. La clave está en notar
que, bajo el supuesto 4, las distribuciones de probabilidad conjuntas son
simétricas alrededor de su media cero. Supongamos dos errores, ε i y ε j , con
distribución conjunta f (ε i , ε j ) . Para cada nivel de f (ε i , ε j ) los cortes
proyectados sobre el plano ε i y ε j serán círculos. Si adicionamos un tercer
error, para cada nivel de f (ε i , ε j , ε s ) los contornos se volverán esferas en el
volumen generado por los ejes ε i , ε j y ε s . Cuando no se cumple el supuesto
4, las distribuciones pierden su simetría y los círculos y esferas se tornan
elipses y elipsoides.
Con la violación del supuesto 4, la ecuación de la matriz de varianza

covarianza del estimador de MCO, desarrollada en el capítulo 1, quedaría
Var ( βˆ ) = ( X ′X ) −1 X ′ E (εε ′ X )X ( X ′X ) −1 = ( X ′X ) −1 X ′V X ( X ′X ) −1
k +1×k +1
(5.2)
= σ ε2 ( X ′X ) −1 X ′φ X ( X ′X ) −1 ≠ σ ε2 ( X ′X ) −1
Cuando se viola el supuesto 4, el estimador β̂ de MCO sigue siendo

insesgado y consistente pero es ineficiente porque ignora la información
disponible en la matriz Eεε ′ . La fórmula σ ε2 ( X ′X ) −1 es sesgada e
inconsistente. La verdadera matriz de varianza covarianza es
( X ′X ) −1 X ′V X ( X ′X ) −1 o, su equivalente, σ ε2 ( X ′X ) −1 X ′ φ X ( X ′X ) −1 . El estimador
σˆ ε2 =
∑ εˆ i
2
es sesgado porque fue derivado bajo el supuesto 4, esto es,

n − (k + 1)
bajo homoscedasticidad ( Eεî2 = σ ε2 ) y no autocorrelación ( Eε i ε s = 0 ). El
punto importante es que las pruebas de hipótesis sobre el vector β̂ no son
confiables cuando se viola el supuesto 4.
Mínimos Cuadrados Generalizados
El estimador de mínimos cuadrados generalizados, MCG (en inglés

generalized least squares GLS), asume que la matriz de varianza covarianza
de los errores no tiene la forma enunciada en el supuesto 4. Para usar este
estimador es necesario suponer que se conoce la matriz φ o la matriz V . Si
no se conocen pero es posible estimarlas, que es el caso usual, se denomina
mínimos cuadrados generalizados factibles o estimados (en inglés FGLS).
Mínimos cuadrados ponderados es un caso especial de MCG.
Partimos suponiendo que tenemos φ y que, siendo φ una matriz positiva
definida, puede escribirse
φ −1 = P′P (5.3)
donde P es una matriz n × n no singular. Continuando,
φ = (P ′P )−1 = P −1 P ′ −1
de donde
Pφ P′ = I (5.4)
Con la matriz P podemos formar el vector Pε de orden n × 1 , cuyos

elementos serán combinaciones lineales de los elementos del vector ε ,
expresión que tendrá un valor esperado igual a cero, esto es,
EPε X = PEε X = 0 (5.5)
y varianza
Var ( Pε X ) = PVar (ε X ) P′ = σ ε2 Pφ P′ = σ ε2 I (5.6)
por lo tanto, si el error de nuestro modelo fuera Pε , cumpliría con el

supuesto 4. De manera que si transformamos el modelo lineal clásico
y = Xβ + ε para que el error sea Pε habremos solucionado el problema. Para
esto, basta con multiplicar el modelo lineal por P , así
Py = PXβ + Pε (5.7)
Ahora corremos por MCO el modelo y ∗ = Py contra X ∗ = PX y ε ∗ = Pε ,
y∗ = X ∗β + ε ∗ (5.8)
n ×1
modelo que cumple los supuestos de Gauss Markov. El estimador de

mínimos cuadrados generalizados β̂ MCG , es
βˆMCG = ( X ∗ ' X ∗ ) −1 X ∗ ' y ∗ = ( X ′φ −1 X ) −1 X ′φ −1 y (5.9)
el cual es insesgado porque de (5.5), condicional a X ,
Eβˆ MCG = E ( X ∗ ' X ∗ ) −1 X ∗ ' y ∗

(5.10)
[
= E ( X ' X ) X ' X β + ( X ' X ) X 'ε
∗ ∗ −1 ∗ ∗ ∗ ∗ −1 ∗ ∗
]= β
Su matriz de varianza covarianza, condicional a X , será
Var ( βˆMCG ) = σ ε2 (X ∗ ' X ∗ ) = σ ε2 (X 'φ −1 X )

−1 −1
(5.11)
donde σˆ ε2 será el estimador de la varianza de σ ε2
′ ′
2
σˆ ε =
(y ∗
)( ) (
− X ∗ βˆMCG y ∗ − X ∗βˆMCG
=
) (
y − XβˆMCG φ −1 y − XβˆMCG ) (5.12)
n − (k + 1) n − (k + 1)
Propiedades de Mínimos Cuadrados Generalizados
El estimador de MCG cumple con Gauss Markov, de manera que, entre

los lineales insesgados, no existe otro estimador con menor varianza.
Bajo el supuesto 5 de normalidad
βˆMCG ~ N (β , σ ε2 ( X ′φ −1 X ) −1 ) (5.13)
para cualquier tamaño de muestra.

Sin el supuesto 5, y de manera similar a MCO, tendremos normalidad
asintótica
  X ′φ −1 X 
−1

ˆ (
n β MCG − β d 

) 2
→ N 0, σ ε lim  

(5.14)
  n  
Si se corre MCG con la matriz φ o V equivocadas, la estimación puede

perder la propiedad de consistencia. Es imposible estimar φ o V ya que
tienen n(n + 1) / 2 elementos diferentes lo cual es más que las observaciones
disponibles n . Para mínimos cuadrados generalizados factibles (FGLS)
primero se estima εˆ , digamos por MCO o algún otro método consistente, y
luego se apela a supuestos acerca de la forma de las varianzas y covarianzas
para construir φ o V .
Heteroscedasticidad
La heteroscedasticidad es una forma específica en que el supuesto 4 se

puede violar. En este caso, la matriz de varianza covarianza del error es
diagonal (sin elementos por fuera de la diagonal principal) pero los
elementos de la diagonal difieren entre sí, esto es,
V11 0 L 0 φ11 0 L 0
0 V L 0  0 φ L 0 
Eεε X =V = 
′ 22 2 2
= σεφ = σε 22
(5.15)
M M O M  M M O M 
   
0 0 L Vnn  0 0 L φnn 
Ocasionalmente, en algunos textos se denota la heteroscedasticidad como
σ 12 0 L 0
 
0 σ 22 L 0
Eεε ′ X =  (5.16)
M M O M 
 
 0 0 L σ n2 
utilizando los más familiares símbolos sigma.

Cuando se sospeche que la heteroscedasticidad depende de alguna
variable conocida, es útil graficar los residuos o residuos al cuadrado contra
la variable sospechosa, usualmente una de las variables explicativas, o
contra ŷ , como se muestra en las Figuras 5.1 y 5.2. Si la magnitud de los
residuos o residuos al cuadrado aumenta o decrece a medida que cambia la
variable sospechosa tendremos un indicio de la violación del supuesto 4.
εî2
x, yˆ
Figura 5.1
εî
x, yˆ
Figura 5.2
La mayor parte de las pruebas buscan una relación entre la

heteroscedasticidad y alguna variable conocida de manera que se pueda
corregir corriendo MCG.
Prueba de Glejser. Su hipótesis nula es que no hay heteroscedasticidad. Esta

prueba da indicios sobre el tipo de heteroscedasticidad que puede
presentarse. En el primer paso se corre la regresión original, esto es, el
modelo y = Xβ + ε , y se guardan los residuos εˆ . En el segundo paso se corre
la regresión
εˆ = α 0 + α1 z h + error (5.17)
donde z es cualquier variable sospechosa de estar vinculada a la

heteroscedasticidad. También se puede correr εˆ 2 o ln εˆ 2 en lugar de su valor
absoluto, en cuyo caso se conoce como prueba de Park. El parámetro h es
1
algún exponente, usualmente 1, -1 o . Con estos valores de h tendríamos,
2
respectivamente
εˆ = α 0 + α 1 z + error
1
εˆ = α 0 + α 1 + error
z
εˆ = α 0 + α 1 z + error
La hipótesis nula es que α 1 = 0 , lo cual se puede probar con una prueba t

Student. Esta prueba t es asintótica porque el error de las regresiones de la
prueba Glejser no puede ser normal dado que εˆ debe ser mayor o igual a
cero; en consecuencia tenemos error ≥ −(α 0 + α1 z h ) lo cual implica una
distribución truncada (no campana) donde el error no puede tomar ciertos
valores. En general, esta característica asintótica es cierta para otras pruebas
de heteroscedasticidad.
Prueba Breusch Pagan. Para esta prueba suponemos que la varianza de ε i

depende de una combinación lineal de variables, esto es, la varianza es
función de p variables
α 0 + α 1 z1 + α 2 z 2 + L + α p z p
donde las p restricciones de la hipótesis nula, que implican la no existencia

de heteroscedasticidad, pueden escribirse
α1 = α 2 = L = α p = 0 (5.18)
El coeficiente α 0 no se incluye porque representa la varianza, constante y

diferente de cero, compatible con la hipótesis nula.
De manera similar a la prueba anterior, en el primer paso se corre la
regresión original, esto es, el modelo y = Xβ + ε , y se guardan los residuos
εˆ . Con estos se computa
∑ εˆ i
2
σˆ 2 = i =1
(5.19)
n
εî2
En un tercer paso se corre 2 contra una constante y las variables
σˆ
z1 , z 2 , K , z p . Luego, con la variación explicada de la regresión anterior
(explained sum of squares, ESS ); esto es, con
2
 εˆ 2 
ESS = ∑  αˆ 0 + αˆ1 z1i + L + αˆ p z pi − i 2  (5.20)
 σˆ 
se forma el estadístico chi cuadrado
ESS
~ χ p2 (5.21)
2
Si el estadístico es mayor que el valor crítico, se rechaza la hipótesis nula de

εî2
homoscedasticidad. Bajo la hipótesis nula αˆ 0 = y además ESS será muy
σˆ 2
pequeña.
Para la intuición de los p grados de libertad de esta prueba podemos
recordar que TSS = ESS + RSS , o TSS − RSS = ESS (donde, del inglés, TSS es
total sum of squares, y RSS es residual sum of squares). Ahora bien, TSS
tiene n − 1 grados de libertad, RSS tiene n − p − 1 grados de libertad, de
manera que ESS tiene n − 1 − (n − p − 1) = p grados de libertad.
También, con el R 2 de la regresión del tercer paso, se puede expresar el
estadístico de la prueba como nR 2 → d
χ p2 [para detalles ver Kennedy
(2008) p.131].
Prueba de White. En esta prueba, la hipótesis nula es la misma de las

anteriores, esto es, que no hay heteroscedasticidad. En un primer paso se
corre la regresión original del modelo y = Xβ + ε , y se guardan los residuos
εˆ . En el segundo paso se corre la regresión de εˆ 2 contra una constante, las
variables explicativas originales, las variables explicativas al cuadrado, y los
productos cruzados de pares de variables explicativas; esto es, εˆ 2 contra una
constante y los regresores
x1 , x2 , x3 ,K, x12 , x22 , x32 ,K, x1 x2 , x1 x3 , x2 x3 ,K (5.22)
Bajo la hipótesis nula todos los coeficientes de las variables anteriores son
cero, lo cual puede probarse, por ejemplo, con una F .
Para ilustrar, supongamos el modelo
yi = b1 + b2 xi + b3 zi + ε i (5.23)
una vez estimado, corremos la regresión auxiliar

εî2 = α 0 + α1 xi + α 2 zi + α 3 xi2 + α 4 zi2 + α 5 xi zi + vi (5.24)
donde todos los coeficientes, excepto a0 deben ser cero bajo la hipótesis
nula. Además de la F , también se puede usar el R 2 de la ecuación auxiliar
para formar un multiplicador de Lagrange nR 2 que converge a una chi
cuadrado con grados de libertad igual al número de variables explicativas en
la ecuación auxiliar, sin contar la constante (serían 5 en el ejemplo anterior).
Es importante tener en cuenta que si una de las variables originales es una
dummy, aunque no sea cero y uno, elevarla al cuadrado resulta en una
relación lineal exacta. Una dummy que toma valores 0 y 1 (o cero y
cualquier otro número como 0 y -1, 0 y 2, 0 y -2, 0 y 3, etc.) tendrá una
relación lineal exacta con ella misma al elevarla al cuadrado. Por ejemplo, la
relación entre una variable D que toma los valores 0 y 1 y su cuadrado es
D = D 2 ; entre una que toma los valores 0 y 2 y su cuadrado es 2 D = D 2 ; entre
una que toma los valores 0 y -2 y su cuadrado es − 2 D = D 2 ; etc. En estos
casos hay multicolinealidad perfecta porque una columna de la matriz X es
igual a un escalar por otra columna. En consecuencia, el software descarta la
dummy al cuadrado cuando realiza la prueba de White.
Prueba Goldfeld – Quandt. Para esta prueba se ordenan las observaciones de

la muestra de menor a mayor según alguna variable x sospechosa de estar
relacionada con la heteroscedasticidad. Se divide la muestra ordenada en tres
subconjuntos con aproximadamente la cuarta o tercera parte de la
observaciones en el intervalo de la mitad. Luego se corren dos regresiones
por separado, una para el subconjunto o intervalo bajo y otra para el alto, y
comparamos la suma de los residuos al cuadrado RSS de ambas regresiones
formando el estadístico
∑ εˆ
2
RSSU /(nU − k ) /(nU − k )
= U
~ FnU − k , n L − k (5.25)
RSS L /(nL − k ) ∑ εˆ 2
L /(nL − k )
donde el subíndice U se refiere al intervalo alto (upper) y L se refiere al

intervalo bajo (low). Para simplificar la notación, aquí el parámetro k
incluye la constante. El intervalo o sección de la mitad no se utiliza en la
estimación pero su existencia tiene como objeto aumentar el contraste entre
RSS L y RSSU . La expresión del estadístico de prueba asume que la varianza
aumenta con la variable x . Si por el contrario decrece, entonces se
intercambian el numerador y el denominador. Si el estadístico es mayor que

el valor crítico entonces se rechaza la hipótesis de no heteroscedasticidad.
Autocorrelación
La autocorrelación es otra forma en que el supuesto 4 se puede violar. En

este caso, la matriz de varianza covarianza del error tiene elementos
diferentes de cero por fuera de la diagonal principal mientras los elementos
de la diagonal principal son iguales entre sí, esto es,
 v V12 L V1n 
V v L V2 n 
Eεε ′ X =V =  12 (5.26)
 M M O M 
 
V1n V2 n L v
lo que también, ocasionalmente, se denota como
σ 2 σ 12 L σ 1n 
 
σ σ2 L σ 2n 
Eεε ′ X =  12 (5.27)
 M M O M 
 
σ 1n σ 2 n L σ 2 
La autocorrelación se asocia principalmente a series de tiempo, esto es, a

variables que se pueden graficar contra el tiempo. Por esta razón,
temporalmente, usaremos el subíndice t para denotar tiempo, en lugar de i .
Sin embargo, la autocorrelación puede darse en contextos diferentes a series
de tiempo, como la correlación entre observaciones a los largo de un eje
geográfico (regresión espacial).
Existe autocorrelación positiva y negativa. Es positiva cuando, con
respecto a su media, la secuencia cambia de signo de manera poco frecuente,
como se ilustra en la Figura 5.3, y es negativa cuando, con respecto a su
media, la secuencia cambia de signo con mayor frecuencia, como se ilustra
en la Figura 5.4. Si no graficamos la variable contra el tiempo sino contra su
pasado inmediato (por ejemplo, ε t contra ε t −1 en un plano cartesiano), la
autocorrelación positiva se ve como en la Figura 5.5 y la negativa como en
la Figura 5.6. Cuando no hay autocorrelación, las observaciones se reparten
de manera más o menos uniforme entre los cuatro cuadrantes. El concepto
de autocorrelación puede aplicar a cualquier variable, no solo a los errores o

residuos de un modelo.
εt
autocorrelación
positiva
Figura 5.3
εt
autocorrelación
negativa
Figura 5.4
εt
autocorrelación
positiva
ε t −1
Figura 5.5
εt autocorrelación
negativa
ε t −1
Figura 5.6
Existen varias pruebas para detectar autocorrelación, como son la Durbin

Watson y la Breusch Godfrey, que veremos a continuación. El estadístico Q
es otra prueba popular que se verá en el capítulo de estimación de los
modelos de series de tiempo.
Prueba Durbin Watson. Sirve para probar si hay autocorrelación de primer

orden en los errores, donde se supone que los errores se comportan de
acuerdo con el modelo
ε t = ϕ ε t −1 + vt (5.28)
llamada de primer orden porque solo hay un rezago, un error en un momento

de tiempo t es función del error anterior (en el tiempo t − 1 ) más una variable
aleatoria vt . Si hubiera más rezagos al lado derecho, digamos ε t − 2 o ε t −3 ,
entonces sería de orden dos o tres, respectivamente.
Una vez se corre la regresión original, se guardan los residuos εˆ y con
ellos se construye el estadístico
n
∑ (εˆ t − εˆt −1 ) 2
DW = t =2
n
(5.29)
∑ εˆ
t =1
2
t
Para la intuición supongamos un caso extremo de autocorrelación

positiva. Así, las diferencias εˆt − εˆt −1 en el numerador del DW serán cercanas
a cero comparados con los εˆt del denominador. La distancia entre el
numerador y el denominador se acentúa al elevarlos al cuadrado, de manera
que el DW tiende a cero. Vamos al otro extremo y supongamos un caso de
autocorrelación muy negativa (como zigzag). En este caso los términos
εˆt − εˆt −1 del numerador serán aproximadamente el doble en magnitud que los
términos εˆt del denominador lo cual, elevado al cuadrado, hace que el DW
tienda a 4. En el caso intermedio, de ausencia de autocorrelación, el DW
tiende a 2. En resumen, el DW estará entre 0 y 4; menor que 2 para
autocorrelación positiva y mayor que 2 para autocorrelación negativa.
Es posible mostrar que, para n grande,
n n n
∑ εˆt2 − 2∑ εˆtεˆt −1 + ∑ εˆt2−1

DW = t =2 t =2
n
t=2
≈ 2 − 2ϕˆ (5.30)
∑ εˆ
t =1
t
2
donde puede verse que el primer y tercer término del numerador tienden a
ser iguales al denominador. Por otro lado, el segundo término del numerador
dividido por el denominador tiende a ser el estimador de MCO de ϕ del
modelo (5.28). En otras palabras, para n grande (y suprimiendo los límites
∑ εˆ εˆ ∑ εˆ εˆ
por simplicidad), ∑ εˆt2 ≈ ∑ εˆt2−1 y t t −1
≈
t t −1
≈ ϕˆ .
∑ εˆ t
2
∑ εˆ 2
t −1
El DW no es válido, porque no tiene la distribución correcta, si la

estimación de la regresión se hace sin constante porque entonces Eεˆ ≠ 0 y
este valor esperado entra en las sumatorias de las expresiones anteriores

amplificándose al cuadrado. Su distribución tampoco es válida si se incluyen
rezagos de la variable dependiente como variables explicativas en el modelo
original, lo cual es común en modelos de series de tiempo.
Prueba Breusch Godfrey. Para esta prueba primero se corre la regresión

original y se guardan los residuos, con los cuales luego se corre la regresión
auxiliar de εˆ contra todas las variables explicativas originales más h
rezagos de εˆ . La hipótesis nula es que no hay autocorrelación hasta de orden
h . Puede utilizarse una F o una prueba de multiplicador de Lagrange tipo
nR 2  d
→ χ h2 .
Para ilustrar, supongamos que corremos la regresión (5.23) utilizada en el
ejemplo y guardamos εˆ . Ahora corremos la regresión auxiliar
εˆt = α 0 + α1 xt + α 2 zt + ϕ1εˆt −1 + ϕ 2εˆt − 2 + L + ϕ hεˆt − h + vt (5.31)
donde vt es el error de la regresión auxiliar. Es intuitivo que bajo la hipótesis

nula esperamos encontrar ϕ1 = ϕ 2 = L = ϕ h = 0 .
Es importante notar que es común perder datos cuando se trabaja con
variables en el tiempo. Cuando t = 1 , en la regresión auxiliar tendremos εˆ1
pero no podremos construir los residuos anteriores que se utilizan como
variables explicativas, esto es, εˆ0 , εˆ−1 ,K , εˆ1−h . Solo a partir de t ≥ h + 1
tendremos todas las variables necesarias para correr la regresión auxiliar. En
la práctica, la prueba se puede correr desde t = h + 1 , o desde t = 1 pero
suponiendo algún valor (usualmente cero) para los εˆ iniciales que no se
tienen. Suponer cero para los errores desconocidos no es del todo
descabellado dado que la mejor predicción que podemos hacer de ellos es su
valor esperado (cero).
En la regresión auxiliar es necesario incluir las variables originales del
modelo para que la distribución de la prueba sea correcta; sin embargo, si las
variables explicativas originales son estrictamente exógenas (lo cual
excluye, por ejemplo, variables dependientes rezagadas) pueden omitirse
[ver Wooldridge (2009, cap. 12)].
Errores Estándar Robustos
Mínimos cuadrados generalizados MCG se puede aplicar como solución

a la violación del supuesto 4 siempre que conozcamos las matrices φ o V , o
las podamos estimar. Sin embargo, a pesar de ser simétricas, estas matrices
tienen un gran número de elementos diferentes, n(n + 1) / 2 > n , lo que

dificulta su estimación. De todas maneras se puede aplicar MCO al modelo,
obtener coeficientes estimados insesgados, y tratar de estimar la matriz de
varianza covarianza correcta, que recordamos es ( X ′X ) −1 X ′V X ( X ′X ) −1 , y de
ella los errores estándar, que en este caso se conocen como errores estándar
robustos. Encontramos que la estimación así realizada de
( X ′X ) −1 X ′V X ( X ′X ) −1 es válida asintóticamente por lo cual es menos eficiente
que MCG. Estas estimaciones se basan en los εî de MCO que serán
consistentes. Los métodos más populares son el de White para cuando solo
hay heteroscedasticidad y el Newey-West para cuando hay
heteroscedasticidad y autocorrelación. Recalcamos que no es V lo que se
estima sino la matriz completa ( X ′X ) −1 X ′V X ( X ′X ) −1 , donde la parte
importante es X ′V X .
Al utilizar la opción de errores robustos para correr una regresión (la cual
hoy en día se incluye en la mayoría del software econométrico) los
coeficientes estimados no cambian. Solo cambian los errores estándar y las
pruebas derivadas de ellos como la t Student. El R 2 , el R 2 ajustado,
verosimilitud logarítmica, y los criterios de información no deben cambiar.
La F no debería cambiar en el caso usual donde el software utiliza la
fórmula de la F que supone homoscedasticidad. Para algunas pruebas de
hipótesis, por ejemplo si aplicamos una Wald a H 0 : β1 + β 2 = 1 , se requiere la
estimación de la varianza de β1 + β 2 − 1 lo que, a su vez, requiere la
covarianza de β1 y β 2 , de manera que usar errores robustos sí podría
cambiar la construcción de la Wald.
Estimador Consistente de White
Este estimador es solo para heteroscedasticidad, esto es, cuando se trata

de una matriz de la forma
V11 0 L 0
0 V L 0 
V = 22
(5.32)
M M O M 
 
0 0 L Vnn 
Para dar algo de intuición podemos trabajar con un modelo de una sola
variable, sin constante, y i = β xi + ε i . Sabemos que el estimador del
coeficiente es βˆ = ∑ xi yi ∑ x i2 = β + ∑ x iε i ∑ x i2 , cuya varianza,

condicional a x , es
1 1 1
Var ( βˆ ) =
(∑ x ) ∑ (∑ x ) ∑ (∑ x ) ∑
Var ( x ε ) =
2 2 i i E(x ε ) = x E (ε
2 2 i i
2
2 2
2
i i
2
) (5.33)
i i i
Si se cumple el supuesto 4 y los errores son homoscedásticos tenemos de la

expresión anterior que
1 σ ε2
Var ( βˆ ) = σε ∑ x =
2 2
(5.34)
(∑ x ) 2 2
∑x 2
i
i i
Pero si, por el contrario, no se cumple el supuesto 4 y los errores son

heteroscedásticos, como es el caso que nos ocupa, nos quedamos en (5.33).
A primera vista, tendríamos que estimar los n valores esperados E (ε i2 ) que
entran en el numerador. Sin embargo, White (1980, p.820) muestra que esto
es innecesario ya que, si n es grande, el escalar ∑ xi2εî2 se puede utilizar
como estimador consistente del escalar ∑ xi2 E (ε i2 ) , de manera que podemos
usar ∑ x εˆ 2 2
i i
como estimador consistente de la varianza heteroscedástica
(∑ x ) 2 2
i
∑ x E (ε
2
i i
2
)
. La demostración utiliza la ley de los grandes números junto con
(∑ x ) 2 2
i
el hecho de que plim εˆ = ε ; esto es, εˆ es un buen estimador de ε en muestras

grandes.
La intuición anterior desarrollada para un modelo con una sola variable
explicativa sirve para entender la generalización del estimador de errores
robustos de White en términos matriciales el cual, para el modelo lineal con
k variables, tiene la expresión
n  n 
Var ( βˆ )W = ( X ′X ) −1 ∑ εî2 xi xi′ ( X ′X ) −1 (5.35)
k ×k n−k  i =1 
donde los vectores xi , de orden k × 1 , son columnas de la matriz X ′ de orden

n
k × n . El término es una corrección por grados de libertad. De nuevo, si
n−k
se quiere, k incluye la constante, lo que es especialmente inocuo dado que el
estimador es consistente (para n grande). La intuición del término en
paréntesis cuadrado fue dada arriba; este representa la matriz X ′V X ,

simétrica de orden k × k , donde estimamos k (k + 1) / 2 elementos en lugar de
los n elementos diferentes de la diagonal de V presentes cuando hay
heteroscedasticidad.
Ejemplo del estimador de White con dos variables
El siguiente es un ejemplo con dos variables x1 y x 2 para mostrar cómo se

 n

construye el término ∑ εî2 xi xi′  en el estimador de errores robustos de White
 i =1 
que representa X ′V X = X ′ Eεε ′ X . Escribimos
 E ε 12 0 L 0   x11 x 21 
 
x x12 L x1 n   0 Eε 2
  x12 x 22 
X ′ E ε ε ′ X =  11 2
 x 21 x 22 L x 2 n   M O  M M 
  
 0 E ε n2   x1 n x2n 
 x11 x 21 
 x Eε  x 22 
2
x12 E ε 2
L x1 n E ε   x12
2
=  11 1 2 n

 x 21 E ε 1
2
x 22 E ε 2
2
L x2n Eε   M
n
2
M 
 
 x1 n x2n 
 x112 E ε 12 + x122 E ε 22 + L + x12n E ε n2 x11 x 21 E ε 12 + x12 x 22 E ε 22 + L + x1 n x 2 n E ε n2 

= 2 2 2 2 
 x 21 x11 E ε 1 + x 22 x12 E ε 2 + L + x 2 n x1 n E ε n x 21 E ε 12 + x 22
2
E ε 22 + L + x 22n E ε n2 
lo cual puede expresarse como
x  x  x  x 
= Eε 12  11 [x11 x21 ] + Eε 22  12 [x12 x22 ] + Eε 32  13 [x13 x23 ] + L + Eε n2  1n [x1n x2 n ]
 x21   x22   x23   x2 n 
n
= ∑ ( Eε i2 ) xi xi′
i =1
Y sabemos de la discusión anterior que este término puede ser estimado

 n

consistentemente por la expresión ∑ εî2 xi xi′  .
 i =1 
Estimador Consistente de Newey-West
Este estimador es más general porque maneja heteroscedasticidad y

autocorrelación, o sea una matriz de la forma
V11 V12 L V1n 

V V L V2 n 
V =  12 22
(5.36)
M M O M 
 
V1n V2 n L Vnn 
Su generalidad viene a un precio y es que este estimador de errores robustos

no converge fácilmente cuando la autocorrelación es persistente. Su fórmula
es
n n L
 l  n 
Var ( βˆ ) NW = ( X ′X ) −1 ∑ εî2 xi xi′ + ∑  1 −  ∑ ( xiεîεî − l xi′− l + xi − lεî − lεî xi′ ) ( X ′X )
−1
k ×k n−k  i =1 l =1   L + 1  i = l +1 
(5.37)
donde el primer término dentro del paréntesis cuadrado es igual al de White

y mide la heteroscedasticidad. El otro término dentro del paréntesis cuadrado
mide la autocorrelación. L es el parámetro de truncamiento, es el rezago
máximo hasta el cual medimos la autocorrelación de los εî y debe escogerse
lo suficientemente grande para que la autocorrelación a rezagos mayores que
l
L sea despreciable. El término 1 − es una ventana de Barlett que
L +1
pondera las autocorrelaciones; puede ser otro tipo de ventana (kernel),
incluso unitaria, pero entonces la matriz de varianza covarianza Var ( βˆ ) NW
podría no ser positiva definida [ver Verbeek (2012, cap. 4)]. Newey y West
sugieren fijar L así
 2

  n 9 
L = entero  4    (5.38)
  100  
 
Acá estimamos k (k + 1) / 2 elementos en lugar de los n(n + 1) / 2 elementos

diferentes que tiene la matriz V cuando hay autocorrelación y
2
heteroscedasticidad, o en lugar de los
n
(n − 1) + 1 = n − n + 2 elementos
2 2
cuando solo hay autocorrelación y no heteroscedasticidad.
Errores Robustos Agrupados (Clustered Errors)
Cuando el muestreo se realiza por clusters (grupos o conglomerados) es

de esperar que las observaciones dentro de cada cluster sean más parecidas
entre ellas que las observaciones entre clusters. Por ejemplo, si muestreamos
varios alumnos en varias escuelas, esperamos que las observaciones dentro
de cada escuela tengan menos varianza que a través de escuelas. Lo mismo
pasa si tomamos varias observaciones por comunidades religiosas, por
ciudades, firmas, países, etc. El efecto estadístico de este tipo de muestreo es
que la muestra final tiene menos información de lo que parece tener. Los
alumnos del mismo centro educativo tienden a parecerse un poco más entre
ellos que a los alumnos de otros centros educativos, y así con otros clusters.
Exagerando para ilustrar, supongamos que tomamos una muestra de
tamaño n > G , donde G es el número de clusters, pero que las personas
dentro de cada cluster son iguales o clones; nuestra muestra no sería de
tamaño n sino de tamaño G , menor que el número de datos tomados. Es
similar a cuando se pierden grados de libertad porque algunas observaciones
están atadas a otras.
Por ejemplo, si tomamos una muestra en 2 fraternidades (o logias) en la
cual encuestamos n personas en total sobre algún tema, podemos calcular la
media y, con ella, el error estándar o la varianza de sus respuestas vía la
fórmula usual que divide la suma de las desviaciones al cuadrado por n (o
n − 1 ). Sin embargo, si existe correlación muy alta entre las respuestas dentro
de cada fraternidad es como si nuestra muestra estuviera más cerca de
tamaño 2 que de n .
El problema en la práctica radica en que para calcular la varianza de
nuestra estimación usamos n , lo que hace ver la varianza mucho menor (más
favorable) de lo que en realidad es, pudiendo resultar en pruebas de hipótesis
poco confiables. La corrección de esta varianza tomando en cuenta el efecto
del muestreo por de clusters es lo que se denomina errores agrupados
(clustered errors). Intuitivamente, la corrección dependerá del grado de
correlación entre las observaciones dentro de cada cluster; si no hay
correlación no hay necesidad de corrección.
La fórmula para estimar estas varianzas agrupadas, Var ( βˆ )C , es similar al
estimador de White, y es válida asintóticamente, esto es, cuando el número
de clusters G tiende a infinito (en la práctica, 50 clusters generalmente es

suficientemente grande para proveer una inferencia adecuada). Su expresión
es,
G 
Var ( βˆ )C = ( X ′X ) −1 ∑ X ′jεˆ jεˆ′j X ′j  ( X ′X ) −1 (5.39)
k×k  j =1 
donde X j es la sección de la matriz X que corresponde al cluster j y εˆ j son

los residuos del cluster j ; es decir, para cada cluster j tenemos
y j = X j β + ε j , y para el agregado tenemos y = Xβ + ε .
Es común que Var ( βˆ )C > Var ( βˆ )W , lo que implica que las observaciones
(tanto las variables explicativas como los errores) son más similares dentro
de los clusters que entre clusters.
Capítulo 6
SESGO EN LA ESTIMACIÓN POR MCO
Al trabajar con el modelo clásico y = Xβ + ε fue necesario hacer el

supuesto 3, Eε X = 0 , para asegurar el insesgamiento del estimador β̂ .
Aplicando expectativas iterativas, y utilizando el supuesto 3, se deriva la
propiedad E ( X ′ε ) = EE ( X ′ε X ) = EX ′E (ε X ) = 0 , muy útil en la discusión que
sigue. Así mismo, se enfatiza que el supuesto 3 realmente debería expresarse
como
E (error ) X = 0 (6.1)
donde error es el error de la regresión, constituido por ε más cualquier otro

efecto que pueda explicar y y que haya sido omitido del modelo. Por
ejemplo, si violamos el supuesto 1, que se refiere a la especificación del
modelo, y omitimos variables relevantes, el efecto de dichas variables se
suma a ε para conformar el nuevo error de la regresión. La Figura 6.1 ilustra
esto para el modelo cuyas ecuaciones son
y = β 0 + β1 x1 + β 2 x2 + ε
(6.2)
x1 = α x2 + z
donde z es cualquier otra variable que afecte x 2 (nótese que z es necesaria

porque sin ella habría multicolinealidad perfecta). El coeficiente de ε es 1
pero por costumbre no se marca en el diagrama.
β0
1
y
β1
z x1
α
β2
x2
ε Figura 6.1
Supongamos que al correr la regresión se omite x 2 . El nuevo error será

β 2 x2 + ε y el modelo queda
y = β 0 + β 1 x1 + ( β 2 x 2 + ε ) = β 0 + β1 x1 + error
(6.3)
x1 = α x 2 + z
El modelo original de la población (6.2) difiere del que se corre (6.3).

Esto, en la práctica, es más la regla que la excepción. Para empezar, así no se
haga explícito, siempre que se corre una regresión se omite ε (simplemente
porque no lo tenemos). Todo lo que se omita de la regresión, y deba ir en
ella, es el error al que se refiere el supuesto 3, y es lo que debe tener media
cero condicional a las variables incluidas en el modelo (que en este ejemplo
son la constante y x1 ).
Omitir una variable es equivalente a cortar la trayectoria que lleva su
efecto a y ; así, omitir x 2 es equivalente a cortar la trayectoria que la une con
y , al igual que omitir ε es equivalente a cortar la trayectoria que va de ε a
y . Sin estas trayectorias, la Figura 6.1 se transforma en la Figura 6.2.
β0
1
y
β1
z x1
x2
ε Figura 6.2
Sin importar lo que corramos, la variable dependiente y fue generada por

el modelo original y sigue siendo igual a β 0 + β1 x1 + β 2 x2 + ε . Pero al correr
solo y contra x1 , la técnica de MCO tratará de extraer de x1 cualquier
información que x1 contenga de x 2 . Si en verdad x1 contiene información de
x 2 , MCO extraerá esa información de la única manera que lo puede hacer:
alterando (sesgando) el valor estimado del coeficiente β1 . De hecho, si x1
también contiene información de ε , entonces MCO tratará de extraerla
alterando el coeficiente estimado de β1 .
Por regla general nadie omite variables relevantes de manera voluntaria.
Se omiten, o porque la teoría es incompleta y entonces no se contemplan en
el modelo, o porque simplemente no hay datos sobre ellas; ambas son
circunstancias, infortunadamente, muy frecuentes.
Omisión de Variable Relevante
Formalizando la idea anterior, rescribimos el modelo clásico, y = Xβ + ε ,

partiendo la matriz X en dos partes. Una parte, X 1 , que recoge las k + 1
variables incluidas y otra parte, X 2 , que recoge las j variables omitidas o
excluidas. Con esta partición, el modelo clásico queda
y = X 1 β1 + X 2 β 2 + ε (6.4)
donde
 
X =  X1 X2 (6.5)
n× k +1+ j
n×k +1 n× j 
Consideramos que ambas X 1 y X 2 son relevantes, lo que quiere decir que

deben ir en el modelo.
Por la forma que está escrito, se asume que la constante no se omite y se
deja en la matriz X 1 pero igual podría omitirse pasándola a la matriz X 2 . El
vector β1 es de orden k + 1 × 1 y el vector β 2 es de orden j × 1 . Se mantiene el
supuesto E (ε X 1 , X 2 ) = 0 y recordamos que la violación del supuesto 3 se da
cuando el valor esperado del error de la regresión (que no necesariamente es
ε ) depende de las variables incluidas.
Veamos qué ocurre si omitimos X 2 de la regresión y corremos y contra
X 1 . El estimador de MCO con las variables incluidas (el único que podemos
estimar) será βˆ1 = ( X 1′X 1 ) −1 X 1′ y . Sin embargo, no olvidamos que la variable y
fue generada por ambas variables, de manera que podemos escribir
βˆ1 = ( X 1′X 1 ) −1 X 1′ y = ( X 1′X 1 ) −1 X 1′( X 1β1 + X 2 β 2 + ε )

(6.6)
= β1 + ( X 1′X 1 ) −1 X 1′( X 2 β 2 + ε )
donde se observa que el nuevo error de la regresión es X 2 β 2 + ε . Tomando

valor esperado condicional
E ( βˆ1 X 1 , X 2 ) = β1 + ( X 1′X 1 ) −1 X 1′X 2 β 2 (6.7)
vemos que la existencia de sesgo en el vector estimado β̂1 dependerá de si el

término ( X 1′ X 1 ) −1 X 1′ X 2 es cero o no; si es cero no hay sesgo. El vector β 2
puede influir en la magnitud y signo del sesgo pero no en su existencia ya
que hemos supuesto que X 2 es relevante y por lo tanto β 2 ≠ 0 .
Mirando con detenimiento el término ( X 1′ X 1 ) −1 X 1′ X 2 vemos que representa
los coeficientes estimados de una regresión de X 2 contra X 1 . Lo anterior es
fácil de intuir si imaginamos que X 2 tiene una sola variable (una sola
columna); en este caso el término ( X 1′ X 1 ) −1 X 1′ X 2 representa los coeficientes
estimados de correr esa única variable de X 2 contra todas las variables de
X 1 , lo cual produce un vector de coeficientes estimados de orden k + 1 × 1 . Si
X 2 tiene j variables, sencillamente se corren las j variables de X 2 , una a la
vez, contra todas las de X 1 , y cada una de estas regresiones genera un vector
de coeficientes de orden k + 1 × 1 . El término ( X 1′ X 1 ) −1 X 1′ X 2 se forma juntando
todos los j vectores de coeficientes, de manera que la expresión del valor
esperado (6.7) queda
 βˆ10   β10  a01 a02 L a0 j   β 21 

ˆ    
β β11 a11 a12 L a1 j   β 22 
E  11  =   +  (6.8)
 M   M   M M O M  M 
      
ˆ L akj   β 2 j 
 β1k   β1k  ak 1 ak 2
donde
a01 a02 L a0 j 
a a12 L a1 j 
( X 1′ X 1 ) X 1′ X 2 = 
11
−1
(6.9)
 M M O M 
 
ak 1 ak 2 L akj 
es una matriz k + 1 × j que reúne en cada columna los coeficientes estimados

al correr cada variable de X 2 contra todas las de X 1 , como se explicó arriba.
Si solo hay una variable en X 2 entonces solo existe la primera columna
de ( X 1′ X 1 ) −1 X 1′ X 2 ; así, por ejemplo, a01 sería la constante cuando se corre esa
única variable de X 2 contra todas las de X 1 ; a11 sería el coeficiente de la
primera variable de X 1 cuando se corre esa única variable de X 2 contra
todas las de X 1 .
Si hay más variables omitidas tendremos una columna de coeficientes por
cada una; por ejemplo, a 02 sería la constante obtenida al correr la segunda
variable omitida contra todas las incluidas y a12 sería el coeficiente de la
primera variable de X 1 cuando se corre la segunda variable de X 2 contra
todas las de X 1 .
Finalmente, la expresión del valor esperado para cualquier coeficiente
estimado β̂1i será
Eβˆ1i = β1i + ai1β 21 + ai 2 β 22 + L + aij β 2 j (6.10)

Para que no haya sesgo en β̂1i necesitamos que ai1 = ai 2 = L = aij = 0 .

También podría darse el insesgamiento si la combinación lineal
ai1β 21 + ai 2 β 22 + L + aij β 2 j = 0 , pero esto es poco probable.
En resumen, si una variable x1i carece de poder explicativo en todas las
regresiones cuando se corren las variables de X 2 contra todas las de X 1 ,
entonces su coeficiente estimado β̂1i será insesgado. Dicho de otra forma,
serán insesgados los coeficientes estimados de las variables incluidas que no
expliquen las excluidas. Pero debe notarse que la falta de explicación debe
darse en el contexto de regresión y no de simple correlación entre dos
variables. Desde el punto de vista de las variables omitidas, puede decirse
que si estas son ortogonales a todas las incluidas, los coeficientes estimados
serán insesgados.
En cualquier caso, omitir variables relevantes disminuye la explicación
de la regresión por lo cual la varianza estimada del error es mayor y el R 2 es
menor. El sesgo no desaparece aunque la muestra aumente de tamaño,
haciendo que el estimador de MCO sea inconsistente. En otras palabras,
omitir variables relevantes puede resultar en que la estimación por MCO sea
sesgada e inconsistente.
La violación del supuesto 3 sesga el estimador de mínimos cuadrados
ordinarios, β̂ , cuando la media del error cambia con X . Sin embargo, una
situación algo diferente es cuando la media del error es constante aunque
diferente de cero (no cambia con X ni con nada). Esto sería Eε X = c donde
c es una constante. En este caso, solo el estimador de la constante β 0
resultará sesgado; pero si se omite la constante, entonces sí pueden sesgarse
los demás coeficientes.
Ejemplo de omisión de la constante
Omitir la constante (la columna de unos) puede sesgar las variables

explicativas. En el término ( X 1′ X 1 ) −1 X 1′ X 2 β 2 , el vector β 2 es ahora el escalar
β 0 y la matriz X 2 es una columna de unos. Para simplificar, supongamos
una sola variable x en X 1 , con coeficiente β . Así, la expresión general que
derivamos arriba para el valor esperado, E ( βˆ1 X 1 , X 2 ) = β1 + ( X 1′ X 1 ) −1 X 1′ X 2 β 2 ,
se simplifica a
E ( βˆ ) = β + ∑xi
β0 (6.11)
∑x
2
i
haciendo que β̂ sea sesgado a menos que xi tenga media cero (por lo que no
tendría poder explicativo sobre la constante). En la expresión anterior, cada
xi dentro de la suma ∑ xi va multiplicado por 1 (por la columna de 1’s que
en este caso es la variable dependiente).
Por definición una constante β 0 tiene correlación cero con cualquier
variable x dado que E ( β 0 − Eβ 0 )( x − Ex) = E (0)( x − Ex) = 0 , de manera que
podría pensarse que omitir la constante no causa sesgo. Pero recordamos que
la expresión que origina el sesgo, ( X 1′ X 1 ) −1 X 1′ X 2 , son coeficientes de
regresión, no coeficientes de correlación, que son distintos.
Ejemplo
Suponga que el verdadero modelo que relaciona el ingreso salarial con las
variables años de educación y años de experiencia, es
ingreso i = β 0 + β 1 educación i + β 2 experienci ai + εi (6.12)
¿Qué pasa con el β1 estimado si omitimos experiencia al correr la regresión?

Construyendo la expresión del valor esperado de β1 podemos suponer un
resultado como el que se muestra a continuación
 coeficient e de educación en una 

 
E ( βˆ1 ) = β1 +  regresión de experienci a contra  β 2 < β1 (6.13)
 una constante y educación  (+)
 
(−)
donde el término en paréntesis corresponde a ( X 1′ X 1 ) −1 X 1′ X 2 y lo suponemos

negativo porque más años de educación deja menos tiempo para acumular
años de experiencia. Esperamos que el coeficiente β 2 de la variable omitida
experiencia sea positivo porque generalmente a más experiencia más
ingreso. Así las cosas, E ( βˆ1 ) < β1 donde la omisión de experiencia hace que
se subestime el impacto de educación sobre ingreso. Al omitir experiencia,
el efecto de educación sobre ingreso (el coeficiente β1 estimado) debe
reflejar no solo el efecto positivo de un aumento en educación sino también
el efecto negativo de una disminución en experiencia, resultando en un
efecto neto menor que el β1 original.
Para continuar con el ejemplo, adicionemos la variable edad al modelo

anterior
ingresoi = β0 + β1 educacióni + β 2 experienciai + β 3 edadi + εi (6.14)
¿Qué pasa con β 2 estimado si omitimos edad al estimar la regresión?

Construyendo la expresión del valor esperado,
 coeficient e de experienci a en una 

 
E ( βˆ2 ) = β 2 +  regresión de edad contra una  β3 > β 2 (6.15)
 constante, educación y experienci a  ( + )
 
(+)
donde suponemos que el término en paréntesis es positivo porque

generalmente a más edad más experiencia. También parece razonable que a
más edad más ingreso lo que hace β 3 > 0 . En consecuencia, E ( βˆ 2 ) > β 2 . El
coeficiente β̂ 2 refleja el efecto positivo de experiencia y el efecto positivo de
la variable omitida edad.
El sesgo en β̂1 posiblemente sea positivo dado que la relación entre
educación y edad parece positiva. El sesgo en β̂ 0 posiblemente sea positivo
dado que edad tiene una media positiva. Todos los supuestos hechos son
para efectos ilustrativos, obviamente pueden encontrarse situaciones
diferentes.
Ejemplo
Considere el modelo que relaciona las ganancias de una firma g i con el

costo de operación ci y el nivel de eficiencia administrativa ei
gi = α + β ci + γ ei + ε i (6.16)
donde suponemos β < 0 y γ > 0 . ¿Qué pasa con β̂ si omitimos ei al correr la

regresión?
 coeficient e de c en una 
 
ˆ
E ( β ) = β +  regresión de e contra  γ < β (6.17)
 una constante y c  (+)
 
(−)
En este modelo β es negativo y E ( βˆ ) será aun más negativo al omitir ei . El

coeficiente β̂ refleja el efecto negativo del costo de operación y el efecto
negativo de la variable omitida eficiencia (dado que costo y eficiencia actúan
de forma inversa).
Inclusión de Variable Irrelevante
La inclusión de variables irrelevantes, esto es, que no están en el modelo

original y por lo tanto no explican y , se considera un problema menor, a
menos que se incluyan demasiadas variables irrelevantes disminuyendo los
grados de libertad y la precisión de los estimadores. En valor esperado,
MCO asignará un coeficiente estimado de cero a las variables irrelevantes
sin sesgar las relevantes, y sin importar si hay relación entre las relevantes y
las irrelevantes.
Supongamos que la realidad es y = X 1 β1 + ε pero corremos y contra las
k + 1 variables relevantes X 1 y las j variables irrelevantes X 2 . Llamemos
X ∗ = [ X 1 X 2 ] de tal manera que los coeficientes estimados
βˆ ∗ = ( X ′∗ X ∗ ) −1 X ′∗ y = ( X ′∗ X ∗ ) −1 X ′∗ ( X 1β1 + ε ) (6.18)
Al tomar valor esperado tenemos
Eβˆ ∗ = ( X ′∗ X ∗ ) −1 X ′∗ X 1β1 (6.19)

k +1+ j ×1
donde la matriz ( X ′∗ X ∗ ) −1 X ′∗ X 1 es de orden k + 1 + j × k + 1 . Esta matriz será

unitaria en la parte superior, para multiplicar β1 , y tendrá ceros en la parte
inferior.
Ilustramos asumiendo un modelo sencillo, yi = β1 x1i + ε i , de una sola
variable relevante x1 el cual corremos incluyendo una variable irrelevante
x 2 . Para este ejemplo, la expresión matricial del valor esperado es
−1
  x11 x21    x11 
 
 βˆ1    x11 x12 L x1n   x12 x22    x11 x12 L x1n   x12 
E  =  β1
ˆ 
 β 2    x21 x22 L x2 n   M M    x21 x22 L x2 n   M 
   
  x1n x2 n    x1n 
−1
 ∑ x22 − ∑ x1 x2 
 ∑x 2
∑ x1 x2   ∑ x  β =  ∆
2
∆
  ∑ x12 
= 1 1
 β (6.20)
∑ x1 x2 ∑ x22  ∑ x2 x1  1  − ∑ x1 x2 ∑ x12  ∑ x2 x1  1
 ∆ ∆ 
 ∑ x22 ∑ x12 − (∑ x1 x2 )2 
  1 β 
= ∆  β1 =   β1 =  1 
 − ∑ x1 x2 ∑ x1 + ∑ x1 ∑ x2 x1 
2 2
0  0
 ∆ 

donde el determinante es ∆ = ∑ x12 ∑ x 22 − (∑ x1 x 2 ) , lo cual hace que Eβˆ1 = β1 .

2
Por otro lado, nótese que el término del numerador del coeficiente de la
variable irrelevante, − ∑ x1 x2 ∑ x12 + ∑ x12 ∑ x2 x1 , es cero, lo cual hace que
Eβˆ2 = 0 .
Probar Relevancia
Podemos probar variable omitida bajo la hipótesis de que las variables

consideradas omitidas no son conjuntamente significativas en la regresión.
Hacemos una prueba F o Razón de Verosimilitud comparando la regresión
o verosimilitud restringida (sin incluir las variables propuestas) con la no
restringida (incluyendo las variables propuestas). Los grados de libertad
serán iguales al número de variables propuestas. El problema es que,
generalmente, no sabemos cuáles variables pueden ser las omitidas. La
prueba para variables irrelevantes es similar y usa la hipótesis nula de que un
subconjunto de las variables incluidas no es estadísticamente significativo.
Errores en Variables
En la sección anterior vimos que la omisión de variable relevante es una

forma de violar el supuesto 3, con la consecuencia de que MCO puede
resultar sesgado e inconsistente. Otra forma de violar este supuesto es lo que
se conoce como errores en variables, que se presenta cuando las variables se

miden con error. Supongamos que el modelo verdadero es
~
y = Xβ + ε (6.21)
~
el cual cumple con los supuestos usuales de MCO y donde X es la matriz
n × k de variables explicativas (incluyendo la constante). Si bien las k
~
variables de X entran en el verdadero modelo, no las observamos
directamente sino a través de una medición imprecisa (con error), esto es,
tenemos acceso a
~
X = X +u (6.22)
n× k
donde u es la matriz de errores de medición con media cero. Cada una de las
k columnas de u contiene los errores asociados a la variable de la columna
~
correspondiente de X ; por ejemplo, la primera columna de u contiene los
~
errores de la primera variable de X ; la segunda columna de u contiene los
~
errores de la segunda variable de X , y así con las demás. Algunas columnas
pueden ser ceros si las variables correspondientes se miden sin error.
~
Suponemos que X , u y ε son independientes entre sí. La Figura 6.3 ilustra
este modelo
ε
y
~ β
X
u X
Figura 6.3
~
Despejando de (6.22) y reemplazando X = X − u en el modelo tenemos
y = ( X − u ) β + ε = Xβ + ε − uβ (6.23)
donde el nuevo error del modelo es ε − uβ . Corriendo la regresión tendremos

βˆ = ( X ′X ) −1 X ′y = ( X ′X ) −1 X ′( Xβ + ε − uβ )
(6.24)
−1 −1
= β + ( X ′X ) X ′ε − ( X ′X ) X ′uβ
Tomando valor esperado encontramos
Eβˆ = β − E ( X ′X ) −1 X ′uβ ≠ β (6.25)
porque, de (6.22), u está relacionada con X . En consecuencia, MCO será

sesgado e inconsistente dado que el sesgo no desaparece asintóticamente.
Si la gente o la economía responde a las variables medidas con error (esto
~
es, a X en lugar de X ), lo cual puede suceder en la práctica, entonces no
hay problema.
Puede interpretarse el tema de errores en variables como un caso de
omisión de variable relevante. Si escribimos (6.23) como
y = ( X − u ) β + ε = Xβ + ε + uθ (6.26)
donde θ = − β , vemos que no habría sesgo en β̂ si pudiéramos correr y

contra X y u . En otras palabras, el sesgo se da por omitir u .
Es difícil decir algo sobre la dirección del sesgo debido a errores en
variables, en especial si hay múltiples variables explicativas, por su
interacción. Sin embargo, en el caso de una sola variable explicativa,
x=~x + u , es evidente que x es una versión diluida de ~ x ya que se le ha
agregado ruido u ; por lo tanto, puede esperarse que x tenga menos
capacidad para explicar y que la que tiene ~x , lo que se refleja en un β̂
sesgado hacia cero (su magnitud sesgada hacia cero). Intuitivamente, si el
ruido u fuera mucho más grande que ~x entonces x sería prácticamente
ruido y no podría explicar y .
El error de medición también puede presentarse con respecto a la variable
dependiente. Supongamos el modelo verdadero ~y = Xβ + ε pero donde solo
contamos con la variable y medida con error
y=~
y +u
El efecto de este error de medición es considerado menos severo que cuando

se presenta en la variable explicativa dado que no sesga los estimadores. Al
remplazar ~y = y − u en el modelo obtenemos
y = Xβ + ε + u
de manera que el error de medición u se suma al error original ε elevando

la varianza de los estimadores; esto es, disminuyendo su precisión.
Sesgo de Simultaneidad
En esta sección veremos otra forma de violación del supuesto 3. Para

ilustrar, consideremos un modelo de ecuaciones simultáneas en forma
estructural (como las dicta la teoría), compuesto por
x = α 0 + α1 y + α 2 z + ε x (6.27)
y = β 0 + β1 x + β 2 z + ε y (6.28)
donde las variables x y y se determinan dentro del sistema y se llaman

endógenas. La variable z viene de afuera del sistema y no está contaminada
por el error, por lo cual se llama exógena.
Notamos que en la primera ecuación del modelo está y como variable
explicativa pero, a la vez, en la segunda ecuación y contiene a x y, si
contiene a x , entonces contiene al error ε x . Se deduce entonces que en la
primera ecuación la variable explicativa y contiene al error ε x violando el
supuesto 3 y sesgando la estimación de α 1 . De hecho, en la segunda
ecuación x está relacionada con el error ε y (vía la primera ecuación donde
x contiene a y ), violando el supuesto 3 y sesgando la estimación de β1 .
En general, las variables que se determinan dentro del sistema, las
endógenas, están contaminadas por el error de la regresión, violando el
supuesto 3. Por esta razón, el sesgo generado se conoce como sesgo de
simultaneidad.
Si, para cualquiera de las ecuaciones estructurales, reunimos las variables
explicativas en una matriz X tendremos que
E ( βˆ ) = β + E ( X ′X ) −1 X ′ε ≠ β
porque no podemos aplicar E (ε X ) = 0 dado que el vector de errores ε tiene

relación con alguna o algunas de las variables contenidas en X . En
consecuencia, el sesgo de simultaneidad se puede interpretar como sesgo de
variable omitida (por omitir ε ) y hace que la estimación de MCO sea
inconsistente.
Ejemplo de la función de consumo
Sea el modelo sencillo compuesto por las ecuaciones estructurales
C =α + βY +ε
(6.29)
Y =C+I
donde Y es ingreso, C es el consumo de los hogares y el coeficiente

0 < β < 1 es la propensión marginal al consumo. Y y C son variables que se
determinan dentro del sistema (endógenas). La inversión I es una variable
que viene de afuera del sistema (exógena). Las ecuaciones anteriores se
ilustran en la Figura 6.4.
α
1
ε C
β
I
Y
Figura 6.4
Al correr C contra una constante y Y se sesga la estimación de β . La

interpretación de variable omitida es que ε está en Y (vía C ) violando el
supuesto 3. Para tener una idea del sesgo podemos pensar en
 coeficiente de Y en una 
 
ˆ
E ( β ) = β +  regresión de ε contra (1) > β (6.30)
 una constante y Y 
 
(+)
donde notamos que el coeficiente de ε es 1. Se supone positivo el signo del

término en paréntesis porque, de la primera ecuación del modelo original, si
sube (cae) ε sube (cae) C , y de la segunda ecuación, si sube (cae) C sube
(cae) Y ; en consecuencia, ε y Y tienden a moverse en la misma dirección.
Resolviendo el sistema de ecuaciones de manera que queden las variables
endógenas en función de las exógenas, lo que se conoce como forma
reducida, tenemos
α 1 1
Y= + I+ ε
1− β 1− β 1− β
(6.31)
α β 1
C= + I+ ε
1− β 1− β 1− β
donde se ve que Y y C contienen a ε . En general, en sistemas con más

ecuaciones y variables, las variables endógenas estarán contaminadas por los
errores.
Capítulo 7
ESTIMACIÓN POR VARIABLE INSTRUMENTAL
Vimos en el capítulo anterior que la violación del supuesto 3 implica que

existe una relación entre las variables explicativas y el error, lo cual sesga la
estimación por MCO y la hace inconsistente.
Una posible solución se ilustra en la Figura 7.1, que muestra dos
variables explicativas, x1 y x 2 . La variable x1 se conoce como endógena
porque está contaminada por ε , esto es, Ex1′ε ≠ 0 . La exógena x 2 , conocida
como variable de control, no tiene problema, esto es, E x2′ε = 0 . En este
ejemplo, se permite que x 2 influya sobre x1 . La endogeneidad de x1 se
denota por la línea punteada dibujada entre ε y el error u que a su vez entra
en x1 . Aunque también podría trazarse directamente entre ε y x1 , la
conexión a través de u permite mayor flexibilidad en la especificación
considerando que la relación entre x1 y ε puede darse porque la totalidad de
ε se relaciona con x1 o porque un componente de ε se relaciona con x1 .
Además, el error u contiene cualquier otro efecto sobre x1 que no esté en ε .
También se observa una variable exógena, z , conocida como variable
instrumental, cuyo rol se explicará más adelante. La variable instrumental
se busca por fuera del modelo de manera que no tenga relación con ε pero sí
con la variable contaminada x1 .
ε
y
β0
1
α0
β1
x1
u
γ2
α1 β2
z x2 Figura 7.1
Las ecuaciones de y y x1 son
y = β 0 + β1 x1 + β 2 x2 + ε (7.1)
x1 = α 0 + α1 z + γ 2 x2 + u (7.2)
Remplazando (7.2) en (7.1) tenemos
y = β 0 + β 1(α 0 + α1 z + γ 2 x2 + u ) + β 2 x2 + ε
(7.3)
= β 0 + β1 (α 0 + α1 z + γ 2 x2 ) + β 2 x2 + β1u + ε
donde la variable dependiente y se expresa en función de una constante, de

la variable α 0 + α 1 z + γ 2 x 2 , de x 2 , y del término de error β1u + ε . Intuimos que
una solución al problema de endogeneidad es posible ya que el término
α 0 + α 1 z + γ 2 x 2 no está contaminado por ε ni u (porque z y x 2 son
exógenas). De manera que si pudiéramos correr (7.3), esto es, y contra una
constante, α 0 + α 1 z + γ 2 x2 y x 2 , obtendríamos una estimación insesgada del
coeficiente β1 .
Infortunadamente, no podemos correr y contra α 0 + α 1 z + γ 2 x 2 porque no
tenemos los coeficientes α 0 , α1 , γ 2 . Lo mejor que podemos hacer es obtener
xˆ1 = αˆ 0 + αˆ 1 z + γˆ 2 x 2 , corriendo x1 contra una constante, z y x 2 . Pero entonces,
como se verá más adelante, las propiedades del β1 estimado serán
asintóticas; esto es, al usar xˆ1 = αˆ 0 + αˆ 1 z + γˆ 2 x 2 como variable explicativa (en
lugar de α 0 + α 1 z + γ 2 x2 ) al menos obtenemos una estimación consistente de
β1 . Sesgado y consistente es mejor que sesgado e inconsistente.
Una variable instrumental es un deus ex machina; cuando todo parece
perdido llega algo de afuera y soluciona el problema. Es una variable, como
z , externa al modelo, que no está contaminada por el error ε (esto es, se
debe cumplir que Ez ′ε = 0 ) y que está relacionada con la variable problema
x1 . Es importante subrayar que no siempre es posible encontrar una variable
que cumpla con las condiciones anteriores, caso en el cual no podrá hacerse
la estimación por variable instrumental.
El método de variable instrumental puede implementarse en dos etapas.
Primero se corre (7.2) y, con el estimado de esta, se corre (7.1): esto es, en la
primera etapa se corre x1 contra una constante, z y x 2 y se obtiene
xˆ1 = αˆ 0 + αˆ 1 z + γˆ 2 x 2 , y en la segunda etapa se corre y contra una constante,

x̂1 y x 2 , y se obtiene la estimación de variable instrumental 2SLS (del
inglés, Two Stage Least Squares). Los coeficientes estimados se agrupan en
el vector β̂VI .
En virtud de la primera etapa, x1 puede escribirse como
x1 = αˆ 0 + αˆ1 z + γˆ 2 x2 + uˆ = xˆ1 + uˆ (7.4)
donde, por las propiedades de MCO, se cumple que
uˆ = 0 , x′2uˆ = 0 , z′uˆ = 0 y xˆ1′uˆ = 0 (7.5)
Para la segunda etapa, observamos que al remplazar x1 por xˆ1 + uˆ ,
y = β 0 + β1 x1 + β 2 x2 + ε = β 0 + β1 ( xˆ1 + uˆ ) + β 2 x2 + ε
(7.6)
= β 0 + β1 xˆ1 + β 2 x2 + uˆβ1 + ε = Xˆβ + uˆβ1 + ε
donde
1 xˆ11 x21 
1 xˆ x22 
X =
ˆ 12
(7.7)
M M M 
 
1 xˆ1n x2 n 
β0 
β =  β1  (7.8)
 β 2 
Por otro lado,
Xˆ = Zαˆ = Z ( Z ′Z ) −1 Z ′X (7.9)
siendo
1 z1 x21 
1 z x22 
Z = 2
(7.10)
M M M 
 
1 zn x2 n 
1 αˆ 0 0
αˆ = 0 αˆ1 0 (7.11)
0 γˆ2 1
La estimación de la segunda etapa es la estimación por variable

instrumental la cual, usando (7.6), puede expresarse como
βˆVI = ( Xˆ ′Xˆ ) −1 Xˆ ′y = ( Xˆ ′Xˆ ) −1 Xˆ ′( Xˆβ + uˆβ1 + ε )

(7.12)
= β + ( Xˆ ′Xˆ ) −1 Xˆ ′(uˆβ1 + ε ) = β + ( Xˆ ′Xˆ ) −1 Xˆ ′ε
El último paso se debe a que, de (7.5), uˆ = 0 , xˆ1′uˆ = 0 y x ′2 uˆ = 0 , esto es, el

residuo û es ortogonal a todas las variables explicativas que están en X̂ .
En general, el estimador de variable instrumental es sesgado porque su
valor esperado es diferente de β ,
EβˆVI = β + E [( Xˆ ′Xˆ ) −1 Xˆ ′ε ] ≠ β (7.13)
donde no es posible escribir Eε Xˆ = 0 porque, como se ve de (7.9), X̂ está

relacionada con ε a través de los coeficientes estimados α̂ con los cuales se
construyó x̂1 , coeficientes cuya expresión incluye x1 (que incluye ε ).
Afortunadamente, aunque sesgado, β̂VI es consistente, esto es, de (7.12),
−1 −1
 Xˆ ′Xˆ   Xˆ ′uˆβ1   Xˆ ′Xˆ   Xˆ ′ε 
plim βˆVI = β + plim   plim 
  n 
 + plim 
 n 
 plim 
 n 

 n       
−1
(7.14)
 Xˆ ′Xˆ   Xˆ ′ε 
= β + plim  
 plim  =β

 n   n 
 Xˆ ′uˆβ 
donde, como se anotó antes, el vector plim   es cero porque û es
1
 n 
ortogonal a todas las variables de X̂ . Por otro lado, para ver por qué es cero
 Xˆ ′ε 
el vector plim   es conveniente reescribirlo usando Xˆ = Zα̂ ,
n 
 
 Xˆ ′ε  αˆ ′Z ′ε 
plim   = plim   Z ′ε 
 = plim αˆ ′ plim 
 Z ′ε 
 = α ′ plim   = α ′ (0 ) = 0
      
 n  n n n
Obviamente, el modelo del ejemplo que hemos venido desarrollando

puede generalizarse considerando más variables endógenas ( x1 ,K, xg ) y más
variables de control ( xg +1 ,K, xk ), expresándose como
y = β 0 + β1 x1 + L + β g xg + β g +1 xg +1 + L + β k xk + ε (7.15)
Para cada endógena xi ( i = 1,K, g ) hay una regresión de primera etapa, cuya
estimación x̂i entra remplazando a xi en la regresión de segunda etapa (más
el efecto uî βi que se suma al error).
En cualquier caso, se requiere al menos una variable instrumental por
cada variable endógena, de lo contrario habría multicolinealidad perfecta
entre las columnas de la matriz X̂ y la segunda etapa no correría. Esto es, el
número de variables instrumentales debe ser mayor o igual que g .
Por ejemplo, yendo al extremo, si tenemos una endógena x1 y no usamos
variable instrumental alguna, la x̂1 que se forme en la primera etapa será una
combinación lineal exacta de las demás variables exógenas. Al introducir
una instrumental se soluciona este problema.
Si tenemos dos variables endógenas, digamos x1 y x2 , y solo una
instrumental, los x̂1 y x̂ 2 de la primera etapa terminarán siendo
combinaciones lineales de las columnas de X̂ . Esto se puede ilustrar
suponiendo el modelo y = β 0 + β1 x1 + β 2 x2 + ε y las estimaciones de la primera
etapa xˆ1 = αˆ 0 + αˆ1 z y xˆ2 = γˆ0 + γˆ1 z . Tendremos multicolinealidad perfecta en la
segunda etapa al correr y contra una constante y x̂1 y x̂2 porque
αˆ1γˆ0 αˆ1
xˆ1 = αˆ 0 − + xˆ2 . Pero si usamos dos instrumentales, la combinación
γˆ1 γˆ1
lineal no es posible. Y así sucesivamente con más variables.
Subrayamos de (7.14) que la consistencia del vector β̂VI requiere que

plim (Xˆ ′uˆβ1 / n ) = 0 , lo cual puede incumplirse si las regresiones de la primera
etapa no incluyen todas las variables exógenas (de control e instrumentales);
en esencia, porque solo puede garantizarse que los residuos de una regresión
de primera etapa sean ortogonales a las variables explicativas incluidas en
esa regresión.
Incluso cuando haya una sola variable endógena, el caso más común en la
práctica, deben incluirse todas las variables exógenas (de control e
instrumentales) en la primera etapa. Por ejemplo, si en la regresión de la
primera etapa (7.2) excluimos la variable de control x2 , y existe relación
entre x1 y x2 como se ilustra en la Figura 7.1, el residuo estimado û recoge
el efecto de x2 evitando que plim (Xˆ ′uˆβ1 / n ) = 0 sea cero (porque que X̂
incluye x2 ). Aun si la estimación del coeficiente β1 de la variable de interés
fuera consistente, se requiere la consistencia de los demás coeficientes para
la consistencia del εˆ calculado a partir de la regresión original ((7.1) en este
caso) y de las varianzas de los coeficientes estimados (que se verán más
adelante). También para que las pruebas de hipótesis sean confiables.
En un modelo aumentado con más endógenas y exógenas se presentan
otras posibilidades. Para ilustrar, supongamos un modelo con dos endógenas
( x1 , x2 ), una de control ( x3 ) y tres instrumentales ( z1 , z2 , z3 ). Si la variable de
control x3 se incluye en la primera etapa para construir x̂1 pero se omite al
construir x̂ 2 , entonces el residuo û 2 podría contener el efecto de x3 y así
estar relacionado con x̂1 y con x3 . De igual manera, y parafraseando, si la
variable instrumental z 3 es utilizada en la primera etapa para construir x̂1
pero no x̂ 2 entonces el residuo û 2 podría contener el efecto de z 3 (si hay
relación entre x 2 y z 3 ) y así estar relacionado con x̂1 .
En resumen, para evitar problemas, es recomendable incluir todas las
variables instrumentales y de control en cada una de las regresiones de
primera etapa.
Caso Exactamente Identificado
Se conoce como caso exactamente identificado cuando hay una variable

instrumental por cada variable contaminada (endógena). Un ejemplo es el
modelo de la Figura 7.1 donde x1 está contaminada y existe una z como
instrumental. Un modelo sobreidentificado, que veremos más adelante, es
aquel donde hay más variables instrumentales que variables contaminadas.
El caso exactamente identificado se puede tratar en dos etapas pero nos

interesa detallarlo un poco por su valor didáctico y encontrar una fórmula
para calcular el estimador sin recurrir a las dos etapas de manera explícita.
Similar a (7.10) definimos Z (mayúscula) como la matriz que reúne
todas las variables instrumentales individuales z (minúscula). A
continuación se ilustra la matriz Z para el caso donde solo x1 está
contaminada y donde hay varias explicativas exógenas o de control x 2 ,K, x k ,
1 z1 x 21 L x k1 
1 z x 22 L x k 2 
Z= 2
(7.16)
M M M O M 
 
1 z n x2n L x kn 
Como antes, si una variable no está contaminada se usa como su propio

instrumento; de manera que x 2 ,K, x k son sus propios instrumentos. Por decir
algo, si la constante o las de control no están contaminadas, como en este
ejemplo, se asigna la constante como variable instrumental de la constante y
cada variable de control como variable instrumental de ella misma. Esto
facilita la notación matricial. En la primera etapa estaríamos corriendo cada
variable original, contaminada o no, contra todas las instrumentales.
Siguiendo con el ejemplo, obviamente la constante estimada será igual a la
constante y xˆ 2 = x 2 , xˆ 3 = x3 , …, xˆ k = x k .
Con esto en mente, para el caso exactamente identificado, el orden de la
matriz Z será el mismo que el orden de la matriz X , esto es, n × k + 1 . Las
columnas de la matriz Z de instrumentos (que incluye las variables no
contaminadas como sus propios instrumentos) no deben estar relacionadas
con el error pero sí con las variables explicativas de la regresión, esto es,
1
plim Z ′ε = 0 (7.17)
n
1
plim Z ′X = Σ ZX (7.18)
n
donde Σ ZX es una matriz no singular (no singular quiere decir que tiene
inverso).
Supongamos el modelo lineal clásico, y = Xβ + ε , donde EX ′ε ≠ 0 . Para

obtener la estimación por variable instrumental multiplicamos ambos lados
1
por Z′
n
1 1 1
Z ′y = Z ′Xβ + Z ′ε (7.19)
n n n
tomamos límite de probabilidad y usamos los supuestos sobre Z ,
1 1 1 1
plim Z ′y = plim Z ′Xβ + plim Z ′ε = plim Z ′Xβ (7.20)
n n n n
−1
1
premultiplicando por plim  Z ′X  obtenemos
n 
−1
1  1 −1
plim  Z ′X  plim Z ′y = plim (Z ′X ) Z ′y = β (7.21)
n  n
Si decimos que el estimador de variable instrumental β̂VI es la expresión
β̂VI = (Z ′X )−1 Z ′y (7.22)
vemos que β̂VI tiene plim βˆVI = β y es, por lo tanto, un estimador consistente.
Nótese que existe similitud con la expresión del estimador de MCO.
Subrayamos que la fórmula (7.22) es válida solo para el caso exactamente
identificado (más adelante encontraremos una fórmula general). Con
identificación exacta no es fácil encontrar la media o varianza del estimador
β̂VI . También, de manera similar a la derivación de MCO, la covarianza
entre Z y εˆ es cero, Z ′εˆ = Z ′( y − X ( Z ′X ) −1 Z ′y ) = Z ′y − Z ′X ( Z ′X ) −1 Z ′y = 0 .
Dado que en muestras finitas tanto MCO como VI son sesgados, y que la
ventaja (consistencia) de VI solo se hace evidente asintóticamente, puede
suceder que en muestras pequeñas MCO sea mejor que VI según el criterio
del mínimo error cuadrado medio. Por esta razón se sugiere presentar ambas
estimaciones en los estudios econométricos.
Ejemplo con constante y una variable

Sea el modelo y = β 0 + β1 x + ε donde Ex ′ε ≠ 0 y donde existe z que sirve para

la estimación de variable instrumental. Usando la fórmula β̂VI = (Z ′X )−1 Z ′y
para el caso exactamente identificado tenemos
−1
 1 x1    y1 
 
ˆ  βˆ0VI    1 1 L 1  1 x2    1 1 L 1   y2 
βVI = 
ˆ  
= =
 β1VI    z1 z2 L zn  M M    z1 z2 L zn   M 
   
 1 xn    yn 
(7.23)
−1
 ∑ zx − ∑x  ∑ zx ∑ y − ∑ x ∑ zy 
 n

∑   ∑  =  ∆
x   y  ∑ y  
∆  = ∆


∑ z ∑ zx ∑ zy   − ∑ z n  ∑ zy   − ∑ z ∑ y + n∑ zy 
 ∆ ∆   ∆ 
donde el determinante es ∆ = n∑ zx − ∑ z ∑ x . Nótese que la matriz Z ′X no

es simétrica.
Ejemplo con dos variables
Sea el modelo y = β1 x1 + β 2 x 2 + ε donde Ex 2′ ε ≠ 0 y donde existe la variable

instrumental z . Usando la fórmula para β̂VI tenemos
−1
  x11 x21    y1 
 
ˆ
 βˆ1VI    x11 x12 L x1n   x12 x22    x11 x12 L x1n   y2 
βVI =  =
βˆ    z1 z2 L zn   M M    z1 z2 L zn   M 
 2VI  
   
  x1n x2 n    yn 
−1
 ∑ z x2 − ∑ x1 x2 
 ∑ x12
=
∑ x1x2  ∑ 1  =  ∆
  x y  ∆
 ∑ x1 y 
  (7.24)
∑ z x1 ∑ z x2   ∑ z y   − ∑ z x1 ∑ x12   ∑ z y 
 ∆ ∆ 
 ∑ z x2 ∑ x1 y − ∑ x1 x2 ∑ z y 
 
= ∆ 
 − ∑ zx1 ∑ x1 y + ∑ x1 ∑ z y 
2
 ∆ 
donde el determinante es ∆ = ∑ x12 ∑ z x 2 − ∑ z x1 ∑ x1 x 2 .
Caso Exactamente Identificado en Dos Etapas
La fórmula β̂ VI = (Z ′X )−1 Z ′y , derivada para el caso exactamente

identificado, calcula β̂VI directamente de los datos sin hacer explícitas la
primera y segunda etapa. Mostraremos a continuación que
βˆVI = ( Z ′X ) −1 Z ′y = ( Xˆ ′Xˆ ) −1 Xˆ ′y , donde
1 xˆ11 x21 L xk 1 
1 xˆ x22 L xk 2 
X =
ˆ 12
(7.25)
M M M O M 
 
1 xˆ1n x2 n L xkn 
es equivalente a correr las dos etapas. La expresión ( Xˆ ′Xˆ ) −1 Xˆ ′y es la

regresión de la segunda etapa y Xˆ = Zαˆ = Z ( Z ′Z ) −1 Z ′X es la regresión de la
primera etapa. Remplazando la estimación de la primera etapa en la segunda
etapa,
(( )(
( Xˆ ′Xˆ ) −1 Xˆ ′y = X ′Z ( Z ′Z ) −1 Z ′ Z ( Z ′Z ) −1 Z ′X ))
−1
X ′Z ( Z ′Z ) −1 Z ′y (7.26)
y, notando que Z ′Z ( Z ′Z ) −1 es una matriz unitaria, simplificamos así
(
= X ′Z ( Z ′Z ) −1 Z ′X )
−1
X ′Z ( Z ′Z ) −1 Z ′y
(
= ( Z ′X ) −1 X ′Z ( Z ′Z ) −1 )−1
X ′Z ( Z ′Z ) −1 Z ′y (7.27)
= ( Z ′X ) −1 Z ′y
igual a la fórmula obtenida para el estimador de variable instrumental en el

caso exactamente identificado.
Restricción de Exclusión
Una variable instrumental z no puede ser una de las variables

explicativas de la regresión original; esto es, debe estar excluida de la
regresión original. Para ilustrar, veamos la Figura 7.2 cuyo modelo está
compuesto por las ecuaciones y = β1 x1 + β z z + ε y x1 = α z + ε .
ε
y
β1
x1
α
βz
Figura 7.2
z
Si mantenemos la variable z en el modelo y simultáneamente intentamos

usarla como variable instrumental, tendríamos multicolinealidad perfecta
porque estaríamos usando z y xˆ1 = α̂ z como variables explicativas en la
regresión de la segunda etapa.
Si omitimos la variable z del modelo y simultáneamente intentamos
usarla como variable instrumental, estimaríamos un β̂1 inconsistente. La
razón es que si z está en la regresión, y la omitimos, entonces β z z entra a
formar parte del error del modelo el cual estará relacionado con xˆ1 = α̂ z ,
sesgando la estimación de la segunda etapa y haciéndola inconsistente
porque el sesgo no desaparece asintóticamente. Definiendo x1 = xˆ1 + uˆ , donde
û recoge el efecto de ε y de cualquier otra variable excluida que afecte x1 , y
recordando (7.14), encontramos para la regresión de la segunda etapa que
plim βˆ1 = plim ( xˆ1′xˆ1 ) −1 xˆ1′ y = plim ( xˆ1′xˆ1 ) −1 xˆ1′ ( xˆ1β1 + uˆβ1 + zβ z + ε )
(7.28)
= β1 + plim ( xˆ1′xˆ1 ) −1 xˆ1′zβ z ≠ β1
Ejemplo
Supongamos los siguientes valores numéricos en la Figura 7.2,
y = 3x1 + z + ε
x1 = 0.5 z + ε
Al correr la regresión original de y contra x1 y z por MCO se omite ε , de

manera que, usando ε = x1 − 0.5 z ,
 coeficiente de x1 en una 
E ( βˆ1 ) = β1 +  (1) = β1 + (1)(1) = 3 + 1 = 4
 regresión de ε contra x1 y z 
 coeficiente de z en una 
E ( βˆz ) = β z +  (1) = β z + (−0.5)(1) = 1 − 0.5 = 0.5
 regresión de ε contra x1 y z 
Con lo anterior, el resultado de la regresión es
yˆ = 4 x1 + 0.5 z
donde, como era de esperarse, β̂1 y β̂ z son sesgados.

Ahora veamos, para una muestra grande, qué ocurre si omitimos z de la
regresión para usarla como variable instrumental. En la segunda etapa
tendremos,
 coeficiente de xˆ1 en una   coeficiente de xˆ1 en una 

E ( βˆ1 ) = β1 +  (1) +  (1)
 regresión de z contra ˆ
x1  regresión de ε contra ˆ
x1
= β1 + (2)(1) + (0)(1) = 3 + 2 = 5
donde el coeficiente de x̂1 en una regresión de z contra x̂1 es 2 porque

xˆ1 = 0.5 z de manera que z = 2xˆ1 , mientras que el coeficiente de x̂1 en una
regresión de ε contra x̂1 tiende a 0 para muestra grande. Esta estimación da
lejos de β1 = 3 , que es el valor verdadero del coeficiente (de hecho, es peor
que la regresión por MCO). El ejercicio anterior puede simularse en algún
software econométrico; cuanto mayor n , más preciso por las características
asintóticas del modelo.
Fuentes de Variables Instrumentales

El requisito de que la variable instrumental no debe estar relacionada con

el error de la regresión es difícil de probar estadísticamente y en su lugar
generalmente se apela a argumentos heurísticos convincentes (lo que se
conoce coloquialmente como contar una historia). El requisito de que la
variable instrumental debe estar relacionada con la endógena es más fácil de
probar, de hecho, se prueba con el resultado de la primera etapa. Sin
embargo, es necesario asegurar que la variable instrumental propuesta z no
sea causada por la endógena x sino al contrario; ya que si z es causada por
la endógena entonces contiene el mismo error que hace que x sea endógena
y x̂ de la primera etapa estará contaminada sesgando el β̂ de la segunda
etapa. Esto se ilustra en la Figura 7.3 donde, si bien no existe una trayectoria
directa de ε a z , si hay una conexión vía x . En este caso, z no sirve como
variable instrumental.
ε
y
α β
z x
Figura 7.3
Una aplicación tradicional de variable instrumental es en la estimación de

funciones de oferta y demanda ya que se puede presentar sesgo de
simultaneidad. Los datos observados que provee el mercado son de
equilibrio entre estas dos funciones, son cruces de oferta y demanda. Correr
precio contra cantidad ajusta una regresión a esos puntos de equilibrio (que
resultan del desplazamiento de las curvas) y no garantiza que se estime
ninguna de las dos curvas, a menos que una de ellas no se mueva. Este
último comentario es la clave para lograr la estimación porque así todos los
puntos de equilibrio yacen sobre la curva que no se mueve, en otras palabras,
los puntos de equilibrio dibujan dicha curva.
Un ejemplo (tomado de Stock y Watson (2012, capítulo 10)) nos sirve de
ilustración. Supongamos que queremos estimar la elasticidad precio de la
demanda de mantequilla y corremos la regresión
log Qi = α + β log Pi + ε i
la cual, al estar en logaritmos arrojaría directamente la estimación de la

elasticidad β . Sin embargo, β̂ estaría sesgado dado que, por ecuaciones
simultáneas, el precio también es función de la cantidad, contaminándolo
con el error de la regresión. Buscamos una variable instrumental relacionada
con el precio pero no con el error de la ecuación de demanda. Una variable
instrumental propuesta es la cantidad de lluvia en la zona ganadera,
suponiendo que la lluvia afecta la oferta pero no directamente a la demanda;
por ejemplo, más lluvia aumenta la oferta, lo que afecta el precio. En la
primera etapa se corre log Pi contra una constante y log z i (o solo z i ). En la
segunda etapa se corre log Qi contra una constante y el estimado de log Pi
obtenido en la primera etapa.
En general, cuando se trate de ecuaciones simultáneas, las variables
exógenas de otras ecuaciones del sistema son candidatas para ser usadas
como instrumentales al estimar la ecuación de interés. Cuando se trate de
datos en el tiempo, los rezagos de variables (su pasado) pueden servir como
instrumentales, bajo el supuesto de que el pasado de una variable está
relacionado con su presente pero no con el error presente; explicar una
variable usando sus rezagos es lo que hacen los modelos autorregresivos de
series de tiempo (que se verán más adelante).
Otro ejemplo tradicional [ver Levitt (2002)] trata de responder la ubicua
y muy importante pregunta de si más policías tiene efecto sobre el nivel de
crimen. Es un problema de ecuaciones simultáneas porque el crimen es
función del número de policías pero, a su vez, el número de policías es
función del nivel del crimen. Así las cosas, una estimación por MCO de
nivel de crimen contra número de policías arrojará un resultado sesgado,
posiblemente un coeficiente positivo. Como variable instrumental para
número de policías se propone el ciclo de reelección de alcaldes en
diferentes ciudades de Estados Unidos con el argumento de que el ciclo de
reelección está relacionado con el número de policías pero no con el error
que afecta el nivel de crimen. Otra variable instrumental propuesta para
número de policías es el número de bomberos debido a que esta última está
relacionada con el presupuesto que también afecta el número de policías. La
estimación por variable instrumental concluye, aunque con baja significancia
estadística, que más policía disminuye el nivel de crimen.
Angrist y Krueger (1991) intentan medir el efecto de años de educación
sobre ingresos pero enfrentan el problema de la variable relevante omitida
‘habilidad innata’. Como instrumento, los autores utilizaron el trimestre de
nacimiento de la persona bajo el supuesto de que no se relaciona con la
habilidad pero sí con la cantidad de educación porque, según la ley
norteamericana aplicable a la muestra utilizada, un niño comienza la escuela

en el año en que cumple 6, y tiene la opción de abandonar sus estudios al
cumplir 16. Quienes nacen al inicio del año son mayores cuando ingresan a
la escuela y han acumulado menos educación al llegar a los 16 años de edad,
en comparación con quienes nacen más tarde en el año. La estimación de VI
arroja una relación positiva entre educación e ingresos, parecida en magnitud
a la de MCO por lo que los autores concluyen que el sesgo no es
preocupante. En una crítica, Buckles y Hungerman (2013) ponen en duda la
exogeneidad del trimestre de nacimiento como variable instrumental
notando que, en la muestra particular utilizada, las mujeres que dan a luz a
comienzos del año (durante el invierno) presentan algunas características
particulares, como ser más jóvenes, menos educadas y menos casadas, que
podrían influir sobre el desempeño de sus hijos. Por otro lado, Bound, Jaeger
y Baker (1995) argumentan que la variable trimestre de nacimiento tiene una
débil relación con cantidad de educación, lo que se conoce como
instrumento débil, haciendo menos confiables los resultados de la
estimación.
En modelos con interacciones, la interacción de los instrumentos sirve
como instrumento de la interacción. Por ejemplo, en el modelo
y = β 1 x1 + β 2 x 2 + β 3 x1 x 2 + ε donde las variables explicativas x1 y x 2 son
endógenas y se presume que x1 x 2 también, si z1 y z 2 son variables
instrumentales para x1 y x 2 , entonces z1 z 2 sirve como variable instrumental
para la variable de interacción x1 x 2 . Si solamente x1 es endógena y existe
una variable instrumental z para x1 , entonces z y x 2 z pueden usarse como
instrumentales. Es de advertir que no siempre es necesario recurrir a VI para
la estimación del coeficiente de la variable de interacción β3 porque, en
ciertos casos generales, la estimación por MCO de este coeficiente es
consistente [ver Bun y Harrison (2014)].
Instrumentos Débiles
La regresión de la primera etapa sirve para evaluar si las variables

instrumentales son débiles, esto es, si tienen poco poder explicativo sobre la
variable endógena. Consideremos el modelo y = β1 x1 + β 2 x 2 + ε donde
Ex1′ε ≠ 0 y existe una variable instrumental adecuada para x1 . En la primera
etapa corremos x1 = α1 z + α 2 x2 + u . Si α 1 = 0 entonces la variable instrumental
es irrelevante. Débil es cuando α 1 no es cero pero está cerca. En este caso el
estimador de variable instrumental puede ser inconsistente. En general se
considera que no hay problema de debilidad en z si la prueba F de la

regresión de la primera etapa excede 10 (o si la prueba t excede 10 = 3.33 ).
Según Stock y Yogo (2005) esta recomendación disminuye el sesgo de la
estimación por VI a menos de 10 por ciento del sesgo de la estimación por
MCO. Otros autores, como Cameron y Trivedi (2005 p. 109), dicen que
F > 10 puede ser demasiado exigente y que en su lugar se puede usar
F > 6.5 , que aún genera un sesgo menor que 20 por ciento del sesgo de
MCO, incluso F > 5 aún mantiene el sesgo cerca del 20 por ciento.
También es un problema cuando hay demasiados instrumentos porque el
sesgo aumenta con el número de variables instrumentales hasta que
finalmente iguala al de MCO. Esto simplemente quiere decir que, en la
muestra, a medida que aumenta el número de variables instrumentales en la
regresión de la primera etapa, R 2 → 1 y xˆ → x . Supongamos que tenemos
una variable endógena y que el números de variables instrumentales es igual
a n . Así, la regresión de la primera etapa arroja un R 2 = 1 y la estimación de
la segunda etapa coincide con la de MCO; esto es, será sesgada e
inconsistente.
Prueba de Hausman
Nos interesa ver si la variable x bajo sospecha está o no relacionada con

el error. Si no lo está entonces la estimación por variable instrumental es
innecesaria y la regresión se puede estimar por MCO. Supongamos el
modelo clásico y = Xβ + ε donde tenemos como hipótesis nula H 0 : EX ′ε = 0 .
Corremos el modelo tanto por MCO como por VI. Si H 0 es correcta
entonces ambas estimaciones deben dar similares porque, bajo H 0 , ambas
son consistentes. Si las estimaciones son muy diferentes entonces se rechaza
H 0 porque bajo la alterna, H A : EX ′ε ≠ 0 , la estimación por MCO es
inconsistente. La expresión de la prueba es
′
(βˆ
VI )( )(−1
− βˆMCO Var ( βˆVI ) − Var ( βˆMCO ) βˆVI − βˆMCO ) (7.29)
la cual converge a una chi cuadrado con grados de libertad igual al número
de variables endógenas. La prueba estimada debe ser pequeña bajo H 0 y
grande bajo H A . La prueba no es válida si los instrumentos utilizados en la
estimación no son válidos. La prueba requiere que bajo H 0 ambos
estimadores sean consistentes y que además uno de ellos, MCO en este caso,
sea eficiente para que Var ( βˆVI ) > Var ( βˆMCO ) . Sin embargo, en la muestra a
veces sucede que Var ( βˆVI ) < Var ( βˆMCO ) y la prueba no funciona. Por ejemplo,
si hay heteroscedasticidad, MCO incumple el teorema de Gauss Markov y
deja de ser eficiente.
Por estas razones se apela a otra versión de la prueba que involucra una
regresión auxiliar [ver Kennedy (2008), p. 154]. Para ilustrar, supongamos el
modelo y = β0 + x1β1 + x2 β 2 + ε donde x 2 es exógena y vamos a probar la
hipótesis nula H 0 : Ex1′ε = 0 . Supongamos que tenemos dos variables
instrumentales, aunque podría ser una o más de dos. Corremos la primera
etapa
x1 = α 0 + α1 z1 + α 2 z2 + α 3 x2 + u (7.30)
y se guardan los residuos û . Estos residuos contienen la parte de x1 no

explicada por las variables exógenas de manera que, si no se cumple la
hipótesis nula, û podría contener ε y sería relevante para explicar y en
ausencia de ε . A continuación se corre el modelo adicionando û como
explicativa (obviamente al correr la regresión se omite ε ),
y = β 0 + x1β1 + x2 β 2 + γ uˆ + ε (7.31)
Bajo la hipótesis nula tenemos que Ex1′ε = 0 y el coeficiente γ = 0 , lo cual se

puede probar con una t Student, o con una F si hay otras endógenas (por
ejemplo, si x 2 también fuera endógena y se incluyen los residuos de su
primera etapa).
Función de Control (Control Function)
Notamos en el ejemplo anterior que si Ex1′ε ≠ 0 entonces el residuo de la

primera etapa contiene ε . En otras palabras, tenemos una variable que
contiene ε que podemos usar como proxy de ε . Eso es precisamente lo que
hace la variante de la estimación por variable instrumental llamada función
de control (control function) porque controla por ε . Se corre la regresión
original adicionando los residuos û de la primera etapa,
y = β 0 + x1β1 + x2 β 2 + γ uˆ + ε , con la variable x1 original, no x̂1 . El coeficiente
estimado β̂1 será consistente porque, aunque obviamente se omite ε de la
regresión, su efecto se incluye en û . En cualquier caso, se requieren
variables instrumentales adecuadas. En modelos lineales la estimación por
VI y por función de control arroja resultados similares; la diferencia está en

ciertos modelos no lineales donde la función de control se adapta mejor.
Estimador Generalizado de Variable Instrumental
Consideramos un modelo que puede tener múltiples variables endógenas,

de control e instrumentales. Derivamos ahora el estimador de variable
instrumental para este modelo extendido apelando al concepto de momentos
[ver, por ejemplo, Verbeek (2012)]. Recordamos que el supuesto 3, repetido
aquí,
 Eε 1 X  0
 
 Eε 2 X  0
Eε X = 0 = = 
n×1  M  M
   
 Eε n X  0
implica (a través de expectativas iterativas) que el primer momento de xiε i

es igual cero, esto es,
E xiε i = EE xiε i X = E xi Eε i X =0 (7.32)
lo cual, según se vio en el capítulo 2, es suficiente para asegurar la propiedad

de consistencia en la estimación por MCO. En la muestra, el momento
anterior corresponde a
1 n
∑ xiε i = 0
n i =1
(7.33)
Supongamos el modelo
yi = x1i β 1 + x 2i β 2 + ε i
Al aplicar MCO, los momentos estimados en la muestra igualados a cero

serían
1 n
∑ x1i ( yi − x1i βˆ1 − x2i βˆ2 ) = 0
n i =1
(7.34)
1 n
∑ x2i ( yi − x1i βˆ1 − x2i βˆ2 ) = 0
n i =1
los cuales proveen las dos ecuaciones necesarias para estimar las dos
incógnitas, β1 y β 2 . Si una de las dos ecuaciones anteriores no es igual cero,
pero equivocadamente la usamos igualándola a cero, alguno o ambos β1 o
β 2 estimados resultarían sesgados e inconsistentes. Por otro lado, si uno de
los dos momentos no fuera igual a cero sino igual a una constante conocida
c , entonces lo podríamos usar para estimar β1 y β 2 ; el problema es que no
conocemos el valor de c .
Siguiendo con el ejemplo, supongamos que el primer momento es igual a
un valor desconocido diferente de cero; esto es, Ex1iε i ≠ 0 . En este caso la
estimación por MCO sería inconsistente. Pero si podemos encontrar otro
momento que involucre una variable z ortogonal a ε , esto es,
1 n
∑ zi ε i = 0
n i =1
(7.35)
recuperamos las dos ecuaciones necesarias para resolver las dos incógnitas y
podremos proceder con la estimación, solo que en este caso ya no se llama
estimación por MCO sino por variable instrumental VI. Los momentos
serían
1 n
∑ zi ( yi − x1i βˆ1VI − x2i βˆ2VI ) = 0
n i =1
(7.36)
1 n
∑ x2i ( yi − x1i βˆ1VI − x2i βˆ2VI ) = 0

n i =1
donde z es la variable instrumental que no está relacionada con el error ε i .

Buscando generalizar, llamamos z a cualquier variable no relacionada
con el error, ya sea una de las exógenas de control originales (que sirven
como sus propios instrumentos) o una instrumental. Con esta notación,
cualquier momento se puede escribir de la siguiente manera,
1 n
∑ zi ( yi − xi′β )
n i=1
(7.37)
donde xi′ = [x1i x 2i L x ki ] y β es un vector de orden k × 1 (incluyendo la

constante, si la hay). Para ilustrar,
  β1  
 β 
1 n 1 n 
∑ zi ( yi − x1i β1 − x2i β 2 − L − xki β k ) = n ∑ zi yi − [x1i L xki ]   
2
x2i
n i =1 i =1
  M 
  
  β k  
expresión que tiene la forma (7.37).

Es importante notar que cada momento es un escalar (por ser una suma) y
que debe haber por lo menos k de ellos (igual al número de incógnitas). Si
denotamos como R el número de momentos entonces debe darse R ≥ k . Así,
el momento (7.37) es solo uno de los R disponibles.
Si estamos en el caso exactamente identificado tendremos R = k , esto es,
tantas ecuaciones como incógnitas, y será posible encontrar k coeficientes
que hagan cero los momentos. Pero si estamos en el caso sobreidentificado,
donde hay más momentos que incógnitas, R > k , no podremos igualar todos
los momentos a cero porque tendremos más ecuaciones que incógnitas.
Podríamos desechar momentos para quedarnos con exactamente k , pero
esto sería perder información y eficiencia. Además, encontrar variables
instrumentales es suficientemente difícil para desperdiciarlas. Ya que no
podemos igualar todos los momentos a cero (excepto si R = k ), lo que
podemos hacer es encontrar los coeficientes que minimicen la suma de los R
momentos al cuadrado,
′
1 n  1 n 
min  ∑ zi ( yi − xi′β )  W  ∑ zi ( yi − xi′β )  (7.38)
{β }  n i =1  R × R  n i =1 
1× R R ×1
donde W es una matriz positiva definida de ponderaciones de orden R × R

que se escoge para dar más peso a los momentos más confiables o precisos y
menos peso a los más imprecisos.
Reuniendo en la matriz Z , de orden n × R , todas las variables exógenas
del modelo lineal original más las instrumentales, los primeros momentos de
Z ′ε serán E Z ′ε , correspondiendo en la muestra a Z ′ε / n . Con esto, la
expresión (7.38) en notación matricial queda,
1 1
min ( Z ′( y − Xβ ))′ W ( Z ′( y − Xβ ))
{β } n
(7.39)
R× R n
1× R R ×1
la cual es un escalar por ser una suma. Para obtener los β̂VI se igualan a cero
las k derivadas con respecto al vector β ,
− X ′ Z W Z ′ y + X ′Z W Z ′XβˆVI = 0 (7.40)
k ×1
Puede obtenerse alguna intuición acerca de la derivada anterior suponiendo

que la expresión (7.39) es univariada y se deriva con respecto a un escalar
d 1 2 1  d 1 
β ; esto es,  z ( y − xβ )  W = 2  z ( y − xβ ) W  z ( y − xβ ) = 0 .
dβ  n  n  dβ  n 
Volviendo a la notación matricial (7.40), despejamos β̂VI , quedando
βˆVI = ( X ′Z W Z ′X ) −1 X ′Z W Z ′ y (7.41)
k ×1 k ×k k ×1
Nótese que β̂VI no está definido si R < k porque X ′Z tendría rango menor
que k ; y para que exista el inverso ( X ′Z W Z ′X ) −1 la matriz X ′Z W Z ′X debe
tener rango completo k , y el rango de un producto de matrices no supera el
menor rango entre las matrices constituyentes del producto.
Cualquier W positiva definida simétrica (la matriz identidad, por
ejemplo) produce estimadores β̂VI consistentes pero puede demostrarse que
los estimadores son eficientes usando una W proporcional al inverso del
segundo momento (varianza) de Z ′ε (algo similar a GLS). Esto quiere decir
que los momentos muestrales con mayor varianza reciben menos peso en la
estimación porque son menos precisos y confiables. La matriz de varianza
covarianza de Z ′ε es
Var ( Z ′ε ) = E ( Z ′ε ) ( Z ′ε )′ = E Z ′εε ′Z = σ ε2 E Z ′Z
R ×1 1× R
σ ε2
la cual se estima por Z ′Z . En la práctica, en lugar de W utilizamos el
n
σ ε2
inverso de la matriz Z ′Z , de orden R × R , omitiendo dado que este
n
término es solo un factor de escala y no afecta el resultado, y además porque
se cancelaría al remplazar en (7.41), de manera que, finalmente, con

W = ( Z ′Z ) −1 obtenemos
β̂VI = ( X ′Z ( Z ′Z ) −1 Z ′X ) −1 X ′Z ( Z ′Z ) −1 Z ′ y (7.42)
La expresión anterior es la comúnmente encontrada en los libros de texto,

denotada como estimador generalizado de variable instrumental, GIVE.
Mostramos a continuación que el estimador GIVE es equivalente a
mínimos cuadrados en dos etapas (2SLS). Para ello, adicionamos a (7.42) el
término Z ( Z ′Z ) −1 Z ′ que, como puede verse, no altera la expresión.
Obtenemos,
βˆVI = ( X ′Z ( Z ′Z ) −1 Z ′Z ( Z ′Z ) −1 Z ′X ) −1 X ′Z ( Z ′Z ) −1 Z ′y = ( Xˆ ′Xˆ ) −1 Xˆ ′y (7.43)
porque Xˆ = Zαˆ = Z ( Z ′Z ) −1 Z ′X donde la matriz de coeficientes α̂ , de orden

R × k , sale de la regresión de la primera etapa, esto es, de correr cada
columna de X contra todas las columnas de Z . Si en la regresión de la
primera etapa todas las variables instrumentales tienen coeficiente cero,
entonces X̂ será una combinación lineal perfecta de las variables exógenas
(o de control) del modelo resultando en multicolinealidad perfecta. Por lo
tanto, al menos una variable z i debe tener coeficiente diferente de cero en
cada regresión de la primera etapa. Y no puede ser la misma z i la única con
coeficiente diferente de cero en más de una regresión de la primera etapa ya
que, como vimos antes, también se genera multicolinealidad perfecta
impidiendo calcular el estimador de variable instrumental.
La consistencia de β̂VI se basa en un razonamiento similar al que
cimienta (7.12) y (7.14). En este caso y = Xβ + ε = ( Xˆ + Uˆ ) β + ε = Xˆβ + Uˆβ + ε ,
donde Û es una matriz n × k cuyas columnas corresponden a los residuos de
las k regresiones de primera etapa (las columnas correspondientes a las
variables de control tendrán ceros). Con esta notación y usando (7.43)
mostramos la consistencia de β̂VI tomando el límite
−1 −1
 Xˆ ′Xˆ   Xˆ ′Uˆβ   Xˆ ′Xˆ   Xˆ ′ε 
plim βˆVI = β + plim   plim 
  n
 + plim 
  n 
 plim 
 n =β
 (7.44)
 n       
Puede mostrarse que el estimador GIVE, y por lo tanto el de 2SLS, es

asintóticamente normal, lo cual es importante para pruebas de hipótesis. Su
varianza es
Var ( βˆVI ) = σˆ ε2 ( X ′Z ( Z ′Z ) −1 Z ′X ) −1 (7.45)
que también es igual a σˆ ε2 ( Xˆ ′X ) −1 = σˆ ε2 ( Xˆ ′Xˆ ) −1 . La varianza de los errores
1 n
σˆ ε2 = ∑ ( y i − xi′βˆVI ) 2 (7.46)
n i =1
se obtiene con los residuos calculados utilizando los coeficientes β̂VI y las
variables originales del modelo. La consistencia de σˆ ε2 depende de la
consistencia de los elementos del vector β̂VI .
En general, el uso del estimador β̂VI se justifica asintóticamente ya que,
en muestras finitas, su media y varianza pueden ser difíciles de precisar y, en
cualquier caso, es segado (al igual que MCO). Con frecuencia, su varianza
es mayor que la MCO resultando en que MCO sea preferible a VI en
muestras finitas según el criterio de error cuadrado medio. Como se
mencionó antes, conviene mostrar ambas estimaciones. También vale la
pena recordar que el popular R 2 solo tiene sentido para MCO y puede llegar
a ser negativo en la estimación por variable instrumental.
Mostramos a continuación que si R = k la fórmula del estimador β̂VI se
reduce a la fórmula (7.22) que derivamos para el caso exactamente
identificado. Para ello escribimos, de (7.41),
β̂VI = ( Z ′X ) −1W −1 ( X ′Z ) −1 X ′Z W Z ′y = ( Z ′X ) −1 Z ′y (7.47)
Lo anterior también puede derivarse a partir de (7.42). Subrayamos que

(7.47) solo es válida para R = k ya que si R ≠ k los inversos ( Z ′ X ) −1 y
( X ′Z ) −1 no existen porque las matrices Z ′ X y X ′Z no son cuadradas.
Método Generalizado de Momentos
El método generalizado de momentos, GMM, relaja varios supuestos

anteriores; por ejemplo, los momentos ahora pueden ser no lineales y los
errores heteroscedásticos.
Supongamos un vector de momentos m ( β ) que podemos igualar a cero.

Se entiende que el argumento del vector de momentos incluye las
observaciones además del vector β que contiene los k parámetros. Si
tenemos exactamente k momentos, R = k , entonces se igualan a cero y se
despejan los estimados para los k parámetros, aunque posiblemente sea
necesario un procedimiento de optimización numérica. Pero si tenemos más
de k momentos, R > k , entonces es conveniente utilizarlos todos para ganar
eficiencia. Sin embargo, no es posible igualarlos a cero porque tendríamos
más respuestas que incógnitas. Al igual que hicimos antes, se minimiza la
suma de momentos al cuadrado escogiendo β . Para ganar aún más
eficiencia reconocemos que algunos momentos son más precisos y proveen
más información que otros de manera que se les da más peso en la
estimación. Escribimos
min (m( β ))′ W (m( β ))

{β }
(7.48)
1×R R× R R×1
donde m ( β ) es un vector de R momentos y W es una matriz positiva

definida de ponderaciones. Derivando la expresión anterior con respecto a β
e igualando estas derivadas a cero (lo que implica k restricciones sobre los
momentos) se obtiene el estimador generalizado de momentos GMM, β̂ GMM .
Similar al caso de GIVE, la matriz W óptima resulta ser el inverso de la
matriz de varianza covarianza de los momentos, [Var (m( β ))]−1 . Esto tiene
sentido intuitivo ya que un momento de menor varianza es más confiable y
recibirá mayor peso en la expresión (7.48). Sin importar la matriz W ,
siempre que sea positiva definida, β̂ GMM es consistente y asintóticamente
normal,
n ( βˆGMM − β ) →
d
N (0,V ) (7.49)
donde la matriz k × k de varianza covarianza V del vector β̂ GMM es
−1
 ′ 
 ∂m   ∂m 
V =  E  W  E  (7.50)
 ∂β   ∂β 
 
cuya intuición es la misma que vimos en el capítulo 3 por la cual el inverso

de la segunda derivada de la función objetivo es una buena aproximación a
la varianza del estimador.
Dada la posible no linealidad de los momentos, W puede depender de β ,
lo cual no sucede en GIVE. Por esta razón la estimación se hace en dos
pasos. En el primero se utiliza una W subóptima, por ejemplo W = I , la
matriz unitaria, para obtener un β̂ consistente inicial. Luego, en el segundo
paso, se utiliza este β̂ consistente inicial para estimar la W óptima, cuyos
elementos diagonales wi se estiman de
−1
1 
wˆ i =  ∑ mˆ i2  (7.51)
 n 
donde, a su vez, m̂i se estima con el β̂ consistente inicial junto con las
observaciones muestrales. Aunque se podría completar Var (m( β )) calculando
los elementos que van por fuera de la diagonal, es usual suponer que
Var (m( β )) es diagonal de manera que W también sea diagonal para
simplificar su estimación.
Mínimos cuadrados ordinarios, variable instrumental (y GIVE) pueden
verse como casos particulares de GMM en los cuales los momentos son
lineales. Inclusive máxima verosimilitud, con las derivadas de la función
objetivo (condiciones de primer orden) vistas como momentos igualables a
cero, también cabe dentro del marco de GMM. El método generalizado de
momentos, GMM, no requiere suponer distribuciones de probabilidad y
permite heteroscedasticidad (recordamos que en GIVE la matriz W = ( Z ′Z ) −1
se derivó bajo homoscedasticidad). Un problema es que la distribución
asintótica normal de GMM es una mala aproximación a la distribución de
muestras finitas.
Existen pruebas de sobreidentificación (Sargan, Hansen), algo debatidas,
que consisten en examinar la suma de momentos al cuadrado; esta suma no
debe ser muy grande, de lo contrario indica que al menos uno de los
momentos propuestos e incluidos en el vector m( β ) es falso (o que un
instrumento es defectuoso), aunque no dice cuál. Este estadístico, tipo Wald,
tiene distribución chi cuadrado con grados de libertad igual a R − k .
Capítulo 8
CONCEPTOS DE SERIES DE TIEMPO
A diferencia de los datos utilizados en otros estudios estadísticos y

econométricos, como aquellos de corte transversal, aquí el ordenamiento en
función del tiempo t es determinante y es parte integral del análisis. La frase
'serie de tiempo' se utiliza para denotar cualquier variable que se pueda
graficar contra el tiempo.
Una gráfica es la primera y más importante herramienta en el análisis de
series de tiempo; permite obtener pistas iniciales sobre el comportamiento de
las series, sugiriendo unos procedimientos y modelos, y descartando otros.
Veamos a continuación algunas definiciones y conceptos comunes en el
análisis de series de tiempo.
Desde el punto de vista de la forma como se toman o registran las
observaciones, podemos clasificar las series de tiempo en continuas, que
denotaremos x(t ) , o en discretas, que denotaremos xt . Serán continuas
cuando tengamos observaciones o datos para todo instante de tiempo y serán
discretas cuando tengamos observaciones o datos sólo para ciertos
momentos de tiempo, usualmente a intervalos regulares. Aunque existen
desarrollos teóricos para ambos tipos de series, en la práctica la mayor parte
del análisis de series de tiempo en economía se ocupa de series discretas. En
principio, la realidad podría ser continua pero usualmente sólo podemos, o
queremos, medirla de manera discreta. La Figura 8.1 muestra una serie
continua junto con la discreta que corresponde a los puntos.
La tendencia en una serie describe su comportamiento de largo plazo. Es

un movimiento de baja frecuencia, de evolución lenta. En términos
coloquiales, responde a la pregunta ¿para dónde va la serie, hacia dónde
parece moverse en el largo plazo? Aunque el caso más común es cuando la
tendencia ascienda o descienda monotónicamente, también puede, en algún
momento, cambiar de rumbo. La tendencia de una serie se modela de
manera determinística o estocástica, o mixta, según convenga.
Figura 8.1 tiempo

La tendencia en una serie describe su comportamiento de largo plazo. Es

un movimiento de baja frecuencia, de evolución lenta. En términos
informales, responde a la pregunta ¿para dónde va la serie, hacia dónde
parece moverse en el largo plazo? Aunque el caso más común es cuando la
tendencia ascienda o descienda monotónicamente, también puede, en algún
momento, cambiar de rumbo. La tendencia de una serie se modela de
manera determinística o estocástica, o mixta, según convenga.
Muchas series en economía, quizás la mayoría, tienen tendencia; por
ejemplo el nivel del Pib, la cantidad de dinero, la población, etc. Sin
embargo, también hay series importantes que siempre, o para ciertos
intervalos de tiempo, podrían considerarse sin tendencia, como la tasa de
desempleo, la tasa de interés real o el crecimiento en el Pib.
El ciclo es una oscilación de largo plazo. En economía, por la naturaleza
estocástica de las series, los ciclos nunca están claramente demarcados ni en
amplitud ni en frecuencia (a diferencia de una onda senoidal pura, por
ejemplo), sino que se insinúan. La alternación de épocas de aumento y
disminución, como en la historia bíblica de las vacas gordas y flacas, forma
los ciclos económicos.
n
∑x t
También se definen la media x = t =1
de la serie (el promedio de los
n
n
∑ (x t − x)2
datos) y la varianza σˆ x2 = t =1
(puede dividirse por n − 1 pero
n
generalmente en series de tiempo suponemos que n >> 1 ). El concepto de
varianza tiene poco sentido en series que caen o suben indefinidamente.
La media de una serie puede ser positiva, negativa o cero. En muchos
casos es deseable o necesario trabajar con series cuya media sea cero; pero si
no es cero, simplemente se resta x a cada una de las observaciones de la
serie obteniendo así una nueva serie con media cero, que preserva todas las
demás características y el comportamiento de la serie original.
La estacionalidad se refiere a un movimiento que se repite de manera
similar en la misma época del año; por ejemplo, cuando las ventas de
juguetes se elevan todos los diciembres o cuando los precios caen en el
trimestre de cosecha. No confundir este concepto con el de estacionariedad
que describe a continuación.
Estacionariedad
Una serie es estacionaria si sus propiedades estadísticas o probabilísticas

(media, varianza, covarianza, sesgo, kurtosis, etc.) no cambian con el
tiempo. En razón de que no es fácil evaluar todos los momentos, en la
práctica se trabaja con estacionariedad débil o de orden 2 (covariance
stationary), donde solamente los momentos hasta de orden dos (la media, la
varianza y las covarianzas) son finitos e independientes del tiempo. Notamos
que un proceso gaussiano débilmente estacionario es, a su vez, estrictamente
estacionario porque todos los momentos superiores en un proceso gaussiano
son funciones de los dos primeros, y al ser los dos primeros estacionarios,
los demás también lo serán.
El comportamiento de una serie de tiempo, su forma, sus movimientos, su
apariencia visual, dependen de la distribución de probabilidad que gobierna
el mecanismo que genera los datos. Si este mecanismo es no estacionario
será mucho más difícil de modelar y más y riesgoso hacer inferencias y
predicciones con base en la información provista por los datos disponibles.
Pero si es estacionario será más fácil modelar y hacer predicciones porque
podremos confiar en la estabilidad de la especificación y de los parámetros
estimados, aún por fuera de la muestra. La apariencia visual de un proceso
estacionario es más o menos la misma a lo largo del tiempo.
Adicionalmente, la estacionariedad facilita la aplicación de la Ley de los
Grandes Números, plim x = Ex , la cual requiere que la media sea constante.
Buena parte de los métodos de series de tiempo se han desarrollado para
series estacionarias; básicamente porque, al igual que la regresión clásica,
los modelos incluyen un término aleatorio ε t de varianza constante, término
cuyo efecto podría desaparecer con el paso del tiempo si la serie fuera no
estacionaria (por ejemplo, si tiene tendencia ascendente o descendente). Sin
embargo, muchas series no son estacionarias, de manera que con frecuencia
resulta necesario minimizar o remover las no estacionariedades para facilitar
la aplicación de técnicas conocidas.
Algunas recomendaciones para minimizar la no estacionariedad son:
Remover la tendencia estimando, por algún método, curvas que se ajusten a
las series tales como xˆt = αˆ + βˆ t , xˆt = eαˆ + β t , xˆt = αˆ + βˆ t + γˆ t 2 , y luego restar
ˆ
dichas curvas de la serie original xt de manera que xt − xˆ t sea estacionaria.

También se puede estimar la tendencia por medio de un filtro que suavice la
serie eliminando las fluctuaciones de corto plazo. Existen muchos en la
literatura, entre ellos, los de suavizado exponencial, promedio aritmético
móvil, Holt-Winters y el filtro Hodrick-Prescott, reseñados más adelante. Se
puede intentar lograr la estacionariedad tomando primeras diferencias
xt − xt −1 o cambios porcentuales; las primeras diferencias podrían ser
indicadas para una serie con tendencia lineal y los cambios porcentuales para
una con tendencia exponencial (ya que en esta última las primeras
diferencias crecen con el tiempo y no serían estacionarias).
Ruido Blanco
La serie más aleatoria posible se denomina ruido blanco, y es

fundamental para el modelaje de las demás series de tiempo. Formalmente,
se define el ruido blanco como un proceso estocástico independiente e
idénticamente distribuido ( iid ), esto es, xt es ruido blanco si
xt ~ iid ( µ ,σ 2 ) (8.1)
donde usualmente, aunque no necesariamente, la media µ es cero. Nótese

que en la definición anterior no se especifica la forma de la distribución, tan
sólo que sea idéntica de muestreo a muestreo. Ni siquiera tiene que ser
simétrica; podría ser, por ejemplo, una exponencial. Esta definición implica
que el ruido blanco es estacionario.
Una serie de tiempo generada por lanzamientos de un dado es una serie
de ruido blanco ya que los lanzamientos son independientes unos de otros y
su probabilidad no cambia. En el caso del dado cargado es posible que los
lanzamientos todavía sean independientes e idénticamente distribuidos y la
serie siga siendo ruido blanco, sólo que la distribución de probabilidad ya no
es uniforme porque algunas caras del dado tendrán más posibilidad de salir
que otras. En el caso del jugador hábil, que pueda manipular la forma en que
caigan los dados, es menos claro que la serie sea ruido blanco porque los
lanzamientos no serán repeticiones independientes del experimento.
El ruido blanco no es pronosticable a partir de su propio pasado (aunque
podría serlo a partir de otras variables) porque, por definición, cada xt es
independiente de los demás; por lo tanto, es pronosticable de manera
incondicional, lo cual de poco sirve porque la predicción incondicional es la
media µ . Afortunadamente, la mayoría de las series económicas no son
ruido blanco y pueden ser, al menos en algún grado, predichas a partir de su
pasado.
Una definición alternativa, aceptada por algunos autores, reemplaza el
requisito de independencia por el menos restrictivo de cero correlación.
Obviamente, si hay independencia, hay cero correlación. Además, en el caso
de ruido con distribución gaussiana, cero correlación implica independencia
matemática.
Función de Autocovarianza
Uno de los objetivos más importantes al analizar series de tiempo es

tratar de establecer la relación estadística entre una observación en un
tiempo t y otras observaciones cercanas, por ejemplo en t − 1 , en t − 2 , etc.
Si existe alguna relación estadística estable entonces podemos utilizar esta
información para modelar el proceso o intentar predecir la serie. Una
herramienta para este propósito es la función de autocovarianza o, su
pariente cercana, la función de autocorrelación, ACF. La de autocovarianza
es preferida en tratamientos teóricos mientras que la de autocorrelación lo es
en la práctica. Luego veremos otro concepto relacionado, el de la función de
autocorrelación parcial PACF que, junto con la función de autocorrelación
ACF, servirá para la especificación de los modelos.
Supongamos una serie de tiempo estacionaria xt con media µ , y también
la misma serie xt rezagada τ periodos de tiempo, esto es, xt −τ . Pensemos en
aplicar la covarianza o correlación estadística a xt y a xt −τ como si se tratara
de dos variables distintas.
Recordemos que la covarianza entre dos variables ( x, y ) se define como
Cov(x, y ) = E ( x − µ x )( y − µ y ) (8.2)
de manera que aplicando el mismo concepto a xt y xt −τ , y recordando que

ambas tienen la misma media por ser la serie estacionaria, obtenemos la
función autocovarianza que denotamos R(τ )
R(τ ) = E ( xt − µ )( xt −τ − µ ) para τ = 0,1,2,K (8.3)
que, como la covarianza tradicional, mide la similitud entre las

observaciones de las dos series. Encontramos que cuando τ = 0 la
autocovarianza es igual a la varianza
2
R(0) = E (xt − µ )( xt − µ ) = E ( xt − µ ) = Var (xt ) (8.4)
de manera que el R(τ ) máximo será R(0) porque cuando τ = 0 se produce la

mayor similitud entre las dos series xt y xt −τ ; de hecho, cuando τ = 0 ambas
son iguales.
Función de Autocorrelación (ACF)
Recordemos que la correlación entre dos variables ( x, y ) se define como
Cov( x, y )
ϕ xy = (8.5)
Var ( x )Var ( y )
de manera que, aplicando el mismo concepto a xt y a xt −τ , construimos la

función de autocorrelación para τ = 0,1,2,K , de la siguiente manera
R(τ ) R(τ ) R(τ ) R(τ )

r (τ ) = = = = (8.6)
Var ( xt )Var ( xt −τ ) Var ( xt )Var ( xt ) Var ( xt ) R(0)
donde, por la estacionariedad, Var (xt ) = Var (xt −τ ) .

El máximo r (τ ) será entonces
R(0)
r (0) = = 1. (8.7)
R(0)
En general R(τ ) y r (τ ) tienden a cero a medida que τ → ∞ . Se encuentra

también que hay simetría alrededor de τ , de manera que se tiene siempre la
propiedad
R(τ ) = R(−τ )
(8.8)
r (τ ) = r (−τ )
En la práctica, la autocovarianza R(τ ) de una serie estacionaria de n

observaciones y media x se estima usando la expresión
1 n
(
Rˆ (τ ) = ∑ ( xt − x ) xt − τ − x
n t =1+ τ
) (8.9)
Por otra parte, la autocorrelación r (τ ) para una serie de n observaciones

y media x se estima usando la expresión
Rˆ (τ )
rˆ(τ ) = (8.10)
Rˆ (0 )
Se puede mostrar que, si la serie es ruido blanco, rˆ(τ ) converge en

distribución a una normal con media cero y varianza 1 / n ,
 1
rˆ(τ ) d
→ N  0,  (8.11)
 n
lo cual es muy útil para probar la significancia de las autocorrelaciones

estimadas (si son diferentes de cero). Por ejemplo, si todas las rˆ(τ ) son
estadísticamente cero entonces la serie es ruido y no se puede modelar
utilizando sus propios rezagos.
La función de autocorrelación estimada rˆ(τ ) se conoce comúnmente
como correlograma. En un eje se grafica rˆ(τ ) y en el otro τ . Por
costumbre, sólo se muestra el eje positivo de τ debido a la propiedad de
simetría; se omite el dato para τ = 0 ya que se sabe que siempre vale uno; y
se ponen líneas punteadas a ± 2 desviaciones estándar de rˆ(τ ) , esto es, en
 1 
± 2  , bajo la hipótesis nula de que la serie es ruido blanco. Lo anterior se
 n
ilustra en la Figura 8.2.
Figura 8.2
Obviamente, por error estadístico y porque en la práctica trabajamos con

muestras finitas, la ACF estimada será un poco diferente de la teórica. Por
ejemplo, para ruido blanco la ACF teórica tiene todos los r (τ ) iguales a cero,
excepto, claro, el de τ = 0 ; pero en la práctica, las autocorrelaciones

estimadas para τ ≠ 0 tendrán algún valor, positivo o negativo, aunque
usualmente no significativo. Sin embargo, debemos subrayar que una de
cada veinte autocorrelaciones estimadas (5%) podría resultar
estadísticamente significativa (salirse de las líneas punteadas situadas a ± 2
desviaciones estándar) a pesar de ser la serie ruido blanco.
En cualquier caso, tienen mayor significancia económica las
autocorrelaciones que se salgan del intervalo para τ 's pequeños que para τ 's
lejanos. Una serie que con frecuencia se acerca a ruido blanco es la de
cambios porcentuales del precio de las acciones en las bolsas; por eso son
difíciles de predecir.
Cuando la serie es estacional aparecen autocorrelaciones significativas en
las frecuencias (rezagos) estacionales.
Las observaciones atípicas (outliers) hacen que la serie se asemeje al
ruido, por lo tanto hacen que r̂ (τ ) sea menor. Aunque una observación
atípica deje todas las demás observaciones al otro lado de la media y a
primera vista parezca haber mayor autocorrelación, R̂(0) sube más que
proporcionalmente haciendo que en general rˆ(τ ) caiga. Es interesante notar
que la gráfica de xt versus xt −τ va a contener dos puntos extremos por cada
outlier.
Recordamos que la ACF se derivó bajo el supuesto de estacionariedad.
Supongamos que xt es no estacionaria y tiene una tendencia. Bajo esta
circunstancia la mayoría de los productos xt xt −τ , para un amplio rango de τ ,
tiene signo positivo resultando en una función de autocorrelación que decae
lentamente y aporta poca información; solo nos dice lo obvio, que hay
mucha inercia (correlación) en la serie. En general, esta caída lenta en la
ACF es una característica de las series no estacionarias.
Ejemplo
Encontrar la función de autocorrelación estimada de la serie {2,3,1,0,1,−1} para

los rezagos τ = 0,1,2,3 .
La media de los n = 6 datos de la serie es x = 1 . Restando la media a los
datos de la serie obtenemos una serie con media cero: xt − x = {1,2,0,−1,0,−2} .
Utilizando la expresión (8.9) estimamos las autocovarianzas
1
R(0 ) = ∑ (xt − x )2 = 1 (1 + 4 + 0 + 1 + 0 + 4) = 10 = 1.666
6 6 6
1
R(1) = ∑ (xt − x )(xt −1 − x ) = 1 [(1)(2) + (2)(0) + (0)(− 1) + (− 1)(0) + (0)(− 2)] = 2 = 0.333
6 6 6
1
R(2 ) = ∑ (xt − x )(xt −2 − x ) = 1 [(1)(0) + (2)(− 1) + (0 )(0) + (− 1)(− 2)] = 0
6 6
1
R(3) = ∑ (xt − x )(xt −3 − x ) = 1 [(1)(− 1) + (2)(0 ) + (0 )(− 2)] = − 1 = −0.166
6 6 6
y dividiendo por R(0) , como en (8.10), obtenemos las autocorrelaciones
R( 0) R(1) R( 2) R( 3)
r ( 0) = =1 r (1) = = 0.2 r ( 2) = =0 r ( 3) = = −0.1
R( 0) R( 0) R( 0) R( 0)
Función de Correlación Cruzada
Si en lugar de rezagar la misma serie, como se hizo para derivar la ACF,

utilizamos dos series distintas y rezagamos una con respecto a la otra,
obtenemos la covarianza cruzada cuya expresión es
Rxy (τ ) = E ( xt − µ x )( yt −τ − µ y ) (8.12)
de manera similar obtenemos la correlación cruzada
Rxy (τ )
rxy (τ ) = (8.13)
Rx (0)Ry (0)
donde R x (0) y R y (0) son las varianzas (o autocovarianzas para rezago cero)
de x y y .
Al igual que la ACF, la función de correlación cruzada también tiene el
intervalo aproximado del 95% en ± 2 n , pero a diferencia de la ACF, no
necesariamente tendrá su máximo en τ = 0 ni será simétrica, aunque estará
entre -1 y 1.
Operador de Rezago
Una herramienta útil en el análisis de series de tiempo es el operador de

rezago, denotado L . Sirve para expresar ecuaciones en diferencia, que es la
forma típica como se escriben los modelos para series discretas. Se define el
operador de rezago como
Lτ xt = xt −τ (8.14)
donde τ es el rezago que se desea introducir en la variable xt . Por ejemplo,
Lxt = xt −1
L0 xt = xt
L3 xt = xt −3 (8.15)
−2
L xt = xt + 2
( L2 )3 = L6
Lc = c
donde c es una constante.

Una propiedad del operador de rezago es
1 2 3
= 1 + αL + (αL ) + (αL ) + L para α < 1 (8.16)
1 − αL
la cual podemos comprobar escribiendo
(1 + αL + (αL ) 2 3
)
+ (αL ) + L (1 − αL ) = 1
y efectuando la multiplicación indicada para obtener

2 2 3
1 − αL + αL − (αL ) + (αL ) − (αL ) + L = 1
donde se puede ver que todos los términos se cancelen excepto el último que
será de la forma α n Ln , el cual tiende a cero cuando n tiende a infinito
siempre que α < 1 . Por lo tanto, ambos lados de la ecuación son iguales
(1=1) y se demuestra la propiedad. También se puede demostrar utilizando
una expansión de Maclaurin (una serie de Taylor alrededor de cero) de la
1
función .
1 − αL
De manera similar tenemos que
1 2 3
= 1 − αL + (αL ) − (αL ) + L para α < 1 (8.17)
1 + αL
donde, nótese, los signos alternan.

Para ilustrar la aplicación del operador de rezago utilizamos un modelo
autorregresivo. Los detalles de estos modelos se verán más adelante pero por
ahora basta saber que se trata de explicar una variable xt en función de sus
rezagos (su pasado) más un término de error (ruido blanco) ε t . Iniciamos la
ilustración con un autorregresivo de orden 1, llamado así porque utiliza un
solo rezago xt −1 como variable explicativa,
xt = α xt −1 + ε t (8.18)
Pasando el término α xt −1 al lado izquierdo y aplicando el operador de rezago

podemos escribir
(1 − αL ) xt = ε t (8.19)
y, despejando,
εt
xt =
1 − αL
( 2 3
= 1 + αL + (αL ) + (αL ) + L ε t )
xt = ε t + α ε t −1 + α 2ε t − 2 + α 3ε t −3 + L (8.20)
donde la variable xt queda en función de la variable ε t , tanto contemporánea

como rezagada. Notamos que si el coeficiente α es mayor que 1 en
magnitud (valor absoluto), la expresión será explosiva porque los términos
van creciendo exponencialmente. Este coeficiente α es el inverso de la raíz
de la expresión auxiliar 1 − α L , que es un polinomio en L . La raíz es α −1 .
Entonces, si esta raíz es >1 en magnitud, la serie es convergente ya que el
inverso será <1.
Este importante resultado sobre la magnitud de las raíces y la
convergencia es válido, en general, para modelos autorregresivos con un
mayor número de rezagos, digamos p rezagos, como en el AR( p)
xt = α1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t (8.21)
Aplicando el operador de rezago escribimos
(1 − α1L − α 2 L2 − L − α p Lp ) xt = ε t (8.22)
de donde, despejando, obtenemos
εt
xt = (8.23)
1 − α1L − α 2 L2 − L − α p Lp
El denominador es un polinomio en L con máximo p raíces distintas.

Después de hacer algo de álgebra y factorizar, podemos escribir (excepto por
un factor de escala)
εt
xt = (8.24)
(1 − λ1L)(1 − λ2 L)L(1 − λ p L)
donde λi es el inverso de la raíz i ésima. Cada término de la forma 1 /(1 − λi L)

da origen a una expansión como en (8.16), siempre y cuando todos los
λi < 1 . Basta con que uno solo de los p factores incumpla este requisito para
que la expansión total resultante sea explosiva, esto es, para que xt no sea
estable y no converja en términos del pasado.
Otra forma de decirlo es que xt será estable si todas las raíces (o sea los
inversos de las λi ) de la ecuación auxiliar 1 − α 1 L − α 2 L2 − L − α p Lp son
mayores que 1 en magnitud.
Además del operador de rezago hay otras formas de despejar xt . Una es
por el método recursivo, que ilustraremos con el autorregresivo de orden 1.
Haciendo reemplazos sucesivos,
xt = α xt −1 + ε t
xt = α [α xt − 2 + ε t −1 ] + ε t = α 2 xt −2 + α ε t −1 + ε t
xt = α [α [α xt −3 + ε t −2 ] + ε t −1 ] + ε t = α 3 xt −3 + α 2ε t − 2 + α ε t −1 + ε t
xt = α n xt −n + α n −1ε t −(n −1) + L + α 2 ε t −2 + α ε t −1 + ε t

donde notamos que los primeros términos tienden a cero si α < 1 , de manera
que, reordenando, podemos escribir
xt = ε t + α ε t −1 + α 2ε t −2 + α 3ε t −3 + L
que es igual a (8.20).
Ejemplo
Para encontrar la solución convergente de
xt − .2 xt −1 = ε t
escribimos
(1 − .2 L) xt = ε t
de donde despejamos
εt
xt = = (1 + .2 L + .04 L2 + .008 L3 + L) ε t = ε t + .2ε t −1 + .04ε t −2 + .008ε t −3 + L
1 − .2 L
Ejemplo
Para polinomios de grado mayor se procede de modo similar, por ejemplo
6 xt + 5 xt −1 + xt − 2 = ε t
(6 + 5L + L ) x
2
t = εt
(L + 2)(L + 3) xt = ε t
εt εt
xt = =
(L + 2)(L + 3)  L  L 
6 1 + 1 + 
 2  3
y se expande cada uno de los factores por separado, primero uno y luego el
otro. Como se anotó antes, la solución será convergente si las raíces de la
ecuación auxiliar son mayores que la unidad en magnitud, como en efecto
sucede en este ejemplo donde las raíces son –2 y –3.
Raíces Imaginarias
Ocasionalmente pueden aparecer raíces denominadas imaginarias porque

involucran la raíz cuadrada de números negativos. Por ejemplo, al utilizar la
fórmula cuadrática para calcular las raíces del modelo xt + 2 xt −1 + 2 xt − 2 = ε t
encontramos que la ecuación auxiliar es 1 + 2 L + 2 L2 y dos sus raíces son
2± 4−8 1 −4 1 −1
− =− ± =− ±
4 2 4 2 2
La cantidad − 1 se define como número imaginario. En la práctica, este tipo

de raíces imaginarias constituyen un paso matemático intermedio y se tratan
esencialmente igual que las reales. Para detalles ver, por ejemplo,
Montenegro (2011).
Operador de Diferencia
Otro operador muy útil para expresar series de tiempo es el operador de

diferencia, ∆xt , definido como
∆xt = xt − xt −1 = (1 − L) xt (8.25)
el cual consiste simplemente en tomar una observación y restarle la

observación inmediatamente anterior. También puede aplicarse de manera
repetitiva; esto es, puede aplicarse de nuevo a una serie que ya haya sido
diferenciada.
Ejemplo
∆2 xt = ∆∆xt = ∆( xt − xt −1 ) = xt − xt −1 − ( xt −1 − xt − 2 )
= xt − xt −1 − xt −1 + xt − 2 = xt − 2 xt −1 + xt − 2
Lo anterior también puede lograrse escribiendo
∆2 xt = (1 − L)(1 − L) xt = (1 − 2 L + L2 ) xt = xt − 2 xt −1 + xt − 2
Suavizado Aritmético
Los métodos de suavizado remueven el ruido y las fluctuaciones de corto

plazo de una serie, dejando sólo su movimiento de largo plazo (tendencia).
Uno de tales métodos es el suavizado aritmético, también conocido como
suavizado de promedio móvil. Es importante advertir que no debe
confundirse con los modelos denotados MA( q ), que llevan un nombre
similar, promedio móvil, y que serán tratados adelante.
El objetivo del procedimiento es obtener una versión suavizada st de la
serie original xt . Hay varias alternativas para lograr esto. Por ejemplo, el
promedio aritmético en un momento de tiempo t se puede tomar centrado,
sobre 2m + 1 términos, esto es, m hacia adelante de t , m hacia atrás y uno en
t , como lo indica la siguiente expresión,
1 m
st = ∑ xt + i
2m + 1 i = − m
(8.26)
donde también se puede utilizar xt −i en lugar de xt +i . En este método

centrado se pierden m observaciones de st al comienzo de la serie original y
m al final.
Otra alternativa es el promedio aritmético rezagado, cuya expresión es
1 m
st = ∑ xt −i
m + 1 i =0
(8.27)
el cual se toma sobre los m + 1 términos pasados (incluyendo el del tiempo t )

perdiéndose m observaciones de st al principio de la serie. Esta es la versión
más utilizada porque generalmente hay mayor interés en tener el dato
suavizado más reciente.
También se puede tomar el promedio aritmético adelantado, en cuyo
caso la expresión es
1 m
st = ∑ xt + i
m + 1 i =0
(8.28)
el cual se toma sobre los m + 1 términos futuros (incluyendo el del tiempo t )

perdiéndose m observaciones de st al final de la serie.
En cualquiera de las expresiones anteriores, cuanto mayor sea m , más
suave será la serie st resultante pero también más lenta será en reflejar (o en
dejar de reflejar) los cambios de tendencia a lo largo de xt . Si la serie xt

tiene tendencia ascendente (descendente), la st de un suavizado aritmético
rezagado tiende a estar debajo (encima) de xt . Lo contrario sucede con la
serie st del suavizado aritmético adelantado.
También es posible hacer suavizado donde el peso dado a los términos de
la suma sea diferente, por ejemplo,
0.5 xt −1 + xt + 0.5 xt +1
st =
2
Suavizado Exponencial Holt-Winters
Este método utiliza ponderaciones que caen exponencialmente en la

expresión de la serie suavizada st ,
st = Axt + (1 − A) Axt −1 + (1 − A) 2 Axt − 2 + (1 − A) 3 Axt −3 + L
A su vez, esta expresión puede escribirse como
= (1 + (1 − A) L + (1 − A) 2 L2 + (1 − A) 3 L3 + L) Axt
Axt
=
1 − (1 − A) L
de donde,
st − (1 − A) st −1 = Axt
para finalmente obtener la expresión de st utilizada en el suavizado
st = Axt + (1 − A) st −1 (8.29)
para 0 < A < 1 .

Como puede observarse, el estimado st se calcula en cada iteración como
un promedio ponderado de xt y st −1 . Cuánto más bajo sea A , más peso se le
da al pasado y más suave la serie st ; una medida usual de A es cerca de 0.3.
Las iteraciones pueden inicializarse haciendo s1 = x1 y empezando en t = 2 ,

como sigue:
s2 = Ax2 + (1 − A) x1
s3 = Ax3 + (1 − A) s2
M
El pronóstico de la serie xt para T unidades de tiempo en el futuro, denotado

xˆ t +T , será xˆ t +T = s t para cualquier T > 0 .
El método anterior puede complementarse de varias maneras. Una de
ellas es con la inclusión de la tendencia. Las expresiones quedan,
st = Axt + (1 − A)(s t −1 + Γt −1 ) para 0 < A < 1

(8.30)
Γt = C (s t − st −1 ) + (1 − C )Γt −1 para 0 < C < 1
donde Γt es el incremento en la tendencia. La iteración puede inicializarse

en t = 3 haciendo Γ2 = x 2 − x1 y s 2 = x 2 . El pronóstico, para todo T > 0 , será
xˆt +T = st + T Γt (8.31)
En cuanto más bajos sean los coeficientes A y C , más estable será la serie
st , ya que menores valores implican que se otorga más peso al pasado.
También existe una versión que incluye factores estacionales.
Filtro Hodrick Prescott
Recientemente se ha popularizado el filtro Hodrick-Prescott para estimar

la tendencia de una serie basado en un procedimiento que había sido usado
por décadas en las ciencias actuariales [ver Hodrick y Prescott (1997)]. El
filtro calcula una versión suavizada de la serie, llamada st , a partir de la
serie original xt escogiendo la secuencia {st } que combine dos objetivos
contradictorios. Por un lado, busca minimizar la varianza (fluctuación) de xt
alrededor de st y, por otro lado, hace una restricción sobre la segunda
derivada de st buscando que el movimiento anterior sea lo más parecido
posible al siguiente. En otras palabras, este método de suavizado escoge la
serie {st } que minimiza la siguiente función objetivo
n n −1
∑ (x
t =1
t − st ) + λ ∑ [( st +1 − st ) − ( st − st −1 )]2
2
t =2
(8.32)
donde el parámetro λ > 0 controla el grado de suavizado; cuanto mayor sea

λ , mayor será el suavizado porque le da más peso al hecho de que el
movimiento anterior de st se parezca al siguiente. Por ejemplo, cuando λ es
grande, será deseable que los términos st +1 − st y st − st −1 se parezcan,
haciendo que el segundo sumando en la expresión del filtro sea pequeño y
que la solución st se acerque a la tendencia lineal st = α + β t de la serie. Al
otro extremo, cuando λ es pequeño, la solución se acercará a st = xt . Para
detalles matemáticos de la optimización y condiciones de primer orden, ver
Mills (2003, capítulo 4).
Hodrick y Prescott (1997) utilizan el filtro para descomponer series
macroeconómicas xt en su tendencia de largo plazo (que ellos llaman
componente de crecimiento) st , y en sus fluctuaciones de corto plazo (que
llaman componente cíclico) xt − st . Los autores utilizaron un valor λ de
1600 para las series trimestrales analizadas. Para series con otras
periodicidades recomiendan valores diferentes, por ejemplo, 100 para
anuales y 14400 para mensuales.
La Figura 8.3 muestra la tendencia resultante (línea punteada) de aplicar
el filtro a la serie de la inflación mensual (línea continua). Nótese que, a
diferencia de otros métodos de suavizado, el filtro Hodrick-Prescott produce
una serie st con el mismo número de datos que tiene la serie xt .
-1
92 94 96 98 00 02 04 06 08
Inflación
Tendencia Hodrick Prescott
Figura 8.3
Ajuste Estacional
Una serie estacional presenta movimientos similares cada año

aproximadamente por la misma época. El efecto estacional puede ser
causado por variaciones climáticas (temporada de lluvia, sequías, heladas),
por normas tributarias (cierres contables, pago de impuestos), por días de
fiesta (Navidad, Semana Santa), costumbres sociales (calendario escolar,
vacaciones), etc. Con frecuencia nos interesa saber qué parte del movimiento
de una serie se debe al componente estacional y qué parte a la tendencia
subyacente. Queremos saber si un movimiento es típico o si realmente
representa un aumento o disminución importante en la variable. Los
procedimientos de desestacionalización tienen por objeto remover, aislar o
repartir el componente estacional de la serie.
El movimiento individual de un mes, un trimestre, etc., de una serie
estacional no puede ponderarse para obtener una predicción del total anual
porque cada mes o trimestre tiene un comportamiento diferente; por
ejemplo, si el primer trimestre suele ser más alto que los demás, no sería
acertado multiplicar el resultado del primer trimestre por cuatro para
proyectar el año. Sin embargo, esto sí se puede hacer en las series
desestacionalizadas.
Una serie estacional muestra barras significativas en las frecuencias

estacionales en su función de autocorrelación ACF; por ejemplo, si la serie
estacional es trimestral mostrará autocorrelaciones significativas para
rezagos 4, 8, 12, etc., y si es mensual mostrará autocorrelaciones
significativas para rezagos 12, 24, 36, etc. Es importante tener en cuenta que
remover el efecto estacional no necesariamente remueve toda la
autocorrelación en las frecuencias estacionales, ya que parte de esta
autocorrelación puede provenir de factores diferentes a los estacionales. Esto
se ve con mayor claridad si imaginamos una serie xt como la suma del
efecto estacional más un proceso estocástico que puede tener
autocorrelaciones en varios rezagos incluyendo el estacional; así, remover el
efecto estacional no elimina toda la autocorrelación en ese rezago.
Hay dos supuestos usuales acerca de la forma como se incorpora el
componente estacional a la serie: o de manera multiplicativa o aditiva. El
caso multiplicativo es indicado cuando el efecto estacional varía en
proporción al nivel de la serie, mientras que el caso aditivo es indicado
cuando el efecto estacional es una cantidad fija que no varía con el nivel de
la serie. Por ejemplo, un efecto estacional igual al 4% del nivel de la serie
sería multiplicativo, pero un efecto fijo de 5 mil unidades sería aditivo. En la
práctica, el efecto estacional rara vez será constante, ya sea en porcentaje o
unidades, aunque puede arguirse que el modelo multiplicativo es más
compatible con la teoría y el mecanismo generador de datos.
Para ilustrar el procedimiento de desestacionalización consideremos una
serie xt . El primer paso es obtener una tendencia st de la serie que se desea
desestacionalizar. La forma preferida de hacer esto es a través de un
promedio aritmético centrado como en (8.26), con suficientes términos para
cubrir un periodo anual; por ejemplo, con 2 términos para cada lado si la
serie es trimestral y 6 términos para cada lado si la serie es mensual, donde
los pesos de los términos de los extremos son la mitad de los demás para
evitar sumar dos veces el efecto de un mismo periodo, por ejemplo,
st = (0.5 xt − 6 + xt − 5 + L + xt + L + xt + 5 + 0.5 xt + 6 ) / 12
si la serie es mensual y
st = (0.5 xt − 2 + xt −1 + xt + xt +1 + 0.5 xt + 2 ) / 4
si la serie es trimestral.
Una vez obtenida la serie suavizada st , se calculan las diferencias xt − st

en el caso aditivo, o los cocientes xt / st en el caso es multiplicativo. Luego
se promedian estas diferencias o cocientes, según sea el caso, para cada mes
o trimestre. Esto es, si la serie es mensual se promedian todos los eneros,
todos los febreros, etc. Si la serie es trimestral entonces se promedian de
todos los primeros trimestres, los segundos trimestres, etc. Estos promedios,
después de alguna normalización, se conocen como factores estacionales o
de escala, f i , donde el subíndice i indica el mes o trimestre en cuestión. Los
factores f i representan los movimientos estacionales típicos de cada mes o
trimestre con respecto a st .
En el caso aditivo, la serie desestacionalizada se obtiene restando estos
factores a la serie original para cada mes o trimestre i ; y en el caso
multiplicativo, dividiendo la serie original por el factor del mes o trimestre
correspondiente. Subrayamos que la desestacionalización no debe cambiar el
efecto neto anual de la serie; por esta razón, los factores estacionales se
normalizan para que tengan media cero en el caso aditivo, o producto
unitario en el caso multiplicativo. Esto se logra restando la media de los
factores a cada uno de los factores en el caso aditivo, o dividiendo cada
factor por el promedio geométrico de los factores en el caso multiplicativo.
El procedimiento multiplicativo tiene problemas en series que toman
valores de cero o negativos. En este caso podría suceder que la expresión
xt / st arroje un factor f i indefinido con el cual sería imposible dividir la
serie original para efectuar la desestacionalización.
Actualmente, los procedimientos de mayor difusión para realizar el ajuste
estacional son los programas desarrollados por el Census Bureau del
Departamento de Comercio norteamericano (X-12, X-13) y los programas
TRAMO/SEATS populares especialmente en Europa. En general todos estos
programas permiten que los factores estacionales o de escala cambien con el
tiempo si la naturaleza de la serie así lo exige; también permiten dar menor
ponderación a observaciones consideradas atípicas para el periodo
respectivo; pueden tomar en cuenta el efecto del número de días hábiles por
mes así como el efecto de los días de fiesta (por ejemplo, Semana Santa que
cambia de un mes a otro o de un trimestre a otro); e incluyen varias pruebas
estadísticas para juzgar la significancia de la estacionalidad estimada y su
estabilidad.
La Figura 8.4 muestra la serie mensual de la inflación junto con la misma
serie ajustada estacionalmente por medio del procedimiento aditivo, cuya
versión se encuentra en Eviews.
-1
92 94 96 98 00 02 04 06 08
Inflación
Inflación desestacionalizada
Figura 8.4
Capítulo 9
MODELOS PARA SERIES DE TIEMPO

ESTACIONARIAS
Un hecho observado en muchos fenómenos temporales es que el

comportamiento pasado provee información sobre el comportamiento futuro.
El pasado de una serie suele incorporar, y de esa manera reemplazar, la
información de otras variables que pudieran intervenir en el proceso. La
especificación relativamente sencilla, pero efectiva, que resulta de expresar
una variable en función de su propio pasado es conocida como
autorregresiva y es parte del modelaje Box-Jenkins. Las dos especificaciones
principales de esta metodología son los modelos autorregresivos AR( p ) y
los modelos de promedio móvil MA( q ). Primero veremos el autorregresivo.
El Modelo Autorregresivo AR( p )
Este modelo expresa el valor actual de una serie estacionaria xt en

función de su propio pasado, esto es, de sus rezagos xt −1 ,…, xt − p . Un
autorregresivo AR( p ) tiene la siguiente forma algebraica
xt = c + α1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t (9.1)
donde c es una constante, p es el orden del modelo (el rezago más distante),
y ε t es ruido blanco con media cero y varianza constante σ ε2 . En la literatura
de series de tiempo, la secuencia {ε t } se conoce indistintamente como ruido,
error, residuos, innovaciones o shocks.
El AR(1)
El más sencillo de los modelos autorregresivos, el AR(1), de orden 1,

tiene un solo rezago y se escribe,
xt = c + α xt −1 + ε t (9.2)
o, empleando el operador de rezago, como (1 − αL) xt = c + ε t .

Este modelo podría representar, por ejemplo, los desempleados en el mes
t como una proporción fija α de aquellos desempleados en el mes t − 1 ,
habiendo la otra proporción 1 − α conseguido empleo, más un nuevo grupo
c + ε t que busca trabajo.
La media del AR(1) se puede encontrar tomando expectativas y
recordando que, por el supuesto de estacionariedad, E xt = E xt −1 ,
Ext = E (c + α xt −1 + ε t ) = c + α Ext −1 + Eε t = c + α Ext + Eε t (9.3)
de donde, reorganizando, se tiene
c + Eε t c
Ext = = (9.4)
1−α 1−α
porque hemos supuesto que Eε t = 0 . Pero si Eε t ≠ 0 debemos retener esta

cantidad en la expresión.
Es importante observar que en la expresión del AR(1) se requiere α < 1
para que xt sea estable. Recordamos que α es el inverso de la raíz de la
ecuación auxiliar 1 − αL = 0 , y que esta raíz debe ser mayor que uno en
magnitud para la estabilidad del sistema. Si, por el contrario, la raíz es
menor que uno, lo que implica α > 1 , entonces la serie crece sin límite. Si
α > 1 , esto es, positivo, el comportamiento de xt dependerá del valor de x0 y
de los ε t iniciales; como se ilustra en el primer panel de la Figura 9.1, podrá
seguir la curva sólida o la línea punteada. Si α < −1 , esto es, negativo, se
produce un comportamiento oscilatorio creciente como se ilustra en el
segundo panel de la Figura 9.1.
Figura 9.1
Un modelo autorregresivo en tiempo discreto tiene su contraparte en

tiempo continuo. Por ejemplo, el AR(1) xt = α xt −1 + ε t puede escribirse como
xt − xt −1 = α xt −1 − xt −1 + ε t
o, simplificando,
∆xt = (α − 1) xt −1 + ε t
y, finalmente, puede escribirse como

∆xt
= (α − 1) xt −1 + ε t
∆t
recordando que en tiempo discreto ∆t = 1 . La expresión anterior es la versión

discreta de la ecuación diferencial lineal continua de coeficientes constantes
dx(t )
= (α − 1) x(t ) + ε (t )
dt
Calculemos la función de autocorrelación ACF para el modelo AR(1).

Para simplificar el cálculo supondremos a continuación que la serie xt tiene
valor esperado cero, lo que implica que c = 0 . Este supuesto es inofensivo
porque, si no fuera cero, el cálculo de la ACF resta la media de la serie. Para
obtener la autocovarianza multiplicamos la expresión de xt por xt −τ y
tomamos expectativas
R(τ ) = E ( xt xt −τ ) = α E ( xt −1 xt −τ ) + E (ε t xt −τ ) (9.5)
de donde, para
τ = 0 tendremos R(0) = α R(1) + σ ε2 (9.5a)

τ = 1 tendremos R(1) = αR(0) (9.5b)
τ = 2 tendremos R(2) = αR(1) (9.5c)
M M
Dividiendo (9.5b) por R(0) obtenemos r (1) = α . De (9.5c) obtenemos

r (2) = α r (1) = α 2 . De igual forma r (3) = α 3 , r (4 ) = α 4 y así sucesivamente. Para
cualquier τ > 0 tenemos r (τ ) = α τ . La Figura 9.2 muestra la función de
autocorrelación para el AR(1) con α positivo (primer panel) y negativo
(segundo panel). Realmente debe ser r (τ ) = α τ , dado que, como vimos en el
capítulo anterior, r (τ ) es una función simétrica alrededor τ .
Figura 9.2
Para encontrar la varianza de xt remplazamos (9.5b) en (9.5a) obteniendo
σ ε2
Var ( xt ) = R(0) = α 2 R(0) + σ ε2 =
1−α 2
La varianza, conocida indistintamente como R(0) , Var ( xt ) o σ x2 , es

también igual a Ext2 en este caso, porque suponemos que la media de xt es
cero.
El AR(2)
El modelo autorregresivo con dos rezagos (de orden dos) tiene la

siguiente expresión
xt = c + α1 xt −1 + α 2 xt − 2 + ε t (9.6)
Tomando expectativas y suponiendo estacionariedad encontramos que, de

manera similar a como se hizo para el AR(1),
c + Eε t
Ext =
1 − α1 − α 2
El modelo se puede escribir, utilizando el operador de rezago, como
(1 − α 1 L − α 2 L2 ) xt = c + ε t
Para que el proceso sea estable, es necesario que las raíces de la ecuación
auxiliar (1 + α 1 L + α 2 L2 ) sean mayores que 1 en magnitud, ya que de otra
forma la expansión resulta explosiva.
La función de autocorrelación se encuentra multiplicando ambos lados de
la ecuación (9.6) por xt −τ y tomando expectativas (se omite c sin pérdida de
generalidad)
E ( xt xt −τ ) = α 1 E ( xt −1 xt −τ ) + α 2 E ( xt −2 xt −τ ) + E (ε t xt −τ )
donde, para
τ = 0 tendremos R(0 ) = α1R(1) + α 2 R(2) + σ ε2 (9.7a)

τ = 1 tendremos R(1) = α1R(0) + α 2 R(1) (9.7b)
τ = 2 tendremos R(2) = α1R(1) + α 2 R(0) (9.7c)
M M
α1
Dividiendo (9.7b) por R(0) encontramos que r (1) = α 1 + α 2 r (1) = . A su
1−α2
α 12
turno, de (9.7c) encontramos r (2 ) = α 1 r (1) + α 2 = +α2 , y así
1− α2
sucesivamente para encontrar las demás autocorrelaciones. Siendo una
ecuación en diferencias de orden dos, el modelo AR(2) está en capacidad de
reproducir un comportamiento oscilatorio, como el del péndulo. Su ACF
puede caer exponencialmente de manera similar a la del AR(1) o puede tener
una oscilación senoidal mientras cae exponencialmente como se ilustra en la

Figura 9.3,
Figura 9.3
Con el fin de calcular la varianza de xt del AR(2) escribimos, de (9.7a),
σ ε2
Var ( xt ) = R(0) = α 1 r (1) R(0) + α 2 r (2) R(0) + σ ε =
2
1 − α 1 r (1) + α 2 r (2)
donde se pueden remplazar las expresiones de r (1) y r (2) encontradas arriba.
El AR(p)
La expresión del autorregresivo de orden p , para p finito, omitiendo la

constante sin pérdida de generalidad, se puede escribir en términos del
operador de rezago como
(1 − α 1 L − α 2 L2 − L − α p L p ) xt = ε t
donde, de nuevo, para obtener estabilidad, las raíces de la ecuación auxiliar

deben ser mayores que 1 en magnitud.
Por otro lado, al igual que en los casos anteriores, se puede encontrar que
la media de xt es
Eε t
Ext =
1 − α1 − L − α p
Para encontrar la ACF del AR( p ) se multiplica la ecuación del modelo

por xt −τ y, de manera similar a como se hizo para el AR(1) y el AR(2), se
toma valor esperado y obtienen ecuaciones para diferentes τ ´s de las cuales
se despejan los r (τ ) ´s.
Con excepción del AR(1) y el AR(2), es difícil establecer un patrón
general de comportamiento para la función de autocorrelación del AR( p );
solo sabemos que será una suma algebraica de diferentes exponenciales y
oscilaciones senoidales que caen asintóticamente hacia cero. En otras
palabras, la ACF caerá asintóticamente hacia cero, oscile o no. Lo anterior es
válido para p finito, porque de lo contrario puede caer abruptamente; la
razón es que, cuando hay muchas raíces, las exponenciales y oscilaciones
pueden cancelarse y mostrar barras no significativas después de algún τ .
[Como se verá más adelante, la función de autocorrelación de un modelo
MA(1) cae abruptamente después del τ = 1 ; en consecuencia, la función del
AR( ∞ ) equivalente también caería abruptamente después de τ = 1 .]
¿Qué pasa si en un AR( p ) la media Ext = µ ≠ 0 ? En este caso podemos
escribir,
xt − µ = α1 ( xt −1 − µ ) + α 2 ( xt − 2 − µ ) + L + α p (xt − p − µ ) + ε t
xt = (µ − α1µ − α 2 µ − L − α p µ ) + α1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t
xt = µ (1 − α1 − α 2 − L − α p ) + α1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t
xt = c + α1 xt −1 + α 2 xt −2 + L + α p xt − p + ε t (9.8)
Al estimar el modelo AR( p ) se puede incluir la constante si la serie no está

en desviaciones de la media, o se puede restar la media a todas las
observaciones y no incluir la constante. Algunos programas de computador
reportan estimativos para la media µ y la constante c por separado con base
en la expresión anterior.
El Modelo de Promedio Móvil MA( q )

El segundo modelo dentro de la metodología Box-Jenkins es el de

promedio móvil. Este expresa la serie xt en función del presente y el pasado
de una serie de ruido blanco {ε t } con media cero y varianza finita,
xt = c + ε t + β1ε t −1 + β 2ε t − 2 + L + β qε t − q (9.9)
donde los coeficientes β no tienen restricciones en cuanto a la estabilidad de

la serie porque una suma finita de q términos con varianza finita, como lo
son los ε t , no puede ser explosiva. Se ve fácilmente que si c = 0 entonces
Ext = 0 porque Eε t = 0 , de otra forma Ext = c . La varianza de xt será la suma
de las varianzas de sus componentes, σ ε2 (1 + β12 + β 22 + L + β q2 ) .
MA(1)
El modelo MA( q ) más sencillo es el que tiene un sólo rezago de ε t . Este

se denota MA(1) y su expresión es
xt = c + ε t + βε t −1 (9.10)
donde es evidente que Ext = c (si no hubiera una constante entonces sería
Ext = 0 ).
La función de autocovarianza se obtiene multiplicando la ecuación del
MA(1) por xt −τ = ε t −τ + βε t −τ −1 , para cada τ , y tomando expectativas (se omite
la constante sin pérdida de generalidad),
R(0) = E ( xt xt ) = E (ε t + βε t −1 )(ε t + βε t −1 ) = (1 + β 2 )σ ε2
R(1) = E ( xt xt −1 ) = E (ε t + βε t −1 )(ε t −1 + βε t − 2 ) = Eβε t2−1 = β σ ε2
R(2) = E ( xt xt − 2 ) = E (ε t + βε t −1 )(ε t − 2 + βε t − 3 ) = 0
R(3) = 0
M
Se deja como ejercicio mostrar que se cumple la propiedad de simetría, por
ejemplo, que R(− 1) = βσ ε2 = R(1) .
Para encontrar la función de autocorrelación r (τ ) simplemente dividimos

β
las autocovarianzas anteriores por R(0) ; esto es, r (0) = 1 , r (1) = ,
1+ β 2
r (2) = 0 , r (3) = 0 , … .
β β
¿Cuál será el máximo r (1) = para el MA(1)? Derivando con
1+ β 2
1+ β 2
respecto a β e igualando a cero, tenemos
( )
β − (1 + β 2 ) 2β + (1 + β 2 ) = 0
−2 −1
(
− 2β 2 1 + β 2 ) −1
+1 = 0
(
2β 2 = 1 + β 2 ) ⇒ β 2 = 1 ⇒ β = ±1
de manera que r (1) máximo será
β ±1 1
r (1)max = 2
= =± (9.11)
1+ β 1+1 2
positivo o negativo dependiendo del signo de β .
MA(2)
La expresión del promedio móvil con dos rezagos es
xt = c + ε t + β 1ε t −1 + β 2 ε t −2
Su valor esperado es Ext = c (o Ext = 0 si no hubiera constante). Sus

autocovarianzas son (omitiendo la constante sin pérdida de generalidad)
R(0) = E ( xt xt ) = E (ε t + β 1ε t −1 + β 2ε t − 2 )(ε t + β 1ε t −1 + β 2 ε t − 2 ) = σ ε2 (1 + β 12 + β 22 )
R(1) = E ( xt xt −1 ) = E (ε t + β1ε t −1 + β 2ε t − 2 )(ε t −1 + β1ε t − 2 + β 2ε t −3 )
= Eβ1ε t2−1 + Eβ 2 β1ε t2− 2 = ( β1 + β1β 2 ) σ ε2
R(2) = E ( xt xt − 2 ) = E (ε t + β1ε t −1 + β 2ε t − 2 )(ε t − 2 + β1ε t −3 + β 2ε t − 4 )
= Eβ 2ε t2− 2 = β 2 σ ε2
R(3) = 0
R ( 4) = 0
M
Con respecto al MA( q ), podemos inferir de los resultados anteriores para
el MA(1) y el MA(2) que, en general, la ACF teórica puede tener
autocorrelaciones significativas sólo hasta el rezago q , de ahí en adelante
desaparecen. Sin embargo, es importante subrayar que en la práctica, aunque
es de esperar una disminución de la magnitud en las autocorrelaciones
después del rezago q , por error estadístico es posible encontrar alguna
autocorrelación estimada significativa para rezagos superiores a q .
Invertibilidad
Mientras que los β sean finitos, el MA( q ) siempre va a ser estacionario

puesto que se compone de una suma finita de variables aleatorias con
varianza finita. Sin embargo, si bien la condición de que las raíces de la
ecuación auxiliar,
1 + β1L + β 2 L2 + L + β q Lq (9.12)
sean mayores que 1 en magnitud, no es necesaria para la estabilidad, sí lo es

para poder expresar el modelo de promedio móvil como un autorregresivo,
lo que se conoce como invertibilidad; esto es, despejar ε t en función de xt
y del pasado de xt . Por ejemplo, para invertir un MA(1) y convertirlo en un
autorregresivo escibimos
xt = ε t + βε t −1
xt = (1 + β L )ε t
ε=
xt
1+ β L
[ 2 3
= 1 − β L + (β L ) − (β L ) + L x t ]
ε t = xt − β xt −1 + β 2 xt − 2 − β 3 xt − 3 + L (9.13)
lo cual se puede hacer sólo si β < 1 . Nótese que el MA(1) de este ejemplo se
convirtió en un AR( ∞ ) ya que, despejando xt , tenemos
xt = β xt −1 − β 2 xt − 2 + β 3 xt −3 − L + ε t
La invertibilidad impone restricciones a las magnitudes relativas de los

coeficientes del modelo que en últimas generan las raíces; en otras palabras,
impone restricciones de comportamiento. Al limitarnos a modelos
invertibles estamos, en efecto, ignorando especificaciones alternativas que
pueden ser económicamente viables e interesantes. Por ejemplo, un MA(1)
no invertible puede tener β > 1 de manera que la reacción de xt a una nueva
innovación ε t puede ser mayor después de pasado un periodo. Para la
estimación de modelos MA( q) no invertibles ver Ramsey y Montenegro
(1992).
Vimos que un MA(1) se puede expresar como un AR( ∞ ). En general, un
MA( q ) se puede expresar como un AR( ∞ ). También un AR( p ) se puede
expresar como un MA( ∞ ); ilustremos esto convirtiendo un AR(1) en un
MA( ∞)
xt = α xt −1 + ε t
(1 − αL) xt = ε t
εt
xt =
1 − αL
donde, para α < 1
xt = ε t + αε t −1 + α 2ε t − 2 + α 3ε t − 3 + L (9.14)
Ejemplo
Convertir el siguiente AR(2), xt = α xt −2 + ε t , con α < 1 , en un MA( ∞ ).

Escribimos,
( )
xt − α xt − 2 = 1 − αL2 xt = ε t
de donde
xt =
εt
1 − αL2
[
= 1 + αL2 + (αL2 ) + (αL2 ) + L ε t
2 3
]
= ε t + αε t − 2 + α 2ε t − 4 + α 3ε t − 6 + L
Modelo ARMA( p , q )
De la discusión anterior vemos que es posible utilizar los modelos AR( p )

y MA( q ) como aproximaciones a xt . Otra opción es utilizar la combinación
de ambos modelos, lo cual se conoce como modelo ARMA( p , q ), con el
cual usualmente se obtiene mayor parsimonia, esto es, emplear un menor
número de términos comparado con el AR o el MA individualmente. La
expresión del ARMA( p , q ) es
xt = c + α1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t + β1ε t −1 + β 2ε t − 2 + L + β qε t − q (9.15)
Vale la pena anotar que p y q se refieren al último rezago y no

necesariamente al número de rezagos de la parte autorregresiva o de la parte
promedio móvil, ya que muchos rezagos puede resultar no significativos.
La expresión del ARMA también se puede escribir en términos del
operador de rezago
(1 − α L − α L
1 2
2
) (
− L − α p Lp xt = c + 1 + β1L + β 2 L2 + L + β q Lq ε t )
de donde se infiere que el modelo ARMA puede expresarse como un AR o
un MA, posiblemente de orden infinito, despejando, respectivamente, ε t o
xt .
Como ilustración, la Figura 9.4 muestra el diagrama de un ARMA(1,1),
xt = c + α xt −1 + ε t + βε t −1 , donde se observa la parte promedio móvil y la parte
autorregresiva. El paso de las variables xt y ε t por el operador de rezago L
produce xt −1 y ε t −1 . El diagrama se puede generalizar fácilmente a otros
modelos ARMA( p , q ).
1
c
εt xt
L L
β α
Figura 9.4
La estacionariedad de un modelo ARMA depende de la parte

autorregresiva y no de la parte promedio móvil; esto es, de que las raíces de
la ecuación auxiliar de la parte autorregresiva sean mayores que 1 en
magnitud.
El valor esperado de xt se obtiene tomando expectativas a toda la
expresión y recordando que la serie xt es estacionaria; así, el valor esperado
será cero si no hay constante y ε t tiene media cero.
Para la ACF multiplicamos la expresión de xt por xt −τ y tomamos
expectativas. De las ecuaciones para diversos τ ' s se despejan las
autocorrelaciones. Igualmente, la varianza se obtiene de la solución
simultánea de este conjunto de ecuaciones de autocorrelación.
La forma de la ACF para un ARMA es más difícil de establecer que en el
caso de los modelos AR( p ) y el MA( q ). En general, habrá unas
autocorrelaciones iniciales significativas fijadas por la parte promedio móvil
seguidas, a partir de τ > q , por un comportamiento similar al de la parte
autorregresiva [ver Granger y Newbold (1986, capítulo 1)].
Cuando se adicionan variables exógenas como explicativas, el modelo
ARMA se conoce como ARMAX. Este podría ser de la forma
xt = c + α1 xt −1 + L + α p xt − p + γ 1 z1t + L + γ k zkt + ε t + β1ε t −1 + L + β qε t − q (9.16)
donde z1t ,K , z kt son k variables exógenas. Para no entorpecer las

posibilidades predictivas del modelo, es conveniente que las variables
exógenas que se incluyan se encuentren rezagadas, de lo contrario (si son
contemporáneas) no será posible utilizarlas para predicción, o habría que

predecirlas primero.
Ocasionalmente, se extiende la notación del ARMA( p , q ) y se habla del
ARIMA( p , d , q ), que quiere decir autorregresivo de promedio móvil
integrado (autoregressive integrated moving average). El ARIMA( p , d , q )
incluye la diferenciación de la serie con el objeto de convertirla en
estacionaria. Si d = 1 quiere decir que fue necesario diferenciarla una vez
para volverla estacionaria, si d = 2 quiere decir que fue necesario
diferenciarla dos veces, etc. La I en la sigla ARIMA se refiere a la palabra
integrado, que significa sumado, ya que, como el proceso fue diferenciado,
hay que sumar o integrar esas variaciones para recuperar la serie original.
La Función de Autocorrelación Parcial (PACF)
Vimos que la función de autocorrelación ACF mide la relación lineal

entre xt y xt −τ . Sin embargo, parte de esta relación se debe al
encadenamiento que hay entre xt y xt −τ a través de las variables xt −1 ,K, xt −τ +1 .
¿Sí quitáramos el efecto del encadenamiento de estas variables intersticiales,
cuál sería la correlación restante entre xt y xt −τ ? Esta relación entre xt y xt −τ ,
neta del efecto de las variables intersticiales, se conoce como función de
autocorrelación parcial, PACF.
El coeficiente de autocorrelación parcial, que denotaremos rp (τ ) , entre xt
y xt −τ es proporcional a la correlación entre xt −τ y xt menos aquella parte que
puede ser explicada por las variables intersticiales. La función de
autocorrelación parcial, rp (τ ) , se define como el último coeficiente de un
AR( τ ); en otras palabras, rp (τ ) refleja la correlación entre xt −τ y el término
condicional xt − Ext xt −1 ,K, xt −τ +1 . Por ejemplo en el AR( τ )
x t = c + ατ ,1 xt −1 + ατ , 2 xt − 2 + L + ατ ,τ −1 xt − (τ −1) + ατ ,τ xt −τ + ε t (9.17)
la autocorrelación parcial será el último coeficiente, α τ ,τ = rp (τ ) . La ecuación

(9.17) se repite para cada τ . Obviamente, la PACF para τ = 0 es 1 porque
corremos xt contra xt . Para τ = 1 la ACF y la PACF son iguales, esto es,
rp (1) = r (1) , porque no hay variable intersticial. También, como en la ACF, la
PACF tiene los intervalos de confianza del 95% en ± 2 n .
La PACF tiene un comportamiento contrario a la ACF en los modelos

AR y MA. Para un AR( p ) la PACF cae a cero abruptamente cuando τ > p ,
simplemente porque la expresión
x t − α 1 xt −1 − α 2 xt − 2 − L − α p xt − p
es igual a ε t por definición para un AR( p ), y ε t carece de covarianza con

cualquier xt −τ para τ > p porque dicho rezago ni siquiera existe en el modelo
original. Sin embargo, a manera de curiosidad, podría argumentarse que, por
ejemplo en un AR(2) xt = α 1 xt −1 + α 2 xt − 2 + ε t , las variables xt −1 y xt −2 sí están
correlacionadas con xt −3 porque pueden expresarse en función de xt −3 , y por
lo tanto la covarianza E[( xt − α 1 xt −1 − α 2 xt − 2 )( xt −3 )] sería diferente de cero. Esto
no es correcto porque al hacer los reemplazos la covarianza con xt −3
desaparece y la expresión se iguala a cero,
E[( xt − α 1 xt −1 − α 2 xt − 2 )( xt −3 )] = Ext xt −3 − α 1 Ext −1 xt −3 − α 2 Ext − 2 xt −3
= E (α 1 xt −1 + α 2 xt − 2 + ε t ) xt −3 − α 1 Ext −1 xt −3 − α 2 Ext −2 xt −3
= α 1 Ext −1 xt −3 + α 2 Ext − 2 xt −3 − α 1 Ext −1 xt −3 − α 2 Ext − 2 xt −3 = 0
Para el MA( q ), mientras que su ACF cae a cero abruptamente para

τ > q , la PACF decrece monotónica o senoidalmente. La intuición de este
resultado no es muy evidente; sin embargo, recordando que rp (τ ) es el
último coeficiente de un AR( τ ), podemos esperar que, al tener un MA( q )
invertible una representación AR infinita con coeficientes eventualmente
decrecientes, sus autocorrelaciones parciales también decrezcan monotónica
o senoidalmente hasta el infinito.
Para un ARMA( p , q ), ambas la ACF y la PACF caen exponencialmente
(con posibles oscilaciones). La ACF comienza su caída después del rezago
q mientras que la PACF comienza su caída después del rezago p [ver
Enders (2004)]. Por ejemplo, para un ARMA(1,1), tanto la ACF como la
PACF tendrán un pico en τ = 1 seguido de un patrón que decae
exponencialmente. En cualquier caso, en la práctica estos patrones se
desdibujan un poco por error estadístico y por el hecho de que los datos no
necesariamente se ajustan de manera exacta a un modelo dado, ni sus
coeficientes son inmutables en el tiempo.
La Figura 9.5 ilustra las autocorrelaciones para cuatro modelos

construidos con 1000 observaciones de ε t . El panel superior izquierdo
corresponde a un AR(3) donde se observa una caída asintótica en la ACF
mientras que la PACF cae después del tercer rezago. El panel superior
derecho corresponde a un MA(3) donde se observa una caída en la ACF
después del tercer rezago y una caída asintótica en la PACF. El panel
inferior izquierdo corresponde a un modelo AR(2), sin el primer rezago,
cuya ACF muestra autocorrelaciones significativas y exponencialmente
decrecientes en los rezagos pares, mientras que la PACF cae después del
rezago 2.
El panel inferior derecho corresponde a un modelo MA(2), sin el primer
rezago, cuya ACF cae después del rezago 2 mientras que su PACF muestra
autocorrelaciones significativas, que alternan de signo, asintóticamente
decrecientes en los rezagos pares. Si este MA(2) tuviera signo negativo en
lugar de positivo en su rezago, las autocorrelaciones parciales serían todas
negativas. El comportamiento de estos signos puede intuirse
aproximadamente de la expresión AR equivalente del MA (no olvidar
despejar xt ). Decimos de manera aproximada, porque debemos recordar que
cada rp (τ ) es igual al último coeficiente de cada AR( τ ), y no son
exactamente iguales a los coeficientes del AR( ∞ ) equivalente. La diferencia,
aunque usualmente pequeña, se debe al conocido problema de omisión de
variables relevantes en los AR( τ ).
Figura 9.5
Ejemplo
Para ilustrar la construcción de la PACF para un promedio móvil,

escogemos un MA(1) y aproximamos el AR( τ ) correspondiente utilizando
los términos del MA(1) rezagados,
xt = ε t + βε t −1 ≈ α1 (ε t −1 + βε t − 2 ) + α 2 (ε t − 2 + βε t −3 ) +
α 3 (ε t − 3 + βε t − 4 ) + L + ατ (ε t −τ + βε t −τ −1 ) + ε t
Vemos que, suponiendo β positivo, el coeficiente estimado α̂ 1 será tal que

haga que la cantidad ε t −1 + βε t −2 sea lo más parecida posible a la cantidad
ε t + βε t −1 ; en consecuencia será positivo y cercano a β pero no podrá evitar
que aparezca el término α 1 βε t −2 . A su turno, el coeficiente estimado α̂ 2 será
el encargado de eliminar en lo posible este efecto indeseado de α 1 βε t −2 ; en
consecuencia será negativo y cercano a − α 1 β , pero no podrá evitar que

aparezca el término α 2 βε t −3 , por lo cual el siguiente coeficiente estimado α̂ 3
será positivo, y así sucesivamente. Si β es negativo, puede mostrarse que
todas las autocorrelaciones parciales serán negativas. Un razonamiento
similar explica la PACF del MA(2) del panel inferior derecho de la Figura
9.5.
Estacionalidad en los Modelos ARMA
Cuando hay estacionalidad (no confundir con estacionariedad) aparecen

en la función de autocorrelación, ACF, barras significativas tanto en el
rezago estacional como en múltiplos de éste. En la PACF solo aparece la
primera barra estacional (rezago 4 para series trimestrales, 12 para series
mensuales) porque, por ejemplo, para τ = 24 en una serie mensual, el rezago
τ = 12 intersticial explica casi toda la estacionalidad dejando prácticamente
sin correlación a xt y xt −24 .
Hay varias formas de aproximar el efecto de la estacionalidad en los
modelos ARMA. Una es usando dummies cuando la estacionalidad es
determinística y no cambia en el tiempo. Otra es sumando términos
estocásticos (caso aditivo) a la expresión del ARMA, ya sean
autorregresivos o de promedio móvil, de rezago igual al periodo estacional;
y otra es multiplicando la expresión del ARMA por un término estocástico
que tenga un rezago igual al anual en términos de los datos usados (caso
multiplicativo); esto es, xt −4 para datos trimestrales, xt −12 para datos
mensuales, xt −6 para datos bimestrales, etc.
Por ejemplo, para el caso aditivo, la estacionalidad en un AR(1) con datos
trimestrales y un término autorregresivo, será
xt = α1 xt −1 + α 4 xt − 4 + ε t (9.18)
La estacionalidad con datos mensuales en un ARMA(2,1) adicionando un

término autorregresivo, sería
xt = α1 xt −1 + α 2 xt − 2 + ε t + β1ε t −1 + α12 xt −12 (9.19)
o también con un término aditivo de promedio móvil,
xt = α1 xt −1 + α 2 xt − 2 + ε t + β1ε t −1 + β12ε t −12 (9.20)

En el caso multiplicativo, para introducir estacionalidad en una serie

AR(1) de datos trimestrales, se usa
(1 − α1 L )(1 − α 4 L4 ) xt = ε t
(1 − α L − α
1 4 )
L4 + α 1α 4 L5 xt = ε t
de donde se obtiene la expresión
xt = α1 xt −1 + α 4 xt − 4 − α1α 4 xt − 5 + ε t (9.21)
lo cual contrasta con el caso aditivo en el cual no aparece el rezago 5.

En la versión multiplicativa se realiza la estimación con restricciones,
esto es, con α 5 = α1α 4 , usualmente por máxima verosimilitud con
restricciones o por el método del Lagrangiano. Cuál forma de aproximar la
estacionalidad se prefiera es asunto del investigador, aunque la más intuitiva
es la aditiva. El multiplicativo permite tener más rezagos con menos
coeficientes estimados pero a costa de restringir la estimación, y las
estimaciones restringidas tiene mayor o igual suma de errores al cuadrado,
∑ εˆ 2 , que las no restringidas. No todos los programas de computador
incluyen la facilidad para estimar la versión multiplicativa.
Para introducir estacionalidad en un MA(2) con datos trimestrales se
podría escribir
xt = (1 + β1L + β 2 L2 )ε t (1 + β 4 L4 ) (9.22)
donde aparecerá un término de rezago 6. Para introducir el efecto estacional

en un ARMA simplemente se multiplica la parte correspondiente.
Si una serie es estacional, digamos mensual, podemos intentar
desestacionalizarla corriendo el modelo xt = α 1 xt −1 + α 12 xt −12 + ε t (un rezago,
xt −1 , basta para ilustrar, aunque puede haber otros); la serie
desestacionalizada será xt − α 12 xt −12 .
Es de notar que la adición o multiplicación de rezagos sirve para modelar
o extraer la estacionalidad de una serie de datos, pero no para generar la
estacionalidad. Por ejemplo, un proceso como xt = α xt −12 + ε t , donde ε t es
ruido blanco y 0 < α < 1 , es estacionario pero no es estacional; la grafica de
este proceso xt así generado carece de un comportamiento que se repite
periódicamente; para efectos prácticos, su gráfica sería parecida a la de un

AR(1). Generalmente, la estacionalidad se debe a factores exógenos ajenos a
la variable xt , como el clima, las normas tributarias, las costumbres, etc., de
manera que la representación autorregresiva de la estacionalidad es una
aproximación.
El hecho de trabajar con series que supuestamente han sido
desestacionalizadas por algún método como el X13, TRAMO/SEATS o
cualquier otro, no implica que debamos ignorar la posibilidad de modelar la
estacionalidad ya que, con frecuencia, por el tamaño de la muestra o las
opciones escogidas, queda algo de este efecto en las series. Ignorar la
estacionalidad residual aumenta la varianza de predicción. Cabe advertir que
los términos ‘aditivo’ y ‘multiplicativo’ utilizados aquí denotan la forma en
que se incluye el rezago estacional en la serie, y no deben confundirse con
los mismos términos utilizados en estos métodos de ajuste estacional para
describir la forma en que se incluye el efecto estacional en la serie.
Predicción Utilizando un AR( p )
Sea xt una serie que sigue un AR( p )
xt = c + α 1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t
Deseamos hacer la predicción de la variable en un momento t = n (al final de

la muestra) para t = n + T en el futuro; esto es, para T periodos después del
final de la muestra. Como Eε t = 0 entonces nuestra mejor predicción de ε t
para t > n es ε t = 0 . Llamando xˆ n +T la predicción hecha en el tiempo n para
n + T , tenemos
xˆn +1 = c + α1 xn + α 2 xn −1 + L + α p xn +1− p
xˆn + 2 = c + α1 xˆn +1 + α 2 xn + L + α p xn + 2 − p
(9.23)
xˆn + 3 = c + α1 xˆn + 2 + α 2 xˆn +1 + L + α p xn + 3− p
M
A medida que avanza la predicción hacia el futuro, se utilizan más

predicciones anteriores en la predicción misma hasta que, eventualmente, la
mejor predicción será la media incondicional de la serie.
Ejemplo
Para el AR(1) xt = c + α xt −1 + ε t , tendremos las predicciones
xˆ n +1 = c + α x n
xˆ n + 2 = c + α xˆ n+1 = c + α (c + α x n ) = c(1 + α ) + α 2 x n
xˆ n +3 = c + α [c(1 + α ) + α 2 x n ] = c(1 + α + α 2 ) + α 3 x n
M
xˆ n +T = c(1 + α + α 2 + α 3 + L + α T −1 ) + α T x n
expresión que, para T grande, tiende al valor esperado incondicional de xt ,
c
xˆ n +T = = E ( xt )
1−α
El enfoque seguido acá para obtener la predicción xˆn +T fue el de estimar

un modelo para xt en función de xt −1 , xt − 2 ,K e iterar desde n + 1 hasta n + T .
Existe la opción de estimar el modelo directamente para xt en función de
xt −T , xt −T −1 ,K de manera que la primera predicción un paso adelante, para
t = n + T , (one step ahead) será xˆn +T . Las evaluaciones empíricas realizadas
para determinar cuál enfoque es mejor no son concluyentes, de manera que
depende de la preferencia del investigador.
Predicción Utilizando un MA( q )
Sea xt una serie que sigue un MA( q )
xt = c + ε t + β1ε t −1 + β 2ε t − 2 + L + β qε t − q
Deseamos hacer la predicción de la variable en el momento t = n (al final de

la muestra) para t = n + T en el futuro. Aquí debemos trabajar con los ε
disponibles. Llamando xˆn +T la predicción hecha en el tiempo n para n + T ,
tenemos
xˆn +1 = c + β1ε n + β 2ε n −1 + L + β qε n +1− q

xˆn + 2 = c + β 2ε n + β 3ε n −1 + L + β qε n + 2 − q
(9.24)
xˆn + 3 = c + β 3ε n + β 4ε n −1 + L + β qε n + 3− q
M
No se pueden utilizar predicciones de ε porque para ello necesitaríamos

conocer las realizaciones futuras para encontrar ( xn +T − xˆn +T = εˆn +T ), y no
tenemos dichas realizaciones. A medida que T se hace mayor van quedando
menos términos de promedio móvil hasta que xˆ n +T = c para T > q .
Predicción Utilizando un ARMA( p , q )
Sea xt una serie que sigue un modelo ARMA( p , q )
xt = c + α 1 xt −1 + α 2 xt −2 + L + α p xt − p + ε t + β 1ε t −1 + L + β q ε t −q
Deseamos hacer la predicción de la variable al final de la muestra para

t = n + T en el futuro. La forma de predecir en un ARMA es una
combinación de lo que se hizo en el AR y el MA. Llamando xˆn +T la
predicción de xn +T hecha en el periodo n , tenemos
xˆn +1 = c + α1 xn + α 2 xn −1 + L + α p xn +1− p + β1ε n + β 2ε n −1 + L + β qε n +1− q

xˆn + 2 = c + α1 xˆn +1 + α 2 xn + L + α p xn + 2 − p + β 2ε n + β 3ε n −1 + L + β qε n + 2 − q
(9.25)
xˆn + 3 = c + α1 xˆn + 2 + α 2 xˆn +1 + L + α p xn + 3− p + β 3ε n + β 4ε n −1 + L + β qε n + 3− q
M
A medida que avanza la predicción hacia el futuro quedan menos términos

de promedio móvil hasta que éstos desaparecen para T > q ; a partir de T > p
sólo quedan predicciones de xt en la parte autorregresiva, la cual, como
vimos, se aproxima al valor esperado incondicional de xt para T muy
grande.
No debe darse la impresión de que la predicción de un modelo ARMA
después de la última observación tiende monotónicamente a la media de xt ;
la predicción puede llegar a ser mayor en magnitud que la última
observación antes de converger a la media incondicional de la serie.
La Varianza de Predicción en Modelos ARMA

Como es de esperar, la varianza de predicción tiende a aumentar a

medida que el horizonte de predicción se hace más lejano, ya que hay más
posibilidad de acumular errores. Cuando el plazo es muy largo, el modelo ya
no provee información útil, de manera que la predicción se acerca al valor
esperado incondicional de la variable xt , y la varianza de la predicción a la
varianza de xt .
Para calcular la varianza de predicción es conveniente expresar todos los
modelos de manera similar para ver cómo se acumulan los errores a medida
que crece el horizonte. Vimos que un AR y un ARMA estacionarios se
pueden expresar como un MA posiblemente infinito. De manera que
utilizamos la expresión del MA para el cálculo de la varianza.
De hecho, existe un importante resultado llamado Teorema de la
Descomposición de Wold (1938), que justifica la escogencia del MA al
afirmar que los procesos estacionarios pueden ser representados como un
promedio móvil, posiblemente de orden infinito,
xt = ε t + β 1ε t −1 + β 2 ε t −2 + β 3ε t −3 + L
donde 1 + β12 + β 22 + β 32 + L < ∞ , y ε t es un proceso de ruido igual al error de la

proyección lineal de xt sobre el espacio vectorial generado por
xt −1 , xt −2 , xt −3 ,K .
Partiendo de que la realidad es el MA descrito arriba, hacemos las
predicciones y vemos qué parte de la explicación se pierde con cada
horizonte, esto es, cuál es el error de predicción. Suponemos que se conocen
los β j (de lo contrario el error de predicción deberá incluir también el efecto
de la varianza de la estimación de los β j , tema sobre el cual volveremos).
Definiendo el error de la predicción hecha en el tiempo n (al final de la
muestra) para T unidades de tiempo adelante como la diferencia entre la
realidad y la predicción, esto es, εˆn +T = realidad − predicción = xn +T − xˆn +T ,
tendremos,
Predicción: Error:
xˆ n +1 = β1ε n + β 2 ε n−1 + L εˆn +1 = ε n+1

xˆ n + 2 = β 2ε n + β 3ε n −1 + L εˆn + 2 = ε n + 2 + β1ε n +1
xˆ n +3 = β 3ε n + β 4ε n−1 + L εˆn +3 = ε n +3 + β1ε n + 2 + β 2 ε n +1
M M
deduciendo que, en general, al hacer la predicción xˆ n +T para cualquier T , el

error será εˆn +T = ε n +T + β1ε n +T −1 + L + β T −1ε n +1 . Puede verse que este error tiene
media cero, y representa la incertidumbre alrededor de la predicción.
Si suponemos que el error de predicción εˆn +T tiene una distribución
normal, esta estará centrada sobre Eεˆn +T = 0 . La varianza del error de
predicción, E [ xn +T − xˆn +T ]2 , será
Var (ε n +T + β 1ε n +T −1 + L + β T −1ε n+1 ) = σ ε2 (1 + β 12 + L + β T2−1 )
la cual aumenta monotónicamente con T . Con lo anterior podemos

establecer un intervalo de confianza alrededor de la predicción xˆn +T . El
intervalo del 95% será
xˆn +T ± 1.96 Var (εˆn +T ) = xˆn +T ± 1.96 σ ε 1 + β12 + β 22 + L + βT2−1 (9.26)
donde para los β se usarán los primeros T − 1 coeficientes que resultan de

estimar o de expresar xt como un MA. La varianza del error σ ε2 se obtiene
de la varianza de los residuos εˆt de esta estimación.
Debido a los supuestos y aproximaciones involucradas (básicamente la
omisión de los errores de especificación, de estimación y de datos), la
Var (εˆn +T ) subestima la verdadera varianza de predicción; sin embargo, es una
buena guía.
Criterios para Evaluar Predicciones
La mayoría de los métodos estadísticos de evaluación de predicciones

requiere comparar una serie de predicciones y una serie de observaciones.
Infortunadamente, casi nunca contamos con una serie de observaciones
suficientemente larga, diferente de la muestra utilizada, para estimar el
modelo. Por esta razón, una vez se tiene estimado el modelo es común usarlo
para ver qué tan bien hubiera predicho las observaciones de la muestra. Sin
embargo, como al efectuar la estimación el modelo se ajusta lo mejor posible
a la muestra, entonces probar su capacidad predictiva en la misma muestra
tiende a producir resultados demasiado optimistas. Infortunadamente, esta
advertencia es ignorada con frecuencia. El método de validación cruzada
(cross validation) consiste en utilizar una parte de la muestra para estimar el
modelo y otra parte para evaluarlo; por ejemplo, usar el 75% de las
observaciones para estimar y el 25% restante para probar y evaluar.
Una condición importante es que la serie de los errores de predicción εˆt +T
sea ruido blanco, de lo contrario la predicción es subóptima. Es subóptima
porque si los errores de predicción están autocorrelacionados quiere decir
que se podrían predecir de su propio pasado, y que debimos haber
aprovechado esa información para mejorar la predicción, en lugar de
suponer ciegamente que Eε t +T = 0 . Predicción óptima es lo mismo que
expectativa racional, donde se usa eficientemente toda la información
disponible y no se cometen errores sistemáticos.
A continuación se describen varios indicadores comúnmente utilizados
para evaluar predicciones. Aunque no hay consenso sobre cuál es mejor, los
más usados son la raíz del error cuadrado medio, el error medio absoluto y el
error medio absoluto porcentual. De nuevo, enfatizamos que los indicadores
calculados sobre la misma muestra utilizada en la estimación del modelo,
incluyendo el R 2 , el error estándar del residuo, la verosimilitud, los criterios
de Akaike y Schwartz, suelen ser mejores que los calculados por fuera de
esta.
Regresión
Se trata simplemente de correr por MCO la serie de observaciones xt +T ,

como variable dependiente, contra la serie de predicciones xˆt +T , como
variable explicativa
xt +T = α + β xˆt +T + ut +T (9.27)
Si la predicción es buena, entonces debemos encontrar que α = 0 y β = 1 . Un

problema con este tipo de regresión es que xt suele ser una variable
autocorrelacionada y si algo falta en el predictor x̂t entonces el error u t
también estará autocorrelacionado invalidando las pruebas de hipótesis
usuales.
Dado que en muchos casos hacer la predicción de una variable en niveles
tiene poco mérito, algunos autores sugieren correr la regresión en diferencias
o en cambios porcentuales, esto es, ∆xt +T contra una constante y ∆xˆ t +T , lo
cual establece un criterio más exigente que las regresiones en niveles.
Error Cuadrado Medio (Mean Square Error)

Dado en unidades al cuadrado de la variable a predecir
MSE = Eεˆt2+T = E ( xt +T − xˆt +T ) 2 (9.28)
Raíz del Error Cuadrado Medio (Root Mean Square Error)
El RMSE es simplemente la raíz cuadrada del MSE , dado en unidades de

la variable a predecir.
Error Medio Absoluto (Mean Absolute Error)
Dado en unidades de la variable a predecir
MAE = E εˆt +T = E xt +T − xˆt +T (9.29)
Es importante tener en cuenta que una disminución (aumento) a través

del tiempo en cualquiera de los tres índices anteriores no necesariamente
implica que la predicción haya mejorado (empeorado); podría indicar una
disminución (aumento) en la magnitud de la variable xt a través del tiempo.
Error Medio Porcentual Absoluto (Mean Absolute Percentage Error)
Es adimensional, dado en porcentaje. Este indicador no tiene mucho

sentido cuando la variable xt toma valores cercanos a cero (varios intentos
por aliviar este problema son los llamados symmetric MAPE). Su expresión
es
xt +T − xˆt +T
MAPE = E (9.30)
xt +T
Indice de Theil
Se trata de una expresión similar a un índice de error cuadrado medio

MSE pero normalizado
2
E ( xt + T − xˆt + T )
Theil = (9.31)
Ext2+ T + Exˆt2+ T
donde xt y x̂t tienen media cero o se les ha restado la media. Este índice es
adimensional y va de cero a uno, siendo cero si la predicción es perfecta
porque en este caso xˆ t +T = xt +T y el numerador es cero.
Nótese que el término bajo el radical en el numerador puede expresarse
como
(
E xt2+T − 2 xt +T xˆt +T + xˆt2+ T ) (9.32)
de manera que cuando la predicción sea pésima, Ext +T xˆ t +T = 0 , el numerador

se parecerá al denominador, sin excederlo, esto es,
Ext2+T + Exˆ t2+T < Ext2+T + Exˆ t2+T , de acuerdo con la conocida desigualdad
logarítmica donde, para x > 0 y y > 0 y 0 < p < 1 , se tiene ( x + y ) p < x p + y p .
Nótese que Ext +T xˆ t +T = Cov( xt +T , xˆ t +T ) porque xt y x̂t tiene media cero o se les
ha restado.
4 Ext2+T
Por otro lado, puede verse que si xˆ t +T = − xt +T el Theil será = 1.
2 Ext2+T
Descomposición del Error Cuadrado Medio
El error cuadrado medio, MSE , ocasionalmente se presenta separado por

componentes de sesgo, varianza y covarianza como proporción del MSE
total. Para mostrar esto escribimos
MSE = E ( xt +T − xˆt + T ) 2 = Ext2+ T − 2 Ext + T xˆt + T + Exˆt2+ T (9.33)
Recordando de estadística básica que
Ex 2 = E ( x − µ x ) 2 + µ x2 = σ x2 + µ x2
y que
Exxˆ = E ( x − µ x )( xˆ − µ xˆ ) + µ x µ xˆ = ρσ xσ xˆ + µ x µ xˆ
donde ρ es el coeficiente de correlación entre x y x̂ , podemos reescribir

(9.33) de la siguiente manera
MSE = σ x2 + µ x2 − 2( ρσ xσ xˆ + µ x µ xˆ ) + σ x2ˆ + µ x2ˆ

= ( µ x − µ xˆ ) 2 + (σ x − σ xˆ ) 2 + 2σ xσ xˆ (1 − ρ ) (9.34)
Dividiendo los tres términos anteriores por MSE = E ( xt +T − xˆt +T ) 2 , siempre y

cuando MSE ≠ 0 , obtenemos las siguientes proporciones
proporción de sesgo =
(µ x − µ xˆ )2 (9.35)
2
E ( xt +T − xˆt + T )
(σ x − σ xˆ )2
proporción de varianza = 2
(9.36)
E ( xt + T − xˆt + T )
2σ xσ xˆ (1 − ρ )
proporción de covarianza = 2
(9.37)
E ( xt +T − xˆt + T )
La proporción de sesgo nos dice qué tan lejos está la media de las
predicciones de la media de las observaciones; la proporción de la varianza
dice qué tan lejos está la varianza de las predicciones de la varianza de la
serie; y la proporción de la covarianza mide el residuo o los errores no
explicados por las dos anteriores. Estas proporciones suman uno. Si MSE = 0
estas proporciones no están definidas. En general, un buen pronóstico debe
tener proporciones de sesgo y varianza pequeñas.
Capítulo 10
ESTIMACIÓN DE LOS MODELOS ARMA( p , q )
El procedimiento para la estimación de los modelos autorregresivos

AR( p ), promedio móvil MA( q ), o la combinación de ambos ARMA( p , q ),
consta básicamente de tres pasos que comprenden: la especificación del
modelo (establecer el orden de la parte autorregresiva p y de la parte de
promedio móvil q ); la estimación propiamente dicha; y el diagnóstico y
revisión del modelo.
Hay que tener en cuenta que en la práctica las cosas no son tan claras
como en la teoría y que no siempre será posible determinar con exactitud el
orden p y q . La exploración inicial de los datos suele sugerir dos o tres
modelos plausibles, los cuales se pueden estimar para luego escoger aquel
que parezca más apropiado. En estos casos de ambiguedad, frecuentes en el
trabajo estadístico, cuando las pruebas efectuadas correcta y objetivamente
no son concluyentes, es necesario recurrir a la intuición y a cualquier
información externa al modelo con el objeto de decidir sobre la
especificación del mismo. Más aún, el procedimiento para la escogencia del
número de rezagos, o de otras características de la especificación, debe estar
guiado por alguna base teórica o conocimiento del problema; por ejemplo,
considerar el rezago cuatro o sus múltiplos cuando se utilicen datos
trimestrales, o el rezago doce cuando se trata de una serie mensual.
Una vez realizada la estimación se utilizan varias herramientas de
diagnóstico y chequeo conocidas en la econometría para evaluar el ajuste del
modelo, para comparar y elegir entre modelos o para obtener sugerencias
sobre modificaciones que puedan mejorar la estimación. Un objetivo usual
es buscar la menor suma de residuos al cuadrado o la mayor verosimilitud.
Otro es buscar que los coeficientes estimados sean significativos.
Es muy importante determinar que no haya problemas de autocorrelación
o correlación serial en los residuos εˆt (por ejemplo observando la ACF o la
prueba Ljung-Box descrita abajo), ya que lo contrario podría indicar falta de
alguna variable o rezago en el modelo. Ilustramos suponiendo que el
verdadero modelo es un AR( p ), xt = c + α 1 xt −1 + α 2 xt −2 + L + α p xt − p + ε t , pero
que, en su lugar, corremos un AR(1), xt = c + α 1 xt −1 + u t . Así las cosas, el error
del AR(1), u t = α 2 xt − 2 + L + α p xt − p + ε t , tendrá autocorrelación. Esta es la

razón por la cual agregar rezagos de la variable dependiente es usualmente la
primera recomendación para disminuir la autocorrelación en los errores.
Además de observar la ACF, existe una prueba de autocorrelación,
llamada Ljung-Box, también conocida como prueba Q, que tiene la siguiente
expresión, donde n es el tamaño de la serie (tamaño de la muestra),
Q = n(n + 2)∑
s
[rˆ(τ )] 2 (10.1)
τ =1 n −τ
la cual está distribuida, bajo la hipótesis nula que la serie es ruido blanco
(independencia lineal), como una variable chi-cuadrado con s grados de
libertad, donde s es el número de términos que se incluyen en la prueba. La
distribución de la prueba se puede intuir suponiendo n grande y recordando
que para ruido blanco se cumple rˆ(τ ) → d
N (0,1 n ) . Si la serie probada
corresponde a los residuos de un modelo ARMA entonces los grados de
libertad se ajustan por el número de parámetros estimados, s − p − q sin
constante y s − p − q − 1 con constante. Es importante que el parámetro s
alcance a cubrir posibles estacionalidades; por ejemplo, mayor que rezago 4
si los datos son trimestrales, mayor que rezago 12 si los datos son
mensuales, etc. Si Q es pequeño es porque las autocorrelaciones son
pequeñas e insignificantes y se acepta que la serie bajo prueba es ruido
blanco.
Otra prueba, del tipo multiplicador de Lagrange, para detectar
autocorrelación en los residuos es la Breusch-Godfrey, mencionada en un
capítulo anterior. En esta prueba se corren los residuos estimados contra
todas las variables explicativas del modelo original más h rezagos de los
residuos. Bajo la hipótesis nula de no autocorrelación por lo menos hasta de
orden h , ninguna de las variables explicativas de la regresión original ni los
h rezagos del residuo tendrán poder explicativo (ni siquiera la constante ya
que el valor esperado de los residuos debe ser cero). Bajo la hipótesis nula,
el estadístico de prueba nR 2 estará asintóticamente distribuido como una chi-
cuadrado con h grados de libertad.
La prueba Durbin Watson, vista en un capítulo anterior, no es confiable
(se sesga hacia 2) cuando los residuos son generados por modelos que
utilizan rezagos de la variable dependiente como variables explicativas, lo
que es usual en series de tiempo.
La ACF y PACF
Quizás la herramienta más utilizada para la especificación del modelo es

la combinación de la función de autocorrelación y la función de
autocorrelación parcial. Como se vio en el capítulo anterior, los estimados de
estas funciones tienen características que ayudan a identificar si el modelo es
autorregresivo, de promedio móvil, o ambos, y cuáles son sus posibles
rezagos p y q . La práctica y la experiencia son fundamentales en el manejo
de la ACF y la PACF. Algunas pautas, adicionales a las presentadas en el
capítulo anterior, se pueden consultar en Box y Jenkins (1970) y en Enders
(2004).
Un criterio general para la especificación del modelo ARMA es que entre
alternativas similares es preferible un modelo parsimonioso (parco, frugal),
esto es, el que tenga menos términos, con el objeto de minimizar la pérdida
de precisión en la estimación y en la predicción.
Existen otras ayudas para el diagnóstico y la especificación como el
criterio de Akaike (Akaike Information Criterion, AIC), el de Schwarz
(Schwarz Criterion, SC) y el de Hannan Quinn, vistos en el capítulo 3. En el
caso de series de tiempo, el número agregado de parámetros independientes
ensayados ( k en la notación del capítulo 3) es la suma del número de
rezagos autorregresivos p y de promedio móvil q , que son los α y los β ;
también se puede incluir la constante en k . Para hacer la prueba hay que
perder las primeras observaciones de manera que n es el número mínimo
utilizable de observaciones. La idea es buscar k (una combinación de p y
q ) para que estos criterios den lo menor posible (inclusive pueden ser
negativos).
Estimación de los Modelos AR( p )
En esta sección supondremos que se ha establecido de antemano que el

modelo correcto es un autorregresivo y que se conoce su orden p . El
modelo a estimar es
xt = α1 xt −1 + α 2 xt − 2 + L + α p xt − p + ε t (10.2)
donde ε t es ruido blanco y se ha omitido la constante por simplicidad. En

otras palabras, supondremos que la serie xt tiene media cero o, en su
defecto, que le ha sido restada.
Hay varias formas de realizar la estimación de un AR( p ), obviamente

unas mejores que otras y unas más complicadas o costosas. Básicamente, los
métodos disponibles son: de momentos, mínimos cuadrados ordinarios y
máxima verosimilitud. Veremos el de MCO. Como siempre, la cantidad a
minimizar es la suma de errores al cuadrado, cuya expresión es
n 2
∑ (x
t = p +1
t − α1 xt −1 − α 2 xt − 2 − L − α p xt − p ) (10.3)
Nótese que la sumatoria arranca en p + 1 porque no podemos calcular los ε t

entre ε 1 y ε p . Esto se puede ver despejando ε t de la expresión del AR( p ),
ε t = xt − α1 xt −1 − α 2 xt − 2 − L − α p xt − p , donde
para t = 1 ε 1 = x1 − α 1 x0 − α 2 x −1 − L − α p x1− p
M
para t = p ε p = x p − α 1 x p −1 − α 2 x p −2 − L − α p x0
En el modelo autorregresivo los rezagos de xt utilizados como variables

explicativas están parcialmente correlacionados con el vector de errores ε t ,
produciendo estimadores sesgados, aunque consistentes según el Teorema
de Mann-Wald que veremos más adelante. Para explicar por qué la
aplicación de MCO a un modelo autorregresivo produce estimadores
sesgados pero consistentes, podemos apelar a un AR(1) xt = α xt −1 + ε t .
Vectorialmente, el AR(1) se puede expresar como
 x1   x0  ε1 
x   x   
 2  =  1 α + ε 2  (10.4)
M  M  M
     
 xn   xn −1  ε n 
Si definimos x = (x1 x2 L xn )′ , X = (x0 x1 L xn −1 )′ y ε = (ε1 ε 2 L ε n )′ ,

podemos escribir el modelo en forma compacta como x = Xα + ε . La
aplicación de MCO produce la siguiente expresión para el vector de
coeficientes
αˆ = ( X ' X )−1 X ' x = ( X ' X )−1 X ' Xα + ( X ' X )−1 X 'ε = α + ( X ' X )−1 X 'ε (10.5)
Por construcción del AR(1) vemos que el error ε t en el tiempo t es

independiente del pasado xt −1 , xt − 2 ,K pero no es independiente de xt ni del
futuro xt +1 , xt + 2 ,K . Por ejemplo, el efecto de ε 1 se nota en el término x 2 a
través de x1 ya que
x 2 = α x1 + ε 2 = α (α x0 + ε 1 ) + ε 2
igualmente en el término x3 porque
x3 = α x 2 + ε 3 = α (α x1 + ε 2 ) + ε 3 = α (α (α x0 + ε 1 ) + ε 2 ) + ε 3
y así sucesivamente.
En consecuencia, el valor esperado de α̂ será
−1
Eαˆ = α + E[( X ' X ) X ' ε ] ≠ α (10.6)
porque E (ε X ) ≠ 0 violando el supuesto de independencia entre las variables

explicativas y el error, lo cual implica que el estimador MCO es sesgado,
Eαˆ ≠ α . [Recordar que si las variables a y b no son independientes entonces
Eab ≠ EaEb ].
La situación anterior contrasta con el modelo clásico de regresión en el
cual X es tal que cumple con la independencia E (ε X ) = Eε = 0 y por lo
tanto, en ese caso,
−1 −1
E ( X ' X ) X ' ε = ( X ' X ) X ' Eε = 0 (10.7)
Contrasta también con el caso en el cual X es estocástica pero

independiente de ε , de manera que
−1 −1
E ( X ' X ) X ' ε = E ( X ' X ) X ' Eε = 0 (10.8)
En el caso de los AR( p ), X es estocástica pero no es independiente de ε .

Veamos con mayor detalle el término que produce el sesgo en este AR(1)
−1
  x0   ε1 
    
 x1  ε 
[
Eαˆ = α + E ( X ' X ) X 'ε = E ( x0
−1

] x1 L xn −1 )
M 
(x0 x1 L xn −1 ) 2 
M
    
 x  ε 
  n −1   n
 1 
=α + E 2 2 2 2 2 2 2  0 1
[x ε + x1ε 2 + x2ε 3 + x3ε 4 + L + xn −1ε n ]
 x0 + x1 + x2 + x3 + x4 + x5 + L + xn −1 
(10.9)
Esta ecuación representa el valor esperado de un producto, que sería igual al

valor esperado del primer factor multiplicado por el valor esperado del
segundo si ambos factores fueran independientes, en cuyo caso es evidente
que el sesgo sería cero porque el valor esperado del segundo factor es cero
debido a que contiene productos de x contra ε del futuro, esto es,
E [x0ε1 + x1ε 2 + x2ε 3 + x3ε 4 + L + xn −1ε n ] = 0 (10.10)
Mientras menor sea la dependencia entre ambos factores, más cerca

estará el valor esperado en (10.9) de expresarse como un producto de valores
esperados, y más cerca estará de cero.
El caso de un AR(2) xt = α 1 xt −1 + α 2 xt −2 + ε t sirve como ilustración
adicional. La expresión matricial de este modelo sería
 x1   x0 x−1   ε1 
x   x x0   ε 
 2  1  1  
α 2
M= M x1   + M 
 
    α  
   M   2  
 xn   xn −1 xn − 2  ε n 
Al igual que se hizo para el AR(1), la estimación del vector de coeficientes

es
αˆ = α + ( X ' X )−1 X 'ε (10.11)
siendo el sesgo de esta estimación el término E ( X ' X )−1 X ' ε donde

 x−21 + L + xn2− 2 − ( x0 x−1 + x1 x0 + L + xn −1 xn − 2 ) 

 
( X ' X ) −1 =  Δ
2
Δ
2  (10.12)
 − ( x x
0 −1 + x 1 0 + L + xn −1 xn − 2 )
x x0 + L + xn −1 
 Δ Δ 
 x ε + x ε + x2ε 3 + L + xn −1ε n 
X 'ε =  0 1 1 2  (10.13)
 x−1ε1 + x0ε 2 + x1ε 3 + L + xn − 2ε n 
con el determinante
Δ = ( x02 + L + x n2−1 )( x −21 + L + x n2− 2 ) − ( x 0 x −1 + x1 x0 + L + x n −1 x n −2 ) 2 .
Las expresiones (10.12) y (10.13) no son independientes, razón por la cual,

aunque E X ' ε sea cero, habrá un sesgo en muestras finitas. Se han hecho
intentos por estimar y corregir el sesgo en la estimación de los
autorregresivos por MCO pero no son generalizables. Afortunadamente,
dicho sesgo desaparece asintóticamente, según el Teorema Mann-Wald.
Teorema de Mann-Wald
Supongamos, para simplificar, que tenemos el producto de dos variables

ab y queremos encontrar su valor esperado Eab . Si se tratara de la suma
a + b simplemente tomamos el valor esperado de cada término, Ea + Eb ,
porque a + b es una operacional lineal. Pero ab no es lineal y, por lo tanto,
Eab ≠ EaEb a menos que, como hemos dicho antes, a y b sean
independientes. [El problema con la aplicación de MCO al modelo
autorregresivo es precisamente éste, que los factores, por ejemplo (10.12) y
(10.13), no son independientes].
No siempre es intuitivamente obvio por qué Eab ≠ EaEb . Imaginemos que
a está distribuida de manera simétrica con media 10 y que b también está
distribuida de manera simétrica pero con media cero. Si fueran
independientes Eab = EaEb = (10)(0) = 0 . Pero supongamos que entre a y b
hay correlación positiva. Aunque las distribuciones sean simétricas y las
parejas de observaciones sean tomadas al azar, el producto de las
observaciones correlacionadas no será simétrico. Correlación positiva quiere
decir que cuando a está por encima de su media, b también, y viceversa.
Por ejemplo, si tenemos dos pares de observaciones (a1 , b1 ) = (15,1) y
(a 2 , b2 ) = (5,−1) , el primer producto será 15 y el segundo -5, y la media de los
productos será 5, lejos de cero. Y aunque adicionemos más observaciones
correlacionadas, la media de sus productos seguirá siendo diferente de cero,

a menos que la varianza de b se haga cero, en cuyo caso, obviamente, de ahí
en adelante todas las observaciones que se tomen de b serán iguales a su
media, cero, al igual que los productos ab y la media de éstos, Eab . Esto es
precisamente lo que quiere decir límite en probabilidad, plim . Entonces, si
plim b = 0 , podremos decir que plim ab = ( plim a )( plim b) = 0 , siempre y
cuando el límite plim a también exista.
Volviendo a la expresión del sesgo vemos que éste desaparecería, al
menos asintóticamente, si plim ( X ' X )−1 X ' ε = 0 . Dividiendo arriba y abajo el
segundo término de (10.11) por n obtenemos,
−1
 X ' X   X 'ε 
αˆ = α +     (10.14)
 n   n 
y luego tomando límite de probabilidad vemos que

−1 −1
  X'X   X 'ε    X'X 
plim αˆ = α +  plim  plim  = α +  plim  (0) = α (10.15)
  n   n    n 
Se divide arriba y abajo por n porque plim X ' ε no existe. Aunque el valor
esperado de X ' ε sea cero, su varianza no cae a cero; pero al dividir por n su
varianza desaparece cuando n → ∞ , de manera que el límite existe y es
 X 'ε 
plim  = 0 . Adicionalmente, como la matriz X ' X podría ser singular,
 n 
X'X 
suponemos que plim   = Q , donde Q es una matriz finita no singular.
 n 
¿Y si hubiera correlación serial en ε t ? En este caso tenemos que EX ' ε ≠ 0
porque en un autorregresivo los sumandos de x0ε 1 + x1ε 2 + x 2ε 3 + x3ε 4 + L
tienden a ser del mismo signo al estar los x del pasado relacionados con los
ε del futuro a través de la correlación serial. En consecuencia,
 X 'ε 
plim  ≠ 0 y MCO sería sesgado e inconsistente.
 n 
 
Formalizamos este resultado debido a Mann y Wald (1943). Para un
AR( p ) estacionario con ε t ∼ iid (0, σ ε2 ) , la estimación por MCO es consistente
y
n (αˆ − α ) d
→ (
N 0,σ ε2Q −1 ) (10.16)
X'X
donde Q = plim . Alternativamente, se puede usar la expresión
n
αˆ d
→ N (α , σ ε2Q −1 / n ) (10.17)
En otras palabras, el estimador MCO de α converge en distribución a una

normal y tanto el estimador como las pruebas de hipótesis serán válidas
asintóticamente. En este sentido, un AR( p ) puede ser tratado, para n
grande, como un caso de regresión clásica. Sin embargo, es importante notar
que si el verdadero modelo es un ARMA, lo cual implica autocorrelación en
sus errores, estimarlo por MCO como si fuera un AR tiende a producir
resultados inconsistentes, especialmente si se utilizan muy pocos rezagos.
El problema del sesgo es más importante cuando el interés se centra en el
valor de alguno de los coeficientes, por ejemplo, para evaluación de
impacto, que cuando se trata de estimar un modelo cuyo objeto es hacer
predicción.
Ejemplo
Para n grande, estimamos por MCO los dos AR(1) siguientes y comparamos
los resultados
xt = α xt −1 + ε t y xt = γ xt +1 + u t
Para el primero, donde xt está en función del pasado, se encuentra
−1
  x0    x1 
  x  x 
  1   2
α̂ = [x0 x1 x2 L x n−1 ]  x 2   [ x0 x1 x2 L x n−1 ]  x3 
    
  M  M
  x n −1    x n 
 
x0 x1 + x1 x 2 + x 2 x3 + L + x n −1 x n Rˆ (1)
αˆ = =
x02 + x12 + x 22 + L + x n2−1 Rˆ (0 )
Para el segundo, donde xt está en función del futuro, se encuentra

−1
  x2    x1 
  x  x 
  3   2
γˆ = [x 2 x3 L x n x n +1 ]  M   [x 2 x3 L x n x n+1 ]  x3 
    
  xn   M
  x n+1    x n 
 
x 2 x1 + x3 x 2 + L + x n x n −1 + x n +1 x n Rˆ (1)
γˆ = =
x 22 + x32 + L + x n2 + x n2+1 Rˆ (0 )
De manera que, para n → ∞ , los coeficientes estimados serán iguales, αˆ = γˆ .
Ejemplo
El Cuadro 10.1 ilustra la estimación de un autorregresivo, en este caso un

AR(1).
La variable DH es el cambio porcentual trimestral (en decimales) en el consumo de hogares

Dependent Variable: DH
Date: 03/11/11 Time: 16:25
Sample (adjusted): 1994Q3 2007Q3
Included observations: 53 after adjustments
C 0.002752 0.001405 1.958389 0.0557

DH(-1) 0.608709 0.110984 5.484652 0.0000

S.E. of regression 0.008489 Akaike info criterion -6.663016
Sum squared resid 0.003675 Schwarz criterion -6.588665
Log likelihood 178.5699 Hannan-Quinn criter. -6.634424
modelo AR(1) estimado: DH t = .002752 + .608709 DH t −1

Cuadro 10.1
Estimación de los Modelos MA( q )
Sea xt un proceso de promedio móvil con especificación q ya conocida y

con media cero; esto es, Ext = 0 . La expresión del modelo es
xt = ε t + β1ε t −1 + β 2ε t − 2 + L + β qε t − q (10.18)
Si bien es posible invertir el MA( q ) anterior y despejar ε t para escribir la

verosimilitud, la expresión es inapropiada porque ε t quedaría en función de
un número infinito de términos dificultando encontrar las raíces. Por otro
lado, aunque los { ε t } sean normales y x1 ,K, x n también, escribir la
distribución conjunta de x1 ,K, x n se dificulta porque la matriz de varianza
covarianza Σ x es una función complicada de los β , además de ser de orden
n × n . En principio se puede utilizar el método de momentos, igualando la
expresión de las autocovarianzas teóricas a las estimadas, aunque algunos
autores consideran que aplicar este método para estimar los β es ineficiente
para un MA( q ). Tampoco se puede aplicar MCO directamente porque no
conocemos los ε t .
El método de estimación más popular, ideado por Box y Jenkins (1970),
es una solución recursiva sobre ε t con el fin de aproximar la verosimilitud.
Para la recursión suponemos que ε 0 = ε −1 = ε −2 = L = ε 1− q = 0 como valores
iniciales. Despejando ε t de la ecuación (10.18) podemos construir los
errores así
ε1 = x1
ε 2 = x2 − β1ε1
ε 3 = x3 − β1ε 2 − β 2ε1
ε 4 = x4 − β1ε 3 − β 2ε 2 − β 3ε1
M (10.19)
ε q = xq − β1ε q −1 − β 2ε q − 2 − L − β q −1ε1
ε q +1 = xq +1 − β1ε q − β 2ε q −1 − L − β q −1ε 2 − β qε1
M
ε t = xt − β1ε t −1 − β 2ε t − 2 − L − β qε t − q
donde la última expresión es para q < t ≤ n . En cada ecuación se van

reemplazando los valores ya conocidos que se obtuvieron en las anteriores.
Si hay una constante c , se incluye en la derivación anterior y se trata como
cualquier otro coeficiente a estimar, o se usa x = c después de la estimación.
Elevamos al cuadrado la expresión para cada ε t y minimizamos su suma,
∑ε
t =1
t
2
(10.20)
escogiendo los coeficientes βˆ1 ,K, βˆ q . A primera vista parecería que la

n
optimización necesaria se logra derivando ∑ε
t =1
t
2
con respecto a los
parámetros β 1 ,K , β q , igualando a cero y despejando de allí los βˆ1 ,K, βˆ q

buscados. Sin embargo, entenderemos mejor la dificultad de hacer esto
observando cómo se forma cada uno de los errores ε 1 ,K, ε n . Obviamente, al
hacer los reemplazos indicados en (10.19) van quedando los β elevados al
cuadrado, al cubo, etc., y también multiplicados entre ellos, de manera que
será difícil despejar β . Por ejemplo, ε 4 será
ε 4 = x4 − β1 ( x3 − β 1ε 2 − β 2ε 1 ) − β 2 ( x2 − β1ε 1 ) − β 3 x1
donde aparecerán productos β 1 β 2 . En ε 5 aparecerán productos β 12 β 2 , β 1 β 2 ,

β 1 β 3 y más complejos en los ε siguientes. De manera que ∑ ε t2 es una
función no lineal de los parámetros (o no linealizable).
Dada la dificultad para despejar los β estimados de las derivadas
igualadas a cero (lo que contrasta con la facilidad de hacerlo en el caso del
modelo clásico de regresión), aquí se hace necesario ensayar, de manera
inteligente, diferentes valores de β hasta encontrar los que minimicen la
suma de los errores al cuadrado. Para esto se utiliza algún método iterativo
de optimización numérica, los cuales fueron presentados de manera intuitiva
en el capítulo 3.
1 n
El estimador de la varianza σ ε2 tendrá la expresión consistente
n
∑ εˆ
t =1
t
2
,
aunque se puede usar n − q en el denominador en lugar de n .
Si xt tiene raíces cercanas a la unidad, la condición ε 0 = ε −1 = L = ε 1−q = 0
no será trivial ya que el efecto de este supuesto puede persistir en el tiempo
acentuando el sesgo en la estimación de los β . Una forma de aliviar los
efectos del supuesto ε 0 = ε −1 = L = ε 1−q = 0 , es tratar de estimar el valor de
estos errores por medio de una técnica conocida como backforecast o
backcast, lo cual quiere decir ‘predecir hacia atrás’, o retropredecir, y usar
esos valores en lugar de ε 0 = ε −1 = L = ε 1−q = 0 .
Estimación de los Modelos ARMA( p , q )
Sea xt un proceso ARMA con p y q conocidos y media cero. Su

expresión es
xt = α1 xt −1 + L + α p xt − p + ε t + β1ε t −1 + L + β qε t − q (10.21)
Procedemos de manera similar a como se hizo para el MA( q ) bajo el

supuesto de que los ε anteriores a ε p +1 son cero; esto es,
ε p = ε p −1 = L = ε p +1−q = 0 , y de que x1 ,K, x p están dados, escribimos,
ε p +1 = x p +1 − α1 x p L − α p x1
ε p + 2 = x p + 2 − α1 x p +1 − L + α p x2 − β1ε p +1
M
ε p + q = x p + q − α1 x p + q −1 − L − α p xq − β1ε p + q −1 − L − β q −1ε p +1 (10.22)
ε p + q +1 = x p + q +1 − α1 x p + q − L − α p xq +1 − β1ε p + q − L − β q −1ε p + 2 − β qε p +1
M
ε t = xt − α1 xt −1 − L − α p xt − p − β1ε t −1 − L − β qε t − q
donde la última expresión es para p + q < t < n .

De nuevo, la estimación se obtiene minimizando la suma de los errores
elevados al cuadrado
n
∑ε
t = p +1
t
2
= ε p2 +1 + ε p2 + 2 + L + ε n2 (10.23)
que es una función no lineal de los parámetros α 1 ,K,α p y β 1 ,K , β q . Para esto

se utiliza algún método de optimización numérica.
El estimador de la varianza del error σ ε2 será
1 n
σˆ ε2 =
n− p
∑ εˆ
t = p +1
t
2
(10.24)
1 n
aunque también se puede usar σˆ ε2 = ∑ εˆt2 , donde el divisor
n − 2 p − q t = p +1
n − 2p − qse explica porque hay n − p datos utilizables menos p + q
parámetros lo cual da n − p − p − q = n − 2 p − q .
Ejemplo
Dado que la estimación de un MA y un ARMA utiliza básicamente el mismo

método, el siguiente ejemplo sirve para ambos modelos. El Cuadro 10.2
muestra la estimación de un ARMA(1,1) por el método iterativo (la
convergencia fue alcanzada en 7 iteraciones). Las raíces invertidas (en este
caso 0.28, como aproximación de 0.278941) se refieren al inverso de las
raíces de la ecuación auxiliar de la parte MA.
La variable DH es el cambio porcentual trimestral (en decimales) en el consumo de hogares

Dependent Variable: DH
Date: 03/11/11 Time: 16:28
Convergence achieved after 7 iterations
MA Backcast: 1994Q2
C 0.001547 0.001281 1.208454 0.2326

DH(-1) 0.782063 0.139750 5.596161 0.0000
MA(1) -0.278941 0.213921 -1.303942 0.1982

S.E. of regression 0.008423 Akaike info criterion -6.660822
Sum squared resid 0.003547 Schwarz criterion -6.549296
Log likelihood 179.5118 Hannan-Quinn criter. -6.617935
Inverted MA Roots .28
modelo ARMA(1,1) estimado: DH t = .001547 + .782063DH t −1 − .278941ε t −1

Cuadro 10.2
Estimación Asintótica de un ARMA por MCO
Otro método para estimar un ARMA o MA utilizando MCO, genera los

ε como los errores de una proyección lineal de xt contra sus rezagos
(cuántos más rezagos mejor). Con estos ε se corre el MA o el ARMA.
Sea xt de la forma
xt = α 1 xt −1 + L + α p xt − p + ε t + β 1ε t −1 + L + β q ε t −q
donde ya se conocen p y q . El primer paso es correr un AR( k ), esto es, xt

contra xt −1 , xt −2 ,K, xt −k por MCO. Se busca que k sea grande. El segundo paso
es utilizar los residuos de la autorregresión anterior
εˆt = xt − αˆ 1 xt −1 − αˆ 2 xt −2 − L − αˆ k xt −k
para correr una nueva regresión de xt contra xt −1 , xt − 2 ,K, xt − p , y εˆt −1 ,K, εˆt −q , sin
incluir εˆt ya que éste será representado por el error usual de la regresión; de
otra forma se asignará un coeficiente de 1 a εˆt en la estimación. De esta
regresión de obtienen los parámetros estimados αˆ1 ,K,αˆ p , βˆ1 ,K, βˆq .
Se puede adicionar un tercer paso que consiste en repetir la regresión del
paso dos con los residuos de la estimación del ARMA del paso dos,
llamados εˆˆt ; esto es, correr xt contra xt −1 , xt − 2 ,K, xt − p y εˆˆt −1 ,K, εˆˆt −q ; aunque
generalmente este tercer paso no es necesario.
Capítulo 11
MODELO ESTACIONARIO MULTIVARIADO VAR
Los modelos de series de tiempo vistos hasta ahora han sido básicamente
univariados, esto es, que explican xt en función de su propio pasado y de
una serie de errores {ε t } . A continuación vamos a estudiar un modelo con
más variables, conocido como vector autorregresivo, VAR.
Antes de detallar el VAR, recordemos el caso particular de un AR con
constante y variables exógenas, cuya expresión es
xt = c + α1 xt −1 + α 2 xt − 2 + L + α p xt − p + γ 1 z1t + L + γ k zkt + ε t (11.1)
el cual puede verse como un modelo de regresión con variables explicativas

estocásticas parcialmente dependientes del error. En razón del Teorema de
Mann-Wald, visto en el capítulo anterior, este modelo puede estimarse por
MCO obteniendo resultados consistentes.
Sin embargo, la inclusión de variables exógenas puede causar
dificultades. Para que la estimación sea consistente se requiere que las
variables exógenas z t sean independientes del error ε t ; esto es, que sean
verdaderamente exógenas. Lo anterior equivale a aseverar que no existe otra
ecuación en alguna parte del sistema donde z t dependa de xt , digamos
zt = xt + gt , donde gt es alguna otra variable ya que, de lo contrario, z t estará
correlacionada con ε t a través de xt . En algunos casos se puede suponer que
z t es exógena, en otros no. La teoría no siempre ayuda.
El Modelo VAR
Una alternativa que depende menos de que tengamos la teoría correcta

para saber cuáles variables son endógenas y cuáles exógenas, es suponer de
entrada que existe un sistema de ecuaciones simultáneas y que todas las
variables son endógenas, esto es, que dependen unas de otras.
Para formalizar esto, supongamos que hay m variables y que xt es el
vector que las reúne
 x1t 
 
x 
xt =  2t  (11.2)
M
 
x 
 mt 
donde, de nuevo, todas se consideran endógenas.

Se trata entonces de no enfatizar las ecuaciones estructurales sino la
forma reducida y dejar que sean los datos, más que la teoría, los que
indiquen cuáles variables se deben incluir o excluir de las ecuaciones. La
verdad es que en este enfoque la teoría no está del todo ausente ya que, por
ejemplo, se requiere para escoger las m variables. Recordamos que la forma
reducida es la expresión de cada variable endógena en función de las
exógenas o predeterminadas; y en nuestro nuevo sistema (11.2) podemos
usar los rezagos de las endógenas como predeterminadas y los errores como
exógenas.
Por lo tanto, podemos escribir una ecuación reducida para cada variable
del vector xt en función de sus propios rezagos, de rezagos de las otras
variables, y del error.
Este conjunto de m ecuaciones conforman lo que se llama un vector
autorregresivo, VAR( p ), cuya expresión es como sigue
xt = A0 + A1 xt −1 + A2 xt − 2 + L + Ap xt − p + ε t (11.3)
donde A0 es un vector m × 1 de constantes, A1 ,K, Ap son matrices de

coeficientes de orden m × m y donde los m elementos del vector ε t , también
llamados shocks o innovaciones, son individualmente ruido blanco, aunque
pueden estar correlacionados contemporáneamente; en general, la matriz
m × m de varianza covarianza de los errores será Eε t ε t ' = Σ . También se
puede adicionar al VAR un vector de variables verdaderamente exógenas.
Como antes, el rezago más lejano es p .
Para ilustrar, un VAR(3) de dos variables ( m = 2 ) y constante tendrá la
expresión
 x1t   α 01   α 1,11 α 1,12  x1t −1   α 2,11 α 2,12  x1t −2   α 3,11 α 3,12  x1t −3   ε 1t 
  =   +    +    +    +  
 x 2t  α 02  α 1, 21 α 1, 22  x 2t −1  α 2, 21 α 2, 22  x 2t − 2  α 3, 21 α 3, 22  x 2t −3   ε 2t 
(11.4)
donde la ecuación para cada variable es
x1t = α 01 + α 1,11 x1t −1 + α 1,12 x 2t −1 + α 2,11 x1t −2 + α 2,12 x 2t − 2 + α 3,11 x1t −3 + α 3,12 x 2t −3 + ε 1t
x 2t = α 02 + α 1, 21 x1t −1 + α 1, 22 x 2t −1 + α 2, 21 x1t − 2 + α 2, 22 x 2t − 2 + α 3, 21 x1t −3 + α 3, 22 x 2t −3 + ε 2t
Tomando valor esperado de la expresión del VAR en (11.3), y

recordando el supuesto de estacionariedad, puede verse que este resulta
similar al del AR univariado, esto es
E xt = (I − A1 − A2 − L − Ap ) −1 A0 (11.5)
El valor esperado de cada variable en un VAR depende no sólo de las

constantes y del valor esperado de sus propios errores, sino también de las
constantes y del valor esperado de los errores de las demás ecuaciones. Por
ejemplo, para un VAR(1) estacionario, xt = c + Axt −1 + ε t , con m = 2 y Eε t = 0 ,
tendremos,
x   c  α α 12   x1t −1  ε 
E  1t  = E  1  +  11  E   + E  1t 
 x 2t   c 2   α 21 α 22   x 2t −1   ε 2t 
 1 0   α 11 α 12   x1t   c1 
  −   E   =  
  0 1   α 21 α 22   x 2t   c 2 
−1
 x1t  1 − α 11 − α 12   c1  1 1 − α 22 α 12  c1 
E   =     =   
 x 2t   − α 21 1 − α 22   c 2  ∆  α 21 1 − α 11  c 2 
donde ∆ = (1 − α 11 )(1 − α 22 ) − α 12α 21 . Los valores esperados serán
(1 − α 22 )c1 + α 12 c 2
Ex1t =
(1 − α 11 )(1 − α 22 ) − α 12α 21
α 21c1 + (1 − α 11 )c 2
Ex 2t =
(1 − α 11 )(1 − α 22 ) − α 12α 21
El número de parámetros a estimar en un VAR puede llegar a ser grande.

Hay un vector de m elementos de constantes más p matrices de m 2
m(m + 1)
coeficientes (una por cada rezago) más elementos en la matriz Σ .
2
Esto último se debe a que la matriz Σ es simétrica y sólo es necesario
estimar los elementos que están sobre la diagonal y a un lado de ésta, lo cual
m(m + 1)
da elementos. En resumen, si hay constante, el número de
2
parámetros será m + pm 2 + m(m + 1) / 2 . Por ejemplo, si tenemos tres rezagos
( p = 3 ) y dos variables ( m = 2 ) se requiere estimar 2+3(2×2)+3=17
parámetros. Si fueran cuatro variables ( m = 4 ) y los mismos ( p = 3 ) rezagos
tendríamos 4+3(4×4)+10=62 parámetros a estimar. Excepto para muestras
grandes, los VAR’s usualmente no pasan de cuatro o cinco variables y tres o
cuatro rezagos. Esto es especialmente crítico en la estimación simultánea.
Los rezagos lejanos, por ejemplo para representar la estacionalidad (12, 24,
..., si es mensual ó 4, 8, ..., si es trimestral), se pueden incluir como variables
exógenas de manera que no se haga inmanejable el número de rezagos del
VAR.
Para seleccionar p en un VAR con n observaciones, pueden minimizarse
las versiones vectoriales de criterios como el AIC y SC presentados en el
capítulo 3. Estas versiones vectoriales son
2k
(
AIC = ln det Σˆ p + )n
(11.6)
k ln n
( )
SC = ln det Σˆ p +
n
donde det Σ̂ p es el determinante del estimador de la matriz de varianza

covarianza Eε tε t ' de orden m × m del vector de errores que se obtiene del
VAR de orden p , y k es el número agregado de coeficientes a estimar
incluyendo las constantes; esto es, pm 2 si no hay constantes y pm 2 + m si
hay constantes. Algunas versiones de estos criterios remplazan el término
ln(det Σ̂ p ) por el negativo de la verosimilitud conjunta logarítmica estimada
(dividida por n ).
Adicional a lo anterior, también es importante que los εˆt resultantes de la
estimación del VAR sean ruido blanco (que sean independientes o al menos
no tengan correlación serial) lo cual debe influir en la escogencia de p . Esto
es especialmente importante porque, al igual que en el AR, en el VAR hay
variables dependientes rezagadas y, si hay autocorrelación en los errores,
puede resultar una estimación inconsistente, i.e., no aplica Mann-Wald. Se

pueden utilizar las pruebas usuales, la prueba Q o la Breusch-Godfrey de
multiplicador de Lagrange para autocorrelación. También hay versiones
vectoriales de las mismas.
La metodología de modelaje con VARs fue propuesta por Sims (1980)
con el objeto de alejarse un poco de "las increíbles restricciones" que se
imponían a los parámetros en la estimación tradicional. Aquí todas las
variables dependen de todas. En este enfoque ni siquiera se enfatiza la
omisión de rezagos no significativos ya que las pruebas t usuales pueden
resultar poco confiables por la multicolinealidad que suelen exhibir las
variables explicativas del VAR. Más aún, los proponentes de esta
metodología sugieren que no es necesario diferenciar, restar tendencias o
desestacionalizar las variables no estacionarias, dado que el objetivo
primordial es descubrir relaciones entre variables, más que realizar
estimaciones precisas de parámetros.
Estimación
Obsérvese que las ecuaciones del VAR son ecuaciones de forma reducida
y, como no tienen términos de promedio móvil en el error, pueden ser
estimadas individualmente por MCO o por máxima verosimilitud. Esto
simplifica la estimación. El Cuadro 11.1 muestra la estimación de un VAR
con p = 4 y m = 2 para las variables trimestrales COLOC (tasa de interés de
colocación o de préstamos) y CAPTA (tasa de interés de captación o al
ahorro).
La ecuación estimada para la variable COLOC es
COLOCt = 26.49 + 0.06COLOCt −1 + 0.46COLOCt − 2 − 1.03COLOCt − 3 + 0.04COLOCt − 4
+ 0.79CAPTAt −1 − 0.31CAPTAt − 2 + 0.38CAPTAt − 3 + 0.26CAPTAt − 4
y la ecuación estimada para la variable CAPTA es
CAPTAt = 15.15 − 0.21COLOCt −1 + 0.58COLOCt − 2 − 1.09COLOCt −3 + 0.14COLOCt − 4
+ 1.08CAPTAt −1 − 0.43CAPTAt − 2 + 0.38CAPTAt − 3 + 0.26CAPTAt − 4
Con frecuencia es difícil asignar una explicación a los coeficientes de

cada rezago, con excepción de los cercanos y de los estacionales. La
significancia misma puede verse distorsionada por la autocorrelación entre

las variables rezagadas que genera multicolinealidad. En el Cuadro 11.1 se
observa que los rezagos 3 de COLOC y los rezagos 1 de CAPTA aparecen
significativos.
Vector Autoregres s ion Es tim ates
Date: 10/19/17 Tim e: 21:10
Sam ple (adjus ted): 1988Q1 1999Q1
Included obs ervations : 45 after adjus tm ents
Standard errors in ( ) & t-s tatis tics in [ ]
COLOC CAPTA
COLOC(-1) 0.062296 -0.214216

(0.32953) (0.32141)
[ 0.18905] [-0.66649]
COLOC(-2) 0.456099 0.577207

(0.34009) (0.33171)
[ 1.34112] [ 1.74011]
COLOC(-3) -1.032818 -1.093478

(0.35314) (0.34444)
[-2.92469] [-3.17469]
COLOC(-4) 0.040294 0.142068

(0.43202) (0.42138)
[ 0.09327] [ 0.33715]
CAPTA(-1) 0.784830 1.083511

(0.33046) (0.32232)
[ 2.37497] [ 3.36164]
CAPTA(-2) -0.314300 -0.432458

(0.38231) (0.37289)
[-0.82210] [-1.15975]
CAPTA(-3) 0.378475 0.377804

(0.38468) (0.37520)
[ 0.98387] [ 1.00694]
CAPTA(-4) 0.255666 0.260519

(0.40834) (0.39828)
[ 0.62611] [ 0.65412]
C 26.49473 15.15278
(9.06698) (8.84354)
[ 2.92211] [ 1.71343]
R-s quared 0.642930 0.673129

Adj. R-s quared 0.563581 0.600491
Sum s q. res ids 348.6707 331.6980
S.E. equation 3.112121 3.035430
F-s tatis tic 8.102580 9.266909
Log likelihood -109.9202 -108.7974
Akaike AIC 5.285342 5.235439
Schwarz SC 5.646675 5.596772
Mean dependent 41.22222 30.86000
S.D. dependent 4.710910 4.802386
Cuadro 11.1
Al igual que los AR y MA univariados, sus contrapartes multivariadas

también pueden intercambiarse. En otras palabras, un VAR finito puede
convertirse en un VMA infinito y viceversa. Ilustremos convirtiendo un
VAR(1) de dos variables en un VMA(∞),
 x1t   α11 α12  x1t −1   ε1t   α11L α12 L  x1t   ε 1t 

  =    +   =    +   (11.7)
 x2t   α 21 α 22  x2t −1   ε 2t   α 21L α 22 L  x2t   ε 2t 
y agrupando términos,
 1 0   α11L α 12 L  x1t  1 − α11L − α12 L  x1t   ε1t 

  −    =    =   (11.8)
 0 1   α 21L α 22 L  x2t   − α 21L 1 − α 22 L  x2t   ε 2t 
Al tomar el inverso de la matriz en la expresión anterior para despejar el

vector xt , su determinante dividirá cada uno de sus elementos o,
alternativamente, dividirá a ε t que está al lado derecho. Por lo tanto, la
estabilidad del sistema dependerá de que las raíces de
(1 − α11L )(1 − α 22 L ) − α12α 21L2 = 0 sean mayores que 1 en magnitud. Despejando
de la ecuación (11.8),
 1 − α 22 L α12 L 
 1t   ∆
x ∆
 ε 
  =   1t  (11.9)
 x2t   α 21L 1 − α11L  ε 2t 

 ∆ ∆ 
donde ∆ = (1 − α 11 L )(1 − α 22 L ) − α 12α 21 L2 . Continuando con las operaciones

algebraicas tendremos,
 1 − α 22 L α L  ε α ε α ε 
 ε1t + 12 ε 2t   1t − 22 1t −1 + 12 2t −1 
= ∆ ∆ = ∆ ∆ ∆ 
α L
 21 ε + 1 − α L α ε ε α ε
1t
11
ε 2t   21 1t −1 + 2t − 11 2t −1 
 ∆ ∆   ∆ ∆ ∆ 
expresión que, después de las expansiones pertinentes (mucha álgebra)

causadas por los factores resultantes de la factorización de los
denominadores ∆ , se puede escribir en forma de un VMA(∞),
 x1t   ε1t   β1,11 β1,12  ε1t −1   β 2,11 β 2,12  ε1t − 2 

  =   +   +   +L (11.10)
 x2t   ε 2t   β1, 21 β1, 22  ε 2t −1   β 2, 21 β 2, 22  ε 2t − 2 
Ejemplo
Para ilustrar el papel de las raíces de la ecuación auxiliar (en este caso el
determinante) sobre la estabilidad de un VAR, consideramos el siguiente
modelo numérico
 x1t   2 1  x1t −1   ε 1t 
  =    +  
 x 2t   1 2  x 2t −1   ε 2t 
Este se puede expresar como
 1 0   2 L L  x1t  1 − 2 L − L  x1t   ε 1t 

  −    =    =  
 0 1   L 2 L  x 2t   − L 1 − 2 L  x 2t   ε 2t 
del cual se despeja el vector xt obteniendo,
 1 − 2L L 
 x1t   ∆ 
∆  ε 1t 
  = 
 x 2t   L 1 − 2 L  ε 2t 

 ∆ ∆ 
donde ∆ = (1 − 2 L )2 − L2 = 1 − 4 L + 3L2 . Las raíces del determinante son 1 y 1/3,

implicando que el VAR no es estacionario.
Respuesta Impulso del VAR
La respuesta impulso se obtiene dando un choque unitario a uno de los m

errores del vector ε t y observando el comportamiento de las variables tras el
impulso. Este ejercicio sirve también para estudiar la estabilidad del sistema.
Si el sistema es estable, el efecto del choque decae con el tiempo.
Para ilustrar, usamos el VAR(1) de dos variables ( m = 2 )
 x1t   α11 α12  x1t −1   ε1t 

  =    +   (11.11)
 x2t   α 21 α 22  x2t −1   ε 2t 
donde hacemos ε 20 = 1 . Con esta excepción, mantenemos en cero todos los

demás ε t para cualquier t . Adicionalmente, suponemos que xt = 0 para t < 0
(en realidad para t < 0 se pone Ext , que en este ejemplo es cero). Podemos
seguir la evolución del sistema paso a paso a partir de t ≥ 0 :
 x10   0 
  =  
 x20   1 
 x11   α11 α12  0   α12 
  =    =  
x α
 21   21 α 22   1 α
 22  (11.12)
 x12   α11 α12  α12   α11α12 + α12α 22 
  =    =  2

 x22   α 21 α 22  α 22   α 21α12 + α 22 
M
También se acostumbra, en lugar de hacer ε j 0 igual a la unidad (donde j

es un dígito entre 1 y m ), hacer ε j 0 igual a una desviación estándar de ε jt o
de la variable en cuestión, manteniendo, como siempre, los demás errores en
cero.
Por la interrelación de variables que hay en un VAR, el interés radica no
sólo en la respuesta a un choque en una misma variable, sino en la respuesta
de una variable a un choque en otra. Es común dar un choque a una variable
y graficar la respuesta de esa y de las demás variables a través del tiempo.
El entusiasmo inicial que esta técnica de respuesta impulso generó entre
los econometristas ha disminuido recientemente, aunque los algoritmos para
calcular la respuesta impulso continúan siendo parte de los programas
computacionales para el análisis de series de tiempo. Ocurre que, con
frecuencia, ε 1t y ε 2t están correlacionados contemporáneamente de manera
que resulta contradictorio suponer, por ejemplo, que ε 20 = 1 mientras ε 10 se
mantiene en cero (algo así como ceteris paribus); si hay correlación y ε 20
aumenta de valor entonces ε 10 tiende a moverse. Por lo tanto, si hay
correlación entre los errores, no es claro qué significado puede asociarse a la
respuesta impulso. Este problema se ha tratado de solucionar convirtiendo la
matriz de varianza covarianza Σ del error en una matriz diagonal eliminando
así la correlación entre los errores [ver Montenegro (2011)].
Predicción con un VAR( p )
La predicción en un VAR es similar a la predicción utilizando un AR. En

el VAR
xt = c + A1 xt −1 + L + Ap xt − p + ε t (11.13)
lo usual es postular que Eε t = 0 , por lo cual se supone ε t = 0 para t > n .

Llamando xˆ n +T la predicción del vector x n +T hecha en el tiempo n para el
tiempo n + T , tenemos
xˆn +1 = c + A1 xn + A2 xn −1 + L + Ap xn +1− p
xˆn + 2 = c + A1 xˆn +1 + A2 xn + L + Ap xn + 2 − p
(11.14)
xˆn + 3 = c + A1 xˆn + 2 + A2 xˆn +1 + L + Ap xn + 3− p
M
donde, al igual que en el caso univariado, cuando T → ∞ , la mejor

predicción es el valor esperado incondicional del vector xt .
Ejemplo
Para un VAR(1) con m = 2
 x1t   c1   α 11 α 12  x1t −1   ε 1t 
  =   +    +  
x c
 2t   2   21 α α x
22  2 t −1   ε 2t 
Usando las ecuaciones individuales para la predicción tendríamos:
xˆ1,n +1 = c1 + α 11 x1,n + α 12 x 2,n

xˆ 2,n +1 = c 2 + α 21 x1,n + α 22 x 2,n
xˆ1, n + 2 = c1 + α11 xˆ1, n +1 + α12 xˆ2, n +1

xˆ2, n + 2 = c2 + α 21 xˆ1, n +1 + α 22 xˆ2, n +1
Varianza de Predicción
De manera similar a como se hizo para el caso univariado, y habiendo

visto que un VAR finito se puede expresar como un VMA infinito,
escribimos
xt = ε t + B1ε t −1 + B2ε t −2 + L
donde los Bi son la matrices de orden m × m de coeficientes de la expresión

del VMA infinito, como en (11.10).
Partiendo de que la realidad es el VMA descrito arriba, hacemos las
predicciones y vemos cuál es el error de predicción para cada horizonte T .
Definiendo el error de la predicción hecha en el tiempo n (al final de la
muestra) para T unidades de tiempo adelante como
ε n +T = realidad − pronóstico = x n +T − x n +T , tenemos
ˆ ˆ
Predicción: Error:
xˆ n +1 = B1ε n + B2ε n −1 + L εˆn +1 = ε n+1
xˆ n + 2 = B2ε n + B3ε n −1 + L εˆn + 2 = ε n + 2 + B1ε n+1
xˆ n +3 = B3ε n + B4 ε n −1 + L εˆn +3 = ε n +3 + B1ε n + 2 + B2ε n +1
M M
y, en general, al hacer la predicción xˆ n +T para cualquier T , el vector m × 1 de

errores de predicción es εˆn +T = ε n +T + B1ε n+T −1 + L + BT −1ε n+1 . Puede verse que
este error tiene media cero, y representa la incertidumbre alrededor de la
predicción. La matriz de varianza covarianza del error de predicción será
(recordando que Eε t ε t ' = Σ ),
Var (εˆn +T ) = Eεˆn +T εˆn′ +T = E (ε n +T ε n′ +T + B1ε n +T −1ε n′ +T −1 B1′ + L + BT −1ε n +1ε n′ +1 BT′ −1 )
= Σ + B1ΣB1′ + L + BT −1ΣBT′ −1
Causalidad
Cuando se corre una regresión por MCO, es común suponer que las
variables independientes 'causan' la dependiente; inclusive, éstas también se
llaman variables explicativas porque 'explican' la dependiente. Sin embargo,
tal causalidad no está garantizada.
El sólo hecho de que una variable se encuentre despejada en una ecuación
no implica que sea causada por las otras. Por ejemplo, en álgebra es
frecuente escribir
y = f (x )
sin que ello implique que x cause a y . Igualmente, en teoría económica, es

común utilizar la función de producción
Q = f (K , L )
sin que K o L necesariamente causen el producto Q , aunque a veces

implícitamente pensemos lo contrario. Más aún, en la teoría del acelerador,
por ejemplo, la causalidad va de Q a K .
La definición filosófica de causalidad (atribuida a Herbert Feigl) es:
predicción de acuerdo con una ley o un conjunto de leyes. Por lo tanto, la
mera correlación o incluso el buen desempeño predictivo no es suficiente
para establecer causalidad si falta una explicación o justificación teórica.
La correlación observada entre dos variables puede darse, o bien porque
una variable causa a la otra x1 → x 2 , o porque una tercera x3 causa ambas x1
y x2 .
Definición de Causalidad de Granger
La causalidad de acuerdo con ley o leyes tiene atractivo intuitivo pero es

una definición poco útil en economía mientras no tengamos una teoría más
desarrollada. Granger (1969) ofrece una definición mucho más operacional
aunque menos filosófica, y aplica para series estacionarias. La
implementación práctica de este concepto de causalidad de Granger se
realiza por medio de un VAR.
La causalidad de Granger incorpora el concepto de “predicción” de la
definición filosófica pero sustituye “leyes” por la correlación estadística
entre variables rezagadas. En palabras: se dice que la variable z causa x en
el sentido de Granger (ayuda a predecir x ) cuando, en presencia del pasado
de x , el pasado de z ayuda a explicar x . Debe entenderse en todo esto que
una variable que no cambia (que es una constante o que no varía en la
muestra) no puede causar nada ni ser causada.
Puede argumentarse que, filosóficamente, la causalidad instantánea no
existe porque siempre hay una diferencia de tiempo, así sea infinitesimal,
entre acciones independientes, pero que en la práctica se habla de este tipo
de causalidad simplemente porque no disponemos de observaciones en
tiempo continuo o con mayor frecuencia de muestreo que permitan separar
causa y resultado. En otras palabras, la causalidad instantánea o
bidireccional puede ser espuria y deberse solo a que los intervalos de

muestreo no son suficientemente pequeños para identificar la causalidad
unidireccional.
En general, la agregación temporal puede generar causalidad espuria o
esconder la verdadera causalidad. La agregación temporal puede ocurrir
cuando los datos no se recogen con la frecuencia suficiente para capturar el
movimiento de las variables económicas. Si las decisiones de los agentes no
coinciden con el intervalo de muestreo, pueden generarse relaciones de
causalidad espurias.
Algunas aplicaciones económicas han estudiado la causalidad entre
variables tales como el gasto en publicidad y el cambio en las ventas, el
salario mínimo y la inflación, la inversión residencial y el Pib [ver
Montenegro (1989)]. También se han propuesto otras pruebas de causalidad
basadas en conceptos estadísticos similares.
En la práctica, la prueba de causalidad de Granger se hace con las
ecuaciones de un VAR( p ). Por ejemplo, para dos variables podemos tener
las dos ecuaciones siguientes
zt = a + ∑ bi zt −i + ∑ c j xt − j + ε t
(11.15)
i j
xt = d + ∑ f i zt −i + ∑ g j xt − j + ut
i j
En la práctica el número de rezagos se fija de manera que sea

significativo y adecuado para que los errores estimados sean ruido blanco, lo
cual se puede revisar con el correlograma (la función de autocorrelación
estimada) o la prueba Q. Lo usual es que el número de rezagos sea el mismo
para todas las variables. Como la causalidad depende de que una variable (la
causa) provea información adicional al pasado de la otra variable (la
causada), es importante utilizar un número suficiente de rezagos de manera
que los rezagos de la variable causada aporten toda la información posible;
en una prueba de causalidad más rezagos es mejor que menos. En este
sentido se recomienda el criterio de Akaike sobre el de Schwarz para la
escogencia del número de rezagos del VAR.
Se estudia una ecuación a la vez. Veamos la segunda, la de xt como
variable dependiente, donde se prueba la causalidad de z hacia x . Se corre
la regresión sin restringir, tal como aparece en (11.15), y otra restringida
haciendo f i = 0 para todo i . La hipótesis nula, f i = 0 , significa que no hay
causalidad de z a x ; esto es, que z no causa a x . Como estadístico de
prueba se puede usar la F , cuya expresión es
(suma de cuadradosrestringida - suma de cuadradosno restringida)

# de restricciones
suma de cuadradosno restringida
(# de observaciones utilizables - # de parámetrosestimados)
donde # de restricciones es igual al número de coeficientes eliminados para

obtener la ecuación restringida ( f i en el ejemplo) y donde # de observaciones
utilizables igual a n menos el número de rezagos. Si la F calculada es
significativa, entonces se rechaza la hipótesis de no causalidad y se acepta
que sí hay causalidad de z a x . La prueba Wald también se puede utilizar
como estadístico de prueba, la cual es asintóticamente chi cuadrado con
grados de libertad igual al número de restricciones.
De igual manera se procede con la primera ecuación, en la cual se
probaría causalidad de x hacia z . Se corre la regresión sin restringir, tal
como aparece en (11.15), y la regresión restringida haciendo c j = 0 para todo
j . La hipótesis nula c j = 0 , significa que no hay causalidad de x hacia z ;
esto es, que x no causa a z .
Si en lugar de 2 variables hay m , igualmente se construye un VAR. Cada
ecuación contendrá los rezagos de las m variables. La prueba se hace
formando la regresión restringida retirando todos los rezagos de la variable
cuya causalidad se desea probar (dejando los de las otras m − 1 variables) y
comparando, como se hizo arriba, la suma de errores al cuadrado de ésta
regresión restringida con los de la regresión no restringida.
Es importante notar que el hecho de que el movimiento en una variable
preceda el de otra, no implica que la cause, aunque es una condición
necesaria para la causalidad. Adicionalmente, la información contenida en la
variable causante debe ayudar a predecir la causada por encima de otra
información relevante. Así, no es cierto, como se afirma con frecuencia, que
las ventas de tarjetas (o adornos) de Navidad causen la Navidad en el sentido
de Granger. La fecha de Navidad es fija, y una vez considerada esta
información o incluido el rezago anual de la serie de Navidad, debe
desaparecer el efecto predictivo de las ventas. Otros casos son menos claros.
Hamilton (1994, p. 335) nota que el hecho de que el precio de las naranjas
cause el clima en la Florida, sugiere cierta capacidad predicativa por parte de
los compradores que parecen anticipar el mal clima y suben los precios. En
otro estudio, Thurman y Fisher (1988) concluyen que el huevo causa la
gallina.
Ejemplo
La prueba de causalidad de Granger aplicada al VAR del Cuadro 11.1 se

muestra en el Cuadro 11.2. Es fácil rechazar la hipótesis de que COLOC no
causa CAPTA. En consecuencia, podríamos aceptar, con el 99.5% de
confiabilidad (1 − .0054 ), que la tasa de interés de los préstamos (COLOC) sí
causa la tasa de interés del ahorro (CAPTA). El resultado es menos claro en
sentido contrario. No es posible rechazar la hipótesis de que la tasa de
interés de captación CAPTA no cause la tasa de interés de colocación
COLOC al 5% pero si al 6%; esto es, aceptaríamos con el 93.9% de
confiabilidad (1 − .0606) que CAPTA causa COLOC.
VAR Granger Causality/Block Exogeneity Wald Tests

Date: 05/21/17 Time: 19:57
Sample: 1987Q1 1999Q1
Included observations: 45
Dependent variable: COLOC
Excluded Chi-sq df Prob.
CAPTA 9.018926 4 0.0606
All 9.018926 4 0.0606
Dependent variable: CAPTA
Excluded Chi-sq df Prob.
COLOC 14.67749 4 0.0054
All 14.67749 4 0.0054
Cuadro 11.2
Capítulo 12
SERIES DE TIEMPO NO ESTACIONARIAS
Los procesos de series de tiempo estacionarios discutidos en capítulos

anteriores son aquellos cuyas propiedades estadísticas no cambian en el
tiempo; en otras palabras, su función de distribución conjunta es la misma en
t y en t + τ . Los procesos de ruido blanco son estacionarios, al igual que los
ARMA( p , q ) cuando las raíces de su ecuación auxiliar son mayores que 1
en magnitud.
En general, los procesos estocásticos estacionarios se caracterizan porque
(1) tienen un mecanismo que mantiene su magnitud dentro de cierto límite;
esto es, muestran una tendencia a volver a su media, la cual es constante; (2)
su varianza es finita; y (3) su ACF cae relativamente rápido a medida que τ
aumenta.
En contraste, un proceso no estacionario (1) tiende a moverse sin estar
anclado a su media, rara vez cruzando su eje horizontal; (2) su varianza
tiende a infinito cuando el tiempo tiende a infinito; y (3) su ACF estimada
cae muy lentamente a medida que τ aumenta.
Aunque la no estacionariedad en media (en tendencia) es la que
tradicionalmente recibe mayor atención, también hay procesos que, siendo
estacionarios en media, no son estacionarios en varianza o covarianza.
Tendencia es un movimiento de largo plazo en el proceso estocástico. Se
habla de dos tipos de tendencia: la determinística y la estocástica. Siendo
algo tautológicos, la determinística es una tendencia que se puede estimar
como una función exacta o determinística del tiempo t ; mientras que la
estocástica contiene un término de error en su expresión, no se puede
modelar como una función exacta de t , y evoluciona lentamente sin rumbo
predecible. Una implicación importante de la diferencia entre estos dos tipos
de tendencia, es que los shocks o innovaciones {ε t } tienen un impacto
pasajero en la variable si la tendencia es determinística, pero tienen un
impacto persistente si es estocástica ya que, en este último caso, los shocks
pasan a formar parte de la tendencia. Obviamente, también puede
presentarse una combinación de ambos tipos de tendencia en un proceso
estocástico. En la literatura, las series con tendencia determinística suelen
llamarse estacionarias en tendencia (trend stationary o TS) y las de tendencia
estocástica como estacionarias en diferencia (difference stationary o DS); las

primeras son estacionarias alrededor de su tendencia y las segundas se
tornan estacionarias al diferenciarlas, como se discutirá a continuación.
Paseo Aleatorio
El modelo más sencillo que exhibe, o que es en sí mismo, una tendencia

estocástica, es el llamado paseo aleatorio (random walk). Este modelo
consiste en hacer α = 1 en la expresión del AR(1) para obtener
xt = xt −1 + ε t (12.1)
donde ε t es iid (0, σ ε2 ) .

El paseo aleatorio debe su nombre a que avanza dando pasos al azar. A
partir del punto donde se encuentre el proceso en un momento dado,
digamos xt −1 , dará un paso ε t para llegar a xt ; allí dará un paso ε t +1 para
llegar a xt +1 y así sucesivamente. A partir de un x0 inicial, el paseo aleatorio
vagará sin rumbo y con muy pocos cruces por su eje horizontal. La Figura
12.1 muestra el comportamiento típico de un paseo aleatorio.
Figura 12.1
Puede verse que el paseo aleatorio no es estacionario; para ello lo

escribimos con el operador de rezago, (1 − L) xt = ε t , donde es claro que la raíz
de su ecuación auxiliar 1 − L = 0 es unitaria (no cumple el requisito de
estacionariedad de que debe ser mayor que 1 en magnitud). Sin embargo,
notamos que su primera diferencia sí es estacionaria, ya que la expresión
∆xt = xt − xt −1 = ε t (12.2)
resulta en una serie de ruido, la cual es estacionaria.

La diferencia del paseo aleatorio también se puede escribir como
∆xt = ( xt −1 + ε t ) − ( xt −2 + ε t −1 ) = ∆xt −1 + ∆ε t donde, por la forma de la expresión,
podría pensarse que ∆xt es otro paseo aleatorio. Tal conclusión sería
incorrecta porque ∆ε t no es ruido sino que es ε t − ε t −1 , un MA(1).
Volviendo a la ecuación del paseo aleatorio, se pueden sumar los ε t
ocurridos desde un x0 inicial para llegar al valor de la serie en el tiempo t ,
de manera que podemos escribir
x1 = x0 + ε1
x2 = x0 + ε1 + ε 2
x3 = x0 + ε1 + ε 2 + ε 3
x4 = x0 + ε1 + ε 2 + ε 3 + ε 4
x5 = x0 + ε1 + ε 2 + ε 3 + ε 4 + ε 5 (12.3)
M
t
xt = x0 + ∑ ε s
s =1
El valor esperado del paseo aleatorio, dado un número inicial x0 , esto es,
Ext x0 , será el mismo x0 para cualquier tiempo t ; la media será igual al
punto de arranque porque el movimiento a partir de allí es puramente
aleatorio; es una suma de términos de ruido cuyo valor esperado es cero.
De igual forma, dado cualquier valor xt , el movimiento futuro de la serie
a partir de allí será aleatorio y dicho movimiento consistirá en una suma de
términos de ruido,
τ
xt +τ = xt + ∑ ε t + s (12.4)
s =1
de manera que, tomando expectativa condicional, tenemos
E ( xt +τ | xt ) = xt (12.5)
esto es, la expectativa condicional dado xt será idéntica a ese valor

conocido. Lo anterior se puede generalizar anotando que
E ( xt +τ | xt , xt −1 ,K, x0 ) = xt , el último valor conocido de la serie.
Para encontrar la varianza del paseo aleatorio, dado x0
 t

Var (xt x0 ) = Var  x 0 + ∑ ε s  = Var (ε 1 + ε 2 + L + ε t ) = tσ ε2 (12.6)
 s =1 
la cual vemos que depende del tiempo. La expresión anterior también se

puede obtener de la definición de varianza
2 2
 t
  t 
Var (xt x0 ) = E [xt − Ext ] = E  x 0 + ∑ ε s − x 0  = E ∑ ε s 
2
 s =1   s =1 
(12.7)
= Eε 12 + Eε 22 + L + Eε t2 = tσ ε2
donde el valor esperado de los productos cruzados es cero. De manera

similar notamos que para xt −τ , dado x0 , la varianza es (t − τ )σ ε2 .
Mientras que la media condicional a x0 del paseo aleatorio es constante,
la varianza condicional a x0 no lo es, sino que depende del tiempo; esto
muestra que el paseo aleatorio es un proceso no estacionario ya que su
varianza cambia con el tiempo t . La razón intuitiva del crecimiento en la
varianza es que a partir de x0 la serie puede tomar cualquier rumbo, hacia
arriba o hacia abajo, abriendo su rango de posibles valores como un abanico
a medida que pasa el tiempo, de manera que en el momento t puede estar en
cualquier parte de un rango mayor que en el momento t − τ .
Para τ positivo, la autocovarianza del proceso será,
R(τ ) = E ( xt − x0 )( xt −τ − x0 )
= E [(ε1 + ε 2 + L + ε t )(ε1 + ε 2 + L + ε t −τ )] (12.8)
( )
= E ε12 + ε 22 + L + ε t2−τ = (t − τ )σ ε2
donde, como se mencionó arriba, x0 es su valor esperado. Lo anterior da

igual a la varianza Var (xt −τ ) , en el tiempo t − τ . Como la serie es no
estacionaria en varianza, para encontrar la función de autocorrelación, ACF,
debemos dividir la autocovarianza por las desviaciones estándar en el tiempo
t y en el tiempo t − τ ,
r (τ ) =
(t − τ )σ ε2 =
t −τ
=
t −τ
≤1 (12.9)
tσ ε2 (t − τ )σ ε2 t (t − τ ) t
La expresión de la autocorrelación indica que si t es grande (lo que equivale

a una muestra grande) entonces las autocorrelaciones estarán cerca de uno
durante muchos rezagos τ ; esto quiere decir que caerán muy lentamente. La
PACF para el paseo aleatorio es igual a la ACF para rezago uno y cero para
los demás rezagos. Esto se puede intuir notando que el paseo aleatorio tiene
un solo rezago significativo.
Como se discutió, la aplicación de MCO a un AR estacionario genera una
estimación sesgada hacia cero en muestras finitas, aunque consistente y
asintóticamente normal. Para un AR(1) xt = α xt −1 + ε t con α = 1 , como es el
caso del paseo aleatorio, puede demostrarse que MCO produce un estimador
sesgado hacia cero en muestras finitas ( Eαˆ < 1) pero donde la distribución de
(αˆ − 1) /(error estándar ) no es t Student ni asintóticamente normal [ver Fuller
(1976)]. Bajo la hipótesis nula de α = 1 , la varianza de α̂ será menor que la
usual [de orden O(1 / n 2 ) en lugar de O(1 / n) ] lo cual, aunado al sesgo Eαˆ < 1
en muestra finita, genera una tendencia a rechazar la hipótesis nula correcta
α = 1 usando, por ejemplo, la prueba t Student. Para resolver este problema
de estimación con raíz unitaria se utilizan tablas especiales de probabilidad,
como se verá más adelante. De todas maneras el estimador MCO sigue
siendo consistente; más aún, se dice que es superconsistente porque
converge más rápido cuando α = 1 que cuando α < 1 .
Una variación al paseo aleatorio es el llamado paseo aleatorio con
corrimiento (drift), el cual sigue la expresión
xt = xt −1 + c + ε t (12.10)
donde c es una constante. En muestras finitas no es fácil distinguir entre un

paseo aleatorio con y sin corrimiento. Dado un x0 inicial podemos ver que
se introduce una tendencia lineal
x1 = x0 + c + ε 1
x2 = x0 + c + ε 1 + c + ε 2
x3 = x0 + c + ε1 + c + ε 2 + c + ε 3
x4 = x0 + c + ε 1 + c + ε 2 + c + ε 3 + c + ε 4
x5 = x0 + c + ε1 + c + ε 2 + c + ε 3 + c + ε 4 + c + ε 5
M
t
xt = x0 + ct + ∑ ε s
s =1
Condicional a x0 (y a t ) es fácil ver que su media es Ext = x0 + c t . Para su

varianza notamos que, al restar la media y tomar valor esperado, se obtiene
la misma expresión de la varianza del paseo aleatorio sin drift,
2
 t 
E ∑ ε s  = tσ ε2 . Si bien en este modelo xt es una serie no estacionaria, aun
 s =1 
en media, su primera diferencia ∆xt = c + ε t es estacionaria. Se obtiene el
mismo resultado si en lugar de incluir una constante suponemos que Eε t = c .
Regresiones Espurias
Supongamos dos paseos aleatorios independientes entre sí
xt = xt −1 + ut (12.11)
yt = yt −1 + vt (12.12)
donde
u t ~ iid (0, σ u2 )
(
vt ~ iid 0, σ v2 )
E u t v s = 0 ∀t , s
En otras palabras, xt y y t no están correlacionados.

Supongamos que corremos una regresión entre estas dos series xt y y t ,
yt = β 0 + β1xt + ε t (12.13)
Obviamente, esperamos que, en promedio, el resultado de este experimento

arroje β 1 igual a cero y un R 2 insignificante ya que xt y y t son linealmente
independientes por construcción. Podemos apelar al método de Monte Carlo,
que consiste en realizar y tabular muchísimas repeticiones del experimento
(de la regresión), construyendo xt y y t en cada repetición con nuevas
realizaciones de u t y de vt tomadas de un generador de números aleatorios.
Encontraremos que, con demasiada frecuencia, en el 75% de los casos [ver
Banerjee, et al (1993, p.74)], ocurre lo inesperado, que β 1 ≠ 0 y que R 2 es
significativo en la regresión. Puede demostrarse que MCO aplicado a
(12.13) produce estimadores inconsistentes y altera las distribuciones de
probabilidad de las pruebas t y F , de manera que más datos no arregla el
problema.
El punto importante a notar aquí es que, si en razón de la independencia
lineal de los paseos aleatorios xt y y t , cedemos a la tentación y hacemos
β 1 = 0 nos quedamos con
yt = β 0 + ε t (12.14)
y estaríamos diciendo que y t es ruido blanco, lo cual también es falso.

Entonces es falso que β 1 ≠ 0 porque xt y y t son independientes, y también
es falso que β 1 = 0 porque y t no es ruido blanco.
En efecto, al correr la regresión lo que se está pidiendo al computador es
que escoja entre dos modelos falsos, el modelo y t = β 0 + ε t (donde y t es
ruido blanco) y el modelo yt = β 0 + β 1 xt + ε t (donde se acepta relación entre
xt y y t ). En (12.13), y especialmente en (12.14), puede intuirse que el error
estimado εˆt no puede ser ruido blanco, ni siquiera estacionario, porque
recoge la parte no explicada de y t , que es un paseo aleatorio. Como MCO
minimiza la suma de estos errores estimados al cuadrado, no sorprende que
con frecuencia prefiera (12.13) a (12.14).
Estas relaciones se conocen con el nombre de regresiones espurias
porque suelen tener R 2 satisfactorio aunque no tengan sentido. También
suelen acompañarse de muy bajos estadísticos Durbin Watson en razón de la
autocorrelación positiva inducida en el error estimado εˆt por la omisión del

rezago y t −1 . [Para mayores detalles sobre este tema ver Granger y Newbold
(1974)]. Nótese que en (12.14) εˆt = − βˆ0 + y t = − βˆ0 + y 0 + ∑ ε s es un paseo
aleatorio. El modelo correcto está dado por (12.12), donde el rezago y t −1
explica y t , de manera que las especificaciones (12.13) y (12.14) tienen el
problema de omisión de variables al no contemplar el rezago y t −1 , lo cual
induce autocorrelación positiva en ε t .
La importancia de la discusión anterior radica en el hecho de que
regresiones como la (12.13) entre series no estacionarias pueden ser
comunes en econometría, por ejemplo, entre variables en niveles como
precios, dinero, Pib, población, etc. Sin embargo, el problema de las
regresiones espurias no cabe conceptualmente en los modelos estructurales
ya que las relaciones entre sus variables son dictadas directamente por la
teoría; siempre y cuando, claro, dicha teoría se considere correcta. Tampoco
se presenta en VARs, mientras sus errores sean estacionarios, en razón de
que se incluyen rezagos de todas las variables.
Una regresión espuria con variables de tendencia estocástica no se corrige
apelando al método tradicional de estimar y restar una tendencia
determinística a la serie; si la tendencia de la serie es un paseo aleatorio,
restarle una tendencia determinística, especialmente la tendencia lineal
usual, puede simplemente producir otro paseo aleatorio. Tampoco se
soluciona incluyendo la variable t en la regresión (12.13), esto es,
yt = β 0 + β1 xt + γ t + ε t (12.15)
porque de acuerdo con el teorema Frisch-Waugh [ver Banerjee, et al (1993,

p. 70)] restar la tendencia temporal a cada serie antes de usarla en una
regresión es equivalente a incluir el tiempo t como una de las variables
explicativas.
Nelson y Kang (1984) hicieron un experimento similar corriendo paseos
aleatorios xt (generados por Monte Carlo) con n = 100 contra el tiempo, esto
es, corrieron
x t = β 0 + β 1t + ε t
encontrando que β 1 era significativo en el 87% de los casos. Según esto, xt

podría predecirse a partir de t , lo cual es espurio. El experimento se repitió
con n = 20 encontrándose que β 1 aún era significativo en el 73% de los

casos. Se concluiría falsamente que xt tiene una tendencia lineal.
Es importante notar que las regresiones espurias también se pueden
presentar entre variables con tendencia determinística; por ejemplo,
Charemza y Deadman (1992, p. 124) muestran cómo con las variables
yt = {1,2,3, K ,30} y xt = {1,4,9,K ,900} se obtiene la siguiente regresión estimada
yt = 5.92 + .03xt
(9.9) (21.2)
R 2 = 0.94 DW = 0.06
cuyos estadísticos t se muestran en paréntesis. La regresión es espuria

porque la verdadera relación entre xt y y t no es lineal. Con este tipo de
variables, incluir la tendencia determinística t como variable explicativa sí
puede corregir el problema de regresión espuria porque y t será explicada
enteramente por la tendencia dejando a xt sin poder explicativo.
En el fondo, el problema de la regresión espuria se presenta cuando se
especifica mal el modelo y tratamos de juzgar la significancia de los
parámetros estimados con las pruebas tradicionales del modelo lineal clásico
(estadísticos t , R 2 , etc.) cuando estas no son válidas. Por ejemplo en (12.13),
al estar autocorrelacionado y no ser ruido blanco, el error de la regresión no
cumple con los supuestos del modelo. Por la razón anterior podría inclusive
pensarse en regresiones espurias entre variables estacionarias [ver Davidson
y Mackinnon (2004, p. 601)]. En general, el problema se resuelve mejorando
la especificación, usualmente agregando a la regresión rezagos de las
variables.
Series Integradas
Cuando una serie no estacionaria xt puede convertirse en un ARMA

estacionario diferenciándola d veces, se define como integrada de orden d y
se denota xt ~ I (d ) [ver Granger y Newbold (1986)].
Una serie no estacionaria será I (1) si al diferenciarla una vez se vuelve
estacionaria. Para que sea I (1) no es necesario que crezca de manera
aproximadamente lineal, como a veces se cree; el paseo aleatorio vaga sin
rumbo y es I (1) . Una serie no estacionaria será I (2) si al diferenciarla dos
veces se vuelve estacionaria. Una serie I (0) es una serie que no hay que
diferenciarla porque ya es estacionaria y tiene representación ARMA. La
suma de una I (0) y una I (1) será siempre una I (1) .
De la experiencia se encuentra que la mayoría de las series económicas
son hasta I (2) . La mayor parte de los trabajos empíricos tratan con series
I (0) o I (1) , razón por la cual nos concentraremos en éstas en adelante.
El paseo aleatorio es una típica I (1) ya que al diferenciarla una vez queda
estacionaria
xt = xt −1 + ε t
(12.16)
(1 − L ) xt = ε t ~ I (0)
Vemos que el paseo aleatorio tiene una raíz unitaria [de la ecuación auxiliar
1 − L = 0 ]. Diferenciar una serie es aplicarle el operador (1 − L) que de hecho
tiene una raíz unitaria. Sin embargo, la definición de serie integrada está en
el contexto de diferenciar para obtener estacionariedad, más que en términos
de raíz unitaria. Por ejemplo, el proceso xt = − xt −1 + ε t contiene una raíz
unitaria, L = −1 , pero no se convierte en estacionario diferenciando (para esto
habría que sumar xt + xt −1 = ε t ).
Ejemplo
Mostrar que xt = 2 xt −1 − xt − 2 + ε t es I (2) . [Notamos que la expresión anterior

es igual a (1 − L)(1 − L) xt = ε t ]. Para que una serie sea I (2) debe convertirse en
estacionaria después de diferenciarla dos veces. La primera diferencia es
∆xt = 2 xt −1 − xt −2 + ε t − xt −1 = xt −1 − xt − 2 + ε t = ∆xt −1 + ε t
de donde vemos que la segunda diferencia es
∆∆xt = ∆xt − ∆xt −1 = ε t
la cual es I (0) .
Ejemplo
Aunque a primera vista parezca lo contrario, el modelo xt = xt −1 + ε t − ε t −1 ,

donde ε t es ruido blanco, no requiere diferenciación porque ya es
estacionario. Reescribiéndolo tenemos
xt =
(1 − L )ε t = ε
t
1− L
la cual es una solución estacionaria. La estacionariedad de este modelo

también se puede ver haciendo reemplazos sucesivos, así
xt = xt − 2 + ε t −1 − ε t − 2 + ε t − ε t −1 = xt − 2 − ε t − 2 + ε t
= xt − 3 + ε t − 2 − ε t − 3 + ε t − ε t − 2 = xt − 3 − ε t − 3 + ε t
= xt − 4 + ε t −3 − ε t − 4 + ε t − ε t − 3 = xt − 4 − ε t − 4 + ε t
M
= xt − n − ε t − n + ε t
M
= x0 − ε 0 + ε t
expresión que es estacionaria por ser igual a una constante x0 − ε 0 más ruido
εt .
t
Lo anterior contrasta con el paseo aleatorio xt = xt −1 + ε t = x0 + ∑ ε s que,
s =1
como vimos, no es estacionario.
Raíces Unitarias y Cointegración
Es común en econometría correr regresiones con series de tiempo sin

indagar primero si las variables involucradas son compatibles entre sí en una
relación lineal. El punto es que la linealidad impone restricciones al
comportamiento de las variables a través del tiempo. Es posible que
físicamente no se pueda conformar la regresión; esto es, en muchos casos la
combinación lineal de las variables explicativas, incluyendo el error (y el
supuesto de homoscedasticidad acerca del error), simplemente no puede
producir el tipo de comportamiento que tiene la variable dependiente. Por
ejemplo, en una regresión donde hay una variable dependiente no
estacionaria y una variable explicativa estacionaria, no es posible que la
constante β 0 sumada a la serie estacionaria multiplicada ésta por cualquier
coeficiente β 1 finito, genere la serie no estacionaria. En esta regresión el
error estimado no sería ruido sino que tendría un comportamiento no

estacionario similar al de la variable dependiente.
Hay un tipo de relación lineal frecuente en econometría, donde
proponemos una I (1) para tratar de explicar otra I (1) . Esta regresión podría
ser físicamente posible si ambas variables tienen un comportamiento similar
a través del tiempo (una tendencia común); en caso contrario, como en
(12.13), la regresión será espuria y la serie del error ε t tendrá que recoger la
divergencia creciente entre la dependiente x1t y la explicativa x 2t , haciendo
que el error sea no estacionario.
Cointegración Bivariada
La regresión entre variables no estacionarias es de mucho interés. Es

admisible sólo si existe algún mecanismo que mantenga las dos variables, x1t
y x 2t , cerca la una de la otra a través del tiempo, esto es, que no permita que
se separen demasiado aunque ambas individualmente sean no estacionarias.
Debe existir algún mecanismo de equilibrio de largo plazo entre las dos.
Aunque en el corto plazo las series pueden diferir, algo las obliga a acercarse
en caso de que se estén alejando demasiado de manera que su diferencia sea
estacionaria. Variables que pueden estar atadas por este tipo de relación de
equilibrio son, por ejemplo, los precios del mismo producto agrícola en
zonas geográficas cercanas, las tasas de interés de corto y largo plazo, los
precios de una acción en diferentes bolsas de valores del mismo país, los
ingresos y los gastos del hogar. Es importante desde el punto de vista
económico poder descubrir y estimar estas relaciones de equilibrio que rigen
los movimientos en los mercados.
En otras palabras, aunque las series no sean estacionarias, su
combinación lineal sí lo es. Formalicemos estos conceptos utilizando la
terminología de series integradas y concentrándonos, por ahora, en el caso
bivariado, esto es, dos variables I (1) .
Podemos decir que cuando existe un mecanismo de equilibrio, la
combinación lineal de dos variables no estacionarias puede producir una
estacionaria I (0) . Esto se conoce como cointegración; y se dice que las dos
variables no estacionarias están cointegradas. En general, para que haya
cointegración entre dos variables, estas deben tener el mismo orden de
integración, de otra forma la distancia entre ellas tiende a aumentar con el
tiempo y será imposible que su combinación lineal dé un I (0) .
Definición: Dos variables x1t y x 2t están cointegradas si ambas son I (1) y se

puede escribir
x1t − a x2t = zt (12.17)
donde a ≠ 0 y z t es I (0) . También se puede incluir una constante c en la

definición, por ejemplo donde x1t − c − a x 2t = z t .
Aquí z t es similar al residuo de la regresión entre las dos variables. Sin
embargo, es crucial resaltar que si bien z t debe ser I (0) para que haya
equilibrio, esto no implica que deba ser ruido blanco.
Una manera sencilla de investigar la cointegración es correr una regresión
de x1t contra x 2t . Si la variable z t , que es el residuo (los errores) de esta
regresión, es I (0) , se dice que hay cointegración. Los errores z t serán
estacionarios sólo si x1t y x 2t están cointegradas. Si x1t y x 2t no están
cointegradas, entonces z t no será estacionaria sino I (1) .
El procedimiento para estudiar la cointegración consiste, primero, en
determinar si las series individualmente vistas son I (1) , segundo, en
examinar si hay o no hay cointegración y, tercero, en caso afirmativo,
incorporar la cointegración en las ecuaciones de regresión.
Las pruebas estadísticas para determinar el grado de integración de una
serie, en particular si son I (1) , se conocen como pruebas de raíz unitaria.
Pruebas de Raíz Unitaria
Lo que buscamos establecer con estas pruebas es si una serie es no

estacionaria, esto es, I (1) , o no lo es. Se recomienda graficar primero la serie
bajo estudio para tener una idea de su comportamiento. Según se discutió
antes, una serie estacionaria tiende a quedarse dentro de ciertos límites
superior e inferior, contrario al caso de la no estacionaria. Intuitivamente,
cuando una serie estacionaria se acerca a su límite superior o inferior, debe
haber algún mecanismo que tienda a devolverla, haciendo que el próximo
movimiento o cambio sea hacia su media; esta tendencia a regresar a la
media será más fuerte cuanto más lejos esté la serie de la media. Pruebas de
raíz unitaria, como la Dickey-Fuller y la Phillips-Perron, incorporan este
principio.
Prueba Dickey–Fuller Aumentada (ADF)

Para realizar esta prueba a una serie xt se corre por MCO la siguiente
regresión
∆xt = ϕ xt −1 + ∑ γ i ∆xt − i + ε t (12.18)

i
donde el número de rezagos de ∆xt puede escogerse corriendo (12.18)

inicialmente con muchos rezagos y luego disminuyéndolos hasta que el
último sea significativo [ver Enders (2004, cap. 4)] y aseguremos que ε t sea
ruido blanco, según la ACF, la prueba Q, etc. También podría usarse el
Durbin Watson, DW , pero con cautela. En razón de que el DW se sesga
hacia 2 cuando se usan variables dependientes rezagadas como explicativas,
entonces, si este estadístico es muy pequeño, podemos decir que la
autocorrelación debe ser notoria para sacarlo de su sesgo y disminuirlo. En
otras palabras, si el DW es pequeño hay indicios de autocorrelación, y si es
cercano a dos no quiere decir que no la haya.
También existe una guía teórica para el número de rezagos. Ilustremos
con un modelo AR(2), xt = c + α 1 xt −1 + α 2 xt −2 + ε t , el cual podemos escribir
como xt = c + (α 1 + α 2 ) xt −1 − α 2 ( xt −1 − xt −2 ) + ε t . Restando xt −1 a ambos lados,
obtenemos la prueba ADF ∆xt = c + ϕ xt −1 + γ ∆xt −1 + ε t , donde ϕ = α 1 + α 2 − 1 .
Vemos que si el modelo es un AR(2), debe incluirse un rezago de ∆xt en la
ecuación de la prueba ADF. Y, en general, si la variable xt se ajusta un
AR( p ), deben incluirse p − 1 rezagos de ∆xt en la ecuación de la prueba
ADF.
En la ADF, la hipótesis nula ϕ = 0 implica que Δxt no depende del nivel
anterior de la serie, de manera que nada tiende a devolver la serie cuando se
aleja de su media; y en este caso xt será I (1) .
Para que xt sea I (0) , se espera que ϕ < 0 de manera que tienda a devolver
la serie si esta se aleja demasiado por arriba o por abajo.
Como se mencionó antes, las pruebas de hipótesis usuales no funcionan
cuando involucran raíces unitarias porque las distribuciones de probabilidad
no son asintóticamente normales; ni siquiera simétricas. En otras palabras,
las tablas usuales de la prueba t -student no serían apropiadas para probar la
hipótesis nula H 0 : ϕ = 0 . En su lugar se utilizan tablas especiales para el
estadístico ϕˆ (error estándar ) . Si este estadístico es menor que el valor crítico
(esto es, más negativo que el valor crítico) se acepta ϕ ≠ 0 ; de lo contrario
ϕ = 0 y la serie no dependerá de su nivel anterior. Si el estadístico es mayor

que cero, entonces el proceso es aún más explosivo.
Un resultado de Sims, Stock y Watson (1990) dice que los estadísticos t
y F tienen distribuciones t y F asintóticas si las pruebas se realizan sobre
coeficientes de variables I (0) . Por ejemplo, en la expresión de la ADF, las
pruebas t y F que se hagan sobre los coeficientes γ i serán correctas
asintóticamente; no así la t sobre ϕ , la cual requiere valores críticos
especiales.
A la ecuación de la prueba también se le puede agregar una constante
(drift) o una tendencia determinística β t si se desea ( ϕ xt −1 ya representa la
tendencia estocástica), pero entonces hay que usar tablas apropiadas para
estos casos; afortunadamente, la mayoría de los programas de computador
ya las incorporan automáticamente. La gráfica de xt sugerirá si conviene
incluir la constante, la tendencia o ninguna. Si xt tiene la expresión
xt = c + α xt −1 + ε t , la prueba Dickey Fuller será de la forma
Δxt = c + (α − 1)xt −1 + ε t y conviene incluir la constante; o si xt tiene la
expresión xt = c + β t + α xt −1 + ε t , la prueba tendrá la forma
Δxt = β t + (α − 1)xt −1 + ε t y conviene adicionar la tendencia.
Prueba Phillips-Perron (PP)
Esta es una variante de la prueba Dickey Fuller en la cual se permite (o se

acepta) que el error ε t no sea ruido blanco (pero sí debe ser estacionario).
Para efectuar la prueba se requiere una estimación del espectro del error ε t
(i.e. la estimación de las autocorrelaciones del error).
Supongamos el modelo xt = α xt −1 + ε t al cual le restamos xt −1 a ambos
lados de manera que obtenemos Δxt = (α − 1) xt −1 + ε t = ϕ xt −1 + ε t . Para la prueba
Phillips-Perron corremos
∆xt = ϕ xt −1 + ε t (12.19)
donde ε t puede estar autocorrelacionado. El estadístico de esta prueba no es

ϕ̂ error estándar , como en la ADF, sino que tiene otra expresión en la cual
ϕ̂ error estándar es ajustado por el efecto de la autocorrelación de ε t . Para
determinar este efecto se involucran las autocorrelaciones estimadas de ε t
ponderadas a través de una ventana (kernel) que cubra un número de rezagos
suministrado por el usuario; aunque a veces, dependiendo del método

(Newey West, por ejemplo), el software puede sugerir el número de rezagos
de truncamiento. Asintóticamente los valores críticos son los mismos que los
de la ADF. También se le puede agregar la constante (drift) y la tendencia
determinística β t .
Práctica de las Pruebas de Raíz Unitaria
Existen otras pruebas además de la ADF y la PP y, en general, se

recomienda recurrir a varias para determinar la estacionariedad de las series.
Obviamente, pueden dar resultados contradictorios o inconclusos, quedando
al criterio del analista cómo dirimirlos. La discusión que se hace a
continuación puede ayudar en este sentido.
Para establecer si hay más de una raíz unitaria, algunos autores sugieren
pruebas secuenciales. Si se encuentra raíz unitaria en la serie original pero
no en la serie en diferencias, entonces se puede concluir que la serie tiene
una sola raíz unitaria y es I (1) . Si la serie en primeras diferencias tiene raíz
unitaria pero no en segundas diferencias, se puede concluir que tiene dos
raíces unitarias y que es I (2) .
Sin embargo, autores como Banerjee et al (1993, p. 119) o Maddala y
Kim (1998, capítulo 11), sostienen que probar raíz unitaria en niveles (sin
diferenciar) y luego proceder a probar por una segunda raíz unitaria en la
serie diferenciada, es un procedimiento que tiende a subestimar el número de
raíces unitarias (porque se trata de pruebas secuenciales que aumentan la
probabilidad de rechazar H 0 : ϕ = 0 , razón por la cual debe ser tomado con
cautela. Enders (2004, capítulo 4) sugiere una alternativa secuencial para
realizar estas pruebas.
Debemos precisar un poco más sobre cuál es la hipótesis nula de estas
pruebas. Por la forma como se deriva parecería ser que H 0 : ϕ = 0 , esto es,
que sí hay raíz unitaria. Sin embargo, desde el punto de vista heurístico, lo
que detecta la prueba sobre ϕ = 0 (o aun ϕ ≥ 0 ) en la expresión Dickey
Fuller es simplemente si la serie carece de una tendencia a regresar a su
media; esto es, si es no estacionaria. De manera que podríamos decir que
H 0 : No estacionariedad en media
H A : Estacionariedad en media
Vista así, la hipótesis nula H 0 es simplemente que la serie no es estacionaria

en media, lo cual puede suceder por una o más raíces unitarias o por algún
otro tipo de no estacionariedad que ni siquiera tenga que ver con raíces
unitarias, como un cambio estructural en el sistema. Estas pruebas no
detectan cualquier tipo de no estacionariedad, por ejemplo, no detectan la de
1 + L , que implica una raíz L = −1 .
Las pruebas de raíz unitaria tienen varios problemas. Uno es que tienen
bajo poder estadístico [1-probabilidad de error tipo II], o sea baja
probabilidad de rechazar H 0 cuando es falsa, y tienen dificultad para poder
distinguir entre un proceso de raíz unitaria y uno estacionario con raíz
cercana a 1; esto es, en muestras finitas una serie estacionaria en tendencia
puede confundirse con una serie de raíz unitaria y viceversa. La
consecuencia es que la prueba acepta con demasiada (e incorrecta
frecuencia) que la serie tiene raíz unitaria; esto es, tiende a aceptar la
hipótesis falsa ϕ = 0 con demasiada frecuencia. Por lo anterior, en casos de
indefinición de la prueba, se recomienda al analista considerar el rechazo de
la hipótesis. Según Kennedy (2008, p. 326) el poder estadístico depende más
de la longitud del periodo estudiado que del número de datos.
Otro problema que se presenta en estas pruebas es que una serie
estacionaria, excepto por un cambio estructural, puede parecer como si
tuviera una raíz unitaria. La prueba indicaría raíz unitaria cuando lo que hay
que modelar es el cambio estructural en la economía; una apertura
comercial, un cambio en el régimen político, etc. También podría darse el
caso de un cambio estructural junto con un proceso de raíz unitaria o con
uno de tendencia determinística. En este último, puede pensarse que la serie
tiene tendencia estocástica en lugar de modelarla correctamente como una
tendencia determinística. Se recomienda siempre graficar la serie y conocer
algo de la historia pertinente. Sobre este tema de pruebas de raíz unitaria en
presencia de cambio estructural ver, por ejemplo, Perron y Vogelsang
(1992).
Ocasionalmente, el analista puede separar la muestra en dos, antes del
cambio y después del cambio, y aplicar la prueba en ambas submuestras para
ver si el comportamiento permanece inalterado de un régimen a otro. El
problema es que el tamaño (grados de libertad) de cada submuestra puede
ser insuficiente para llegar a conclusión alguna; en otras palabras la
reducción de grados de libertad disminuye rápidamente el poder estadístico
de la prueba.
Otra dificultad es que el resultado de la prueba (las tablas de valores
críticos) depende crucialmente de si se incluye constante o tendencia en la
ecuación de ADF o PP. Si la prueba se especifica mal, su poder estadístico

puede caer a casi cero. Se recomienda al analista observar el
comportamiento gráfico de la serie para decidir entre estas opciones. De
nuevo, en caso de indefinición se recomienda considerar el rechazo de la
hipótesis H 0 : ϕ = 0 .
Cuando sea posible, una forma de aumentar el tamaño de la muestra y el
poder estadístico de las pruebas, es la utilización de datos panel (corte
transversal a través del tiempo); Maddala y Kim (1998) discuten diversas
pruebas de raíz unitaria para datos panel; ver también Baltagi (2005).
Ejemplo
La Figura 12.2 muestra la serie de la tasa porcentual de desempleo trimestral

para el periodo 1984-2000, y los Cuadros 12.1 y 12.2 muestran la aplicación
de las pruebas ADF y PP, respectivamente. En ninguna de las dos el
estadístico de prueba (test statistic) es significativamente diferente de cero
ya que nunca llega a ser más negativo que los valores críticos. En
consecuencia, ambas pruebas sugieren que la serie puede tratarse como no
estacionaria.
TASA DE DESEMPLEO
porcentual trimestral
22
20
18
16
14
12
10
6
1984 1986 1988 1990 1992 1994 1996 1998 2000
Figura 12.2
Null Hypothesis: U has a unit root

Exogenous: None
Lag Length: 4 (Automatic - based on SIC, maxlag=10)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic 0.567467 0.8362

Test critical values: 1% level -2.602185
5% level -1.946072
10% level -1.613448
*MacKinnon (1996) one-sided p-values.
Augmented Dickey-Fuller Test Equation

Dependent Variable: D(U)
Date: 10/29/17 Time: 18:49
U(-1) 0.005987 0.010550 0.567467 0.5726

D(U(-1)) -0.088716 0.115835 -0.765883 0.4469
D(U(-2)) -0.199537 0.116492 -1.712871 0.0921
D(U(-3)) -0.013861 0.115320 -0.120193 0.9047
D(U(-4)) 0.529751 0.117619 4.503964 0.0000

Durbin-Watson stat 2.101460
Cuadro 12.1
Null Hypothesis: U has a unit root

Exogenous: None
Bandwidth: 38 (Newey-West automatic) using Bartlett kernel
Adj. t-Stat Prob.*
Phillips-Perron test statistic 0.452169 0.8094

Test critical values: 1% level -2.599934
5% level -1.945745
10% level -1.613633
*MacKinnon (1996) one-sided p-values.
Residual variance (no correction) 1.369030

HAC corrected variance (Bartlett kernel) 1.352460
Phillips-Perron Test Equation

Dependent Variable: D(U)
Date: 10/29/17 Time: 18:57
U(-1) 0.005074 0.011406 0.444834 0.6579
R-squared -0.002868 Mean dependent var 0.089552

Adjusted R-squared -0.002868 S.D. dependent var 1.177199
Cuadro 12.2
Estimación de la Cointegración Bivariada
Una vez se establece que las series x1t y x 2t son I (1) , el siguiente paso es
determinar si están cointegradas. Para ello, en el procedimiento desarrollado
por Engle y Granger (1987), se corre la regresión de una variable contra la
otra, digamos
x1t = a0 + a1 x2t + ut (12.20)
Si efectivamente hay cointegración, debe encontrarse que u t es I (0) . Estimar

una regresión entre variables cointegradas, o sea encontrar â1 , es parecido a
sintonizar un radio antiguo; giramos la perilla que controla los posibles
valores de â1 y vamos escuchando el ruido, que en este caso es u t . Sólo
cuando â1 le pegue a a1 lograremos identificar el preciso equilibrio entre las
variables; el ruido (su varianza) caerá drásticamente porque u t pasa casi
instantáneamente de ser una I (1) a I (0) . Esto hace que la estimación de
MCO entre variables cointegradas sea mucho más sensible en la vecindad de
a1 que la estimación entre variables no cointegradas, razón por la cual se
dice que la estimación con variables cointegradas es superconsistente.
En la literatura se le da el nombre de vector de cointegración a los
coeficientes de la relación lineal que multiplican las variables en (12.20),
incluyendo la constante, esto es, a [1 − a0 − a1 ] .
Nótese que correr (12.20) produce un â1 que no es simplemente el
inverso de b̂1 en la regresión
x2t = b0 + b1 x1t + vt (12.21)
excepto cuando R 2 → 1 , o cuando n → ∞ [ver Verbeek (2012, capítulo 9)].

Por esta razón se sugiere que los resultados que apuntan a la cointegración
sean válidos sólo si la regresión muestra alguna significancia. Hacer igual a
uno el coeficiente de la variable dependiente es arbitrario. Ambas
regresiones anteriores (12.20) o (12.21) pueden ser escogidas para la prueba
de cointegración, y pueden dar resultados contradictorios en la práctica.
Existen algunos métodos de máxima verosimilitud con información
completa que encuentran los vectores de cointegración sin necesidad de
escoger variable dependiente [ver, por ejemplo, Johansen (1988)].
Recordamos que en la literatura los residuos de la regresión de

cointegración, en este caso u t o vt , se acostumbran denominar z t , ya que no
necesariamente deben ser ruido blanco, sino I (0) .
Una primera aproximación para evaluar el orden de integración del
residuo de la regresión de cointegración consiste en observar el Durbin
Watson, DW . Un DW de z t muy pequeño, digamos menor que 0.5, denota
alta correlación serial y es indicio de raíz unitaria. Se concluiría en este caso
que el residuo de la regresión de cointegración es I (1) , se rechaza la
hipótesis de cointegración y se acepta la de regresión espuria.
Una prueba de cointegración más utilizada es la misma de raíz unitaria
ADF, o PP, aplicada a los residuos z t . Aunque algunos autores utilizan las
tablas que se usan para la prueba de raíz unitaria, otros notan que probar
cointegración no es lo mismo que probar estacionariedad. La razón es que
MCO minimiza la suma de los residuos al cuadrado escogiendo el parámetro
â de manera que x1t y x 2t tengan mayor probabilidad de parecer
cointegradas en la muestra, esto es, de moverse juntas. Por esta razón,
cuando se aplican pruebas como la ADF o la PP para probar cointegración se
sugiere trabajar con valores críticos más exigentes (más negativos) o utilizar
tablas especialmente calculadas para ello.
La prueba de cointegración conocida como Engle Granger utiliza la ADF
y la prueba de cointegración conocida como Phillips Ouliaris utiliza la PP.
En el caso de la Engle Granger se prueban los residuos con la ADF, por
ejemplo los de la regresión (12.20), así
p
∆uˆt = ϕ uˆt −1 + ∑ γ i ∆uˆt −i + ε t (12.22)
i =1
Si el estadístico de prueba ϕˆ (error estándar ) es estadísticamente cero,

entonces ût es I (1) y no hay cointegración. En caso contrario, la regresión
entre las variables x1t y x 2t , como en (12.20), no sería espuria.
En el caso de la Phillips Ouliaris se prueban los residuos con la PP así
∆uˆ t = ϕ uˆ t −1 + ε t (12.23)
Las pruebas ADF y PP se aplican de manera similar a los residuos vt en

(12.21).
Si hubiera una tercera variable, se correrían tres regresiones utilizando, a
su turno, cada variable como dependiente. La prueba Engle Granger
aplicaría la ADF a los residuos de estas tres regresiones y la prueba Phillips

Ouliaris aplicaría la PP a los residuos de estas tres regresiones.
La Figura 12.3 grafica las variables CAPTA y COLOC utilizadas en un
ejemplo en el capítulo 11 y el Cuadro 12.3 muestra las pruebas de
cointegración Engle Granger y Phillips Perron aplicadas a dichas series;
ambas pruebas rechazan la hipótesis nula de no cointegración. La Figura
12.4 grafica las variables anteriores junto con la inflación INF y el Cuadro
12.4 muestra las pruebas aplicadas a las tres variables; ambas pruebas
sugieren que INF no está cointegrada con las otras dos variables.
60
50
40
30
20
10
91 92 93 94 95 96 97 98 99 00 01
CAPTA COLOC
Figura 12.3
60
50
40
30
20
10
0
91 92 93 94 95 96 97 98 99 00 01
CAPTA COLOC INF
Figura 12.4
Engle-Granger
Date: 04/29/13 Time: 16:50
Series: CAPTA COLOC
Null hypothesis: Series are not cointegrated
Cointegrating equation deterministics: C
Automatic lags specification based on Schwarz criterion (maxlag=9)
Dependent tau-statistic Prob.* z-statistic Prob.*

CAPTA -5.214178 0.0007 -31.94159 0.0005
COLOC -5.115556 0.0009 -31.51780 0.0005
*MacKinnon (1996) p-values.
Phillips-Ouliaris
Date: 04/29/13 Time: 16:51
Series: CAPTA COLOC
Long-run variance estimate (Bartlett kernel, Newey-West fixed
bandwidth)

CAPTA -5.162858 0.0008 -26.33791 0.0036
COLOC -5.042845 0.0011 -27.24829 0.0026
Cuadro 12.3
Engle-Granger
Date: 04/29/13 Time: 16:32
Series: CAPTA COLOC INF
Automatic lags specification based on Schwarz criterion (maxlag=9)

CAPTA -5.204081 0.0027 -32.05120 0.0022
COLOC -5.070050 0.0039 -31.03744 0.0031
INF -1.991204 0.7410 -6.466636 0.8047
Philllips-Ouliaris
Date: 04/29/13 Time: 16:33

Series: CAPTA COLOC INF
Long-run variance estimate (Bartlett kernel, Newey-West fixed
bandwidth)

CAPTA -5.143739 0.0032 -26.61142 0.0133
COLOC -4.996697 0.0046 -26.90162 0.0121
INF -1.984527 0.7438 -6.408190 0.8084
Cuadro 12.4
Sin embargo, para que una regresión de cointegración, como (12.20) o

(12.21), estime los coeficientes consistentemente, no basta con que los
residuos como u t o vt sean I (0) , sino que es requisito que sean ruido e
independientes de las variables explicativas de la regresión de cointegración.
Para lograr lo anterior puede ser necesario agregar rezagos de x1t o x 2t como
variables explicativas o utilizar métodos alternativos que corrijan el sesgo de
estimación causado por la relación entre los residuos y las explicativas,
como los métodos conocidos por las siglas FMOLS, CCR y DOLS.
Cuando x1t y x 2t están cointegradas, hay una forma alternativa a la
ecuación de cointegración para presentar los resultados; esta se describe a
continuación.
Modelo de Corrección de Error
Si las dos variables x1t y x 2t están cointegradas entonces debe existir un

mecanismo de corrección de error, una especie de estabilizador automático
que preserve el equilibrio. Este resultado se conoce como Teorema de
Representación de Granger. El mecanismo de corrección de error consiste en
una regresión que combina la información de largo plazo contenida en la
cointegración o relación de equilibrio, z t = x1t − ax 2t , con la información de
corto plazo contenida en las variaciones de x1t y x 2t .
La expresión de un mecanismo de corrección de error es similar a un
VAR (que ahora se llama VEC, del inglés vector error correction), donde
hay una ecuación para cada una de las variables. La variable dependiente en
cada ecuación es la primera diferencia de la variable correspondiente, ya sea
x1t o x 2t , expresada en función de sus propios rezagos en diferencias, los
rezagos de la otra variable en diferencias y el término de cointegración
rezagado; por ejemplo, con un rezago por cada variable en diferencia,
Δx1t = β10 + β11Δx1t −1 + β12Δx2t −1 + β13 zt −1 + ε1t

= β10 + β11Δx1t −1 + β12Δx2t −1 + β13 ( x1t −1 − ax2t −1 ) + ε1t
(11.24)
Δx2t = β 20 + β 21Δx1t −1 + β 22Δx2t −1 + β 23 zt −1 + ε 2t
= β 20 + β 21Δx1t −1 + β 22Δx2t −1 + β 23 ( x1t −1 − ax2t −1 ) + ε 2t
lo cual en notación de VEC quedaría

 ∆x1t   β 10   β 11 β12  ∆x1t −1   β13  ε 

  =   +    +  ( x1t −1 − ax 2t −1 ) +  1t 
 ∆x 2t   β 20   β 21 β 22  ∆x 2t −1   β 23   ε 2t 
Se pueden agregar más rezagos de ambas variables para aumentar el

poder explicativo o para asegurarse de que ε t sea ruido blanco.
Es de notar que todas las variables explicativas utilizadas en estas
regresiones, incluyendo el término de cointegración z t = x1t − ax 2t , son I (0) ,
por lo cual son admisibles. Los coeficientes β13 y β 23 que multiplican la
relación de cointegración z t −1 se conocen como coeficientes de ajuste. Su
magnitud indica el grado de ajuste con respecto a desviaciones del equilibrio
de largo plazo.
En la primera ecuación de (12.24) puede observarse que el término
β13 ( x1t −1 − ax2t −1 ) ejerce la corrección necesaria sobre ∆x1t con el objeto de
mantener el equilibrio entre x1t y x 2t ; para lo cual esperamos que β 13 < 0 . Si
en un momento dado x1t −1 > ax 2t −1 entonces β13 (x1t −1 − ax2t −1 ) será negativo y
actuará de manera que tienda a disminuir la siguiente observación de la serie
x1t acercándola de nuevo hacia x 2t . Lo contrario sucede si x1t −1 < ax 2t −1 . Un
mecanismo similar opera en el caso de la segunda ecuación para β 23 > 0 . Sin
embargo, si x1t y x 2t se mueven en sentido contrario, la relación de
cointegración será x1t + ax 2t , y la corrección se obtiene con β 13 < 0 y β 23 < 0 .
Debe recordarse que, en general, uno de los dos coeficientes β13 y β 23
puede ser cero, de manera que las desigualdades anteriores deben entenderse
como menor o igual que cero, o mayor o igual que cero, según sea el caso. Si
ambos coeficientes de ajuste son cero entonces cada variable se mueve sin
referencia a la otra y no habría cointegración. Una exposición intuitiva de la
cointegración y del papel que juega el término de corrección de error puede
consultarse en Murray (1994).
Algunos autores sugieren que, una vez establecida la cointegración, se
puede correr (12.24) pero sin forzar el término z t −1 , así
∆x1t = β10 + β11∆x1t −1 + β12 ∆x2t −1 + β14 x1t −1 + β15 x2t −1 + ε1t
(12.25)
∆x2t = β 20 + β 21∆x1t −1 + β 22 ∆x2t −1 + β 24 x1t −1 + β 25 x2t −1 + ε 2t
y confiar en que los signos sean los apropiados.

Es importante subrayar que cuando existe una relación de cointegración

entre variables entonces existe un mecanismo de corrección de error que las
mantiene en equilibrio. Una regresión como (12.24) en diferencias no debe
correrse sin el término de equilibrio z t −1 cuando hay cointegración, ya que se
incurre en el problema de omisión de variable relevante.
Si en lugar de dos tenemos tres (o más variables) variables cointegradas,
se corre un VEC con una ecuación para cada variable en diferencias en
función de sus propios rezagos y de los rezagos de las demás variables en
diferencias, más el término de corrección de error rezagado (que en este caso
es una combinación lineal de todas las variables en niveles).
La estimación expuesta aquí, tanto de la relación de cointegración como
del mecanismo de corrección de error, puede igualmente, aunque con mayor
complejidad, efectuarse por otros métodos que se han desarrollado para la
estimación de la cointegración multivariada (más de dos variables), siendo el
de Johansen (1988) el más popular.
Capítulo 13
MODELOS PARA DATOS PANEL
Los datos panel, también llamados datos longitudinales, combinan

características de corte transversal y series de tiempo. Mientras corte
transversal se refiere a datos tomados en un momento de tiempo (o en un
tiempo tan corto que las variables no alcanzan a cambiar) y series se refiere
a datos tomados a través del tiempo, datos panel se refiere a datos sobre los
mismos individuos (personas, hogares, firmas, países, etc.) tomados en
diferentes momentos del tiempo. Los datos panel tienen algunas
peculiaridades que ameritan un tratamiento especial. En contraste, si
tomamos varios cortes transversales con individuos diferentes a través del
tiempo, se llama pool, y usualmente se trata como cualquier regresión.
Por ejemplo, si medimos la variable ingreso de hogares, corte transversal
sería la muestra de ingreso para varios hogares tomada en algún momento
del tiempo; series sería la muestra de ingreso para un solo hogar tomada en
varios momentos del tiempo; y panel sería la muestra de datos de ingreso
para los mismos hogares tomada en diferentes momentos del tiempo.
En otras palabras, en cortes, una variable solo tiene la dimensión que
distingue una observación de otra, digamos, yi . En series, una variable solo
tiene la dimensión que distingue un período de tiempo de otro, digamos, yt .
En panel una variable tiene ambas dimensiones, de manera que se distingue
observación y tiempo, razón por la cual se emplean dos subíndices, digamos,
yit .
Para panel utilizamos la notación i = 1,2,K, N , donde hay N unidades de
corte, y t = 1,2,K, T , donde hay T períodos de tiempo, por lo cual el tamaño
de la muestra es NT . En datos panel usualmente, pero no siempre, N >> T ,
entre otras razones porque es difícil garantizar que las mismas unidades
permanezcan en el tiempo; esto es, que haya baja atrición (atrición, del
inglés attrition, se refiere al debilitamiento de la muestra cuando las
unidades transversales van desapareciendo con el tiempo).
Datos panel combina muchos de los conceptos de cortes y series vistos en
los capítulos anteriores.
En el Cuadro 13.1 se ilustra la forma de datos panel para cada variable.
Bajando por las columnas están las unidades de observación transversales
(personas, hogares, firmas, países, etc.) que van de 1 a N y a lo ancho están

los períodos de tiempo, de 1 a T . Las rayas en cada casilla representan
espacios que se llenarían con los valores numéricos de la muestra.
Cuadro 13.1
t = 1 t = 2 t = 3 L t = T
i = 1 ___ ___ ___ K ___
i = 2 ___ ___ ___ K ___
i = 3 ___ ___ ___ K ___
M M M M M
i = N ___ ___ ___ K ___
Por ejemplo, la columna de t = 2 representa una muestra de corte transversal

tomada en el tiempo 2. La fila de i = 3 representa una muestra de series de
tiempo para la unidad 3. Cada observación, esto es, cada casilla, se identifica
por un valor de i y uno de t .
En general, un modelo lineal para datos panel puede escribirse como
yit = xit′ β + ai + γ t + ε it (13.1)
donde yit es la variable dependiente y xit son las variables explicativas.

Generalmente nuestro interés radica en estimar β . El parámetro ai se
conoce como el efecto específico de corte transversal o individual, difiere de
una unidad transversal a otra pero es igual para todo t (el mismo valor para
todas las T casillas de la fila i -ésima en el Cuadro 13.1). El parámetro γ t es
el efecto específico de tiempo, difiere de un período de tiempo a otro pero es
igual para todo i (el mismo valor para todas las N casillas de la columna t -
ésima en el Cuadro 13.1). El término ε it es el error para cada una de las NT
observaciones donde E (ε it xit , ai , γ t ) = 0 .
Lo que hace especial el formato de datos panel son los efectos fijos, los
cuales se suponen no observados; esto es, son variables omitidas y podrían
sesgar la estimación de β . Por ahora, y para facilitar la exposición,
supongamos que solo hay efectos fijos transversales ai y que solo hay una
variable explicativa xit , de manera que el modelo se simplifica a
yit = β xit + ai + ε it (13.2)
Dado que ai es una variable omitida (no observada) que representa

características específicas de cada unidad transversal es posible que se
encuentre relacionada con xit lo cual puede sesgar los β̂ . Pero también es
posible que no tenga relación con xit en cuyo caso no habría sesgo en β̂ ; sin
embargo, habría sesgo en Var ( βˆ ) , como veremos más adelante.
Se llama estimación de efectos fijos si tratamos ai como una variable
aleatoria no observada relacionada con xit . En este caso, ai es visto como un
intercepto diferente para cada unidad transversal (por lo cual adicionar un
intercepto c en el modelo produciría multicolinealidad perfecta).
Se llama estimación de efectos aleatorios si tratamos ai como una
variable aleatoria no observada independiente de xit . En este caso, ai es visto
como parte del error (puede adicionarse un intercepto c al modelo).
Estimación por Efectos Fijos
Es posible tratar el sesgo atribuido a la omisión de ai utilizando variable

instrumental pero los métodos de panel ofrecen soluciones alternativas las
cuales, básicamente, intentan eliminar ai del modelo. Una de tales
transformaciones es la conocida como within.
El primer paso consiste en escribir el modelo en términos del promedio
en el tiempo de cada variable, así
yi = β xi + ai + ε i (13.3)
1 T 1 T 1 T
donde yi = ∑ it i T ∑
T t =1
y , x =
t =1
x it , ε i = ∑ ε it , y donde ai = ai porque ai es
T t =1
igual en cada período de tiempo. No se recomienda estimar la ecuación
anterior (conocida como between) porque tiene una muestra reducida ( N
observaciones) y además la posibilidad de que ai y xi estén relacionadas,
sesgando β̂ . Para continuar con el método within, se resta la ecuación (13.3)
de la ecuación (13.2) para obtener
yit − yi = β ( xit − xi ) + ε it − ε i (13.4)
donde vemos que la variable omitida ai desaparece y, en efecto, ya no es una

variable omitida en el modelo transformado. De hecho en el método within
toda variable que no varía en el tiempo, aunque sea observada, desaparece y
no es posible estimar su coeficiente. La ecuación anterior cuenta con NT
observaciones y se estima corriendo yit − yi contra xit − xi lo cual arroja un
estimador insesgado de β . Este estimador se conoce como within porque
usa la variación temporal dentro de cada unidad transversal. Una vez
obtenido el β̂ insesgado puede utilizarse para calcular los ai de
aî = yi − β̂ xi (13.5)
Ocasionalmente se reporta un intercepto que es solo el promedio âi . Con âi

encontramos los residuos εît = yit − βˆ xit − aî . Se puede probar la hipótesis nula
de que todos los ai son iguales con una F , lo cual equivale a probar que
σ a2 = 0 , o que los efectos fijos son redundantes y se pueden remplazar por un
solo intercepto.
Obviamente, si vemos los ai como interceptos para cada unidad
transversal, el modelo también puede estimarse poniendo tantos dummies
como unidades transversales haya: la ecuación a estimar sería
yit = a1D1 + a2 D2 + L + aN DN + β xit + ε it (13.6)
donde Di = 1 si se trata de la observación i ésima y Di = 0 si no. En este

modelo con variables dummy la estimación se puede hacer por MCO sin
problemas teóricos, en especial si N es pequeño. En la práctica, invertir la
matriz de las variables explicativas, que incluye las variables xit más las N
dummies, puede ser una tarea formidable considerando que N con
frecuencia es del orden de 10 mil o 20 mil; caso en el cual es mejor recurrir
al estimador within. Para T fijo mientras N → ∞ puede obtenerse un âi
insesgado pero inconsistente porque plim aî ≠ ai debido a que el número de
coeficientes crece a la par de la muestra. Por esta razón no se asocian valores
de prueba t student a las estimaciones âi . Puede demostrarse [ver, por
ejemplo, Dougherty (2006)], que el estimador within es equivalente al de
variable dummy.
Volviendo al estimador within, es importante notar que, si bien β̂ es

insesgado es posible que no sea eficiente porque los errores del modelo
ε it − ε i no tienen un matriz de varianza covarianza diagonal. Explicamos esto
notando que, para un i dado, E (ε it − ε i ) = 0 , de manera que la varianza del
término de error será
Var (ε it − ε i ) = E (ε it − ε i ) 2 = Eε it2 − 2 Eε it ε i + Eε i2
Eε it (ε i1 + ε i 2 + L + ε iT ) E (ε i1 + ε i 2 + L + ε iT )(ε i1 + ε i 2 + L + ε iT )
= Eε it2 − 2 + (13.7)
T T2
σ ε2 Tσ ε2 σ ε2  1
= σ ε2 − 2 + 2
= σ 2
ε − = σ ε2 1 − 
T T T  T
En cuanto a la covarianza,
Cov (ε it − ε i )(ε is − ε i ) = E (ε it ε is ) − E (ε itε i ) − E (ε iε is ) + Eε i2

(13.8)
σ ε2 σ ε2 σ ε2 σ ε2
=0− − + =− <0
T T T T
lo que implica que ε it y ε is tienen autocovarianza (y autocorrelación)

negativa y que, afortunadamente, dicha correlación desaparece cuando
T → ∞ . ¿Cuál es la intuición de esta autocorrelación negativa? La respuesta
es que, en muestras pequeñas, si ε it está por encima (debajo) de la media ε i
entonces es más probable que ε is esté por debajo (encima) de la media ε i ,
generando correlación negativa la cual cae cuando T crece porque hay más
ε i1 + ε i 2
observaciones. Por ejemplo, supongamos que εi = entonces
2
necesariamente cuando ε i1 esté por encima de la media, ε i 2 estará por
debajo. A medida que T crece este patrón se disuelve.
Otra alternativa para estimar el modelo de efectos fijos y eliminar ai es
utilizando diferencias el tiempo. Se resta un rezago del modelo original
obteniendo
yit − yit −1 = β ( xit − xit −1 ) + (ai − ai ) + (ε it − ε it −1 ) (13.9)

de manera que corremos
∆yit = β ∆xit + ∆ε it (13.10)
El problema es que el término de error del modelo transformado,

∆ε it = ε it − ε it −1 , está autocorrelacionado porque es un MA(1). Esto hace poco
confiables las pruebas de hipótesis. Si hay suficientes rezagos que permitan
estimar la autocorrelación, puede emplearse un estimador de errores
robustos tipo Newey West. Pero si hay rezagos de ∆yit entre las explicativas
entonces MCO ni siquiera será consistente. Si ε it = ε it −1 + vit es un paseo
aleatorio entonces ∆ε it = ε it − ε it −1 = vit será ruido y el estimador de primeras
diferencias será más eficiente que el within (aunque posiblemente el modelo
original sea espurio). Si ε it se distribuye iid (0,σ ε2 ) entonces el estimador
within será más eficiente que el de primeras diferencias. En el de primeras
diferencias ∆ε it exhibirá autocovarianza negativa, esto es,
E (ε it − ε it −1 )(ε it −1 − ε it − 2 ) = E (−ε it −1 )(ε it −1 ) = −σ ε2
comparada con − σ ε2 / T que habíamos encontrado para within.

Ahora bien, para T = 2 no hay problema porque ∆ε it = ε it − ε it −1 no será una
serie de tiempo, los subíndices de tiempo desaparecen y el estimador
equivale al within, como vemos a continuación. Mostramos esta
equivalencia partiendo del modelo within,
yit − yi = β ( xit − xi ) + ε it − ε i
yit − yit −1 x − xit −1 ε − ε it −1

yit − = β ( xit − it ) + ε it − it
2 2 2
(13.11)
yit − yit −1 x − xit −1 ε it − ε it −1
= β ( it )+
2 2 2
∆yit = β ∆xit + ∆ε it
Cuando no tenemos efectos fijos transversales sino de tiempo γ t , el

procedimiento es similar al descrito acá para el estimador within solo que
ahora los promedios no se toman a lo largo del tiempo sino a través de las
unidades de corte i de manera que se logre eliminar γ t del modelo. También

puede aplicarse el método de variable dummy. El método de diferenciación
tiene poco sentido porque γ t no desaparece.
Cuando tenemos ambos efectos ai y γ t , lo que se conoce como un
modelo two way (en contraste con one way que es cuando solo está uno de
los dos efectos), existen métodos within que requieren el cálculo de
promedios temporales y transversales. Sin embargo es más fácil aplicar
within en una dimensión y usar dummies para la dimensión que sea más
corta en N o T .
No debemos olvidar que la estimación también puede intentarse por
variable instrumental la cual, a diferencia de within o diferencias, no elimina
las variables que no cambian en el tiempo. Muchas sugerencias para variable
instrumental se encuentran en la literatura.
Estimación por Efectos Aleatorios
El modelo para efectos aleatorios supone que ai carece de relación con

las variables explicativas xit de manera que para el análisis, y dado que es
una variable omitida, ai puede agregarse al el error,
yit = c + β xit + ai + ε it = c + β xit + uit (13.12)
donde uit = ai + ε it . Se supone que ai se distribuye iid (0,σ a2 ) , ε it se distribuye

iid (0, σ ε2 ) y que ai y ε it son independiente entre sí. Dado que ai es parte del
error se adiciona un intercepto c al modelo. Así las cosas, ignorar ai resulta
en una estimación de MCO insesgada y consistente pero ineficiente porque,
como veremos a continuación, la presencia de ai induce autocorrelación en
uit ; esto es, el modelo no cumple Gauss Markov y MCO no es el mejor
estimador lineal insesgado. En otras palabras, si hay independencia lineal
entre ai y xit podemos ignorar ai y correr el modelo por MCO, que no será
eficiente pero sí consistente. Ignorar ai lleva a ignorar la verdadera
estructura de la matriz de varianza covarianza de β̂ lo que, a su vez, lleva a
pruebas de hipótesis poco confiables (usualmente optimistas). Lo anterior
puede corregirse utilizando estimadores robustos (si T es suficientemente
grande) o el estimador de mínimos cuadrados generalizados, GLS.
En razón de que ai , para cada i , tiene el mismo valor en todo período de
tiempo, tendremos correlación positiva en uit . La varianza de uit será
Var (uit ) = Var (ai ) + Var (ε it ) = σ a2 + σ ε2 (13.13)
Para la misma unidad i , la covarianza será positiva
Cov(uit , uis ) = E (ai + ε it )(ai + ε is ) = E (ai2 ) = σ a2 (13.14)
para cualquier t ≠ s . La correlación es σ a2 /(σ a2 + σ ε2 ) .

En la práctica se utiliza el método de mínimos cuadrados generalizados
factibles, FGLS para la estimación. El modelo de efectos aleatorios no
elimina las variables que, aunque observadas, no cambien en el tiempo,
como si lo hacen los métodos de efectos fijos within y de diferencias.
Sea φ = E (uu′) la matriz de varianza covarianza de los errores uit . Para
obtener su estimación, φˆ , existen varios métodos cuyos detalles se pueden
consultar en los textos. Podría correrse la regresión indicada en (13.12) por
MCO para obtener ûit y su varianza Var (uit ) = σ a2 + σ ε2 , según (13.13). Por otro
lado, con la serie ûit estimamos Cov(uit , uit −1 ) = σ a2 (usamos rezago 1 pero
(13.14) es válida para cualquier rezago) y con esta estimación de σ a2
completamos la de σ ε2 .
Como se vio en capítulos anteriores, la estimación por FGLS sigue la
expresión
βˆ = ( X ′φˆ −1 X ) −1 X ′φˆ −1 y (13.15)
estimación que será más eficiente que MCO. Veamos en mayor detalle la
forma de φ . Recordando las expresiones para la varianza y covarianza de uit
mencionadas arriba tenemos que, para cualquier unidad i , la matriz de
varianza covarianza φi será
σ a2 + σ ε2 σ a2 L σ a2 
 
 σ a2 σ a2 + σ ε2 L σ a2 
φi = (13.16)
 M M O 
 2 
 σ a σ a2 σ a2 + σ ε2 
la cual es independiente de i y de orden T × T . Agregando sobre todos los N

individuos obtenemos la matriz φ utilizada en la estimación FGLS,
φi 0 L 0 
0 φ L 0
φ= i  (13.17)
M M O 
 
0 0 φi 
la cual es de orden NT × NT . Como todos los elementos φi de la diagonal son

iguales y además hay ceros por fuera de la diagonal, a primera vista podría
pensarse que no hay heteroscedasticidad ni autocorrelación y que la
estimación por MCO cumple con Gauss Markov. Sin embargo, esto no es
cierto porque los elementos φi de la diagonal no son escalares sino matrices
como se ve en (13.16), de manera que la matriz φ es diagonal en bloques
(block diagonal) y presenta autocorrelación en los errores. Nótese que no
hay heteroscedasticidad porque los elementos de la diagonal de todos los φi
son iguales a σ a2 + σ ε2 .
De manera similar, para estimar efectos aleatorios bajo la presencia de
efectos fijos de tiempo γ t , trabajamos con el error uit = γ t + ε it que presenta
correlación a través de las i unidades. Así, la matriz φt será de orden N × N ,
y esta se repite en la matriz completa φ de orden NT × NT .
Prueba de Hausman
Esta prueba, también conocida como Durbin Wu Hausman, ayuda a

escoger entre un modelo de efectos fijos y uno de efectos aleatorios para
ajustar a los datos. Todo depende de la relación entre ai y xit ; si son
dependientes entonces el modelo indicado sería el de efectos fijos pero si
hay independencia entonces el indicado sería el de efectos aleatorios. De
manera que la prueba debe distinguir entre estos dos casos.
La hipótesis nula de la prueba es que no hay relación entre ai y xit . La
prueba compara dos estimadores, ambos consistentes bajo la hipótesis nula y
solo uno consistente bajo la alterna. Bajo la hipótesis nula ambos
estimadores, el de efectos fijos y el de efectos aleatorios, son consistentes
pero el de efectos fijos es menos eficiente porque no aprovecha la
información contenida en la matriz de varianza covarianza del error (que
incluye ai ). Bajo la hipótesis alterna el de efectos fijos es consistente y el de
efectos aleatorios es inconsistente. En otras palabras, bajo la hipótesis nula
ambos estimadores deben arrojar valores similares; esto es,
plim ( βˆ FE − βˆ RE ) = 0 , donde β̂ FE es la estimación por efectos fijos (within) y
β̂ RE es la estimación por efectos aleatorios (GLS). La prueba es una Wald de

la forma
( βˆ FE − βˆ RE )′[Var ( βˆ FE − βˆ RE )]−1 ( βˆ FE − βˆ RE ) (13.18)
que converge a una chi cuadrado con grados de libertad iguales al número de
variables explicativas que cambian en el tiempo, que es igual al número de
coeficientes en el vector β . Si el estadístico de prueba (13.18) supera el
valor crítico escogido entonces se rechaza la hipótesis nula y no se
recomienda la estimación por efectos aleatorios; esto es, la estimación debe
hacerse por efectos fijos. Hausman muestra que la cantidad
Var ( βˆ FE − βˆ RE ) = Var ( βˆ FE ) − Var ( βˆ RE ) (13.19)
generalmente es positiva dado que β̂ FE es menos eficiente (tiene mayor

varianza) que β̂ RE .
Por ejemplo, para una sola variable explicativa la expresión de la prueba
sería
( βˆ FE − βˆ RE ) 2
d
→ χ12
ˆ
Var ( β ) − Var ( β )
FE ˆ RE
Panel Dinámico (Autorregresivo)
En este modelo panel consideramos la adición de rezagos de la variable

dependiente como explicativas, convirtiéndolo, en efecto, en un modelo
panel autorregresivo. Para ilustrar usamos un solo rezago (en parte porque
en panel usualmente T << N )
yit = α yit −1 + β xit + ai + ε it (13.20)
El punto importante es que, aun si el modelo es estacionario y no hay

relación entre ai y los regresores xit , el error ai + ε it está autocorrelacionado
para cada i y no aplica Mann Wald, como sí sucedía en el AR(1), de manera
que la estimación será inconsistente. Esto puede verse más claramente en la
siguiente versión simplificada del modelo
yit = α yit −1 + ai + ε it
donde, aun si tratamos ai como un efecto aleatorio, la estimación es

inconsistente porque la variable yit −1 está relacionada con ai , que es
inobservada, y por tanto parte del error. Existe la posibilidad de que la
estimación within sea consistente pero para T → ∞ ya que en este caso
(aunque poco realista) la autocorrelación en los errores desaparece.
La estimación por MCO del modelo en diferencias
yit − yit −1 = α ( yit −1 − yit − 2 ) + β ( xit − xit −1 ) + (ε it − ε it −1 )

(13.21)
∆yit = α∆yit −1 + β ∆xit + ∆ε it
también es inconsistente dada la relación entre ( yit −1 − yit − 2 ) y (ε it − ε it −1 ) ;

porque yit −1 contiene a ε it −1 . Arellano y Bond (1991) proponen utilizar
rezagos en niveles, por ejemplo yit − 2 , como instrumento para la variable
contaminada ∆yit −1 = yit −1 − yit − 2 ya que yit − 2 está correlacionado con ∆yit −1 pero
no con el error ∆ε it = ε it − ε it −1 . Este método puede usar varios rezagos,
yit − 2 , yit −3,K , con las limitaciones que T impone, por lo cual puede tener más
variables instrumentales que variables problema haciendo que GMM sea la
forma de estimación preferida, razón por la cual este método se conoce
como D-GMM (difference GMM, a veces también DIF-GMM). En
cualquier caso, las propiedades en muestra pequeña, esto es para T << N , no
son las mejores, especialmente si yit se aproxima a un proceso de raíz
unitaria. Puede intuirse en este caso que la primera etapa de la estimación
por variable instrumental, donde se correría ∆yit −1 contra yit − 2 , es similar a
una prueba de raíz unitaria (como la ADF o PP) y que, como tal, debería
arrojar un coeficiente no significativo para yit − 2 . En otras palabras, ∆yît −1
estaría estimada con instrumentos débiles, que no la explican, de manera que
la segunda etapa puede ser inconsistente, simplemente porque ∆yît −1 no se
parece a ∆yit −1 .
Una alternativa es volver al modelo original en niveles (13.20) y notar
que las diferencias rezagadas sirven como variables instrumentales. Por
ejemplo, ∆yit −1 = yit −1 − yit − 2 tiene relación con yit −1 pero no con el error ai + ε it .
De hecho, igual puede proponerse para los regresores xit endógenos, esto es,
utilizar sus diferencias rezagadas como sus instrumentos. Utilizando los
instrumentos descritos podemos estimar los coeficientes de ambas
ecuaciones: la ecuación en diferencias y la ecuación en niveles [ver Blundell
y Bond (1998)]. El promedio ponderado de los coeficientes de estas dos

ecuaciones se conoce como S-GMM (system GMM, a veces también SYS-
GMM).
A pesar de su popularidad, adquirida en parte por sus propiedades
asintóticas, la estimación por D-GMM y S-GMM no garantiza buenas
propiedades en muestras pequeñas por, entre otros, los problemas de
instrumentos débiles y demasiados instrumentos [ver, por ejemplo,
Roodman (2009)].
No Estacionariedad en Panel
Al igual que en series de tiempo, para N finito y T → ∞ pueden

presentarse regresiones espurias en panel cuando las variables son no
estacionarias. Por ejemplo, en el modelo yit = β xit + ai + ε it es importante
establecer si las variables son estacionarias o si cabe la posibilidad de que
los resultados sean espurios. Para determinar si las variables son
estacionarias, usualmente se aplican las pruebas tradicionales de raíz unitaria
(ADF, PP, etc.) a los datos de cada unidad transversal pero adaptadas a las
características de cada unidad, por ejemplo, utilizando diferente número de
rezagos o tendencias determinísticas por unidad. También es posible
considerar interceptos o tendencias diferentes o, por el contrario, hacer el
supuesto de que sean comunes a todas las unidades transversales. Por
ejemplo, para panel, la ADF podría tomar la forma
Pi
∆xit = ϕi xit −1 + ∑ γ ik ∆xit − k + ε it (13.22)
k =1
donde se podría fijar ϕi = ϕ suponiendo un proceso de raíz unitaria común a

todas las unidades transversales o, por el contrario, permitir procesos de raíz
unitaria diferentes ϕi para cada unidad de corte transversal. También se
puede fijar un solo intercepto o tendencia o permitir que estas varíen de
unidad a unidad; o que el número de rezagos sea el mismo para todas las
unidades de corte transversal, esto es Pi = P , o específico para cada i .
Especialmente, para T grande es importante explorar la posibilidad de
regresión espuria versus cointegración. Para esto se corre la regresión
original y se prueba la estacionariedad de los residuos bajo la hipótesis nula
de no cointegración ( ε it es I (1) ). Pedroni, Kao, Maddala y otros autores han
desarrollado estas pruebas.
Modelos Jerárquicos o Multinivel
Estos modelos, también conocidos como mixtos o cluster, involucran

efectos aleatorios en los interceptos o en los coeficientes y, de hecho, pueden
trabajarse remplazando la dimensión tiempo por otra (denotada j a
continuación). La idea es que, a partir del muestreo, las observaciones se
agrupan de manera jerárquica. Por ejemplo, cuando se recogen datos a nivel
de estudiante individual agrupados por aulas (o por profesor). Un modelo
donde se postulan efectos aleatorios solo en el intercepto podría ser
yij = β 0 + β 0 j + β1 xij + ε ij (13.23)
o, si se postulan efectos aleatorios en el intercepto y la pendiente,
yij = β 0 + β 0 j + ( β1 + β1 j ) xij + ε ij (13.24)
donde los términos β0 j y β1 j son los componentes aleatorios no observados

del intercepto y del coeficiente β1 , independientes de ε ij y de las variables
explicativas. En los modelos i representaría al estudiante individual y j al
aula (o profesor). Igualmente, i podría ser una firma dentro de un país j .
Pueden adicionarse subíndices para acomodar más niveles jerárquicos, por
ejemplo, estudiantes individuales i agrupados por aulas (o por profesor) j y
estos a su vez por colegios s ; o también hogares agrupados por barrios y
estos por ciudades.
El interés usualmente recae en estimar las varianzas de los efectos
aleatorios (además de la varianza de ε ij ) con el fin de evaluar qué proporción
de la variabilidad total se puede atribuir a cada nivel de agrupación [ver, por
ejemplo, Bryan y Jenkins (2016)].
Capítulo 14
CAUSALIDAD E IMPACTO
Establecer causalidad es una de las tareas más difíciles en econometría.

Causalidad también se conoce como efecto tratamiento o evaluación de
impacto. La tarea se complica porque no hay consenso acerca de una
definición de causalidad. Además, no siempre se tienen datos de las
variables ni estamos seguros de cuáles variables son las involucradas. El
problema básico es que no se conoce con precisión el modelo estructural;
otra forma de decirlo, es que no se conoce la teoría pertinente. A falta del
modelo estructural, intentamos establecer causalidad con información
incompleta.
En econometría hay que tener cautela al usar el término causalidad.
Cuando se habla de elasticidades suele decirse que un cambio porcentual en
una variable causa un cambio porcentual en otra. Sin embargo, en lugar de
‘causa’ es mejor decir, o entender, ‘se asocia a’. De hecho, un coeficiente de
regresión no necesariamente representa el cambio en la dependiente causado
por la independiente. La causalidad no es mera correlación o asociación.
Por ejemplo, se puede encontrar correlación entre x y y en las gráficas
de flechas mostradas en las Figura 14.1a y 14.1b, pero solo hay causalidad
entre x y y en la Figura 14.1a ( x causa a y ) ya que en la Figura 14.1b x y
y son causadas por unas tercera variable z . Si desconocemos el modelo
estructural de la Figura 14.1b y corremos una regresión de y contra x
podríamos concluir erróneamente que x causa y .
x y Figura 14.1a
x y Figura 14.1b
Más formalmente, la definición filosófica de causalidad (atribuida a

Herbert Feigl) es: predicción de acuerdo con una ley o conjunto de leyes.
Esto quiere decir que podemos hablar de causalidad, o del efecto de algún
tratamiento o de evaluación de impacto, solo si podemos predecir el
resultado de un movimiento en una variable sobre otra pero mediando una
explicación para ello. Por lo tanto, la mera correlación o, incluso, el buen
desempeño predictivo no sería suficiente para establecer causalidad si falta
una explicación o justificación teórica. El problema es que en econometría
usualmente carecemos de dicha explicación teórica y principalmente
dependemos de datos observados o generados por experimentos no ideales
para inferir causalidad. Lo anterior ha llevado a la adopción en la práctica de
diversas definiciones de causalidad y de métodos de estimación que se
adaptan a los datos disponibles y sus limitaciones [ver Heckman y Vytlacil
(2001)].
Cabe advertir que insesgamiento no siempre equivale a causalidad.
Vimos, por ejemplo, que la omisión de variables relevantes puede sesgar los
coeficientes estimados por MCO y que una solución es la estimación por
variable instrumental. Aun así, un coeficiente insesgado no necesariamente
representa el efecto causal de la variable explicativa en razón de que su
efecto causal debe incluir también el efecto indirecto de otras variables
causadas por la misma explicativa. La Figura 14.2 ilustra esto con el modelo
y = β 0 + β1 x1 + β 2 x 2 + ε donde x2 = α x1 + u , de manera que el efecto causal de
x1 sobre y no es β1 sino β1 + β 2 α .
β0
1
y
β1
x1
α
β2
u
x2
ε Figura 14.2
Regresión a la Media
Este fenómeno fue identificado por Sir Francis Galton en 1886 quien lo
llamó regresión a la mediocridad (regression to mediocrity). Es el origen de
la palabra regresión en econometría. Galton estudió datos de estaturas de
padres e hijos (adultos), tratando de establecer si a padres altos les nacen
hijos altos y a padres bajos les nacen hijos bajos. Si lo anterior es cierto, los
datos deberían encontrarse sobre la diagonal en una gráfica que tenga la
estatura de padres en el eje horizontal y la estatura de hijos en el eje vertical.
Sin embargo, la nube de puntos de Galton dibuja una línea con menor
pendiente; esto es, padres altos tienen hijos menos altos y padres bajos
tienen hijos menos bajos.
Regresión a la media se da cuando mediciones ubicadas en los extremos
de la distribución se vuelven a medir, y se encuentra que ya no son tan
extremas. Esto se intuye modelando la medición M i del individuo i ésimo en
función del verdadero valor Vi más un término de error,
M i = Vi + ε i (14.1)
Los individuos en el extremo superior de la distribución están allí en parte

porque el verdadero valor los ubica en ese cuantil superior y en parte porque
obtuvieron un ε i alto. Si estos individuos extremos se vuelven a medir, lo
más probable es que ε i ya no sea tan alto y M i baje un poco. Lo mismo
aplica, mutatis mutandis, al cuantil extremo inferior.
Con frecuencia la regresión a la media se expresa mal. No se trata de que
si en una medición alguien está por encima de la media entonces tiende a
estar por debajo de la media en la próxima medición. La descripción correcta
es: si en una medición alguien está en un extremo, tiende a estar menos en el

extremo en la próxima medición. También se podría decir que si alguien está
por encima (debajo) de la media en una medición, tiende a estar menos por
encima (debajo) en la próxima medición.
El punto crucial para la causalidad o evaluación de impacto es que un
individuo vuelto a medir (o remuestreado) con base en que antes tuvo una
medición extrema, tendrá ahora una medición menos extrema.
Por ejemplo, si seleccionamos alumnos que obtuvieron las peores
calificaciones en un examen y los sometemos a un nuevo método de
enseñanza o coaching, podemos esperar en el próximo examen un sesgo a
favor del nuevo método de enseñanza o coaching (esto es, que el promedio
de sus calificaciones mejoren). O si escogemos a los pacientes con mayor
riesgo según exámenes de laboratorio y los sometemos a un nuevo
tratamiento podemos esperar que el próximo examen de laboratorio indique
que tratamiento es efectivo. En ambos casos encontraremos un efecto
positivo, aunque ni el método de enseñanza ni el tratamiento sirvan para
nada (placebos), simplemente porque los sujetos en el grupo extremo
tendrán errores menos extremos en la próxima medición. Lo contrario
sucede si seleccionamos los alumnos con las calificaciones más altas y los
sometemos a un nuevo método de enseñanza o coaching; en este caso
encontraremos que las calificaciones en promedio bajan un poco en el
próximo examen y concluiremos que la intervención tiene efecto negativo.
Los ejemplos anteriores muestran que debemos desconfiar de
evaluaciones basadas en ‘antes y después’ o derivadas de muestras no
aleatorias. Una muestra no aleatoria, con sesgo de selección, puede ser culpa
de nadie, del experimentador, o de los sujetos, aunque el diseño siempre es
responsabilidad del experimentador y, con frecuencia, el fenómeno de
regresión a la media típicamente resulta de un mal diseño. Por el lado de los
sujetos la no aleatoriedad en la muestra puede darse cuando hay
autoselección (esto es, que los sujetos no sean escogidos al azar sino que
ellos mismos influyan en la decisión de estar o no en la muestra).
Resultados Potenciales y Contrafactuales
La evaluación ideal consiste en comparar el efecto de aplicar el

tratamiento a un sujeto (o grupo de sujetos) y de no aplicarlo al mismo
sujeto (o grupo de sujetos). Si yTi es el resultado potencial (que se
observaría) del tratamiento en el sujeto i y yCi es el resultado potencial (que
se observaría) del no tratamiento en el mismo sujeto i , entonces el efecto

causal del tratamiento para ese individuo i se mide como yTi − yCi .
Por ejemplo, consideremos comparar el resultado de dar veneno a un
sujeto y de no darlo al mismo sujeto. La anterior es la comparación ideal
pero es imposible de llevar a cabo (porque el sujeto muere o porque el
experimento no es ético). Sin cambiar las condiciones del experimento solo
observamos uno de los dos resultados, el otro resultado que no observamos
se conoce como contrafactual. Una segunda opción sería trabajar con
clones perfectos lo cual también es difícil. Lo mejor que podemos hacer es
comparar el efecto de aplicar el tratamiento a un sujeto (o grupo de sujetos)
y no aplicarlo a otro sujeto (o grupo de sujetos) que sea lo más parecido
posible al tratado. El primero se conoce como grupo de tratamiento y el
segundo como grupo de control.
El punto es que ambos grupos, tratado y control, deben contener una
mezcla de individuos que los hagan similares (lo ideal serían réplicas). Esto
se logra asegurando que la muestra para cada grupo se tome de la población
de manera aleatoria, lo cual es más factible en experimentos controlados que
cuando se trabaja con datos observados no experimentales. La evaluación
empírica puede tener problemas; entre otros, que no corresponda a la
definición teórica de causalidad, de omisión de variable relevante, errores en
variables, sesgo de simultaneidad y sesgo de selección (que los individuos
tratados sean diferentes de los no tratados). Las diferentes definiciones de
causalidad surgen al reconocer que los grupos de tratamiento y control
pueden diferir en su composición y comportamiento. De lo contrario, si se
toman de manera totalmente aleatoria de la población, las definiciones
tienden a converger.
Siguiendo el lenguaje de resultados potenciales y contrafactuales, una
definición teórica de causalidad es el efecto promedio del tratamiento ATE
(average treatment effect), el cual se expresa como
ATE = E ( yTi − yCi ) = EyTi − EyCi (14.2)
que representa la diferencia entre el valor esperado del tratamiento en todos

los miembros de la población menos el valor esperado del no tratamiento en
todos los miembros de la población (no olvidar que valor esperado es un
concepto poblacional). Es el efecto esperado del tratamiento al tomar
aleatoriamente cualquier individuo de la población. Obviamente, en la
práctica, la comparación anterior es imposible porque para cada individuo
solo podemos estimar uno de los dos valores esperados, el otro es el
contrafactual. Si y es binaria y toma los valores 0 y 1, la definición del ATE

puede escribirse como
ATE = EyTi − EyCi = P( yTi = 1) − P( yCi = 1) (14.3)
Otra definición preferida por algunos analistas es el efecto promedio del

tratamiento sobre los tratados ATT (average treatment effect on the treated).
Es similar a la anterior solo que condicional a que el individuo haya recibido
el tratamiento, lo cual se denota con una dummy para el tratamiento, Di = 1 si
recibió tratamiento y Di = 0 si no. La expresión del ATT es
ATT = E [( yTi − yCi ) Di = 1] = E [yTi Di = 1] − E [yCi Di = 1] (14.4)
en la cual E [yCi Di = 1] es el contrafactual, esto es, el resultado que se hubiera

observado en un individuo tratado si no hubiera sido tratado.
En la realidad solo tenemos datos disponibles para observar la diferencia
E [yi Di = 1] − E [yi Di = 0] = E [yTi Di = 1] − E [yCi Di = 0] (14.5)
que representa el resultado promedio de quienes recibieron tratamiento

menos el resultado promedio de quienes no recibieron tratamiento. La
diferencia que se puede observar no necesariamente es igual a ATT. Sería
igual solo si E [yCi Di = 0] = E [yCi Di = 1] . La pregunta es ¿por qué en general
E [yCi Di = 0] ≠ E [yCi Di = 1] y por qué la aleatorización restaura la igualdad? La
desigualdad puede darse si los individuos que reciben el tratamiento ( Di = 1 )
son diferentes de los que no lo reciben ( Di = 0 ).
Un ejemplo es cuando se comparan los ingresos de universitarios y no
universitarios para determinar si obtener un título universitario mejora los
ingresos. Si quienes van a la universidad son más hábiles que quienes no
van, entonces es posible que, aun sin ir a la universidad, sus ingresos
hubieran sido más altos que los ingresos de quienes no fueron,
E [yCi Di = 1] > E [yCi Di = 0] . Y una política de obligar a ir a la universidad a los
que no van, tendría efecto nulo o menor del esperado sobre sus ingresos.
En otro ejemplo, es común encontrar que estar casado se asocia con
ingresos más altos, lo cual podría llevar a una política de casar gente. Pero si
los casados y no casados provienen de poblaciones con características
diferentes, siendo los casados quizá más responsables, es posible que si los
casados no se hubieran casado de todas maneras sus ingresos hubieran

superado los de los no casados, de nuevo E [yCi Di = 1] > E [yCi Di = 0] , y una
política de forzar matrimonios no tendría efecto.
Cuando el tratamiento Di se asigna aleatoriamente, el grupo de control
representa perfectamente los ingresos que hubieran percibido quienes fueron
a la universidad si no hubieran ido (o quienes se casaron si no se hubieran
casado). Así, E [yCi Di = 0] = E [yCi Di = 1] y la diferencia observable
E [yi Di = 1] − E [yi Di = 0] = E [( yTi − yCi ) Di = 1] = E[ yTi − yCi ] (14.6)

14 444244443 14442444 3 14243
observable ATT ATE
En este caso podemos correr una regresión
yi = β 0 + β1Di + ε i (14.7)
donde β̂1 será el efecto causal estimado ATE y ATT. En la regresión

anterior se pueden adicionar variables explicativas X bajo el supuesto de
que Di se asigna aleatoriamente condicional a X , lo que se conoce como el
supuesto de independencia condicional, CIA (conditional independence
assumption). CIA quiere decir que Di se asigna aleatoriamente dentro de
cada grupo que tenga las mismas características X ; en cierta forma, para los
individuos en cada grupo de iguales se lanza una moneda. En la
interpretación de Angrist y Pischke (2017), CIA significa
E (ε i X , Di ) = E (ε i X ) , lo cual garantiza el insesgamiento de β̂1 porque
entonces, y de manera similar a lo expuesto en el capítulo 6,
 coeficient e de Di en una 
 
E ( βˆ1 X , Di ) = β 1 +  regresión de ε i contra (1) = β 1 + (0)(1) = β 1
 una constante , D y X 
 i 
Cuando utilizamos datos no experimentales (observational data) debemos

presumir que hay problemas de selección, esto es, que Di no es aletaorio
sino que depende de otras variables omitidas. En este caso, estas variables
omitidas harían parte del error de la regresión, sesgando β̂1 . De allí la
importancia de que se cumpla CIA.
Como en toda regresión o estudio estadístico, hay que considerar la
validez interna (hasta qué punto los resultados son atribuibles a la causa o
tratamiento y no a otra explicación) y la validez externa (hasta qué punto

las conclusiones del estudio son generalizables al resto de la población o a
otras poblaciones).
Finalmente, mencionamos una definición de causalidad de uso común
originada en la interpretación de Di . En el ATT, cuando decimos Di = 1 se
entiende que efectivamente el individuo i fue tratado. Sin embargo, en otros
contextos, Di = 1 puede denotar que el individuo i tan solo fue asignado al
tratamiento (por ejemplo, escogido para una capacitación, o para tomar una
droga durante un tiempo, o para casarse) pero, por rechazo, interferencia, o
atrición (desgaste), el individuo i puede no aceptar o completar el
tratamiento. Igualmente, a pesar de no ser escogido para el tratamiento, esto
es, Di = 0 , el individuo i puede tomar el tratamiento total o parcialmente, ya
sea por error del experimentador o por voluntad propia. Para muchos
analistas, este caso en el cual Di solo representa asignación al tratamiento, es
realista y definen el efecto causal llamado intención de tratar ITT (intent to
treat). Para medir este efecto, el resultado yi de cada individuo se promedia
dentro del grupo al cual fue inicialmente asignado, tratamiento o control, sin
importar si durante el curso del experimento cambió de grupo.
Diferencias en Diferencias
La evaluación basada en ‘antes y después’ no es confiable porque el

cambio observado puede deberse a otros factores diferentes a la causa
postulada, que afectan el resultado y hacen que el cambio se hubiera
observado aun sin la intervención de dicha causa postulada. ‘Antes y
después’ opera bajo el supuesto implícito, no siempre cierto, de que el
‘antes’ es una adecuada medición del contrafactual del control (esto es, del
resultado esperado si el individuo que recibió el tratamiento no lo recibe).
Por ejemplo, cuando una persona toma una poción para adelgazar y
simultáneamente decide hacer dieta y ejercicio, la foto de ‘antes y después’
solo evidencia un cambio pero este no necesariamente es causado por la
poción; pudo ser causado por la dieta, el ejercicio o algún otro factor
desconocido. La Figura 14.3 ilustra la discusión con una observación antes
(tiempo t1 ) y una observación después (tiempo t2 ). En la muestra, medir el
‘antes y después’ equivale a y2 − y1 , donde y2 es el resultado promedio
después del tratamiento y y1 es el resultado promedio antes del tratamiento.
El problema es que atribuir esta diferencia al tratamiento puede ser
equivocado ya que otros factores pudieron cambiar en el tiempo y ser la
causa. De hecho podríamos obtener un cambio aun sin que el tratamiento

tenga efecto alguno.
y2
y1
Figura 14.3
t1 t2 t
Sería diferente si tuviéramos dos grupos, uno de control ( C ) y otro de

tratamiento ( T ), iguales en todo sentido (por ejemplo, ambos hacen dieta y
ejercicio) excepto que el de tratamiento toma la poción. La comparación de
las diferencias antes y después entre los dos grupos sí podría indicar si la
poción causa o no causa la diferencia. La Figura 14.4 muestra el
comportamiento de ambos grupos a lo largo del tiempo. El tratamiento se
administra entre t1 y t2 .
y
T
Figura 14.4
t1 t2 t
El efecto del tratamiento se mide por la diferencia en las diferencias,

DiD, esto es,
DiD = ( yT 2 − yT 1 ) − ( yC 2 − yC1 ) (14.8)
donde yT 2 y yT 1 son los resultados promedio para el grupo de tratamiento

después y antes del tratamiento respectivamente, y yC 2 y yC1 son los
resultados promedio para el grupo de control después y antes del tratamiento
respectivamente. Reorganizando, (14.8) también se puede expresar como
DiD = ( yT 2 − yC 2 ) − ( yT 1 − yC1 ) .
Un supuesto importante en el método DiD es que la tendencia en y debe
ser igual para ambos grupos T y C , lo que implica que cualquier factor
externo al tratamiento afecta ambos grupos por igual, de manera que
cualquier cambio de un período a otro solo se debe al tratamiento. La
tendencia puede cambiar en el tiempo pero debe ser la misma para ambos
grupos. Como se anotó antes, si tomamos solo la diferencia antes y después,
( yT 2 − yT 1 ) , no sabríamos si dicha diferencia se atribuye al tratamiento o a
otro factor.
La figura 14.5 muestra un caso cuando la diferencia antes y después,
( yT 2 − yT 1 ) , es diferente de cero pero el tratamiento no es causal; la medida
correcta de causalidad es DiD, la cual da cero.
Figura 14.5
t1 t2 t
En términos de regresión, el efecto del tratamiento medido por DiD es

igual al coeficiente β3 en el modelo,
y = β 0 + β1 (trat ) + β 2 ( post ) + β 3 (trat )( post ) + ε (14.9)
donde la variable dummy trat es 1 si la observación es del grupo de

tratamiento y 0 si es del grupo de control, la variable dummy post es 1 si la
observación es del segundo período y 0 si es del primer período, y
(trat )( post ) es la variable de interacción que vale 1 si la observación es del
grupo de tratamiento y del segundo período y 0 si se incumple cualquiera de
estas dos condiciones.
A continuación se muestra que β3 es el efecto del tratamiento DiD para lo
cual se construyen los componentes de la expresión de DiD en (14.8) a partir
del modelo (14.9),
yT 2 = β 0 + β1 (trat ) + β 2 ( post ) + β 3 (trat )( post ) = β 0 + β1 + β 2 + β 3
yT 1 = β 0 + β1 (trat ) = β 0 + β1
de manera que yT 2 − yT 1 = β 2 + β3 . Por otro lado,
yC 2 = β 0 + β 2 ( post ) = β 0 + β 2
yC1 = β 0
de manera que yC 2 − yC1 = β 2 . Finalmente,
DiD = ( yT 2 − yT 1 ) − ( yC 2 − yC1 ) = β 2 + β 3 − β 2 = β 3 (14.10)
La regresión puede complementarse con otras variables explicativas

(usualmente llamadas de control) para aumentar precisión. El tratamiento
también puede ser continuo (no necesariamente una dummy). En otras
palabras, la variable trat podría ser continua y β3 denotaría el efecto del
cambio en la intensidad del tratamiento.
Una interesante ilustración de la técnica DiD puede consultarse en
Hastings (2004) en la cual se explora el efecto de la integración vertical
(refinadora que compra gasolineras) sobre los precios minoristas
(gasolineras integradas versus no integradas).
La técnica DiD también puede enfocarse desde el punto de vista de datos
panel. Esta formulación permite manejar más de dos períodos de tiempo y
asignar a cada unidad transversal su propio efecto fijo. Adicionalmente, no
todas las unidades transversales requieren ser tratadas en el mismo momento
del tiempo. Por ejemplo, podría proponerse un modelo como
yit = ai + γ t + β Dit + ε it (14.11)
donde ai es el efecto fijo por unidad de corte transversal y γ t es el efecto fijo

por período de tiempo. La variable dummy Dit toma el valor de 1 a partir del
período de tiempo t en que se trata la unidad de corte i (en inglés se conoce
como indicator function o step function) y juega un papel similar al de la
variable de interacción en (14.9). El coeficiente β mide el efecto del
tratamiento. Muchas variaciones de (14.11) se encuentran en la literatura.
Regresión Discontinua
Un método propuesto para resolver el problema de conformar el grupo de

control es el llamado diseño de discontinuidad en la regresión (el término
regresión discontinua no es exacto pero es popular). Se puede utilizar
cuando la asignación del tratamiento dependa de que una variable continua
llamada variable de asignación cruce un umbral.
Supongamos que se asigna un premio o beca a los alumnos que en un

examen obtengan una calificación xi mayor o igual a un umbral U , y se
quiere establecer el efecto del premio o beca sobre algún desempeño
posterior. Comparar los resultados posteriores de becarios y no becarios
podría conducir a una evaluación sesgada porque las becas tienden a
asignarse a los alumnos de mejor desempeño. La idea es comparar los
resultados posteriores entre becarios y no becarios pero solo entre alumnos
con características similares. La clave es que aquellos alumnos que obtienen
notas por encima o por debajo del umbral U , pero muy cercanas a U ,
pueden considerarse como una población de iguales. De manera que,
estando cerca de U , quienes no reciben el tratamiento son, para efectos
prácticos, iguales a quienes sí lo reciben, y pueden ser utilizados como grupo
de control. La probabilidad de estar por encima o por debajo en la vecindad
del umbral, es la misma, y la asignación de un individuo a tratamiento o
control puede considerarse aleatoria.
Si en una escala de calificación de 0 a 100 el umbral es 60, entonces
quienes obtengan 60, 61 o 62 son individuos muy parecidos a quienes
obtengan 59 o 58. En cambio, el grupo que se ubica por encima lejos del
umbral tiende a ser muy diferente del grupo que se ubica por debajo lejos del
umbral.
Lo mismo aplica cuando la elegibilidad al tratamiento se determina por
un umbral en la variable edad (por ejemplo, umbral para ser declarado adulto
o para pensionarse), también cuando el tratamiento se determina por un
puntaje en un examen de laboratorio clínico o según criterio médico.
Sea el tratamiento denotado por la dummy Di , igual a 1 si la variable de
asignación (calificación) xi ≥ U e igual a 0 si xi < U . Una forma de probar el
efecto del tratamiento sobre el resultado yi es corriendo por MCO
yi = β 0 + β1Di + β 2 xi + ε i (14.12)
donde β1 es el efecto causal. La Figura 14.6 grafica el resultado medido por

y para diversos alumnos según la calificación obtenida. Aquellos con xi ≥ U
recibieron el premio o beca, cuyo efecto se estima por el salto β1 .
β1
Figura 14.6
U x
Es muy importante notar que la muestra utilizada en la regresión se

compone solo de los alumnos o, en general, de los sujetos cercanos al
umbral U . Esto implica que se requieren muchas observaciones de las
cuales se toman solo las que están en la vecindad de U para la estimación.
La consecuencia es la disminución del tamaño de la muestra, razón por la
cual existe la tentación a utilizar observaciones cada vez más lejanas del
umbral, contrariando la filosofía del método.
El efecto causal también se puede calcular por el método de kernel
aplicado por separado a las observaciones a ambos lados del umbral U . La
línea de regresión a cada lado se dibuja promediando las observaciones
dentro de una ventana (kernel) que se desplaza a lo largo del eje horizontal;
la diferencia de estas dos líneas en U es la estimación del efecto causal.
Cuando hay tendencia, positiva o negativa, y dado que el promedio no es
exactamente igual al verdadero punto de cruce de las líneas de regresión con
la vertical en U , la estimación por kernel tiende a sobre estimar β1 . Esto se
puede intuir en la Figura 14.6.
El modelo (14.12) es lineal en la vecindad del umbral pero la consistencia
de la estimación depende de que la tendencia esté correctamente modelada.
Una generalización es la siguiente,
yi = β 0 + β1Di + f ( xi ) + ε i (14.13)
donde f ( xi ) puede ser lineal o cuadrática (rara vez cúbica, etc.). También se
pueden adicionar interacciones, que permiten diferentes pendientes, antes y
después del umbral U , como
yi = β 0 + β1Di + β 2 xi + β 3 xi2 + β 4 Di xi + ε i (14.14)
Si β 4 ≠ 0 entonces el tratamiento cambia la pendiente de quienes están por

arriba del umbral. Por otro lado, en la práctica, es usual transformar la
variable de asignación xi de manera que quede centrada en el umbral; esto
se hace remplazándola por xi − U . También es usual utilizar errores robustos.
Existen extensiones del modelo utilizando múltiples umbrales o puntos de
corte; por ejemplo si tenemos diferentes subpoblaciones (zonas geográficas,
escuelas, etc.) con diferentes umbrales para la aplicación del tratamiento.
Adicionar variables diferentes a la de asignación no es necesario para una
estimación consistente (aunque podrían disminuir la varianza) porque, por
construcción, la asignación es independiente de toda otra variable. La prueba
de McCrary (2008) está diseñada para detectar manipulación en la variable
de asignación x y se basa en su densidad de probabilidad. La hipótesis nula
de la prueba es que no hay manipulación, que la densidad de x es continua
en U ; un salto alrededor del umbral U indicaría que individuos que no
alcanzaron el umbral lograron ser asignados al tratamiento o viceversa. Dado
que no tenemos la densidad, la estimamos con su histograma suavizado y
vemos si se presenta un cambio o salto en x = U , cuya significancia se
prueba con una Wald.
La regresión discontinua tradicional supone que todo aquel en el grupo de
tratamiento recibe el tratamiento de manera que el tratamiento es una
función determinística de la variable de asignación x ; si pasa el umbral
recibe el tratamiento, el punto de corte es claro y no hay ambigüedad, razón
por la cual este modelo se conoce como sharp regression discontinuity. La
probabilidad de asignación pasa de 0 a 1 cuando la variable de asignación
cruza U . En contraste, la versión fuzzy del modelo acepta que algunos
individuos pueden cambiar de grupo haciendo que el salto en U sea algo
nebuloso, alterando la probabilidad de tratamiento en U de manera que ya
no es de 0 o 1. La estimación usual de este caso se hace por variable
instrumental.
Matching (Emparejamiento)
Uno de los pasos más difíciles en los estudios de causalidad no

experimentales es asegurar que el grupo de control represente lo que hubiera
sucedido si el grupo tratado no hubiera sido tratado. De hecho, en muchos de
estos estudios solo se tiene el grupo tratado (los que fuman, los que
recibieron un premio, etc.).
Un método, llamado matching o emparejamiento, busca para cada
individuo tratado, otro entre la población que sea muy similar al tratado. Con
todos estos se construye el grupo de control. Existen muchas formas de
encontrar ‘similitud’, ya sea usando variables individuales o puntaje
(propensity score matching). Por variables, se pueden buscar individuos que
tengan las mismas características, género, edad, peso, estatura, educación,
ingreso, estado civil, etc. Esto es fácil para una sola variable pero se
complica al aumentar el número de variables.
Una alternativa es hacerlo por puntaje (propensity score), donde se
resumen todas las variables en un solo índice proporcional a la probabilidad
de ser elegido para el grupo tratado. Para ello, típicamente se corren modelos
logit o probit (que se verán en el capítulo 16) donde la variable dependiente
vale 1 si el individuo es del grupo tratado y 0 si es del resto de la población.
Luego, para cada individuo tratado, se busca uno de la población con un
puntaje o probabilidad similar al del tratado y ese se incluye en la muestra de
control; al menos uno no tratado de entre la población por cada tratado.
Funciona en ambas direcciones, esto es, si uno o varios tratados se quedan
sin match aceptable pueden marginarse de la muestra. Finalmente, se realiza
el análisis estadístico sobre la nueva muestra, compuesta por los grupos de
control y tratamiento.
La técnica de matching puede tener problemas con variables relevantes
no observables porque, obviamente, no se incluyen en la estimación de la
probabilidad o puntaje (score). Por variables relevantes queremos decir
variables que afecten el resultado. Si las diferencias entre los grupos de
control y tratamiento se deben a variables que no afectan el resultado, no hay
problema.
Capítulo 15
BOOTSTRAPPING Y PERMUTACIÓN
Las pruebas estadísticas tradicionales, como la t o la F , se derivan de la

distribución normal. Pero si no se cumple el supuesto de distribución normal
entonces estas pruebas pierden validez en muestras finitas. Aplicarlas bajo la
justificación asintótica, donde usualmente son válidas, no remueve
enteramente las dudas en muestras finitas. Afortunadamente, la creciente
capacidad de computación permite realizar grandes cantidades de
repeticiones y muestreos a partir de los cuales se pueden estimar las
distribuciones de probabilidad, los intervalos de confianza y los valores de
significancia. Bootstrapping y permutación son ejemplos de estos métodos
de aleatorización que no dependen de conocer o suponer una distribución de
probabilidad particular, lo que los hace no paramétricos. La idea es estimar
la distribución por medio de miles de repeticiones de muestreo o
permutación de la muestra original. Actualmente, existen varios programas
de computador (algunos gratis) para llevar a cabo estas pruebas.
Bootstrapping
El bootstrapping se utiliza principalmente para encontrar valores de

significancia de pruebas estadísticas o intervalos de confianza. El principio
del método bootstrap es que la población es a la muestra como la muestra es
a la muestra de bootstrap; en otras palabras, la muestra actúa como la
población de donde se toman las muestras bootstrap.
En bootstrap deben cumplirse dos supuestos: (1) la muestra original es
representativa de la población y (2) las muestras bootstrap son
independientes e idénticamente distribuidas, iid . Aunque bootstrap se utiliza
para estimar en muestras finitas, obviamente funciona mejor cuánto más
grande sea el tamaño n de la muestra original porque de esta forma la
muestra original se aproxima a la población. Pero si la muestra original es
grande entonces más vale apelar resultados asintóticos que usar bootstrap.
A partir de una muestra de tamaño n se pueden obtener n n posibles
muestras bootstrap de tamaño n . Sin embargo, en la práctica es suficiente
con tomar un número menor (usualmente entre 1000 y 10000). Bootstrap
difiere del método de Monte Carlo en que en Monte Carlo se muestrea

repetidamente a partir de una distribución generada por computador mientras
que en bootstrap se muestrea repetidamente a partir de la muestra empírica.
Las muestras bootstrap son tomadas de los datos o de los residuos de una
regresión pero en todo caso tomadas con remplazo para que no se altere la
distribución (además, sin remplazo, simplemente reproducimos la muestra
original). Al muestrear con remplazo puede suceder que aparezcan
observaciones repetidas en la muestra bootstrap aunque no haya ninguna
repetida en la muestra original, o también que falten alguna de las originales
simplemente porque no fueron seleccionadas en el muestreo.
Supongamos, como ejemplo, que Y es la variable ingreso y que tenemos
una muestra de n hogares. A partir de los datos de la muestra calculamos Y .
Obtenemos muchas muestras de la muestra original, con remplazo, y
calculamos la media para cada una de ellas, llamémosla Y ∗ . Hacemos un
histograma con todas las diferencias Y ∗ − Y y de allí obtenemos una
aproximación al intervalo de confianza deseado para E (Y ) . También, si la
muestra es grande, puede encontrarse directamente el intervalo aproximado
sobre el histograma de Y ∗ − Y .
Para ilustrar, supongamos que tenemos una muestra de ingresos para
n = 6 hogares, {Yi } = {1,2,2,4,5,6} , de la cual se obtiene Y . Algunas muestras
bootstrap podrían ser {2,2,4,4,6,6} {1,1,2,4,4,6} {1,1,2,2,5,6} {2,2,2,4,4,6} {2,2,4,5,5,6} ,
y muchas más, con cuyas medias Y ∗ se construye el histograma de Y ∗ − Y .
Con respecto a una regresión, yi = β 0 + β1 x1i + L + β ki xki + ε i , se puede
considerar la muestra original yi , x1i ,K, xki donde i = 1,K n de la cual se toman
muestras bootstrap con remplazo. Con cada muestra bootstrap se corre la
regresión y se construyen los histogramas para los coeficientes estimados o
pruebas de interés. También se pueden muestrear los residuos εî que
resultan de estimar la regresión y sumarlos a los ŷi estimados construyendo
así nuevas variables dependientes, las cuales se corren contra las variables
explicativas originales (en cierta forma se replica el experimento suponiendo
fijas, no aleatorias, las variables explicativas).
Con respecto a series de tiempo también es posible hacer bootstrapping
pero teniendo en cuenta que es importante preservar la estructura de la
autocorrelación presente en los datos; en otras palabras, es necesario
muestrear segmentos de observaciones consecutivas. Para cada uno de estos
segmentos se corre el modelo deseado y se estima la cantidad de interés.
Otra opción es poner estos segmentos o submuestras (bloques) tomadas
aleatoriamente una tras otra hasta formar una muestra de longitud n , la cual
constituye una muestra bootstrap. Las submuestras pueden traslaparse o no.
Por ejemplo, para la muestra original {x1 , x2 ,K, xn } podrían usarse los
siguientes bloques traslapados de longitud l donde, para simplicidad, n / l es
un entero
{x1, x2 ,K, xl }, {x2 , x3 ,K, xl +1} , …, {xn −l +1, xn −l + 2 ,K, xn }
de los cuales se toman n / l bloques al azar (con remplazo) y se concatenan

para formar cada una de las muestras bootstrap. Una sofisticación es tomar
muestras de bloques cuya longitud sea aleatoria y no con l fija.
Pruebas de Permutación
Las pruebas de permutación se utilizan principalmente para estimar

distribuciones de probabilidad y probar hipótesis. Su aplicación usual se
hace bajo la hipótesis nula, y las repeticiones o el remuestreo deben hacerse
de manera compatible con dicha hipótesis nula. Quizá sea más fácil proceder
con ejemplos.
Supongamos que se escogen al azar nT individuos y se les aplica un
tratamiento T (grupo de tratamiento) mientras que al grupo nC no se les
aplica el tratamiento (grupo de control). Sean yT y y C las medias de la
variable de interés para el grupo de tratamiento y grupo de control, y
∆ym = yT − yC su diferencia en la muestra. Obviamente, en la práctica el valor
de la diferencia entre las dos medias nunca será exactamente cero pero
queremos saber si tal diferencia se debe al azar o si es significativa (esto es,
si hay evidencia para concluir que el tratamiento afecta el resultado).
Cuando se cumple el supuesto de normalidad, lo usual es usar una prueba de
diferencia de medias basada en la prueba t que a su vez se basa en
normalidad. Pero si se incumple este supuesto de normalidad o no
conocemos la distribución, podemos apelar a la prueba de permutación.
Para la prueba de permutación se usa la hipótesis nula de que el
tratamiento no tiene efecto alguno, en otras palabras, que la diferencias entre
las medias es estadísticamente cero. Entonces, bajo esta hipótesis no importa
quien esté en el grupo de tratamiento y quien en el de control. Será posible
transferir (permutar) algunos individuos del grupo de tratamiento al de
control y viceversa sin que la diferencia de medias calculadas en los nuevos
grupos se aleje sustancialmente de cero.
Para llevar a cabo la prueba se agrega toda la muestra de manera que
ahora sea de tamaño nT + nC . Comenzamos por tomar nT individuos al azar
de la muestra agregada quedando los otros nC en el grupo de control, y

calculamos la diferencia de medias, llamémosla ∆y i = yT − yC . Al repetir esto
muchas veces (entre o 1000 o 10000 repeticiones es usual) podemos formar
el histograma de ∆y i bajo la hipótesis nula, donde
i = 1,2,3,K, # de permutaciones . Ahora bien, bajo la hipótesis nula esperamos
que ∆y m esté cerca de cero (hacia el centro del histograma de ∆y i ). Pero si
∆y m se encuentra muy lejos, en una de las colas del histograma de ∆y i ,
entonces existe evidencia para rechazar la hipótesis nula. De manera que el
valor de significancia (p-value) de la prueba es
# de ∆yi > ∆ym

# de permutaciones
que corresponde a la probabilidad de observar un valor de ∆yi igual o

superior a ∆ym , lo cual es simplemente la definición de p-value. Si esta
probabilidad es menor que los valores usuales, 0.01, 0.05, 0.1, o cualquier
otro nivel de significancia razonable propuesto por el investigador, se
rechaza la hipótesis nula.
Como otro ejemplo, veamos la ecuación de regresión
y = β 0 + β1 x1 + β 2 x2 + ε
donde nuestro interés radica en estudiar si, digamos, x1 afecta y . La muestra

con la cual se estiman los coeficientes es de tamaño n . La hipótesis nula
para la prueba de permutación es que x1 no afecta y ; esto es, que β1 = 0 .
Bajo esta hipótesis nula no importa cuál valor de x1 corresponda a cada valor
de y porque que x1 no la debe afectar. En consecuencia, se realiza un gran
número de permutaciones de x1 , donde en cada permutación se reasignan los
valores de x1 de manera aleatoria a las observaciones de y . Para cada
permutación se estima la regresión y en particular β̂1 y su estadístico t (el
cual no necesariamente tiene una distribución t Student). Con el total de
permutaciones se puede construir el histograma de β̂1 o del estadístico t y,
sobre este, encontrar su valor de significancia.
Puede mostrarse que la varianza del p-value es la misma de una
proporción binomial
( pvalue)(1 − pvalue) pvalue

≈
# de permutaciones # de permutaciones
la cual es aproximadamente válida para pvalue pequeños. La fórmula

anterior sirve como guía para encontrar el número necesario de
permutaciones para alcanzar una precisión deseada.
Capítulo 16
MODELOS DE VARIABLE DEPENDIENTE

LIMITADA
Por la forma como se construye el modelo clásico lineal, y = Xβ + ε , la

variable y puede tomar valores continuos, positivos y negativos. Sin
embargo, en algunos casos, las observaciones de la variable dependiente y
se encuentran limitadas en su rango o continuidad. Por ejemplo, la variable
dependiente puede estar limitada a dos valores, cero o uno, como sucede en
los modelos de probabilidad lineal o en los logit y probit, o puede estar
restringida a valores enteros positivos como sucede en los modelos de
conteo.
Modelo de Probabilidad Lineal
Supongamos que la variable dependiente y i solo toma dos valores, 1 o 0.

Toma el valor 1 si la observación i ésima pertenece a un grupo o categoría
de interés y toma el valor 0 si no. Por ejemplo, si el individuo i ésimo vota
por un candidato particular o no, o si decide ir a la universidad o no, o si
decide comprar un producto de cierta marca o no, etc. La idea es modelar
estas decisiones.
Supongamos que la decisión del individuo i ésimo, digamos de ir o no a
la universidad, depende linealmente de una variable explicativa xi (puede
ser un vector de variables explicativas pero una basta para ilustrar) más un
error. Así, para i = 1,2, K, n , modelamos y i como
yi = α + β xi + ε i (16.1)
cuyo valor esperado condicional a xi es E ( yi xi ) = α + β xi .

Sea Pi = P( yi = 1 xi ) la probabilidad de que yi tome el valor de 1
condicional a xi de manera que 1 − Pi será la probabilidad condicional de que
y i tome el valor de 0. Con estas probabilidades, y recordando la definición
de valor esperado, encontramos
E ( yi xi ) = α + β xi = (1) Pi + (0)(1 − Pi ) = Pi (16.2)
de lo cual se concluye que el valor esperado del modelo es igual a la

probabilidad de que y i valga 1. Por esta razón, cuando la variable
dependiente es 1 o 0, el modelo (16.1) se conoce como modelo de
probabilidad lineal (LPM en inglés). Su estimación arroja directamente la
probabilidad de que y i valga 1 en función de las variables explicativas
propuestas. En otras palabras Pî = αˆ + βˆ xi .
En la Figura 16.1 se muestran varias observaciones donde yi tiende a
aumentar con xi pero yi solo toma los valores 0 o 1; por esta razón las
observaciones se ubican en dos líneas paralelas horizontales, una para yi
igual a 1 y otra para yi igual a 0. La línea que se eleva de izquierda a
derecha, Pî = αˆ + βˆ xi , es la regresión estimada por MCO.
yi
Pî = αˆ + βˆ xi
0
Figura 16.1
xi
En el modelo lineal clásico, el sistema económico toma un valor de xi y

construye α + β xi . Luego toma un valor de ε i al azar de una distribución
(0, σ ε2 ) y lo adiciona a α + β xi para obtener y i . Lo importante es que, dado
cualquier valor de xi , en el modelo clásico la variable y i es libre de tomar

infinitos valores. En contraste, en el caso del modelo de probabilidad lineal,
el sistema económico toma un valor de xi y construye α + β xi . Luego toma
un valor de ε i que adiciona a α + β xi para obtener y i . Pero aquí solo puede
tomar dos valores de ε i : 1 − (α + β xi ) = 1 − Pi y 0 − (α + β xi ) = − Pi , de manera
que el error ε i no será normal ni homoscedástico (porque su varianza no es
constante sino que depende de xi , como se muestra más adelante).
En cualquier caso, el valor esperado de ε i en el modelo de probabilidad
lineal es cero, esto es,
E (ε i xi ) = [1 − (α + β xi )]Pi + [0 − (α + β xi )](1 − Pi )
(16.3)
= (1 − Pi ) Pi + (− Pi )(1 − Pi ) = 0
Para calcular la varianza condicional de ε i , escribimos
2
Var (ε i x i ) = E (ε i − Eε i xi )) = E (ε i2 xi ) = (1 − Pi ) 2 Pi + (− Pi ) 2 (1 − Pi )
(16.4)
2
= (1 − Pi ) Pi [(1 − Pi ) + Pi ] = (1 − Pi ) Pi = Pi − Pi
igual que la de una Bernoulli, como lanzar una moneda. Puede verse que la
varianza del error depende de xi ya que Pi = α + β xi . La heteroscedasticidad
genera estimadores ineficientes y pruebas de hipótesis poco confiables. La
varianza del error ε i será más alta para valores de xi que hagan que Pi esté
cerca de 0.5 y más baja para valores de xi que hagan que Pi esté cerca de los
extremos, esto es, de 0 o 1.
Sin embargo, nótese que nada en la estimación restringiría a P̂i para que
esté en el intervalo [0,1] como debería ser una probabilidad. Si, por ejemplo,
Pî = 2 la varianza estimada daría -2 (negativa).
Ejemplo
Supongamos un caso de interés político donde se trata de modelar la

decisión de votar por el candidato que denominamos C. Se entrevista una
muestra aleatoria de adultos y se clasifican en dos grupos: con yi = 1 los que
dicen que van a votar por el candidato C y con yi = 0 los que dicen que no.
Además, para cada adulto entrevistado, se obtienen otras variables (algunas

de las cuales podrían evaluarse visualmente) donde, por ejemplo, x1 es edad,
x2 género, x3 estrato socioeconómico, x 4 años de educación, x5 estado civil,
x6 número de hijos, x7 perfil político, etc. Nótese que algunas de las
variables explicativas pueden ser dummies, tal como lo es la variable
dependiente yi . El modelo se escribe
Pi = E( yi x) = β0 + β1x1i + β2 x2i + β3 x3i + β4 x4i + β5 x5i + β6 x6i + β7 x7i
Una vez corrida la regresión se puede utilizar la probabilidad estimada P̂i

para pronosticar si un individuo por fuera de la muestra votará por el
candidato C; esto es, si ese individuo tiene Pî > 0.5 .
En resumen, en el modelo de probabilidad lineal, la probabilidad Pi

puede salirse del intervalo [0,1], lo cual es obvio porque la probabilidad se
postula como una función lineal de las variables x que, en principio, toman
cualquier valor. Por otro lado, las pruebas usuales de significancia para los
coeficientes individuales o la regresión completa no aplican por la
heteroscedasticidad y la no normalidad del error. Podría pensarse en estimar
errores robustos, tipo White, y confiar en la normalidad asintótica.
Una solución para evitar que la probabilidad tome valores por fuera del
intervalo [0,1] es buscar una forma no lineal para ajustarla a los datos. Una
práctica común es cortar la línea de regresión por fuera de ese intervalo y
remplazarla por líneas horizontales; simplemente, las probabilidades
mayores que 1 se igualan a 1 y las menores que cero se igualan a cero. Pero
esto genera quiebres abruptos en la función de probabilidad que pueden ser
difíciles de manejar matemáticamente.
Una solución menos abrupta sería encontrar una forma no lineal suave,
confinada al intervalo [0,1], para que represente Pi en función de x .
Cualquier función acumulativa de probabilidad cumple con esta descripción
[ver Figura 16.2 abajo]. En otras palabras, Pi sería igual a la ecuación
matemática de la función de distribución acumulativa escogida.
Dependiendo de cuál se escoja tendremos, entre otros, los modelos logit y
probit, que son los más comunes.
Modelos Logit y Probit

De nuevo, como en el caso del modelo de probabilidad lineal,

consideramos
1 con probabilidad Pi = P( y i = 1 x)
yi = 
0 con probabilidad 1 − Pi
La diferencia ahora está en la definición de Pi . Mientras que en el modelo

lineal la probabilidad se postulaba como una función lineal,
Pi = xi′β = β 0 + β1 x1 + β 2 x2 + L + β k xk , para el modelo logit definimos la
probabilidad como la acumulativa de la función logística, cual es
e xi′ β 1
Pi = x i′ β
= (16.5)
1+ e 1 + e − xi′ β
Observando la expresión del logit, es intuitivo que para xi′β → −∞ la

probabilidad Pi → 0 y para xi′β → ∞ la probabilidad Pi → 1 , que es
exactamente lo que queremos.
Para el modelo probit definimos la probabilidad como la acumulativa de
la normal estándar,
t2
x i′ β 1 −2
Pi = ∫ e dt (16.6)
−∞ 2π
de la cual también es obvio que la probabilidad queda confinada al intervalo

[0,1].
Nótese que, tanto en el modelo logit como en el probit, Pi = 0.5 cuando
xi′β = 0 , como se ve en la Figura 16.2.
Pi = 0.5
Figura 16.2
0
x′β = 0 x′β
El método de estimación preferido para el logit y probit es máxima

verosimilitud. Aunque el logit es más fácil de estimar (no requiere el cálculo
de integrales), y por eso fue preferido por mucho tiempo, la capacidad
computacional actual facilita la estimación del probit. De hecho, en la
práctica, usualmente se estiman y presentan los tres modelos: probabilidad
lineal, logit y probit. En la mayoría de los casos tienden a dar resultados que
apuntan en la misma dirección. La densidad logística tiene colas más gordas
que la normal estándar lo cual puede ser ventajoso en estudios que
involucran datos financieros. Esto implica que, comparada con la normal, la
acumulativa del logit tiende a elevarse antes que la normal, tiene menos
gradiente (menor derivada) alrededor de Pi = 0.5 , y luego se acerca más
lentamente al límite superior (uno) que la normal.
Suponiendo independencia entre los elementos de la muestra y siguiendo
la costumbre de usar el mismo símbolo f para la densidad de cada
observación, la verosimilitud de la muestra se escribe
L = f ( y1 , y2 ,K, yn ) = f ( y1 ) f ( y2 )L f ( yn )
[ ][ ] [
= P1 y1 (1 − P1 )1− y1 P2y 2 (1 − P2 )1− y 2 L Pny n (1 − Pn )1− y n ] (16.7)
∏P i
yi
(1 − Pi )1− y i
i =1
y la verosimilitud logarítmica
n
l = ln L = ∑ [ yi ln Pi + (1 − yi ) ln (1 − Pi )] (16.8)
i =1
Ejemplo
e xi′ β
Ilustramos la expresión anterior utilizando un logit Pi = , obteniendo,
1 + e xi′ β
respectivamente, la verosimilitud L y la verosimilitud logarítmica l = ln L ,
yi 1− y i
n
 e xi′ β   e xi β 
′
L = ∏ x i′ β  
1 − x i′ β 
i =1 1 + e   1+ e 
n 
 e xi′ β   ′
e xi β 
l = ln L = ∑  yi ln x i′ β
 + (1 − yi ) ln1 − x i′ β

i =1  1+ e   1+ e 
Tratándose de distribuciones acumulativas como el logit y el probit, Pi

está definido entre 0 y 1 de manera que la verosimilitud logarítmica l = ln L
máximo alcanzará un valor de 0. En la verosimilitud del probit se asume que
la varianza es 1 (ya que se trata de la acumulativa de una normal estándar).
En otras palabras la homoscedasticidad está incorporada en la función de
verosimilitud iid . Si existe heteroscedasticidad y la verosimilitud la ignora,
entonces estará mal especificada y los coeficientes estimados serán
inconsistentes; en este caso no es remedio utilizar estimadores de errores
robustos. De hecho, la omisión de variables relevantes, aun si son
ortogonales a las demás, puede introducir heteroscedasticidad en el error
(que las incluye). Se han diseñado correcciones, algo engorrosas, para el
manejo de datos heteroscedásticos en los logits y probits.
La estimación también podría hacerse por mínimos cuadrados no lineales,
por ejemplo, con el logit, la función objetivo sería
2
n  x i′ βˆ 
e
min ∑  yi − 
βˆ 
i =1  1 + e xi′ β
ˆ 

Sin embargo, la estimación por máxima verosimilitud garantiza eficiencia

(la varianza alcanza el límite inferior Cramer Rao) razón por la cual la
estimación por mínimos cuadrados no lineales es menos utilizada.
Los coeficientes de los modelos logit y probit no tienen la interpretación

directa del modelo clásico lineal, donde representan el efecto ceteris paribus
de una variable explicativa sobre el valor esperado de la dependiente o sobre
Pi . Para encontrar el efecto de las variables explicativas sobre la
probabilidad, generalizamos escribiendo
Pi = P( yi = 1 xi ) = F ( xi′β )
donde F ( xi′β ) es cualquier función acumulativa. Usando la regla de la

cadena para derivar con respecto a xi ,
∂Pi ∂F ( xi′β ) ∂ ( xi′β ) ∂ ( xi′β )

= = f ( xi′β ) = f ( xi′β ) β (16.9)
∂xi ∂ ( xi′β ) ∂xi ∂xi
donde el escalar f ( xi′β ) es la función de densidad de probabilidad, la cual

siempre es positiva, de manera que, si bien β no es el efecto de xi sobre la
probabilidad, dicho efecto sí tiene el mismo signo que β .
e xi′ β
Por ejemplo, para el logit, Pi = F ( xi′β ) = , la densidad se conoce con
1 + e xi′ β
el nombre de logística y se puede mostrar que tiene la expresión
∂F ( xi′β ) e xi′ β
f ( xi′β ) = = . También es igual a f ( xi′β ) = Pi (1 − Pi ) , es
∂ ( xi′β ) (1 + e xi′ β ) 2
simétrica y con máximo en xi′β = 0 . En consecuencia, el efecto ceteris
paribus de xij sobre Pi se calcula como
′
∂Pi ∂F ( xi′β ) ∂ ( xi′β ) ∂ ( xi′β ) e xi β
= = f ( xi′β ) = βj
(1 + e xi β ) 2
′
∂xij ∂ ( xi′β ) ∂xij ∂xij
Como se anotó antes, puede verse que, siendo la densidad una cantidad no
negativa, el efecto de xij sobre Pi tiene siempre el mismo signo de β j . El
hecho de que la densidad dependa de los valores de todas las variables en xi
∂Pi
implica que para calcular el valor de es necesario escoger valores para
∂xij
las variables o presentar algún promedio. Con frecuencia se utiliza la
densidad evaluada en el promedio de las variables para toda la muestra, x ,
de manera que el efecto de xij sobre Pi queda
∂Pi
= f ( x ′β ) β j
∂xij
también es frecuente utilizar la densidad promediada sobre todos los

individuos de la muestra de manera que el efecto de xij sobre Pi queda
∂Pi ∑ f ( x′β )
i =1
i
= βj
∂xij n
Ejemplo
ˆ e6 − 3 xi
Considere el logit estimado Pi = y la pregunta ¿para cuáles valores
1 + e 6 − 3 xi
de xi quedarían clasificadas las observaciones como yi = 0 ?
Las observaciones quedan clasificadas como yi = 0 si su probabilidad es
menor que 0.5. Este umbral se alcanza para 6 − 3xi = 0 de donde vemos que
para xi > 2 la probabilidad es menor que 0.5. La respuesta es que cualquier
observación con xi > 2 quedará clasificada como yi = 0 . Nótese que este caso
la función acumulativa Pi comienza en 1 para xi → −∞ y termina en 0 para
xi → ∞ .
No existe consenso acerca de cómo evaluar si los logits y probits se

ajustan bien a los datos. Dada la estimación por máxima verosimilitud, quizá
la mejor forma es apelar a la prueba de razón de verosimilitud vista en el
capítulo 3, en la cual la hipótesis nula es que el modelo no sirve, y cuya
expresión recordamos,
LR = −2(l R − l NR )
donde l R y l NR son las verosimilitudes logarítmicas restringida y no

restringida respectivamente.
También se puede usar el pseudo R 2 ( R 2 de McFadden)
l NR
pseudo R 2 = 1 − (16.10)
lR
que arroja valores cercanos a 0 para una mal ajuste y cercanos a 1 para un
buen ajuste; esto es, vale 0 cuando l NR es igual a l R , o sea cuando ningún
regresor sirve, y vale 1 cuando l NR toma su máximo valor (cero).
Otro indicador es
# de ceros predichos correctamente # de unos predichos correctamente

+ (16.11)
# total de ceros # total de unos
medición que debe ser mayor que 1 para un buen ajuste. También se
propone
# de predicciones correctas
(16.12)
n
y otras pruebas como Hosmer-Lemeshow y Andrews.

Existen extensiones de los modelos anteriores, que no veremos aquí, para
cuando la variable dependiente y puede tomar, no dos, sino más opciones o
estados, por ejemplo, modo de transporte (automóvil, bus, tren o avión) o
género (hombre, mujer, neutro). Se conocen como multinomiales y su
objetivo es estimar la probabilidad de que la variable y se encuentre en
alguno de los estados posibles. También hay versiones de estos modelos
para cuando las opciones tengan algún orden natural, conocidos como
ordenados, por ejemplo, ingresos (cero a 100, 100 a 200, 200 a 300, 300 a
400) o la calificación de algún servicio (bueno, regular, malo).
Modelos de Conteo
En los modelos de conteo (count data models) la variable dependiente yi

representa el número de eventos que se observan por período de tiempo, por
medida de espacio, o por alguna otra unidad. En consecuencia, yi es no
negativa, discreta y usualmente limitada a unos pocos dígitos; su
distribución de probabilidad tiende a mostrar una cola larga a la derecha
(sesgada a la derecha). Ejemplos de datos de conteo son: el número de goles
por partido de fútbol, de asaltos bancarios por mes, de niños por hogar, de
enfermedades raras (huérfanas) reportadas por año, de cambios porcentuales
significativos en el Dow Jones por año, etc.
La estimación por MCO de regresiones con datos de conteo puede arrojar
predicciones negativas (como en el caso del modelo de probabilidad lineal),
presentar heteroscedasticidad y errores no normales porque la distribución

de la variable dependiente es sesgada a la derecha. Sin embargo, es
importante subrayar que a pesar de los problemas la estimación por MCO es
utilizada con frecuencia; es insesgada pero ineficiente. La
heteroscedasticidad se puede tratar con algún estimador de errores robustos.
Una distribución que se adapta mejor a los datos, cuando los eventos son
independientes, es la de Poisson, en especial cuando el valor esperado Eyi es
menor que 20. A medida que Eyi aumenta, la distribución de Poisson pierde
su cola más larga a la derecha, y se aproxima visualmente a la normal. La
distribución de Poisson fue popularizada a partir de 1898 tras la publicación
de un estudio que la utilizó para modelar el número anual de soldados
muertos en Prusia por patadas de equino.
La fórmula matemática de la distribución de Poisson es
λy e −λ
i
P( yi ) = (16.13)
yi !
la cual depende de un único parámetro λ > 0 . Se puede demostrar que λ es

igual tanto a la expectativa de y (número esperado de eventos por unidad de
tiempo, espacio, etc.) como a su varianza, esto es, λ = E ( yi ) = Var ( yi ) . Lo
anterior se conoce como el supuesto de la equidispersión.
Un proceso de Poisson no tiene memoria ( λ es constante, no depende del
tiempo). Por ejemplo, si hablamos del número de fallas de un equipo, estas
no pueden ser función del desgaste y deterioro normal del mismo ya que la
probabilidad cambiaría con el paso del tiempo.
En la Figura 16.3 se aprecia la distribución de Poisson (probabilidad P
en el eje vertical contra número de eventos y en el eje horizontal). La
gráfica muestra las distribuciones para lambda ( λ ) igual a 1, 5 y 10. Se
observa cómo la distribución de Poisson se aproxima a la normal a medida
que aumenta lambda.
Distribución de Poisson
P .40
Lambda 1
.35 Lambda 5
Lambda 10
.30
.25
.20
.15
.10
.05
.00
2 4 6 8 10 12 14 16 18 20 y
Figura 16.3
Nuestro interés se centra en estimar una relación entre el número de

eventos (o su valor esperado) y las variables explicativas. No podemos
postular λi = xi′β (por ejemplo para construir la verosimilitud) porque la
expresión estimada puede ser negativa y λ siempre es positiva.
Postulamos,
λi = E ( yi xi ) = e x ′ β = e β
i 0 + β 1 x1i + β 2 x 2 i +L+ β k x ki
(16.14)
expresión que siempre será mayor que cero.

Con el objeto de construir la verosimilitud logarítmica tomamos
λiy e − λ
i i
ln P( yi x) = ln (16.15)
yi !
Remplazando λi = e x ′β , obtenemos i
ln P( yi x) = yi xi′β − e xi′β − ln( yi !) (16.16)
La verosimilitud logarítmica l será

n
l( β ) = ∑ [ yi xi′β − e xi β − ln( yi !)]
′
i =1
donde el último término, ln( yi !) , puede ignorarse en la derivada dado que no

depende de β . Si es cierto que E ( yi xi ) = e x′ β , la estimación de β será
i
consistente, eficiente y asintóticamente normal. La función objetivo es

globalmente cóncava lo que facilita su optimización por algún método
numérico. Sin embargo, para muestras pequeñas sus propiedades son
desconocidas.
El impacto de un cambio en xij sobre el valor esperado de yi
(manteniendo las otras variables fijas) es
∂E ( yi xi ) ′
= e xi β β j = λi β j (16.17)
∂xij
el cual tiene el mismo signo que β j .

Existen varias extensiones del modelo de Poisson desarrolladas para
acomodar desviaciones de sus supuestos. Una de tales variaciones se origina
en el supuesto de equidispersión, mencionado arriba, que la media y la
varianza son iguales; de no cumplirse, la varianza estimada será incorrecta.
Esto no tiene mayor importancia si solo nos interesa modelar la media de la
variable yi . Cuando hay sobredispersión (la varianza mayor que la media),
la binomial negativa es una distribución alternativa que permite que la media
y la varianza se ajusten por separado en la estimación por máxima
verosimilitud.
En razón de que los modelos de conteo tratan con eventos poco
frecuentes (número de accidentes aéreos por día, número de diagnósticos de
enfermedades raras por día, etc.), es común encontrar un exceso de ceros en
la muestra. Poisson no se ajusta bien a este exceso de ceros (ni la binomial
negativa). Para ello se han propuesto modelos como los llamados hurdle y
zero inflated, que básicamente usan procesos diferentes para modelar el
origen de las observaciones con ceros y las observaciones positivas no ceros
en la muestra.
Otra variante se usa cuando se debe tener en cuenta la intensidad de
exposición (exposure). Por ejemplo, si queremos modelar el número de
anotaciones en partidos de fútbol informales, donde algunos duran más
minutos y otros menos, la exposición varía según la duración del juego. El
número de anotaciones es típicamente mayor si el partido es más largo, y
viceversa. Los datos se pueden ajustar para reflejar el número de anotaciones

por minuto jugado por partido. Inicialmente la modificación se hace sobre la
variable dependiente, sin embargo, en la estimación debe tenerse en cuenta
que dicho ajuste también afecta la varianza.
Capítulo 17
MODELOS ARCH
En los modelos de series de tiempo es frecuente encontrar

autocorrelación en la variable dependiente. Ocasionalmente, también se
encuentra autocorrelación en la varianza del error del modelo, la cual se
transmite a la varianza de la variable dependiente. No se trata de que una
observación aislada alcance mayor o menor magnitud, ya que esto es común
en cualquier proceso estocástico, sino de que los cambios en magnitud de un
grupo consecutivo de observaciones presenten persistencia, esto es,
autocorrelación en la varianza de la serie, como se ilustra en la Figura 17.1.
X 15
10
-5
-10
-15
100 200 300 400 500 600 700 800 900 1000
tiempo
Figura 17.1
Muchas variables macroeconómicas, especialmente en el área financiera,

exhiben este tipo de comportamiento; la volatilidad de la inflación, la
estructura intertemporal de las tasas de interés, la valoración de activos y
acciones con respecto a su riesgo y, en general, precios especulativos de alta
frecuencia (datos diarios, o por hora o minuto, etc.).
La técnica ARCH, que quiere decir heteroscedasticidad condicional
autorregresiva, permite el modelaje condicional de la varianza en lugar de la
tradicional estimación incondicional que se hace bajo el supuesto de

homoscedasticidad donde la varianza del error es una constante σ 2 .
La hipótesis de expectativas racionales postula que los agentes no ignoran
ni malgastan información útil. En muchos casos, como en las negociaciones
salariales o la inversión en acciones, las decisiones que se toman dependen
de la varianza o incertidumbre predicha para el periodo futuro relevante y no
para el futuro en general. Otra aplicación tiene que ver con la estimación del
valor en riesgo (value at risk), el cual es una medida de la pérdida posible
para un portafolio de inversión en el peor escenario. En situaciones como
estas, que involucran o necesitan la predicción de la incertidumbre futura, es
útil el modelaje condicional de la varianza.
Engle (1982) propuso modelar la varianza en función de los ε t del
pasado. En otras palabras, σ 2 no se trata como una constante en el tiempo
sino como dependiente de los errores del pasado, lo cual da origen al nombre
del modelo ARCH. Partiendo del modelo clásico de regresión
yt = γ ' xt + ε t (17.1)
donde y t es la variable dependiente, γ ' es el vector de parámetros y xt el

vector de variables explicativas, Engle propuso una modificación a los
supuestos del error en el sentido de que el error ε t , condicionado al conjunto
de información I t −1 en el tiempo t − 1 (que incluye rezagos del error), tenga
una distribución normal cuya varianza no sea constante sino un proceso
aleatorio estacionario σ t2 , esto es,
ε t I t −1 ~ N (0, σ t2 )
Sin embargo, para los errores incondicionales sigue siendo cierto que
ε t ~ (0, σ 2 ), donde el tipo de distribución no se especifica porque, como se
discutirá más adelante, la distribución no necesariamente es normal. En otras
palabras, E (ε t2 I t −1 ) = σ t2 será la varianza condicional y E (ε t2 ) = σ 2 será la
varianza incondicional. Nótese que, por la ley de expectativas iterativas,
E (σ t2 ) = E [ E (ε t2 I t −1 )] = E (ε t2 ) = σ 2 .
En la formulación del ARCH( q ), el cuadrado de los errores, ε t2 , se
postula como un autorregresivo,
ε t2 = β 0 + β1ε t2−1 + β 2ε t2− 2 + L + β qε t2− q + vt (17.2)

donde vt es ruido blanco. Tomando el valor esperado condicional (dado

ε t −1 , ε t − 2 ,K ) de la expresión anterior obtenemos la varianza condicional σ t2 ,
σ t2 = E (ε t2 ε t −1 , ε t − 2 ,K) = E (ε t2 I t −1 ) = β 0 + β1ε t2−1 + β 2ε t2− 2 + L + β qε t2− q (17.3)
Nótese que σ t2 está en función de datos del pasado ya conocidos por lo

cual puede considerarse como la predicción de ε t2 , esto es, E (ε t2 I t −1 ) . Una
condición suficiente para que la varianza condicional σ t2 sea positiva es que
los coeficientes β 0 , K, β q sean mayores que cero (estrictamente β 0 debe ser
mayor que cero y β 1 ,K , β q mayores o iguales a cero). A primera vista (17.3)
parece un modelo MA, sin embargo esto no es cierto porque, como se
discutirá más adelante, los ε t2 tienen correlación serial aunque los ε t sean
ruido blanco.
Puede verse de (17.1) que la varianza de y t dado I t −1 es proporcional a la
varianza de ε t dado I t −1 . De esta manera la técnica ARCH permite modelar
periodos de tranquilidad y volatilidad en la variable dependiente y t .
Mientras la varianza condicional en (17.3) no es constante, pues depende
del tiempo, la varianza incondicional sí es constante. Tomando valor
esperado incondicional de cada término en la expresión (17.2) y, bajo el
supuesto de estacionariedad, podemos escribir
σ 2 = β 0 + β 1σ 2 + β 2σ 2 + L + β qσ 2
ya que, incondicionalmente, todas las varianzas son iguales e independientes

del tiempo. De la expresión anterior llegamos a
β0
Var (ε t ) = σ 2 = (17.4)
1 − β1 − β 2 − L − β q
que es una constante e igual a la varianza incondicional (o predicción de

largo plazo de la varianza). Recalcamos que la expresión (17.4) no es válida
si β 1 + L + β q ≥ 1 o si (17.2) no es estacionaria.
En la ecuación (17.1) xt puede incluir variables exógenas, dummies,
rezagos de y t o términos de promedio móvil. La volatilidad también se
puede expresar en términos de valores absolutos de los errores en lugar de
los cuadrados, como en ε t = β 0 + β1 ε t −1 + L + β q ε t −q + vt , ecuación que provee

predicciones de la desviación estándar condicional.
Bollerslev (1986) generalizó el modelo ARCH de manera que la varianza
condicional siga un modelo parecido a un ARMA. Este modelo generalizado
se conoce como GARCH( p , q ), donde la varianza condicional tiene la
expresión
σ t2 = α 0 + α1σ t2−1 + α 2σ t2− 2 + L + α pσ t2− p + β1ε t2−1 + β 2ε t2− 2 + L + β qε t2− q (17.5)
Aquí la volatilidad no sólo depende de las observaciones anteriores sino

además de las volatilidades anteriores. Para un GARCH(1,1), por ejemplo, la
varianza condicional tendría la forma σ t2 = α 0 + α 1σ t2−1 + βε t2−1 . Si α 1 = β = 0 la
varianza condicional sería igual a la incondicional y ambas, a su vez, igual a
α 0 . Si la suma α 1 + β es cercana a la unidad, quiere decir que la volatilidad
es muy persistente ya que el efecto de cualquier shock tarda muchos
períodos en desaparecer. Esto se ve rescribiendo el modelo como un AR(1),
σ t2 = α 0 + (α 1 + β )σ t2−1 + β (ε t2−1 − σ t2−1 ) , donde ε t2−1 − σ t2−1 es ruido o error de
predicción (porque σ t2 es E (ε t2 I t −1 ) , la mejor predicción de ε t2 ).
La popularidad del GARCH radica en que permite modelar con menos
términos que el ARCH; esto es, con mayor parsimonia. Usando el operador
de rezago L , la ecuación (17.5) queda
σ t2 = α 0 + A(L )σ t2 + B(L )ε t2 (17.6)
donde A(L) y B(L) son polinomios en L . Despejando σ t2 de (17.6) se puede

ver que
α 0 + B(L )ε t2
σ t2 = (17.7)
1 − A(L )
Para lograr estacionariedad, las raíces de 1 − A( L) = 0 deben ser mayores que

1 en magnitud.
De nuevo, como en el ARCH, la varianza incondicional es constante ya
que, tomando expectativas en (17.5) o (17.6), tenemos
α0
Var (ε t ) = σ 2 = = constante (17.8)
1 − A(1) − B(1)
donde, por la ley de

expectativas iterativas mencionada antes,
E (σ ) = E [ E (ε I t −1 )] = E (ε ) = σ 2 . Nótese que L = 1 en los polinomios porque
t
2
t
2
t
2
las varianzas son iguales e independientes del tiempo en razón de la

estacionariedad, de manera que 1 − A(1) − B(1) es simplemente la suma
algebraica de todos los coeficientes. Se espera que A(1) + B(1) < 1 , ya que de
lo contrario la varianza incondicional daría negativa o indefinida.
Un modelo GARCH estacionario puede expresarse como un ARCH con
infinitos rezagos. Por ejemplo, el modelo σ t2 = α 0 + α 1σ t2−1 + βε t2−1 puede
escribirse como
(1 − α 1 L)σ t2 = α 0 + βε t2−1
del cual obtenemos el ARCH
α0
σ t2 = + β [ε t2−1 + α 1ε t2−2 + α 12ε t2−3 + L]
1 − α1
La expresión de σ t2 en (17.6) se puede adicionar con variables exógenas

z , por ejemplo,
σ t2 = α 0 + A(L )σ t2 + B(L )ε t2 + π zt (17.9)
e, inclusive, dummies o rezagos de la variable dependiente de la regresión

y t . Es de notar que en (17.9) no hay garantía de que σ t2 sea positiva. Se
sugiere escoger los z de manera que sean siempre positivos (por ejemplo, en
valor absoluto), lo que minimiza la posibilidad de tener σ t2 < 0 .
En adelante, nos referiremos a estos modelos de varianza condicional
indistintamente como ARCH o GARCH.
También existe la versión multivariada de los modelos GARCH,
llamados MGARCH, similares a los VAR, donde la varianza condicional de
una variable se expresa en función de sus propios rezagos, de rezagos de las
varianzas de otras variables y de rezagos de las covarianzas. Por ejemplo, un
MGARCH(1,1) para dos variables, sería
 σ 12t  α 01  α 11 α 12 α 13   σ 12t −1   β11 β12 β13   ε 12t −1 

 2        
 σ 2t  = α 02  + α 21 α 22 α 23   σ 22t −1  +  β 21 β 22 β 23   ε 22t −1 
σ 12 t  α 03  α 31 α 32 α 33  σ 12 t −1   β 31 β 32 β 33  ε 1t −1ε 2t −1 
 
donde σ 12t = σ 21t representa la covarianza condicional de los errores.

Otra extensión de estos modelos se conoce como ARCH-M, para cuando
la media condicional de una serie pueda estar relacionada con la varianza;
por ejemplo, la rentabilidad exigida de una acción y su varianza suelen estar
correlacionadas positivamente. Este enfoque ha despertado gran interés en
estudios financieros sobre la prima de riesgo, esto es, la compensación entre
retorno esperado y riesgo, como en los modelos de valoración de activos de
capital, CAPM. También se ha utilizado para estudiar la relación entre la
inflación y su varianza.
Una forma sencilla de implementar este comportamiento consiste en
modificar el modelo clásico de regresión de manera que incluya la varianza
condicional como variable explicativa,
yt = γ 0 + γ 1σ t2 + ε t (17.10)
donde en general σ t2 es un proceso GARCH como en (17.6); sin embargo,

en la práctica se prefiere la más simple especificación ARCH (17.3) porque
facilita la convergencia en la estimación de este modelo. La variable y t
podría ser, por ejemplo, el retorno adicional exigido (premium),
proporcional al nivel de incertidumbre, por invertir en un activo. Si rt es el
retorno del activo y r f es el retorno libre de riesgo, entonces podríamos
postular que yt = rt − r f = γσ t2 + ε t , donde la media condicional de y t es una
función de la varianza condicional.
La ecuación de regresión (17.10) puede contener variables adicionales,
por ejemplo
yt = γ 0 + γ 1σ t2 + γ 2 zt + ε t (17.11)
aunque esta formulación tiende a alejarse de la derivación del modelo de

prima de riesgo cuando yt = rt − r f [ver Enders (2004)]. También en (17.10)
se puede usar la desviación estándar, σ t , en lugar de la varianza σ t2 .
Identificación del Modelo ARCH
La identificación es quizás la parte más difícil de la estimación de los

modelos ARCH. Como una primera aproximación se puede correr la
regresión y t = γ ' xt + ε t , guardar εˆt , y luego utilizar εˆt2 para observar su
función de autocorrelación en busca de pistas que indiquen autocorrelación

en los errores al cuadrado. Si la ACF de εˆt2 corresponde a ruido blanco, no
habría sospecha de ARCH.
Existe una prueba del tipo multiplicador de Lagrange ( LM ) que consiste
en probar un ARCH( q ) contra la no existencia de ARCH. En esta prueba se
corre la regresión y t = γ ' xt + ε t , se guardan los residuos εˆt , y luego se corre
εˆt2 contra una constante y q rezagos de εˆt2 , así
εˆt2 = α 0 + β1εˆt2−1 + β 2εˆt2− 2 + L + β qεˆt2− q + ηt (17.12)
donde η t es el término de error de la regresión.

Si no hay efecto ARCH entonces debe esperarse que solamente el
coeficiente α 0 sea significativo y positivo. Bajo la hipótesis nula de que no
hay ARCH hasta de orden q , se encuentra que el número de observaciones
n multiplicado por el R 2 de esta regresión (que tiende a cero bajo la
hipótesis nula) tiene una distribución asintótica chi-cuadrado con q grados
de libertad, χ q2 . Si nR 2 es mayor que el valor crítico escogido entonces se
puede concluir que sí hay efecto ARCH, al menos hasta de orden q ; y si la
prueba es positiva entonces es muy posible que la especificación GARCH,
siendo más general, sirva para lograr parsimonia. También, de manera
aproximada, se puede utilizar la prueba F de la regresión (17.12); aquí el
estadístico F estimado no tiene la distribución usual porque el error η t solo
puede ser aproximadamente normal en razón de que está limitado para
garantizar εˆt2 > 0 .
Como siempre, las pruebas son válidas si la expresión y t = γ ' xt + ε t está
bien especificada, ya que una mala especificación puede inducir
autocorrelación en los errores al cuadrado. En otras palabras, el hecho de
que las pruebas rechacen la hipótesis de ausencia de ARCH, no
necesariamente implica la existencia de ARCH en el modelo.
Para no excederse innecesariamente en el uso del modelaje ARCH, es
importante notar que este efecto con frecuencia desaparece cuando se
incluyen rezagos de la variable dependiente como variables explicativas en
la regresión. En este caso la respecificación del modelo estaría indicada.
Para un ARCH-M, los εˆt se obtienen de correr y t contra la constante γ 0 ,
la cual (como se sabe de MCO) resultará siendo yt , de donde εˆt = yt − yt .
Luego se corre εˆt2 contra una constante y su pasado y se aplica la prueba
LM . Si hay evidencia de heteroscedasticidad condicional autorregresiva
entonces el modelo y t = γ 0 + ε t podría estar mal especificado y se sugiere

probar con yt = γ 0 + γ 1σ t2 + ε t .
Estimación del Modelo ARCH
El modelo a estimar está formado por la ecuación de regresión

y t = γ ' xt + ε t y la ecuación de varianza σ t2 = α 0 + A(L )σ t2 + B(L )ε t2 .
Los errores ε t cumplen con las condiciones de la regresión clásica en el
sentido de tener media cero, varianza incondicional constante y carecer de
correlación serial entre ellos. En consecuencia, los coeficientes de la
regresión pueden estimarse por MCO ya que esta técnica continúa
produciendo el mejor estimador lineal insesgado (BLUE). Los parámetros de
la ecuación de varianza (17.3) de la especificación ARCH pueden estimarse
con los residuos de la regresión, usando εˆt2 como proxy de σ t2 . Sin embargo,
la estimación no lineal por máxima verosimilitud es más eficiente que MCO
[ver Greene (2012)] y es la utilizada de preferencia.
Formar la verosimilitud con los errores incondicionales sería inútil
porque estos tiene varianza constante, cuando precisamente estamos tratando
de estimar los parámetros de σ t2 .
Con respecto a los errores condicionales podemos decir que, así no haya
correlación serial entre ellos (lo cual es una propiedad lineal), no son
independientes entre sí porque están conectados a través de sus cuadrados
(una relación no lineal). Por ejemplo, un ε t grande en valor absoluto sugiere
una distribución de probabilidad con varianza grande en t + 1 ; un ε t2 grande
tiende a ser seguido por un ε t2+1 grande. En otras palabras, saber ε t modifica
la asignación de probabilidades para ε t +1 . Curiosamente, la ausencia de
correlación serial entre los errores condicionales implica que si su
verosimilitud es normal, esta se podrá expresar como el producto de las
densidades normales individuales, lo cual implica independencia, al menos
desde el punto de vista de la definición matemática de independencia. En
consecuencia, la verosimilitud normal conjunta para los errores
condicionales, utilizando la matriz de varianza covarianza,
σ 12 0 L 0 
 
 0 σ 22 M 
Σ= ,
 M O 0
 2
 0 L 0 σ n 
será de la forma
1  1 
f (ε1 ,K, ε n ) = n/2
(
exp − ε ′ Σ −1ε )
(2π ) (det Σ)1/ 2
 2 
1  1  ε 12 ε 22 ε n2 
= exp −  + + L + 
(2π )n / 2 (σ 12σ 22 Lσ n2 )1 / 2  2  σ 12 σ 22 σ n2 
= f1 (ε1 ) f 2 (ε 2 )L f n (ε n ) (17.13)
Para hacer el cambio de variables a y1 ,K, y n , debemos multiplicar la

densidad anterior por el valor absoluto del determinante del Jacobiano y,
además, remplazar en la densidad las expresiones ε t por su equivalente
yt − γ ′ xt . El Jacobiano del problema anterior es una matriz diagonal (o
triangular si hay rezagos de y t ) de orden n × n conteniendo las derivadas de
ε t con respecto a y t , esto es, con unos en su diagonal. El determinante del
Jacobiano, siendo el producto de los términos de su diagonal, será unitario.
Así, la verosimilitud conjunta de las observaciones queda
1  1 n  y − γ ′ x 2 
f ( y1 ,K, yn ) = n/2
exp− ∑  t t
  (17.14)
(2π ) (σ 1 σ 2 Kσ n )
2 2 2 1/ 2
 2 t =1  σ t  
con la correspondiente verosimilitud logarítmica

2
n 1 n 1 n  y − γ ′ xt 
l = − ln 2π − ∑ ln σ t2 − ∑  t  (17.15)
2 2 t =1 2 t =1  σ t 
También hubiéramos podido trabajar con los errores estandarizados ε t σ t

que tienen media cero y varianza condicional constante y unitaria; esto los
hace idénticamente distribuidos, de manera que conocer ε t σ t no modifica
la asignación de probabilidades para ε t +1 σ t +1 ; en otras palabras, los errores
estandarizados, además de no estar correlacionados, son independientes. En
consecuencia, bajo este supuesto de que los errores estandarizados se
distribuyen iid normales con media cero y varianza uno, construimos la
verosimilitud
ε ε  1  1  ε 12 ε 22 ε n2 
f  1 ,K, n  = exp  −  +
σ 2 σ 2 + L + 
2 
 σ1 σ n  (2π )n / 2  2  1 2 σ n 
en la cual al hacer el cambio de variables reemplazando las expresiones

ε t σ t por su equivalente ( y t − γ ′ xt ) σ t , y multiplicando la verosimilitud por
el valor absoluto del determinante del Jacobiano, que en este caso es
σ 1−1σ 2−1 Kσ n−1 = (σ 12σ 22 Kσ n2 ) −1 / 2 , obtenemos la misma expresión (17.14).
En caso de sospechar falta de normalidad en la distribución de los
errores, se puede utilizar un método estadísticamente consistente para
estimar los parámetros; este método, llamado cuasi o pseudo máxima
verosimilitud, consiste en maximizar la verosimilitud con la distribución
normal como si fuera la correcta y luego hacer un ajuste en las varianzas
estimadas. En cualquier caso, el método de máxima verosimilitud se puede
aplicar con otras distribuciones, como la t Student, muy popular en finanzas.
En la optimización de (17.15), σ t2 se remplaza por su expresión (17.5).
Faltarán algunas observaciones en razón de los rezagos por lo cual la
estimación de máxima verosimilitud de todas maneras es aproximada. Por
2
 
 y − γ ′ xt 
ejemplo, los términos  t  en (17.15) serán entonces de la forma
 σt 
 
( yt − γ ′ xt ) 2
(17.16)
α 0 + α1σ t2−1 + α 2σ t2− 2 + L + α pσ t2− p + β1ε t2−1 + β 2ε t2− 2 + L + β qε t2− q
El término σ t2 (que también aparece en el segundo término de (17.15)) se

puede construir de manera similar a como se hizo en el procedimiento
iterativo en la estimación del ARMA. Para ilustrar, tomamos un
GARCH(1,1) cuya expresión es σ t2 = α 0 + α 1σ t2−1 + βε t2−1 , y vemos que la
varianza condicional se construye de la siguiente manera,
σ 22 = α 0 + βε 12 = α 0 + β ( y1 − γ ' x1 )2
( )
σ 32 = α 0 + α 1σ 22 + βε 22 = α 0 + α 1 α 0 + β ( y1 − γ ' x1 )2 + β ( y 2 − γ ' x 2 )2
M
Se pueden remplazar los primeros valores desconocidos de σ t2 y de ε t2 en las

expresiones anteriores, por σˆ 2 = n −1 ∑ ( y t − γˆ ' xt ) 2 . Otra opción para estimar
estos valores desconocidos es intentar alguna técnica de backcasting, similar

a la utilizada para la estimación de los modelos ARMA.
La maximización de la verosimilitud logarítmica puede hacerse por algún
método iterativo apropiado, por ejemplo el de Scoring, que se encuentra
incluido en la mayoría de los programas de computador. Por lo complejo de
la expresión, la optimización de los ARCH no siempre converge fácilmente.
Los valores iniciales requeridos por la optimización numérica para γ se
pueden obtener del estimador γˆ que resulta de aplicar MCO a la ecuación de
regresión. Adicionalmente, la varianza estimada de los errores de esta
regresión se puede usar como valor inicial para α 0 en la ecuación de la
varianza condicional, mientras que los parámetros de los demás rezagos en
A(L) y B(L) pueden inicialmente fijarse en cero. Una alternativa para los
parámetros de B(L) es tomarlos de la regresión de εˆt2 contra una constante y
q rezagos de εˆt2 . Para el modelo ARCH-M cambiamos ε t = yt − γ ' xt por
ε t = yt − γ 0 − γ 1σ t2 .
Muchos programas de computador incluyen la opción de realizar pruebas
de diagnóstico con los errores estandarizados ε t σ t . Por ejemplo, es de
esperar que si el modelo está bien especificado, la ACF de estos errores
estandarizados elevados al cuadrado denote ruido blanco y que, de manera
similar, el estadístico de la prueba LM sea insignificante por la ausencia de
autocorrelación entre estos errores estandarizados al cuadrado.
Ejemplo
El Cuadro 17.1 presenta un ejercicio donde se estima un modelo

GARCH(1,1). La regresión de la variable y es un AR(2),
yt = 1.052 + 0.465 yt −1 + 0.333 yt − 2 , y la estimación de la ecuación de la varianza
es σ t2 = 0.122 + 0.173ε t2−1 + 0.829σ t2−1 .
Dependent Variable: Y
Method: ML ARCH - Normal distribution (Marquardt / EViews legacy)
Date: 11/23/17 Time: 16:08
Sample (adjusted): 3 1000
Convergence achieved after 18 iterations
Presample variance: backcast (parameter = 0.7)
Variable Coefficient Std. Error z-Statistic Prob.
C 1.051616 0.147137 7.147201 0.0000

Y(-1) 0.464797 0.030799 15.09119 0.0000
Y(-2) 0.332806 0.030429 10.93707 0.0000
Variance Equation
C 0.122248 0.048451 2.523140 0.0116

RESID(-1)^2 0.173455 0.029486 5.882702 0.0000
GARCH(-1) 0.828788 0.025858 32.05140 0.0000

Cuadro 17.1
Predicción con un ARCH
La predicción con estos modelos tiene dos partes igualmente importantes.

La predicción de la media condicional, esto es, de la variable dependiente y t
de la regresión, y la predicción de la varianza condicional σ t2 . La predicción
de y t es relativamente directa y se basa en la ecuación de regresión estimada
y en el conjunto de información disponible [como se hizo al predecir el
ARMA, por ejemplo].
La predicción de σ t2 se basa en la expresión condicional de la varianza
σ t2 = α 0 + α 1σ t2−1 + α 2σ t2−2 + L + α pσ t2− p + β1ε t2−1 + β 2ε t2− 2 + L + β q ε t2−q .
Llamando σˆ n2+T la predicción hecha en n para n + T , tenemos

σˆ n2+1 = α 0 + α1σ n2 + α 2σ n2−1 + L + α pσ n2+1− p + β1ε n2 + β 2ε n2−1 + L + β qε n2+1− q

σˆ n2+ 2 = α 0 + α1σˆ n2+1 + α 2σ n2 + L + α pσ n2+ 2 − p + β1σˆ n2+1 + β 2ε n2 + L + β qε n2+ 2 − q
(17.17)
σˆ n2+ 3 = α 0 + α1σˆ n2+ 2 + α 2σˆ n2+1 + L + α pσ n2+ 3− p + β1σˆ n2+ 2 + β 2σˆ n2+1 + L + β qε n2+ 3− q
M
Llegará un momento, para T grande, cuando el modelo ya no provea

información y entonces la mejor predicción de σˆ n2+T será su valor esperado
incondicional σ 2 . La convergencia hacia σ 2 al aumentar T no
necesariamente se presenta de manera monotónica.
Las expresiones (7.17) pueden utilizarse para determinar la varianza de
predicción de y t condicional al conjunto de información disponible,
( yˆ n+T y n , y n −1 , y n −2 ,K) . Por ejemplo, en el modelo
yt = γ 0 + γ 1 yt −1 + ε t + γ 2ε t −1
la varianza de la predicción yˆ n +1 = γ 0 + γ 1 y n + γ 2 ε n será σˆ n2+1 , dado que aquí se

hace cero (perdemos) el término ε n +1 , lo cual introduce error en la
predicción.
En general, para cualquier horizonte n + T sabemos, de los modelos
ARMA, que el error de la predicción óptima será de la forma
ε n +T + β1 ε n +T −1 + β 2 ε n +T −2 + L + β T −1ε n +1
de manera que la varianza de predicción se puede escribir como
σ n2+T + β12σ n2+T −1 + β 22σ n2+T −2 + L + β T2−1σ n2+1
donde los términos σ n2+T , σ n2+T −1 ,K , σ n2+1 pueden obtenerse de un modelo

ARCH.
Ejemplo
Ilustramos el comportamiento de la predicción cuando T → ∞ , utilizando un

GARCH(1,1), σ t2 = α 0 + α 1σ t2−1 + βε t2−1 , cuya varianza incondicional es
σ 2 = α 0 /(1 − α 1 − β ) . Tendremos las predicciones,
σˆ n2+1 = α 0 + α 1σ n2 + βε n2
σˆ n2+ 2 = α 0 + α 1σˆ n2+1 + βσˆ n2+1 = α 0 + (α 1 + β )α 0 + (α 1 + β )[α 1σ n2 + βε n2 ]
σˆ n2+3 = α 0 + (α 1 + β )σˆ n2+ 2 = α 0 + (α 1 + β )α 0 + (α 1 + β ) 2 α 0 + (α 1 + β ) 2 [α 1σ n2 + βε n2 ]
σˆ n2+T = α 0 [1 + (α 1 + β ) + L + (α 1 + β ) T −1 ] + (α 1 + β ) T −1 [α 1σ n2 + βε n2 ]
expresión que, para α 1 + β < 1 y T grande, tiende al valor esperado

incondicional de σ t2 ,
α0
= +0 =σ2
(1 − α 1 − β )
Otras Aplicaciones
En la literatura se encuentran muchas variaciones del modelo ARCH

diseñadas con el objeto de adaptarlo a las peculiaridades de los fenómenos
económicos y financieros. Hay ARCH asimétricos, llamados AARCH,
TARCH o EGARCH, donde la varianza condicional depende no sólo de la
magnitud de los shocks del pasado (como en GARCH) sino también de su
signo; por ejemplo, donde los movimientos hacia la baja en el mercado son
seguidos por mayor volatilidad que en el caso de los movimientos al alza,
como en los modelos de apalancamiento financiero. En el TARCH se utiliza
la ecuación
σ t2 = α 0 + α1σ t2−1 + βε t2−1 + ϕ ε t2−1dt −1 (17.18)
donde d t = 1 si ε t < 0 y d t = 0 en caso contrario; por ejemplo, ε t < 0 podría

representar malas noticias. Obviamente, si ϕ resulta ser cero entonces no
hay asimetría. Cuando se forman los términos ε t = yt − γ ' xt en la
verosimilitud, y al escoger γ en cada iteración, se sabe si el error es mayor o
menor que cero, con lo cual se determina d t . También pueden adicionarse
variables exógenas o más rezagos del término asimétrico en el modelo.
Un problema con el TARCH es que la varianza podría ser negativa si
ϕ < 0 . El EGARCH resuelve este problema utilizando logaritmos o
exponenciales, según la expresión
ε t −1 ε
ln σ t2 = α 0 + α1 ln σ t2−1 + β + ϕ t −1 (17.19)
σ t −1 σ t −1
donde ϕ ≠ 0 implica asimetría. Igualmente, se pueden adicionar variables

exógenas o más rezagos del término asimétrico en este modelo.
Es más difícil predecir σ t2 en un EGARCH ya que eventualmente los
términos εˆt +T en el numerador de los cocientes de la expresión (17.19)
quedarían remplazados, a su vez, por su mejor predicción que es σˆ t +T , igual
al denominador de los cocientes. Para la predicción en un TARCH, en
muchas ocasiones, se puede suponer E (d t ) = 0.5 [ver Enders (2004, p.142)].
Otros modelos, como los SWARCH, o ARCH de Suicheo, suponen que
existen diversos regímenes ARCH y que el sistema alterna entre ellos. En el
modelo GARCH de Componentes se permite que, en cierta forma, la
constante varíe con el tiempo en la ecuación de la varianza condicional. El
IGARCH o GARCH integrado (algo similar a la I en el ARIMA) es
básicamente un GARCH con raíces unitarias. También hay extensiones al
ARCH multivariado, incluyendo un concepto parecido al de cointegración
aplicado a las diversas varianzas, llamado copersistencia.
Valor a Riesgo
Un ejercicio común en la práctica financiera es el de proyectar la

rentabilidad de un activo o portafolio para un período futuro determinado.
Para esto se necesita conocer la distribución de probabilidad condicional de
la rentabilidad en ese período. Con esta información es posible encontrar la
probabilidad de que la rentabilidad sea mayor o menor que cierto nivel, o
proyectar la pérdida máxima del portafolio para un nivel de confianza dado.
Este es el tema del enfoque conocido como Valor a Riesgo (o Valor en
Riesgo, dependiendo de la traducción). La abreviatura popularizada es VaR,
del inglés Value at Risk, la cual no debe confundirse con la del vector
autorregresivo, VAR.
El valor a riesgo se construye con el valor crítico de la cola izquierda de
la distribución de retornos, para un nivel de confianza dado. Con frecuencia
el VaR se expresa en moneda; simplemente multiplicando el valor crítico, o
el peor retorno, por el valor del portafolio. Por ejemplo, un VaR de $5
millones con un nivel de confianza del 99% (o de significancia del 1%),
quiere decir que la probabilidad de perder más de $5 millones en el próximo
período es de 1% (de donde se deduce que el valor del portafolio es de $500

millones).
Una primera aproximación para este cálculo puede hacerse con una
distribución normal, extrapolando la media y la desviación estándar a partir
de los promedios históricos de los retornos. También se puede descartar el
supuesto de normalidad y utilizar en su lugar el histograma estimado de la
información histórica de los retornos con los valores críticos observados.
Otra alternativa de cálculo del VaR consiste en proyectar la media y la
varianza condicional a través de un modelo ARCH.
Por ejemplo, supongamos que el retorno rt de un portafolio se modela
como
rt = γ 0 + γ 1rt −1 + ε t + γ 2ε t −1 (17.20)
y la ecuación de la varianza de ε t como
σ t2 = α 0 + α1σ t2−1 + βε t2−1 (17.21)
Adicionalmente, supongamos normalidad y un nivel de confianza del 1% (lo

cual equivale a un valor crítico de -2.33 en una normal estándar). Así, el
VaR en términos del retorno para el próximo período será
rˆt +1 − 2.33σˆ t +1 (17.22)
o, en términos de moneda, será ( rˆt +1 − 2.33σˆ t +1 ) multiplicado por el valor del

portafolio en el tiempo t . Los términos rˆt +1 y σˆ t +1 son las predicciones
hechas en el tiempo t para el tiempo t + 1 a partir de las ecuaciones (17.21) y
(17.22).
EJERCICIOS
(no requieren calculadora)
1. Si corremos por MCO el modelo yi = β 0 + β 1 xi + ε i , con las observaciones

yi = {1,2,3,4} y xi = {1,1,2,2} , el coeficiente estimado β̂ 0 será
a) 0.5 b) -0.5 c) 1 d) -1 e) 1.5 f) -1.5 g) 3 h) 0
i) 2.5 j) indeterminado k) ninguna
2. Si corremos por MCO el modelo yi = β 0 + β 1 xi + ε i con las observaciones y i = {1,2}

y xi = {2,1} , obtendremos
a) εˆ1 = 0, εˆ2 = 0 b) εˆ1 = 1, εˆ2 = 1 c) εˆ1 = 3 / 2, εˆ2 = −3 / 2 d) εˆ1 = 2, εˆ2 = 1
e) εˆ1 = 1, εˆ2 = −1 f) εˆ1 = 2, εˆ2 = −2 g) εˆ1 = −1, εˆ2 = −1 h) ninguna
3. Sea el modelo y = α + β x + ε . Si E ( y x = 3) = 0 y E ( y x = 0) = 3 entonces β es

a) -3 b) 0 c) -1 d) 3 e) 1 f) 2 g) -2 h) 3/2
i) 2/3 j) -3/2 k) ninguna
4. Suponga un modelo compuesto por las ecuaciones y = β 1 x1 + β 2 x 2 + ε = 3 x1 + x 2 + ε

y x1 = α x 2 + ε = 0.5 x 2 + ε . Al correr y contra x1 y x 2 por MCO, los valores esperados
Eβ̂ 1 y Eβ̂ 2 son, respectivamente,
a) 3 y 2 b) 3 y 1 c) 1.5 y 1 d) 2.5 y 0 e) 4 y 0.5 f) 3 y 1.5
g) 3.5 y 2.5 h) 2.5 y 3.5 i) ninguna
5. Considere el modelo yi = β 0 + β1 x1i + β 2 x2i + ε i y las estimaciones de la primera etapa

xˆ1i = αˆ 0 + αˆ1 zi y xˆ2i = γˆ0 + γˆ1 zi . Las variables x1i y x2i son endógenas y z i es una
variable instrumental. Al correr por MCO y i contra una constante y xˆ1i y xˆ2i ,
a) hay multicolinealidad perfecta b) obtenemos β̂1 y β̂ 2 insesgados
c) hay autocorrelación d) obtenemos β̂1 y β̂ 2 consistentes e) ninguna
6. Sea el modelo compuesto por las ecuaciones y i = β xi + ε i y xi = α y i + u i , donde ε i

y u i son errores independientes entre sí. El valor esperado E xiε i es
βu + σ ε2 σ u2 + ασ ε2 ασ ε2
a) 0 b) c) β u + σ ε2 d) e)
1 − αβ 1 − αβ 1 − αβ
σ u2 + α 2σ ε2 σ u2 + α 2σ ε2
f) g) h) σ u2σ ε2 i) ninguna
1 − αβ (1 − αβ ) 2
7. Antes del tratamiento el grupo de control tenía un salario de $1 y el de tratamiento $2.

Después del tratamiento el grupo de control tiene un salario de $2 y el de tratamiento $1.
Desde el punto de vista ‘antes y después’ y ‘diferencias en diferencias’, respectivamente,
el efecto del tratamiento sobre el salario es,
a) 0 y 0 b) 2 y 1 c) -2 y 1 d) -1 y 1 e) -1 y -2 f) -2 y -1
g) 1 y 1 h) -1 y -1 i) -2 y -2 j) ninguna
2
8. Sea el modelo de regresión y = β 0 + β 1 log x + β 2 (log x ) + ε . La estimación por MCO
del modelo presenta problemas de
a) multicolinealidad perfecta b) autocorrelación en los errores
c) heteroscedasticidad d) sesgo de simultaneidad
e) inclusión de variable irrelevante f) errores en variables g) ninguna
9. Si corremos yi = β Di + ε i , donde Di = 1 si es hombre y Di = 0 si es mujer, β̂ será

a) 0 b) ε i c) y i d) y i de hombres e) y i de mujeres
f) ( y i de hombres) – ( y i de mujeres) g) ninguna
10. Considere el modelo yi = β 0 + ε i . El estimador de la varianza de β̂ 0 es

n n
2
σε σε 2 ∑ εî2 ∑ εˆ i
2
a) b) 2
c) i =1
d) i =1
e) Eεˆ ′εˆ f) 0
n −1 n −1 n n(n − 1)
g) ninguna
11. Sea el modelo y = 5 + 3 x + ε . Si corremos el modelo con las variables transformadas

y ∗ = y / 2 y x ∗ = 2 x , esperamos que el coeficiente estimado por MCO de x ∗ sea
a) 3/2 b) 0 c) 1 d) 3 e) 3/4 f) 6 g) 12 h) 1/2
i) 4 j) 2 k) 18 l) ninguna
12. Si la regresión de la primera etapa es x1 = α 0 + α 1 z1 + α 2 z 2 + α 3 x 2 + u , donde z1 y

z 2 son variables instrumentales, entonces el modelo original es
a) y = β 0 + β 1 z1 + β 2 z 2 + β 3 x 2 + ε b) y = β 0 + β 1 x1 + β 2 x 2 + ε
c) y = β 0 + β 1 x1 + β 2 x̂ 2 + ε d) y = β 0 + β 1 z1 + β 2 x 2 + ε
e) y = β 0 + β 1 z1 + β 2 z 2 + ε f) y = β 0 + β 1 x1 + β 2 x 2 + β 3 z1 + β 4 z 2 + ε
g) y = β 0 + β 1 z 2 + β 2 x 2 + ε
13. Considere el modelo no restringido y = β 0 + β 1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 + ε NR al cual

β 0 
 
 0 1 0 0 0   β 1  0 
se le aplican las restricciones 0 0 1 2 0  β 2  = 0 . El modelo restringido será
 
 0 0 1 0 1  β 3  1
 β 4 
a) β 0 + β 1 x1 + β 2 x 2 + 2β 3 x3 + β 4 x 4 + ε R b) β 0 + β 2 x 2 + 2 β 3 x3 + β 4 x 4 + ε R
c) β 1 + β 2 x 2 + 2β 3 x3 + β 4 x 4 + ε R d) β1 − 2β 3 x 2 + β 3 + β 4 x 4 + ε R
e) β 0 + β 3 (−2 x 2 + x3 + 2 x 4 ) + x 4 + ε R f) β1 + β 3 (−2 x 2 + 2 x 4 ) + β 4 x 4 + ε R
g) β 0 + β 3 (−2 x 2 + 2 x 4 ) + ε R h) ninguna
14. Con respecto al modelo log y = 5 + 0.02 x + ε , un aumento de una unidad en x se

asocia a un aumento porcentual en y de
a) 0.02% b) 0.01% c) 0.2% d) 0.1% e) 2% f) 1%
g) 20% h) 10% i) ninguna
 ∑ x2 
15. Cuando n → ∞ el límite de probabilidad plim   es

 n 
2 2 2 2
a) nµ x b) x c) σ x d) µ x e) µ x f) σ x2 + µ x2 g) ∞
h) nµ x i) 0 j) ninguna
16. Considere el modelo y = c + β x + ε . Lo corremos por MCO y guardamos εˆ . Si

corremos y contra una constante, x y εˆ ,
a) el valor esperado del coeficiente de εˆ es cero
b) el valor esperado del coeficiente de εˆ es uno
c) el valor esperado del coeficiente de εˆ es cˆ + β̂
d) no se puede estimar por multicolinealidad perfecta
e) no se puede estimar por heteroscedasticidad
f) ninguna
17. ¿Cuántos elementos diferentes deben ser estimados en la matriz de varianza

covarianza de los errores, Eεε ′ , si hay autocorrelación pero no heteroscedasticidad?
n2 n(n − 1) n(n + 1) n(n + 1)
a) 0 b) n 2 c) d) +1 e) f) +1
2 2 2 2
g) ninguna
18. Suponga que tenemos el modelo y i = α + β Di + ε i donde Di vale 1 si i es del grupo

y − 1 si no. Si redefinimos la variable Di de manera que valga 1 si i es del grupo y cero
si no, el modelo quedaría
a) yi = β + (α + β ) Di + ε i b) yi = (α + β ) + β Di + ε i
c) yi = (α + β ) − 2β Di + ε i d) y i = (α − β ) + 2β Di + ε i
e) yi = 2α − β Di + ε i f) yi = α + (α − β ) Di + ε i
g) yi = α − β Di + ε i h) ninguna
19. Un estadístico Durbin Watson (DW) con valor cercano a cero indica que hay
a) autocorrelación negativa b) autocorrelación cero
c) autocorrelación positiva d) heteroscedasticidad
e) multicolinealidad f) ninguna
20. Considere el modelo y = β 0 + β 1 x1 + β 2 x 2 + ε . Si obtenemos β1 por mínimos

cuadrados ordinarios β̂ 1MCO y también por variable instrumental β̂ 1VI , y encontramos que
no hay diferencia estadística entre β̂ 1MCO y β̂ 1VI , entonces hay evidencia de
a) Ex 2′ ε = 0 b) Ex 2′ ε ≠ 0 c) Ex1′ε = 0 d) Ex1′ε ≠ 0 e) Eε = 0
f) ninguna
y 1− y
 eβ x   eβ x 
21. La probabilidad logit P( y i = y x) =  
βx  
1 −  , donde y es cero o
βx 
1+ e   1+ e 
uno, puede expresarse como
eβ xy eβ xy eβ xy
a) β x b) β c) 1 − d) 1 e) 1 + f)
1+ eβ x 1+ eβ x 1+ eβ x
βx −β x y
g) e h) e i) β x y j) ninguna
22. Considere el modelo y = β x + γ z + ε donde γ < 0 y E ( xz ) > 0 . Si omitimos z de la

regresión se puede decir que
a) Eβˆ > 0 b) Eβˆ < β c) Eβˆ < β d) Eβˆ < 0 e) Eβˆ > β
f) Eβˆ > β g) ninguna
23. En el modelo y = c + ε , la varianza de la constante estimada ĉ será

a) 0 b) n c) σ ε2 / n d) n −1 e) σ ε2 f) nσ ε2 g) 1
h) ninguna
24. Si en el modelo y = c + β x + ε definimos las nuevas variables y* = 10 y y x* = 10 x ,

¿cómo queda el modelo en términos de las nuevas variables?
a) y* = 100c + β x * +100ε b) y* = 100c + 100 β x * +100ε
c) y* = 10c + 10 β x * +10ε d) y* = 100c + 10 β x * +100ε
e) y* = 10c + β x * +10ε f) ninguna
25. Sea P la probabilidad de que una moneda caiga cara. Suponga que se lanza la
moneda cinco veces y las cinco veces cae cara. ¿Cuál sería la estimación P̂ por máxima
verosimilitud?
a) 1 b) 0.8 c) 0.5 d) 0.4 e) 0.2 f) 0 g) ninguna
26. Si hay heteroscedasticidad, la consecuencia es que el estimador β̂ de MCO será

a) ineficiente b) sesgado c) inconsistente d) todas las anteriores
e) ninguna de las anteriores
27. En la estimación del modelo keynesiano compuesto por las ecuaciones

C = α + β Y + ε y Y = C + I , una variable que podría servir como instrumental es
a) C b) I c) ε d) Y e) ninguna
28. El residuo de la regresión, εˆ , es igual a

a) y − Xβ̂ b) yˆ − Xβ̂ c) y − Xβ d) yˆ − Xβ e) y − ε
f) ninguna
29. El R cuadrado descentrado, definido como R descentrad o = ∑

2
2 yˆ i
, es igual a
∑y 2
i
a)
∑ εˆ + y
i
2
b)
∑ εˆ − yi
2
c)
∑ εˆ i
d)
2
∑ εˆ i
2
e) 1 −
∑ εî
2
∑ yˆ 2
i ∑ yˆ 2
i ∑ yˆ 2
i ∑y 2
i ∑y 2
i
f) ninguna
~ ~ ~
30. En el modelo de errores en variables y = Xβ + ε observamos X = X + u , donde X y
u son independientes. La covarianza entre X y u es
a) 0 b) − σ ε2 c) σ ε2 d) − σ u2 e) σ u2 f) − σ ε σ u g) σ ε σ u
h) ninguna
31. Cuál de las siguientes pruebas se puede usar para probar autocorrelación hasta de
tercer orden, esto es, de ε t con ε t −3
a) Durbin Watson b) White c) RESET d) Gauss Markov
e) Hausman f) Breusch Godfrey g) ninguna
32. Imagine un modelo verdadero compuesto por las ecuaciones x3 = −0.5 x1 + x4 y

y = 10 + 3x1 − 5 x2 + 4 x3 + ε , donde existen las variables x1 , x2 , x4 , x5 , y ε , las cuales se
distribuyen N(0,1) independientes entre sí. Un econometrista quiere correr y contra una
constante, x2 y x3 . ¿Cuál variable le serviría como instrumental?
a) x1 b) x4 c) x3 d) x5
33. La línea de regresión estimada para el modelo yi = β 0 + β 1 xi + ε i pasa por el punto

 x + x n y1 + y n 
a) ( x1 , y1 ) b) ( x n , y n ) c)  1 ,  d) ( x , y ) e) (0,0)
 2 2 
 x + y x + yn 
f)  1 1 , n  g) ninguna
 2 2 
34. Para las variables x y y , ambas con media cero, corremos las dos regresiones
y = β x + ε y x = α y + u , donde α y β son los coeficientes y ε y u son los errores.
Esperamos que el producto αˆ βˆ sea
a) el cuadrado del coeficiente de correlación entre x y y
b) una variable con distribución normal estándar
c) 1 d) 0 e) σ ε2σ u2 f) σ ε2 / σ u2 g) σ u2 / σ ε2 h) σ ε2σ u2 /(σ ε2 + σ u2 )
i) ninguna
35. Considere el modelo y = α + β x + ε , donde E (ε x) = c . Si corremos el modelo por

MCO se puede decir que
a) E ( βˆ ) ≠ β b) E ( βˆ ) = 0 c) E ( βˆ ) = β d) E ( βˆ ) = β + c
e) E (αˆ ) = c f) E (αˆ ) = 0 g) ninguna
36. Si aplicamos MCO al modelo y = Xβ + ε tendremos que

a) plim εˆ = 0 b) ε ′ε = 0 c) yˆ ′εˆ = 0 d) plim ε = 0 e) ninguna
37. Considere el modelo y k = α + β x k , donde las variables y k y x k están medidas en

kilómetros. Si ahora medimos las variables en metros, y m , x m , el modelo queda
a) y m = α + β x m b) y m = 1000α + 1000β x m c) y m = 1000α + 1000000β x m
β β
d) y m = α + xm e) y m = 1000α + xm f) y m = 1000α + β x m
1000 1000
g) ninguna
38. La multicolinealidad causa

a) alta correlación entre la variable dependiente y las independientes
b) bajo R cuadrado c) sesgo en la varianza de los coeficientes estimados
d) heteroscedasticidad e) sesgo en los coeficientes estimados
f) ninguna
39. Considere el modelo keynesiano C = β 1 + β 2Y + ε , Y = C + I , donde las variables

ingreso Y y consumo C son endógenas y la inversión I es exógena. Se puede decir que
a) E ( βˆ 2 ) = β 2 b) E ( βˆ 2 ) < β 2 c) E ( βˆ 2 ) > β 2 d) E ( βˆ1 ) = 0
e) ninguna
40. En el modelo keynesiano C = β 1 + β 2Y + ε , Y = C + I , donde las variables ingreso

Y y consumo C son endógenas y la inversión I es exógena, la covarianza entre Y y ε ,
Cov(Y , ε ) , es
σ ε2 σ ε2 σ ε2 σ ε2
a) 0 b) c) d) e) f) ninguna
1 − β 12 (1 − β 2 ) 2 1 − β 22 1− β2
41. Sea el modelo estructural compuesto por las ecuaciones y = β 1 x1 + β 2 x 2 + β 5 x5 + ε ,

x 2 = α 1 x1 + α 3 x3 + ε y x5 = γ 4 x 4 + u , donde ε y u son errores independientes entre sí.
Una variable que podría ser usada como instrumento para x 2 es
a) u b) x5 c) x 4 d) x3 e) x1 f) ninguna
42. Considere las observaciones ( x, y ) : (0,1), (1,1) y (1,0). ¿Cuál línea cumple con el
criterio de minimizar la suma de errores al cuadrado?
1 1 3
a) y = b) y = x c) y = 1 − x d) y = x e) y = − x
2 2 2
1
f) y = 1 − x g) y = 1 h) ninguna
2
43. Sea la hipótesis nula: la variable no sirve en la regresión. ¿Con cuál nivel de
significancia es más fácil rechazar la hipótesis nula?
a) 5% b) 4% c) 3% d) 2% e) 1%
44. Sea el verdadero modelo ~ yi = β 0 + β1 ~

xi + ε i , donde observamos yi = ~
y i + vi y
xi = ~
xi + u i . Si corremos el modelo usando las variables observadas tendremos
yi = βˆ0 + βˆ1 xi + wi , donde wi es el término de error. La covarianza entre xi y wi ,
Cov( xi , wi ) , será
a) β12 (σ v2 + σ u2 ) b) − β1σ u2 c) − β 12σ u2 d) β1 (σ v2 + σ u2 ) e) β 1σ u2 (σ v2 + σ u2 )
45. Suponga que el verdadero modelo es yi = 5 + 3x1i − 2 x 2i − 3x3i + ε i , pero corremos la

regresión omitiendo x3 . Si sabemos que x3i = 6 − 2 x1i + 4 x 2i , ¿cuál es el coeficiente
estimado esperado de x 2 ?
a) 4 b) -1 c) -14 d) -3 e) -5 f) -12 g) -2 h) 10
i) 0 j) 3 k) -10 l) ninguna
46. Considere la serie de residuos εˆt = {10, − 11, 9, − 10,10, − 11,11, − 10} . Si estimamos el
Durbin Watson con los datos de εˆt , el resultado estará cerca de
[ la expresión del Durbin Watson es,

∑ (εˆ − εˆ
t t −1 )2
]
∑ εˆ t
2
a) -1 b) 0 c) 1 d) 2 e) 2 f) 4 g) -2
47. Considere el verdadero modelo y = x1 + ε , donde x1 = x 2 + ε . Si corremos y contra

x1 y x 2 , los coeficientes estimados de x1 y x 2 serán, respectivamente,
a) 1, 1 b) 1, 0 c) 2, -1 d) 1, -1/2 e) 1, 1/2 f) 1, -1 g) ninguna
48. Sea yi = 10 + vi y xi = 1 + u i , donde v y u son términos de error con media cero y

varianza unitaria, independientes entre sí. Si corremos y i contra xi por MCO, el
coeficiente de xi estará cerca de
a) 0 b) 0.1 c) 10 d) 2 e) 5 f) 1 g) ninguna
49. Sea el modelo y = β + ε , donde y = {1,−1,1,−1} y ε está distribuida con media cero
y varianza uno. ¿Cuál es la varianza de β̂ ?
1 1 3 3
a) b) 2 c) 1 d) e) 4 f) g) 0 h)
4 2 2 4
i) ninguna
50. Dado el modelo yi = β 0 + β 1 xi + ε i , el coeficiente estimado por MCO al correr

yi − y como variable dependiente contra xi − x como variable explicativa, será
a) βˆ − βˆ
0 b) β̂
1 1c) β̂ 0 d) 0 e) 1 f) σ 2 / x 2 ε ∑ i
g) β̂1 / β̂ 0 h) βˆ1 − E ( β 1 ) i) βˆ0 − E ( β 0 ) j) ninguna
51. Sea la variable u distribuida como chi-cuadrado con k grados de libertad, χ k2 . Para
u
k → ∞ , cuál es plim ?
k
1 1
a) 0 b) 2 c) 2 k d) k 2 e) k f) 1 g) h)
k 2
i) ninguna
52. Si tomamos primeras diferencias de un paseo aleatorio xt = xt −1 + ε t , obtendremos

a) ∆xt = ∆ε t b) ∆xt = ∆xt −1 + ∆ε t c) ∆xt = xt −1 + ∆ε t d) ∆xt = ∆xt −1 + ε t
e) ∆xt = ∆ε t −1 f) ninguna
53. Considere el modelo panel yit = β xit + ai + ε it donde i = 1,2, K , N y t = 1,2, K , T , y

1 T 1 T
el modelo transformado yi = β xi + ai + ε i , donde yi = ∑ yit xi = T ∑
T t =1
,
t =1
xit , y
1 T
εi = ∑ ε it . ¿Cuántas observaciones tenemos para estimar el modelo transformado?
T t =1
a) NT b) T c) N d) NT − T e) NT − N f) ninguna
54. Considere el modelo yit = c + β xit + ai + ε it = c + β xit + u it el cual estimamos bajo

los supuestos de efectos aleatorios. La correlación entre u it y u is es
σ a2 σ a2 + σ ε2 σ a2 σ ε2 σ a2
a) 2 b) c) d) e)
σε σ ε2 σ a2 + σ ε2 σ a2σ ε2 σ a2σ ε2
σ ε2 σ a2 σ a2 + σ ε2
f) 2 g) 2 h) 1 i) j) 0 k) ninguna
σa σ a + σ ε2 σ a2
55. La siguiente es una de las dos ecuaciones de un VEC:

∆x1t = 0.5∆x1t −1 + 0.5∆x 2t −1 − ( x1t −1 − x 2t −1 ) + ε 1t . Si las últimas dos observaciones de la
muestra son x1n = −1 , x1n −1 = −2 , x 2 n = 1 , x 2 n −1 = 2 . La predicción para x1n+1 será
a) 1 b) -3 c) -2 d) 0 e) 2 f) -1 g) 3 h) ninguna
xt −1 + xt +1
56. Considere la serie suavizada st = de la variable xt = t . Se puede decir
2
que
a) st = xt b) st < xt c) st > xt d) ninguna
57. Si xt pasa de -100 a -120 entonces el cambio porcentual en xt es

a) -100 b) -20 c) 0 d) 20 e) 100 f) ninguna
58. En el modelo xt = c + xt −1 + ε t , donde c es una constante,

a) xt es estacionaria b) xt tiene tendencia lineal c) Ext = c
d) xt tiene tendencia cuadrática e) Var ( xt ) = c f) ninguna
59. Una regresión espuria usualmente se reconoce porque

a) el Durbin Watson es bajo y el R cuadrado es alto
b) el Durbin Watson es bajo y el R cuadrado es bajo
c) el Durbin Watson es alto y el R cuadrado es bajo
d) el Durbin Watson es alto y el R cuadrado es alto
e) los residuos de la regresión son estacionarios
f) ninguna
60. Si en la estimación panel de efectos fijos con N unidades transversales y T unidades

de tiempo, hay N interceptos y k parámetros, los grados de libertad son
a) NT − T − k b) N − k c) 0 d) NT − N − k e) T − k
2
f) NT − k g) N + T − k h) TN − k i) ninguna
61. Sea una acción con precio inicial igual a $56. Si el precio de la acción primero baja
10% y luego sube 10%, el precio final será
a) menor que $56 b) igual a $56 c) mayor que $56 d) ninguna
1 2
62. Si aplicamos el suavizado st = ∑ xt −i a la serie xt = t / 3 , el resultado será
3 i =0
t t t 1
a) st = −1 b) st = c) st = 3t − 3 d) st = − e) st = t
3 9 3 3
t
f) st = t − 1 g) st = h) ninguna
3
ε t −1
63. La autocorrelación para el primer rezago, r (1) , para el modelo xt = ε t + es
β
1 β β
a) 0 b) 1 / β c) 1 / β 2 d) e) f)
β (1 + β 2 ) 1+ β 2 1
1+
β2
64. Considere el modelo autorregresivo xt = c + 0.6 xt −1 + ε t . Si su MA equivalente es

xt = 10 + ε t + 0.6ε t −1 + 0.36ε t −2 + L , entonces c vale
a) 2 b) 0.5 c) 1 d) 0.6 e) -0.6 f) -0.5 g) -4
h) 10 i) -2 j) 4 k) -5 l) 6 m) ninguna
 x   4   0.5 0.1 x1t −1   ε 1t 

65. En el VAR  1t  =   +    +   , donde x1t y x 2t son
 x 2t   4   0.1 0.5  x 2t −1   ε 2t 
estacionarias y ε 1t y ε 2t tienen media cero, ¿cuál es Ex1t ?
a) 0 b) 1/4 c) 10 d) 20 e) ½ f) 2 g) 0.6
h) 2.5 i) 1.2 j) 4 k) ninguna
66. Considere el modelo y = α + β T + γ P + δ TP + ε , donde T = 1 si la observación es

del grupo tratado y cero si no, P = 1 si la observación es del período postratamiento y
cero si es anterior, y TP es el producto de ambas variables. Al utilizar el método de
diferencias en diferencias, el efecto esperado del tratamiento sobre la variable de interés
y , es
a) β − α b) γ − α c) δ − α d) γ − β e) δ − β f) δ − γ
g) α h) β i) γ j) δ k) αγ l) ninguna
eβ
67. Considere la estimación del modelo logit P( y i = 1) = con los datos
1+ eβ
y i = {0,0,0,1,1,1} . Se espera que el coeficiente estimado β̂ sea
a) 3 b) negativo c) 0.5 d) 1 e) cero f) ninguna
68. En el modelo de probabilidad lineal, la varianza del error ε i es mayor cuando la

probabilidad Pi está cerca
a) -0.1 b) cero c) 1 d) -3 e) -2 f) 0.25 g) 2
h) 3 i) 0.5 j) 0.75 k) ninguna
69. En el modelo de conteo de Poisson estimamos E ( y i xi ) = e xi′β donde β es un vector

de coeficientes. El efecto de un cambio en una variable explicativa xi j sobre el valor
∂E ( y i xi )
esperado de y i , esto es, , será
∂xi j
a) β j b) x j c) β j e xi′ β d) x j e xi′ β e) e xi′ β f) β j x j
g) ninguna
e 5− 2 x
70. Sea el modelo logit estimado P( yi = 1 x) = , donde e = 2.72 . Las
1 + e 5− 2 x
observaciones con x = 0 y x = 2 quedarían clasificadas, respectivamente, como
a) 0 y 0 b) 0 y 1 c) 1 y 0 d) 1 y 1 e) ninguna
71. Considere el modelo xt = 2 + 0.5 xt −1 + ε t − 0.5ε t −1 junto con los datos del final de la
muestra, x n = 1 y ε n = 1 . La mejor predicción para x n + 2 será
a) -4 b) 1 c) -2 d) -3 e) 4 f) -1 g) 2 h) 3 i) 0 j) ninguna
72. Sea el modelo panel yit = α + β xit + ai + ε it para el cual se tienen las observaciones
1  4 1 5 
yi 1 = 2 , yi 2 = 5 , xi 1 = 1 , xi 2 = 5 . El tamaño de la muestra es
3 6 3 6
a) 2 b) 15 c) 12 d) 9 e) 3 f) 6 g) ninguna
e xβ
73. De la expresión logit, P = , se puede obtener que xβ es igual a
1 + e xβ
P P 1− P 1− P
a) ln P (1 − P ) b) c) ln d) e) ln
1− P 1− P P P
P P
f) P (1 − P ) g) 2
h) ln i) ninguna
(1 − P) (1 − P ) 2
74. La autocovarianza R (1) para el modelo xt = ε t − 2ε t − 2 , es

a) − 2σ ε2 b) 5σ ε2 c) − σ ε2 d) 2σ ε2 e) 0 f) σ ε2 g) − 5σ ε2
h) ninguna
75. Considere el modelo ARMA(1,1), xt = α xt −1 + ε t + βε t −1 . La autocovarianza R (1)

para el modelo, es
a) α 2 R(0) b) 1 c) α d) αR (0) + βσ ε2 e) R (0) + αβσ ε2
f) α 2 R (0) + βσ ε2 g) 0 h) 1 + βσ ε2 / R (0) i) ninguna
76. El modelo que tiene valor esperado Ext = 2 y varianza Var ( xt ) = 14σ ε2 , es
a) xt = 2 + ε t + 3ε t −1 b) xt = 6 + ε t − 2ε t −1 − 3ε t − 4 c) xt = 14 + ε t − 2ε t −1 + 3ε t − 4
d) xt = 2 + ε t − 2ε t −1 + 3ε t − 4 e) xt = 2 + ε t + 2ε t −1 + 3ε t − 2 + 8ε t − 3
f) ninguna
77. ¿Cuántos coeficientes por cada rezago tiene un VAR de tres variables?
a) 6 b) 9 c) 12 d) 13 e) 18 f) 3 g) ninguna
 x   2  1 0  xt −1   ε xt 
78. En el modelo  t  =   +    +   ,
 y t   1  1 0  y t −1   ε yt 
a) xt y y t están cointegradas b) y t es I (2) c) xt es estacionaria
d) y t es estacionaria e) Ext = 3 f) Ey t = 1 g) ninguna
79. Considere el proceso estocástico xt = 0.6 xt −1 + ε t . Al aplicarle la prueba de raíz

unitaria en la cual se corre ∆xt contra xt −1 , el coeficiente de xt −1 será
a) − 1.4 b) − 1 c) 0.6 d) − 3 e) 0 f) 0.4 g) − 0.6 h) − 0.4
i) ninguna
80. Considere la serie de ruido ε t de media cero y varianza σ ε2 . La covarianza

ε +ε
Cov (ε 1 − ε , ε 2 − ε ) , donde ε = 1 2 , será
2
2 2 2
a) − σ ε b) σ ε c) − σ ε / 2 d) σ ε2 / 4 e) 0 f) σ ε2 / 2
g) − σ ε2 / 4 h) 2σ ε2 i) ninguna
81. Si se aplica la prueba de Hausman al modelo panel yit = β xit + ai + ε it , y se rechaza

la hipótesis nula H 0 : no hay correlación entre ai y xit , entonces, con respecto a la
estimación de β (donde FE es efectos fijos y RE efectos aleatorios),
a) RE será consistente b) FE será inconsistente c) RE será inconsistente
d) RE y FE serán consistentes e) ninguna
82. Si los ingresos de una firma rentable aumentan 10% y sus costos aumentan 10%
durante el mismo periodo, la ganancia de la firma
a) aumenta 5% b) aumenta 10% c) aumenta menos que 5%
d) no cambia e) cae 5% aproximadamente f) ninguna
83. Considere la siguiente situación: antes del tratamiento, el grupo de control ganaba 5
pesos y el grupo del tratamiento ganaba 10 pesos. Después del tratamiento, el grupo de
control gana 10 pesos y el del tratamiento 5 pesos. El efecto del tratamiento sobre el
salario que se calcula por el método diferencias en diferencias es de
a) 0 b) -5 c) 5 d) -10 e) 10 f) -15 g) 15
h) ninguna
84. Dado el VAR(2) estacionario, xt = A0 + A1 xt −1 + A2 xt −2 + ε t , el valor esperado Ext

será
a) A0 + A1 + A2 b) A0 c) I − A0 − A1 − A2 d) I − A1 − A2
−1
e) (I − A1 − A2 ) f) I − A1 L − A2 L2 g) A0 − A0 A1 − A0 A2
h) ( A0 − A1 − A2 )
−1
(
i) I − A1 L − A2 L )
2 −1 −1
j) (I − A1 − A2 ) A0
k) ninguna
 x   1   0.5 0.3  xt −1   ε xt 
85. Considere el VAR  t  =   +    +   . Dados los últimos datos de
 y t   0   0.1 0.5  y t −1   ε yt 
la muestra x 2014 = y 2014 = 0 , la predicción ŷ 2016 será
a) 0 b) 1.3 c) 1 d) 0.4 e) 0.3 f) 0.1 g) ninguna
86. Sean x1t , x 2t y x3t variables I (1) . Si en la regresión de x1t contra x 2t y x3t los
residuos son I (0) , se puede concluir que
a) x1t podría estar cointegrada con x 2t b) x1t podría estar cointegrada con x3t
c) x1t podría estar cointegrada con x 2t y x3t d) todas las anteriores
e) ninguna de las anteriores
87. Si en la regresión x1t = a0 + a1 x 2t + ε t , donde x1t y x 2t son variables no estacionarias

I (1) , el estadístico Durbin Watson es muy bajo, entonces podemos decir que
a) x1t y x 2t no están cointegradas b) x1t y x 2t están cointegradas
c) ε t tiene autocorrelación negativa d) ninguna
xt −1 + xt +1
88. Considere la serie suavizada st = de una variable xt con un valor inicial
2
x0 > 0 , a partir del cual cae 2% por período. En promedio, se puede decir que
a) st = xt b) st < xt c) st > xt d) ninguna
89. Sea xt una serie mensual que vale 2 en junio y diciembre y cero en los demás meses.
La serie xt − xt −12 será
a) -1 b) 2 c) 1 d) -1/2 e) 1/2 f) 0
g) 2 en junio y cero en los demás meses
h) 2 en diciembre y cero en los demás meses
i) ninguna
90. El proceso xt = xt − 2 + ε t − ε t −2 es
a) I (3) b) I (2) c) I (1) d) I (0) e) ninguna
 x   − 1.5   0.5 0  x1t −1   ε 1t 

91. Para el VAR  1t  =   +    +   , el valor esperado Ex1t será
 x 2t   0.5   1 0.5  x 2t −1   ε 2t 
a) 3 b) -1 c) -3 d) 1 e) -0.5 f) 0.5 g) ninguna
2
E ( xt +T − xˆ t +T )
92. Considere el indicador U = , donde xˆ t +T es la predicción de xt +T .
Ext2+T + Exˆ t2+T
x t +T
Si xˆ t +T = entonces U vale
2
1 1 3 1
a) b) c) d) 0 e) f) ninguna
3 4 4 2
 ∆y   1   − 1 
93. A partir del VEC estimado  t  =   +  ( yt −1 − 0.5 xt −1 + 3) se puede obtener
 ∆xt   2   0.5 
la expresión
a) y t = −2 + 0.5 xt −1 b) yt = −2 − 2 y t −1 + 0.5 xt −1 c) ∆y t = 4 − y t −1
d) ∆y t = −2 + 0.5 xt −1 e) ∆y t = −0.5 yt −1 + 0.75 xt −1 − 0.5 f) ninguna
94. Considere el modelo panel yit = β xit + ai + ε it , donde i = 1,2,..., N , t = 1,2,..., T , y

ε it es ruido con media cero y varianza σ ε2 . Si tomamos primeras diferencias obtenemos
∆y it = β ∆xit + ∆ε it , donde ∆ε it = ε it − ε it −1 . El valor esperado E (∆ε it ∆ε it −1 ) será
a) σ ε2 b) − σ ε2 / N c) σ ε2 / T d) − σ ε2 / T e) σ ε2 / N
f) − σ ε2 g) ninguna
95. En el modelo xt = 0.5 xt −1 + ε t2 , donde el error ε t tiene media cero y varianza 4, el

valor esperado E ( xt ) será
a) 2 b) 1/2 c) 3/2 d) 4 e) 8 f) 0 g) -4 h) -2
i) ninguna
96. Sean xt = xt −1 + ε t , y t = xt + u t , z t = xt + vt , donde ε t , u t y vt son series de ruido

independientes entre sí. La siguiente expresión es estacionaria I(0)
a) y t − z t b) y t c) y t + vt d) y t + z t e) z t f) ninguna
97. En la estimación panel de efectos fijos, el término de error del modelo es

T
∑ε
t =1
it
u it = ε it − ε i , donde ε i = . La autocovarianza E (u it u is ) para t ≠ s será
T
a) 0 b) σ ε2 c) − σ ε2 d) σ ε2 / T e) σ ε2 / T 2 f) − T / σ ε2
g) σ ε2 (T − 1) / T h) − σ ε2 / T i) ninguna
98. Con respecto de la regresión de y t = α + β xt + ε t , donde yt = {1,2,3,...,30} y

xt = {1,4,9,...,900} , puede decirse que
a) α̂ no será significativamente diferente de cero
b) α̂ será significativamente menor que cero
c) εˆt tendrá autocorrelación negativa
d) εˆt tendrá autocorrelación positiva
e) β̂ no será significativamente diferente de cero
f) ninguna
99. Al estimar el modelo y = β 0 + β1 x + ε por MCO, encontramos que

plim yˆ = plim Xβˆ = y .
verdadero falso
100. Un estimador insesgado también es asintóticamente insesgado.

verdadero falso
101. Si Eε X ≠ 0 entonces EX ′ε ≠ 0 .
verdadero falso
102. La matriz de varianza covarianza del vector de coeficientes estimados por MCO es
( )
E βˆβˆ ′ − β β ′ .
verdadero falso
Cov( xi , yi )
103. Para el modelo yi = β xi + ε i donde Exi = 0 tenemos que βˆ = .
Var ( xi )
verdadero falso
104. En la expresión del estimador de variable instrumental,

β̂ VI = ( X ′ZWZ ′X ) −1 X ′ZWZ ′y , donde X es n × k y Z es n × R , R puede ser menor que
k.
verdadero falso
105. El modelo y = β 1 x1 + β 2 x 2 + ε , donde x 2 = x1 + 5 , se puede estimar por mínimos

cuadrados ordinarios.
verdadero falso
106. Eε = 0 implica Eε x = 0 .
verdadero falso
107. No hay correlación entre yˆ = Xβ̂ y los residuos εˆ de una regresión.

verdadero falso
108. Sea yi construida con la ecuación yi = β1 x1i + β 2 x2i + ε i , donde x1i es el dígito que
sale al lanzar un dado y x2i es el dígito que sale al lanzar otro dado. Si corremos la
regresión omitiendo x2i entonces el coeficiente estimado de x1i estará sesgado, esto es,
Eβˆ ≠ β .
1 1
verdadero falso
109. Dado que el ordenamiento de las pruebas Wald ( W ), Razón de Verosimilitud ( LR )

y Multiplicador de Lagrange ( LM ) es W ≥ LR ≥ LM , siempre que la prueba de Wald
rechace la hipótesis nula, las demás también la rechazarán.
verdadero falso
110. La expectativa condicional E (ε X ) = 0 implica la expectativa incondicional

E (ε ) = 0 .
verdadero falso
111. Cuando Z y X son matrices del mismo orden, el estimador de variable

instrumental β̂ IV = ( X ′Z ( Z ′Z ) −1 Z ′X ) −1 X ′Z ( Z ′Z ) −1 Z ′y , puede expresarse como
β̂ IV = ( X ′ZZ −1 Z ′ −1 Z ′X ) −1 X ′ZZ −1 Z ′ −1 Z ′y = ( X ′X ) −1 X ′y .
verdadero falso
112. Si D es una variable dummy que toma los valores 0 y 1 entonces D y D 2 no

pueden estar en la misma regresión como variables explicativas por multicolinealidad.
Pero si D toma los valores 0 y 2 entonces D y D 2 sí pueden estar en la misma regresión
como variables explicativas.
verdadero falso
113. Cuando hay variable omitida en y = Xβ + ε se sesga el estimador de MCO de la

varianza del error.
verdadero falso
x + ε , observamos x = ~
114. En el modelo y = β ~ x + u donde u es un error de media
cero independiente de ~
x y ε . Si Var (u ) → ∞ entonces plim βˆ → 0 .
verdadero falso
115. Si en el modelo y = β1 x1 + β 2 x 2 + ε queremos que βˆ1 = βˆ 2 = 0 entonces

necesitamos que ∑ x1 y = ∑ x 2 y = 0 .
verdadero falso
116. Considere el modelo y = α + β x + ε , el cual se corre por MCO y se guarda ŷ . Si al

aplicar la prueba RESET a la regresión auxiliar y = α + β x + γ ŷ 2 + ε encontramos que
γ ≠ 0 entonces podemos concluir que el modelo está bien especificado.
verdadero falso
117. Suponga el modelo y = β 0 + β 1 x + ε . Si contamos con un tamaño de la muestra

n = 2 , la fórmula de MCO, β̂ = ( X ′X ) −1 X ′ y , no se puede calcular.
verdadero falso
118. Con respecto al modelo yi = β 0 + ε i , donde f (ε i ) es la función de distribución de

probabilidad de ε i , la verosimilitud será f ( y1 − β 0 ) f ( y 2 − β 0 ) f ( y 3 − β 0 ) L f ( y n − β 0 ) .
verdadero falso
119. En el modelo y = Xβ + ε estimado por MCO, es cierto que ∑ εˆ 2

> ∑ε 2 .
verdadero falso
120. En la estimación por MCO del modelo y = Xβ + ε , tenemos que E ( yˆ X ) = E ( y X ) .

verdadero falso
121. Suponga que estimamos el modelo yi = β 0 + β 1 Di + β 2 xi + ε , donde Di = 1 si la

observación iésima recibe el tratamiento y cero si no. Si Eβˆ = β entonces se puede
1 1
asegurar que β̂1 estima el efecto causal del tratamiento sobre la variable dependiente.
verdadero falso
 ∆x   β   β β12  ∆x1t −1   β13  ε 

122. En el VEC  1t  =  10  +  11   +  ( x1t −1 − a x 2t −1 ) +  1t 
 ∆x 2t   β 20   β 21 β 22  ∆x 2t −1   β 23   ε 2t 
si β13 = β 23 = 0 entonces no hay cointegración.
verdadero falso
123. Si la predicción de un estimador no coincide con la realidad se dice que el estimador

es sesgado.
verdadero falso
124. A los aspirantes que peor les fue en un examen de admisión les ponemos una
manilla con los colores de la bandera nacional y les hacemos un segundo examen de
admisión. Esperamos encontrar que a estos aspirantes les vaya mejor en el segundo
examen.
verdadero falso
1 m
1 m
125. El suavizado aritmético ∑ t +i
2m + 1 i = − m
x es equivalente a ∑ x t −i .
2m + 1 i = − m
verdadero falso
126. Sea yij el promedio de la variable de interés para el grupo i en el período j . Sea B
el grupo que recibe el tratamiento y A el de control. En el método de diferencias en
diferencias, el efecto del tratamiento se mide por la expresión ( y B 2 − y A2 ) − ( y B1 − y A1 ) .
verdadero falso
127. Si un hombre alto sospecha que su esposa le fue infiel porque su hijo adulto es más
bajito que él, la esposa puede defenderse apelando al fenómeno de la regresión a la
media.
verdadero falso
128. Las series {1, 3, 2, 2} y {2, 6, 4, 4} tienen diferente autocovarianza R (2) .

verdadero falso
t2
α +β x 1 −
129. En el modelo probit P ( y = 1 x) = ∫ e dt , donde α = −2 y β = 0.3 , la
2
2π −∞
observación de y con x = 4 quedaría clasificada como cero.

verdadero falso
130. Si E∆xt = 0 entonces xt es estacionaria.

verdadero falso
131. En un curso donde la evaluación consta de dos exámenes (uno a mitad del curso y
otro al final) y el requisito para aprobar el curso es obtener una nota superior a 70% en
ambos exámenes, esperamos observar el fenómeno de regresión a la media.
verdadero falso
132. En el modelo de conteo de Poisson, el número de ocurrencias fluctúa alrededor de su

media λ con una desviación estándar igual a λ .
verdadero falso
133. El proceso xt = − xt −1 − 0.25 xt − 2 + ε t + 4ε t −1 es estacionario.

verdadero falso
134. Si al aplicar la prueba de raíz unitaria, ∆xt = ϕ xt −1 + ∑ γ i ∆xt −i + ε t , encontramos

i
que ϕ = 0 , concluimos que xt es una serie estacionaria.

verdadero falso
135. Si la prueba de Hausman,

(βˆ EF
− βˆ EA 2 ) , donde EF es
Var ( βˆ EF ) − Var ( βˆ EA )
efectos fijos y EA es efectos aleatorios, muestra una divergencia significativa entre β̂ EF

y β̂ EA , se puede decir que β̂ EF es consistente y β̂ EA es inconsistente.
verdadero falso
136. Suponga la variable xt con media cero. La fórmula para estimar la autocovarianza
1 n
Rˆ (τ ) = ∑ ( xt )( xt − τ ) subestima la verdadera autocovarianza R (τ ) .
n t =1+ τ
verdadero falso
137. El concepto de regresión a la media implica que si un sujeto está por debajo de la
media en una medición, tiende a estar por encima de la media en la próxima medición.
verdadero falso
138. Una serie generada por los lanzamientos de un dado cargado puede ser iid .
verdadero falso
139. En el modelo ∆xt = c + ε t , donde c es una constante y ε t es ruido, la variable xt es

estacionaria.
verdadero falso
140. En el modelo xt = xt −1 + ∆xt , la variable xt es I (1) .

verdadero falso
141. En la muestra {0,−1,−2,−3,−4,−3,−2,−1,0,1,2,3,4,3,2,1,0} , la autocorrelación r (1)

estimada es positiva.
verdadero falso
n n −1
142. Considere el filtro Hodrick Prescott, ∑ ( xt − st ) 2 + λ ∑ [( st +1 − st ) − (st − st −1 )] 2 . Si
t =1 t =2
λ es muy pequeño, la serie suavizada st tiende a una línea recta.

verdadero falso
143. Del modelo xt = α 0 + α 1 xt −1 + α 2 xt −2 + L + α p xt − p + ε t , se puede derivar la

expresión ∆xt = α 1 ∆xt −1 + α 2 ∆xt − 2 + L + α p ∆xt − p + ε t − ε t −1 .
verdadero falso
144. En un modelo de datos panel con variables no estacionarias I (1) puede presentarse
el problema de regresión espuria.
verdadero falso
145. El proceso xt = −2 xt −1 − xt −2 + ε t es estacionario.

verdadero falso
146. Considere una variable xt cuyo verdadero modelo es un ARMA(p,q). Si corremos

xt como un AR(p) por mínimos cuadrados ordinarios, la estimación será sesgada e
inconsistente.
verdadero falso
147. En el modelo para datos panel yit = α i + β xit + ε it , si xit no cambia en el tiempo,
β se puede estimar por efectos fijos.
verdadero falso
148. Si ∆xt = α + ∆xt −1 + ε t , entonces xt = α + 2 xt −1 − xt − 2 + ε t .

verdadero falso
149. Si xt es una serie de ruido blanco y le aplicamos la prueba de raíz unitaria PP (cuya
expresión es ∆xt = ϕ xt −1 + ε t ), encontraremos que ϕ = −1 .
verdadero falso
RESPUESTAS
1 b 29 e 57 d 85 f 113 v 141 v
2 a 30 e 58 b 86 d 114 v 142 f
3 c 31 f 59 a 87 a 115 v 143 v
4 e 32 b 60 d 88 c 116 f 144 v
5 a 33 d 61 a 89 f 117 f 145 f
6 e 34 a 62 d 90 d 118 v 146 v
7 e 35 c 63 e 91 c 119 f 147 f
8 g 36 c 64 j 92 a 120 v 148 v
9 d 37 f 65 c 93 a 121 f 149 v
10 d 38 f 66 j 94 f 122 v
11 e 39 c 67 e 95 e 123 f
12 b 40 e 68 i 96 a 124 v
13 e 41 d 69 c 97 h 125 v
14 e 42 f 70 d 98 d 126 v
15 f 43 a 71 h 99 f 127 v
16 b 44 b 72 f 100 v 128 f
17 d 45 c 73 e 101 f 129 v
18 d 46 f 74 e 102 v 130 f
19 c 47 c 75 d 103 v 131 f
20 c 48 e 76 d 104 f 132 v
21 f 49 a 77 b 105 v 133 v
22 b 50 b 78 a 106 f 134 f
23 c 51 f 79 h 107 v 135 v
24 e 52 b 80 c 108 v 136 v
25 a 53 c 81 c 109 f 137 f
26 a 54 g 82 b 110 v 138 v
27 b 55 a 83 d 111 f 139 f
28 a 56 b 84 j 112 f 140 f
REFERENCIAS
Angrist J. y Krueger A. (1991) “Does Compulsory School Attendance

Affect Schooling and Earnings?”, The Quarterly Journal of Economics, 106,
4, 979-1014.
Angrist J. y Pischke J. (2017) “Undergraduate Econometrics Instruction:

Through Our Classes, Darkly”, NBER, Working Paper 23144.
Arellano, M. y Bond, S. (1991) “Some Tests of Specification for Panel Data:

Monte Carlo Evidence and an Application to Employment Equations”,
Review of Economic Studies, 58 (2).
Baltagi, B. H. (2005) Econometric Analysis of Panel Data, John Wiley, NY.
Banerjee A., Dolado J., Galbraith J. y Hendry D. (1993) Cointegration,

Error Correction, and Econometric Analysis of time Series, Oxford
University Press.
Blundell R. y Bond S. (1998) “Initial conditions and moment restrictions

in dynamic panel data models”, Journal of Econometrics, 87, 115-143.
Bollerslev, T. (1986) “Generalized Autoregressive Conditional

Heteroscedasticity”, Journal of Econometrics, 31, 307-327.
Bound J., Jaeger D. y Baker R. (1995) “Problems with Instrumental

Variables Estimation when the Correlation Between the Instruments and the
Endogenous Explanatory Variable is Weak”, Journal of the American
Statistical Association, 90, 433-50.
Box G. y Jenkins G. (1970) Time Series Analysis, Forecasting and Control,

Holden-Day, San Francisco.
Bryan M. y Jenkins S. (2016) “Multilevel Modelling of Country Effects: A

Cautionary Tale”, European Sociological Review, 32, 1, 3–22.
Buckles K. y Hungerman D. (2013) “Season of Birth and Later Outcomes:

Old questions, New Answers”, Review of Economics and Statistics, 95, 3,
711-724.
Bun M. y Harrison T. (2014) “OLS and IV Estimation of Regression Models

Including Endogenous Interaction Terms”, UVA Econometrics, Discussion
Paper 2014/02.
Cameron A. y Trivedi P. (2005) Microeconometrics, Methods and

Applications, Cambridge University press.
Charemza W. y Deadman D. (1992) New Directions in Econometric

Practice, Edward Elgar, NY.
Davidson R. y Mackinnon J. (2004) Econometric Theory and Methods,

Oxford University Press.
Dougherty, C. (2006) Introduction to Econometrics, Oxford University

Press.
Enders W. (2004) Applied Econometric Time Series, John Wiley & Sons,
New York.
Engle, Robert (1982) “Wald, Likelihood Ratio and Lagrange Multiplier

Tests in Econometrics”, Handbook of Econometrics, cap. 13, North Holland.
Engle, Robert (1982) “Autoregressive Conditional Heteroscedasticity with

Estimates of the Variance of UK Inflation”, Econometrica, 50, 987-1008.
Engle R. y Granger C. (1987) “Cointegration and Error Correction:

Representation, Estimating and testing”, Econometrica, 55 (2) 251-276.
Fuller, W. (1976) Introduction to Statistical Time Series, John Wiley, NY.
Granger C. (1969) “Investigating Causal Relationships by Econometric

Models and Cross-Spectral Models”, Econometrica, 37, 135-145.
Granger C. y Newbold P. (1974) “Spurious Regressions in Econometrics”,

Journal of Econometrics, 2, 111-120.
Granger C. y Newbold P. (1986) Forecasting Economic time Series,

Academic Press.
Greene, William (2012) Econometric Analysis, Pearson.
Hamilton, James (1994) Time Series Analysis, Princeton University Press.
Hastings, Justine (2004) “Vertical Relationships and Competition in Retail

Gasoline Markets: Evidence from Contract Changes in Southern California”,
American Economic Review, 94, 1, Marzo.
Heckman, J. y Vytlacil, E. (2001) “Policy-Relevant Treatment Effects”,

American Economic Review, Vol. 91, No. 2: 107-111.
Hodrick, R. y Prescott, E. (1997) “Postwar US Business Cycles: An

Empirical Investigation”, Journal of Money, Credit and Banking, 29, 1, 1-
16.
Johansen, Soren (1988) “Statistical Analysis of Cointegration Vectors”,

Journal of Economic Dynamics and Control, 12, 231-254.
Johnston, John (1984) Econometric Methods, McGraw-Hill, 3rd ed.
Kennedy, Peter (2008) A Guide to Econometrics, Blackwell Publishing.
Levitt, Steven (2002) “Using Electoral Cycles in Police Hiring to Estimate

the Effects of Police on Crime: Reply”, American Economic Review, 92, 4,
1244-50.
McCrary, Justin (2008) “Manipulation of the Running Variable in the

Regression Discontinuity Design: A Density Test”, Journal of
Econometrics, 142, 2, 698-714.
Maddala, G. y Kim, I. (1998) Unit Roots, Cointegration and Structural

Change, Cambridge University Press, Cambridge.
Mann H. y Wald A. (1943) “On the Statistical Treatment of Linear

Stochastic Difference Equations”, Econometrica, 11, 173-220.
Mills, T. (2003) Modelling Trends and Cycles in Economic Time Series,

Palgrave MacMillan, New York.
Montenegro, Alvaro (1989) “Inversión y PNB: Relaciones de Causalidad”,

Desarrollo y Sociedad, CEDE, #24, 51-62.
Montenegro, Alvaro (2001) On Sample Size and Precision in Ordinary Least

Squares, Journal of Applied Statistics, vol. 28, issue 5.
Montenegro, Alvaro (2011) Análisis de Series de Tiempo, Editorial

Javeriana, Bogotá.
Murray, M. (1994) “A Drunk and Her Dog: An Illustration of Cointegration

and error Correction”, The American Statistician, 48, 37-39.
Nelson C. y Kang H. (1984) “Pitfalls in the Use of Time as an Explanatory

Variable in Regression”, Journal of Business and Economic Statistics, 2, (1),
73-82.
Perron P. y Vogelsang T. (1992) Nonstationary and Levels Shifts with an

Application to Purchasing Power Parity”, Journal of Business and Economic
Statistics, 10, 301-320.
Ramsey, James (1969) "Tests for Specification Errors in Classical Linear

Least Squares Regression Analysis", Journal of the Royal Statistical Society,
Series B. 31 (2): 350-371.
Ramsey, James y Montenegro, Alvaro (1992) “Identification and Estimation

of Non-Invertible Non-Gaussian Ma(q) Processes”, Journal of
Econometrics, 54, (1-3), 301-320.
Roodman, David (2009) “A Note on the Theme of Too Many Instruments”,

Oxford Bulletin of Economics and Statistics, 71, 1, 135-158.
Sims, C. (1980) “Macroeconomics and Reality”, Econometrica, 48, 1-48.
Sims C., Stock J. y Watson M. (1990) “Inference in Linear Time Series

Models with some Unit Roots”, Econometrica, 58, 113-144.
Stock J. y Watson M. (2012) Introduction to Econometrics, Pearson.

Stock J, Yogo M. (2005) “Testing for Weak Instruments in Linear IV

Regression”, In: Andrews DWK Identification and Inference for
Econometric Models, New York, Cambridge University Press, pp. 80-108.
Thurman W. y Fisher M. (1988) “Chickens, Eggs, and Causality, or Which

came First?”, American Journal of Agricultural Economics, 70 (2), 237-238.
Verbeek, Marno (2012) A Guide to Modern Econometrics, Wiley.
Wold Hermann (1938) A Study in the Analysis of Stationary Time Series,

Almquist and Wicksell, Stockholm.
White, Halbert (1980) “A Heteroskedasticity-Consistent Covariance Matrix

Estimator and a Direct Test for Heteroskedasticity”, Econometrica 48: 817-
838.
Wooldridge, J. (2009) Introductory Econometrics: A Modern Approach,

South-Western.

Econometría - Básica e Intermedia PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Econometría - Básica e Intermedia PDF

Uploaded by

Copyright:

Available Formats

ECONOMETRÍA

EL MODELO DE REGRESIÓN Y MÍNIMOS CUADRADOS ORDINARIOS

PRUEBAS DE HIPÓTESIS Y PROPIEDADES ASINTÓTICAS

ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

ESPECIFICACIÓN, NO LINEALIDAD Y MULTICOLINEALIDAD

SESGO EN LA ESTIMACIÓN POR MCO

ESTIMACIÓN POR VARIABLE INSTRUMENTAL

CONCEPTOS DE SERIES DE TIEMPO

MODELOS PARA SERIES DE TIEMPO ESTACIONARIAS

ESTIMACIÓN DE LOS MODELOS ARMA

MODELO ESTACIONARIO MULTIVARIADO VAR

SERIES DE TIEMPO NO ESTACIONARIAS

MODELOS PARA DATOS PANEL

MODELOS DE VARIABLE DEPENDIENTE LIMITADA

Econometría se refiere al desarrollo y uso de técnicas estadísticas y

razón por la cual se identifican con un subíndice para cada período de

EL MODELO DE REGRESIÓN Y MÍNIMOS

La tarea básica en econometría es modelar y explicar una variable

donde decimos que la variable y , llamada dependiente, es igual a una

Esta forma funcional, con su intercepto β 0 y demás coeficientes β1 , β 2 ,K, β k ,

Observamos las variables explicativas y la variable y , pero no

y1 = β 0 + β1 x11 + β 2 x21 + L + β k xk1 + ε1

Las ecuaciones anteriores, en formato de matrices y vectores, y mostrando

La columna de 1´s representa la constante o el intercepto de las

escribimos el modelo en notación matricial como

En algunos textos las variables van de x1 a xk pero hacen x1 igual a la

Mínimos Cuadrados Ordinarios, MCO

Con los valores observados de y y X trataremos de estimar los valores

que minimiza la suma de los errores estimados al cuadrado.

La suma de estos residuos al cuadrado se escribe

donde εˆ′ denota el vector transpuesto de εˆ . Remplazando,

εˆ′εˆ = ( y − Xβˆ )′( y − Xβˆ )

donde el último paso se da porque εˆ′εˆ es un escalar (una simple suma, de

La derivada de los términos dentro del paréntesis será

De manera que, sumando las tres derivadas anteriores,

donde tenemos k + 1 ecuaciones para resolver las k + 1 incógnitas del vector

Para despejar β̂ tenemos que hacer el siguiente supuesto,

La existencia del inverso ( X ′X ) −1 equivale a suponer que la matriz X ′X , de

porque el rango de X ′X es igual al rango de X [ver Johnston (1984, p.

información adicional en la regresión; esto es, que una variable explicativa

Volviendo al supuesto 2, podemos premultiplicar ambos lados de la

Podríamos llamarlo β̂ MCO pero omitiremos el subíndice mientras no haya

X ′( y − Xβˆ ) = X ′( y − yˆ ) = X ′εˆ = 0 (1.23)

La expresión anterior representa k + 1 restricciones sobre los n elementos del

La propiedad anterior se puede ilustrar apelando a conceptos de álgebra

el modelo (similar al caso de la Figura 1.2). La técnica de MCO encuentra la

Ejemplo de regresión con una variable

Consideremos el modelo yi = β xi + ε i . Este ejemplo corresponde a la

Aplicando la fórmula del estimador de MCO a la estructura de este ejemplo,

Ejemplo de regresión con intercepto y una variable

Considere el modelo yi = β 0 + β1 xi + ε i . En este ejemplo tenemos la constante

y el estimador, utilizando la fórmula de MCO, se expresa

diagonal, y se dividen los cuatro elementos por el determinante

Ejemplo de regresión con dos variables

Considere el modelo yi = β1 x1i + β 2 x 2i + ε i de regresión múltiple. En este

en este caso) de regresión debe pasar por el origen. Se podría incluir la

 y1   x11 x21  ε1 

y, aplicando la fórmula de MCO,

donde el determinante es ∆ = ∑ x12 ∑ x 22 − ( ∑ x1 x 2 ).

Es importante notar que si ambas variables son iguales, esto es, si x1 = x2 ,

El Cuadro 1.1 ilustra una regresión estimada con observaciones de 59

Variable Coefficient Std. Error t-Statistic Prob.

C 9.489068 0.079308 119.6478 0.0000