You are on page 1of 27

Universidad Carlos III de Madrid

Csar Alonso
ECONOMETRIA
MODELOS CON VARIABLES EXPLICATIVAS ENDGENAS
ndice
1. Endogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1. Denicin: variables instrumentales (VI) . . . . . . . . . . . . . . . . 4
2.2. El estimador de VI en el modelo simple . . . . . . . . . . . . . . . . . 5
2.3. Propiedades del estimador de VI en el modelo simple . . . . . . . . . 5
2.4. Inferencia con el estimador de VI . . . . . . . . . . . . . . . . . . . . 6
2.5. La varianza del estimador de VI . . . . . . . . . . . . . . . . . . . . . 7
2.6. Nota sobre el 1
2
con variables instrumentales . . . . . . . . . . . . . 9
2.7. Instrumentos no adecuados . . . . . . . . . . . . . . . . . . . . . . . . 10
3. Generalizacin: el estimador de MC2E . . . . . . . . . . . . . . . . . . . . 13
3.1. Modelo simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Interpretacin de la forma reducida . . . . . . . . . . . . . . . . . . . 14
3.3. Modelo mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4. Modelo mltiple con varias variables explicativas endgenas . . . . . . 16
4. Contraste de endogeneidad (contraste de Hausman) . . . . . . . . . . . . . 16
5. Contraste de restricciones de sobreidenticacin (contraste de Sargan) . . . 19
6. Ejemplo: ecuacin de salarios . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.1. Estimacin MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2. Estimacin por VI (un nico instrumento) . . . . . . . . . . . . . . . 22
6.3. Estimacin por VI (varios instrumentos) . . . . . . . . . . . . . . . . 23
6.4. Contraste de Sargan . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7. Consideraciones nales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Wooldridge: Captulo 15 (15.1-15.5)
Goldberger: Captulos 18 a 20.
1. Endogeneidad
Dado el modelo de regresin lineal:
1 = ,
0
+ ,
1
A
1
+ ,
2
A
2
+ + ,
K
A
K
+
Si se cumple que
1([A
1
. A
2
. . . . . A
K
) = 0,
decimos que tenemos variables explicativas exgenas.
Si por alguna razn (omisin de variables relevantes, errores de medida, simul-
taneidad, etc.) A
j
est correlacionada con , decimos que A
j
es una variable
explicativa endgena.
La existencia de variables explicativas endgenas invalida los estimadores MCO
de los parmetros del modelo, que sern inconsistentes.
En este tema vamos a estudiar cmo obtener estimadores consistentes de los
parmetros del modelo en presencia de variables explicativas endgenas,
utilizando variables instrumentales y
aplicando el mtodo de mnimos cuadrados bietpicos o mnimos
cuadrados en dos etapas (MC2E).
Ejemplo 1: Error de medida en variables explicativas
Recordemos en el modelo de regresin simple 1 = ,
0
+ ,
1
A

+ donde se
cumplen los supuestos clsicos y por tanto:
1([A

) = 0 =1(1 [A

) = 1(1 [A

) = ,
0
+ ,
1
A

,
de manera que ,
0
y ,
1
verican:
1() = 0. C(A

. ) = 0 =
,
0
= 1(1 ) ,
1
1(A

) ,
1
= C(A

. 1 ),\ (A

).
1
Sin embargo, A

se mide con error, de modo que observamos A = A

+
1
,
siendo
1
el error de medida.
Sustituyendo A

= A
1
, tenemos:
1 = ,
0
+ ,
1
A+ ( ,
1
1)
. .
n
donde C(n. A) ,= 0 =A es endgena.
Ejemplo 2: Omisin de variables explicativas
Recordemos el caso de omisin de variables relevantes.
Sea el modelo 1 =
0
+
1
A
1
+ n, donde n = + ,
2
A
2
con ,
2
,= 0 = se ha
omitido A
2
.
En general, C(A
1
. n) ,= 0 = A
1
es endgena.
Ilustraciones:
1. Capacidad no observada en una ecuacin de salarios.
Consideremos la siguiente ecuacin de salarios:
log(:c|c:io) = ,
0
+ ,
1
cdnc + ,
2
ccj + c.
Como la capacidad ccj es no observable, nos quedaramos con el siguiente mod-
elo de regresin simple:
log(:c|c:io) = ,
0
+ ,
1
cdnc + n.
donde el trmino de error n contiene ccj. Si estimamos por MCO obtendremos
un estimador sesgado e inconsistente de ,
1
si cdnc y ccj estn correlacionadas.
2. Efecto del tabaco sobre los salarios (ignorando el nivel de educacin).
3. Efecto del tabaco sobre el cncer (ignorando el estado fsico).
Ejemplo 3: Simultaneidad
2
Es bastante habitual que las realizaciones de distintas variables econmicas
estn relacionadas entre s.
Esto supone que la ecuacin de la variable dependiente en que estamos intere-
sados forma parte de un sistema de ecuaciones simultneas:
algunas variables que aparecen en el lado derecho de la ecuacin de inters
aparecen como variables dependientes en otras ecuaciones, y viceversa.
Ejemplo 3a: Modelo de equilibrio de mercado
Consideremos el siguiente sistema:
1
1
= c
1
1
2
+c
2
A
1
+n
1
(Demanda)
1
2
= c
3
1
1
+c
4
A
2
+c
5
A
3
+n
2
(Oferta)
Las variables endgenas 1
1
= cantidad, 1
2
= precio, se determinan por medio
de
las variables exgenas A
1
= renta, A
2
= salario, A
3
= tipo de inters,
y por las perturbaciones n
1
= shock de demanda, n
2
= shock de oferta.
Es evidente que las variables 1
1
e 1
2
, que aparecen en el lado derecho de las
ecuaciones de oferta y demanda, respectivamente, no son ortogonales a ninguna
de las perturbaciones:
1(1
1
[ 1
2
. A
1
) = c
1
1
2
+ c
2
A
1
+ 1(n
1
[ 1
2
. A
1
)
Ejemplo 3b: Funcin de produccin
Si la empresa es maximizadora de benecios o minimizadora de costes,
las cantidades de inputs se determinan simultneamente con el nivel de
produccin,
la perturbacin, que reeja el efecto de shocks tecnolgicos, est en general
correlacionada con las cantidades de inputs.
3
2. Variables instrumentales
El mtodo de Variables Instrumentales (VI) permite obtener estimadores
consistentes de los parmetros en situaciones en que el estimador MCO es incon-
sistente (omisin de variables relevantes, errores de medida o simultaneidad).
En general, tenemos que dado el modelo:
1 = ,
0
+ ,
1
A + (1)
donde C(A. ) ,= 0 =
,
0
y ,
1
NO son los parmetros de la proyeccin lineal 1(1 [A) =
los estimadores MCO (

,
0
y

,
1
) de la regresin de 1 sobre A son estimadores
inconsistentes de ,
0
y de ,
1
. En efecto:
j lm

,
1
=
j lm
_
1
n

i
r
i

i
_
j lm
_
1
n

i
r
2
i
_ =
j lm
_
1
n

i
r
i
(,
1
r
i
+
i
)

j lm
_
1
n

i
r
2
i
_
= ,
1
+
j lm
_
1
n

i
r
i

i
_
j lm
_
1
n

i
r
2
i
_ = ,
1
+
C(A. )
\ (A)
,= ,
1
con:
i
= 1
i
1 , r
i
= A
i
A.
2.1. Denicin: variables instrumentales (VI)
En el modelo:
1 = ,
0
+ ,
1
A + (2)
donde C(A. ) ,= 0,
necesitamos informacin adicional (en forma de variables adicionales) si quere-
mos obtener estimaciones consistentes de ,
0
y de ,
1
.
Supongamos que disponemos de una variable 2 (denominada Variable Instru-
mental) que cumple:
(a) 2 no est correlacionada con el error del modelo:
C(2. ) = 0 (a)
4
(b) 2 est correlacionada con la variable endgena A:
C(2. A) ,= 0 (b)
2.2. El estimador de VI en el modelo simple
Empleando 2 como instrumento, podremos obtener estimadores consistentes de
,
0
y de ,
1
.
A partir de (2) podemos escribir:
C(2. 1 ) = ,
1
C(2. A) + C(2. )
lo que, dado (a) implica que en la poblacin se verica que:
,
1
=
C(2. 1 )
C(2. A)
,
0
= 1(1 ) ,
1
1(A) = 1(1 )
C(2. 1 )
C(2. A)
1(A)
Suponiendo que disponemos de una muestra aleatoria de la poblacin de tamao
:, y sustituyendo momentos poblacionales por muestrales (principio de analoga)
en las expresiones anteriores, se obtiene el Estimador de Variables Instrumen-
tales (VI):

,
1
=
o
Y Z
o
XZ
=

i
.
i

i
.
i
r
i

,
0
= 1

,
1
A
con:
i
= 1
i
1 , r
i
= A
i
A, .
i
= 2
i
2.
2.3. Propiedades del estimador de VI en el modelo simple
Siempre que se cumplan (a) y (b), el estimador de VI ser un estimador con-
sistente:
j lm

,
1
=
j lm
_
1
n

i
.
i

i
_
j lm
_
1
n

i
.
i
r
i
_ =
j lm
_
1
n

i
.
i
(,
1
r
i
+
i
)

j lm
_
1
n

i
.
i
r
i
_
= ,
1
+
j lm
_
1
n

i
.
i

i
_
j lm
_
1
n

i
.
i
r
i
_ = ,
1
+
C(2. )
C(2. A)
= ,
1
5
Toda variable instrumental o instrumento debe cumplir las dos propiedades, (a)
y (b). A este respecto:
La condicin (a) de que C(2. ) = 0, no puede vericarse.
Debemos suponer que es as mediante argumentos basados en el compor-
tamiento econmico o en alguna conjetura.
= Hay que ser muy cuidadoso en la eleccin de 2.
La condicin (b) de que C(2. A) ,= 0 s puede vericarse en la muestra.
La manera ms sencilla es realizando una regresin simple entre A y 2:
A = :
0
+ :
1
2 + ,
estimarlo por MCO y contrastar:
H
0
: :
1
= 0 frente a H
1
: :
1
,= 0
Nota: Si 2 = A, obtenemos la estimacin de MCO.
Es decir, cuando A es exgena puede utilizarse como su propio instrumen-
to, y el estimador de VI es entonces idntico al estimador MCO.
2.4. Inferencia con el estimador de VI
Consideremos el modelo simple
1 = ,
0
+ ,
1
A + .
Suponiendo homocedasticidad condicional:
\ ([2) = o
2
= \ (),
se puede demostrar que

,
1
,
1
:
e

1
`(0. 1)
donde :
e

1
es el error estndar del estimador de variables instrumentales:
6
:
2
e

1
=

\ (

,
1
) =
:
2
o
2
z
:o
2
ZX
= :
e

1
=
:o
z
_
:o
ZX
y donde:
:
2
=
1
n

i

2
i
,
siendo
i
el residuo de la estimacin de VI:

i
= 1
i

,
0
+

,
1
A
i
_
Esto permite construir intervalos de conanza y realizar contrastes de hiptesis.
2.5. La varianza del estimador de VI
En general, el estimador de VI tendr una varianza mayor que el de MCO.
Para verlo, ntese que la varianza estimada del estimador de VI de

,
1
, :
2
e

1
,
puede escribirse como:
:
2
e

1
=
:
2
o
2
z
:o
2
ZX
=
:
2
: :
2
ZX
o
2
X
,
donde
:
ZX
=
o
ZX
o
Z
o
X
es el coeciente de correlacin muestral entre 2 y A (que mide el grado
de relacin lineal entre A y 2 en la muestra).
Recordemos que la varianza estimada del estimador MCO de ,
1
,

,
1
, es
:
2
b

1
=
:
2
:o
2
X
,
donde:
:
2
=
1
n

i

2
i
,
siendo
i
el residuo de la estimacin de MCO.
7
Cuando en realidad A es una variable exgena, los estimadores MCO son
consistentes, y en tal caso
j lm:
2
= j lm :
2
= o
2
.
Como 0 < [:
ZX
[ < 1, esto implica que:
:
2
e

1
:
2
b

1
(y la diferencia ser tanto mayor cuanto menor sea :
ZX
en valor absoluto).
Por tanto, cuando A es exgena, realizar la estimacin por VI en vez de por
MCO tiene un coste en trminos de eciencia.
Cuanto menor sea la correlacin entre 2 y A, mayor ser la varianza
de VI respecto a la de MCO.
(Si A es endgena, la comparacin entre el estimador MCO y el de VI en trmi-
nos de eciencia NO tiene sentido, porque el estimador MCO es inconsistente).
Para ilustrarlo, en el caso en que tanto

,
1
como

,
1
son consistentes (es decir,
A es exgena), asintticamente la varianza del estimador de VI relativa al de
MCO depende inversamente de :
ZX
j lm
:
2
e

1
:
2
b

1
=
1
j
2
ZX
Es decir,
Si j
ZX
= 1 % = 0.01, la varianza del estimador de VI sera, en el lmite,
10000 veces mayor que la del estimador MCO (y por tanto el error estndar
de la pendiente estimada sera 100 veces mayor).
Si j
ZX
= 10 % = 0.1, la varianza del estimador de VI sera, en el lmite,
100 veces mayor que la del estimador MCO (y por tanto el error estndar
de la pendiente estimada sera 10 veces mayor).
Incluso con una correlacin relativamente alta, j
ZX
= 50 % = 0.5, la
varianza del estimador de VI sera, en el lmite, 4 veces mayor que la del
estimador MCO (y por tanto el error estndar de la pendiente estimada
sera el doble).
8
2.6. Nota sobre el 1
2
con variables instrumentales
La mayor parte de los programas economtricos calculan el 1
2
con la estimacin
de VI mediante la frmula convencional:
1
2
= 1

n
i=1

2
i

n
i=1

2
i
,
donde
i
son los residuos de VI.
Sin embargo, cuando A y estn correlacionadas (razn por la que se utiliza
el estimador de VI), esta frmula del 1
2
no es correcta.
A diferencia del 1
2
de la estimacin MCO, el de la estimacin VI puede
ser negativo porque es posible que

n
i=1

2
i


n
i=1

2
i
.
- Cuando C (A. ) ,= 0, no podemos descomponer la varianza de 1 como
,
1
\ (A) + \ (), y por tanto el 1
2
no tiene una interpretacin natural.
- En particular, no puede utilizarse para construir el estadstico de contraste
\
0
.
Si nuestro objetivo fuese maximizar el 1
2
, siempre utilizaramos MCO.
Pero si nuestro objetivo es estimar apropiadamente el efecto causal de A sobre
1 :
Si C (A. ) = 0, podramos utilizar MCO
(que ser adems ms eciente que cualquier otro estimador de VI que
utilice un instrumento 2 ,= A).
Si C (A. ) ,= 0, MCO no proporcionar una estimacin consistente de tal
efecto,
mientras que s lo har un estimador de VI con un instrumento 2 ,= A
apropiado
(La bondad del ajuste, en este contexto, no es el aspecto de inters).
9
2.7. Instrumentos no adecuados
El estimador de VI es consistente cuando C(2. ) = 0 y C(2. A) ,= 0.
Si no se cumplen estas condiciones, el estimador de VI puede tener un ses-
go asinttico mayor que el de MCO, especialmente si A y 2 presentan una
correlacin dbil.
Podemos ver esto comparando el lmite en probabilidad del estimador de VI
cuando existe la posibilidad de que 2 y estn correlacionadas frente al lmite
en probabilidad del estimador MCO cuando A es endgena.
j lm

,
1
= ,
1
+
C(2. )
C(2. A)
j lm

,
1
= ,
1
+
C(A. )
\ (A)
Expresado en trminos de las correlaciones y desviaciones estndar poblacionales
de y A respectivamente:
j lm

,
1
= ,
1
+
j
Z"
j
ZX
o
"
o
X
j lm

,
1
= ,
1
+ j
X"
o
"
o
X
Por tanto, preferiramos el estimador de VI al MCO si
j
Z"
j
ZX
< j
X"
.
Cuando 2 y A no estn correlacionadas en absoluto, la situacin es especial-
mente mala, est o no 2 correlacionada con .
De hecho, cuando 2 y A presentan una correlacin muestral :
ZX
muy pequea,
el problema ser muy parecido:
Puede estar reejando que C(2. A) = 0.
Las estimaciones sern muy imprecisas, pudiendo presentar valores im-
plausibles.
10
Ejemplo: Efecto del consumo de tabaco sobre el peso del nio al nacer
El siguiente ejemplo ilustra por qu siempre deberamos comprobar si la variable
explicativa endgena est correlacionada con el instrumento potencial.
Al estimar el efecto de varias variables, entre ellas el consumo de tabaco por
parte de la madre, en el peso de los recin nacidos se han obtenido los siguientes
resultados:
Dependent Variable: LBWGHT
Method: Least Squares
Sample: 1 1388
Included observations: 1388
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
PACKS 0.0837 0.0175 4.80 0.000
MALE 0.0262 0.0100 2.62 0.009
PARITY 0.0147 0.0054 2.72 0.007
LFAMINC 0.0180 0.0053 3.40 0.001
C 4.6756 0.0205 228.53
R-squared 0.0350 F-statistic 14.69
Prob(F-statistic) 0.000
donde
LBWGHT = logaritmo del peso del beb al nacer,
MALE = variable binaria que vale 1 si el beb es varn y 0 en otro caso,
PARITY = orden de nacimiento (entre sus hermanos) del beb,
LFAMINC = logaritmo de la renta familiar en miles de dlares,
PACKS = nmero medio de cajetillas diarias fumadas por la madre durante el
embarazo.
Tal vez nos preocupe que PACKS est correlacionado con otros hbitos de salud
y/o con un buen cuidado prenatal, de manera que PACKS y el trmino de per-
turbacin del modelo podran estar correlacionados.
11
Una posible variable instrumental para PACKS es el precio medio de los cigarril-
los en el estado de residencia de cada madre (variable CIGPRICE). Supondremos
que CIGPRICE no est correlacionado con el trmino de perturbacin del mode-
lo (aunque las ayudas estatales a la salud podran estar correlacionadas con los
impuestos al tabaco).
La teora econmica sugiere que PACKS y CIGPRICE estn correlacionadas de
forma negativa, por lo que se podra utilizar CIGPRICE como una variable in-
strumental. La estimacin de la forma reducida de PACKS sobre CIGPRICE y el
resto de las variables exgenas es la siguiente:
Dependent Variable: PACKS
Method: Least Squares
Sample: 1 1388
Included observations: 1388
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
CIGPRICE 0.0008 0.0008 1.00 0.317
MALE 0.0047 0.0158 0.30 0.766
PARITY 0.018 0.0089 2.04 0.041
LFAMINC 0.0526 0.0087 6.05 0.000
C 0.1374 0.1040 1.32 0.187
R-squared 0.0305 F-statistic 10.86
Prob(F-statistic) 0.000
Los resultados de la estimacin indican que no hay relacin entre el consumo
de cigarrillos durante el embarazo y el precio de los mismos (es decir, que
la elasticidad precio del consumo de tabaco, que es un bien adictivo, no es
estadsticamente distinta de cero).
Dado que PACKS y CIGPRICE no estn correlacionadas, no deberamos utilizar
CIGPRICE como VI. Pero, qu sucede si lo hacemos? Los resultados de la esti-
12
macin VI son:
Dependent Variable: LBWGHT
Method: Two-Stage Least Squares
Sample: 1 1388
Included observations: 1388
Instrument list: CIGPRICE
Variable Coefficient Std. Error t-Statistic Prob.
PACKS 0.7971 1.1132 0.72 0.474
MALE 0.0298 0.0172 1.73 0.084
PARITY 0.0012 0.0254 0.05 0.961
LFAMINC 0.0636 0.0571 1.12 0.265
C 4.4679 0.2563 17.43 0.000
R-squared . F-statistic 2.50
Adjusted R-squared 0.32017 Prob(F-statistic) 0.041
El coeciente de PACKS es muy grande y tiene un signo opuesto al esperado. El
error estndar es tambin muy grande. Pero las estimaciones carecen de sentido,
ya que CIGPRICE no cumple uno de los requisitos de variables instrumentales.
3. Generalizacin: el estimador de MC2E
3.1. Modelo simple
Dado el modelo:
1 = ,
0
+ ,
1
A + (3)
donde C(A. ) ,= 0,
supongamos que disponemos de dos posibles Variables Instrumentales 2
1
y 2
2
que cumplen:
C(2
1
. ) = 0. C(2
2
. ) = 0.
C(2
1
. A) ,= 0. C(2
2
. A) ,= 0.
en vez de obtener dos estimadores de VI, uno con 2
1
y otro con 2
2
, podemos
obtener el estimador de Mnimos Cuadrados en 2 Etapas (MC2E), que
emplea como instrumento una combinacin lineal de 2
1
y 2
2
:
13
1
a
Etapa: Se estima por MCO la regresin auxiliar de la variable endgena
A sobre los instrumentos 2
1
y 2
2
(conocida como forma reducida):
A = :
0
+ :
1
2
1
+ :
2
2
2
+ . (4)
Denotando como j
0
, j
1
, j
2
los correspondientes estimadores de dicha forma
reducida, se obtienen los valores ajustados de A a partir de las estimaciones
de la forma reducida:

A = j
0
+ j
1
2
1
+ j
2
2
2
.
2
a
Etapa: Se estima por MCO la regresin de 1 sobre

A (de ah el nombre
de MC2E):
1 = ,
0
+ ,
1

A + n (5)
(El estimador resultante es equivalente a estimar ,
0
y ,
1
por VI empleando

A como instrumento de A).


Aunque en ambos casos los coecientes son los mismos, los errores estndar de
hacer MC2E secuencialmente son incorrectos.
La razn es que el trmino de error de la segunda etapa, n. incluye , pero los
errores estndar comprenden la varianza de solamente.
La mayora de los paquetes economtricos tienen instrucciones especiales para
llevar a cabo MC2E, por lo que no es preciso realizar las dos etapas secuencial-
mente.
3.2. Interpretacin de la forma reducida
La forma reducida (4) descompone de forma aditiva la variable explicativa end-
gena en dos partes:
La parte exgena de A, que es aquella explicada linealmente por los instru-
mentos (que son exgenos respecto al error del modelo), :
0
+:
1
2
1
+:
2
2
2
La parte endgena de A, que es lo que queda sin explicar por los instru-
mentos, es decir, el error de la forma reducida .
14
Suponiendo que se cumplen todos los supuestos del modelo de regresin lineal,
que los instrumentos son vlidos y que \ ([ 2
1
. 2
2
) es homocedstica, se de-
muestra que los estimadores de MC2E son consistentes y asintticamente
normales, con lo que la inferencia es vlida usando como estimador de la
varianza poblacional
:
2
=
1
:

i
n
2
i
,
donde n
2
i
son los residuos basados en la estimacin MC2E.
Al igual que ocurre con el estimador de VI, cuando los instrumentos no son
apropiados (porque estn correlacionados con el trmino de error o poco cor-
relacionados con la variable endgena) los estimadores de MC2E pueden ser
peores que los de MCO.
3.3. Modelo mltiple
Consideremos para simplicar el modelo de regresin lineal:
1 = ,
0
+ ,
1
A
1
+ ,
2
A
2
+
donde:
1() = 0. C(A
1
. ) = 0.
C(A
2
. ) ,= 0.
Es decir: A
1
es una variable exgena
pero A
2
es una variable endgena.
Supongamos que disponemos de una variable instrumental 2 tal que
C(2. ) = 0.
La forma reducida ser:
A
2
= :
0
+ :
1
A
1
+ :
2
2 + .
Para que 2 sea un instrumento vlido ser necesario que :
2
,= 0 (es decir, que
C(2. A
2
) ,= 0).
Muy importante: Ntese que la forma reducida para la variable explicativa
endgena incluye los instrumentos y todas las variables explicativas exgenas
del modelo.
15
3.4. Modelo mltiple con varias variables explicativas end-
genas
Qu pasa si tenemos ms de una variable endgena?
Supongamos que
1 = ,
0
+ ,
1
A
1
+ ,
2
A
2
+ ,
3
A
3
+
donde A
1
y A
2
son endgenas, mientras que A
3
es exgena.
1() = 0. C(A
1
. ) ,= 0. C(A
2
. ) ,= 0. C(A
3
. ) = 0.
En ese caso, necesitaremos, al menos tantas variables exgenas adicionales
como variables explicativas endgenas haya para poder utilizar como in-
strumentos.
En este caso, sean 2
1
y 2
2
tales que C(2
1
. ) = C(2
2
. ) = 0.
Tendremos una ecuacin de forma reducida para cada variable explicativa
endgena,
donde aparecern todas las variables explicativas exgenas y todos los
instrumentos:
A
1
= :
10
+ :
11
A
3
+ o
11
2
1
+ o
12
2
2
+
1
,
A
2
= :
20
+ :
21
A
3
+ o
21
2
1
+ o
22
2
2
+
2
,
donde debe cumplirse al menos que o
11
,= 0 y o
22
,= 0 o que o
12
,= 0 y
o
21
,= 0.
(En general, todos los dos instrumentos estarn presentes en ambas ecua-
ciones de forma reducida).
4. Contraste de endogeneidad (contraste de Haus-
man)
En la prctica, existen muchas situaciones en las que no sabemos si una variable
explicativa es o no endgena. Por ello se han propuesto contrastes de endogenei-
dad.
En el contexto del modelo
1 = ,
0
+ ,
1
A + (6)
16
podemos considerar las hiptesis alternativas:
H
0
: C(A. ) = 0 (exogeneidad)
H
1
: C(A. ) ,= 0 (endogeneidad)
Cmo puedo realizar el contraste de la hiptesis nula de exogeneidad?
Supongamos que disponemos de un instrumento vlido 2
(de manera que C(2. ) = 0 y C(2. A) ,= 0)
Entonces, a partir de la forma reducida
A = :
0
+ :
1
2 + ,
es fcil obtener que
C(A. ) = C(:
0
+ :
1
2 + . ) = C(. ) =
C(A. ) = 0 =C(. ) = 0
Por tanto, si H
0
: C(A. ) = 0 es cierta, el coeciente c en la regresin:
= c +
verica que c = 0, o de manera equivalente el coeciente c en la regresin,
1 = ,
0
+ ,
1
A + c + (7)
verica que c = 0.
Por tanto, si pudiera estimar (7) podra contrastar contrastar H
0
: c = 0, que
sera equivalente a contrastar H
0
: C(A. ) = 0.
En la prctica, dado que no es observable, se sustituye por el residuo de MCO
de la forma reducida, lo que no tiene consecuencias.
Por tanto, el modelo
1 = ,
0
+ ,
1
A + c +
0
(8)
con = A (j
0
+ j
1
2) (residuo MCO de la forma reducida), se estima por
MCO.
17
La hiptesis nula es que A es exgena, es decir: H
0
: c = 0.
Por tanto, si rechazamos que c es cero en el modelo (8), concluiremos que A
es endgena, debiendo actuar en consecuencia.
Generalizacin:
El contraste de Hausman para el caso de : variables potencialmente endgenas
consistira en:
estimar las : formas reducidas correspondientes para cada una de estas
variables,
obtener los residuos de cada forma reducida,
incluir como : regresores adicionales cada uno de estos residuos en el mo-
delo de inters,
y contrastar la signicacin conjunta de dichos residuos mediante el es-
tadstico \
0
:
\
0
=
o11 o1o
o1o
(: 1 1)
2
r
donde
o11 es la suma de los cuadrados de los residuos del modelo original
sin los residuos de las formas reducidas,
o1o es la suma de los cuadrados de los residuos del modelo ampliado
que incluye los residuos de cada una de las formas reducidas como
regresores adicionales con dichos residuos
: es el nmero de variables potencialmente endgenas.
Si se concluye que los residuos de las formas reducidas son conjuntamente
signicativos,
ello indica que al menos una de las variables explicativas potencialmente
endgenas lo es en realidad.
Ejemplo
Como ilustracin, supongamos que tenemos el modelo
1 = ,
0
+ ,
1
A
1
+ ,
2
A
2
+ ,
3
A
3
+
donde A
1
y A
2
son potencialmente endgenas, mientras que A
3
es exgena.
18
En ese caso, necesitaremos, al menos, dos variables exgenas adicionales
2
1
y 2
2
tales que C(2
1
. ) = C(2
2
. ) = 0 para poder utilizar como instru-
mentos.
Tendremos dos ecuaciones de forma reducida:
A
1
= :
10
+ :
11
A
3
+ o
11
2
1
+ o
12
2
2
+
1
,
A
2
= :
20
+ :
21
A
3
+ o
21
2
1
+ o
22
2
2
+
2
.
La hiptesis nula de exogeneidad es ahora H
0
: C(A
1
. ) = 0, C(A
2
. ) = 0.
De forma equivalente, considerando la regresin ampliada
1 = ,
0
+ ,
1
A
1
+ ,
2
A
2
+ ,
3
A
3
+ c
1

1
+ c
2

2
+
0
,
donde
1
,
2
son los residuos de las formas reducidas para A
1
, A
2
, respec-
tivamente,
la hiptesis nula de exogeneidad se puede escribir como H
0
: c
1
= c
2
= 0.
Para contrastar dicha hiptesis (que se compone de dos restricciones), de-
beramos estimar dicha regresin ampliada y calcular su suma de cuadrados
de los residuos o1o as como el modelo bajo H
0
1 = ,
0
+ ,
1
A
1
+ ,
2
A
2
+ ,
3
A
3
+ ,
y calcular la suma de cuadrados de los residuos o11 para construir el
contraste \
0
, cuya distribucin aproximada es una
2
2
.
5. Contraste de restricciones de sobreidenticacin
(contraste de Sargan)
Si tenemos solamente una variable instrumental para cada variable explicativa
endgena, no podemos contrastar la condicin de no correlacin de los instru-
mentos con el error. Decimos que el modelo est exactamente identicado.
Sin embargo, si tenemos ms variables instrumentales que variables explicati-
vas potencialmente endgenas, podemos contrastar si alguna de ellas no est
correlacionada con el trmino de error.
19
Supongamos que tenemos : variables explicativas potencialmente endgenas y
instrumentos, donde : (de manera que : es el nmero de restricciones
de sobreidenticacin).
Aunque, obviamente, no observamos los errores de la ecuacin de inters n,
podemos implementar un contraste basado en los residuos MC2E, n, que son
los anlogos muestrales de n.
El contraste es bastante sencillo:
Estimar la ecuacin de inters por MC2E y obtener los residuos MC2E, n.
Regresar n sobre todas las variable exgenas del modelo y sobre todos los
instrumentos. Obtener el 1
2
de dicha regresin, 1
2
e u
.
Bajo la hiptesis nula de que todas las VI verican que no estn correla-
cionadas con n, tenemos que
:1
2
e u

2
qr
.
donde : es el nmero de restricciones de sobreidenticacin, es decir,
el nmero de instrumentos extra.
La intuicin de este contraste los valores ajustados de esta regresin auxiliar,

n
i
, tienen media cero y varianza o
2
e u
. Suponiendo homocedasticidad condicional,
tenemos que, asintticamente,

i
_

n
2
i
o
2
e u
_
es una suma de `(0. 1) al cuadrado, de las cuales solamente : son independi-
entes. Por tanto, dicha expresin se distribuye asintticamente como una
2
qr
.
En la prctica, sustituiremos o
2
e u
por un estimador consistente :
2
e u
=
1
:

i
n
2
i
,
es decir que nuestro estadstico ser

n
2
i
1
:

i
n
2
i
= :

n
2
i

i
n
2
i
= :1
2
e u
.
20
Si :1
2
e u
excede el valor crtico de la distribucin
2
qr
al nivel se signicacin
prejado, rechazaremos la hiptesis nula a dicho nivel de signicacin y con-
cluiremos que al menos alguna de las VI no es exgena.
Otra cosa es que este contraste no establece qu variable es la responsable de
rechazar la hiptesis nula de no correlacin.
(No obstante, en la medida en que : sea grande, podramos aplicar el proceso
secuencialmente para averiguar qu instrumentos son responsables del rechazo).
Este contraste tambin se conoce como contraste de Hansen-Sargan.
6. Ejemplo: ecuacin de salarios
Sea la ecuacin:
ln(salario) = ,
0
+ ,
1
educ + ,
2
cap +
donde ,
2
,= 0 (es decir, la variable cap, capacidad, que es inobservable, es una
variable relevante).
Si estimamos por MCO:
ln(salario) = ,
0
+ ,
1
educ + n
con n = ,
2
cap +
=

,
1
ser un estimador inconsistente de ,
1
.
Si disponemos de una variable instrumental para educ podremos estimar por
VI.
Qu condiciones debe cumplir el instrumento para que nuestro estimador de
VI sea consistente?
C(2. n) = 0: No estar correlacionado con la capacidad ni con otros inob-
servables que afecten al salario.
C(2.educ) ,= 0: Estar correlacionado con la educacin.
Algunos ejemplos de posibles instrumentos (2) para educ: Educacin de la
madre, educacin del padre, nmero de hermanos, distancia al colegio, etc.
Disponemos de una muestra de 336 mujeres casadas.
21
6.1. Estimacin MCO
Los resultados de la estimacin MCO son:

ln(salario) = 0.286 + 0.083 educ


(0.120) (0.009)
La interpretacin es que un ao adicional de edcuacin incrementa el salario en
promedio en un 8.3 %.
6.2. Estimacin por VI (un nico instrumento)
Posible Instrumento: Educacin del padre (educp)
Forma reducida:

educ = 9.799 + 0.282 educp


(0.198) (0.021)
1
2
= 0.196
El estadstico t para el instrumento en esta forma reducida es
t = 0.282,0.021 13.52,
es decir, se rechaza H
0
: :
1
= 0.
Por tanto, la educacin de la mujer (educ) est signicativamente correla-
cionada con la educacin del padre (educp).
Estimacin de VI:

ln(salario) = 0.363 + 0.076 educ


(0.289) (0.023)
Al comparar la estimacin MCO con la de VI, sugiere que la estimacin MCO
es demasiado elevada y est en consonancia con un sesgo positivo del estimador
MCO al omitir la capacidad de nuestro anlisis.
Ntese tambin que los errores estndar de la estimacin VI son sustancialmente
mayores que los de la estimacin MCO, tal y como sugiere la teora (aunque en
todo caso la educacin sigue siendo claramente signicativa).
22
Contraste de Hausman
A partir de la forma reducida, generamos la variable como el residuo de
dicha ecuacin estimada:
= educ (9.799 + 0.282 educp),
y realizamos la regresin por MCO del modelo
ln(salario) = ,
0
+ ,
1
educ + c + c,
obteniendo:

ln(salario) =

,
0
+

,
1
educ + 0.007 + c
(0.024)
Contrastamos H
0
: c = 0 (educ es exgena).
t = 0.007,0.024 0.3.
= No se rechaza la exogeneidad de educ.
6.3. Estimacin por VI (varios instrumentos)
Supongamos que, adems de la educacin del padre educp disponemos de la
educacin de la madre educm como instrumento.
Ahora, la forma reducida sera

educ = 8.976 + 0.183 educp + 0.183 educm


(0.226) (0.025) (0.026)
1
2
= 0.245
El estadstico para el contraste de signicacin conjunta de educp y educm en
esta forma reducida es \
0
243.3, que se distribuye aproximadamente como
una
2
2
.
La estimacin de MC2E utilizando educp y educm como instrumentos es ahora

ln(salario) = 0.396 + 0.074 educ


(0.272) (0.022)
23
Para implementar ahora el contraste de Hausman, tomamos el residuo de la
forma reducida
= educ (8.976 + 0.183 educp + 0.183 educm),
y realizamos la regresin por MCO del modelo
ln(salario) = ,
0
+ ,
1
educ + c + c,
obteniendo:

ln(salario) =

,
0
+

,
1
educ + 0.0107 + c
(0.022)
Contrastamos H
0
: c = 0 (educ es exgena).
t = 0.0107,0.022 0.5.
= No se rechaza la exogeneidad de educ.
6.4. Contraste de Sargan
Continuando con el ltimo caso, tenamos dos instrumentos (educp y educm)
para una variable potencialmente endgena (educ), con lo que tenemos 1 re-
striccin de sobreidenticacin.
Podemos por tanto evaluar parcialmente la validez de los instrumentos (es decir,
la hiptesis nula de exogeneidad) contrastando la no correlacin de los instru-
mentos con el trmino de error de la ecuacin de inters utilizando un contraste
de Sargan.
Para ello, calculamos los residuos de la estimacin MC2E
n = ln(salario) (0.396 + 0.074 educ)
y realizamos la regresin auxiliar de dichos residuos tanto sobre:
las variables exgenas que haya y
sobre los instrumentos utilizados,

n = 0.0054 + 0.0020 educp - 0.0025 educm


(0.0703) (0.0075) (0.0081)
1
2
= 0.0003
24
Por tanto, el estadstico de contraste es igual a
:1
2
e u
= 0.1008,
que tiene un valor muy bajo para una distribucin aproximada
2
1
, con lo que
no rechazamos la hiptesis nula de no correlacin de los instrumentos con el
trmino de error del modelo.
En consecuencia, no hay evidencia en contra de la validez de los instrumentos.
7. Consideraciones nales
En la prctica, en muchas situaciones es difcil encontrar instrumentos
vlidos, es decir, variables no incluidas en la ecuacin de inters que, estando
muy correlacionadas con las variables explicativas potencialmente endgenas,
no estn correlacionadas con el trmino de error de la ecuacin de inters.
El problema es que en el contexto de variables econmicas, la mayora de las
variables disponibles son resultado de las decisiones de los agentes, y
por tanto su exogeneidad es muy cuestionable.
Idealmente, nos gustara poder contar como variables instrumentales con vari-
ables que vinieran dadas a los agentes econmicos objeto de estudio (y son
por tanto exgenas).
Hemos visto como un ejemplo de esto el precio de los cigarrillos como instru-
mento para el nmero de cajetillas de tabaco consumidas.
El problema es que, en muchos contextos (como el de dicho ejemplo), la calidad
del instrumento se ve mermada por la dbil correlacin con la variable
explicativa endgena que se desea instrumentar.
EJEMPLO: La existencia de informacin pasada de las variables de inters abre
posibilidades para encontrar instrumentos adicionales. As, variables explicati-
vas endgenas podran instrumentarse mediante los valores que dichas variables
tomaron en perodos pasados (dado que los valores pasados de dichas variables
estn dadas antes de que se realicen los valores corrientes).
25
Por ejemplo, en el contexto de una ecuacin de consumo y renta perma-
nente (inobservable) en el que se utiliza en lugar de sta la renta disponible,
lo que induce un problema de endogeneidad por error de medida, si se
dispone de la renta disponible del ao anterior podra emplearse como
instrumento.
Si se analiza dicha relacin con datos agregados de series temporales, se
podra usar la renta disponible desfasada como instrumento.
Si se analiza dicha relacin con datos de familias y se dispone de datos lon-
gitudinales (datos de panel), la renta disponible desfasada de cada familia
podra emplearse como instrumento.
26

You might also like