You are on page 1of 23

PARTE II.

EL MODELO LINEAL GENERAL


Tema 2. ESPECIFICACIÓN Y ESTIMACIÓN EN EL
MODELO LINEAL GENERAL
2.1. Introducción
2.2. Hipótesis del modelo
2.3. Estimación mínimo cuadrática ordinaria. Propiedades de los estimadores
2.4. Estimación por máxima verosimilitud. Propiedades de los estimadores
2.5. Estimación por intervalo
2.6. Interpretación de los parámetros obtenidos

2.1. Introducción
Especificación: se identifican las variables fundamentales que influyen sobre el objeto de
estudio (variables explicativas y variable a explicar) y se plantea la forma funcional concreta
que expresa la relación entre el conjunto de variables; incluye la perturbación aleatoria y una
serie de hipótesis (hipótesis básicas o clásicas).
Supongamos la siguiente especificación:

Yi =β1 +β 2 X 2i +...+β k X ki +u i i=1,2,..., T (1)

Se trata del llamado Modelo Lineal General (MLG). T es el tamaño muestral, k el


número de parámetros de posición
Un caso particular es el Modelo Lineal Simple (MLS), que sólo incluye una variable
explicativa:
Yi= β1+β2Xi +ui
La información se ordena en vectores y matrices. Así, usaremos también la notación
matricial:
y = X·β + u donde:

⎛ Y1 ⎞ ⎛1 X 21 ... X k1 ⎞ ⎛ β1 ⎞ ⎛ u1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜β ⎟ ⎜ ⎟
1 X 22 ... X k2 ⎟ u
y = ⎜
Y2 ⎟
X =⎜ β=⎜
2 ⎟ u = ⎜ 2 ⎟
⎜ ... ⎟ ⎜ ... ... ... ... ⎟ ⎜ ... ⎟ ⎜ ... ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ YT ⎠ ⎝1 X 2T ... X kT ⎠ ⎝ βk ⎠ ⎝ uT ⎠

El vector y es de orden (Tx1), lo mismo que el vector u. La matriz X es de orden


(Txk). El vector β es de orden (k x1)

1
Cada fila se corresponde con una observación de la variable a explicar o de las
explicativas
En la matriz X, cada columna se corresponde con los datos de una variable.
Dicho de otro modo, tenemos un modelo uniecuacional con una variable endógena o
variable a explicar (y) en el que distinguimos dos partes:
– Una parte esencial, compuesta por las variables que según la Teoría Económica
explican el comportamiento de la endógena, es decir, en función de las explicativas
y los parámetros asociados. Es lo que llamaremos parte sistemática de la
ecuación
– La otra depende de la perturbación aleatoria, del término de error. Engloba el
resto de factores que, aun teniendo influencia sobre la endógena, no se consideran
esenciales (individualmente son superfluos). Se denomina parte aleatoria
Yi = β1 + β2 X 2i + ... + βk X ki + ui
Parte Sistemática Parte aleatoria

Una vez formulado el modelo, suponemos que se cumplen una serie de hipótesis
sobre la distribución de probabilidad de la perturbación aleatoria y sobre los valores
de las variables explicativas. Son las llamadas hipótesis básicas o clásicas o
modelo de trabajo en condiciones ideales

2.2. Hipótesis del modelo

1. Hipótesis de especificación correcta:


Asumimos que la ecuación (1) es correcta lo que implica suponer que:
i) La relación entre la variable endógena (y) y las variables explicativas
(X2,…,Xk) es una relación lineal.
ii) El modelo planteado NO omite ninguna variable explicativa relevante.
iii) El modelo planteado NO incluye variables explicativas irrelevantes.
iv) Grados de libertad positivos: gl=T-k>0 , T>k .

2. Hipótesis de permanencia estructural (parámetros constantes)


Supone que los valores de los parámetros permanecen estables a lo largo de toda la
muestra seleccionada.

3. Hipótesis de ausencia de multicolinealidad


No existe una dependencia lineal entre las variables explicativas. Es decir, ningún
regresor puede expresarse como una combinación lineal de los restantes
En consecuencia, aplicando una propiedad de las matrices definidas positivas (la
matriz X es definida positiva), tenemos que: rango(X) = rango(X'X) =k

2
● Ejemplo de modelo con multicolinealidad: y= X ·β+ u ,
⎛1 4 2 ⎞
⎜ ⎟
Con X= ⎜1 6 3 ⎟ .
⎜ ⎟
⎜ ⎟
⎝1 10 5 ⎠
Notar que: X2i =2X3i ∀i ⇒X2i −2X3i =0 ∀i )

● Otro ejemplo: Yi = β1 + β 2 G i + β 3 E i + β 4 I i + β 5SC i + u i , siendo:

Yi → PIB
G i → Gasto Público
G i → Exportaciones
Ii → Importaciones
SCi → Saldo Comercial

4. Hipótesis de regresores no estocásticos


Los elementos de X son no estocásticos y, en todo caso, independientes de la
perturbación: Cov ⎡⎣ X ji; u i ⎤⎦ = 0; ∀i = 1, 2,…T , ∀j= 2,…k

Es decir, la parte sistemática no es estocástica (no son variables aleatorias) y, además


suponemos que es independiente de la parte aleatoria del modelo. No hay relación entre ellas.

5. Hipótesis de convergencia
⎛ X 'X ⎞
lim ⎜ ⎟ → Σ xx
T →∞
⎝ T ⎠

6. Hipótesis referentes a las perturbaciones aleatorias del modelo


El término de error ut satisface las siguientes hipótesis:
6.1.El valor esperado de la perturbación es nulo (Media nula):
E(ui )=0, ∀i En consecuencia:
ƒ E ( Yi ) = β1 + β 2 X 2i + ... + β k X ki . Es decir, el valor esperado de Y es la parte
sistemática del modelo (la parte sistemática recoge el comportamiento esperado).
ƒ En promedio, el impacto del error sobre la variable que queremos explicar es
nulo. Es decir, no nos hemos dejado nada relevante sin incluir en la ecuación,
estamos considerando todas las variables explicativas relevantes para explicar la
endógena y no nos hemos dejado ninguna fuera del modelo.
6.2. La varianza de las perturbaciones es constante, ∀i. (Homocedasticidad)
Var(u i ) = E(u i2 ) = σ 2 ∀i
La incertidumbre (riesgo, medido por la varianza) asociada a cada observación es la
misma

3
HOMOCEDASTICIDAD HETEROCEDASTICIDAD

6.3 Ausencia de autocorrelación en todo instante de tiempo (No autocorrelación):


cov(u i u j ) = E(u i u j ) = 0, ∀i, j = 1, 2,… T,i ≠ j .

Las perturbaciones son independientes.


(Si pensamos en series temporales el error de un periodo se “consume” en ese
mismo periodo: no afecta a los posteriores)

Las tres propiedades anteriores


implican que la matriz de varianzas y covarianzas de las perturbaciones es escalar, o en
otra terminología, que las perturbaciones son esféricas:
Recordemos:

⎛ E(u12 ) E(u1u 2 ) … E(u1u T ) ⎞


⎜ ⎟
E(u 2 u1 ) E(u 22 ) … E(u 2 u T ) ⎟
Var(u) = E(uu ') = ⎜
⎜ ⎟
⎜⎜ 2
⎟⎟
⎝ E(u T u1 ) E(u T u 2 ) … E(u T ) ⎠

Por las tres propiedades anteriores:


⎛ σ2 0 … 0⎞ ⎛1 0 … 0⎞
⎜ ⎟ ⎜ ⎟
0 σ 2
… 0 ⎟ 2 ⎜0 1 … 0⎟ 2
Var(u) = ⎜ =σ = σ IT
⎜ ⎟ ⎜ ⎟
⎜⎜ ⎟ ⎜ ⎟
⎝0 0 … σ2 ⎠⎟ ⎝0 0 … 1⎠

4
6.4. La perturbación aleatoria sigue una distribución normal
- Para cada una de las perturbaciones:
u i ∼ N (0,σ ) ∀ i → ui ∼ i.i.d N ( 0 , σ )
2 2

Función de densidad univariante para una perturbación


1
⎧ ( u − Eu )2 ⎫ 1
⎧ u i2 ⎫
⎛ 1 ⎞2 ⎪ i i ⎪ ⎛ 1 ⎞2
f (u i ) = ⎜ 2 ⎟
exp ⎨ − ⎬ = ⎜ 2 ⎟
exp ⎨ − 2⎬
⎝ 2 πσ ⎠ ⎪⎩ 2σ 2 ⎪⎭ ⎝ 2 πσ ⎠ ⎩ 2σ ⎭

- Para el conjunto de las perturbaciones:


⎛ u1 ⎞
⎜ ⎟
u2 ⎟
u = ⎜ ∼ N (0, σ IT ) ;
2
⎜ ... ⎟
⎜ ⎟
⎝ uT ⎠
Función de densidad conjunta (distribución de probabilidad conjunta)
multivariante para las T observaciones,
⎧ T 2⎫
⎪⎪ ∑ u i ⎪⎪ ⎛ 1 ⎞ 2
T T
⎛ 1 ⎞
2 ⎧ u 'u ⎫
f (u) = f (u1 ) ⋅ f (u 2 )... ⋅ f (u T ) = ⎜ 2 ⎟
exp ⎨ − i =1
2 ⎬
=⎜ 2 ⎟
exp ⎨ − 2 ⎬
⎝ 2 πσ ⎠ ⎪ 2 σ ⎪ ⎝ 2 πσ ⎠ ⎩ 2σ ⎭
⎩⎪ ⎭⎪

Como consecuencia de todo lo anterior,

la distribución de y es: y ~ N(Xβ, σ I T )


2

Puesto que:
⎧⎪E ( y ) = E ( X·β + u ) = X·β

⎪⎩Var ( y ) = E ⎡⎣( y − E ( y ) ) ( y − E ( y ) ) '⎤⎦ = E(uu ') = σ IT
2

Recta de Regresión
POBLACIONAL

5
2.3. Estimación Mínimo Cuadrática Ordinaria (MCO).
Propiedades de los estimadores

2.3.1 Estimación MCO de los parámetros de posición del MLG y


propiedades
ESTIMACIÓN MCO

Dada la formulación del MLG, Yi = β1 + β2 X2i + ... + βk Xki + u i

Si sustituimos los parámetros por sus estimadores, obtenemos la endógena estimada:


Ŷi = βˆ 1 + βˆ 2 X 2i + ... + βˆ k X ki

La diferencia entre el verdadero valor de la variable y su estimación es el residuo:


ˆ
uˆ i = Yi − Y ˆ = Y − βˆ − βˆ X − ... − βˆ X
uˆ i = Yi − Y
i i 1 2 2i k ki

El residuo se puede interpretar como el error de estimación cometido para cada observación.
En términos matriciales:
y = X ·β + u ⎪⎫ uˆ = y − yˆ = y − X ·βˆ ⎪⎫
⎬ ⇒ ⎬
yˆ = X ·βˆ ⎭⎪ y = yˆ + uˆ ⎭⎪

Gráficamente:

6
Los estimadores Mínimo Cuadrático Ordinarios, son aquellos que minimizan la
función objetivo, suma de los cuadrados de los residuos (Suma Residual, SR):
M in S R = M in ∑ uˆ i2 = M in uˆ ′uˆ = M in( y − X ·βˆ ) ' ( y − X ·βˆ ) (2)
= M in ( y ' y − 2 βˆ ′ X ′y + βˆ ′ X ′X βˆ )

Condición necesaria

∂ uˆ ′uˆ
= − 2 X ′y + 2 X ′X βˆ = 0
∂β ˆ

(donde se han tenido en cuenta los siguientes resultados sobre derivadas


matriciales:
∂B' A ∂B' CB
= A; = 2CB , siendo C una matriz cuadrada)
∂B ∂B

La solución analítica a las condiciones de primer orden es:


X ' y = X ' Xβˆ Denominado Sistema de ecuaciones normales
Este es un sistema de k ecuaciones con k incógnitas ( βˆ 1 , βˆ 2 ,..., βˆ k ).

Escrito de otro modo

⎡ 1 1 . 1 ⎤ ⎡ Y1 ⎤ ⎡ 1 1 . 1 ⎤ ⎡ 1 X 21 ... X k1 ⎤ ⎡ βˆ 1 ⎤
⎢X ⎢ ⎥
⎢ 21 X 22 . X 2T ⎥⎥ ⎢⎢ Y2 ⎥⎥ ⎢⎢ X 21 X 22 . X 2T ⎥⎥ ⎢⎢ 1 X 22 ... X k 2 ⎥⎥ ⎢βˆ 2 ⎥
=
⎢ . . . . ⎥⎢ . ⎥ ⎢ . . . . ⎥ ⎢... ... ... ... ⎥ ⎢ . ⎥
⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥
⎣ X k1 Xk 2 . X kT ⎦ ⎣ YT ⎦ ⎣ X k1 Xk2 . X kT ⎦ ⎣ 1 X 2T ... X kT ⎦ ⎢βˆ ⎥
⎣ k⎦

Operando:
⎡ ∑ Yi ⎤ ⎡ T ∑X ∑X ∑X ⎤ ⎡ βˆ 1 ⎤
⎥ ⎢ˆ ⎥
2i 3i ki
⎢ ⎥ ⎢
⎢ ∑ Yi X 2i ⎥ = ⎢ . ∑X ∑X X ∑X X
2
2i 2i 3i 2i ki ⎥ ⎢ β 2 ⎥
⎢ . ⎥ ⎢. . . . ⎥⎢ . ⎥
⎢ ⎥ ⎢ ⎥⎢ ⎥
⎢⎣ ∑ Yi X ki ⎥⎦ ⎢⎣ . . . ∑ X 2ki ⎥⎦ ⎢⎣βˆ k ⎥⎦
El estimador β̂ que satisface este sistema se llama Estimador MCO.

En notación matricial: βˆ = (X ′X) −1 X ′y (3)

Condición suficiente
∂ 2 uˆ ' uˆ
= 2X' X > 0
∂βˆ ∂βˆ '

7
Algunas propiedades algebraicas en la estimación MCO

A partir del sistema de ecuaciones normales, tenemos: X ' y − X ' Xβˆ = 0 .


Dado que X ' y − X ' Xβˆ = X '(y − Xβˆ ) = X ' uˆ , entonces X 'uˆ = 0
Es decir, los residuos son ortogonales a las variables explicativas.
Desarrollando las matrices:
⎡ T ⎤
⎢ ∑ û i ⎥
⎡ 1 1 . 1 ⎤ ⎡ uˆ 1 ⎤ ⎢ T i =1 ⎥ ⎡0 ⎤
⎢X ⎥ ⎢ ⎥ ⎢ ⎥
⎢ 21 X 22 . X 2T ⎥ ⎢ uˆ 2 ⎥ ⎢ ∑ X 2i uˆ i ⎥ ⎢ 0 ⎥
= i =1 =⎢ ⎥
⎢ . . . . ⎥⎢ . ⎥ ⎢ ⎥ ⎢.⎥
⎢ ⎥⎢ ⎥ ⎢ . ⎥ ⎢ ⎥
⎣ X k1 Xk2 . X kT ⎦ ⎣ uˆ T ⎦ ⎢ T ⎥ ⎣0 ⎦
⎢ ∑ X uˆ ⎥
⎢⎣ i =1 ki i ⎥⎦

De lo que se deducen las siguientes propiedades:


Propiedad 1 (en modelo con constante): La suma de residuos y, por tanto, su media es cero:
T

∑ uˆ
i =1
i = 0 ⇒ uˆ = 0

Propiedad 2 (en modelo con constante): De la propiedad anterior, se deduce:

( )
T T T T

∑ û i = 0 ⇒ ∑ Yi − Y i = 0 ⇒
i =1 i=1
∑ Yi = ∑ Y i ⇒ Y = Yˆ
i=1 i=1

T
Propiedad 3: ∑X i =1
ji uˆ i = 0 j = 2,3,...k

Propiedad 4. Los residuos también son ortogonales a la variable endógena ajustada:


T
yˆ ′uˆ = βˆ ' X ' uˆ = 0 . (En términos escalares: ∑ Yˆ uˆ
i =1
i i = 0 ).

Esperanza y varianza de los estimadores MCO de los parámetros de posición


Esperanza matemática:
βˆ = ( X ′X ) X ′y = ( X ′X ) X ′ ( X ·β + u ) = β + ( X ′X ) X ′u
−1 −1 −1

(4)
( )
E βˆ = β + ( X ′X ) X ′E ( u ) = β
−1

Varianza:
ˆ = E [( βˆ − E(β))(β
Var(β) ˆ ˆ − E( β))' ]
ˆ = E [( βˆ − β)(βˆ − β)'] = E [( X'X)−1X'uu'X (X'X)−1 ⎤ =

−1 −1 −1 2 −1 2 −1 −1
= (X'X) X' E(uu')X(X'X) = (X'X) X' σ I X(X'X) = σ (X'X) X' X(X'X) =
2 −1
= σ (X'X)

8
⎛ var(βˆ 1 ) cov(βˆ 1βˆ 2 ) cov(βˆ 1βˆ k ) ⎞
⎜ ⎟
ˆ ⎜ cov(βˆ 2 βˆ 1 ) var(βˆ ) cov(βˆ 2 βˆ k ) ⎟
Var(β ) = ⎜ 2

⎜ ⎟
⎜ cov(βˆ βˆ ) cov(βˆ k βˆ 2 ) var(βˆ k ) ⎟⎠
⎝ k 1

Distribución de probabilidad

Dado que β̂ es combinación lineal de la endógena y (3), y ésta obedece a una


distribución de probabilidad normal, β̂ también seguirá ese tipo de distribución. Por tanto:

(
βˆ ~ N β, σ 2 ( X ' X )
-1
)
βˆ j ∼ N(β j , σ 2 (X' X) −jj 1 ), ∀βˆ j , j = 1,...k

PROPIEDADES DE LOS ESTIMADORES MCO β̂

Para muestras pequeñas


Son estimadores ELIO (lineales, insesgados y óptimos) y EFICIENTES
a) Lineales. En efecto: βˆ = (X ′X ) −1 X ′y = A ′y

b) Insesgados. En efecto, como acabamos de ver E βˆ = β ()


c) Óptimos. Es el de menor varianza entre todos los estimadores lineales e
insesgados
ELIO, por tanto.
d) Eficientes. Es el de menor varianza entre todos los estimadores insesgados (no
solo los lineales). En otras palabras, alcanza el límite inferior denominado cota
Cramer- Rao.

Propiedades asintóticas (para muestras grandes)


a) Insesgados asintóticamente: li m E βˆ
T→ ∞
( )= β
b) Consistentes: b1) Insesgados asintóticamente
b2) ( )= 0
li m V a r βˆ
T→∞

PRUEBA
−1
σ 2 ⎛ X ′X ⎞
T →∞
()
lim Var βˆ = lim
T →∞ T

⎝ T ⎠
−1
⎟ = 0 ⋅ Σ xx = 0

c) Eficientes asintóticamente

9
La función de distribución de β̂ tiende a colapsarse en el valor esperado β

2.3.2 Estimación MCO del parámetro de dispersión y propiedades


ESTIMACIÓN

σˆ
2
=
∑û 2
i
=
uˆ ′uˆ
T−k T−k

También podemos escribir: σ


ˆ 2
=
∑û
2
i
=
uˆ ′uˆ y' My u' Mu y' y −βˆ´X' y
= = =
T−k T−k T−k T−k T−k
Veámoslo. La matriz M es la llamada matriz de proyección, definida como
M= IT –X (X’X)-1 X’,
● La matriz M tiene propiedades importantes:
i) Cuadrada de orden T
ii) Simétrica: M= M’
M’= [IT –X (X’X)-1 X’]’ = IT –X (X’X)-1 X’ =M
iii) Idempotente: M’M= M
M’M = por ii) [IT –X (X’X)-1 X’] [IT –X (X’X)-1 X’] =
= IT –X (X’X)-1 X’ –X (X’X)-1 X’ + X (X’X)-1 X’ X (X’X)-1 X’ =
= IT –X (X’X)-1 X’ –X (X’X)-1 X’ + X (X’X)-1 X’ = M
iv) Ortogonal a la matriz X, es decir: MX=0
MX = [IT –X (X’X)-1 X’] X = X –X (X’X)-1 X’X = X-X = 0
v) Rango M = Traza M = T-k
Al ser simétrica e idempotente eso implica que: Traza (M) =Rango (M)
Por otra parte:
Traza (M) = Traza [IT –X (X’X)-1 X’] = Traza (IT) – Traza [X (X’X)-1 X’]=
= T - Traza [(X’X)-1 X’X]= T - Traza [Ik] = T-k

10
● El vector de residuos MCO se puede escribir como:
uˆ = y- yˆ = y-Xβˆ = y- X(XX)
'
X y = [I - X(XX)
-1 ' '
X ]y = My = Mu
-1 '
MX=0
y=Xβ+u

⇒ uˆ 'uˆ = u 'Mu = y 'My


● Además, a partir de lo obtenido en el apartado anterior: (2)

∑ û i2 = y ' y − 2 βˆ ′ X ′y + βˆ ′ X ′X βˆ =
X ′X βˆ = X ′y
y ' y − βˆ ′ X ′y

Esperanza y varianza del estimador MCO del parámetro de dispersión

Esperanza matemática
⎛ u' Mu ⎞ E(u' Mu)
Sabiendo que E(σˆ ) = E⎜ ⎟=
2
, vamos a obtenerla de dos formas:
⎝T-k⎠ T-k
ƒ A partir de propiedades de la traza: 1) la esperanza de un escalar es igual a la
esperanza de su traza; 2) traza (AB)= traza (BA); 3) Esperanza de la traza=traza
de la esperanza
⎡ ⎛ ⎞⎤ ⎡ ⎛ ⎞⎤
E ( u ' Mu ) = E ⎢ traza ⎜ u ' Mu ⎟ ⎥ = E ⎢ traza ⎜ Mu u ' ⎟ ⎥ = traza ( E [ Muu ' ])
⎣ ⎝ A B ⎠⎦ ⎣ ⎝ B A ⎠⎦
= traza ( ME [ uu ' ]) = σ traza ( M I T ) = σ 2 ( T − k )
2

Por tanto,
E ( uˆ ' uˆ ) E(u ' Mu) σ 2 ( T − k )
E( σˆ 2 ) = = = = σ2
T−k T−k (T − k)

ƒ A partir de una distribución auxiliar


Si u ~ N(0, σ I ) y dado que M es una matriz simétrica, idempotente y de
2
-
u' Mu
rango T-K, entonces la forma cuadrática obedece a una χ2T-k
σ 2

- La esperanza matemática de una distribución χ2 es igual a sus grados de


libertad (T-k, en nuestro caso)
u' Mu 1
- Por otra parte, E( ) = 2 E(u' Mu)
σ 2
σ
1
Por tanto, T - k = 2 E(u' Mu) ⇒ E(u' Mu) = σ (T - k)
2
-
σ
- En consecuencia,
E ( uˆ ' uˆ ) E(u ' Mu) σ 2 ( T − k )
E( σˆ 2 ) = = = = σ2
T−k T−k (T − k)

11
Varianza
Sabiendo que
⎛ u' Mu ⎞ Var(u' Mu)
- Var(σˆ 2 ) = Var ⎜ ⎟=
⎝T-k⎠ (T - k) 2

- La varianza de una distribución χ2 es igual a sus grados de libertad


multiplicados por 2 [ en nuestro caso, pues, 2(T-k)]
⎛ u' Mu ⎞ 1
- Var ⎜ 2 ⎟ = 4 Var(u' Mu)
⎝ σ ⎠ σ
1
Por tanto, 2(T - k) = 4 Var(u' Mu) . Es decir: 2σ (T - k) = Var(u' Mu)
4

σ
En consecuencia, tenemos:

⎛ uˆ ' uˆ ⎞ ⎛ u ' Mu ⎞ Var(u ' Mu ) 2 σ 4 ( T − K ) 2 σ 4


Var( σˆ ) = Var ⎜
2
⎟ = Var ⎜ ⎟= = =
⎝ T−k ⎠ ⎝ T−k ⎠ ( T − k )2 ( T − k )2 T−k

PROPIEDADES DEL ESTIMADOR MCO σ̂ 2


Para muestras pequeñas
a) No lineal. En efecto, no es una combinación lineal, sino una forma cuadrática
de la endógena
y ' My
σˆ 2 =
T−k
b) Insesgado. Tal como hemos visto, E(σˆ ) = σ
2 2

c) No óptimo. Por no ser lineal no puede ser óptimo.


No ELIO, en consecuencia
e) No eficiente: Aunque es insesgado, su varianza no alcanza el límite inferior
(cota Cramer- Rao).

Propiedades asintóticas
a) Insesgado asintóticamente: si lo es en muestras finitas, lo es asintóticamente.
b) Consistente
c) Eficiente asintóticamente
2σ 4
Su varianza asintótica es: Varas (σˆ 2 ) =
T

12
OBSERVACIÓN
Podemos hacer uso de este estimador para estimar la varianza de los estimadores de los
parámetros de posición.
2 2
( )
Tal como hemos demostrado, V a r βˆ = σ βˆ = σ ( X ' X )
−1

ˆ βˆ ) = σˆ 2 (X 'X) −1
Podemos estimar esta varianza como: V ar(
ˆ βˆ 1 )
⎛ var( ˆ βˆ 1βˆ 2 )
cov( ˆ βˆ 1βˆ k ) ⎞
cov(
⎜ ⎟
ˆ βˆ 2 βˆ 1 )
⎜ cov( ˆ βˆ )
var( ˆ βˆ 2 βˆ k ) ⎟
cov(
ˆ βˆ ) = ⎜
Var( 2

⎜ ⎟
⎜ cov( ˆ ˆ ˆ βˆ k βˆ 2 ) ˆ β k ) ⎟⎠
ˆ
⎝ ˆ β k β1 ) cov( var(

Este estimador de la varianza de β̂ es insesgado:

[ ] [ ]
E Vaˆr( βˆ ) = E σˆ 2 (X' X ) = σ 2 (X' X ) = Var( βˆ )
−1 −1

Recapitulación y ejemplos
Dada cualquier muestra de y y X en el MLG, los pasos en la estimación MCO
consisten en calcular:
(1) βˆ = (X ' X) −1 X ' y
uˆ ' uˆ
(2) σˆ 2 =
T−k
ˆ βˆ ) = σˆ 2 (X ' X) −1
(3) V ar(

EJEMPLO 1: Modelo Lineal Simple Yi = β1 + β2 X i + u i

Dada la siguiente muestra temporal de las variables Yi y X i :

Yi 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68

Xi 10 8 13 9 11 14 6 4 12 7 5

a) Obtener la estimación MCO de los parámetros del modelo Yi = β1 + β 2 X i + ui , así


como una estimación insesgada de la varianza residual y de la matriz de varianzas-
covarianzas del estimador de β1 y β 2 .

Resolución:
El enunciado ofrece información sobre el vector y y la matriz X:

13
⎡8.04 ⎤ ⎡1 10 ⎤
⎢6.95 ⎥ ⎢1 8 ⎥⎥
⎢ ⎥ ⎢
⎢7.58 ⎥ ⎢1 13⎥
⎢ ⎥ ⎢ ⎥
⎢8.81 ⎥ ⎢1 9⎥
⎢8.33 ⎥ ⎢1 11⎥
⎢ ⎥ ⎢ ⎥
y = ⎢9.96 ⎥ ; X = ⎢1 14 ⎥
⎢7.24 ⎥ ⎢1 6⎥
⎢ ⎥ ⎢ ⎥
⎢ 4.26 ⎥ ⎢1 4⎥
⎢10.84 ⎥ ⎢1 12 ⎥
⎢ ⎥ ⎢ ⎥
⎢ 4.82 ⎥ ⎢1 7⎥
⎢ ⎥ ⎢ ⎥
⎣5.68 ⎦ ⎣1 5⎦

El cálculo de la expresión βˆ = (X ' X) −1 X ' y para esta muestra requiere las siguientes
matrices:
⎡ T
X'X = ⎢
∑ X ⎤⎥ ;
i
⎡ ∑ Yi ⎤
X' y = ⎢ ⎥
⎣∑ Xi ∑X ⎦ ⎣ ∑ Yi X i ⎦
2
i

Para lo cual efectuamos los correspondientes cálculos:

i Yi Xi Yi*Xi Xi 2=Xi*Xi
1 8.04 10 80.4 100
2 6.95 8 55.6 64
3 7.58 13 98.54 169
4 8.81 9 79.29 81
5 8.33 11 91.63 121
6 9.96 14 139.44 196
7 7.24 6 43.44 36
8 4.26 4 17.04 16
9 10.84 12 130.08 144
10 4.82 7 33.74 49
11 5.68 5 28.4 25
SUMAS 82.51 99 797.6 1001
Luego:

⎡ T
X'X = ⎢
∑ X ⎤⎥ = ⎡11
i 99 ⎤
;
⎡ ∑ Yi ⎤ ⎡ 82.51 ⎤
X' y = ⎢ ⎥=⎢
⎣∑ Xi ∑ X ⎦ ⎢⎣99
2
i 1001⎥⎦ ⎣ ∑ Yi X i

⎦ ⎣ 797.60 ⎦

En consecuencia:

⎡ˆ ⎤ −1
ˆβ = ⎢ β1 ⎥ = ⎡11 99 ⎤ ⎡ 82.51 ⎤ = 1 ⎡1001 −99 ⎤ ⎡ 82.51 ⎤ = ⎡ 3 ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢⎣βˆ 2 ⎥⎦ ⎣99 1001⎦ ⎣ 797.60 ⎦ 1210 ⎣ −99 11 ⎦ ⎣ 797.60⎦ ⎣ 0.5⎦

14
Por tanto, el modelo estimado se escribe Yˆi = 3 + 0.5 X i . La estimación de la varianza
residual por MCO exige calcular la suma de cuadrados de residuos:
ˆ = 8.04 − 8 = 0.04;...; u11 = Y − Y
u1 = Y1 − Y ˆ = 5.68 − 5.5 = 0.18
1 11 11
11 2
11 2
∑u i
14
SR = ∑ u i = 14; σˆ 2 = i =1
= = 1.54
i =1 T−k 11 − 2
Por último, la estimación de la matriz de varianzas y covarianzas del estimador MCO
de β1 y β 2 es:
ˆ βˆ 1 ) cov(
⎡ var( ˆ βˆ 1βˆ 2 ) ⎤ 1.54 ⎡1001 −99 ⎤ ⎡ 1.27 −0.13⎤
ˆ βˆ ) = σˆ 2 (X ' X) −1 = ⎢
var( ⎥= ⎢ ⎥=⎢ ⎥
ˆ βˆ 2 ) ⎥⎦ 1210 ⎣ −99 11 ⎦ ⎣ −0.13 0.014 ⎦
ˆ βˆ 1βˆ 2 ) var(
⎢⎣cov(
En GRETL:

15
b) Comprobar que se cumplen las 4 propiedades algebraicas con los datos del ejercicio
numérico

i Yi Xi Yest_i=3.00009+0.500091*Xi residuos_i Xi*residuos_i Yest_i*residuos_i


1 8.04 10 8.00 0.04 0.39 0.31
2 6.95 8 7.00 -0.05 -0.41 -0.36
3 7.58 13 9.50 -1.92 -24.98 -18.25
4 8.81 9 7.50 1.31 11.78 9.82
5 8.33 11 8.50 -0.17 -1.88 -1.45
6 9.96 14 10.00 -0.04 -0.58 -0.41
7 7.24 6 6.00 1.24 7.44 7.44
8 4.26 4 5.00 -0.74 -2.96 -3.70
9 10.84 12 9.00 1.84 22.07 16.55
10 4.82 7 6.50 -1.68 -11.77 -10.93
11 5.68 5 5.50 0.18 0.90 0.99
SUMAS 82.51 99 82.51 0.00 0.00 0.00

16
EJEMPLO 2: Modelo Lineal General

Ejemplo: ventas de una empresa de aspiradores


ventas t = β 1 + β 2 Gpub t + β 3 Pr ecio t + u t
⎛1 8 100 ⎞
⎜1 9 102 ⎟
⎜1 10 95 ⎟
⎜ 14 90 ⎟
⎛ 1 1 ⎞⎜1
12 92 ⎟ = ⎛⎜ 161
1 1 1 1 1 1 1 1 10 161 923 ⎞
X ′X = ⎜ 8 24 ⎜ 1
⎟ 14592 ⎟
16 94 ⎟ ⎜ 923
9 10 14 12 16 20 22 26 2977
⎜ 100 86 ⎟⎠⎜ 1 85465 ⎟⎠
20 88 ⎟⎟ ⎝
⎝ 102 95 90 92 94 88 86 90 14592
⎜1
⎜1 22 86 ⎟
⎜1 26 90 ⎟
⎝1 24 86 ⎠
⎛ 120 ⎞
⎜ 115 ⎟
⎜ 130 ⎟
⎜ 142 ⎟
⎛ 1 1 1 1 1 1 1 1 1 1 ⎞ ⎜ 148 ⎟ ⎛ 1479 ⎞
X ′Y = ⎜ 8 9 10 14 12 16 20 22 26 24 ⎟ ⎜ 144 ⎟ = ⎜ 25053 ⎟
⎜ 100 102 95 90 92 94 88 86 90 86 ⎟⎠ ⎜ 165 ⎟ ⎜⎝ 135522 ⎟
⎝ ⎠
⎜ ⎟
⎜ 160 ⎟
⎜ 175 ⎟
−1
⎛ 10 161 923 ⎞ ⎛ 1479 ⎞ ⎝ 180 ⎠
βˆ = ( X ′X ) X ′Y = ⎜ 161 2977
−1
14592 ⎟ ⎜ 25053 ⎟
⎜ 923 14592 85465 ⎟⎠ ⎜ 135522 ⎟
⎝ ⎝ ⎠

1 ⎛ 41502841 − 291449 − 398459 ⎞⎛ 1479 ⎞ ⎛ 247 ,57 ⎞ ⎛⎜ βˆ1 ⎞⎟


= ⎜ − 291449 2721 2683 ⎟⎜ 25053 ⎟ = ⎜ 2, 20 ⎟ = βˆ
327464 ⎜ − 398459 2683 3849 ⎟⎜ 135522 ⎟ ⎜ − 1, 46 ⎟ ⎜⎜ ˆ2 ⎟⎟
⎝ ⎠⎝ ⎠ ⎝ ⎠ ⎝ β3 ⎠

EJEMPLO 3: Modelo Lineal General


Sea la siguiente Recta de Regresión Muestral:
Prêcio i = -21’87 + 0’02 FINCAi + 2’46 M2i + 13’80 N_HABi
donde PRECIO: es el precio de la vivienda en miles de euros; FINCA: es la
superficie de la finca en metros cuadrados; M2: superficie de la vivienda en metros
cuadrados; y N_HAB el número de habitaciones de que dispone la vivienda.
Se pide:
1.- Si la primera vivienda de la muestra tiene FINCA= 613, M2 = 122 y N_HAB = 4,
calcular el precio de venta estimado a partir de la recta de regresión MCO?.
Pr ice1 = -21’87 + 0’02 *613+ 2’46 * 122 + 13’80 *4 = 345 miles de euros

2.- Si el precio de venta de la primera vivienda fue 300.000 euros, calcular el residuo
para esta vivienda. ¿El comprador pagó un precio demasiado alto o demasiado bajo para la
vivienda?
u1 = Pr ice1 − Pr ice1 = 300 − 345 = −45
Por tanto, pagó un precio bajo

17
2.4. Estimación por máxima verosimilitud. Propiedades
de los estimadores

2.4.1. Estimación por máxima verosimilitud

Se trata de otro método de estimación del MLG, basado en la distribución de


probabilidad del modelo formulado.
Parte del hecho de que distintas poblaciones pueden generar muestras distintas y, por
tanto, que una muestra particular es más probable que venga generada por determinada
población que por otra. Con este método lo que se pretende es obtener los valores
estimados de los parámetros que maximicen la probabilidad con que puede ser
generada esa muestra.
Notar: si en el método MCO la endógena y es una variable aleatoria y suponemos
fijos los parámetros, en este caso suponemos que los valores de y están dados y que
los parámetros son variables aleatorias.
Como ya vimos, bajo la hipótesis básica de normalidad de la perturbación,
u ∼ N (0, σ 2 I T ) ⇒ y ~ N(Xβ, σ2IT ) .

Puesto que y es una función de u ( y = X·β + u ), la función de distribución de y se


obtiene como:
∂u
f(y) = f(u)
∂y

∂u
donde es el valor absoluto del determinante Jacobiano de la transformación.
∂y

De esta forma, podemos definir la función de distribución de y como:


T
⎛ 1 ⎞2 ⎧ 1 ⎫
f(y) = ⎜ 2⎟
exp ⎨− 2 (y − Xβ)′(y − Xβ⎬
⎝ 2πσ ⎠ ⎩ 2σ ⎭

donde se entiende que los parámetros β y σ 2 son fijos y los valores de la variable
endógena y son variables.
Se define la FUNCIÓN DE VEROSIMILITUD (distribución de probabilidad
conjunta de la muestra), que denotamos por L, donde consideramos que los valores de los
parámetros pueden cambiar, pero los valores de y son unos números determinados
observados en una muestra concreta:
T
⎛ 1 ⎞2 ⎧ 1 ⎫
L = f(y β, σ ) = ⎜
2
2⎟
exp ⎨− 2 (y − Xβ)′(y − Xβ)⎬
⎝ 2πσ ⎠ ⎩ 2σ ⎭

18
El método de estimación Máximo Verosímil (MV) consiste en encontrar aquellos
valores de los parámetros del modelo ( β1 , β 2 ,...β k , σ 2 ) que maximizan la función de
verosimilitud. Y como los valores que maximizan L son los mismos que maximizan su
logaritmo, se plantea la maximización de la función logarítmica de verosimilitud (o
función log-verosímil):
T T 1
= lnL = − ln ( 2π) − ln ( σ2 ) − 2 (y − Xβ)′(y − Xβ) =
2 2 2σ
T T 1
= − ln(2π) − ln(σ2 ) − 2 (y'y − 2β′X'y +β′X′Xβ)
2 2 2σ
Condición necesaria:
Obtenemos las primeras derivadas:
∂ 1 X′y − X′Xβ
= − 2 [ −2X′y + 2X′Xβ) ] = ( )
∂β 2σ σ2
∂ T 1 (y − Xβ)′(y − Xβ) − Tσ 2
= − + (y − Xβ )′(y − Xβ ) = ( )
∂σ2 2 σ 2 2σ 4 2σ 4

Igualando a cero y denotando con ~ los estimadores MV de los parámetros,


obtenemos:
β = ( X′X ) X′y
−1
X′y = X′Xβ ⇒

Notar: los estimadores de los parámetros de posición coinciden con los obtenidos
por MCO en este modelo.

(y − Xβ)′(y − Xβ) u ' u uˆ ' uˆ


(y − Xβ)′(y − Xβ) = Tσ 2 ⇒ σ2 = = =
T T T

Condición suficiente
Se debe estudiar el signo de la forma cuadrática dada por la matriz hessiana
⎛ ∂ 2l ∂ 2l ⎞ ⎛ X´X X´Xβ − X´y ⎞
⎜ ⎟ ⎜ − 2 ⎟
⎜ ∂β2 ∂β ∂σ ⎟ σ σ 4
Hl = = ⎜ ⎟
⎜ ∂ 2l ∂ l ⎟ ⎜ X´Xβ − X´y
2
(y − Xβ)´(y − Xβ) − Tσ 2 ⎟
⎜ ⎟ ⎜ − ⎟
⎝ ∂β ∂σ ∂ (σ 2 ) 2 ⎠ ⎝ σ4 σ6 ⎠

realizando operaciones en sus menores principales se tiene que


X´X T
H1 = − < 0; H2 = > 0
σ2 σ6
De donde se deduce que la forma cuadrática es Definida Negativa y que por lo tanto se
trata de un máximo.

19
Esperanza y varianza del estimador MV del parámetro de dispersión
Esperanza
E ( uˆ ' uˆ ) σ 2 ( T − k )
E( σ 2 ) = =
T T

Varianza
⎛ uˆ ' uˆ ⎞ V ar (u ' M u ) 2 σ (T − K ) 2 σ T − k
4 4
2
V ar ( σ ) = V ar ⎜ ⎟= = = (4)
⎝ T ⎠ T2 T2 T T

EJEMPLO:
Obtener los estimadores máximo verosímiles de los parámetros del modelo en el
ejemplo 1 presentado anteriormente:
11

∑ û 2
i
14 ⎛ 3'00009 ⎞
σ2 = i =1
= = 1'27 β = βˆ = ⎜ ⎟
T 11 ⎝ 0'500091 ⎠

2.4.2. Propiedades de los estimadores MV


PROPIEDADES DE LOS ESTIMADORES MV DE LOS PARÁMETROS DE POSICIÓN

Igual que las del estimador MCO, β̂ .

PROPIEDADES DEL ESTIMADOR MV DEL PARÁMETRO DE DISPERSIÓN


Para muestras pequeñas
a) No lineal: σ 2 = y ' M y
T

σ 2 ) ≠ σ2
b) Sesgado, pues E(~
No ELIO, por consiguiente
c) No eficiente, pues es sesgado
Propiedades asintóticas
a) Insesgado asintóticamente: lim E(σ 2 ) = σ 2
T →∞

Prueba:
~ 2 ) = lim σ 2 (T - k) σ2 T σ2k
lim E( σ = lim − lim = σ2 − 0 = σ2
T→∞ T →∞ T T →∞ T T→∞ T

b) Consistente. Recordemos que tiene que ser insesgado asintóticamente y que la


varianza tienda a 0 cuando T tiende a infinito, como puede comprobarse a partir de (4)
c) Eficiente asintóticamente.
2 2σ 4
Su varianza asintótica es Varas ( σ ) =
T

20
2.5. Estimación por intervalo
Lo emplearemos sólo para los parámetros de posición.

2.5.1. Estimación por intervalo de los parámetros de posición

Además de la estimación puntual de los parámetros de posición β̂j , podríamos definir


una estimación por intervalo para cada uno de ellos.

(
Lo hacemos a partir de la distribución conocida βˆ ~ N β, σ 2 ( X ' X ) , mediante la cual
−1
)
definiremos para cualquier β̂j :

βˆ j −β j
( −1
)
βˆ j ~ N β j , σ2 ( X′X) jj → Estandarizando :
σ2 (X' X)−jj1
∼ N(0,1)

Sin embargo, en la expresión anterior, existe el problema de que no se conoce σ 2 .


Para solucionarlo se hace uso de la distribución auxiliar que ya hemos manejado
anteriormente:
ˆ ˆ σˆ 2 (T − k) 2
u'Mu u'u
= = ~ χT−K .
σ2 σ2 σ2

Dadas dos distribuciones, una N(0,1) y otra χT − k , independientes entre sí, se cumple que
2

N ( 0,1)
~ t T −k ,
χ 2T −k
T−k
Por lo tanto:
βˆ j − β j
σ 2 (X ' X ) −jj1 βˆ j − β j βˆ j − β j
= = ~ tT−k
σˆ 2 (T − k ) σˆ 2 (X ' X ) −jj1 σˆ βˆ
j
σ2
T−k
que, como se aprecia, ya no incorpora el término desconocido σ 2 .
A partir de dicha distribución, se puede definir la estimación por intervalo para βj, de la
forma siguiente :
⎧⎪ βˆ j −βj crit ⎫⎪
Prob ⎨−tε/2 (T − k) ≤
crit
≤ tε/2 (T − k)⎬ = 1−ε
⎪⎩ σˆ βˆ j ⎪⎭

21
{
Prob βˆ j − t εcrit ˆ ˆ ≤ βj ≤ βˆ j + t εcrit
/2 (T − k) σ βj /2 (T − k) σ

ˆ ˆ ⎬ = 1− ε
βj

La ESTIMACIÓN POR INTERVALO o intervalo de confianza del (1-ε)100% para


el cualquier parámetro de posición viene dado por:
⎡ ⎤
βj ∈ ⎢βˆ j − t εcrit ˆ crit
/2 (T − k) σˆ βˆ , βj − t ε/2 (T − k) σˆ βˆ ⎥ j = 1,2,...k
⎣ j j⎦

Es decir, dado un nivel de significación ε (por ejemplo del 5%), si tomamos infinitas
muestras y para cada una de ellas calculamos el intervalo de confianza para βj, el 95% (1-
ε =0,95) de ellos es de esperar que contengan al verdadero parámetro.

En nuestro Ejemplo 1:

β1 ∈ βˆ1 ± tεcrit/ 2 (T − k )σˆ βˆ = 3'00009 ± 2 ' 262 1' 26506 = 3'00009 ± 2 ' 262 ⋅1'12475 = ( 0'455737; 5'54444 )
1

β 2 ∈ βˆ2 ± tεcrit/ 2 (T − k )σˆ βˆ = 0'500091 ± 2 ' 262 0'0139017 = 0'500091 ± 2 ' 262 ⋅ 0'117906 = ( 0'233370 ; 0'766812 )
2

2.6. Interpretación de los parámetros obtenidos


Dado el modelo
Yi = β1 + β 2 X 2i + ... + β k X ki + u i i=1,2,..., T,

y su estimación:
Ŷi = βˆ 1 + βˆ 2 X2i + ... + βˆ k X ki

ƒ Término independiente: βˆ 1 : Es la constante o término independiente. Se interpreta


como el valor esperado de la variable endógena cuando las variables explicativas toman
valor cero.
ˆ
∂Y ∆Yˆ
ƒ Pendiente de la variable Xj: βˆ j = i i
Variación absoluta de la endógena debida
∂ X ji ∆ X ji
a una variación en una unidad de la explicativa Xj, manteniendo todo lo demás constante.

22
Ejemplo:
Interpretación económica de los parámetros del siguiente modelo estimado:
P RECIOi = -21’87 + 0’02 FINCAi + 2’46 M2i + 13’80 N_HABi
donde PRECIO: es el precio de la vivienda en miles de euros; FINCA: es la
superficie de la finca en metros cuadrados; M2: superficie de la vivienda en metros
cuadrados; y N_HAB el número de habitaciones de que dispone la vivienda.
Término independiente: Precio esperado de las viviendas que cumplen que FINCA =
M2= N_HAB =0.
E(PRECIO)= -21’87 siendo FINCA = M2= N_HAB =0.
(veremos en el tema siguiente que se acepta que ese parámetro es 0, puesto que en
los términos económicos del modelo en estas circunstancias no existe una vivienda).
Pendientes: Derivadas parciales: variación absoluta de la endógena debida a una variación
en una unidad de la explicativa, manteniendo todo lo demás constante.
∂ precio ∆ precio
• βFINCA = = 0'02
∂ FINCA ∆ FINCA
Si se incrementa la superficie de la finca donde se construye la vivienda en 1 m2,
manteniendo todo lo demás constante ( ∆ M2=∆ N _ HAB =0 ), el precio de la
vivienda se incrementa en 0’02 miles de euros.
∂ precio ∆ precio
• βM2 = = 2'46
∂ M2 ∆ M2
Si se incrementa la superficie de la vivienda en 1 m2, manteniendo todo lo
demás constante ( ∆ FINCA=∆ N_HAB=0 ), el precio de la vivienda se incrementa
en 2’46 miles de euros.
∂ precio ∆ precio
• β N_HAB = = = 13'80
∂ N _ HAB ∆ N_HAB
Si se incrementa el número de habitaciones de que dispone la vivienda en 1,
manteniendo todo lo demás constante ( ∆ FINCA=∆ M2=0 ), el precio de la
vivienda se incrementa en 13’80 miles de euros.

Conteste a las siguientes preguntas:


1.- ¿Cuál será el aumento estimado en el precio de una vivienda con un dormitorio
adicional, si mantenemos fijas el resto de variables independientes?: 13’80
2.-¿Cuál será el aumento estimado en el precio de una vivienda, situada en las
afueras de la ciudad, con un dormitorio adicional?: 13’80
3.-¿Cuál será el aumento estimado en el precio de una vivienda, situada en el
centro de la ciudad, con un dormitorio adicional?: 13’80

23

You might also like