You are on page 1of 57

Dpto.

de Economa Cuantitativa
Universidad Complutense de Madrid

Econometra I
Tema 1 Especificaci
on y Estimaci
on del Modelo Lineal General

Marcos Bujosa

Material de apoyo para el curso Econometra I


c 20042007 Marcos Bujosa

Actualizado el: 9 de octubre de 2007

marcos.bujosa@ccee.ucm.es
Version 2.01

c 20042007 Marcos Bujosa marcos.bujosa@ccee.ucm.es


Copyright

Algunos derechos reservados. Esta obra est


a bajo una licencia Reconocimiento-CompartirIgual de Creative
Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/
2.5/es/deed.es o enve una carta a Creative Commons, 559 Nathan Abbott Way, Stanford, California
94305, USA.
Puede encontrar la u
ltima versi
on de este material en:
http://www.ucm.es/info/ecocuan/mbb/index.html#ectr1

Indice

Indice

Especificaci
on y Estimaci
on del Modelo Lineal General

1. Introducci
on
1.1. El punto de vista estadstico: Regresion como descomposicion ortogonal . . . . . . . . . . .
1.2. El punto de vista del An
alisis Economico: Regresion como modelo explicativo . . . . . . . .

3
3
4

2. Modelo Cl
asico de Regresi
on Lineal
2.1. Tres primeros supuestos en el Modelo Clasico de Regresion Lineal .
2.2. Variaci
on de los supuestos 2 y 3 en algunos casos especiales: . . . .
2.2.1. Supuestos del Modelo con Muestras Aleatorias . . . . . . .
2.2.2. Supuestos del Modelo con Regresores No Estocasticos . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

5
. 5
. 11
. 11
. 12

3. Estimaci
on MCO (Mnimos Cuadrados Ordinarios)
3.1. Cuarto supuesto del Modelo Cl
asico de Regresion Lineal .
3.2. Algunas expresiones que ser
an empleadas frecuentemente
3.3. Algunos casos particulares . . . . . . . . . . . . . . . . . .
3.3.1. Modelo con s
olo una constante . . . . . . . . . . .
3.3.2. Modelo Lineal Simple . . . . . . . . . . . . . . . .
3.3.3. Modelo con tres regresores . . . . . . . . . . . . . .
3.3.4. Modelo Lineal General . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

12
13
13
14
14
15
18
21

4. Propiedades algebraicas de la estimaci


on MCO
4.1. Propiedades b
asicas . . . . . . . . . . . . . . . . . .
4.2. Mas propiedades algebraicas. . . . . . . . . . . . . .
4.2.1. Proyecciones . . . . . . . . . . . . . . . . . .
4.2.2. Regresi
on particionada . . . . . . . . . . . . .
4.2.3. Regresi
on en desviaciones respecto a la media
4.2.4. A
nadiendo regresores . . . . . . . . . . . . . .
4.2.5. Correlaciones parciales . . . . . . . . . . . . .
4.3. Medidas de ajuste . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

21
21
24
24
25
26
27
28
29

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

5. Propiedades estadsticas de los estimadores MCO


5.1. Esperanza de los estimadores MCO b| x . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Varianza de los estimadores MCO b| x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Momentos de los valores ajustados yb| x y de los errores eb| x . . . . . . . . . . . . . . . . . .

32
33

6. Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad
6.1. Quinto supuesto del Modelo Cl
asico de Regresion Lineal . . . . . . . . . . . . . . . . . . . .
6.2. Estimaci
on de la varianza residual y la matriz de covarianzas . . . . . . . . . . . . . . . . .
6.3. Cota mnima de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37
38
39
41

7. Estimaci
on por m
axima verosimilitud

43

8. Ejercicios

43

9. Bibliografa

44

10.Trasparencias

45

34
36

A. Geometra del modelo cl


asico de regresi
on lineal
46
A.1. Geometra del estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
B. Derivaci
on tradicional de las Ecuaciones Normales

48

C. Caso General
49
C.1. Modelo Cl
asico de Regresi
on Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
C.1.1. Ecuaciones normales en el Modelo Lineal General . . . . . . . . . . . . . . . . . . . . 50
D. Una expresi
on alternativa de las estimaciones MCO

50

51

Soluciones a los Ejercicios

Este es un material de apoyo a las clases. En ning


un caso sustituye a los libros de texto que figuran en el
programa de la asignatura; textos que el alumno debe estudiar para afrontar el examen final con ciertas
garantas de exito.
Referencias recomendadas para la asignatura: Novales (1993), Wooldridge (2006), Verbeek (2004)
Otra referencia seguida en la elaboraci
on de este material es el captulo 1 de Hayashi (2000), que se puede
descargar desde:
http://www.pupress.princeton.edu/chapters/s6946.pdf

Especificaci
on y Estimaci
on del Modelo Lineal General
Captulos 1, 2 y 3 y secciones 4.1, 4.2, 6.2 y 6.3 de Wooldridge (2006)
Apendices E1, E2 y E3 de Wooldridge (2006)

1. Introducci
on
Lease el Captulo 1 de Wooldridge (2006)
Otra referencia seguida en la elaboraci
on de este material es el captulo 1 de Hayashi (2000), que se puede
descargar desde: http://www.pupress.princeton.edu/chapters/s6946.pdf
1.1. El punto de vista estadstico: Regresi
on como descomposici
on ortogonal

Descomposici
on ortogonal y causalidad

Y = E(Y | D) + U
donde el conjunto de informaci
on es D : (X = x) ; por tanto
Y = E(Y | X) + U
donde E( Y | x) es una funci
on arbitraria
lectura estadstica: de izquierda a derecha.
Siempre es cierta. No implica causalidad ni conclusiones teoricas
lectura te
orica: de derecha a izquierda.
Interpretaci
on puede ser falsa (regresiones espurias)
De Spanos (1999, Captulo 7, en particular la Seccion 7.5.3)


2
Sea Y una variable aleatoria con segundo momento finito, es decir, E |Y| < , y un conjunto de
informacion D; entonces siempre podemos encontrar una descomposicion de Y como la siguiente:
Y = E(Y | D) + U
donde
E(Y | D): es el componente sistem
atico

(1.1)

U: es el componente NO-sistem
atico


2
a garantizada siempre que E |Y| < .
La existencia de dicha descomposici
on2 est
Ambos componentes de Y satisfacen las siguientes propiedades
1. E( U | D) = 0

2. E U 2 D = Var( Y | D) <
 h
i
por tanto ambos componentes son ortogonales.
3. E U E(Y | D) = 0
Supondremos que disponemos de una sucesion de variables aleatorias Yn (para n = 1, . . . , N ) y de una
matriz de variables aleatorias X ; y que nuestro conjunto de informacion D es
[N k]

D : (X = x)
es decir, el conjunto de variables aleatorias X (en total N k variables) ha tomado conjuntamente la
matriz de valores x.
Siendo as, la descomposici
on ortogonal para cada Yn queda como sigue:
Yn = E(Yn | X) + Un
1 vea

la Secci
on ??, en la p
agina??, del Tema 2 del curso de Introducci
on a la Econometra de LECO
interpretamos las variables aleatorias con varianza finita como elementos de un espacio vectorial, entonces E (Y | D)
representa una proyecci
on ortogonal, y la descomposici
on (1.1) es an
aloga al teorema de proyecci
on ortogonal (Luenberger,
1968), con E(Y | D) como el mejor predictor en el sentido de la propiedad ECSV4 en la p
agina?? del Tema 2 del curso de
Introducci
on a la Econometra de LECO.
2 Si

Secci
on 1: Introducci
on

Notese que esta es una descomposici


on puramente estadstica. Unicamente
nos dice que si disponemos
de cierta informaci
on acerca de las variables X, podemos descomponer la variable Yn en dos partes. Pero
no hay una teora econ
omica detr
as; por tanto no dice si hay relaciones de causalidad entre las variables.
Podra ocurrir que:
1. bien las variables X generaran parcialmente a Y (y por tanto, al conocer D : (X = x) sabemos
que parte de Y es debida a X y que parte no)
2. o bien que Y causa (o genera) las variables X (y por tanto, al observar D : (X = x) sabemos
que cabe esperar que ha ocurrido con la variable causante Y; como cuando vemos llover por la
ventana, y entonces sabemos que hay nubes en el cielo
3. o bien, que hay alguna otra causa com
un (y quiza desconocida) que genera conjuntamente tanto a
Y como a X (y observar lo que ha ocurrido con X (la informacion D) nos indica que cabe esperar
un).
que ha ocurrido con Y (puesto que tienen un causante com
La descomposici
on ortogonal
Yn = E(Yn | X) + Un
se lee de izquierda a derecha (es decir, puedo descomponer Yn en las dos partes descritas a la derecha),
y no hay una teora detr
as.
1.2. El punto de vista del An
alisis Econ
omico: Regresi
on como modelo explicativo
Como economistas deseamos que la descomposicion estadstica de mas arriba sea reflejo de las relaciones
teoricas entre X y Y. En este sentido queremos leer la relacion de derecha a izquierda, es decir Y (por
ejemplo el consumo) est
a generado por una funcion de las variables X (por ejemplo una funcion de la
renta) junto a otras causas distintas de la renta (U).
Esta vision sugiere algunos de los nombres dados tanto para Y como para X. No obstante (y a pesar
de los nombres), no debemos nunca perder de vista que la descomposicion ortogonal es una relacion
estadstica que siempre3 podemos encontrar; pero que en general no permite sacar conclusiones teoricas
de ella (regresiones espurias). S
olo en aquellos casos en que las variables situadas a derecha e izquierda
provienen de un modelo te
orico bien establecido, que nos sugiere que variables son causantes (y por ello
las situamos a derecha) y cu
ales son causadas (izquierda) quiza podamos sacar conclusiones. La palabra
quiza, se debe a que con frecuencia los datos disponibles no miden aquellos conceptos empleados en los
modelos teoricos (consumo permanente, preferencias, nivel de precios, utilidades, aversion al riesgo, etc.),
o bien a que los modelos no est
an correctamente especificados (temas que se veran en otros cursos de
econometra).

Modelo de regresi
on



Yn = h X + Un = h 1, X H 2 , . . . , X H k + Un
donde :
Yn : Vble. end
ogena, objetivo, explicada (o regresando)


X = 1, X H 1 , . . . , X H k Vbles. ex
ogenas, de control, explicativas (o regresores)
Un : factor desconocido o perturbaci
on

Suponemos que la variable aleatoria Y en el momento n, es decir, Yn es funcion del vector X n. y de Un .


Llamamos a Y vble. end
ogena (porque consideramos que se determina su valor o caractersticas a traves
del modelo), vble. objetivo (porque es una magnitud que deseamos controlar, por ejemplo la inflacion si
somos la autoridad monetaria)
o simplemente
regresando.


La matriz X = 1, X H 1 , . . . , X H k : esta constituida por k columnas de variables que llamamos
ex
ogenas (porque consideramos que vienen dadas de manera externa al modelo), o vbles. de control (porque
tenemos capacidad de alterar su valor para, a traves del modelo, controlar Y; por ejemplo fijar la oferta
monetaria o los tipos de interes en el ejemplo anterior), o simplemente regresores.
Un es el efecto conjunto de otras variables o circunstancias que influyen en la observacion de Yn , y que
decidimos no contemplar en el modelo por alguna razon (dificultad o imposibilidad de observarlas) o sencillamente que desconocemos. Tambien puede ser sencillamente un error cometido al medir Yn . Llamamos
a Un perturbaci
on.
3 siempre

y cuando E |Yn |2 <

Tipos de datos

Modelo Cl
asico de Regresi
on Lineal

Datos temporales (series de tiempo)


Seccion cruzada
Datos de panel
2. Modelo Cl
asico de Regresi
on Lineal

Modelo especial en el que la descomposici


on ortogonal
Yn = E(Yn | X) + Un
es tal que E( Yn | x) es una funci
on lineal de xn.
Var( Yn | x) es una constante (homocedasticidad)
DEBO SUPONER PARA QUE ESTO SE CUMPLA?
QUE
(al menos como lectura estadstica!)
En el analisis de regresi
on estamos interesados en estimar los dos primeros momentos de Yn condicionados
a X = x, es decir, E( Yn | x) y Var( Yn | x).
El modelo Modelo Cl
asico de Regresi
on Lineal es un caso particular en el que E( Yn | x) es funcion lineal
de xn. (los regresores con subndice n, es decir, del instante n, o de la empresa n, o del pas n, o del
individuo n, . . . ) y Var( Yn | x) es una funcion constante (por tanto Yn | x es homoced
astica).
A continuacion, vamos a describir los tres supuestos de un modelo econometrico que garantizan la existencia de una descomposici
on ortogonal como la del modelo clasico de regresion lineal. El cuarto supuesto,
que garantiza que la estimaci
on de la relacion lineal es u
nica, lo veremos en la seccion siguiente.
2.1. Tres primeros supuestos en el Modelo Cl
asico de Regresi
on Lineal
Captulos 2 y 3 de Wooldridge (2006)
Seccion 6.2 de Wooldridge (2006)
Apendice E1 de Wooldridge (2006)

Supuesto 1: linealidad

h() es lineal: Yn = h X n. + Un = a1 + a2 Xt2 + a3 Xt3 + + ak Xtk + Un


por lo tanto
Y1 =
a1 + a2 X12 + a3 X13 + + ak X1k + U1
Y2 =
a1 + a2 X22 + a3 X23 + + ak X2k + U2

YN = a1 + a2 XN 2 + a3 XN 3 + + ak XN k + UN
o
Yn = X n. +Un


donde = (a1 , . . . , ak )0 , y X n. = 1 Xn2 Xn3 Xnk es decir
Y =
[N 1]

donde

[N k] [k1]

U
[N 1]




0

0
Y = Y1 , . . . , YN , X = 1, X H 2 , . . . , X H k , U = U1 , . . . , UN

es decir,

1
1
X=
. .
1

X12 X13
X22 X23
.........
XN 2 XN 3

...
...
....
...

X1k
X2k
;
. . . .
XN k

Secci
on 2: Modelo Cl
asico de Regresi
on Lineal

X 1.
X 2. 


o bien X = . = 1, X H 2 , . . . , X H k ;
..

X1j
X2j

= .
..

donde

X Hj

XN.

XN j

por tanto


Y = 1, X H 2 , . . . , X H k + U
=a1 + a2 X H 2 + a3 X H 3 + + ak X H k + U
es decir


1
Y1
X12
X13
X1k
U1
X22
1
X23
X2k U2
Y2


.. = a1 .. + a2 .. + a3 .. + + ak .. + ..
.
.
.
. .
.

YN

XN 2

XN 3

XN k

UN

Supuesto 1: linealidad

Modelo

Interpretacion

Yn = Xn + Un

dYn
dXn

Cambio esperado en nivel de


Yn cuando Xn aumenta una
unidad

ln(Yn ) = ln(Xn ) + Un

Xn dYn
Yn dXn

Cambio porcentual (en tanto por uno) esperado en Yn


cuando Xn aumenta un uno
por ciento (en tanto por uno,
ie, 0.01)

ln(Yn ) = Xn + Un

1 dYn
Yn dXn

Cambio porcentual (en tanto por uno) esperado en


Yn cuando Xn aumenta una
unidad

Yn = ln(Xn ) + Un

dYn
Xn dX
n

Cambio esperado en el nivel


de Yn cuando Xn aumenta
un uno por ciento (en tanto
por uno)

Mas tipos de modelos lineales en Ramanathan (1998, Captulo 6, pp. 232 y siguientes) y en el material
preparado por J. Alberto Mauricio http://www.ucm.es/info/ecocuan/jam/ectr1/Ectr1-JAM-Guion.pdf

Ejemplo 1. [funci
on de consumo:]
CON n = 1 + 2 RDn + Un
donde CON n y RDn son el consumo y la renta disponible del individuo n-esimo respectivamente, y Un
son otros factores que afectan al consumo del individuo n-esimo distintos a su renta disponible (activos
financieros, estado de
animo, etc.).
Aqu la variable ex
ogena Y es el consumo (CON ), y los regresores son X1 =1 (una constante) y X2 la
renta disponible (RD).
Ejemplo 2. [ecuaci
on de salarios:] Supongamos el siguiente modelo no-lineal en los parametros
SALARn = e1 +2 EDU C n +3 AN T IGn +4 EXP ERn +Un ;
donde SALARn es el salario del individuo n-esimo, EDU C n son sus a
nos de educacion, AN T IGn sus
a
nos de antig
uedad en la empresa, y EXP ERn sus a
nos de experiencia en el sector de la empresa.
Al tomar logaritmos tenemos un nuevo modelo para ln(SALARn ) que es lineal en los parametros:
ln(SALARn ) = 1 + 2 EDU C n + 3 AN T IGn + 4 EXP ERn + Un

Secci
on 2: Modelo Cl
asico de Regresi
on Lineal

En este caso la interpretaci


on de un valor como 2 = 0.03 es que un a
no adicional en la formaci
on
educativa implica un incremento esperado del salario del 3 %.
Ejemplo 3. [funci
on de producci
on Cobb-Douglas:] Pensemos en la clasica funcion de produccion
Qn = cKn 2 Ln 3
donde Qn es la producci
on el el momento n, Kn es el capital empleado en el instante n; Ln el trabajo
empleado en n. Supongamos, adem
as, que hay un efecto aleatorio adicional n debido a otras causas o
factores
Qn = cKn 2 Ln 3 n ;
tomando logaritmos tenemos
ln Qn = 1 + 2 ln Kn + 3 ln Ln + Un ,
donde 1 = ln c, y Un = ln n (es decir, n = eUn . )
En este caso, un valor como 2 = 0.05 es interpretado como que un incremento de capital del 1 % (0.01)
aumenta la producci
on en un 5 % (0.05).
Nota 1. Definimos la esperanza de una matriz X como la matriz de las esperanzas de sus elementos, es
decir

2
3
X11

X12

X1N

X21

E(X) E .
..

X22

X2N

XN 1

XN 2

..
.

..

6 E(X11 )

666 E(X21 )
6
.. 666 .
. 666 ..

XN N

E(X12 )

E(X22 )

..
.

4
E(XN 1 )

..

E(XN 2 )

E(X1N ) 7
7
7
7
E(X2N ) 7
7
7
7
7
7
7
5
E(XN N )

..
.

Supuesto 2: Esperanza condicional de U Estricta exogeneidad

E( U | x) =

0
[N 1]

es decir


0
E( U1 | x)
E( U2 | x) 0


E( U | x) =
= ..
..

.
.

E( UN | x)

E( Un | x) E( Un | xH 2 , . . . , xH k) E( Un | x1. ; . . . ; xN .)
para n = 1, . . . , N .

x1.

E( Un | x) E( Un | xH 2 , . . . , xH k) E Un | ...
xN .
para n = 1, . . . , N .

Ejemplo 4. [funci
on de consumo: (continuacion del Ejemplo 1 en la pagina anterior)]
Estricta exogeneidad implica que para el individuo n-esimo
E( Un | 1, rd) = E( Un | (rd2 , rd3 , , rdk )) = 0,
es decir, la esperanza de la perturbaci
on n-esima, condicionada a todas y cada una de las rentas disponibles,
es cero.

Ejemplo 5. [ecuaci
on de salarios: (continuacion del Ejemplo 2 en la pagina anterior)]
Estricta exogeneidad implica que para el individuo n-esimo
E( Un | 1, educ, antig, exper) = 0,

Secci
on 2: Modelo Cl
asico de Regresi
on Lineal

es decir, la esperanza de la perturbaci


on del individuo n-esimo, condicionada no solo a los a
nos de educacion, antig
uedad y experiencia de dicho individuo sino a los a
nos de educaci
on, antig
uedad y experiencia
de todos los trabajadores es cero.

Supuesto 2: Esperanza condicional de U Estricta exogeneidad

E( U | x) =

0
[N 1]

E(Un X) = 0 ortogonalidad Un X

E(Un ) = 0

por tanto Cov(U , X) = 0


n

(ortogonalidad entre lo que conozco X y lo que desconozco Un )

Comentario. En el caso de regresi


on con datos temporales, la exogeneidad estricta implica que los
regresores son ortogonales a las perturbaciones pasadas, presentes y futuras. Esta es una restriccion muy
fuerte, que no se cumple en general con datos temporales (se discutira en el segundo trimestre [Econometra
II]).
A continuacion aparecen las demostraciones de la transparencia anterior T8 :
Proposici
on 2.1. Si E( Un | x) = 0, entonces E(Un X) = 0
[N k]

Demostraci
on.
Z

E(Un X) =
Z

un x f (un , x) dun dxkN dx11


Z

un x f ( un | x) f (x) dun dxkN dx11


Z

Z
Z
= un
x f (x) dxkN dx11 f ( un | x) dun
Z
= un [E(X)] f ( un | x) dun
Z
= [E(X)] un f ( un | x) dun
=

=E(X) E( Un | x)
=E(X) 0 =
0

por hipotesis

[N k]

Una importante implicaci


on de E( Un | x) = 0, es que entonces E(Un ) = 0 ya que
E(Un ) =E(E(Un | x))
=E(0) = 0

por el Ta de las esperanzas iteradas.


por ser E( Un | x) las realizaciones de E(Un | x)

Y de los dos resultados anteriores se deriva que


Cov(Un , X) = E(Un X) E(Un ) E(X) =

0 0 E(X) =
[N k]

0
[N k]

Ejercicio 6. [Relaci
on si y s
olo si entre la funci
on de regresi
on lineal y los supuestos 1 y 2]
Demuestre que los supuestos 1 y 2 implican la primera condicion del Modelo Cl
asico de Regresi
on Lineal,
esto es, que la funci
on de regresi
on de Yn sobre los regresores es lineal
E( Yn | x) = xn. .
Recprocamente, demuestre que si dicha condicion se verifica para todo n = 1, . . . , N , entonces necesariamente se satisfacen los supuestos 1 y 2.

Secci
on 2: Modelo Cl
asico de Regresi
on Lineal

Soluci
on:
E( Yn | x) =E( X n. +Un | x)
= xn. +E( Un | x)
= xn.

por el Supuesto 1
puesto que X n. = xn.
por el Supuesto 2.

Recprocamente, suponga que E( Yn | x) = xn. para todo n = 1, . . . , N . Definamos Un = Yn E( Yn | x) .


Entonces, por construcci
on el Supuesto 1 se satisface ya que Un = Yn X n. . Por otra parte
E( Un | x) =E( Yn | x) E( E(Yn | x) | x)
=0;

por la definicion que aqu damos a Un

pues E( E(Yn | x) | x) = E( Yn | x) , ya que:



Z Z
E( E(Yn | x) | x) =
yt f (Un | x) dun f (Un | x) dun

Z Z
=
(Un + xn. )f (Un | x) dun f (Un | x) dun

Z Z
=xn. +
Un f (Un | x) dun f (Un | x) dun
=xn. +E( E(Un | x) | x)
=xn. +E( Un | x) = E( X n. +Un | x) = E( Yn | x)
Ejercicio 6

Supuesto 3: Perturbaciones esf


ericas

homocedasticidad

E Un 2 x = 2

para n = 1, 2, . . . , N

no autocorrelaci
on
E( Ui Uj | x) = 0

si i 6= j

para i, j = 1, 2, . . . , N

Definici
on 1. Definimos la matriz de varianzas y covarianzas de un vector columna Y como


0 
Var(Y) E
Y E(Y)
Y E(Y)

(2.1)



Ejercicio 7. Demuestre que Var(Y) = E Y Y 0 E(Y) E Y 0 .
Nota 2. Por tanto la matriz de varianzas y covarianzas de un vector columna Y es de la forma

Y1


..
Var(Y) Var . E Y Y 0 E(Y) E Y 0
YN
2
E Y1 2
6
6
6
6
6
6
=6
6
6
6
6
4

6 Y1
6
6
6
6
6
=6
6
6
6
6
4

E(Y1 Y2 )

E Y2 2

..

..
.

Y1Y2
Y22

2
2
7 6[E(Y1 )]
7 6
7 6
E(Y2 YN )7 6
7 6
7 6
76
7 6
7 6
7 6
7 6
5 4
2
E YN

E(Y1 YN )

E(Y1 )E(Y2 )
[E(Y2 )]2

..

3
E(Y1 )E(YN )7
7
7
E(Y2 )E(YN )7
7
7
7
7
7
7
7
5
2
[E(YN )]

..
.

Y1YN 7
7
Y2YN 777
7
.. 777
..
.
. 775
Y2N
3

Aplicando la definici
on de varianza al vector de perturbaciones, y teniendo en cuenta los dos supuestos

Secci
on 2: Modelo Cl
asico de Regresi
on Lineal

10

anteriores, tenemos que la matriz de varianzas y covarianzas de las perturbaciones es




Var( U | x) =E U U 0 x E( U | x) E U 0 x



0
U1

 . 
.. 
por el Supuesto 2
=E . U1 UN x .. 0 0


0
UN


2
E( U1 | x)
0 0 0
...
E( U1 UN | x)
E( U1 U2 | x)
E( U2 U1 | x) E( U2 2 | x) ... E( U2 UN | x) 0 0 0


=
.. .. . .
.
..
..
..
..

. .
. ..
.
.
.
.
E( UN U1 | x)

= .
..
0

0
2
..
.
0

E( UN U2 | x)

0 0

E( UN 2 | x)

...

... 0
... 0

..
..
. .
. . . 2

por el Supuesto 3

Supuestos 2 y 3: Implicaci
on conjunta

Var( U1 | x)

Cov( UN ,U1 | x)

0
2
..
.

...
...
..
.

...

Cov( U1 ,U2 | x)

...

Cov( U1 ,UN | x)

Var( U2 | x)

...

..
.

Cov( U2 ,UN | x)

..

Cov( UN ,U2 | x)

...

Cov( U2 ,U1 | x)

Var( U | x) =
..

.
2

= .
..

10

..
.

Var( UN | x)

0
0

2
.. =
.

I
[N N ]

El supuesto de que la matriz de varianzas y covarianzas de la perturbaciones (condicionada a x) es 2


veces la matriz identidad (estructura denominada perturbaciones esfericas)

0
0 ... 0
0 2 0 . . . 0

0 2 . . . 0
=0

..
..
.. . .
..
.
.
.
.
.
0

...

es una restricci
on muy fuerte, ya que implica:
1. que la dispersi
on (la varianza) del efecto de termino perturbacion asociada a cada observacion (o
a cada instante, o a cada individuo, etc) es identica a la de las demas (no sabemos exactamente a
que se debe la perturbaci
on que afecta a cada Yn pero la dispersion (incertidumbre) de ese efecto es
identica para todos).
Dicho de otra forma: las perturbaciones Un son hoced
asticas, ya que
Var( Un | x) = 2

para todo n = 1 : N.

2. que la covarianza entre las perturbaciones de observaciones distintas (o de instantes ,o individuos


diferentes) es cero. Dicho de otra forma: las perturbaciones no tienen correlaci
on serial, ya que
Cov( Ui , Uj | x) = 0

para i 6= j.


Esto a
nadido al supuesto de distribucion conjunta Normal ver Supuesto 5 mas adelante T31
significar
a que las perturbaciones son independientes para las distintas observaciones.

Ejemplo 8. [ecuaci
on de salarios: (continuacion del Ejemplo 2 en la pagina6)]
Estricta exogeneidad y perturbaciones esfericas implican conjuntamente que: aunque el factor desconocido Un de cada el individuo n-esimo es desconocido; la incertidumbre (la varianza) de dicho factor

Secci
on 2: Modelo Cl
asico de Regresi
on Lineal

11

condicionada a los a
nos de educaci
on, antig
uedad y experiencia de todos los individuos es la misma
en cada caso (Supuesto curioso! no?).
Hay cierto factor que influye en los salarios de Pepito y Juanito; no se que es, pero la incertidumbre
que tengo sobre el es la misma (la dispersi
on del efecto que tiene el factor desconocido es la misma) para
ambos casos.
Nota 3 (Relaci
on entre la funci
on ced
astica contante y los supuestos 1 y 3). Notese que con
los supuestos 1 y 3 tambien se cumple la segunda condicion del modelo clasico de regresion lineal ya que
Var( Yn | x) = Var( 1 + 2 Xn + Un | x) = Var( Un | x) = 2

2.2. Variaci
on de los supuestos 2 y 3 en algunos casos especiales:
2.2.1. Supuestos del Modelo con Muestras Aleatorias
Si (Y, X) es una muestra aleatoria simple, i.e.. {Yn , X n. } es i.i.d. para n = 1, . . . , N ; entonces,
E( Un | x) =E( Un | xn.)



E Un 2 x =E Un 2 xn.
y tambien E( Ui Uj | x) =E( Ui | xi.) E( Uj | xj.)

para i 6= j

Con lo que los los supuestos 2 T7 y 3 T9 quedan reducidos a


supuesto 2: E( Un | xn.) = 0


supuesto 3: E Un 2 xn. = 2 > 0
para todo n = 1, . . . , N
(Notese que los regresores est
an referidos exclusivamente a la observacion n-esima)
En general este supuesto no es adecuado para modelos con datos de series temporales ya que las muestras
no son i.i.d. (no son muestras aleatorias simples puesto que suele haber correlacion entre los datos).

Ejemplo 9. [ecuaci
on de salarios: (continuacion del Ejemplo 2 en la pagina6)]
Con muestras aleatorias, estricta exogeneidad implica que para el individuo n-esimo
E( Un | 1, educ, antig, exper) = E( Un | 1, educn , antign , expern) = 0,
es decir, la esperanza de la perturbaci
on del individuo n-esimo, condicionada exclusivamente a los a
nos
de educacion, antig
uedad y experiencia de dicho individuo es cero, independientemente de lo que ocurra
con el resto de trabajadores. Por supuesto, tambien ocurre con la varianza condicionada:
Var( Un | 1, educ, antig, exper) = Var( Un | 1, educn , antign , expern) = 2 I,

Ejercicio 10. Demuestre que


E( Ui Uj | x) = E( Ui | xi.) E( Uj | xj.)

para i 6= j

para el caso de muestras aleatorias simples (m.a.s.)


Pista.
E( Ui Uj | x) = E( E(Ui | X Uj ) Uj | x)
debido a que {Ui , X i. } es independiente de {Uj , X 1. , . . . , X i1. , X i+1. , . . . , X N . } para i 6= j, junto con
el teorema de las esperanzas iteradas.

12

2.2.2. Supuestos del Modelo con Regresores No Estoc


asticos
Si los regresores son no estoc
asticos, es decir son la matriz determinista x, entonces no es necesario
distinguir entre funciones de densidad condicionales, f (un | x) , e incondicionales, f (un ) ; por tanto los
supuestos 2 T7 y 3 T9 quedan reducidos a
supuesto 2: E(Un ) = 0

supuesto 3: E Un 2 = 2 > 0 y E(Ui Uj ) = 0 para i 6= j
para todo n, i, j = 1, . . . , N
(Estos son los supuestos empleados en la mayora de libros de texto, como por ejemplo en Novales
(1993))
Este caso no puede suponerse con modelos autorregresivos o de ecuaciones simult
aneas.
La interpretaci
on geometrica de estos supuestos aparece en la Seccion A en la pagina46 del Apendice.
Queda un cuarto supuesto acerca del rango de la matriz de regresores y un quinto supuesto acerca de la
distribucion conjunta de U que enunciaremos mas adelante (vease Supuesto 4 T13 y Supuesto 5 T31 )
3. Estimaci
on MCO (Mnimos Cuadrados Ordinarios)
Captulos 2 y 3 de Wooldridge (2006)
Apendice E1 de Wooldridge (2006)

T
ermino de error

11

Las perturbaciones Un no son observables


Pero las podemos estimar para un hipotetico valor e de y una muestra concreta {yn , xn. }N
n=1 de
{Yn , X n. }N
.
n=1
een = yn xn. e = yn yf
n

Consideremos la Suma de los Residuos al Cuadrado para todo n


e
SRC()

N
X

yn xn. e

2

e 0 (y x)
e = ee0 ee
= (y x)

n=1

Mnimos cuadrados ordinarios: Ecuaciones normales

12

El Supuesto 2 del modelo implica que Un X (ortogonalidad).


e es mnima para valores b tales que los errores
La SRC()
eb = y xb
son ortogonales a los regresores de la muestra x
eb x
As
x0 eb = 0;

x0 eb = 0 .



x0 y xb = 0;

x0 y x0 x b = 0

es decir
x0 y =x0 x b
Estimaci
on MCO es la solucion b a dichas ecuaciones

e es mnima para e = b .
Proposici
on 3.1. La suma de residuos al cuadrado SRC()

(3.1)

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

Demostraci
on. Sea e una estimaci
on de , entonces
0
0
e
e
e 0 (y xb + xb x)
e
ee ee = (y x) (y x) =(y xb + xb x)

13

sumando y restando xb


0 

e
e
= eb + x(b )
eb + x(b )
e 0 x0 x(b )
e
=b
e 0 eb +(b )

ya que x0 ee = 0 .

e 0 x0 x(b )
e es una suma de cuadrados (por tanto semi-definido positivo), se deduce
Y puesto que (b )
que
e = ee0 ee eb0 eb = SRC().
b
SRC(cualquier )

Para una interpretaci


on geometrica, vease tambien la Seccion A.1 en la pagina47 del apendice.
La demostraci
on anterior es, para mi gusto, mas elegante que la que aparece en la mayora de los manuales
(b
usqueda del mnimo de la suma residual igualando a cero las primeras derivadas). No obstante, en la
agina48 del apendice se muestra la derivacion tradicional de las ecuaciones normales.
Seccion B en la p

Para que la soluci


on al sistema de ecuaciones normales (3.1) sea u
nica es necesario que se cumpla un
cuarto supuesto.
3.1. Cuarto supuesto del Modelo Cl
asico de Regresi
on Lineal

Supuesto 4: Independencia lineal de los regresores

El rango de

13

X es k con probabilidad 1.
[N k]

n
umero de observaciones k
Vectores columna 1, X H 2 , . . . , X H k linealmente indep.
Este supuesto implica que x0 x es de rango completo, es decir, que existe la matriz (x0 x)1.
Se dice que existe multicolinealidad perfecta cuando el Supuesto 4 NO se satisface; es decir, cuando hay
dependencia lineal entre los regresores, o lo que es lo mismo: hay multicolinealidad perfecta cuando alguno
de los coeficientes de correlaci
on lineal entre dos regresores es uno en valor absoluto.
El Supuesto 4 garantiza la unicidad de las soluciones. Si no se cumple no es posible encontrar la
estimaci
on MCO de los par
ametros (pues hay infinitas soluciones posibles).

Ejemplo 11. [ecuaci


on de salarios: (continuacion del Ejemplo 2 en la pagina6)]
Que pasa si todos los individuos de la muestra nunca han cambiado de empresa?
Entonces a
nos de experiencia y a
nos de antig
uedad coinciden. Por tanto no es posible discriminar el
efecto por separado de ambas variables; s
olo podemos calcular su efecto conjunto.
ln(SALARn ) = 1 + 2 EDU C n + (3 + 4 )EXP ERn + Un
Volveremos sobre esto en la Secci
on 3 sobre Multicolinealidad en la pagina8 del Tema 3
3.2. Algunas expresiones que ser
an empleadas frecuentemente
Las expresiones que aparecen a continuaci
on seran empleadas repetidamente durante el curso.
Denotamos a la media aritmetica de los elementos del vector y de orden N como:
X
y=(
yn )/N.

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

14

Nota 4. Sean x e y vectores de orden N , entonces


X
X
yn (xn x)
(xn x)(yn y) =

para n = 1, . . . , N.

Demostraci
on.
X
X
X
(xn x)(yn y) =
yn (xn x) y
(xn x)
n

yn (xn x) y 0 =

yn (xn x)

para n = 1, . . . , N.

Nota 5. Sean x e y vectores de orden N , entonces


X
X
yn xn N y x = y 0 x N y x.
(xn x)(yn y) =
n

Ejercicio 12. Compruebe la igualdad de la nota anterior.


P
As pues, del ejercicio anterior, N sx y = n (xn x)(yn y) = y 0 x N y x, es decir
P
(xn x)(yn y)
y0 x
sx y = n
=
y x;
(3.2)
N
N
donde sx y es la covarianza muestral entre los elementos de x e y; por tanto, la expresion de mas arriba
es el analogo muestral de Cov(X, Y) = E([X E(X)][Y E(Y)]) = E(XY) E(X) E(Y) .
P
P 2
2
Nota 6. Sea z un vector de orden N , entonces n (zn z)2 =
= z 0 z N z 2
n zn N z
P
P
Demostraci
on. De la Nota 4 sabemos que n (zn z)(yn y) = n yn (zn z), por tanto, si y = z
X
X
(zn z)2 =
zn (zn z)
n

X
n

zn2 z

zn =

zn2 N z 2 = z 0 z N z 2

para n = 1, . . . , N ;

Es decir,
z0 z
z2;
(3.3)
N
N
de z; por tanto, la expresion anterior es el analogo
donde s2z es la varianza muestral de los elementos

2
muestral de Var(Z) = E [Z E(Z)]2 = E Z 2 [E(Z)] .
s2z =

n (zn

z)2

3.3. Algunos casos particulares


3.3.1. Modelo con s
olo una constante

Modelo 1: No vbles explicativas

14

Si no se nada (D : ) ; Y = h(1) + U donde g() es lineal; por lo tanto


Yn = a 1 + Un
E(Yn |conjunto de informaci
on vaco ) = E(Yn ) = a
Veamos que nos da la estimaci
on MCO
x0 y = x0 x b
es decir
10 y = 10 1 b
a
y calculando los productos escalares,
P
X
yn
yn = N b
a;

b
a=
=y
N

(3.4)

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

15

Notese como la estimaci


on MCO consiste en sustituir el momentos teorico E(Yn ) por su analogo muestral
(la media aritmetica).
En este caso los residuos del modelo son las deviaciones de los datos respecto a su media, ya que
eb = y yb = y y.

(3.5)

Modelo 2: Modelo Lineal Simple

15

3.3.2. Modelo Lineal Simple

Si (D : X H = xH ) ; Y = h(1, X H ) + U donde g() es lineal; por lo tanto


Yn = a + bXn + Un ;
entonces
E( Yn | xn) =E( a + bXn + Un | xn)
=a + bxn + E( Un | xn)

= a + bxn .

Por lo tanto, es funci


on lineal y
Cov(X, Y)
Cov(Y, X)
E(X) +
xn ;
E( Yn | xn) = E(Y)
Var(X)
Var(X)
{z
} | {z }
|
a

(3.6)

para todo xn RX ,
Veanse las ecuaciones (??) y (??) Secci
on ?? (??) del Tema 2 del curso de Introduccion a la Econometra
de LECO, pagina ??.

Modelo 2: Modelo Lineal Simple

16

Sea Yn = a + bXn + Un ; entonces

y1
y2

y = . ;
..

x1
x2

.. ;
.

1
1

x = .
..

yN

b =

 
b
a
bb

1 xN

y loas ecuaciones normales son


x0 y = x0 x b
es decir

1
x1

1
x2

...
...

y1
 
1 y2
1
=
xN ...
x1

1
x2

...
...

1
 1
1

xN ...

yN

1 xN

Modelo 2: Modelo Lineal Simple

P
y
P n
xn yn

=
b
aN
P
= b
a
xn

x1
 
x2
a
b
.. b
b

+
+

bb P xn
bb P x2 ;
n

17

(3.7)

dividiendo por N la primera igualdad, despejando b


a y sustituyendo en la segunda, y empleando (3.2) y
(3.3)
y
= b
a + bb x
(3.8)
bbs2
sx y =
x
es decir
bb = sx y
(3.9)
s2x
y
sx y
b
a = y 2 x = y bb x
(3.10)
sx
Supuesto 4 (independencia lineal de regresores) solucion u
nica.

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

16

Notese como las estimaciones MCO consisten en sustituir los momentos teoricos de la Ecuacion (3.6) por
sus analogos muestrales.

Ejercicio 13. Empleando el sistema de ecuaciones (3.7), obtenga el segundo sistema (3.8) de la transparencia anterior.

Ejercicio 14. C
omo afectara al problema de estimacion que la variable x fuera un vector de constantes
c?

Ejemplo 15. [precio de las viviendas:]


n
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Precio
199.9
228.0
235.0
285.0
239.0
293.0
285.0
365.0
295.0
290.0
385.0
505.0
425.0
415.0

Superficie
1065
1254
1300
1577
1600
1750
1800
1870
1935
1948
2254
2600
2800
3000

Cuadro 1: Superficie (en pies al cuadrado) y precio de venta de los pisos (en miles de d
olares) (Ramanathan, 1998, pp. 78)

Planteamos el modelo Yn = a + bXn + Un , donde Yn es el precio del piso n-esimo, Xn es su superficie, y Un


son otros factores que influyen en el precio del piso, pero ortogonales al la superficie del mismo (situacion,
estado de mantenimiento, servicios, etc.) Deseamos saber cual es el efecto marginal del incremento de la
superficie de un piso en su precio. Por lo tanto necesitamos estimar el valor del parametro b.
Puesto que
X

xn = 26 753

X
n

x2n = 55 462 515

yn = 4 444.9

xn yn = 9 095 985.5

De 3.7 en la p
agina anterior tenemos el sistema de ecuaciones lineales
bb 26 753
4 444.9
=
b
a 14
+
9 095 985.5 = b
a 26 753 + bb 55 462 515
cuya solucion nos da la estimaci
on por mnimos cuadrados de a y b:
bb = 0.13875;
b
a = 52.3509
que tambien podemos calcular a partir de (3.9) y (3.10) en la pagina anterior
sx y
bb = sx y = 0.13875
b
a = y x 2 = 52.3509
sx
s2x

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

17

Estimaciones MCO utilizando las 14 observaciones 114


Variable dependiente: price
Variable
const
sqft

Coeficiente

Desv. tpica

52,3509
0,138750

Estadstico t

37,2855
0,0187329

Media de la var. dependiente


D.T. de la variable dependiente
Suma de cuadrados de los residuos
Desviacion tpica de los residuos (
)
R2
2 corregido
R
Grados de libertad
Criterio de informaci
on de Akaike
Criterio de informaci
on Bayesiano de Schwarz

1,4041
7,4068

valor p
0,1857
0,0000

317,493
88,4982
18273,6
39,0230
0,820522
0,805565
12
144,168
145,447

Salida del programa libre Gretl (Gnu Regression, Econometrics and Time-series Library)

[ = 52, 3509 + 0, 138750 sqft


price
(1,404)

N = 14

(7,407)

2 = 0, 8056 F (1, 12) = 54, 861


R
= 39, 023
(entre parentesis, los estadsticos t)

Por lo tanto, el precio de venta esperado de un piso con una superficie de 1800 pies cuadrados, E( Y | 1800),
sera de
yb7 = 52.3509 + 0.139 1800 = 302101.5
sin embargo y7 = 285. Esta discrepancia (el error eb7 puede deberse a que dicho piso esta en una mala
situacion, dispone de pocos servicios, etc.)

Precio

Superficie

1
2
3
4
5
6
7
8
9
10
11
12
13
14

199.9
228.0
235.0
285.0
239.0
293.0
285.0
365.0
295.0
290.0
385.0
505.0
425.0
415.0

1065
1254
1300
1577
1600
1750
1800
1870
1935
1948
2254
2600
2800
3000

Precio estimado
E( P | superficie)
200.1200
226.3438
232.7263
271.1602
274.3514
295.1640
302.1015
311.8140
320.8328
322.6365
365.0941
413.1017
440.8518
468.6019

Error
eb
-0.22000
1.65619
2.27368
13.83984
-35.35142
-2.16397
-17.10148
53.18600
-25.83278
-32.63653
19.90587
91.89826
-15.85180
-53.60187

Cuadro 2: Superficie (en pies al cuadrado), precio de venta (en miles de d


olares), precio estimado, y errores estimados.

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

18

Estimaci
on MCO: Interpretaci
on gr
afica

18

price versus sqft


550
)
ie

y12

500
e
> 0

450

(P

|s

f
er
up

ic

price

400
E(P |2600) = y12

350

300
y7
250

200

150

1500

regresion a ojo

2000
sqft

2500

3000

GNU Gretl (este ejemplo)

data list

Continuaci
on del ejemplo precio de las viviendas en la p
agina 34

3.3.3. Modelo con tres regresores

Ejercicio 16. Repita los pasos dados en la transparencia T16 y llegue hasta el sistema de ecuaciones
equivalente a ( 3.7 en la p
agina15) para los siguientes modelos:
(a) Yn = aX1n + bX2n + cX3n + Un
(b) Yn = a + bX2n + cX3n + Un
Ejercicio 17. Obtenga la siguiente soluci
on del segundo sistema de ecuaciones del ejercicio anterior.
b
a =y bb x2 b
c x3
(3.11)
2
bb = sx2 y sx3 sx3 y sx2 x3
2
s2x2 s2x3 sx2 x3

(3.12)

sx3 y s2x2 sx2 y sx2 x3


2
s2x2 s2x3 sx2 x3

(3.13)

b
c=

Notese que si la covarianza entre x2 y x3 es cero, la estimacion de bb del modelo Yn = a+bX2n +cX3n +Un
coincide exactamente con la estimaci
on de bb en el modelo restringido Yn = a + bX2n + Un en el que se ha
quitado el regresor X3n .
Ejercicio 18. Si la covarianza entre x2 y x3 es cero, Con la estimacion de que modelo restringido
coincide la estimaci
on de b
c?
Nota 7. Si los regresores de una regresi
on m
ultiple tienen correlaci
on muestral cero entre si (por tanto
son ortogonales), entonces las estimaciones de las pendientes de la regresi
on m
ultiple son las mismas que
las estimaciones de las pendientes de las regresiones simples.

Multicolinealidad perfecta: Ejercicio 19. Como afectara al problema de estimacion que los regresores x2 y x3 tuvieran un coeficiente de correlacion muestral con valor absoluto igual a uno?

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

19

Relaci
on entre los modelos de tres regresores y los de dos. Considere los siguientes modelos de
regresion simple
1. Y = ayx2 + byx2 X2 + U :
Regresion de Y sobre X2
2. Y = ayx3 + byx3 X3 + U :

Regresion de Y sobre X3

3. X2 = ax2 x3 + bx2 x3 X3 + U :
Regresion de X2 sobre X3
(Notese como los subndices de los coeficientes describen cada regresion)
Que relaci
on tienen las estimaciones MCO de estos tres modelos con las estimaciones MCO del modelo
Y = a + b X2 +c X3 + U :

Regresion de Y sobre X2 y X3

descritas en las ecuaciones (3.12) y (3.12)?


Si multiplicamos y dividimos (3.12) y (3.12) por s2x2 s2x3 obtenemos las siguientes expresiones en
terminos de los coeficientes MCO de las tres regresiones anteriores:
d
d[
bb = byx2 byx3 bx2x3
1 rx22 x3

(3.14)

d[
bd
yx3 byx2 bx2x3
1 rx22 x3

(3.15)

b
c=

donde rx2 x3 es la correlaci


on muestral entre ambos regresores.
Modelo simulado Pn = 100 + 3Sn 130Dn + Un

Modelo simulado Pn = 100 + 3Sn 130Dn + Un


Modelo 1 Pn = 1 + 2 Sn + Un
Modelo 1: estimaciones MCO utilizando las 500 observaciones 1500
Variable dependiente: precio
Variable
const
superfic

Coeficiente
8,86429
2,99968

Desv. tpica
11,7399
0,166441

Media de la var. dependiente


D.T. de la variable dependiente
Suma de cuadrados de los residuos
Desviaci
on tpica de los residuos (
)
R2
2 corregido
R
Grados de libertad
Criterio de informaci
on de Akaike
Criterio de informaci
on Bayesiano de Schwarz

Estadstico t
0,7551
18,0225
218,374
47,0678
669080,
36,6542
0,394756
0,393541
498
5022,46
5030,89

valor p
0,4506
0,0000

Secci
on 3: Estimaci
on MCO (Mnimos Cuadrados Ordinarios)

20

Modelo simulado Pn = 100 + 3Sn 130Dn + Un


Modelo 2 Pn = 1 + 2 Dn + Un
Modelo 2: estimaciones MCO utilizando las 500 observaciones 1500
Variable dependiente: precio
Variable

Coeficiente

const
distanci

310,482
130,54

Desv. tpica
6,32078
8,61143

Media de la var. dependiente


D.T. de la variable dependiente
Suma de cuadrados de los residuos
Desviaci
on tpica de los residuos (
)
R2
2 corregido
R
Grados de libertad
Criterio de informaci
on de Akaike
Criterio de informaci
on Bayesiano de Schwarz

Estadstico t

valor p

49,1208
15,1599

0,0000
0,0000

218,374
47,0678
756399,
38,9727
0,315768
0,314394
498
5083,80
5092,23

Modelo simulado: Pn = 100 + 3Sn 130Dn + Un


Modelo 3 Pn = 1 + 2 Sn + 3 Dn + Un
Modelo 3: estimaciones MCO utilizando las 500 observaciones 1500
Variable dependiente: precio
Variable

Coeficiente

const
superfic
distanci

98,9950
3,06214
133,93

Desv. tpica
8,70328
0,111940
5,44707

Media de la var. dependiente


D.T. de la variable dependiente
Suma de cuadrados de los residuos
Desviaci
on tpica de los residuos (
)
R2
2 corregido
R
F (2, 497)
Criterio de informaci
on de Akaike
Criterio de informaci
on Bayesiano de Schwarz

Estadstico t

valor p

11,3744
27,3553
24,5876

0,0000
0,0000
0,0000

218,374
47,0678
301877,
24,6454
0,726925
0,725826
661,506
4626,52
4639,17

Ejercicio 20. Coinciden los valores estimados para los parametros 2 y 3 en el modelo Pn = 1 +
2 Sn 3 Dn + Un con los valores obtenidos para las pendientes en los modelos restringidos anteriores?
Que podemos afirmar entonces sobre la covarianza muestral de los regresores distancia y superficie?

21

3.3.4. Modelo Lineal General

Modelo Lineal General

19

En general tenemos m
as de una variable exogena por lo que (D : X = x);


Yn = X n. +Un = 1, Xn2 , . . . , Xnk +Un ;
[k1]

entonces
E( Yn | xn.) =
=
=
=
=






E 1, Xn2 , . . . , Xnk
 +U n xn.
 =
E 1, xt2 , . . . , xtk +Un xn. =
E( a1 + a2 xn2 + + ak xnk + Un | xn.) =
a1 + a2 xn2 + + ak xnk + E( Un | xn.)
a1 + a2 xn2 + + ak xnk = xn. ;

donde xn. = (1, xn2 , . . . , xnk ).


Necesitamos conocer el valor de los elementos de ,
(a1 , a2 , , ak ).


que dependen de las varianzas y covarianzas de Yn , X n. .
(Vease la Secci
on C.1 del apendice)
La expresion general de las ecuaciones normales es
x0 y = x0 x b .
El Supuesto 4 garantiza (con probabilidad 1) que la matriz x0 x es invertible. Por tanto la estimacion MCO
del vector se puede expresar como
b = (x0 x)1 x0 y .

(Vease la Secci
on D para una interpretaci
on de esta expresion.)
4. Propiedades algebraicas de la estimaci
on MCO
4.1. Propiedades b
asicas
Captulos 2 y 3 de Wooldridge (2006)
Apendice E1 de Wooldridge (2006)

Mnimos cuadrados ordinarios: Propiedades algebraicas

20

El vector de residuos evaluado en e = b es


b
e = y x b

[N 1]

Reordenando las ecuaciones normales

x0 y = x0 x b

b = 0;
x0 (y x )

tenemos

x0 eb =0

yb 0 eb =0

(4.1)

La propiedad
x0 eb = 0
es el analogo muestral de las condiciones de ortogonalidad
Pderivadas del Supuesto 2 T8 (recuerdese que
dos vectores de n
umeros a y b son ortogonales si a 0 b = ai bi = 0.)
Esta propiedad indica que el termino de error estimado, eb, es ortogonal a todos y cada uno de los
regresores.
b definimos los valores ajustados yb como
Del mismo modo que hemos definido eb como eb = y x ,
b
yb = x ;
entonces yb0 = b0 x0 , y por tanto

yb0 eb = b0 x0 eb = b 0 = 0.

Practica 21. Con alg


un programa econometrico estime un modelo del tipo
Yn = 1 + 2 Xn2 + 3 Xn3 + Un .

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

22

Obtenga los residuos eb y los valores ajustados yb. Compruebe que


x1 0 eb =0
x2 0 eb =0
yb0 eb =0
nadir script de Gretl
Calcule los valores medios de eb, yb e y. Explique los resultados. A

Mnimos cuadrados ordinarios: M


as propiedades algebraicas

y 0 y = yb 0 yb + eb 0 eb

(Ta Pitagoras T46 )

21

(4.2)

Ya que
0

y 0 y = (b
y+b
e ) (b
y+b
e)

b
puesto que eb = y y

b0 b
=b
y 0 yb + 2 y
e + eb0 eb

desarrollando el producto

=b
y 0 yb + eb0 eb

b0 b
ya que de (4.1) y
e=0

Sumas de cuadrados

SRC

N
X

22

b0 eb
ec
n =e
2

n=1

ST C

N
X

(yn y)2 = y 0 y N y 2

n=1

SEC

N
X

(c
yn y)2 = yb0 yb +N y 2 2N yb
y

n=1

Por tanto, ST C = N s2y donde s2y es la varianza muestral de y; por el contrario, las sumas SRC y SEC
no son necesariamente N veces las varianzas de eb y yb (aunque veremos que as ocurre si el modelo tiene
termino cte.).

Ejercicio 22. Verifique las igualdades de la transparencia anterior.


Caso especial (Modelos con t
ermino constante). Cuando hay termino constante en el modelo (el
primer regresor es un vector de unos tal y como hemos presentado el modelo aqu) se verifica que
10 eb = 0;

N
X

ec
n =0

eb =0 .

n=1

Y puesto que para cada n, se verifica que yn = yc


c
n +e
n , entonces sumando para n = 1, . . . , N
N
X

yn =

n=1

N
X

yc
n +0

10 y = 10 yb

o bien

y =b
y

n=1

Adem
as, de (4.2)
X

yn2 =

yc
n +

eb2 ;

restando a derecha e izquierda N y 2 (que es igual a N yb ),


X
X 2
X
2
yn2 N y 2 =
yc
b +
eb2 ;
n Ny
y empleando el resultado de la Nota 6 en la p
agina14
N
X
n=1

(yn y)2 =

N
X
n=1

(c
yn yb)2 +

N
X
n=1

ec
n

o bien

y b
y )0 (b
y b
y ) + eb0 eb .
(y y)0 (y y) = (b

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

23

Dividiendo por N tenemos


s2y =s2yb +s2eb
ya que eb = 0; y donde s2z es la varianza muestral de z.
Ejercicio 23. Demuestre que yb 0 yb = yb 0 y; es decir,

yc
n =

yc
n yn .

Caso especial (Modelos con t


ermino constante). La suma explicada de cuadrados, SEC, se puede
expresar como:
y
SEC =b
y 0 yb +N y 2 2N yb
=b
y 0 yb N y 2

ya que y = yb por haber termino cte.

=N s2yb

por la Nota 6

otras expresiones son:


= b0 x0 x b N y 2

sustituyendo yb por x b

=b
y y N yby

por Ejercicio 23 y por y = yb

=N syb y

por la Nota 4

Adem
as, en este caso en particular, la suma total de cuadrados, ST C, se puede descomponer en la
suma:
ST C = SEC + SRC
ya que
y 0 y =b
y 0 yb +b
e 0 eb

agina 22)
de (4.2) (p

y 0 y N y 2 =b
y 0 yb N y 2 + eb0 eb
ST C =b
y 0 yb N y 2 + SRC
ST C =SEC + SRC

restando a ambos lados N y 2


por definici
on de ST C y SRC
por haber termino constante y = yb

Esta relacion sugiere el nombre de suma explicada de cuadrados, ya que descomponemos la variabilidad
de la variable que queremos estudiar (y) en dos partes: SRC es la variabilidad de los residuos (aquello que
el modelo no explica) y SEC es la variabilidad de yb, que es la estimacion de la esperanza condicionada
a los datos (aquello que explica el modelo).
En esta discusi
on se debe tener presente que el termino explicacion es enga
noso. En el ejemplo del
precio de las viviendas y su superficie, es sensato suponer que los precios dependen de las caractersticas
de las viviendas, y en particular, que parte de las variaciones de los precios se deben a la variacion en la
superficie de las viviendas; por ello, el nombre de suma explicada de cuadrados toma todo su sentido.
Ahora bien, suponga que estima el modelo:
Sn = 1 + 2 Pn + Un .
En este modelo, la superficie es funci
on del precio de la vivienda, y por ser un modelo lineal con termino
constante, la relaci
on algebraica ST C = SEC + SRC se cumple. Pero no tiene sentido suponer que
las caractersticas de la vivienda se deben al precio; de lo contrario podramos suponer que si el piso
experimenta un alza en su precio, entonces, en consecuencia su superficie aumentara. Esto es absurdo, y
podemos concluir que la relaci
on ST C = SEC + SRC es puramente algebraica, y que su interpretacion
solo es posible cuando el modelo estimado tiene sentido desde el punto de vista de la Teora Economica.
La u
nica interpretaci
on posible a las estimaciones es de caracter puramente estadstico (y no de Teora
Economica): si un piso tiene un precio muy elevado, cabe esperar que el piso sea grande. (Este es un
buen momento para que lea de nuevo la Introduccion a este Tema 1 en la pagina3).

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

24

4.2. M
as propiedades algebraicas.

4.2.1. Proyecciones
Si se cumple el cuarto supuesto, entonces x0 x es de rango completo y existe la matriz (x0 x)1. Solo
entonces, es posible despejar b en las ecuaciones normales (3.1) para obtener la expresion:
b = (x0 x)1 x0 y .
Llamamos estimaci
on MCO de y a
b = xb
y
que es igual a
b = xb = x(x0 x)1 x0 y .
y
Por otra parte,
eb = y b
y = y xb
= y x(x0 x)1 x0 y
=(I x(x0 x)1 x0 ) y
Si llamamos p x(x0 x)1 x0 y m I p, entonces
b = py yx;
y

eb = my yx .

donde yx es la parte de y que se puede expresar como funcion lineal de las x; e yx es la parte de y que no
se puede expresar como funci
on lineal de las x, es decir, la parte de y ortogonal a las x.
b + eb, por tanto
Ademas sabemos que y = y
y = py + my = yx + yx .
(vease la figura de la Transparencia T46); y p + m = I .
Nota 8. La inversa de una matriz simetrica es simetrica, as pues, (x0 x)1 es una matriz simetrica, y por

0
0
tanto (x0 x)1 = (x0 x)1. La traspuesta de un producto de matrices a y b es [ab] = b0 a0 .
0

Ejercicio 24. Cual ser


a la expresi
on de la traspuesta del producto de tres matrices (abc) ?

Ejercicio 25. Demuestre que p0 m = p0 (I p) = 0 .


Se puede verificar (empleando el resultado del ejercicio anterior) que yb 0 eb = 0, pues
yb0 eb = (py)0 my = y 0 p0 my = y 0 0 y = 0;
resultado que ya vimos en la Ecuaci
on 4.1 en la pagina21. Por tanto, podemos concluir que:
b y eb, ortogonales entre si
La estimaci
on MCO separa el vector y en dos componentes, y
b es una combinaci
(perpendiculares). La primera componente y
on lineal de los regresores (la
parte de y que se puede describir mediante un modelo lineal con las variables explicativas). La
segunda componente es la parte de y ortogonal a los regresores (lo que no se puede describir
linealmente con los regresores, ni siquiera de manera aproximada).

Ejercicio 26. Demuestre que m0 = m y que m0 m = m,


De los ejercicios y resultados anteriores, se deduce que
0

y 0 y = (py + my) (py + my)


=y 0 p0 p y +y 0 m0 m y
=b
y 0 yb +b
e 0 eb

pues p0 m = p m0 = 0
(expresion que ya obtuvimos en (4.2); T. de Pitagoras)

(vease la figura de la Transparencia T46).


b = py, se obtiene proyectando y sobre el conjunto de
La estimaci
on MCO de y, es decir el vector y
todas las combinaciones lineales de los regresores (todos los posibles modelos lineales generados con los
regresores x), para seleccionar aquel cuya suma de residuos al cuadrado eb 0 eb es menor. (compare la figura
de la Transparencia T46 con la figura inmediatamente anterior).

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

25

De manera an
aloga, los residuos eb = my son la proyeccion del vector y sobre el espacio ortogonal al
anterior (al de los modelos lineales obtenidos como combinaciones lineales de los regresores x). Es decir,
eb es la parte de y que no es expresable en funcion de un modelo lineal de x (o lo que es lo mismo, no es
explicable como combinaci
on lineal de los regresores).
Por tanto, la matriz p es una aplicaci
on lineal que proyecta el vector y sobre las x (sobre el espacio
vectorial expandido por las columnas los regresores de la matriz x); y la matriz m es una aplicacion
lineal que proyecta el vector y sobre el espacio ortogonal a las x (sobre el espacio vectorial ortogonal al
expandido por las columnas de la matriz x);

Proyectores ortogonales
Definici
on 2. Decimos que una matriz q es simetrica si se verifica que q0 = q .
Definici
on 3. Decimos que una matriz q es idempotente si se verifica que qq = q .
Definici
on 4. Sea q una matriz idempotente (qq = q). Si ademas la matriz es simetrica (q = q0 ),
entonces se dice que la matriz q es un proyector ortogonal.
Ejercicio 27. Verifique que p y m son proyectores ortogonales.
4.2.2. Regresi
on particionada
Wooldridge (p
aginas 85 y ejercicio 3.17 de la pagina 119 2006). Pero mejor en:
Johnston y Dinardo (p
aginas 88 a 95 y 116 a 118 2001)
Novales (paginas 85 a 86 1993)
Pe
na (paginas 390 a 392 2002)
En la parte de contrastaci
on de hip
otesis sera necesario, en ocasiones, tener expresiones explcitas de
sub-vectores de b

c1

b =
c2

Para ello vamos a reescribir el modelo lineal de la forma Y =X1 1 +X2 2 +U y tambien las ecuaciones
normales 3.1 en la p
agina12 del siguiente modo
 0 
   0 
 1
x1 
x y
x1 x2
= 10
x2 0
2
x2 y
o mejor a
un
c1 + x1 0 x2
c2 = x1 0 y
x1 0 x1
c1 + x2 0 x2
c2 = x2 0 y
x2 0 x1

(4.3)

 . 
donde x = x1 .. x2 , es decir, hemos dividido la matriz de regresores en dos conjuntos de columnas, cada
c1 y
c2 .
uno asociado a los par
ametros de los vectores
Si pre-multiplicamos la primera de las ecuaciones por x2 0 x1 (x1 0 x1 )1 y la restamos de la segunda,
tenemos

c2 = x2 0 y x2 0 x1 (x1 0 x1 )1 x1 0 y
x2 0 x2 x2 0 x1 (x1 0 x1 )1 x1 0 x2
(4.4)
Vamos ha definir los proyectores
p1 = x1 (x1 0 x1 )1 x1 0

m1 = I p1

El primero de ellos es una aplicaci


on lineal que proyecta cualquier vector z sobre el primer conjunto
de regresores x1 , y el segundo lo proyecta sobre el espacio ortogonal al primero. Por tanto p1 z realiza la
regresion MCO del vector z sobre los regresores x1 y m1 z son los residuos (los errores) de dicha regresion.
Sustituyendo p1 y m1 en (4.4) tenemos
c2 = (x2 0 m1 x2 )1 x2 0 m1 y

(4.5)

y sustituyendo esta expresi


on en las ecuaciones normales (4.3)
c1 = (x1 0 x1 )1 x1 0 (y x2
c2 )

(4.6)

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

26

Es sencillo verificar que, de nuevo, m1 0 = m1 . y que m1 0 m1 = m1 . Por lo que (4.5) se puede escribir
como
c2 = (x2 0 m1 0 m1 x2 )1 x2 0 m1 0 m1 y

En esta expresi
on, m1 y son los residuos obtenidos al realizar la regresion de y sobre el subconjunto de
regresores x1 (la parte de y ortogonal a x1 ). Y m1 x2 es una matriz cuyas columnas son los residuos
obtenidos realizando la regresi
on de cada una de las columnas de x2 sobre x1 (la parte de x2 ortogonal a
x1 ).
Notese que si llamamos yx1 = m1 y a los residuos de la primera regresion, y x2x1 = m1 x2 a la matriz
de residuos de las regresiones de las columnas de x2 , entonces (4.5) se puede escribir como
c2 = (x2 x 0 x2 x )1 x2 x 0 y x

1
1
1
1
c2 mediante regresiones auxiliares:
Este resultado nos indica que podemos estimar
1. Realizamos la regresi
on de y sobre el primer conjunto de regresores x1 y obtenemos el vector de
residuos yx1
2. Realizamos las regresiones de cada una de las columnas de x2 sobre las variables x1 , almacenando
los residuos de cada regresi
on en las columnas de x2x1.
c2 se obtiene de la regresion de y x sobre x2 x , es decir,
c2 = (x2 x 0 x2 x )1 x2 x 0 y x
3. por u
ltimo,
1
1
1
1
1
1
c1 se pueden recuperar de (4.6)
4. las estimaciones de
Notese que si 2 = 2 ; es decir, si el sub-vector se reduce a un escalar (un u
nico parametro), entonces la
expresion (4.5) se reduce a
c2 =
c2 = ( x0

m1

x2 )1 x2 0 m1 y =

[1N ] [N N ] [N 1]

x2 0 m1 y
x02 m1 x2

(4.7)

[1N ] [N N ] [N 1]

 . 
Regresi
on ortogonal particionada. Suponga que ambos grupos de regresores x1 .. x2 , son ortogonales entre si (x1 0 x2 = 0), es decir, est
an incorrelados. En este caso, las ecuaciones 4.3 en la pagina
anterior se reducen a
c1 = x1 0 y
x1 0 x1
;
c2 = x2 0 y
x2 0 x2
c1 y
c2 se pueden estimar por separado mediante las regresiones
y por lo tanto los vectores de coeficientes
de Y sobre X1 , y de Y sobre X2 . Esta es una generalizacion de la Nota 7 en la pagina18.
4.2.3. Regresi
on en desviaciones respecto a la media
Wooldridge (p
aginas 63, 64, 90 2006). Pero mejor:
Novales (paginas 86 a 91 1993)
Johnston y Dinardo (p
aginas 84 a 88 2001)
Gujarati (Secci
on 6.1 2003, hay versi
on castellana de este manual)
Un caso particular de la regresi
on particionada es que el primer grupo de regresores se limite a la columna
 .. 
de unos. Es decir x = 1 . x2 , donde x1 = 1 . En este caso
1

1
N1
N
N

0
1
1
1
1

N
=N
p1 = x1 (x1 0 x1 )1 x1 0 = 1(10 1)1 10 =
N

N
.
. . . ..
1
N

1
N

por lo que

y1 y
y2 y

m1 y = (I p1 ) y = . = y y1
..
yN y

1
N

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

27

es decir, y = m1 y son las desviaciones de los elementos del vector columna y respecto de su media muestral
y (son los residuos yx1 y1 de la primera regresion en el paso 1; aqu x1 = 1. Vease la Ecuacion 3.5 en
la pagina15). De manera similar, m1 x2 da como resultado una matriz x21 x
2 en la que aparecen las
desviaciones de los datos de cada una de las columnas de X2 respecto de sus respectivas medias (son los
residuos de las regresiones auxiliares del paso 2).
c2 como (paso 3)
Ahora es inmediato estimar
c2 = (
2 )1 x

x02 x
02 y

(4.8)

es decir, en un modelo con termino constante, la estimacion de todos los parametros excepto el de la
constante. se pueden obtener mediante la regresion de las variables del modelo en desviaciones respecto a
su media. Por u
ltimo (paso 4)
0
c
c1 = (10 1)1 10 (y x2
c2 ) = 1 (y x2 2 ) = y
c2 x2
c3 x3
ck xk

(4.9)
N
En definitiva, si en el modelo Yn = 1 + 2 X2n + + k Xkn deseamos estimar por MCO solo 2 , 3 ,
. . . , k . Basta restar la media muestral a cada una de las variables del modelo, y realizar la regresion en un
2n + + k X
kn .
nuevo modelo sin termino constante y con las nuevas variables transformadas. Yn = 2 X

Practica 28. Verifique con un programa econometrico la afirmacion anterior.


Notese ademas, que la expresi
on (4.8) se puede reescribir como:

1 

1 0
c2 = 1 x
02 x
x
2 y ;
2

N
N
02 x
02 y es el vector de covarianzas
donde N1 x
2 es la matriz de covarianzas muestrales de los regresores, y N1 x
muestrales entre los regresores y el regresando (que es la contrapartida muestral de la Ecuacion C.1 en la
pagina49).
4.2.4. A
nadiendo regresores
Suponga que ha estimado por MCO el siguiente modelo
Y = X + U .
Posteriormente decide incluir como regresor adicional la variable Z; entonces el nuevo modelo ampliado
sera:
Y = X +c Z + U .
Podemos aplicar los resultados de la regresi
on particionada para obtener el coeficiente, c, asociado al nuevo
regresor Z del siguiente modo (de 4.5 en la pagina25):
c = (z 0 m z)1 z 0 my = (zx0 zx)1 zx0 yx;

(4.10)

donde yx son los residuos de la regresi


on MCO de y sobre x (la parte de y que no se puede expresar como
funcion lineal de las x, es decir, la parte de y ortogonal a las x), y zx son los residuos de la regresion MCO

de z sobre x (la parte de z ortogonal a las x), es decir zx = mz, e yx =my; donde m = I x(x0 x)1 x0 .

Practica 29. Verifique con un programa econometrico la afirmacion anterior. Los pasos a seguir son
1. Calcule los residuos MCO con el modelo reducido.
2. Calcule los coeficientes estimados en el modelo ampliado. Fjese en el valor obtenido para el coeficiente
c asociado al nuevo regresor4 .
3. Calcule los residuos en la regresi
on de la nueva variable explicativa z sobre los antiguos regresores
x.
4. Calcule por MCO la regresi
on de los residuos del punto 3 sobre los residuos del punto 1; y compare
el valor estimado con el obtenido en el punto 2.

4 N
otese que el resto de coeficientes puede diferir respecto de los obtenidos en la nueva regresi
on. Esto ser
a as siempre
que el nuevo regresor tenga correlaci
on con los del modelo inicial.

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

28

Suma de residuos: Cuando se a


naden regresores a un modelo, la suma de residuos al cuadrado nunca
crece; de hecho suele disminuir. Esto se cumple incluso si la variable a
nadida no tiene ning
un sentido
dentro del modelo (ninguna relaci
on te
orica). Veamoslo:
Del modelo inicial obtendremos los residuos
b
eb = y x;
por otra parte, los residuos con el modelo ampliado son
c z b
eb = y x
c.
c ; y que si b
(notese que si x0 z 6= 0 entonces b 6=
c 6= 0 entonces eb 6= eb .)
De (4.6) sabemos que
c = (x0 x)1 x0 (y z b

c ) = b (x0 x)1 x0 z b
c.
c en eb obtenemos
Sustituyendo
eb = y xb + x(x0 x)1 x0 z b
c zb
c
= eb mz b
c
= eb zx b
c
As pues,

de (4.10)


eb 0 eb = eb0 eb +b
c2 zx0 zx 2b
c zx0 eb

c = (zx0 zx)1 zx0 yx y que eb = my = yx tenemos


Teniendo en cuenta que de (4.10) b



b
c2 zx0 zx = b
c zx0 zx b
c=b
c zx0 zx (zx0 zx)1 zx0 yx = b
c zx0 yx = b
c zx0 eb .
Por lo que finalmente


eb 0 eb = eb0 eb b
c2 zx0 zx
| {z } |{z} | {z }
SRC

SRC

(4.11)

por lo que la suma de residuos al cuadrado del modelo ampliado SRC nunca sera mayor que la del modelo
reducido SRC.
4.2.5. Correlaciones parciales
Suponga que tiene tres variables; por ejemplo, la renta r, la edad e y el n
umero de a
nos de estudio o
formacion f de una serie de individuos.
Rn = 1 + 2 Fn + 3 En + Un
Querramos saber el grado de relaci
on lineal entre dos de ellas, una vez descontado la relacion lineal que
la tercera tiene con ellas. En nuestro ejemplo nos podra interesar conocer el grado de relacion lineal de la
renta con la formaci
on, una vez descontado el efecto lineal que la edad tiene con ambas (notese que tanto
para formarse como para generar rentas es necesario el transcurso del tiempo, por lo que generalmente
hay una relaci
on directa entre la edad y las otras dos variables).
La solucion es tomar la parte de ambas variables, renta y educacion, ortogonal a la tercera,
laedad; y observar la correlaci
on de dichas partes (que ya no mantienen relacion lineal ninguna con la
variable edad).
El modo de hacerlo es sencillo una vez visto lo anterior:
1. Se toman los residuos de la regresi
on de la variable renta r sobre la variable edad e y la constante
(modelo lineal simple); es decir, se obtiene re.
2. Se toman los residuos de la regresi
on de la variable formacion f sobre la variable edad e y la constante
(modelo lineal simple); es decir, se obtiene fe.
3. Por u
ltimo se calcula el coeficiente de correlacion simple de ambos residuos rrefe.
Dicho coeficiente es la correlaci
on parcial de la variable renta r con la variable formacion f , una vez
descontado el efecto de la edad e sobre ambas variables. Notese que ambos residuos tiene media cero
por ser residuos de un modelo con termino constante.
Suponga por tanto que dividimos la matriz de regresores x en dos columnas; por ejemplo la primera
variable no cte. x2 y el resto de k 1 regresores (incluyendo el termino cte.) w.


..
x = x2 . w

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

29

entonces el coeficiente de correlaci


on parcial de y con x2 una vez descontado el efecto de las dem
as variables
(incluida la constante) w es
sy w x2 w
y 0 mw x2
q q
=
r(y,x2 ) z = p 0

y mw y x2 0 mw x2
s2y w s2x2 w,

donde mw = I w(w w)

w .

Ejercicio 30. Resuelva el ejercicio propuesto no 2 del profesor Jose Alberto Mauricio.
http://www.ucm.es/info/ecocuan/ectr1/index.html#Material.
Ejercicio 31. Resuelva el ejercicio propuesto no 3 del profesor Jose Alberto Mauricio.
http://www.ucm.es/info/ecocuan/ectr1/index.html#Material.

4.3. Medidas de ajuste


Las medidas de ajuste sirven para
Cuantificar la reducci
on de incertidumbre que proporciona el modelo estimado.
Comparar la bondad de modelos alternativos para la misma muestra

Medidas de ajuste: Coeficiente de determinaci


on R2

R2 1

SRC
;
ST C

R2 1

23

(no acotado inferiormente)

Cuando hay termino constante


R2 =

SEC
;
ST C

0 R2 1

(acotado)

Coeficiente de Determinaci
on o R2 es una medida de ajuste frecuente. Cuando el modelo contiene
un regresor constante, muestra el poder explicativo de los regresores no constantes. Se define como
SRC
R2 1
;
ST C
y puesto que SRC y ST C son siempre mayores o iguales a cero, R2 1.
Cuando el modelo no tiene cte. SRC puede ser mayor que ST C, por lo que R2 no esta acotado
inferiormente.
GNU Gretl: ejemplo simulado

Caso especial (Modelos con t


ermino constante). Si el modelo tiene termino constante, el coeficiente
R2 mide el porcentaje de variaci
on de y explicado por los regresores no constantes del modelo; ya que
SRC
ST C SRC
SEC
R2 = 1
=
=
ST C
ST C
ST C
2
y por tanto 0 R 1.
N
otese adem
as que

2
2
2
2

N
s
s
SEC
SEC
N
by
y
by
y
= ryb y 2 ,
R2 =
=
=
= 2 q
(4.12)
2
2
ST C
ST C SEC
N sy N syb
N
s2y s2yb

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

donde ryb y =

syb y
syb sy

30

es el coeficiente de correlaci
on lineal simple entre yb y y.

Ejercicio 32. Calcule el coeficiente de determinacion R2 para el el ejemplo del precio de las viviendas

Ejercicio 33. Calcule el coeficiente de determinacion para el Modelo 1: Yn = a + Un


Pista. piense cuanto vale SEC en este caso.
Ejercicio 34. Verifique que, para el caso del Modelo Lineal Simple Yn = a + bXn + Un , el coeficiente de
determinacion R2 es el cuadrado del coeficiente de correlacion simple entre el regresando y y el regresor
x; es decir, que en este caso R2 = ry2 x . (N
otese que este resultado es diferente de (4.12)).
El coeficiente de determinaci
on R2 tiene algunos problemas al medir la bondad del ajuste.
a
nadir nuevas variables al modelo (cuales quiera que sean) nunca hace crecer SRC pero esta suma
si pude disminuir (vease la Secci
on 4.2.4)
Por tanto el R2 del modelo ampliado nunca puede ser menor que el del modelo inicial.
2
Para evitar este efecto se emplea el coeficiente de determinacion corregido (o ajustado) R
2 de define como
El coeficiente de determinaci
on corregido R
2 1
R

SRC
N k
ST C
N 1

;= 1

s2eb
s2y

es decir, uno menos la fracci


on de la cuasivarianza de los errores con la cuasivarianza muestral del regresando. Por ello tambien es siempre menor o igual a uno.
1. compara estimadores insesgados de la varianza residual y de la varianza de la variable dependiente
2. penaliza modelos con un elevado numero de parametros, al corregir por el n
umero de grados de
libertad N k.

Otras medidas de ajuste


2

R corregido

24

(mejor cuanto m
as elevado)
2 1
R

SRC
N k
ST C
N 1

=1

N 1
(1 R2 )
N k

Criterios de informaci
on de Akaike y de Schwartz
(mejor cuanto mas bajos)
 0 
eb eb
AIC =N ln(2) + N ln
+ N + 2(k + 1)
N
 0 
eb eb
SBC =N ln(2) + N ln
+ N + (k + 1) ln(N )
N

Volver al recuadro del ejemplo del precio de las viviendas (pagina 17).
Otras medidas de la bondad del ajuste son los criterios de informacion de Akaike y de Schwartz (mejor
cuanto mas bajos)
Akaike prima la capacidad predictiva del modelo (pero tiende a sobreparametrizar)
Schwartz prima la correcta especificaci
on
El programa Gretl (Gnu Regression, Econometrics and Time-series Library) realiza un calculo especial
de R2 cuando el modelo no tiene termino cte. En este caso el R-cuadrado es calculado como el cuadrado
de la correlaci
on entre los valores observado y ajustado de la variable dependiente (Vease Ramanathan,
1998, Seccion 4.2).
Los coeficientes de determinaci
on nos dan informacion sobre el grado de ajuste del modelo, pero ojo! nos
pueden conducir a enga
nos. No es recomendable darles demasiada importancia, hay otras cuestiones sobre
el modelo de mayor relevancia a la hora de valorarlo. . .

Secci
on 4: Propiedades algebraicas de la estimaci
on MCO

31

Ejemplo 35. [peso de ni


nos seg
un su edad:]
n
1
2
3
4
5
6
7
8

Peso Kg
39
40
42
49
51
54
56
58

Edad
7
7
8
10
10
11
12
14

Cuadro 3: Peso (en kilogramos) y edad (en a


nos)

(Modelo 1 Pn = 1 + 2 EDADn + Un )
Peso con respecto a Edad
E( P | e) = a + b e
ajustado
observado

60

Peso

55

50

45

40
7

10

11

12

13

14

Edad

\
Peso
Kg = 19, 6910 + 2, 93003 Edad
(6,999)

(10,564)

2 = 0, 9405 F (1, 6) = 111, 6


T =8 R
= 1, 8161
(entre parentesis, los estadsticos t)
(Modelo 2 Pn = 1 + 2 EDADn + 3 EDADn 2 + Un )
Peso con respecto a Edad
E( P | e) = a + b e + c e2
ajustado
observado

60

Peso

55

50

45

40
7

10

11

12

13

14

Edad

\
Peso
Kg = 5, 11497 + 8, 06835 Edad 0, 252102 Edad2
(0,664)

(5,159)

(3,305)

2 = 0, 9776 F (2, 5) = 153, 57


T =8 R
= 1, 1148
(entre parentesis, los estadsticos t)

32

(Modelo 3 Pn = 1 + 2 EDADn + 3 EDADn 2 + 4 EDADn 3 + Un )


Peso con respecto a Edad
E( P | e) = a + b e + c e2 + d e3
ajustado
observado

60

Peso

55

50

45

40
7

10

11

12

13

14

Edad

\
Peso
Kg = 81, 7714 18, 5964 Edad + 2, 37778 Edad2 0, 0836541 Edad3
(1,904)

T =8

(1,419)

(1,845)

(2,043)

2 = 0, 9863 F (3, 4) = 168, 75


R
= 0, 87188
(entre parentesis, los estadsticos t)

5. Propiedades estadsticas de los estimadores MCO


Captulos 2 y 3 de Wooldridge (2006)
Apendice E2 de Wooldridge (2006)

b
Estimador MCO
|x

25

Los coeficientes estimados verifican


x0 y = x0 x b
b
por Supuesto 4 T13 de independencia lineal podemos despejar :
b = (x0 x)1 x0 y
que es una estimaci
on.
El estimador de los coeficientes es b = (X 0 X)1 X 0 Y o bien


b| x b x = (x0 x)1 x0 Y = a Y = + a U
donde Y = x + U suponiendo conocidas las realizaciones de los regresores.

Nota 9. Notese las dimensiones de la matriz:

a1N
a2N

.. ;
.

a11
a21

a (x0 x)1 x0 = .
..
[kN ]

a12
a22
..
.

..
.

ak1

ak2

akN

por lo tanto, b son k combinaciones lineales de los N datos del vector y, donde los coeficientes especficos
de cada combinaci
on son los elementos de cada una de las filas de la matriz (x0 x)1 x0 .
Del mismo modo, cada uno de los elementos del vector aleatorio b es una combinacion lineal de las N
variables aleatorias Yn .
Notese ademas que


b| x b x = a Y


= a x + U
= + aU
= +(x0 x)1 x0 U
es decir:
b| x es igual al verdadero valor de los par
ametros m
as una combinaci
on lineal (o suma ponderada) de las perturbaciones determinada por los coeficientes aij de la matriz a.

Secci
on 5: Propiedades estadsticas de los estimadores MCO

33

5.1. Esperanza de los estimadores MCO b| x

b
Esperanza del estimador MCO
|x
0

Denotemos (X X)1 X por

26

A
[kN ]

 

E b x =E( + AU | x)
=E( + aU | x)
= + a E( U | x)
=
por lo tanto es un estimador insesgado.
Si los regresores son NO estoc
asticos, la demostracion es mas sencilla a
un
 
E b =E( + aU)
= + a E(U)
=
Modelo 2. [Modelo Lineal Simple (caso particular T16 ).]
De 3.7 en la p
agina15 resulta
P
P
(xn x)(yn y)
yn (xn x)
bb = nP
= Pn
.
2
2
x)
(x

n
n
n (xn x)
es decir,
bb =

mn y n ,

(5.1)

donde

xn x
.
2
n (xn x)

mn = P

Por tanto, bb es una combinaci


on lineal de los datos yn (donde mn son los coeficientes de dicha combinacion); y entonces b
a tambien es combinacion lineal de los datos yn (vease 3.10 en la pagina15).
P
Por 5.1 sabemos que bb| x = mn Yn , donde
mn = P

xn x
.
(xn x)2

Se puede verificar que


P
1.
mn = 0
P 2
2.
mn = P1x2 = P(xn1x)2 = N1s2
n
x
P
P
3.
mn (xn x) = mn xn = 1.
Entonces,
X
bb| x =
mn (a + bxn + Un )
X
X
X
X
=a
mn + b
mn xn +
mn Un = b +
mn Un
y
 
X

E bb x = b +
mn E( Un | x) = b.
(Novales, 1997; Gujarati, 2003, pag. 488491 y pag. 100 respectivamente).
Por otra parte, de 3.10 en la p
agina15 sabemos que
1 X
1 X
b
a = y bb x =
yn bb
xn .
N
N
Por lo tanto el estimador condicionado es
  1 X
1 X
b
a| x =
Yn bb| x
xn
N
N

Secci
on 5: Propiedades estadsticas de los estimadores MCO

34

cuya esperanza es
1
N
1
=
N
1
=
N
1
=
N
= a.

a | x) =
E( b

  1 X

E( Yn | x) E bb x
xn
N
X
1 X
E( Yn | x) b
xn
N
X
1 X
E( a + bxn + Un | x) b
xn
N
X
1 X
1 X
1 X
a+b
xn +
E( Un | x) b
xn
N
N
N
X

Ejercicio 36. Verifique que el estimador MCO del parametro a del Modelo 1 (constante como u
nico
regresor) es insesgado.

5.2. Varianza de los estimadores MCO b| x

b
Varianza del estimador MCO
|x

27

Aplicando la def. de la Ecuaci


on (1) tenemos:


0 
 

Var b x =E
b
b x



=E (x0 x)1 x0 U U 0 x(x0 x)1 x

=(x0 x)1 x0 E U U 0 x x(x0 x)1
= 2 (x0 x)1

Modelo 2. [Modelo Lineal Simple] Sabemos de (3.7) en la pagina15 que x0 x =


determinante es
X
X 2
X
det x0 x |x0 x| = N
x2n
xn = N
(xn x)2 ;

P
N
x
P
P n
xn
x2n

cuyo

Por tanto la matriz de varianzas y covarianzas del estimador es:


 P 2
P 
2
xn
xn
2 0
1
P
P

.
(x x) =
xn
N
N (xn x)2
Notese que
X

(xn x)2 = N s2x .

As pues, podemos deducir que


P
2 x2n
2 x2
P
Var( b
a | x) =
=
;
N (xn x)2
N s2x

 
2
2

Var bb x = P
=
.
(xn x)2
N s2x

Ademas, ambos estimadores tienen una covarianza igual a


P


2 xn
2 x

b
Cov b
a, b x = P
=
N (xn x)2
N s2x
Ejemplo 37. [continuaci
on de precio de las viviendas:]
Podemos calcular la inversa de x0 x:


9.1293e 01 4.4036e 04
(x0 x)1 =
;
4.4036e 04 2.3044e 07

(5.2)

(5.3)

Secci
on 5: Propiedades estadsticas de los estimadores MCO

35

as pues, las desviaciones tpicas de b


a| x y bb| x son (vease 5.2 en la pagina anterior)
s
p
2 x2
Dt( b
a | x) = 2 (9.1293e 01) =
N s2x
s
  p
2

.
Dt bb x = 2 (2.3044e 07) =
N s2x
2
Pero no conocemos U
.
n

Continuacion del ejemplo precio de las viviendas en la pagina 41

Practica 38. Observe los resultados de las estimaciones del ejemplo del precio de las viviendas. Que estimacion cree que es m
as fiable, la de la pendiente o la de la constante? Con los datos del ejemplo del
precio de las viviendas, repita la regresi
on pero con las siguientes modificaciones:
1. con todos los datos excepto los de la u
ltima vivienda
2. con todos los datos excepto los de las u
ltimas dos viviendas
3. con todos los datos excepto los de la primera y la u
ltima viviendas
Confirman los resultados de estas regresiones su respuesta a la primera pregunta?
ejemplo del precio de las viviendas en GNU Gretl
Nota 10. Sea

a , entonces, aplicando la definicion de la Nota 2


[mN ]



Var(aY) =E aY Y 0 a0 E(aY) E Y 0 a0



= a E Y Y 0 E(Y) E Y 0 a0
= a Var(Y) a0
Nota 11. Sean

[nN ]

sacando factores comunes

matrices, y v y w vectores de orden n y m respectivamente. Entonces

[mN ]

E(qU + v) = E(qU) + E(v) = q E(U) + v,


y
Var(qU + v) = Var(qU) = q Var(U) q0 ,
ademas
Cov(qU + v, rU + w) = Cov(qU, rU) = q Cov(U, U) r0 = q Var(U) r0

Nota 12. Sean

Q = f (X) y
[nN ]

R = g(X) matrices, y v y w vectores de orden n y m respectivamente;


[mN ]

sea ademas X = x, por lo que q = f (x) y r = g(x). Entonces


E( QU + v | x) = E( qU | x) + E( v | x) = q E( U | x) + v,
y
Var( QU + v | x) = Var( qU | x) = q Var( U | x) q0 ;
ademas
Cov( QU + v, RU + w | x) = Cov( qU, rU | x) = q Var( U | x) r0

Ejercicio 39. Denotemos (X 0 X)1 X 0 por A . Sabiendo que b = + AU, calcule de nuevo la ex[kN ]
 

b
presion de Var x empleando las propiedades de la esperanza y la varianza de vectores de las notas
anteriores.

Secci
on 5: Propiedades estadsticas de los estimadores MCO

36

b x: Ta de Gauss-Markov
Eficiencia del estimador MCO

28

Con los supuestos 1 a 4,


b| x eficiente entre estimadores lineales e insesgados
es decir, para cualquier estimador lineal insesgado e| x
 
 
e x Var b x
Var
en sentido matriciala
Entonces se dice ELIO (BLUE en ingles).
a La

h

i
e x Var
b x es definida positiva
matriz Var

De hecho el Ta arriba mencionado implica que


 
 
fj x Var bj x
Var

para

j = 1, . . . , k.

es decir, la relaci
on es cierta para cada uno de los estimadores de cada uno de los parametros individuales.
Teorema 5.1 (Gauss-Markov). Sea b| x el estimador MCO de , y sea e| x otro estimador lineal e


e x
insesgado de ; entonces bajo los supuestos 1 a 4, para cualquier v se verifica que Var v 0
[k1]


0 b
Var v x
 
e x = f E( Y | x) = f x = . Por
Demostraci
on. Puesto que e| x = f Y es un estimador insesgado, E
tanto la insesgadez implica necesariamente que fx = I . Sea g = a + f , donde a = (x0 x)1 x0 ; entonces
gx = 0 (y por tanto g a0 = 0 y, trasponiendo, a g0 = 00 ). Puesto que Var( Y | x) = Var( U | x) = 2 I
[kk]

[kk]

se deduce que:
 





e x = f Var( Y | x) f 0 = 2 a + g a0 + g0 = 2 a a0 + a g0 + g a0 + g g0 = 2 (x0 x)1 + 2 g g0 ,
Var
| {z }
c
Var(
j | x)
donde g g0 es semi-definida positiva.
Por tanto, para cualquier vector v de orden k


 

0 e
e x v 0
Var v x =v 0 Var



0 b
=Var v x + 2 v 0 g g0 v;
que implica





0 b
e

Var v x Var v x .


Ejercicio 40. En particular que implica


el Teorema de Gauss-Markov para el caso particular de un

vector v = 0 . . . 0 1 0 . . . 0 ; es decir, con un 1 en la posicion j-esima y ceros en el resto?

5.3. Momentos de los valores ajustados yb| x y de los errores eb| x


Recuerde las definiciones que aparecen al final de la Subseccion 4.2.1 en la pagina25; y resuelva el
siguiente ejercicio:
Ejercicio 41. Denotemos x (x0 x)1 x0 por p.
Notese que
p x (x0 x)1 x0 = xa .
Verifique que px = x . Demuestre adem
as que p0 = p y que pp = p; es decir, que p es simetrica e
idempotente.

37

Primeros momentos de los valores ajustados por MCO

29

Denotemos x (x0 x)1 x0 por p, entonces




yb| x = x b| x = x +(x0 x)1 x0 U
= x + x(x0 x)1 x0 U = x + pU

T47

as pues:
E( yb | x) = x

por el Supuesto 2 T7

Var( yb | x) = p Var( U | x) p0
= 2 p p0 = 2 p

por el Supuesto 3 T9

Donde hemos empleado los resultados de la Nota 11 en la pagina35.


Notese que la matriz de varianzas y covarianzas es (en general) una matriz llena (al contrario que la
matriz identidad) por tanto los valores ajustados son autocorrelados y heterocedasticos.

Ejercicio 42. Denotemos I x(x0 x)1 x0 por m.


Notese que
m I x(x0 x)1 x0 = I p = I xa .
Verifique que mx = 0, y que am = 0 . Demuestre ademas que m = m0 y que mm = m; es decir, que m
es simetrica e idempotente.

Primeros momentos de los errores MCO


0

30

1 0

Denotemos I x(x x)
eb| x

x por m, entonces




= Y | x yb| x = x + U x +(x0 x)1 x0 U


= I x(x0 x)1 x0 U = mU

T47

por tanto,
E( eb | x) = 0

por el Supuesto 2 T7

y
Var( eb | x) = m Var( U | x) m0
= 2 m m0 = 2 m

por Supuesto 3 T9

Notese que la matriz de varianzas y covarianzas es (en general) una matriz llena (al contrario que la
matriz identidad) por tanto los valores ajustados son autocorrelados y heterocedasticos.
[ | x = U0 m U .
Ejercicio 43. Demuestre que el estimador de la suma residual es SRC
6. Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad
Secciones 4.1 y 4.2 de Wooldridge (2006)
Apendice E3 de Wooldridge (2006)
Nota 13. Distribuci
on conjunta normal implica
1. distribuci
on queda completamente determinada por el vector de esperanzas y la matriz de varianzas
y covarianzas (lo que ya hemos calculado).
2. Correlaci
on cero implica independencia
3. Cualquier transformaci
on lineal tambien es conjuntamente normal

Secci
on 6: Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad

38

6.1. Quinto supuesto del Modelo Cl


asico de Regresi
on Lineal

Supuesto 5: Distribuci
on Normal de las perturbaciones

31

Para conocer la distribuci


on completa necesitamos un supuesto mas sobre la distribucion conjunta de U:


U | x N 0 , 2 I
Y | x N x , 2 I
donde I es la matriz identidad.
Puesto que
b| x = +(x0 x)1 x0 U = + AU
es funcion lineal de U, entonces b| x tiene distribucion normal multivariante.

b| x N , 2 (x0 x)1

b| x N , 2 (x0 x)1 es decir (y si el modelo tiene termino constante)

1
0

c1

1 1
1 0 xH 2

1 0 xH k
1


c
xH 2 0 1 xH 2 0 xH 2 xH 2 0 xH k
2
2




2
N
,

.

..
..
..
.
.
.
.
.

.
.
.
.

.
.


0
0
0
ck
xH k 1 xH k xH 2 xH k xH k
k

|x

b
Distribuci
on del estimador MCO
|x

32

As pues,


 
bj | x N j , 2 (x0 x)1 jj


donde (x0 x)1 jj es el elemento (j, j) de la matriz (x0 x)1.
y
bj | x j
  N (0 , 1)

Dt bj x
(a partir de ahora tambien denotaremos los estadsticos condicionados, i.e., b| x o eb| x sencillamente como b y
b)
e
Modelo 2. [Modelo Lineal Simple.] De la transparencia anterior y de 5.2 en la pagina34 podemos
afirmar que bajo todos los supuestos del MLS
!


2
2 x2
bb| x N b ,
b
a| x N a ,
y
.
(6.1)
N s2x
N s2x

Distribuci
on de los estimadores de valores ajustados y residuos

33

Ambos estimadores son transformaciones lineales de U N; y vistos sus primeros momentos T29 y
T30 :

yb| x N x , 2 p
pues yb| x = x + pU
eb| x N 0 , 2 m
donde

p = x(x0 x)1 x0 ;

m = I x(x0 x)1 x0

pues eb| x = mU

Secci
on 6: Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad

39

6.2. Estimaci
on de la varianza residual y la matriz de covarianzas
Nota 14. Llamamos traza a la suma de los elementos de la diagonal de una matriz.
El operador traza es un operador lineal con la siguiente propiedad: Sean a y b dos matrices cuadradas,
entonces
traza (ab) = traza (ba)
Proposici
on 6.1. traza (m) = N k;
Demostraci
on.
!
traza (m) = traza

I
[N N ]

puesto que m I p

p
[N N ]

= traza (I) traza (p)


=N traza (p)

puesto que traza es lineal

y
traza (p) = traza x(x0 x)1 x0

puesto que p x(x0 x)1 x0 = xa


= traza (x0 x)1 x0 x


= traza
I
=k

puesto que traza (xa) = traza (ax)

[kk]

Por tanto traza (m) = N k.



Proposici
on 6.2. E eb 0 eb x = (N k) 2
Demostraci
on. En T30 vimos que eb| x = mU; por tanto





E eb 0 eb x =E U 0 m0 m U x = E U 0 m U x
=

N X
N
X

mij E( Ui Uj | x)

por ser m idempotente


pues el operador esperanza es lineal

i=1 j=1

N
X

mii 2

por el supuesto 3 T9

i=1
2

= traza (m) = 2 (N k)

por la Nota 14 (Pag. 39) y Proposici


on 6.1

0
b
e
Por tanto, sb2eb Neb k
es un estimador insesgado de 2 . Consecuentemente emplearemos como estimador
de la matriz de varianzas y covarianzas la expresion (6.2) de mas abajo.

Estimaci
on de la varianza residual

El parametro 2 es desconocido T9
La cuasivarianza de eb

34

eb 0 eb
sb2eb
N k

es un estimador insesgado de 2 puesto que


 0
 
eb eb

b
2
E seb x = E
N k


2

x = (N k) = 2

N k

Estimador de la matriz de varianzas y covarianzas de b| x




d b| x = sb2 (x0 x)1
Var
e
b

Proposici
on 6.3. Si una matriz cuadrada q es idempotente entonces rango (q) = traza (q) .
Demostraci
on. (Demostraci
on en Rao, 2002, pp. 28)

(6.2)

Secci
on 6: Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad

40

Proposici
on 6.4. Sea el vector Z N (0 , I) , y sea q una matriz simetrica e idempotente, entonces
Z 0 q Z 2(rango(q)) .
Demostraci
on. (Demostraci
on en Mittelhammer, 1996, pp. 329)

Distribuci
on cuando la varianza de U es desconocida

35

bj j

 N (0 , 1)
2 (x0 x)1 jj

sustituyendo 2 por su estimador, sb2eb , tenemos el estadstico T del parametro j -esimo:


bj j
q


sb2eb (x0 x)1 jj

Proposici
on 6.5.

N k b2
b
2 se

b0 e
b
e
2

= rh

bj j
 i
d b
Var

t N k

(6.3)

jj

2(N k)

Demostraci
on.
N k eb 0 eb
eb 0 eb
1
N k b2
1
=
=
= eb 0 eb
s
e
b
2
2
2

N k

1 0 0
1
= U m mU
ya que eb = mU

1
1
= U 0 m U 2(N k)


puesto que m es idempotente, U | x N 0 , 2 I , por las proposiciones 6.3 y 6.4 y la Proposici
on 6.1 en
la pagina anterior.

Ejercicio 44. Teniendo en cuenta que si una v.a. X 2N k entonces E(X) = N k y Var(X) =
2
2(N k), y puesto que sb2eb es una variable aleatoria 2N k multiplicada por Nk ; calcule la esperanza y
la varianza de sb2
e
b

Proposici
on 6.6. Las variables aleatorias b


|x

y eb| x son independientes.


Demostraci
on. Puesto que b | x = aU y eb| x = mU, ambas variables son transformaciones
lineales de U, y por tanto ambas tienen distribucion conjunta normal condicionada a x (Nota 13 en la
pagina37)
Basta, por tanto, demostrar que ambas variables tienen covarianza nula
Cov( aU, mU | x) = a Var( U | x) m0
2

= a Im

por el supuesto 2 y la Nota 12 (Pagina 35)

por el supuesto 3
2

= am = 0 = 0

Nota 15. Si dos variables aleatorias X e Y son independientes, entonces transformaciones de ellas, h(X)
y g(Y), tambien son independientes.
Proposici
on 6.7. El estadstico T
T j t N n

de distribuye como una t con N k grados de libertad, es decir,

Demostraci
on.
bj j

bj j

q

 =q 2
(x0 x)1 jj
sb2eb (x0 x)1 jj

v
u 2
u
Z
Z
t
=r
=q 0
b
2
b e
b / 2
e
c
2
s
s
e
b

e
b

N k

Secci
on 6: Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad

41


donde la parte de numerador es funci
on de b | x y la del denominador es funcion de eb| x . As pues,
agina anterior y la Proposici
on 6.6 en la pagina anterior el numerador y el
por la Nota 15 en la p
denominador son independientes.
Ademas, en numerador tiene distribuci
on N (0 , 1). Por tanto tenemos una N (0 , 1) dividida por la raz
cuadrada de un 2 dividida por sus grados de libertad; este cociente tiene distribucion t de Student con
N k grados de libertad.

Ejemplo 45. [continuaci


on de precio de las viviendas:]
La inversa de x0 x es:


9.1293e 01 4.4036e 04
(x0 x)1 =
;
4.4036e 04 2.3044e 07
a y bb son (vease 5.2 en la pagina34)
as pues, las desviaciones tpicas de b
s
P
p
2 x2n
2
P
Dt(b
a ) = (9.1293e 01) =
N (xn x)2
s
  p
2
Dt bb = 2 (2.3044e 07) = P
.
(xn x)2
2
; pero podemos sustituirla por la la cuasi-varianza:
No conocemos U
n
s
P
p
(1522.8) x2n
c
P
Dt(b
a ) = (1522.8) (9.1293e 01) =
= 37.285;
N (xn x)2
s
  p
c bb = (1522.8) (2.3044e 07) = P(1522.8) = 0.01873
Dt
(xn x)2

puesto que sb2eb =

b
b0 e
e
N n

18273.6
142

= 1522.8.

Vease los resultados de estimaci


on en el ejemplo del precio de las viviendas (pagina 17).
P


c
2
s
xn
d b
Por otra parte, Cov
a , bb = (1522.8) (4.4036e 04) = N Peb(xn x)2 = 0.671
(vease 5.3 en la p
agina34).

6.3. Cota mnima de Cram


er-Rao

Matriz de Informaci
on

Funcion de verosimilitud
2 n
2

`(; y, x) = (2 )



1
0
exp 2 (y x) (y x) = f (y, x; ) ;
2

2
Matriz de Informaci
on para
donde =


I() = E


2 ln `(; Y, X)
x
0

36

Secci
on 6: Distribuci
on de los estimadores MCO bajo la hip
otesis de Normalidad

42

Cota mnima de Cram


er-Rao

 x0 x
I() =

2
0

N
2 4

Cota mnima es la inversa de la Matriz de Informacion


 2 0 1
(x x)
I()1 =
00

0
2
N

1. La matriz de varianzas y covarianzas b

|x

2 4
N k

x x
I() = E  0 2 0 0
x Y x x

4
 x0 x

0
= 20
N
0
2 4

Matriz de varianzas y covarianzas de los estimadores MCO


 2 0 1
(x x)
b ,sc2 =
|x e
00
b

x0 Y x0 x
4

0 
1
Y x Y
6

N
2 4

37




x

x

alcanza la cota mnima de Cramer-Rao. Es decir es el

estimador insesgado de mnima varianza (resultado mas fuerte que Ta de Gauss-Markov)


2. La varianza del estimador sb2eb no alcanza la cota mnima de Cramer-Rao. No obstante, no existe
ning
un estimador insesgado de 2 con varianza menor a

2 4
N .

Ejercicio 46. Revise el ejercicio numerico no 1 del profesor Jose Alberto Mauricio
http://www.ucm.es/info/ecocuan/jam/ectr1/index.html#Material.
Ejercicio 47. Resuelva el ejercicio propuesto no 1 del profesor Jose Alberto Mauricio.
http://www.ucm.es/info/ecocuan/jam/ectr1/index.html#Material.
Para los ejercicios pr
acticos con ordenador le puede ser u
til
El programa gratuito GRETL. (http://gretl.sourceforge.net/gretl_espanol.html)
Tiene documentaci
on en castellano
Gua del usuario
Gua de instrucciones
Tambien puede obtener los datos del libro de texto (Wooldridge, 2006) desde http://gretl.sourceforge.
net/gretl_data.html
la guia de Eviews del profesor Jose Alberto Mauricio (material extenso)
(http://www.ucm.es/info/ecocuan/jam/ectr1/Ectr1-JAM-IntroEViews.pdf).
Ejercicio 48. Anscombe
GNU Gretl: ejemplo Anscombe
Ejercicio 49. Replique con el ordenador la practica con ordenador propuesta por el profesor Miguel Jerez
http://www.ucm.es/info/ecocuan/mjm/ectr1mj/.
GNU Gretl MLG peso bbs

43

7. Estimaci
on por m
axima verosimilitud

funci
on de verosimilitud vs funci
on de densidad

38

Los supuestos 1, 2, 3 y 5, implican que



Y | x N x , 2


I
[N N ]

por tanto, la funci


on de densidad de Y dado x es


1
0
f (y | x) = (2 2 )n/2 exp 2 (y x) (y x)
2

2
donde los par
ametros , son desconocidos.

Estimaci
on por M
axima Verosimilitud

Sustituyendo el vector desconocido


funci
on de verosimilitud logartmica


2

por un hipotetico

e
,
e

39


2

y tomando logsa obtenemos

n
n
1
e
e 0 (y x)
e
ln `(,
e2 ) = ln(2) ln(e
2 ) 2 (y x)
2
2
2e

Maximizando
max
e 2
,e

e
ln `(,
e2 )


obtenemos estimaciones m
aximo verosmiles de , 2 .
a transformaci
on

mon
otona

Estimaci
on por M
axima Verosimilitud: derivaci
on

40

Cond. primer orden en maximizaci


on:
e
ln `(,
e2 )
=0
e0

= 2e1 2

e0
e
e0 (y x) (y x)

=0

e0 M V = (x0 x)1 x0 y

e
ln `(,
e2 )
e 0 (y x)
e =0
= 0 = 2en2 + 2e1 4 (y x)
e
2
b0 e
b
e
b2 = N k sb2
2

eM
V = N = se
b
e
b
N
Por tanto:
la estimacion de coincide con el MCO
la estimacion de 2 es sesgada

Ejercicio 50.
2
2
(a) Calcule la esperanza de
eM
V . Es un estimador insesgado de ?
2
(b) Calcule la varianza de
eM V
(c) Compare su resultado con la cota mnima de Cramer-Rao. Pero es aplicable esta cota a este estimador?

8. Ejercicios

Ejercicio 51. Demuestre que en el modelo de regresion simple Yn = a+bXn +Un el supuesto E( Un | x) = 0
implica E( Yn | x) = a + bXn ; donde los regresores son no-estocasticos, y Ues la perturbacion aleatoria del
modelo.

44

Ejercicio 52. (Consta de 5 apartados)


Sean los siguientes datos:
Empresa
A
B
C
D
E
F
G
H

yi
1
3
4
6
8
9
11
14

xi
1
2
4
4
5
7
8
9

xi yi
1
6
16
24
40
63
88
126

x2i
1
4
16
16
25
49
64
81

sumas

56

40

364

256

Cuadro 4:

donde y son beneficios, y x son gastos en formacion de personal de una empresa.


Ademas se sabe que las varianzas y covarianzas muestrales son tales que:
P
N s2y =
(yi y)2 = 132,
N s2x =

(xi x)2 = 56,

N sx y =

(xi x)(yi y) = 84,

donde N es el tama
no muestral.
Suponga que se plantea el siguiente modelo
Yi = a + bxi + Ui ,
donde Ui son otros factores que afectan a los beneficios distintos de sus gastos en formacion (el termino
de error). Se sabe que la distribuci
on conjunta de dichos factores es:
U N (0, 2 I),
donde I es una matriz identidad de orden 8, y 2 es la varianza de Ui , cuyo valor es desconocido.
(a) Estime por MCO los par
ametros a y b del modelo.
(b) Cual es el beneficio esperado para una empresa que incurriera en unos gastos de formacion de personal
de 3?
(c) Calcule los residuos de la empresa E y F. Que indica en este caso el signo de los residuos? La
comparaci
on de los residuos para estas empresas contradice el hecho de que F tiene mayores beneficios
que E? Justifique su respuesta.
(Los siguientes apartados s
olo tras haber estudiado el tema siguiente)
(d) Estime por MCO un intervalo de confianza del 95 % para el parametro b del modelo, sabiendo que la
suma de los residuos al cuadrado es 6.
(e) Contraste la hip
otesis de que la pendiente del modelo es uno frente a que es menor que uno con
un nivel de significaci
on del 10 %. Cu
al es el p-valor de la estimacion de dicha pendiente?
9. Bibliografa
Gujarati, D. N. (2003). Basic Econometrics. McGraw-Hill, cuarta ed. ISBN 0-07-112342-3. International
edition. 26, 33
Hayashi, F. (2000). Econometrics. Princeton University Press, Princeton, New Jersey. ISBN 0-691-01018-8.
2, 3
Johnston, J. y Dinardo, J. (2001). Metodos de Econometra. Vicens Vives, Barcelona, Espa
na, primera
ed. ISBN 84-316-6116-x. 25, 26
Luenberger, D. G. (1968). Optimization by vector space methods. Series in decision and control. John
Wiley & Sons, Inc., New York. 3
Mittelhammer, R. C. (1996). Mathematical Statistics for Economics and Business. Springer-Verlag, New
York, primera ed. ISBN 0-387-94587-3. 40
Novales, A. (1993). Econometra. McGraw-Hill, segunda ed. 2, 12, 25, 26

45

Novales, A. (1997). Estadstica y Econometra. McGraw-Hill, Madrid, primera ed. ISBN 84-481-0798-5.
33
Pe
na, D. (2002). Regresi
on y dise
no de experimentos. Alianza Editorial, Madrid. ISBN 84-206-8695-6. 25
Ramanathan, R. (1998). Introductory Econometrics with Applications. Harcourt College Publisher, Orlando. 6, 16, 30
Rao, C. R. (2002). Linear Statistical Inference and Its Applications. Wiley series in probability and
statistics. John Wiley & Sons, Inc., New York, segunda ed. ISBN 0-471-21875-8. 39
Spanos, A. (1999). Probability Theory and Statistical Inference. Econometric Modeling with Observational
Data. Cambridge University Press, Cambridge, UK. ISBN 0-521-42408-9. 3
Verbeek, M. (2004). A Guide to Modern Econometrics. John Wiley & Sons, Inc., segunda ed. 2
Wooldridge, J. M. (2006). Introducci
on a la econometra. Un enfoque moderno. Thomson Learning, Inc.,
segunda ed. 2, 3, 5, 12, 21, 25, 26, 32, 37, 42
10. Trasparencias
Lista de Trasparencias
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42

[Descomposici
on ortogonal y causalidad]
[Modelo de regresi
on]
[Tipos de datos]
[Modelo Cl
asico de Regresi
on Lineal]
[Supuesto 1: linealidad]
[Supuesto 1: linealidad]
[Supuesto 2: Esperanza condicional de U Estricta exogeneidad]
[Supuesto 2: Esperanza condicional de U Estricta exogeneidad]
[Supuesto 3: Perturbaciones esf
ericas]
[Supuestos 2 y 3: Implicaci
on conjunta]
[T
ermino de error]
[Mnimos cuadrados ordinarios: Ecuaciones normales]
[Supuesto 4: Independencia lineal de los regresores]
[Modelo 1: No vbles explicativas]
[Modelo 2: Modelo Lineal Simple]
[Modelo 2: Modelo Lineal Simple]
[Modelo 2: Modelo Lineal Simple]
[Estimaci
on MCO: Interpretaci
on gr
afica]
[Modelo Lineal General]
[Mnimos cuadrados ordinarios: Propiedades algebraicas]
[Mnimos cuadrados ordinarios: M
as propiedades algebraicas]
[Sumas de cuadrados]
[Medidas de ajuste: Coeficiente de determinaci
on R 2 ]
[Otras medidas de ajuste]
b ]
[Estimador MCO
|x
b ]
[Esperanza del estimador MCO
|x
b
[Varianza del estimador MCO | x ]

b x: Ta de Gauss-Markov]
[Eficiencia del estimador MCO
[Primeros momentos de los valores ajustados por MCO]
[Primeros momentos de los errores MCO]
[Supuesto 5: Distribuci
on Normal de las perturbaciones]
b ]
[Distribuci
on del estimador MCO
|x
[Distribuci
on de los estimadores de valores ajustados y residuos]
[Estimaci
on de la varianza residual]
[Distribuci
on cuando la varianza de U es desconocida]
[Matriz de Informaci
on]
[Cota mnima de Cram
er-Rao]
[funci
on de verosimilitud vs funci
on de densidad]
[Estimaci
on por M
axima Verosimilitud]
[Estimaci
on por M
axima Verosimilitud: derivaci
on]
[Geometra del Modelo lineal]
[Supuesto 2: Regresores no estoc
asticos]

46

43
44
45
46
47
48

[Geometra del Modelo lineal: regresores no estoc


asticos]
[Estimaci
on de la esperanza condicional: MCO]
[Estimaci
on modelo lineal: geometra MCO]
[Modelo lineal estimado: geometra MCO]
[Geometra del estimador]
[Mnimos cuadrados ordinarios: Ecuaciones normales (Tradicional)]

A. Geometra del modelo cl


asico de regresi
on lineal

Geometra del Modelo lineal


X = 1, X H 2 ;


=

a
b

41


;

Y = X +U

Vision en 3D interactiva

Supuesto 2: Regresores no estoc


asticos

42

Suponemos que realmente disponemos de una u


nica realizacion de X que denotamos por x.
Es decir, condicionamos a que
X=x
Bajo este supuesto, se mantiene que
E(xij Un ) = 0

para

n, i = 1, . . . , N ;

j = 1, . . . , k.

Esto significa que, como en el caso general, los regresores son ortogonales a los terminos de perturbacion
de todas las observaciones
E(xij Un ) = xij E(Un ) = 0 para todo i, n = 1, . . . , N ;

j = 1, . . . , k.

por lo que
E(xi. Un ) = xi. E(Un ) = xi. 0 =

para todo i, n = 1, . . . , N.

[1k]

Y la correlacion entre los regresores y las perturbaciones es cero, ya que


Cov(Un , xij ) =E(xij Un ) E(xij ) E(Un )
=xij E(Un ) xij E(Un ) = 0
es decir, regresores no estoc
asticos en un caso particular del caso general: Supuesto 2 T7 (vease tambien
la Seccion 2.2.2 en la p
agina12, P
agina 12)

Secci
on A: Geometra del modelo cl
asico de regresi
on lineal



x = 1, xH 2 ;

47

Geometra del Modelo lineal: regresores no estoc


asticos


=

43

a
b

Y = x+U

Vision en 3D interactiva
A.1. Geometra del estimador MCO

Estimaci
on de la esperanza condicional: MCO

Tenemos realizaciones de Y y X; es decir, disponemos de


y1
1
y2
1

y = . x = .
..
..
yN

44

x1
x2

..
.

1 xN

 
e
a
e
y buscamos = e tales que
b
y = x e + e
e
ye
e sea peque
no.

Estimaci
on modelo lineal: geometra MCO
y

e
e

ebX H2

X H2

e
ye = X

e
a1



x = 1, xH 2 ;
ee = y ye


e =

e
a
eb


;

y = ye +e
e;

e
ye = x;

45

48

Modelo lineal estimado: geometra MCO

46

b
e

bX H2
X H2

b
yb = X

a 1



x = 1, xH 2 ;


b =

b
a
bb


;

y = yb +b
e;

b
yb = x;

eb = y yb

Geometra del estimador

47

Vision en 3D interactiva
B. Derivaci
on tradicional de las Ecuaciones Normales

Mnimos cuadrados ordinarios: Ecuaciones normales (Tradicional)

48

e = y 0 y 2e0 x0 y +e0 x0 x e
SRC()
Buscamos un vector b que minimice SRC
mnb

b
SRC()
= 0;
b

b
SRC()

2 x0 y +2 x0 x b = 0

con lo que obtenemos las ecuaciones normales


x0 y = x0 x b
Estimaci
on MCO es la solucion a dichas ecuaciones

(B.1)

49

e =(y x)
e 0 (y x)
e
SRC()

e
= y 0 e0 x0 (y x)

e 0 = e0 x0
puesto que (x)

=y 0 y e0 x0 y y 0 x e +e0 x0 xe
=y 0 y 2y 0 x e +e0 x0 x e
ya que el escalar e0 x0 y es igual a su traspuesta y 0 xe (por ser escalar)
Renombremos algunos terminos. . . por una parte definimos a y 0 x y por otra c x0 x, entonces
e = y 0 y 2 a e + e0 c e .
SRC()
e respecto de e es
Puesto que y 0 y no depende de e la diferencial de SRC()
e
SRC()
= 2 a +2 c e
e

por las propiedades de derivacion matricial

= 2 x0 y +2 x0 x e

sustituyendo a y c;

que igualando a cero nos da


2 x0 y +2 x0 x e = 0

x0 x e = x0 y

Las condiciones de segundo orden son:


e
SRC()
= 2 x0 x
e
e
0

que es una matriz definida positiva.

C. Caso General


Sean Yn , y X n. Xn2 , . . . , Xnk con matriz de varianzas y covarianzas




YnX n.
Y2n
Var Yn , X n. =
X 0 n.Yn X n.


entonces siempre podemos encontrar unos parametros 1 y = 2 , . . . , k , tales que
Yn = 1 + X n. +Un
0
donde E(Un ) = 0, y Var(Un ) = YnX n. 1
X n. X n.Yn
Dichos par
ametros resultan ser
0
= 1
(C.1)
X n. X n.Yn ;
(es decir, las covarianzas pre-multiplicadas por la inversa de matriz de varianzas de los regresores) y

1 = E(Yn ) 0 E(X n. ) .

(C.2)

Estos parametros son la soluci


on a las ecuaciones normales
 

 1
0
0
E X Y =E X X

donde la primera columna de X est


a exclusivamente compuesta por unos.
Notese como los par
ametros a y b de la Ecuacion (3.6) en la pagina15 son un caso particular, donde
a = 1 y b = 2 .
Llamamos a 1 + X n. el mejor predictor lineal de Yn dado X 0 n. ; puesto que se puede demostrar
que 1 y son los valores de b1 y b que minimizan
h
i2 
0

E Yn b1 X n. b
h
i
En este contexto, llamamos a Un = Yn 1 + X n. el error de predicci
on.

Podemos estimar por MCO los par


ametros desconocidos, 1 y , sustituyendo, en las expresiones
anteriores, los momentos poblacionales por sus equivalentes muestrales (vease la Subseccion D en la pagina
siguiente). Pero, puesto que aqu no estamos imponiendo las restricciones del Modelo Cl
asico de Regresi
on
Lineal, no podemos, siquiera, conocer la esperanza del estimador. Para ello es necesario especificar algo
mas sobre la relaci
on entre X n. e Yn .

50

C.1. Modelo Cl
asico de Regresi
on Lineal General
El modelo lineal general es m
as restrictivo precisamente es este sentido; puesto que supone que la
esperanza condicional E( Yn | X n.) sea funcion lineal de X n. .
Bajo esta hip
otesis cl
asica el predictor lineal de mas arriba se convierte en el mejor predictor posible
en el sentido de que
h
h
i2 
i2 
E Yn g(X n. )
E Yn E( Yn | X n.)
para cualquier funci
on g().
C.1.1. Ecuaciones normales en el Modelo Lineal General
Las matrices y vectores de las ecuaciones normales x0 y = x0 x b en el caso general (k regresores) quedan
del siguiente modo

0
1 1
1 0 xH 2

1 0 xH k

xH 2 0 1 xH 2 0 xH 2 xH 2 0 xH k

x0 x =

..
[kk]
..
.
.
.
.

.
.
.
.

0
0
0
xH k 1 xH k xH 2 xH k xH k
donde cada elemento de la matriz x0 x es de la forma

xH i 0 xH j = x1i

x2i

x1j
 x2j PN

xN i
= n=1 xni xnj
xN j

PN
Ademas, 1 0 1 = N y 1 0 xH i = n=1 xni . Por otra parte, el vector x0 y es de la forma

xH 1 0 y

y1
xH 2 0 y

 y2 PN

0
0

x y =
= n=1 xni yn
donde cada elemento es xH i y = x1i x2i xN i

..
[N 1]
.
yN

xH k 0 y
D. Una expresi
on alternativa de las estimaciones MCO
Si suponemos que la matriz (x0 x) es invertible, entonces se puede despejar b en las ecuaciones normales
para obtener
b = (x0 x)1 x0 y;
y puesto que
(x0 x)1 x0 y = (x0 x /n)1 x0 y /n
las estimaciones MCO se pueden escribir como
1
b = Sx2
Sxy
(D.1)
donde

x0 y
x0 x
; y Sxy =
;
n
n
Compare (D.1) con (C.1) y resuelva el ejercicio de mas abajo.
Por ejemplo, para k = 2




1
x
y
2
P
P
Sx =
; y Sxy = 1
x N1
x2n
yn xn
N
Sx2 =

Ejercicio 53.
(a) Verifique las dos igualdades anteriores
(b) Empleando la expresi
on (D.1) obtenga las expresiones de las ecuaciones (3.9) y (3.10) de la pagina 15.

51

Soluciones a los Ejercicios


Ejercicio 7.
Var(Y) =E



Y E(Y)



Y E(Y)

0 




=E Y Y 0 Y E Y 0 E(Y) Y 0 + E(Y) E Y 0







=E Y Y 0 E Y E Y 0 E E(Y) Y 0 + E E(Y) E Y 0




=E Y Y 0 E(Y) E Y 0 E(Y) E Y 0 + E(Y) E Y 0


=E Y Y 0 E(Y) E Y 0

desarollando el producto

pues E Y 0

es constante
Ejercicio 7

Ejercicio 10. Puesto que {Ui , X i. } es independiente de {Uj , X 1. , . . . , X i1. , X i+1. , . . . , X N . }; tenemos
que E( Ui | x uj ) = E( Ui | xi.) . As
E( Ui Uj | x) = E( E(Ui Uj | X Uj ) Uj | x)
= E( E(Ui | X Uj ) Uj | x)
= E( E(Ui | xi.) Uj | x)
= E( Ui | xi.) E( Uj | xj.)

por Teorema esperanzas iteradas


por linealidad de la esperanza condicional
por ser m.a.s.
por ser m.a.s.
Ejercicio 10
P

Ejercicio 12. Por la Nota 4 en la p


agina14 sabemos que n (xn x)(yn y) =
tanto, operando
X
X
(xn x)(yn y) =
yn (xn x)
n

yn (xn x); por

yn xn x

yn

yn xn N y x

n
0

= y x N y x.
Ejercicio 12
Ejercicio 13. Por una parte, dividiendo la primera ecuacion de (3.7) por N obtenemos directamente
y=b
a + bb x ; por lo que b
a = y bb x.
Por otra parte, dividiendo la segunda por N tenemos
P
P 2
xn yn
xn
b
=b
a x+b
N
N
o lo que es lo mismo, tenemos
x0 y
x0 x
=b
a x + bb
N
N


x0 x
= y bb x x + bb
N
0
x
x
= x y bb x2 + bb
N
 x0 x

= x y + bb
x2
N
es decir

expresando los sumatorios como productos escalares


sustituyendo b
a
operando en el parentesis
sacando bb factor com
un
 x0 x

x0 y
x y = bb
x2
N
N

por lo que empleando (3.2) y (3.3) tenemos la segunda ecuacion

sx y = bb s2x
Ejercicio 13

Ejercicio 14. Entonces el Supuesto 4 no se cumplira, pues x sera conbinacion lineal del vector de unos
ya que x = c 1 .

Soluciones a los Ejercicios

52

En tal situaci
on el sistema de ecuaciones normales (3.7) se reducira a:
P
bb P xn
yn
=
b
aN
+
P
P
c yn = c b
a N + c bb
xn
donde la segunda ecuaci
on es c veces la primera, por lo que realmente tenemos una sola ecuacion con dos
incognitas.
0
Ademas, la varianza de un vector constante es cero, por lo que s2x = 0 y tambien sx y = yNx y x =
0
c y 1 cy = 0; por lo que la estimaci
on de bb esta indeterminada, ya que
N

bb = sx y = 0 .
s2x
0
Ejercicio 14
Ejercicio 16(a)
X

X
x1n x2n + b
c
x1n x3n
X
X
X
X
x2n yn =b
a
x2n x1n + bb
x2 2n + b
c
x2n x3n
X
X
X
X
x3n yn =b
a
x3n x1n + bb
x3n x2n + b
c
x3 2n
x1n yn =b
a

x1 2n + bb


Ejercicio 16(b)
X

X
X
yn =b
a N + bb
x2n + b
c
x3n
X
X
X
X
x2n yn =b
a
x2n + bb
x2 2n + b
c
x2n x3n
X
X
X
X
x3n yn =b
a
x3n + bb
x3n x2n + b
c
x3 2n

Ejercicio 17. Dividiendo la primera ecuacion del sistema anterior por N obtenemos
y=b
a + bb x2 + b
c x3
esta ecuacion indica que el plano de regresion para por el punto de los valores medios de las variables del
sistema.
Despejando b
a tenemos
b
a = y bb x2 b
c x3
que se puede sustituir en las otras dos ecuaciones del sistema:

X
X
X
X
x2n yn = y bbx2 b
c x3
x2n + bb
x2 2n + b
c
x2n x3n

X
X
X
X
c x3
x3n + bb
x3n yn = y bbx2 b
x3n x2n + b
c
x3 2n ;
operando
X
X
puesto que

x2n yn =y

x3n yn =y

x2n bbx2

x3n bbx2

x2n b
c x3

x3n b
c x3

x2n + bb

x3n + bb

x2 2n + b
c

x2n x3n
X
x3n x2n + b
c
x3 2n ;

x2n = N x2 y
x3n = N x3 , sustituyendo
X
X
X
x2n yn =N y x2 N bb x2 x2 N b
c x3 x2 + bb
x2 2n + b
c
x2n x3n
X
X
X
x3n yn =N y x3 N bb x2 x3 N b
c x3 x3 + bb
x3n x2n + b
c
x3 2n ;

sustituyendo los sumatorios que restan por productos escalares:


x2 0 y =N y x2 N bb x2 x2 N b
c x3 x2 + bb x2 0 x2 +b
c x2 0 x3
x3 0 y =N y x3 N bb x2 x3 N b
c x3 x3 + bb x3 0 x2 +b
c x3 0 x3 ;

Soluciones a los Ejercicios

53

reordenando terminos:




c x2 0 x3 N x3 x2
x2 0 y N y x2 =bb x2 0 x2 N x2 2 + b




c x3 0 x3 N x3 2 ;
x3 0 y N y x3 =bb x3 0 x2 N x2 x3 + b
y teniendo en cuenta las notas 4 a 6 en la pagina14
N sx2 y =bb N s2x2 + b
c N sx2 x3
b
N sx y =b N sx x + b
c N s2 ;
3

x3

o bien;
X

yn (x2n x2 ) =bb

x2n (x2n x2 ) + b
c

yn (x3n x3 ) =bb

x3n (x2n x2 )

x3n (x2n x2 ) + b
c

x3n (x3n x3 );

por tanto, resolviendo el sistema, obtenemos los dos u


ltimos resultados
2
bb = sx2 y sx3 sx3 y sx2 x3
2
s2x2 s2x3 sx2 x3

b
c=

sx3 y s2x2 sx2 y sx2 x3


2
s2x2 s2x3 sx2 x3
Ejercicio 17

Ejercicio 18. Con la estimaci


on de la pendiente en el modelo Yn = a + cX3n + Un
Ejercicio 18
Ejercicio 19. Un coeficiente de correlaci
on muestral con valor absoluto igual a uno significa que hay una
dependencia lineal entre los regresores, por lo que el Supuesto 4 deja de cumplirse; y por tanto el sistema
de ecuaciones normales tiene infinitas soluciones.
En tal caso las expresiones (3.11), (3.12) y (3.13) dejan de estar definidas ya que, en este caso


s

x2 x 3
|x2 x3 | = p 2 2 = 1,
sx2 sx3
p

2
lo que implica que |sx2 x3 | = s2x2 s2x3 y por tanto s2x2 s2x3 = sx2 x3 ; y los denominadores de de las
expresiones (3.12) y (3.13) son cero.
Ejercicio 19
Ejercicio 20. Los valores estimados en los modelos restringidos y sin restringir difieren. Por lo tanto,
podemos afirmar que la covarianza muestral entre los regresores Sn y Dn en esta simulacion es distinta de
cero.
Ejercicio 20
Ejercicio 22. La primera es inmediata. La segundad tambien lo es por la Nota 6 en la pagina14. La
tercera en un poco m
as complicada (pero no mucho):
Pista. Transforme el producto escalar en un sumatorio. Opere dentro del sumatorio y tenga en cuenta
que las medias muestrales son constantes que se pueden sacar fuera de los sumatorios como un factor
com
un.
Ejercicio 22
Ejercicio 23.
Pista.
yb = y eb
yb 0 eb = 0
Ejercicio 23
Ejercicio 24.

(abc) = ((ab) c) = c0 (ab) = c0 b0 a0 .


Ejercicio 24

Soluciones a los Ejercicios

54

Ejercicio 25. Por la Nota 8 en la p


agina24 sabemos que
T

T
0
0
p = (x(x x)1) x0 = x x(x0 x)1 = x(x0 x)1 x0 = p
y entonces
p0 m = p(I p) = p pp
= p x(x0 x)1 x0 x(x0 x)1 x0
|
{z
}
I

= p x(x0 x)1 x0 = p p = 0
Ejercicio 25
Ejercicio 26.
1.


0
m0 = I p = I0 p0 = I p = m

2.



mm0 mm = mm = I p I p = I p p + pp = I p p + p = I p = m
Ejercicio 26
Ejercicio 32.
Pista. Calcule el coeficiente de correlaci
on lineal simple entre yb y y y elevelo al cuadrado.
Solucion numerica en el recuadro del ejemplo del precio de las viviendas (pagina 17).
Ejercicio 32
2

Ejercicio 33. Por una parte, SEC = (c


yn y) ; pero en este modelo los valores ajustados son constantes
iguales a la media muestral de y, es decir yc
n = y. Por tanto SEC = 0.
Por otra parte, este modelo tiene termino cte. y, entonces, R2 = SEC
ST C = 0.
Es decir, un modelo que consiste u
nicamente en un constante, no tiene ninguna capacidad de explicar
las variaciones de la variable dependiente.
Otra forma de verlo es la siguiente. En este modelo sabemos que yc
que
n = y. As
X
2
0
2
y
por T22
SEC =
(c
yn y) = yb yb +N y 2N yb
2

= yb0 yb N yb

pues en este caso yb = y

b N yb
=y 10 y
2

b es un vector de constantes y
pues y

=N yb N yb

pues en este caso yb = y


Ejercicio 33

Ejercicio 34. En este caso

bb = sx y
s2x

b
a = y xbb,

por tanto
yc
a + bbxn = y + bb(xn x);
n =b

b
yc
n y = b(xn x).

Entonces
SEC =

(c
yn y)2 = bb2

(xn x)2

y consiguientemente (por tener un termino constante el Modelo Lineal General)


2
2
bb2 P (xn x)2
sx y
sx y
SEC
N s2x
2
R =
= P
=
= 2 2 = ry2 x
2
ST C
(yn y)2
N s2y
sx sy
s2x
Ejercicio 34
Ejercicio 39.

 



Var b x =Var b x

ya que es cte.

=Var( AU | x)

ya que b = +AU


=E AU U 0 A0 x
= a Var( U | x) a0

pues E( AU | x) = 0
pues a cte. si X = x

= a 2 I a0
2

por los supuestos 2 y 3 T10


2

= a a = (x x)

Soluciones a los Ejercicios

55

puesto que aa0 = (x0 x)1 x0 x(x0 x)1 = (x0 x)1.


asticos: denotemos (x0 x)1 x0 por
Si los regresores son NO estoc

a
[kN ]

 


Var b =Var b

ya que es cte.

=Var(aU)
= a Var(U) a0

ya que b = + aU
ya que a es una matriz cte.

= a 2 I a0

por los supuestos 2 y 3

= a a

= 2 (x0 x)1
Ejercicio 39
b por tanto
Ejercicio 40. En este caso seleccionamos la componente j-esima del vector ,




 
 




0 b
0 e
f
b
Var v x = Var j x Var j x = Var v x .
Es decir,
de cada parametro j-esimo
 elteorema de Gauss-Markov implica que la varianza
 del estimador



f
b
Var j x es mayor o igual que la del estimador MCO Var j x .
Ejercicio 40
Ejercicio 41.
1. px = x (x0 x)1 x0 x = x
|
{z
}
I

2.

0
p0 = x(x0 x)1 x0

0
= (x0 x)1 x0 x0

0
= x (x0 x)1 x0
0

 0
pues x a = a0 x0
identica regla de trasposicion sobre el corchete

1 0

= x(x x)

pues (x0 x)1 es simetrica

x =p

3.
pp = pxa
= xa = p

pues px = x
Ejercicio 41

Ejercicio 42.
1.


mx = I p x = x px = x x = 0
2.


am = a I p = a (x0 x)1 x0 x (x0 x)1 x0 = a a = 0
3.


0
m0 = I p = I0 p0 = I p = m

4.



mm = I p I p = I p p + pp = I p p + p = I p = m
Ejercicio 42
Ejercicio 43.
[ | x = eb| x 0 eb| x = U 0 m0 mU = U mU
SRC
por ser m simetrica e idempotente.
Ejercicio 43
Ejercicio 44.
 

E sb2eb x =

2
(N k) = 2
N k

  2 2
4

b
2
Var seb x =
2(N K) = 2
.
N k
(N k)


Ejercicio 44

Soluciones a los Ejercicios

56

Ejercicio 50(a)
   2 

(N k) 2

2

x
=
E
eM
E
sb2eb x =
(N K) =
.
V
N
(N )

Ejercicio 50(b)
Var

eM
V

   2 2

2 4
x = Var sb2 x =

2(N

K)
=
.
e
b
N
(N )


Ejercicio 50(c) La varianza coincide con la cota mnima, pero esto no quiere decir nada; esta cota solo
es aplicable a estimadores insesgados, y este estimador es sesgado.

Ejercicio 51. Ya que
E( Yn | x) =E( a + bXn + Un | x)
=a + bXn + E( Un | x)
=a + bXn

pues a, b, y Xn son ctes


por el supuesto: E( Un | x) = 0
Ejercicio 51

Ejercicio 52(a)
1. Por una parte:
bb = sx y = 84 = 1.5
s2x
56
por otra, las medias muestrales son
P
P
xi
40
yi
56
=
= 5;
=
= 7;
x=
y=
8
8
8
8
por lo que
b
a = y bb x = 7 1.5 5 = 0.5.

Ejercicio 52(b) Seg
un el modelo estimado, una empresa que incurra en unos gastos de 3 debera tener
unos beneficios de
yb = b
a + bbx = 0.5 + 1.5 3 = 4

Ejercicio 52(c) Los residuos de la empresa E seran:

yE yc
a + bbxE = 8 0.5 + 1.5 5) = 8 7 = 1
E = yE b
y los de la empresa F:

yF yc
a + bbxF = 9 0.5 + 1.5 7) = 9 10 = 1.
F = yF b
Puesto que
yb = E( Y | xf .) ,
un signo positivo para el residuo de cierta empresa significa que esta ha logrado unos beneficios mayores
que los esperados (dado su nivel de gasto en formacion de personal, x). Por el contrario, un residuo negativo
significa que la empresa ha obtenido unos beneficios menores de los esperados por el modelo (dado su gasto
en formacion).
La comparaci
on entre empresas con distinta inversion en formacion no es apropiada para valorar los
datos sobre beneficios (s
olo lo es entre empresas con mismo nivel de gasto en formacion). La empresa
F tiene mayores beneficios que los de E, pero, dado su nivel de gasto en formacion (7), estos beneficios
deberan haber sido a
un mayores (el valor esperado es 10).

Ejercicio 52(d) El estimador MCO se distribuye Normal con esperanza igual al verdadero valor de los
parametros estimados, y varianza desconocida.

Soluciones a los Ejercicios

57

Buscamos los valores A y B tales que

P A
Donde

b
s bb
P

c
s2
e
b
(xi x)2

b
s bb

c
s2
e
b
P
(xi x)2

B = (1 )

se distribuye como una t de Student con N 2 grados de libertad; por tanto A y

B son los valores que aparecen en las tablas, y que determinan un intervalo centrado en cero con una
probabilidad asociada del 95 %; es decir, A = 2.447, y B = 2.447, y sb2eb = 6/(N 2) = 1. As pues,
la estimaci
on del intervalo de confianza de parametro desconocido b es
p


ICb0.95 (w) = 1.5 2.447 1/56

Ejercicio 52(e) Las hip
otesis son:
H0 : b = 1
H1 : b < 1
La region critica de una sola cola es


bb 1
RC = x r

c
2

s

P eb

(xi x)2

<k

donde k es el valor de la tablas para una t de Student de seis grados de libertad, ya que el estadstico de la
parte izquierda de la desigualdad tiene dicha distribucion. Para = 0.1, tenemos que k = t 6, 0.1 = 1.44.
Sustituyendo tenemos que
1.5 1
p
= 3.74 > k = t 6,0.1 = 1.44
1/56
por lo que no rechazamos H0 .
El p-valor es la probabilidad de






bb b

1.5 b

P bb 1.5 H0 =P
r
H0

r

c
c
2
2

s
s
e
b
P eb
P

(xi x)2
(xi x)2
!
1.5 1
=P W p
= 3.74 ' 0.999
1/56
donde W se distribuye como una t de Student con seis grados de libertad.


You might also like