Regresion Lineal

Modelo de regresin lineal simple
1 Introduccin
Con frecuencia, nos encontramos en economa con modelos en los que el comportamiento de una variable, Y, se puede explicar a travs de una variable X; lo que representamos mediante
Y = f (X )
(1)
Si consideramos que la relacin f, que liga Y con X, es lineal, entonces (1) se puede escribir as:
Yt = 1 + 2 X t
(2)
Como quiera que las relaciones del tipo anterior raramente son exactas, sino que ms bien son aproximaciones en las que se han omitido muchas variables de importancia secundaria, debemos incluir un trmino de perturbacin aleatoria, ut , que refleja todos los factores distintos de X -que influyen sobre la variable endgena, pero que ninguno de ellos es relevante individualmente. Con ello, la relacin quedara de la siguiente forma:
Modelo de regresin simple

Yt = 1 + 2 X t + ut
(3)
La expresin anterior refleja una relacin lineal, y en ella slo figura una nica variable explicativa, recibiendo el nombre de relacin lineal simple. El calificativo de simple se debe a que solamente hay una variable explicativa. Supongamos ahora que disponemos de T observaciones de la variable Y ( Y1 , Y2 , , YT ) y de las correspondientes observaciones de X ( X 1 , X 2 , , X T ). Si hacemos extensiva (3) a la relacin entre observaciones, tendremos el siguiente conjunto de T ecuaciones:
Y1 = 1 + 2 X 1 + u1 Y2 = 1 + 2 X 2 + u2 YT = 1 + 2 X T + uT El sistema de ecuaciones (4) se puede escribir abreviadamente de la forma siguiente: Yt = 1 + 2 X t + ut t = 1, 2, , T (4)
(5)
I-1
El objetivo principal de la regresin es la determinacin o estimacin de 1 y 2 a partir de la informacin contenida en las observaciones de que disponemos. Esta estimacin se puede llevar a cabo mediante diversos procedimientos. A continuacin se analizan en detalle algunos de los mtodos posibles. Interesa, en primer lugar, realizar una aproximacin intuitiva a diferentes criterios de ajuste. Para ello se utiliza la representacin grfica de las observaciones ( X t , Yt ), con t = 1, 2,..., T. Si la relacin lineal de dependencia entre Y y X fuera exacta, las observaciones se situaran a lo largo de una recta (vase la figura 1). En ese caso, las estimaciones ms adecuadas de 1 y 2 de hecho, los verdaderos valores seran, respectivamente, la ordenada en el origen y la pendiente de dicha recta.
Figura 1
Pero si la dependencia entre Y y X es estocstica, entonces, en general, las observaciones no se alinearn a lo largo de una recta, sino que formarn una nube de puntos, como aparece en la figura 2. En ese caso, podemos contemplar las estimaciones de 1 y 2 como la ordenada en el origen y la pendiente de una recta prxima a los puntos. As, si designamos mediante y las estimaciones
de 1 y 2 , respectivamente, la ordenada de la recta para el valor X t vendr dada por
Yt = 1 + 2 X t (6)
1 2
El problema que tenemos planteado es, pues, hallar unos estimadores 1 y 2 tales que la recta que pasa por los puntos ( X t , Yt ) se ajuste lo mejor posible a los puntos ( X t , Yt ). Se denomina error o residuo a la diferencia entre el valor observado de la variable endgena y el valor ajustado, es decir,
I-2
ut = Yt Yt = Yt 1 2 X t
(7)
Teniendo en cuenta el concepto de residuo se analizan a continuacin diversos criterios de ajuste.
Figura 2
Un primer criterio consistira en tomar como estimadores 1 y 2 aquellos valores que hagan la suma de todos los residuos tan prxima a cero como sea posible. Con este criterio la expresin a minimizar sera la siguiente:
u
t =1 T
(8)
El problema fundamental de este mtodo de estimacin radica en que los residuos de distinto signo pueden compensarse. Tal situacin puede observarse grficamente en la figura 3, en la que se representan tres observaciones alineadas, ( X 1 , Y1 ), ( X 2 , Y2 ) y ( X 3 , Y3 ), tales que
Y2 Y1 Y Y = 3 1 . X 2 X1 X 3 X1
Si se ajusta una recta que pase por los tres puntos, cada uno de los residuos tomar el valor cero, de forma que u
t =1 T t
=0
Dicho ajuste se podra considerar ptimo. Pero tambin es posible que
t =1 t
u = 0 haciendo girar en cualquier sentido la recta si dejamos fijo ( X 2 , Y2 ),
como muestra la figura 2, debido a que u3 = u1 . Este sencillo ejemplo nos muestra que este criterio no es apropiado para la estimacin de 1 y 2 , debido a
I-3
que, para cualquier conjunto de observaciones, existen infinitas rectas que lo satisfacen. Otra forma de evitar la compensacin de residuos positivos con negativos consiste en tomar los valores absolutos de los residuos. En este caso se minimizara la siguiente expresin:
u
t =1
(9)
Figura 3
Desgraciadamente, aunque los estimadores as obtenidos tienen algunas propiedades interesantes, su clculo es complicado, requiriendo la resolucin de un problema de programacin lineal o la aplicacin de un procedimiento de clculo iterativo. Un tercer mtodo consiste en minimizar la suma de los cuadrados de los residuos, es decir, S = ut2
t =1 T
(10)
Los estimadores obtenidos con arreglo al criterio expresado en (10) se denominan mnimo-cuadrticos, y gozan de ciertas propiedades estadsticas deseables, que se estudian posteriormente. Por otra parte, frente al primero de los criterios examinados, al tomar los cuadrados de los residuos se evita la compensacin de stos, mientras que, a diferencia del segundo de los criterios, los estimadores mnimo-cuadrticos son sencillos de obtener. Es importante sealar que, desde el momento en que tomamos los cuadrados de los residuos, estamos penalizando ms que proporcionalmente a los residuos grandes frente a los pequeos (si un residuo es el doble que otro, su cuadrado ser cuatro veces mayor), lo que caracteriza tambin a la estimacin mnimo-cuadrtica frente a otros posibles mtodos.
I-4
2. Obtencin de los estimadores mnimo-cuadrticos

A continuacin se expone el proceso para la obtencin por mnimos cuadrados de los estimadores 1 y 2 . El objetivo es minimizar la suma de los cuadrados de los residuos (S). Para ello, en primer lugar expresamos S en funcin de los estimadores 1 y 2 : S = (Yt 1 2 X t ) 2
t =1 T
(11)
Para minimizar S, derivamos parcialmente respecto a 1 y 2 :

T S = 2 (Yt 1 2 X t ) 1 t =1 T S = 2 (Yt 1 2 X t )X t 1 t =1
(12)
Los estimadores mnimo-cuadrticos se obtienen igualando las anteriores derivadas a cero: 2 (Yt 1 2 X t ) = 0
t =1 T
2 (Yt 1 2 X t )X t = 0
t =1
(13)
Operando, se tiene que
Y
t =1
= 1T + 2 X t
t =1
Y X
t =1 t
= 1 X t + 2 X t2
t =1 t =1
(14)
Las ecuaciones (14) se denominan ecuaciones normales de la recta de regresin. Resolviendo este sistema, segn puede verse en el recuadro adjunto, a partir de (21) se obtiene de forma inmediata el estimador de 2 :
2 =
(Y Y )( X
t =1 t T t =1
X) (15)
( X t X )2
I-5
Resolucin del sistema de ecuaciones (14) Dividiendo la primera ecuacin normal en (14) por T se obtiene: Y = 1 + 2 X
donde
(16)
T
Y =
Yt
t =1
X=
X
t =1
De acuerdo con la anterior expresin se obtiene
1 = Y 2 X Sustituyendo 1 en la segunda ecuacin normal (14) se tienen que
(17)
Y X
t =1 T t
= (Y 2 X ) X t + 2 X t2
t =1 t =1 T T
T Yt X t Y X t = 2 X t2 X X t t =1 t =1 t =1 t =1
(18)
Por otra parte,
(Y Y )( X
t =1 t T t =1 T
X ) = (Yt X t XYt YX t + YX )
t =1 T T
= Yt X t Y X t X Yt + TYX =
t =1 T t =1
= Yt X t Y X t XTY + TYX
t =1 T t =1 T
(19)
= Yt X t Y X t
t =1
(X
t =1 T t =1 T
X ) 2 = (X t2 2 XX t + X 2 )
t =1 T T T T
t =1 T
= X t2 2 X X t + TX 2 = X t2 2 X X t + X X t
t =1 t =1 t =1 t =1
(20)
= X t2 X X t
t =1 t =1
Teniendo en cuenta (19) y (20), entonces (18) se puede expresar as:

T (Yt Y )( X t X ) = 2 ( X t X ) 2 t =1 t =1 T
(21)
I-6
A su vez 1 se obtiene a travs de la relacin (17). Es decir,

1 = Y 2 X Dividiendo numerador y denominador (15) por T se tiene que (22)
(Y Y )( X
t =1 t
X) = cov( X , Y ) var( X ) (23)
2 =
(X
t =1
T
t
X)
De acuerdo con (23), la estimacin de 2 se obtiene dividiendo la covarianza muestral de X e Y por la varianza muestral de X. Dado que la varianza de X no puede ser negativa, el signo de 2 ser el mismo que el de la covarianza muestral de X e Y.
3. Propiedades descriptivas en la regresin lineal simple

Las propiedades que se exponen a continuacin son propiedades derivadas exclusivamente de la aplicacin del mtodo de estimacin por mnimos cuadrados al modelo de regresin lineal simple, en el que se incluye como primer regresor el trmino independiente. 1. La suma de los residuos mnimo-cuadrticos es igual a cero: u
t =1 T
=0
(24)
Demostracin. Por definicin de residuo ut = Yt Yt = Yt 1 2 X t t = 1, 2, ,T (25)
Si sumamos para las T observaciones, se obtiene: ut = Yt Yt = Yt 1T 2 X t

t =1 t =1 t =1 t =1 t =1 T T T T T
(26)
Por otra parte, la primera ecuacin del sistema de ecuaciones normales (14) es igual a
I-7
Y
t =1
= T 1 + 2 X t
t =1
(27)
Al comparar (26) y (27), se concluye que necesariamente debe cumplirse (24). Obsrvese que, al cumplirse (24), se cumplir tambin que
Y = Y
t =1 t t =1
(28)
y, al dividir por T, tenemos Y =Y 2. La recta de regresin pasa necesariamente por el punto ( Y , X ). Demostracin.
En efecto, dividiendo por T la ecuacin (27) se obtiene:
(29)
Y = 1 + 2 X
(30)
3. La suma de los productos cruzados entre la variable explicativa y los residuos es igual a 0, es decir,
u X
t =1 t T
=0
(31)
Demostracin.
En efecto, u X = (Y
t =1 t t t =1 t T T 1
2 X t )X t = 0
Para llegar a (31) se ha tenido en cuenta la segunda ecuacin normal de (13).
4. La suma de los productos cruzados entre los valores ajustados y los residuos es igual a 0, es decir,
u Y = 0
t =1 t t T
(32)
Demostracin.
En efecto, si se tiene en cuenta (17) resulta que
I-8
u Y = u (
t =1 t t t =1 t
+ 2 X t ) = 1 ut + 2 ut X t = 0
t =1 t =1
Para llegar a (32) se ha tenido en cuenta las propiedades descriptivas 1 y 3.
4 Medidas de la bondad del ajuste. Coeficiente de determinacin

Una vez que se ha realizado el ajuste por mnimos cuadrados, conviene disponer de algn indicador que permita medir el grado de ajuste entre el modelo y los datos. En el caso de que se haya estimado varios modelos alternativos podra utilizarse medidas de este tipo, a las que se denomina medidas de la bondad del ajuste, para seleccionar el modelo ms adecuado. Existen en la literatura economtrica numerosas medidas de la bondad del ajuste. La ms conocida es el coeficiente de determinacin, al que se designa por R2 o R cuadrado. Como se ver en otro momento, esta medida tienen algunas limitaciones, aunque es vlida para comparar modelos de regresin lineal simple. El coeficiente de determinacin se basa en la descomposicin de la varianza de la variable endgena, a la que denominaremos varianza total. Vamos a ver a continuacin como se obtiene esta descomposicin. De acuerdo con (7) Yt = Yt + ut Restando a ambos miembros Y , se tiene que Yt Y = Yt Y + ut Si elevamos al cuadrado ambos miembros se obtiene que (34) (33)
(Y Y )
t
= (Yt Y ) + ut
(35)
es decir,
(Y Y ) = (Y Y )
2 t t 2 (Yt Y ) = Yt Y t =1 t =1 T T
+ ut2 2ut Yt Y
(36)
Sumando ambos miembros de la expresin anterior de 1 a T, se tiene
+ ut2 2 ut Yt Y
t =1 t =1
(37)
Ahora bien, puede verse que el tercer trmino del segundo miembro de (37) es I-9
2 ut Yt Y = 2 utYt 2Y ut = 0
t =1 t =1 t =1
(38)
de acuerdo con (31) y (24). Por lo tanto, (37) queda reducida a

2 (Yt Y ) = Yt Y t =1 t =1 T T
+ ut2
t =1
(39)
Debe recalcarse que para se cumpla que (38) es igual a 0 es necesario utilizar la relacin (24), que a su vez est asociada a la primera ecuacin normal de la recta, es decir, a la ecuacin correspondiente al trmino independiente. Si en modelo no hay trmino independiente, entonces en general no se cumplir la descomposicin obtenida en (39). Si en la expresin (39) dividimos ambos miembros por T, se obtiene que
(Yt Y )
t =1
(
T t =1
Yt Y
) u
2 T
t =1
2 t
(40)
Por lo tanto, la varianza total de la variable endgena se descompone en dos partes: varianza explicada por la regresin o varianza de los valores ajustados1 y varianza residual. Es decir, Varianza total = varianza "explicada" + varianza residual A partir de la descomposicin anterior, el coeficiente de determinacin se define como la proporcin de la varianza total explicada por la regresin. Su expresin es la siguiente:
R2 =
(Y Y ) (Y Y )
t =1 t t =1 T t
(41)
Alternativamente, y de forma equivalente, de acuerdo con (39) el coeficiente de determinacin se puede definir como 1 menos la proporcin no explicada por la regresin, es decir, como
El primer trmino del segundo miembro de (40) es la varianza de Yt , ya que, de acuerdo con
(29), se verifica que Y = Y I-10
R2 = 1
u
t =1 T t =1
2 t
(Yt Y )2
(42)
Los valores extremos del coeficiente de determinacin son: 0, cuando la varianza explicada es nula, y 1,cuando la varianza residual es nula, es decir, cuando el ajuste es perfecto
5 Hiptesis estadsticas del modelo

I Hiptesis sobre la forma funcional
Los elementos del modelo tienen la siguiente relacin entre s:
Yt = 1 + 2 X t + ut
(43)
La relacin entre el regresando, los regresores y la perturbacin aleatoria es lineal. El regresando y los regresores pueden ser cualquier funcin de la variable endgena o de las variables predeterminadas, respectivamente, siempre que entre regresando y regresores se mantenga una relacin lineal, es decir, el modelo sea lineal en los parmetros. El carcter aditivo de la perturbacin aleatoria garantiza su relacin lineal con el resto de los elementos.
II Hiptesis sobre la perturbacin aleatoria

La perturbacin aleatoria ut es una variable aleatoria no observable con las siguientes propiedades:
a) La esperanza matemtica de la perturbacin aleatoria ut es cero. E (ut ) = 0 t = 1, 2, , T

(44)
Se adopta aqu el supuesto de que los efectos individuales de las variables incluidas en el trmino de perturbacin tienden a compensarse por trmino medio. En cualquier caso, aun suponiendo que los efectos individuales no se compensasen exactamente y, por tanto, su valor esperado fuese distinto de cero, dicho valor podra ser acumulado en el trmino constante del modelo de regresin, con lo cual se podra mantener esta hiptesis sin ningn problema. Por esta razn, si el modelo tiene trmino constante, es imposible deslindar a posteriori la parte estrictamente correspondiente al coeficiente independiente del modelo, de la parte proveniente de la media de la perturbacin aleatoria del modelo. As, pues, sta seria una hiptesis no contrastable empricamente.
b) Las perturbaciones aleatorias son homoscedsticas E (ut2 ) = 2

I-11
t = 1, 2, , T
(45)
Esta hiptesis indica que todas las perturbaciones aleatorias tienen la misma varianza. Es decir, la varianza de las perturbaciones aleatorias del modelo es constante y, por tanto, independiente del tiempo o de los valores de las variables predeterminadas. Dicha hiptesis es contrastable empricamente mediante diversos contrastes estadsticos basados en los residuos mnimocuadrticos. Asimismo, hay que sealar que, en determinadas situaciones, esta hiptesis resulta poco plausible, sobre todo cuando se trabaja con datos de corte transversal, es decir, con observaciones sobre diferentes unidades muestrales referidas a un mismo momento del tiempo. Si no se cumple esta hiptesis, se dice que las perturbaciones son heteroscedsticas.
c) Las perturbaciones aleatorias con distintos subndices son independientes entre s. E (ut us ) = 0 ts
(46)
Es decir, las perturbaciones correspondientes a distintos momentos del tiempo o a distintas unidades muestrales no estn correlacionadas entre si. Este supuesto, al igual que el anterior, es contrastable a posteriori. La transgresin del mismo se produce con bastante frecuencia en los modelos en los que se utilizan datos de series temporales, es decir, observaciones realizadas a intervalos regulares de tiempo.
d) La perturbacin aleatoria tiene una distribucin normal multivariante

Dado que la perturbacin aleatoria recoge un conjunto amplio de variables, omitidas del modelo de regresin, que son independientes entre si y tambin del conjunto de regresores, por el teorema central del limite se puede suponer que el vector de perturbaciones aleatorias tiene una distribucin normal multivariante. Las cuatro hiptesis formuladas sobre las perturbaciones aleatorias se pueden expresar de forma conjunta como
ut ~ NID(0, 2 )
donde NID indica que son normales e independientes.
(47)
III Hiptesis sobre el regresor X

a) Las observaciones de X son fijas en repetidas muestras
De acuerdo con esta hiptesis, los distintos regresores del modelo toman los mismos valores para diversas muestras del regresando. ste es un supuesto fuerte en el caso de las ciencias sociales, en el que es poco viable experimentar. Los datos se obtienen por observacin, y no por experimentacin. Para que dicho supuesto se cumpliera, los regresores deberan ser susceptibles de ser controlados por parte del investigador. Es importante sealar que los resultados que se
I-12
obtienen utilizando este supuesto se mantendran prcticamente idnticos si supusiramos que los regresores son estocsticos, siempre que introdujramos el supuesto adicional de independencia entre los regresores y la perturbacin aleatoria. Este supuesto alternativo se puede formular as:
a*) La variable X se distribuye independientemente de la perturbacin aleatoria

En desarrollos posteriores se adoptar el supuesto de que se cumple la hiptesis a).
b) El regresor X no contiene errores de observacin o de medida

sta es una hiptesis que raramente se cumple en la prctica, ya que los instrumentos de medicin en economa son escasamente fiables (pinsese en la multitud de errores que es posible cometer en una recogida de informacin, mediante encuesta, sobre los presupuestos familiares). Aunque es difcil encontrar instrumentos para contrastar esta hiptesis, la naturaleza del problema y, sobre todo, la procedencia de los datos utilizados pueden ofrecer evidencia favorable o desfavorable a la hiptesis enunciada.
IV Hiptesis sobre los parmetros

1 y 2 son constantes
Si no se adopta esta hiptesis el modelo de regresin sera muy complicado de manejar. En todo caso, puede ser aceptable postular que los parmetros del modelo se mantienen estables en el tiempo (si no se trata de perodos muy extensos) o en el espacio (si est relativamente acotado).
6 Propiedades probabilsticas del modelo

Aleatoriedad del modelo
Dado que ut es aleatoria, tambin la variable endgena Yt ser una variable aleatoria por ser una funcin lineal de la perturbacin aleatoria, como se deduce del modelo de regresin lineal (43). Cuando realizamos una estimacin por mnimos cuadrados con datos reales, estamos suponiendo que existe un mecanismo de generacin de datos - el modelo de regresin - que ha determinado los valores observados de la variable endgena. As, cuando realizamos una estimacin en un modelo de regresin lineal simple, tal como el modelo (43), estamos suponiendo que los valores observados por el investigador de la variable endgena (Y1,Y2,...,YT ) han sido generados por dicha relacin que contiene unos parmetros ( 1 y 2 ) desconocidos para el investigador, una variable explicativa (X) con valores conocidos y una perturbacin aleatoria u cuyos valores son desconocidos. El investigador supone que los valores de la perturbacin aleatoria han sido
I-13
generados por una distribucin normal con media 0 y varianza 2 , tambin desconocida. As pues, el investigador no observa directamente el proceso de generacin de datos, sino los resultados finales de este proceso, es decir, los valores observados de Y: Y1,Y2,...,YT. Precisamente, aplicando el mtodo de mnimos cuadrados (a estos datos y a los datos de la variable explicativa), lo que se persigue es realizar estimaciones de los parmetros del modelo ( 1 , 2 y 2 ), que son desconocidos para el investigador. Con objeto de comprender mejor el proceso que acabamos de describir, es conveniente invertir los papeles, generando el propio investigador los valores que toma la variable endgena. Cuando se generan los datos de forma artificial, se dice que se est realizando un experimento de Montecarlo. Este nombre proviene del famoso casino de la Costa Azul debido a que en estos experimentos se realizan extracciones de nmeros aleatorios, lo que en definitiva es anlogo al resultado del lanzamiento de una bola en la ruleta de un casino. En la realizacin de un experimento de Montecarlo se parte del supuesto de que es conocido tanto el mecanismo de generacin de datos, como los valores de los parmetros2.
Aleatoriedad de los estimadores

Los estimadores 1 y 2 son tambin variables aleatorias puesto que son funcin de las variables aleatorias Yt . En efecto,
2 =
( X t X )(Yt Y )
t =1
(X
t =1
( X t X )Yt ( X t X )Y
t =1 t =1
X )2
T
(X
t =1
X )2
(X
t =1 T t =1
X )Yt X)
(48)
2
(X
En el desarrollo anterior se ha tenido en cuenta que
En Econometra Aplicada (pginas 60 a 66) puede verse como se generan nmeros aleatorios uniformes y normales mediante rutinas informticas. Por otra parte, en las pginas 149 a 153 (caso 3.11) se realiza un experimento de Montecarlo con una hipottica funcin de consumo.
I-14
(X
t =1
T T X )Y = Y ( X t X ) = Y X t TX = Y [ TX TX ] = 0 t =1 t =1
Denominando
(X t X )
(X
t =1
X)
= ct
2
entonces el estimador 2 se puede expresar de la siguiente forma: 2 = ct Yt

t =1 T
(49)
Si se adopta el supuesto III a), que implica que la variable X t es no aleatoria, entonces de la expresin anterior se deduce que es una combinacin
2
lineal de la variable Yt . Los coeficientes ct tienen las siguientes propiedades:
c
t =1 T t =1 t
=0
(50)
c X
En efecto,
T T
=1
(51)
c
t =1
(Xt X ) (X
t =1 t t =1 T t
X)
(X
t =1 t
t =1 T
TX = X)
2
TX TX
(X
t =1
=0
2
X)
T
c X
t =1 t
(X
t =1 T t =1
X )Xt
t
(X
(X
t =1 T
X )( X t X )
t
X)
(X
t =1
(X (X
t =1 t =1 T
X )2 =1 X)
2
X)
Vamos a expresar a ahora el estimador 2 en funcin de las perturbaciones aleatorias. Teniendo en cuenta (49) y (43) resulta que 2 = ct ( 1 + 2 X t + ut )
t =1 T
I-15
= 1 ct + 2 ct X t + ct ut = 2 + ct ut
t =1 t =1 t =1 t =1
(52)
Para llegar al resultado final se ha tenido en cuenta (50) y (51). Anlogamente, 1 = Y 2 X = 1 + 2 X + u 2 X = 1 + u X ( 2 2 ) = 1 +

T 1 T ut X ct ut T t =1 t =1
(53)
EJEMPLO 1 Estimacin de la funcin de consumo con series simuladas Con el mismo modelo que el caso 3.11 de Econometra Aplicada, en un experimento de Montecarlo al que denominaremos Exp. 1, hemos generado 10 series de consumo (CONS) a partir de la relacin:
CONSt = 2 + 0,85 RENDISt + ut
(54)
donde RENDIS es la renta disponible y la perturbacin u se distribuye con media 0 y desviacin tpica 1. (La nica variacin con respecto al caso 3.11 es que en dicho caso la desviacin tpica de la perturbacin es 1,2.) Aplicando mnimos cuadrados utilizando cada una de las muestras generadas de consumo y de la muestra dada de la variable RENDIS (Vase cuadro 3.11 de Econometra Aplicada ), se han estimado (vase cuadro 1) los parmetros 1 y 2 del modelo:
CONSt = 1 + 2 RENDISt + ut
(55)
I-16
CUADRO 1 Resultados Exp. 1 Desviacin tpica de las perturbaciones: Constante ( = 1) Desviacin tpica de la muestra de RENDIS: Constante ( SRENDIS = 2.905) Nm. Desviaciones Desviaciones muestra tpicas tericas tpicas estimadas
1
1 2 3 4 5 6 7 8 9 10 Media 2.993 -0.408 0.759 4.077 1.062 2.197 -1.359 1.594 2.917 4.194 1.803
2
0.803 0.977 0.941 0.766 0.887 0.832 0.973 0.853 0.807 0.741 0.858
R2
0.945 0.951 0.883 0.853 0.951 0.790 0.890 0.854 0.884 0.871
2.3509 2.3509 2.3509 2.3509 2.3509 2.3509 2.3509 2.3509 2.3509 2.3509
0.1019 0.1019 0.1019 0.1019 0.1019 0.1019 0.1019 0.1019 0.1019 0.1019
0.6285 0.7238 1.1150 1.0440 0.6496 1.3934 1.1117 1.1466 0.9516 0.9270
1.4774 1.7014 2.6210 2.4541 1.5271 3.2755 2.6134 2.6954 2.2369 2.1790
0.0684 0.0788 0.1214 0.1136 0.0707 0.1517 0.1210 0.1248 0.1036 0.1009
26 24 22 CONS1 20 18 16 14 16 18 20 22 24 26 RENDIS
Figura 4. Recta de regresin terica (trazo continuo) y estimada en la muestra 1 del Exp. 1 (trazo discontinuo)
En la figura 4, adems de la nube de puntos, se han representado la recta de regresin terica (en trazo continuo) y la recta de regresin estimada con los datos de la muestra 1. Como puede verse, la recta ajustada est muy prxima a la recta terica.
Insesgadez de los coeficientes

Una propiedad deseable en un estimador es que sea insesgado, es decir, que su media terica coincida con el parmetro que trata de estimar. Veamos
I-17
concretamente, y de forma analtica, si se verifica esta propiedad en los estimadores 1 y 2 . Tomando esperanza matemtica en (52) y (53), y teniendo en cuenta la hiptesis 2a), se obtiene que
T T E ( 2 ) = E 2 + ct ut = E ( 2 ) + ct E (ut ) = 2 t =1 t =1
(56)
T T 1 T 1 T E ( 1 ) = E 1 + ut X ct ut = E ( 1 ) + E (ut ) X ct E (ut ) =1 (57) T t =1 T t =1 t =1 t =1
Por lo tanto, 1 y 2 son estimadores insesgados de los parmetros 1 y 2 respectivamente. Cuando se est trabajando con series reales no se conocen los valores de los parmetros; por ello, no se puede calcular la diferencia entre estimacin y parmetro correspondiente a una muestra en concreto. Sin embargo, si el estimador es insesgado sabemos que si estimramos el modelo con un gran nmero de muestras, entonces la media de las estimaciones obtenidas estara muy prxima a los parmetros que se trata de estimar. Si un estimador no cumple esta propiedad, se dice que es un estimador sesgado. La diferencia entre el valor esperado del estimador y el estimador se denomina sesgo.
EJEMPLO 1 (continuacin) Estimacin de la funcin de consumo con series simuladas Como en un experimento de Montecarlo se conocen los parmetros, se pueden calcular los sesgos que se han cometido en la estimacin. As, los sesgos cometidos en la estimacin con la muestra 1, segn muestra el cuadro 1, son los siguientes:
Sesgo ordenada: 1 1 = 2, 000 2,993 = 0,993 Sesgo pendiente: 2 2 = 0,850 0,803 = 0, 047
Los resultados anteriores estn determinados en parte por el azar, es decir, por la extraccin concreta de las perturbaciones aleatorias. Ahora bien, si hacemos varias extracciones y obtenemos la media de todas las estimaciones obtenidas, entonces los sesgos sern en general menores que en una muestra en concreto. As, la media de las 10 estimaciones realizadas, segn puede verse en el cuadro 1 son las siguientes:
1 =

j =1
10
1j
10
= 1,803
I-18
2 =

j =1
10
2j
10
= 0,858
Los sesgos que se obtienen para estos valores medios son los siguientes:
Sesgo ordenada: 1 1 = 2, 000 1,803 = 0,197 Sesgo pendiente: 2 2 = 0,850 0,858 = 0, 008
Examinando los resultados del cuadro 2, en relacin a estos sesgos medios, puede observarse que nicamente en la muestra 8 se obtiene un sesgo menor para la pendiente (0,003), mientras que en la muestra 6 el sesgo de la estimacin de la ordenada es igual en valor absoluto al correspondiente sesgo medio.
Precisin de los coeficientes

Otra propiedad deseable de un estimador es que sea preciso, es decir, que la funcin de densidad se encuentre lo ms concentrada posible en torno al valor medio. Una medida de esta precisin la suministra la varianza (o la desviacin tpica) del estimador.
La varianza del estimador 2 es la siguiente

2 E ( 2 2 ) 2 = =
2
( X t X )2
t =1
(58)
La demostracin de (58) puede verse en el recuadro adjunto. Denominando S x2 a la varianza muestral de X, es decir,
S x2 =
(X
t =1
X )2 (59)
la varianza de 2 se puede expresar del siguiente modo

2 E ( 2 2 ) 2 = =
2
2
TS x2
(60)
I-19
Demostracin de (58) De acuerdo con (52) se tiene que 2 2 = ct ut

t =1 T
Elevando al cuadrado ambos miembros de la expresin anterior, y aplicando el operador esperanza se obtiene T E ( 2 2 ) 2 = E ct ut t =1
2
T T = E ct2ut2 + ct ct ut ut = ct2 E (ut2 ) + ct ct E (ut ut ) t t t t t =1 t =1 Teniendo en cuenta las hiptesis II b) y II c) se obtiene
c
t =1
2 t
(X
t =1
X )2
2
T 2 ( X t X ) t =1
(X
t =1
X )2
De forma anloga se obtiene la varianza del estimador 1 : 2 1 2 X = =2 + T T 2 T (Xt X ) t =1 X2 1 + 2 (61) Sx
2 E ( 1 1 ) 2 =
Por otra parte, puede demostrarse que los estimadores mnimo cuadrticos, son estimadores ptimos, es decir, son los que tiene menor varianza dentro de la clase de estimadores lineales e insesgados. Por ello, suele decirse de los estimadores mnimo-cuadrticos que son ELIO (Estimadores Lineales Insesgados y ptimos). De acuerdo con (60) y (61) las desviaciones tpicas de los estimadores vendrn dadas por
=
2
T Sx
(62)
I-20
=
1
1 X2 1 + T S x2
(63)
Como puede verse en (62), la desviacin tpica de 2 es directamente proporcional a la desviacin tpica de las perturbaciones e inversamente proporcional a la raz cuadrada del tamao de la muestra y a la desviacin tpica muestral de la variable explicativa. En la expresin (63), depende la desviacin tpica de 1 depende de esos mismos factores y, adems, de la media de la variable explicativa.
Al ser desconocida la varianza de las perturbaciones ( 2 ), las varianzas de los estimadores de los coeficientes de regresin son tambin desconocidas. Por ello es necesario estimarla. El estimador insesgado de la varianza de las perturbaciones en el modelo de regresin lineal simple viene dado por u
t =1 T
2 =
2 t
T 2
(64)
A la desviacin tpica estimada de la perturbacin ( ) se le suele conocer tambin con la denominacin de error tpico de regresin. Si en las varianzas tericas de los estimadores (expresiones (60) y (61)) se sustituye la varianza de las perturbaciones por el estimador (64), se obtienen las varianzas estimadas de los estimadores: 2 =
2
2
2 TS x
(65)
2 =
1
X2 1+ 2 T Sx
(66)
Anlogamente, las desviaciones tpicas estimadas de los estimadores vendrn dadas por
=
2
T Sx
(67)
=
1
1 X2 1 + T S x2
(68)
I-21
EJEMPLO (continuacin) Estimacin de la funcin de consumo con series simuladas En el cuadro 1 se recogen tambin los resultados obtenidos en las 10 muestras del Exp. 1 para , y .
1 2
Con objeto de ver la influencia que tienen y SRENDIS en las desviaciones de los estimadores, hemos realizado los experimentos 2 y 3. En el experimento 2 se utiliza el mismo modelo que en el experimento 1 pero la varianza de la perturbaciones utilizada ha sido distinta en cada una de las muestras. En concreto, en las 5 muestras generadas, segn puede verse en el cuadro 2, se han asignado a de forma sucesiva los valores 1, 2 3, 4 y 5. Como puede observarse, excepto en el caso de que =1, los estimadores obtenidos estn muy alejados de los valores de los parmetros. Se comprueba tambin que segn va creciendo , lo va haciendo tambin su estimador, aunque, como es previsible, de una forma menos uniforme que el parmetro. En la figura 5 se ha representado la recta de regresin verdadera y la correspondiente a estimacin con la muestra 5, donde =5. Como puede comprobarse estn muy alejadas entre s ambas rectas. En el experimento 3 se utiliza el mismo modelo que en el experimento 1 y tambin la misma la varianza de la perturbaciones. Sin embargo hemos utilizado 5 muestras distintas de la variable X. Las 5 muestras se caracterizan por tener la misma media (21,4), pero una desviacin tpica muestral de X variable, con valores que oscilan, segn puede verse en el cuadro 3, entre 2,905 de la muestra 1 (igual que en el experimento 1) y 0,290 de la muestra 5. Como puede observarse, las desviaciones tpicas de los estimadores crecen de forma drstica a medida que disminuye la desviacin tpica muestral de la variable explicativa. CUADRO 2 Resultados Exp. 2 Desviacin tpica de las perturbaciones: Variable Desviacin tpica de la muestra de RENDIS: Constante ( SRENDIS = 2.905)
Nm muestra 1 2 3 4 5 Media
1
-0.037 6.749 -4.152 -19.640 8.654 -1.685
2
0.931 0.660 1.200 1.828 0.674 1.059
1 2 3 4 5
Desviaciones tpicas tericas
Desviaciones tpicas estimadas

1.4352 1.3755 2.3284 4.2124 6.3668
R2
0.816 0.708 0.737 0.665 0.106
2.3509 4.7018 7.0527 9.4036 11.7545
0.1019 0.2177 0.3266 0.4354 0.5443
3.3738 3.2335 5.4735 9.9022 14.9667
0.1562 0.1497 0.2534 0.4585 0.6930
I-22
34 31 28 25 CONS5 22 19 16 13 10 7 16 18 20 RENDIS
Figura 5. Recta de regresin terica (trazo continuo) y estimada en la muestra 5 del Exp. 2 (trazo discontinuo) En la figura 6 se ha representado la recta de regresin verdadera y la correspondiente a estimacin con la muestra 5, donde SRENDIS =0,290. Como puede comprobarse en este caso tambin estn muy alejadas entre s ambas rectas. CUADRO 3 Renta disponible (RENDIS) utilizada en el Exp. 3
t 1 2 3 4 5 6 7 8 9 10 Media Desviacin tpica RENDIS1 17.00 18.00 19.00 20.00 20.00 22.00 23.00 24.00 25.00 26.00 21.400 2.905 RENDIS2 19.20 19.70 20.20 20.70 20.70 21.70 22.20 22.70 23.20 23.70 21.400 1.452 RENDIS3 20.52 20.72 20.92 21.12 21.12 21.52 21.72 21.92 22.12 22.32 21.400 0.581 RENDIS4 20.85 20.97 21.10 21.22 21.22 21.47 21.60 21.72 21.85 21.97 21.400 0.363 RENDIS5 20.96 21.06 21.16 21.26 21.26 21.46 21.56 21.66 21.76 21.86 21.400 0.290
22
24
26
I-23
CUADRO 4 Resultados Exp. 3 Desviacin tpica de las perturbaciones: Constante ( = 1) Desviacin tpica de la muestra de RENDIS: Variable
Desviaciones tpicas tericas Nm muestra Desviaciones tpicas tericas
S RENDIS

0.8966 1.2788 0.8597 0.9092 1.1782
R2
2
1 2 3 4 5 Media
2.213 4.077 -1.499 -25.180 -19.886 -8.055
0.867 0.768 1.014 2.141 1.849 1.328
2.905 1.452 0.581 0.363 0.290
2.3509 4.6714 11.6519 18.6453 23.3376
0.1019 0.2178 0.5443 0.8712 1.0904
2.1077 5.9714 10.0170 16.9454 27.4482
0.0996 0.2784 0.4679 0.7917 1.2825
0.9080 0.4874 0.3700 0.4780 0.2060
34 31 28 25 CONS5 22 19 16 13 10 7 16 18 20 22 24 26 RENDIS5 Figura 6. Recta de regresin terica (trazo continuo) y estimada en la muestra 5 del Exp. 3 (trazo discontinuo)
I-24
7 Principios generales del Contraste de hiptesis

El contraste de hiptesis permite realizar inferencias acerca de parmetros poblacionales utilizando datos provenientes de una muestra. Para realizar contrastes de hiptesis en estadstica, en general, hay que realizar los siguientes pasos: 1) Establecer una hiptesis nula y una hiptesis alternativa relativas a los parmetros de la poblacin. 2) Construir un estadstico para contrastar las hiptesis formuladas. 3) Definir una regla de decisin para determinar si la hiptesis nula debe ser, o no, rechazada en funcin del valor que tome el estadstico construido.
Formulacin de la hiptesis nula y de la hiptesis alternativa

En la regresin lineal simple vamos a realizar contrates individuales sobre los coeficientes del modelo de regresin. La formulacin de la hiptesis nula se realiza mediante una igualdad, que reviste la siguiente forma:
H 0 : i = i*
(69)
donde i* es un valor prefijado por el investigador. Para formular la hiptesis alternativa se utilizan, segn los casos, los operadores "desigualdad", "mayor que" o "menor que". Por tanto, las tres alternativas de hiptesis alternativas que consideraremos son las siguientes:
a ) H 0 : i i* b) H 0 : i > i* c) H 0 : i < i*
(70)
El caso a) dar lugar a un contraste de 2 colas, mientras que en los casos b) y c) el contraste correspondiente ser de una sola cola.
Construccin del estadstico de contraste

Para realizar el contraste se trata de buscar un estadstico que tenga una distribucin conocida. La distribucin del estadstico depender en buena medida de los supuestos que se establezcan en el modelo. De acuerdo con la hiptesis del modelo de regresin lineal simple II d), la perturbacin ut sigue una distribucin normal. Dado que 1 y 2 se obtienen como combinacin lineal de ut , seguirn a su vez una distribucin normal, es decir, 2 N 2 ,

T Sx
(71)
I-25
1 N 1 ,
1 X2 1 + T S x2
(72)
o alternativamente, si tipificamos, tendremos que 2 2 N (0,1) T Sx

1 1 1 X2 1+ T S x2 N (0,1) (74)
(73)
Supongamos que deseamos realizar un contraste sobre el coeficiente 2 . En concreto, supongamos que deseamos contrastar la siguiente hiptesis nula ((69) frente a la hiptesis alternativa a) de (70)). Si es cierta la H 0 , se verificar que
* 2 2 N (0,1)
(75)
T Sx El problema que se nos plantea es que no se puede calcular el estadstico anterior porque no se conoce cuando trabajamos con datos reales. Cuando se sustituye por su estimador , entonces el estadstico anterior se distribuye como una t con T-k grados de libertad, es decir,
* 2 2 tT k
(76)
T Sx La dispersin de una t de Student es mayor que en una N(0,1), aunque la dispersin va disminuyendo a medida que aumentan los grados de libertad, verificndose que: tn N (0,1) n (77)
As pues, cuando el nmero de grados de libertad de una t de Student tiende hacia infinito converge hacia una distribucin N(0,1). En el contexto del contraste de hiptesis, si crece el tamao de la muestra, tambin lo harn los grados de libertad. Esto implica que para tamaos grandes (por ejemplo, para muestras con un tamao superior a 60) se puede utilizar, de forma prcticamente
I-26
equivalente, la distribucin normal para contrastar hiptesis, an cuando no se conozca la varianza poblacional. Conviene recordar que una t con n grados de libertad tiene la siguiente relacin con una F de 1 grado de libertad en el numerador y n grados de libertad en el denominador: t n = F1,n (78)
Una variable F toma siempre valores positivos, mientras que una variable t, que tiene una funcin de densidad simtrica, puede tomar valores positivos y negativos. Obsrvese que a cada valor de una F le corresponden dos valores (uno positivo y otro negativo) en una t. La distribucin del estadstico utilizado en el contraste incorpora la H0, es decir, se construye bajo el cumplimiento de la hiptesis nula.
Regla de decisin para el contraste3
Vase pgina 157 y siguientes de Econometra Aplicada
I-27

Regresion Lineal

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion Lineal

Uploaded by

Copyright:

Available Formats

Modelo de regresin lineal simple

Modelo de regresin simple

Teniendo en cuenta el concepto de residuo se analizan a continuacin diversos criterios de ajuste.

Dicho ajuste se podra considerar ptimo. Pero tambin es posible que

u = 0 haciendo girar en cualquier sentido la recta si dejamos fijo ( X 2 , Y2 ),

2. Obtencin de los estimadores mnimo-cuadrticos

Para minimizar S, derivamos parcialmente respecto a 1 y 2 :

Operando, se tiene que

De acuerdo con la anterior expresin se obtiene

1 = Y 2 X Sustituyendo 1 en la segunda ecuacin normal (14) se tienen que

Por otra parte,

Teniendo en cuenta (19) y (20), entonces (18) se puede expresar as:

A su vez 1 se obtiene a travs de la relacin (17). Es decir,

X) = cov( X , Y ) var( X ) (23)

3. Propiedades descriptivas en la regresin lineal simple

Demostracin. Por definicin de residuo ut = Yt Yt = Yt 1 2 X t t = 1, 2, ,T (25)

Si sumamos para las T observaciones, se obtiene: ut = Yt Yt = Yt 1T 2 X t

Para llegar a (31) se ha tenido en cuenta la segunda ecuacin normal de (13).

Para llegar a (32) se ha tenido en cuenta las propiedades descriptivas 1 y 3.

4 Medidas de la bondad del ajuste. Coeficiente de determinacin

Sumando ambos miembros de la expresin anterior de 1 a T, se tiene

de acuerdo con (31) y (24). Por lo tanto, (37) queda reducida a

(29), se verifica que Y = Y I-10

5 Hiptesis estadsticas del modelo

II Hiptesis sobre la perturbacin aleatoria

a) La esperanza matemtica de la perturbacin aleatoria ut es cero. E (ut ) = 0 t = 1, 2, , T

b) Las perturbaciones aleatorias son homoscedsticas E (ut2 ) = 2

d) La perturbacin aleatoria tiene una distribucin normal multivariante

III Hiptesis sobre el regresor X

a*) La variable X se distribuye independientemente de la perturbacin aleatoria

b) El regresor X no contiene errores de observacin o de medida

IV Hiptesis sobre los parmetros

6 Propiedades probabilsticas del modelo

Aleatoriedad de los estimadores

En el desarrollo anterior se ha tenido en cuenta que

entonces el estimador 2 se puede expresar de la siguiente forma: 2 = ct Yt

lineal de la variable Yt . Los coeficientes ct tienen las siguientes propiedades:

Para llegar al resultado final se ha tenido en cuenta (50) y (51). Anlogamente, 1 = Y 2 X = 1 + 2 X + u 2 X = 1 + u X ( 2 2 ) = 1 +

CONSt = 2 + 0,85 RENDISt + ut

Insesgadez de los coeficientes

T T 1 T 1 T E ( 1 ) = E 1 + ut X ct ut = E ( 1 ) + E (ut ) X ct E (ut ) =1 (57) T t =1 T t =1 t =1 t =1

Precisin de los coeficientes

La varianza del estimador 2 es la siguiente

la varianza de 2 se puede expresar del siguiente modo

Demostracin de (58) De acuerdo con (52) se tiene que 2 2 = ct ut

T T = E ct2ut2 + ct ct ut ut = ct2 E (ut2 ) + ct ct E (ut ut ) t t t t t =1 t =1 Teniendo en cuenta las hiptesis II b) y II c) se obtiene

De forma anloga se obtiene la varianza del estimador 1 : 2 1 2 X = =2 + T T 2 T (Xt X ) t =1 X2 1 + 2 (61) Sx

Desviaciones tpicas tericas

Desviaciones tpicas estimadas

2.3509 4.7018 7.0527 9.4036 11.7545

0.1019 0.2177 0.3266 0.4354 0.5443

3.3738 3.2335 5.4735 9.9022 14.9667

0.1562 0.1497 0.2534 0.4585 0.6930

2.213 4.077 -1.499 -25.180 -19.886 -8.055

0.867 0.768 1.014 2.141 1.849 1.328

2.905 1.452 0.581 0.363 0.290

2.3509 4.6714 11.6519 18.6453 23.3376

0.1019 0.2178 0.5443 0.8712 1.0904

2.1077 5.9714 10.0170 16.9454 27.4482

0.0996 0.2784 0.4679 0.7917 1.2825

0.9080 0.4874 0.3700 0.4780 0.2060

7 Principios generales del Contraste de hiptesis

Formulacin de la hiptesis nula y de la hiptesis alternativa

Construccin del estadstico de contraste