You are on page 1of 16

ECONOMETRA I

Licenciatura ADE. Curso 2004 - 2005 Profesor Ramn Maha

EJERCICIOS Y CUESTIONES DE APOYO


SECCIN 3: CONTRASTES DE SIGNIFICACIN Y ANLISIS DE BONDAD DEL MODELO BSICO DE REGRESIN LINEAL

CUESTIONES BSICAS
Cul es la utilidad emprica de determinar un intervalo de confianza alrededor de un parmetro estimado?.

La determinacin de los parmetros permite calcular SIEMPRE un valor central del estimador supuestas unas determinadas propiedades estadsticas relativas a la distribucin del valor terico de los mismos. Sin embargo, esta estimacin puntual no ofrece informacin sobre la precisin del parmetro, esto es, sobre su rango de variabilidad alrededor del valor central. Sin esa informacin, que se obtiene precisamente de la construccin del intervalo de confianza los resultados seran difciles de interpretar y el modelo difcil de manejar como instrumento de anlisis, simulacin o prediccin, ya que desconocemos la fiabilidad estadstica del valor del parmetro obtenido. Si el parmetro estimado se distribuye como una normal, Porqu utilizamos una distribucin t en lugar de una Normal para elaborar la expresin del intervalo de confianza de los parmetros estimados?

La razn estriba en que, si bien es cierto que el estimador de los parmetros se distribuye conforme a una normal, esto es:
N , 2 ( X ' X ) 1 Para la matriz de parmetros estimados: N ( , 2 a ) o para un parmetro especfico j: j j jj

donde 2 representa la varianza constante de la perturbacin aleatoria (U) y a jj los valores de la diagonal principal de (XX)-1, nosotros utilizaremos un estimador para la 2 en lugar del valor real . Por tanto, la varianza 2 de U; es decir, utilizaremos distribucin estandarizada del parmetro, que en trminos reales se distribuira como una normal (0,1):
j j N ( 0,1)

a jj

es ahora reemplazada por:

j j a jj

Puede demostrarse que esta nueva distribucin es una t de Student. Recordemos, para ello, que una t se define como:

t n k =

N ( 0,1) 2 n k

Y esta es precisamente la combinacin de distribuciones que tenemos con la expresin anterior. Efectivamente, podemos desarrollar:
j j j j = e' e a jj a jj nk j j = e' e a jj 2 nk

y ahora, puede demostrarse que


e' e

U ' MU

U'

es una suma de n-k normales (0,1) al cuadrado, es decir, una 2 con n-k grados de libertad, de modo que:
j j j j = = e' e a jj a jj nk j j N (0,1) = = t nk 2 n k e' e a jj 2 nk

As pues, la expresin general del intervalo que, para una Normal sera:
N DT + N DT =1 Pr /2 /2

( )

( )]

queda ahora:
t DT + t DT =1 Pr /2 /2

( )

( )]

Qu se entiende por prueba t1 en el contexto de la estimacin de los parmetros de un MBRV?

La prueba t o clculo de la t de Student es un contraste de significacin por el cual se utilizan los resultados muestrales de la estimacin para verificar la verdad o falsedad de una determinada hiptesis. En el caso de la estimacin paramtrica, esa
1

Utilizando la terminologa de Gujarati, D.N. (2003) Econometra Mc.GrawHill.

prueba t se utiliza para verificar la verdad o falsedad de la hiptesis nula de que el verdadero valor de cada uno de los parmetros del modelo es nulo. En caso de demostrarse que esta hiptesis es cierta, la variable relativa a ese parmetro no debera incluirse en la especificacin al entenderse que su relacin con la endgena (medida precisamente por el valor del parmetro) es nula. Qu inconvenientes presenta la ratio F como contraste de significacin conjunta?

El inconveniente principal tiene que ver con la hiptesis nula que se contrasta. La hiptesis nula postula que el valor de TODOS los parmetros reales del modelo planteado es simultneamente nulo. Esta hiptesis tiene poca verosimilitud dado que es de suponer que, tras un cuidado proceso de especificacin, el analista habra equivocado el 100% de la seleccin del conjunto de variables que considera de inters para analizar la endgena. Qu ventaja se deriva de la estimacin de un MBRV multivariante utilizando variables estandarizadas?

Al estandarizar las variables antes de la estimacin de los parmetros eliminamos el efecto de las unidades de medida de cada una de ellas sobre el valor de los parmetros. As pues, los parmetros obtenidos de la regresin con variables estandarizadas pueden compararse unos con otros a fin de determinar la variable con ms peso, las ms importante cuantitativamente hablando sobre los movimientos de la variable endgena. Cmo se interpreta el valor de la probabilidad que, a la derecha de la ratio t (en la ltima columna del panel de resultados) aparece como resultado bsico en cualquier estimacin de un modelo realizado por E-Views?

Esa probabilidad se denomina tcnicamente p-value y es el nivel exacto de significacin ms bajo al que puede rechazarse la hiptesis nula (parmetro=0). Es decir, para un nivel de significacin mayor, la hiptesis nula debe aceptarse. Una interpretacin ms sencilla es considerar ese valor como la probabilidad exacta de cometer un error de tipo I, es decir, de rechazar la hiptesis nula (aceptando por tanto el parmetro como significativo) siendo cierta. As pues, si observamos un valor de, por ejemplo, 0,05 (en tantos por uno), diramos que, al aceptar el parmetro como significativo, arriesgamos un 5% o, lo contrario, tomamos una decisin correcta con un nivel de confianza del 95%. Cmo se interpreta el valor de la R2?

El valor de la R2 es el porcentaje de la varianza de la variable endgena real que es capaz de reproducir el modelo. Si observamos que analticamente la varianza de la endgena real puede descomponerse en la suma de la varianza de la endgena estimada ms la del error y damos por supuesto que el objetivo del anlisis de regresin es precisamente explicar las variaciones de la variable endgena, parece razonable pensar que a mayor valor de la R2 mejor ajuste habremos logrado.

Demuestre que la varianza de la endgena real puede descomponerse en la suma de la varianza de la endgena estimada y la varianza del residuo de la estimacin.

La demostracin puede encontrarse en la pgina 244 del libro Modelos Economtricos de Antonio Pulido y Julin Prez, edicin 2001, editorial Pirmide. Cul es la principal utilidad del porcentaje medio de error absoluto frente a la suma cuadrtica residual media?

La principal ventaja est relacionada con la medicin del error en trminos relativos del porcentaje medio de error absoluto. La medicin del error cometido en cada observacin en porcentaje del valor de la variable endgena para esa misma observacin permite conocer en qu medida el error es grande o pequeo dado el tamao de la variable que estamos analizando; de otra manera, los modelos estimados sobre variables endgenas medidas en unidades grandes tenderan a presentar errores grandes y viceversa. Si hay un mximo en la serie endgena real y un mnimo en endgena estimada qu error se comete en trminos de ajuste de tendencia Tipo I o Tipo II?

Una divergencia de este tipo se considera al mismo tiempo de tipo I y II dado que un mximo es un cambio de tendencia radicalmente distinto a un mnimo. Cul es la utilidad de la U de Theil?

La U de Thei compara los crecimientos de la endgena real con los de la endgena estimada utilizando una expresin que flucta entre 0 (mxima coincidencia) y 1 (mxima divergencia). La ratio permite, por tanto, conocer en qu medida es capaz de reproducir el modelo estimado los movimientos del fenmeno analizado.

EJERCICIOS NUMRICOS
Observe la siguiente salida de E-Views en la que se relaciona el Empleo Total de un pas (EETOT) con el PIB en unidades monetarias constantes Base 86 (GDPM86) y la Masa Salarial Total Percibida por los Trabajadores (SALE), tambin en unidades constantes. Calcule los valores que faltan en los espacios marcados con un interrogante.

Dependent Variable: EETOT Method: Least Squares Date: 11/26/03 Time: 23:53 Simple: 1970 1998 Included observations: 29 Variable Coefficient C 5331.433 GDPM86 0.267607 SALE ? R-squared ? Adjusted R-squared ? S.E. of regression 343.3349 Sum squared resid 3064850. Log likelihood -208.8883 Durbin-Watson stat 0.390248

Std. Error t-Statistic 968.2564 ? ? 6.462654 228.3329 -5.475736 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

Prob. ? ? ? 11883.15 587.1988 14.61299 14.75443 27.95080 ?

Los valores de la ratios t para el trmino independiente, la desviacin tpica del parmetro de GDPM86 o el coeficiente de SALE pueden obtenerse todos ellos a partir de la expresin general de la ratio t:
t ( ) = ) DT (

5331.433 = 5.5062 968.2564 0.267607 DT ( GDPM 86 ) = = 0.041408 6.462654 SALE = 228.3329 5.475736 = 1250.290 t ( C ) =

Los valores de la probabilidad asociada al contraste no pueden calcularse exactamente pero al menos podemos examinar las tablas de una t29-3 para determinar si el valor obtenido en las ratios t supera o no a los valores crticos de tablas. Consultando estas tablas, podemos observar que en todos los casos la ratio t supera el valor crtico de tablas incluso con un 99% de confianza. Concretamente, para el 95% de confianza (0,05% de nivel de significacin, el valor crtico de la t con 26 grados de libertad es 2,055; con un 99% de confianza ese valor pasa a ser 2,78, lejos, en cualquier caso de los valores obtenidos en nuestra estimacin. Para el caso de la F ocurre algo similar (los valores obtenidos superan con mucho los valores crticos de tablas) dado que los valores de referencia son, para el 95% de confianza 2,97 y para el 99% de confianza 4,63. As pues, el valor de las probabilidades que el E-Views mostrara sera, en todos los casos, muy cercano a cero dado que la probabilidad de rechazar la hiptesis nula (nulidad de coeficientes individuales o del conjunto) siendo cierta es prcticamente cero. Para calcular la R2 debemos observar que el E-Views ofrece informacin sobre la Desviacin Tpica de la Variable Endgena (587.1988) y, por otro lado, nos ofrece tambin la suma cuadrtica residual (3064850) de modo que:

3064850 S 29 R2 = =1 U =1 = 0.69 Sy Sy (587.1988) 2 Sy

Para calcular la R2 corregida aplicamos la expresin:


R 2 = 1 (1 R 2 ) n 1 28 = 1 (1 0.69) = 0.67 n k 26

En el ejemplo anterior, calcule los parmetros estandarizados conociendo que la Desviacin Tpica de GDPM86 es 7113,542 y la de SALE 1,29.

Dado que la desviacin tpica de la variable endgena es 587,1988, podemos calcular los parmetros estandarizados sencillamente a partir de la expresin:
* = DT ( X ij ) j j DT (Yi )
* 1250,290 SALE = 1,29 = 2,75 587,1988 7113,542 = 3,24 587,1988

* GDPM 86 = 0,267607

De modo que la diferencia entre ambos parmetros no parece, una vez estandarizados, tan evidente como al utilizar las variables originales (medidas en unidades tamaos muy diferentes). Comente la adecuacin conceptual de los signos de los parmetros obtenidos en la regresin anterior.

Aparentemente los signos responden a la lgica de la teora econmica ms elemental. La relacin entre empleo y PIB debe ser positiva (la actividad econmica genera empleo) y la relacin entre el salario y el empleo debe ser negativa si entendemos que el salario es el coste del factor trabajo. Calcule el intervalo de variacin para el parmetro estimado para el PIB (GDPM86) con un nivel de confianza del 99%, 95% y 70%.

Dado que el valor del parmetro estimado es 0,26607 (que redondeamos a 0,27) y el valor de su desviacin tpica es 0,041408 (que redondeamos a 0,04), el intervalo de confianza para un determinado nivel de significacin (o lo que es igual, un nivel de confianza de 1- ) es:
Pr GDPM 86 t / 2 DT GDPM 86 GDPM 86 GDPM 86 + t / 2 DT GDPM 86 = 1

)]

Los grados de libertad de la estimacin son (n-k) 29-3=26. Para esos grados de libertad, los valores de la t de Student (t 2) para los distintos niveles de significacin son: Al 99%, el valor de t0,012=2,779 Al 95%, t0,052=2,055 Al 70%, t0,32=1,057 As pues, los intervalos quedan, numricamente as para cada caso:
Pr[ 0,27 2,055 0,04 GDPM 86 0,27 + 2,055 0,04] = 99% Pr[ 0,188 GDPM 86 0,352] = 95% Pr[ 0,27 1,057 0,04 GDPM 86 0,27 + 1,057 0,04] = 70% Pr[ 0,228 GDPM 86 0,312] = 70% Obsrvese como el intervalo de posible variacin del parmetro poblacional es tanto ms amplio cuanto mayor certeza se desea asumir en la hiptesis; a sensu contrario, puedo arriesgar un valor algo ms preciso para el parmetro real a partir de la estimacin pero el nivel de confianza en esa hiptesis ser menor (por eso digo, explcitamente, que puedo arriesgar un valor ms preciso). Pr [ 0,27 2,779 0,04 GDPM 86 0,27 + 2,779 0,04] = 99% Pr[ 0,159 GDPM 86 0,381] = 99%

Observe el grfico de valores reales (lnea con punteado ms fino), estimados (lnea con punteado ms grueso) y residuos (lnea representada en la parte inferior sobre valores del eje izquierdo) de la anterior regresin. Comente los principales rasgos grficos del mismo.
14000 13000 12000 1000 500 0 -500 -1000 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 Residual Actual Fitted 11000 10000

1.- La regresin ofrece un ajuste de dudosa calidad dado que puede observarse cierto comportamiento regular en la evolucin temporal de los residuos. Es decir, el error no simula una evolucin aleatoria, no alterna con regularidad valores positivos y negativos, no cruza la media con regularidad. Este hecho, que ser interpretado ms adelante como un claro sntoma de autocorrelacin, indica problemas de subespecificacin.

2.- El modelo presenta perodos notables de subestimacin o sobreestimacin, impropios de un modelo debidamente especificado. 3.- Especialmente preocupante resulta la subestimacin persistente al final de la muestra lo que limitar la capacidad predictiva del modelo. 4.- El ajuste presenta varios perodos de error atpico (las lneas horizontales delgadas por encima y debajo de los residuos marcan el intervalo de confianza para los errores). Especialmente desajustado parece el perodo entre 1982 y 1989. Dada la siguiente muestra (70-84) de valores reales y estimados (ambos en niveles) de la anterior regresin: o o o o 1.-dibuje el diagrama prediccin realizacin 2.-calcule los errores de tipo I y II en trminos absolutos y relativos 3.-compute tambin el valor de la U de Theil. 4.-calcule el porcentaje medio de error absoluto
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 Y Real 11240,0 11326,7 11583,4 11967,1 12096,0 11840,4 11748,6 12594,8 12375,8 12166,8 11796,7 11443,3 11294,2 11170,0 10966,3 Y Estimada 10628,9 10868,3 11292,0 11725,2 12038,7 11995,8 12129,0 12189,7 12127,3 11965,4 11887,7 11685,7 11614,1 11558,8 11468,7

1.- Para representar el diagrama hemos de calcular las tasas de los anteriores valores:
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 Y Real 0,77% 2,27% 3,31% 1,08% -2,11% -0,78% 7,20% -1,74% -1,69% -3,04% -3,00% -1,30% Y Estimada 2,25% 3,90% 3,84% 2,67% -0,36% 1,11% 0,50% -0,51% -1,34% -0,65% -1,70% -0,61%

1983 1984

-1,10% -1,82%

-0,48% -0,78%

10,00%

5,00%

Estimada

-10,00%

-5,00%

0,00% 0,00%

5,00%

10,00%

-5,00%

-10,00% Real

En todos los aos salvo en uno, el ajuste de las variaciones es correcto, es decir, cuando la realidad crece tambin lo hace la estimacin y viceversa (los puntos estn en los cuadrantes que son cruzados por la bisectriz de prediccin perfecta). Sin embargo, el modelo tiende a sobreestimar los crecimientos positivos y subestimar los negativos. 2.- Para el clculo de los errores de tipo I y II localizamos los mximos y mnimos en la serie real y estimada y buscamos las divergencias:
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 Y Real 11240,0 11326,7 11583,4 11967,1 12096,0 11840,4 11748,6 12594,8 12375,8 12166,8 11796,7 11443,3 11294,2 11170,0 10966,3 Y Estimada 10628,9 10868,3 11292,0 11725,2 12038,7 11995,8 12129,0 12189,7 12127,3 11965,4 11887,7 11685,7 11614,1 11558,8 11468,7

Max Min Max

Max Min Max

Se localiza, por tanto, un error de tipo II en el ao 1976 y un error de tipo I en 1975. En trminos porcentuales, esto supone:
% Err.T .I = Err.T .I 1 = = 0,33% Cambios Pr edichos 3

% Err.T .II =

Err .T .II 1 = = 0,33% Cambios Re ales 3

3.- El clculo de la U de Theil total se obtiene fcilmente con la siguiente expresin:


1 N 1 N ( y
2 i

U=

i y 1 N

=
2 i

0,00050166 0,00035937 + 0,00075102

= 0,45

El valor, en el medio del rango 0-1 representa una capacidad de ajuste mediocre de los cambios pese a que los cambios de tendencia son bien recogidos. Es decir, aunque los mximos y mnimos son captados por el modelo, la cuanta de las variaciones no es adecuadamente medida por el mismo. 4.- Las medida del porcentaje medio de error absoluto (computando los errores con las variables en niveles) arrojan un resultado del 2,6% sin excluir ningn valor del clculo:
(1) Real 11240,0 11326,7 11583,4 11967,1 12096,0 11840,4 11748,6 12594,8 12375,8 12166,8 11796,7 11443,3 11294,2 11170,0 10966,3 (2) Estimada 10628,9 10868,3 11292,0 11725,2 12038,7 11995,8 12129,0 12189,7 12127,3 11965,4 11887,7 11685,7 11614,1 11558,8 11468,7 (3)=(1)-(2) (4)=abs((3)/(1)) Error % Abs(Error/Real) 611,1 0,0544 458,4 0,0405 291,4 0,0252 241,9 0,0202 57,3 0,0047 -155,4 0,0131 -380,4 0,0324 405,1 0,0322 248,5 0,0201 201,4 0,0166 -91,0 0,0077 -242,4 0,0212 -319,9 0,0283 -388,8 0,0348 -502,4 0,0458 Suma 0,3971 Promedio 2,6%

1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984

Si queremos excluir los atpicos de la serie de valores porcentaules (antes de y promediarlos), consideramos un rango de variacin asumible en los errores porcentuales de la media +/- 2 veces la desviacin tpica de los mismos, que con estos datos resulta ser (0,0265)+/- 2 * 0,0134, esto es, un lmite inferior de 0,000 y superior de 0,053. Ningn valor est fuera de estos lmites.

EJERCICIOS AVANZADOS

Suponga un modelo en el que las variables utilizadas son todas ellas los logaritmos de los niveles de las variables originales. Qu ventaja ofrece este tipo de modelo en logaritmos sobre la especificacin en niveles?

Supuesto un modelo estimado en logaritmos (por ejemplo con una nica exgena):
+ log X + u log Yi = 0 1 1i i

puede observarse que, matemticamente, el parmetro 1 es la derivada parcial de log(X1i) respecto a log(Y i):
= log Yi 1 log X i

o lo que es igual:

Yi = log Yi = Yi 1 log X i X 1i X 1i
Si observamos esta expresin, podemos decir que el parmetro es algo similar a la elasticidad de Y i sobre X1i. Por tanto, los parmetros de un modelo en logaritmos son especialmente tiles dado que la elasticidad es un concepto de notable utilidad en el anlisis de la relacin existente entre dos variables (porcentaje de movimiento de la Y frente a un movimiento del 1% en la variable X). Cmo puede adaptarse la prueba t, desarrollada en la seccin terica para el contraste de nulidad individual de los parmetros 1 y 2 al contraste de las hiptesis conjuntas (a) 1 = 2 y (b) 1 + 2=1?

La hiptesis de nulidad de un parmetro individual j se realizaba a partir de la expresin de su distribucin t:


j j a jj = t n k

Partiendo de la hiptesis nula H0j=0, la expresin queda:


j a jj = t n k

de modo que bastaba comprobar, para un determinado nivel de confianza, si el valor de la ratio t calculada exceda en valor absoluto al valor terico de la distribucin; si es as, se rechaza la hiptesis nula y se acepta la NO nulidad del parmetro, esto es, la hiptesis alternativa H1j0

Dado que la ratio t es un contraste individual, si queremos utilizar esta propuesta de contraste individual t para contrastar hiptesis que involucren a dos o ms coeficientes j como las mencionadas en el enunciado, debemos generar una nica variable aleatoria, combinacin de esos parmetros j, derivar su distribucin y proponer una hiptesis nula y alternativa que refleje la hiptesis a contrastar con un nico valor para la nueva variable. As, si queremos contrastar la hiptesis (a) 1 = 2, que se refiere a dos parmetros y, por tanto, no es una prueba individual, podemos generar la variable aleatoria = y contrastar entonces la nulidad de . Para ello, necesitaremos derivar 3 3 1 2 la funcin de distribucin de esa nueva variable y determinar su desviacin tpica.
= puede demostrarse que su funcin de distribucin sigue Para el caso de 3 1 2 siendo una variable t con n-k grados de libertad, por tanto, utilizaremos el contraste t de la forma:

3 = t n k DT 3

( )

es, utilizando la expresin general del La desviacin tpica de la nueva variable 3 clculo de la varianza de una resta de variables aleatorias no independientes:

= DT = Var +Var 2Cov , DT 3 1 2 1 2 1 2

( )

( )

( )

De modo que la ratio t queda entonces:

+Var 2Cov , Var 1 2 1 2

( )

( )

= t n k

con la que contrastaremos H03=0 con sencillez dado que los programas de estimacin habituales ofrecen, no slo las varianzas de los parmetros, sino sus covarianzas. Si queremos contrastar la segunda hiptesis mencionada en el enunciado, 1 + 2=1 procederemos de manera similar solo que, en este caso, la variable instrumental de = + ya que, as generada, podramos contrastar la hiptesis inters sera 3 1 2 H03=1 lo que es igual H03-1=0

1 + 2 = t n k DT

( )
3

es: teniendo en cuenta que, ahora, la varianza de 3

= DT + = Var +Var + 2Cov , DT 3 1 2 1 2 1 2

( )

( )

( )

Suponga que se han obtenido los siguientes resultados en la estimacin de una funcin Cobb-Douglas para la economa mexicana en el perodo 19551974. Contraste la hiptesis de rendimientos constantes a escala con un nivel de confianza del 95%. Ln PIB=-1,6524 + 0,3397 ln Trabajo +0,8460 ln Capital t(ln(Trabajo))=1,8295 t(ln(Capital))=9,0625 Cov(ln(Trabajo), ln(Capital))=0,12

La hiptesis de rendimientos constantes a escala postula que la suma de las elasticidades trabajo + capital debe ser igual a la unidad; si la suma supera la unidad se habla de rendimientos crecientes a escala. Utilizando la ratio t podemos computar la hiptesis: + 1 1 2 = t n k + DT

donde 1 y 2 son respectivamente las elasticidades capital trabajo obtenidas en la regresin y la desviacin tpica de la suma queda:
= DT + = Var +Var + 2Cov , DT 3 1 2 1 2 1 2

( )

( )

( )

Para obtener las desviaciones tpicas de ambos parmetros 1 y 2 recordamos que:


t = ) DT (

de modo que:
0,3397 = 0,1857 1,8295 ) = 0,846 = 0,0934 DT ( 2 9,0625 )= DT ( 1

As pues:
= DT + = Var +Var + 2Cov , = 0,5322 DT 3 1 2 1 2 1 2

( )

( )

( )

En nuestro caso n-k=20-3=1, con lo que el contraste queda:

( + ) 1 = 0,1857 = 0,349 + ) 0,5322 DT (


1 2 1 2

Valor que queda muy lejos del valor crtico de tablas para un 95% con 17 grados de libertad (2,1098). No podemos rechazar, por tanto, la hiptesis de que la suma de

elasticidades es igual a la unidad, o lo que es igual, admitimos, por tanto, la hiptesis de rendimientos constantes a escala. Existe una relacin analtica entre la ratio F y la R2?

Si. Para ilustrarlo partimos de la expresin de la F asociada a la hiptesis nula de que todos los parmetros excluido el trmino independiente son nulos:
' y e' e) / k 1 (y = = e' e / n k (1 e' e ) / k 1 'y R 2 / k 1 y = e' e (1 R 2 ) / n k / n k ' y y

Fk 1, n k

De este modo, puede observarse que cuando la R2 es 0, la F toma tambin el valor 0 y que cuanto mayor sea el valor de la R2, mayor es tambin el de la F. Suponga el siguiente grfico en el que se representan unos hipotticos valores de una variable endgena real frente a su estimada. Si observa detenidamente podra afirmar sin temor a equivocarse que la varianza de la endgena real y la estimada son iguales. En esas condiciones, la R2 tomara el valor 1 y, sin embargo, el ajuste es claramente inadecuado. Podra explicar esta incongruencia?
8 6 4 2 0 -2 -4 -6 -8 1 2 3 4 5 6 7 8 9 10 11 12 Y real Y estimada

Sencillamente este grfico no responde a una situacin que realmente pueda obtenerse aplicando MCO sobre un MBRV. El procedimiento de MCO garantiza unos valores de los parmetros que minimizan el error; sobre el hipottico modelo representado en el grfico, el simple cambio de los signos de los parmetros estimados generara un error nulo en todas las observaciones de modo que el procedimiento de minimizacin que rige MCO encontrara esta solucin como la solucin ptima. Recuerde que, con MCO, la varianza de la endgena real debe descomponerse en varianza de la estimacin ms varianza del error; es evidente que en el grfico representado esta situacin no se cumple.

Calcule y comente el valor de los componentes de la U de Theil para los datos de endgena real y estimada del siguiente ejemplo Endgena Real 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
0,25 0,26 0,30 0,45 -0,35 -0,12 0,25 0,24 1,20 -0,90 -1,10 -2,00 2,30 0,25

Endgena Estimada
0,22 0,28 0,24 0,32 -0,15 0,05 0,12 0,21 0,89 -0,80 -0,40 -1,60 1,40 0,22

El clculo de la U de Theil total se obtiene fcilmente con la siguiente expresin:


1 N 1 N ( y i y 1 N

U =

i2 + y

=
2 i

0,129 0,499 + 1,033

= 0,208

El valor, cercano a cero, ilustra un razonable ajuste en trminos de tasas de crecimiento. Para descomponer el valor en los tres componentes de error, sistemtico (o en media), de dispersin y de correlacin, necesitamos calcular las medias y las desviaciones tpicas de las tasas reales y observadas as como, para el error de correlacin, el coeficiente de correlacin simple entre unas y otras. Los clculos arrjan los siguientes resultados:
UM = y y 1 N i2 + y 1 N y
2 i

0,06 0,06 0,499 + 1,033

= 0,0

Las medias de las tasas reales y estimadas coinciden por lo que el error sistemtico es cero. Esto no es una casualidad aritmtica, la igualdad se deriva del hecho de que el modelo estimado utilizaba valores de la endgena expresados en tasas de crecimiento de modo que los valores de las tasas estimadas deben coincidir necesariamente en media con los valores reales (recordemos que la suma de errores del modelo debe ser cero). Evidentemente, si el modelo estuviera inicialmente estimado en niveles y a posteriori genersemos las tasas de la endgena real y estimada, no encontraramos esta igualdad.

US =

Sy Sy 1 N y
2 i

1 N

=
2 i

0,704 1,015 0,499 + 1,033

= 0,181

UC =

2(1 r ) S y Sy 1 N i2 + y 1 N y
2 i

2(1 0,978) 0,704 1,015 0,499 + 1,033

= 0,104

En trminos cuadrticos se cumple la identidad:


2 2 2 U 2 =UM +US +UC 0,0434 = 0,0000 + 0,0326 + 0,0108

De los dos componentes estimados del error no nulos, el ms importante es el de dispersin, de modo que, en trminos generales puede decirse que, pese a que la realidad y la estimacin presentan un notable grado de covariacin (Uc muy bajo) las series se mueven con intensidades (variabilidades) diferentes.

You might also like