Professional Documents
Culture Documents
Esta segunda gua ofrece conceptos y ejercicios aplicables al modelo de regresin mltiple. En la
primera parte se hace una recopilacin de conceptos y frmulas de esta parte de la materia y en la
segunda se exponen ejercicios sin resolver. La solucin ser entregada posteriormente.
( 3 ) 22 2 ( 2 3 )
3 = 22 32 ( 2 3 )2
[3]
2
3 = 32 (123
2 ) [5]
2 ( 2 3 )2
El coeficiente de correlacin 23 = [6]
22 32
2
2 = 3 [7]
Recuerde que la notacin en las letras minsculas corresponde a las desviaciones de las variables
respecto de sus medias.
1.2. Bondad del ajuste R2
El coeficiente R2 de regresin mltiple es la medida del ajuste de la lnea de regresin muestral a los
datos. Su frmula es la siguiente:
2 = =1 [8]
Pgina 1
SCR= Suma Cuadrado de los Residuos = 2
SCT= Suma Cuadrado Total = 2
El R2 tambin puede ser calculado mediante la aplicacin de la siguiente frmula:
2 2 +3 3 2
2 = = 1- [9]
2 2
Al comparar dos modelos de regresin con la misma variable dependiente, pero con un nmero
diferente de variables X, se debe tener mucho cuidado al escoger el modelo con la R2 ms alta. Para
comparar dos trminos R2 se debe tener en cuenta el nmero de variables X presentes en el modelo,
es decir los grados de libertad disponibles. El indicador alternativo que considera los grados de
libertad del modelo es el R2 ajustado, que es una de la formas de verificar si la incorporacin de una
variable X mejora la capacidad predictiva del modelo, ya que por definicin el R2 siempre aumenta
a medida que aumenten las variables explicativas, an cuando la incorporacin de stas no tengan
ningn asidero terico.
La frmula general del indicador R2 ajustado es:
2 2
=1
=1 [10]
1
2 (1)
= [13]
(12 ) ()
Pgina 2
Si > ( 1, ) se rechaza H0; de lo contrario, se acepta. Donde ( 1, ) es el
valor F crtico en el nivel de significancia , con (k 1) gl en el numerador y (N k) gl en el
denominador.
Otro de los usos del test F es para determinar la contribucin marginal de una variable explicativa a
la regresin. Por contribucin nos referimos al posible incremento significativo de la SCE (y por
tanto de la R2) en detrimento de la SCR. Esta contribucin puede llamarse contribucin incremental
o marginal de una variable explicativa.
( )
=
= [14]
( )
( )
( 2 2 )
= [16]
(1 2 ) ( )
1.4. Variables Dicotmicas
Las variables dicotmicas o dummy son variables cualitativas que indican la presencia o ausencia
de un atributo, como es el gnero masculino o femenino, la raza negra o blanca, la religin
profesada: catlica o no catlica, la pertenencia a un partido poltico, la procedencia de regin o no,
etc. La forma de cuantificar estos atributos es a travs de variables artificiales que toman valores de
1 o 0, donde 1 indica la presencia de ese atributo y 0 su ausencia.
El efecto matemtico que provoca en las regresiones es desplazar la recta en forma paralela,
aumentando o disminuyendo el coeficiente de posicin 1. Por ejemplo, si estamos estudiando el
rendimiento acadmico de los estudiantes en la universidad nos daremos cuenta que hay factores
Pgina 3
cuantitativos que lo explican, como lo son el rendimiento en la enseanza media; pero, tambin hay
muchos otros factores cualitativos que tambin ayudan a explicar el rendimiento acadmico de los
estudiantes, como podra ser, por ejemplo, si el estudiante viene de provincia a estudiar a Santiago.
El modelo economtrico en estos casos se expresa de la siguiente manera:
= 1 + 2 2 + 3 +
Donde:
Notas U = promedio de notas en la universidad
D2 = valor de 1 si el estudiante es de Santiago y 0 en caso contrario
NEM = promedio de notas en la enseanza media
La recta de regresin con variable dummy tendr dos versiones: una para los estudiantes de
Santiago y otra para los de provincia:
( /2 = 0) = 1 + 3
( /2 = 1) = 1 + 2 + 3
En el caso de los estudiantes de Santiago el coeficiente de posicin ser 1 + 2 y en los de
provincia, como la variable dummy toma el valor de cero, ser slo 1 .
Si los resultados de la regresin fueran los siguientes:
= 1,04732 0,0458116 2 + 0,586103
Tendramos esta expresin anterior reflejara la recta de los estudiantes de Santiago, en tanto la
recta de los estudiantes de provincia, como lo muestra el grfico, estara por encima:
= 1,04732 + 0,586103
Santiago Provincia
5,5
5,0
4,5
4,0
Notas U
3,5
3,0
2,5
2,0
1,5
1,0
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0
NEM
1.5. Flexibilizacin de los supuestos del modelo clsico de regresin lineal (MCRL)
Multicolinealidad: Si existe multicolinealidad perfecta entre las variables independientes los
coeficientes de regresin sern indeterminados y sus errores estndares infinitos. Esto implica que
no es factible identificar los efectos individuales de cada variable explicativa X sobre la variable a
explicar Y.
Cuando se presenta la multicolinealidad perfecta es necesario corregir el modelo porque de lo
contrario no pueden determinarse los estimadores, por ejemplo, sea:
Y= 1+2X2+3X3+u
Pgina 4
Tal que X2= 2X3, entonces no ser posible estimar el modelo con las 2 variables explicativas. Lo
que si podemos estimar es el modelo reducido con una de las variables explicativas:
Y= 1+22X3+3X3+u = 1 + (22+3)X3+u
Con multicolinealidad imperfecta los estimadores MCO seguirn siendo MELI, insesgados con
varianza mnima. Sin embargo, esto no significa que en una muestra determinada la varianza de los
estimadores sea pequea. De hecho, siendo un problema muestral, la multicolinealidad provoca
varianzas grandes y, en consecuencia, dificultades para hacer inferencia estadstica. Esto queda
reflejado en el factor inflacionario de la varianza, que es directamente proporcional al aumento de la
correlacin mltiple entre las variables independientes.
2 1
= 2 , =
(1 2 )
Donde 2 es el R2 de la regresin de Xj sobre las dems l-variables independientes. En la medida
que aumenta la correlacin entre las variables explicativas, el FIV aumentar, y de esta forma
crecen las varianzas de los parmetros. Como regla prctica se seala que valores FIV>10 pueden
indicar colinealidad. Otro indicador de la posible existencia de multicolinealidad es cuando R2 es
muy alto, pero ninguno de los coeficientes de regresin es estadsticamente significativo con base a
la prueba t student.
Heteroscedasticidad: Si la varianza de los errores no es constante, como asume el MCRL, entonces
tendremos heteroscedasticidad. En estudios de corte transversal, cuando se analiza a los agentes
econmicos de una poblacin, sean estos consumidores individuales o familias, empresas, industrias
o subdivisiones geogrficas, es habitual encontrar que la varianza del fenmeno econmico
estudiado vare entre los subgrupos definidos. Los estimadores MCO siguen siendo lineales,
insesgados y consistentes, sin embargo, dejan de tener varianza mnima, porque la varianza
estimada de los errores ya no ser un estimador insesgado de su valor poblacional, por lo que los
estimadores MCO dejan de ser MELI.
Para detectar la presencia de heteroscedasticidad se utilizan mtodos informales, como el examen
de los residuos, y mtodos ms formales como las pruebas de Park, Glejser, White, entre muchos
otros. En la prueba de Park se realiza una regresin auxiliar 2 = + + ; en la que si
resulta estadsticamente significativa, se concluye que hay heteroscedasticidad. La prueba de
Glejser es similar slo cambia la variable dependiente por el valor absoluto de los residuos y en que
la regresin auxiliar adopta diferentes formas funcionales. Por su parte, la prueba de White
regresiona los residuos al cuadrado contra los polinomios de las variables independientes y
construye indicador N*R2 que se distribuye como una 2, que una vez calculado si supera el valor
tabla seala la presencia de heteroscedasticidad.
Si se conoce 2, el mtodo ms directo para corregir la heteroscedasticidad es aplicando mnimos
cuadrados generalizados (MCG), tambin llamados ponderados (MCP), los estimadores obtenidos
as sern MELI.
Autocorrelacin: La autocorrelacin de los errores significa que el trmino de perturbacin
relacionado con una observacin cualquiera recibe influencia del trmino de perturbacin
relacionado con cualquier otra observacin, por lo que se viola el supuesto que Cov (ui,uj) =0.
La autocorrelacin en los errores es un fenmeno ms propio de las series de tiempo y, al igual que
en la heteroscedasticidad, los estimadores MCO usuales, a pesar de ser lineales, insesgados y
consistentes, dejan de tener varianza mnima entre todos los estimadores lineales insesgados.
Pgina 5
El test ms usado para detectar la presencia de autocorrelacin en los errores es a travs del
estadgrafo Durbin-Watson:
1 1
2(1 ) donde significa aproximadamente igual y = ( ) que mide la
2 2
autocorrelacin muestral de primer orden.
Si = 1 indica correlacin positiva exacta d=0
Si = 1 indica correlacin negativa exacta d=4
Si = 0 indica que no hay correlacin serial d=2