Professional Documents
Culture Documents
0, el problema de la
multicolinealidad:
No ignoro que una de las pginas ms visitadas de mi web es precisamente en la que trato la
regresin lineal. La regresin lineal es una de las tcnicas estadsticas ms importantes para
relacionar variables. Una variable aleatoria depende o bien de otra/s variable/s o bien de las
condiciones concretas bajo las cuales se observa o se mide esa variable. Pues los modelos
lineales son modelos probabilsticos basados en fuciones lineales de variables, la regresin lineal
es referenciar una variable en funcin de otro conjunto de variables. Para estudiar un modelo
lineal es necesario:
1. Escribir el modelo matemtico con sus hiptesis.
2. Estimar los parmetros del modelo.
3. Hacer inferencias sobre los parmetros.
4. Comprobar que se cumplen las hiptesis del modelo.
No quiero entrar en aparato matemtico en este ejemplo, si quiero recomendaros
una bibliografa bsica por si estuvirais interesados, los conocimientos matemticos son
imprescindibles para conocer bien como trabaja la regresin es necesario siempre tenerlos en
cuenta.
En este ejemplo partimos de los datos recogidos por la Organizacin en Defensa del
Consumidor que realiz un estudio sobre el contenido de monxido de carbono emitido por el
humos de los cigarrillos comercializados. Se mide el contenido en alquitrn, el contenido en
nicotina y el peso de los mismos. Tenemos una muestra de 25 marcas de cigarrilos y
pretendemos ajustar un modelo lineal del modo
CO=B0+B1*ALQUITRAN+B2*NICOTINA+B2*PESO. Es decir un modelo de regresin
mltiple con tres variables independientes.
Lo primero que debemos hacer es introducir el conjunto de datos en SPSS (aqu tenis el
conjunto de datos en modo texto) tenemos 5 variables y sobre las 4 variables numricas vamos
a realizar nuestro modelo. Para hacer modelos lineales con SPSS 8 nos vamos al
men Estadstica-->Regresin-->lineal:
Variables introducidas
Variables eliminadas
Mtodo
, Introducir
R
,936(a)
,857
1,8311
2,149
b Variable dependiente: CO
Suma de cuadrados
gl
Media cuadrtica
Regresin
472,086
157,362
Residual
67,059
20
3,353
539,145
23
Total
Sig.
46,933
,000(a)
(Constante)
ALQUITR
1 A
NICOTINA
PESO
Error
tp.
1,130
4,403
,184
,201
9,534
,985
Intervalo de
confianza
para B al
95%
Sig.
Estadsticos de
colinealidad
Lmite
inferior
Beta
,257 ,800
,228
8,054
10,31
Toleranci
4
a
Lmite
superio
r
FIV
,603
,101
9,941
3,409
16,64
5
,097
10,286
4,954
,018
11,318
9,348
,760
1,315
,199 ,844
a Variable dependiente: CO
Estamos aadiendo informacin con una variable regesora que est linealmente relacionada con
otra o bien con ambas a la vez. La variable NICOTINA depende linealmente de ALQUITRAN o
del PESO o de ambas a la vez. Esto no slo se detecta con las estimaciones de los parmetros,
contamos con la ayuda de dos medidas: la tolerancia y el VIF (Variance inflation factory, FIV en
espaol). La tolerancia es 1/VIF (1/9,941=0,101) y el VIF es la comparacin de las relaciones
lineales entre las variables regresoras. Veamos la matriz de correlaciones (Estadistica->Correlaciones-->Bivariadas: Variables: ALQUITRAN,NICOTINA,PESO):
Correlaciones
ALQUITRA
Correlacin de Pearson
ALQUITRA
,945(**)
,462(*)
,000
,023
25
25
24
,945(**)
1,000
,490(*)
,000
,015
25
25
24
,462(*)
,490(*)
1,000
,023
,015
24
24
24
N
NICOTINA
Sig. (bilateral)
N
Correlacin de Pearson
PESO
PESO
1,000
Sig. (bilateral)
Correlacin de Pearson
NICOTINA
Sig. (bilateral)
N
Vemos que la correlacin entre las variables NICOTINA y ALQUITRAN son significativas a un
nivel bajo y que la correlacin entre el PESO y las otras dos tambin se puede considerar alta,
ah puede estar nuestro problema. Para calcular el VIF tenemos que hacer los modelos de
regresin de cada variable independiente frente a las dems variables independientes, es decir:
1. ALQUITRAN=B0+B1*NICOTINA+B2*PESO
2. NICOTINA=B0+B1*ALQUITRAN+B2*PESO
3. PESO=B0+B1*ALQUITRAN+B2*NICOTINA
Siendo el VIF=1/(1-R(i,resto)) donde R es el coeficiente de determinacin al cuadrado de la
variable i-sima del modelo frente al resto de variables regresoras.
Una vez calculados estos modelos nos fijamos en su coeficiente de correlacin mltiple:
1. ALQUITRAN=B0+B1*NICOTINA+B2*PESO
Resumen del modelo
Modelo
1
R
,948(a)
R cuadrado
R cuadrado corregida
,899
,890
2. NICOTINA=B0+B1*ALQUITRAN+B2*PESO
Resumen del modelo
Modelo
R cuadrado
,950(a)
R cuadrado corregida
,903
,894
,1172
VIF NICOTINA=1/(1-0.903)=10,31;tolerancia=0,097
3. PESO=B0+B1*ALQUITRAN+B2*NICOTINA
Resumen del modelo
Modelo
R cuadrado
,490(a)
R cuadrado corregida
,240
,167
8,066E-02
Modelo Dimensin
Autovalor
Indice de
condicin
Proporciones de la varianza
Constante
3,828
1,000
,00
,00
,00
,00
,161
4,882
,01
,04
,01
,01
8,362E-03
21,395
,01
,95
,96
,00
3,320E-03
33,953
,97
,00
,02
,99
a Variable dependiente: CO
R cuadrado
,908(a)
R cuadrado corregida
,825
,809
Durbin-Watson
2,0699
1,932
El nuevo modelo tambin tiene un buen coeficiente de determinacin y sus residuos no tienen
autoceorrelacin.
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
(Constante)
Error tp.
Estadsticos de colinealidad
t
Sig.
Beta
Tolerancia
FIV
1,365
4,817
,283 ,780
,712
,081
,793
1,262
2,829
5,308
,053
,793
1,262
1 ALQUITRA
PESO
Coeficientes
estandarizados
,533 ,599
a Variable dependiente: CO
Suma de cuadrados
gl
Media cuadrtica
Regresin
444,890
222,445
Residual
94,261
22
4,285
539,150
24
Total
F
51,917
Sig.
,000(a)
Vemos que se ha corregido el problema de la multicolinealidad, ahora tenemos que ver que
sucede con los residuos, para ello comencemos con los descriptivos que nos ofrece SPSS en la
salida:
Estadsticos sobre los residuos(a)
Mnimo
Mximo
Media
Desviacin tp.
Valor pronosticado
4,2978
25,8800
12,5280
4,3055
25
-1,912
3,101
,000
1,000
25
,4492
1,4055
,6864
,2117
25
5,2983
27,9160
12,6172
4,5204
25
-2,7978
6,5284
1,883E-15
1,9818
25
Residuo tip.
-1,352
3,154
,000
,957
25
Residuo estud.
-1,575
3,403
-,018
1,054
25
-4,4160
7,6022
-8,9201E-02
2,4253
25
-1,634
4,832
,035
1,272
25
Dist. de Mahalanobis
,170
10,105
1,920
2,093
25
Distancia de Cook
,001
,699
,084
,187
25
,007
,421
,080
,087
25
Residuo eliminado
Residuo eliminado estud.
a Variable dependiente: CO
Los errores tienen media 0 y desviacin tpica 1 (2 fila de la tabla), as que esta hiptesis si la
cumplen, ahora han de seguir una distribucin normal, esto lo comprobamos viendo el grfico
PP de distribucin normal que podemos obtener dentro del campo Grficos de la regresin
lineal (pulsando el icono
que tenemos en el men del output nos evitamos tener que repetir
todo el proceso de creacin de la regesin):
Vemos que la distribucin tambin se asemeja a una distribucin normal, esta hiptesis tambin
la cumple. Ahora hemos de comprobar que los residuos tengan igualdad de varianza (la hiptesis
de la homocedasticidad) y esto lo hacemos con el grfico de residuos estudentizados frente a
predicciones que tambin podemos obtener en el campo Grficos del modelo de regresin:
,001
,699
,084
,187
25
,007
,421
,080
,087
25
Estas medidas son capaces de determinar la influencia de un punto, hay una para cada
observacin y en la tabla tenemos mnimo, mximo, media y desviacin. En el caso de la
distancia de Cook el valor referencia es el 1 si se sobrepasa este valor estamos ante un caso
influyente, como el mximo es 0,69 ningn valor es influyente. Para el caso del valor de
influencia centrada (Leverages en ingls) el valor referencia est en funcin de las variables
regresoras y del tamao muestral:2*(var.regresoras+1)/nobservaciones, en nuestro caso es 0,24.
Para los leverages tenemos que en nuestro modelo influye alguna observacin. Para ver que
observaciones son las potencialmente influyentes en el cuadro de dilogo de la regresin nos
vamos al campo Guardar:
Seleccionamos: Valores corregidos pronosticados que son los resultantes de eliminar el caso isimo, Distancias de Cook, los residuos eliminados que son los conocidos como residuos press
que son los residuos obtenidos cuando eliminamos el caso i-simo y los DFBetas que miden
como cambia el estimador del parmetro cuando eliminamos el caso. Pinchamos en continuar y
en nuestro conjunto de datos parecen 6 nuevas variables con las que estudiamos los valores
influyentes. Una para los residuos coregidos, otra para los valores ajustados con el modelo,
distancia de Cook y tres columnas con los DFBetas para cada trmino del modelo (B0, B1, B2).
La distancia de Cook ya la estudiamos con anterioridad y vimos que ninguna observacin era
influyente para los DFBetas se considera una observacin influyente si en valor absoluto es
mayor que 2/la raiz cuadrada del nmero de observaciones. Para no alargar el ejemplo vamos a
estudiar slo los residuos press que SPSS nos ha guardado como dre_1, estudiemos sus
descriptivos:
Estadsticos descriptivos
N
Deleted Residual
24
24
Mnimo
-4,73664
Mximo
7,56633
Media
-,1015308
Desv. tp.
2,5016649
Parece que pueda haber casos que nos afecten, en concreto el mximo supera tres veces la la
desviacin tpica respecto la media, debera ser un caso a tener en cuenta. Hemos de identificar
este caso en el conjunto de datos y es la primera observacin, esta observacin est
influenciando la estimacin de los parmetros y sera conveniente eliminarla.
Como podis ver aun nos quedara camino por recorrer hasta encontrar un modelo que de verdad
se adece del todo y aun as seguiramos encontrando otros caminos y posibilidades como la
regresin robusta que espero sea uno de los prximos ejemplos que trabaje. Os recomiendo que
sigais con el modelo hasta el final y que analicis otras medidas de potenciales y veis otros
grficos para que veis las posibilidades de este ejemplo que aunque parezca sencillo es bastante
til para tomar ocntacto con la modelizacin.