You are on page 1of 10

Ejemplo de Regresin mltiple con SPSS 8.

0, el problema de la
multicolinealidad:
No ignoro que una de las pginas ms visitadas de mi web es precisamente en la que trato la
regresin lineal. La regresin lineal es una de las tcnicas estadsticas ms importantes para
relacionar variables. Una variable aleatoria depende o bien de otra/s variable/s o bien de las
condiciones concretas bajo las cuales se observa o se mide esa variable. Pues los modelos
lineales son modelos probabilsticos basados en fuciones lineales de variables, la regresin lineal
es referenciar una variable en funcin de otro conjunto de variables. Para estudiar un modelo
lineal es necesario:
1. Escribir el modelo matemtico con sus hiptesis.
2. Estimar los parmetros del modelo.
3. Hacer inferencias sobre los parmetros.
4. Comprobar que se cumplen las hiptesis del modelo.
No quiero entrar en aparato matemtico en este ejemplo, si quiero recomendaros
una bibliografa bsica por si estuvirais interesados, los conocimientos matemticos son
imprescindibles para conocer bien como trabaja la regresin es necesario siempre tenerlos en
cuenta.
En este ejemplo partimos de los datos recogidos por la Organizacin en Defensa del
Consumidor que realiz un estudio sobre el contenido de monxido de carbono emitido por el
humos de los cigarrillos comercializados. Se mide el contenido en alquitrn, el contenido en
nicotina y el peso de los mismos. Tenemos una muestra de 25 marcas de cigarrilos y
pretendemos ajustar un modelo lineal del modo
CO=B0+B1*ALQUITRAN+B2*NICOTINA+B2*PESO. Es decir un modelo de regresin
mltiple con tres variables independientes.
Lo primero que debemos hacer es introducir el conjunto de datos en SPSS (aqu tenis el
conjunto de datos en modo texto) tenemos 5 variables y sobre las 4 variables numricas vamos
a realizar nuestro modelo. Para hacer modelos lineales con SPSS 8 nos vamos al
men Estadstica-->Regresin-->lineal:

Como variable dependientes tenemos la emisin de CO de los cigarrilos y como variables


regresoras el nivel de alquitrn, de nicotina y el peso del cigarro. No slo quiero obtener el
modelo lineal, tambin es necesario saber si ese modelo cumple todas sus hiptesis sobre los
residuos y saber si las variables regresoras son linealmente independientes para hacer esto
seleccionamos el campo Estadsticos y aparte de las estimaciones seleccionamos los intervalos
de confianza los estadsticos de Durbin-Watson y los diagnsticos de colinealidad. De momento
no vamos a estudiar ningn grfico, si es importante sealar que el mtodo de seleccin de
variables va a ser forward, hacia adelante que es el que viene sealado por defecto en el
campo Mtodo, este mtodo introducir parte del modelo sin ninguna variable regresora (slo
con el trmino independiente) y va introduciendo las variables regresoras ms significativas
segn un criterio basado en las sumas de cuadrados con y sin la variable regresora. Este criterio
se puede cambiar en el campo Opciones, en nuestro caso el criterio de entrada lo he puesto a 0,1
y el de salida a 0,15; el de salida siempre ha de ser mayor que el de entrada aunque en nuestro
caso es irrelevante. Aceptamos y comenzamos nuestro estudio, en mi caso he exportado el
archivo OUTPUTcomo pgina web para poderlo pegar de forma ms correcta en este
documento:
Variables introducidas/eliminadas(b)
Modelo
1

Variables introducidas

Variables eliminadas

PESO, ALQUITRA, NICOTINA(a)

Mtodo
, Introducir

a Todas las variables solicitadas introducidas


b Variable dependiente: CO

Todas las variables han sido seleccionadas para el modelo.


Resumen del modelo(b)
Modelo
1

R
,936(a)

R cuadrado R cuadrado corregida Error tp. de la estimacin Durbin-Watson


,876

,857

a Variables predictoras: (Constante), PESO, ALQUITRA, NICOTINA

1,8311

2,149

b Variable dependiente: CO

El modelo es bastante bueno, tenemos un coeficiente de determinacin r cuadrado muy prximo


a 1 que es el mejor de los casos y la dispersin es 1,83 que es bastante baja, adems los residuos
no estn autocorrelados como indica el estadstico de Durbin-Watson ya que en valores
prximos a 2 son los ms ptimos.
ANOVA(b)
Modelo
1

Suma de cuadrados

gl

Media cuadrtica

Regresin

472,086

157,362

Residual

67,059

20

3,353

539,145

23

Total

Sig.

46,933

,000(a)

a Variables predictoras: (Constante), PESO, ALQUITRA, NICOTINA


b Variable dependiente: CO

Esta es la tabla del anlisis de la varianza, se rechaza el contraste de regresin ya que la


diferencia entre el modelo reducido (slo con el trmino independiente) y el modelo con las 3
variables regresoras es significativa.
Coeficientes(a)
Coeficientes
Coeficientes
no
estandarizado
estandarizado
s
s
Modelo

(Constante)
ALQUITR
1 A
NICOTINA
PESO

Error
tp.

1,130

4,403

,184

,201

9,534
,985

Intervalo de
confianza
para B al
95%
Sig.

Estadsticos de
colinealidad
Lmite
inferior

Beta

,257 ,800
,228

8,054

10,31
Toleranci
4
a

Lmite
superio
r
FIV

,919 ,369 -,234

,603

,101

9,941

3,409

,707 2,797 ,011 2,423

16,64
5

,097

10,286

4,954

,018

11,318
9,348

,760

1,315

,199 ,844

a Variable dependiente: CO

En esta tabla ya tenemos el modelo:


CO=1,13+0,184*ALQUITRAN+9,534*NICOTINA+0,985*PESO. Lo primero que llama la
atencin es el alto valor que tiene el el parmetro estimado para la NICOTINA, adems se
acepta para un nivel de significacin de un 5% que el parmetro asociado a la NICOTINA (B1)
es igual a 0, el intervalo de confianza para la estimacin es muy amplio (16,645-2,423=14,222)
y por si fuera poco tenemos unos errrores, unas dispersiones, tambin muy "grandes". Se
detecta multicolinealidad, es decir, hay dependencia lineal entre las variables regresoras.

Estamos aadiendo informacin con una variable regesora que est linealmente relacionada con
otra o bien con ambas a la vez. La variable NICOTINA depende linealmente de ALQUITRAN o
del PESO o de ambas a la vez. Esto no slo se detecta con las estimaciones de los parmetros,
contamos con la ayuda de dos medidas: la tolerancia y el VIF (Variance inflation factory, FIV en
espaol). La tolerancia es 1/VIF (1/9,941=0,101) y el VIF es la comparacin de las relaciones
lineales entre las variables regresoras. Veamos la matriz de correlaciones (Estadistica->Correlaciones-->Bivariadas: Variables: ALQUITRAN,NICOTINA,PESO):
Correlaciones
ALQUITRA
Correlacin de Pearson
ALQUITRA

,945(**)

,462(*)

,000

,023

25

25

24

,945(**)

1,000

,490(*)

,000

,015

25

25

24

,462(*)

,490(*)

1,000

,023

,015

24

24

24

N
NICOTINA

Sig. (bilateral)
N
Correlacin de Pearson

PESO

PESO

1,000

Sig. (bilateral)
Correlacin de Pearson

NICOTINA

Sig. (bilateral)
N

** La correlacin es significativa al nivel 0,01 (bilateral).


* La correlacin es significante al nivel 0,05 (bilateral).

Vemos que la correlacin entre las variables NICOTINA y ALQUITRAN son significativas a un
nivel bajo y que la correlacin entre el PESO y las otras dos tambin se puede considerar alta,
ah puede estar nuestro problema. Para calcular el VIF tenemos que hacer los modelos de
regresin de cada variable independiente frente a las dems variables independientes, es decir:
1. ALQUITRAN=B0+B1*NICOTINA+B2*PESO
2. NICOTINA=B0+B1*ALQUITRAN+B2*PESO
3. PESO=B0+B1*ALQUITRAN+B2*NICOTINA
Siendo el VIF=1/(1-R(i,resto)) donde R es el coeficiente de determinacin al cuadrado de la
variable i-sima del modelo frente al resto de variables regresoras.
Una vez calculados estos modelos nos fijamos en su coeficiente de correlacin mltiple:
1. ALQUITRAN=B0+B1*NICOTINA+B2*PESO
Resumen del modelo
Modelo
1

R
,948(a)

R cuadrado

R cuadrado corregida

,899

a Variables predictoras: (Constante), PESO, NICOTINA

,890

Error tp. de la estimacin


1,9913

VIF del ALQUITRAN=1/(1-0,899)=9.901; tolerancia=0,1

2. NICOTINA=B0+B1*ALQUITRAN+B2*PESO
Resumen del modelo
Modelo

R cuadrado

,950(a)

R cuadrado corregida

,903

Error tp. de la estimacin

,894

,1172

a Variables predictoras: (Constante), PESO, ALQUITRA

VIF NICOTINA=1/(1-0.903)=10,31;tolerancia=0,097
3. PESO=B0+B1*ALQUITRAN+B2*NICOTINA
Resumen del modelo
Modelo

R cuadrado

,490(a)

R cuadrado corregida

,240

Error tp. de la estimacin

,167

8,066E-02

a Variables predictoras: (Constante), NICOTINA, ALQUITRA

VIF PESO=1/(1-0,240)=1,35; tolerancia=0,76


La varianza inflada se considera alta cuando supera el 10 que es el valor referencia, para la
toreancia ser por tanto 0,1 el valor referencia. En nuestro caso la variable NICOTINA es la que
presenta un mayor VIF, est distorsionando el modelo, provoca estaimadores Bi grandes (puede
incluso cambiarlos de signo) y hace que se "infle" la varianza. Hemos de eliminar esta variable
del modelo. Para ver como afecta esto a nuestro modelo tenemos la tabla Diagnsticos de
colinealidad:
Diagnsticos de colinealidad(a)

Modelo Dimensin

Autovalor

Indice de
condicin

Proporciones de la varianza
Constante

ALQUITRA NICOTINA PESO

3,828

1,000

,00

,00

,00

,00

,161

4,882

,01

,04

,01

,01

8,362E-03

21,395

,01

,95

,96

,00

3,320E-03

33,953

,97

,00

,02

,99

a Variable dependiente: CO

Si vemos el modelo de dimensin 3 tanto la variable NICOTINA como ALQUITRAN aportan la


misma proporcin de varianza, una de las dos es superflua, en este caso nos quedamos con la
variable ALQUITRAN porque para dos dimensiones explica ms cantidad de varianza. Con
todo esto slo nos queda plantear el nuevo modelo con dos variables regresoras
(CO=B0+B1*ALQUITRAN+B2*PESO) y analizarlo, el nuevo modelo es:

Resumen del modelo(b)


Modelo
1

R cuadrado

,908(a)

R cuadrado corregida

,825

Error tp. de la estimacin

,809

Durbin-Watson

2,0699

1,932

a Variables predictoras: (Constante), PESO, ALQUITRA


b Variable dependiente: CO

El nuevo modelo tambin tiene un buen coeficiente de determinacin y sus residuos no tienen
autoceorrelacin.
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
(Constante)

Error tp.

Estadsticos de colinealidad
t

Sig.

Beta

Tolerancia

FIV

1,365

4,817

,283 ,780

,712

,081

,883 8,816 ,000

,793

1,262

2,829

5,308

,053

,793

1,262

1 ALQUITRA
PESO

Coeficientes
estandarizados

,533 ,599

a Variable dependiente: CO

CO=0,771+0,081*ALQUITRAN+5,308*PESO; La tabla del anlisis de la varianza es:


ANOVA(b)
Modelo
1

Suma de cuadrados

gl

Media cuadrtica

Regresin

444,890

222,445

Residual

94,261

22

4,285

539,150

24

Total

F
51,917

Sig.
,000(a)

a Variables predictoras: (Constante), PESO, ALQUITRA


b Variable dependiente: CO

Vemos que se ha corregido el problema de la multicolinealidad, ahora tenemos que ver que
sucede con los residuos, para ello comencemos con los descriptivos que nos ofrece SPSS en la
salida:
Estadsticos sobre los residuos(a)
Mnimo

Mximo

Media

Desviacin tp.

Valor pronosticado

4,2978

25,8800

12,5280

4,3055

25

Valor pronosticado tip.

-1,912

3,101

,000

1,000

25

,4492

1,4055

,6864

,2117

25

5,2983

27,9160

12,6172

4,5204

25

-2,7978

6,5284

1,883E-15

1,9818

25

Error tpico del valor pronosticado


Valor pronosticado corregido
Residual

Residuo tip.

-1,352

3,154

,000

,957

25

Residuo estud.

-1,575

3,403

-,018

1,054

25

-4,4160

7,6022

-8,9201E-02

2,4253

25

-1,634

4,832

,035

1,272

25

Dist. de Mahalanobis

,170

10,105

1,920

2,093

25

Distancia de Cook

,001

,699

,084

,187

25

Valor de influencia centrada

,007

,421

,080

,087

25

Residuo eliminado
Residuo eliminado estud.

a Variable dependiente: CO

Los errores tienen media 0 y desviacin tpica 1 (2 fila de la tabla), as que esta hiptesis si la
cumplen, ahora han de seguir una distribucin normal, esto lo comprobamos viendo el grfico
PP de distribucin normal que podemos obtener dentro del campo Grficos de la regresin
lineal (pulsando el icono
que tenemos en el men del output nos evitamos tener que repetir
todo el proceso de creacin de la regesin):

Vemos que la distribucin tambin se asemeja a una distribucin normal, esta hiptesis tambin
la cumple. Ahora hemos de comprobar que los residuos tengan igualdad de varianza (la hiptesis
de la homocedasticidad) y esto lo hacemos con el grfico de residuos estudentizados frente a
predicciones que tambin podemos obtener en el campo Grficos del modelo de regresin:

No hay heterocedasticidad ya que no se ve ninguna forma de abanico o embudo en el grfico, si


nos llaman la atencin dos valores separados que quiz sean influyentes en el modelo, tienen
unos residuos tipificados muy separados de el resto. Para ver si un caso es influyente contamos
con ciertas medidas que determinan si un valor es influyente. Si nos fijamos en la tabla de
estadsticos sobre los residuos tenemos dos filas referentes a la distancia de Cook y al valor de
influencia centrada:
Estadsticos sobre los residuos(a)
Distancia de Cook

,001

,699

,084

,187

25

Valor de influencia centrada

,007

,421

,080

,087

25

Estas medidas son capaces de determinar la influencia de un punto, hay una para cada
observacin y en la tabla tenemos mnimo, mximo, media y desviacin. En el caso de la
distancia de Cook el valor referencia es el 1 si se sobrepasa este valor estamos ante un caso
influyente, como el mximo es 0,69 ningn valor es influyente. Para el caso del valor de
influencia centrada (Leverages en ingls) el valor referencia est en funcin de las variables
regresoras y del tamao muestral:2*(var.regresoras+1)/nobservaciones, en nuestro caso es 0,24.
Para los leverages tenemos que en nuestro modelo influye alguna observacin. Para ver que
observaciones son las potencialmente influyentes en el cuadro de dilogo de la regresin nos
vamos al campo Guardar:

Seleccionamos: Valores corregidos pronosticados que son los resultantes de eliminar el caso isimo, Distancias de Cook, los residuos eliminados que son los conocidos como residuos press
que son los residuos obtenidos cuando eliminamos el caso i-simo y los DFBetas que miden
como cambia el estimador del parmetro cuando eliminamos el caso. Pinchamos en continuar y
en nuestro conjunto de datos parecen 6 nuevas variables con las que estudiamos los valores
influyentes. Una para los residuos coregidos, otra para los valores ajustados con el modelo,
distancia de Cook y tres columnas con los DFBetas para cada trmino del modelo (B0, B1, B2).
La distancia de Cook ya la estudiamos con anterioridad y vimos que ninguna observacin era
influyente para los DFBetas se considera una observacin influyente si en valor absoluto es
mayor que 2/la raiz cuadrada del nmero de observaciones. Para no alargar el ejemplo vamos a
estudiar slo los residuos press que SPSS nos ha guardado como dre_1, estudiemos sus
descriptivos:
Estadsticos descriptivos
N
Deleted Residual

24

N vlido (segn lista)

24

Mnimo
-4,73664

Mximo
7,56633

Media
-,1015308

Desv. tp.
2,5016649

Parece que pueda haber casos que nos afecten, en concreto el mximo supera tres veces la la
desviacin tpica respecto la media, debera ser un caso a tener en cuenta. Hemos de identificar
este caso en el conjunto de datos y es la primera observacin, esta observacin est
influenciando la estimacin de los parmetros y sera conveniente eliminarla.
Como podis ver aun nos quedara camino por recorrer hasta encontrar un modelo que de verdad
se adece del todo y aun as seguiramos encontrando otros caminos y posibilidades como la
regresin robusta que espero sea uno de los prximos ejemplos que trabaje. Os recomiendo que
sigais con el modelo hasta el final y que analicis otras medidas de potenciales y veis otros
grficos para que veis las posibilidades de este ejemplo que aunque parezca sencillo es bastante
til para tomar ocntacto con la modelizacin.

You might also like