Ejemplo de Regresión Múltiple Con SPSS 8

Ejemplo de Regresin mltiple con SPSS 8.
0, el problema de la
multicolinealidad:
No ignoro que una de las pginas ms visitadas de mi web es precisamente en la que trato la
regresin lineal. La regresin lineal es una de las tcnicas estadsticas ms importantes para
relacionar variables. Una variable aleatoria depende o bien de otra/s variable/s o bien de las
condiciones concretas bajo las cuales se observa o se mide esa variable. Pues los modelos
lineales son modelos probabilsticos basados en fuciones lineales de variables, la regresin lineal
es referenciar una variable en funcin de otro conjunto de variables. Para estudiar un modelo
lineal es necesario:
1. Escribir el modelo matemtico con sus hiptesis.
2. Estimar los parmetros del modelo.
3. Hacer inferencias sobre los parmetros.
4. Comprobar que se cumplen las hiptesis del modelo.
No quiero entrar en aparato matemtico en este ejemplo, si quiero recomendaros
una bibliografa bsica por si estuvirais interesados, los conocimientos matemticos son
imprescindibles para conocer bien como trabaja la regresin es necesario siempre tenerlos en
cuenta.
En este ejemplo partimos de los datos recogidos por la Organizacin en Defensa del
Consumidor que realiz un estudio sobre el contenido de monxido de carbono emitido por el
humos de los cigarrillos comercializados. Se mide el contenido en alquitrn, el contenido en
nicotina y el peso de los mismos. Tenemos una muestra de 25 marcas de cigarrilos y
pretendemos ajustar un modelo lineal del modo
CO=B0+B1*ALQUITRAN+B2*NICOTINA+B2*PESO. Es decir un modelo de regresin
mltiple con tres variables independientes.
Lo primero que debemos hacer es introducir el conjunto de datos en SPSS (aqu tenis el
conjunto de datos en modo texto) tenemos 5 variables y sobre las 4 variables numricas vamos
a realizar nuestro modelo. Para hacer modelos lineales con SPSS 8 nos vamos al
men Estadstica-->Regresin-->lineal:
Como variable dependientes tenemos la emisin de CO de los cigarrilos y como variables

regresoras el nivel de alquitrn, de nicotina y el peso del cigarro. No slo quiero obtener el
modelo lineal, tambin es necesario saber si ese modelo cumple todas sus hiptesis sobre los
residuos y saber si las variables regresoras son linealmente independientes para hacer esto
seleccionamos el campo Estadsticos y aparte de las estimaciones seleccionamos los intervalos
de confianza los estadsticos de Durbin-Watson y los diagnsticos de colinealidad. De momento
no vamos a estudiar ningn grfico, si es importante sealar que el mtodo de seleccin de
variables va a ser forward, hacia adelante que es el que viene sealado por defecto en el
campo Mtodo, este mtodo introducir parte del modelo sin ninguna variable regresora (slo
con el trmino independiente) y va introduciendo las variables regresoras ms significativas
segn un criterio basado en las sumas de cuadrados con y sin la variable regresora. Este criterio
se puede cambiar en el campo Opciones, en nuestro caso el criterio de entrada lo he puesto a 0,1
y el de salida a 0,15; el de salida siempre ha de ser mayor que el de entrada aunque en nuestro
caso es irrelevante. Aceptamos y comenzamos nuestro estudio, en mi caso he exportado el
archivo OUTPUTcomo pgina web para poderlo pegar de forma ms correcta en este
documento:
Variables introducidas/eliminadas(b)
Modelo
1
Variables introducidas
Variables eliminadas
PESO, ALQUITRA, NICOTINA(a)
Mtodo
, Introducir
a Todas las variables solicitadas introducidas

b Variable dependiente: CO
Todas las variables han sido seleccionadas para el modelo.

Resumen del modelo(b)
Modelo
1
R
,936(a)
R cuadrado R cuadrado corregida Error tp. de la estimacin Durbin-Watson

,876
,857
a Variables predictoras: (Constante), PESO, ALQUITRA, NICOTINA
1,8311
2,149
El modelo es bastante bueno, tenemos un coeficiente de determinacin r cuadrado muy prximo

a 1 que es el mejor de los casos y la dispersin es 1,83 que es bastante baja, adems los residuos
no estn autocorrelados como indica el estadstico de Durbin-Watson ya que en valores
prximos a 2 son los ms ptimos.
ANOVA(b)
Modelo
1
Suma de cuadrados
gl
Media cuadrtica
Regresin
472,086
157,362
Residual
67,059
20
3,353
539,145
23
Total
Sig.
46,933
,000(a)
a Variables predictoras: (Constante), PESO, ALQUITRA, NICOTINA

Esta es la tabla del anlisis de la varianza, se rechaza el contraste de regresin ya que la

diferencia entre el modelo reducido (slo con el trmino independiente) y el modelo con las 3
variables regresoras es significativa.
Coeficientes(a)
Coeficientes
Coeficientes
no
estandarizado
estandarizado
s
s
Modelo
(Constante)
ALQUITR
1 A
NICOTINA
PESO
Error
tp.
1,130
4,403
,184
,201
9,534
,985
Intervalo de
confianza
para B al
95%
Sig.
Estadsticos de
colinealidad
Lmite
inferior
Beta
,257 ,800
,228
8,054
10,31
Toleranci
4
a
Lmite
superio
r
FIV
,919 ,369 -,234
,603
,101
9,941
3,409
,707 2,797 ,011 2,423
16,64
5
,097
10,286
4,954
,018
11,318
9,348
,760
1,315
,199 ,844
a Variable dependiente: CO
En esta tabla ya tenemos el modelo:

CO=1,13+0,184*ALQUITRAN+9,534*NICOTINA+0,985*PESO. Lo primero que llama la
atencin es el alto valor que tiene el el parmetro estimado para la NICOTINA, adems se
acepta para un nivel de significacin de un 5% que el parmetro asociado a la NICOTINA (B1)
es igual a 0, el intervalo de confianza para la estimacin es muy amplio (16,645-2,423=14,222)
y por si fuera poco tenemos unos errrores, unas dispersiones, tambin muy "grandes". Se
detecta multicolinealidad, es decir, hay dependencia lineal entre las variables regresoras.
Estamos aadiendo informacin con una variable regesora que est linealmente relacionada con
otra o bien con ambas a la vez. La variable NICOTINA depende linealmente de ALQUITRAN o
del PESO o de ambas a la vez. Esto no slo se detecta con las estimaciones de los parmetros,
contamos con la ayuda de dos medidas: la tolerancia y el VIF (Variance inflation factory, FIV en
espaol). La tolerancia es 1/VIF (1/9,941=0,101) y el VIF es la comparacin de las relaciones
lineales entre las variables regresoras. Veamos la matriz de correlaciones (Estadistica->Correlaciones-->Bivariadas: Variables: ALQUITRAN,NICOTINA,PESO):
Correlaciones
ALQUITRA
Correlacin de Pearson
ALQUITRA
,945(**)
,462(*)
,000
,023
25
25
24
,945(**)
1,000
,490(*)
,000
,015
25
25
24
,462(*)
,490(*)
1,000
,023
,015
24
24
24
N
NICOTINA
Sig. (bilateral)
N
PESO
PESO
1,000
Sig. (bilateral)
NICOTINA
Sig. (bilateral)
N
** La correlacin es significativa al nivel 0,01 (bilateral).

* La correlacin es significante al nivel 0,05 (bilateral).
Vemos que la correlacin entre las variables NICOTINA y ALQUITRAN son significativas a un
nivel bajo y que la correlacin entre el PESO y las otras dos tambin se puede considerar alta,
ah puede estar nuestro problema. Para calcular el VIF tenemos que hacer los modelos de
regresin de cada variable independiente frente a las dems variables independientes, es decir:
1. ALQUITRAN=B0+B1*NICOTINA+B2*PESO
2. NICOTINA=B0+B1*ALQUITRAN+B2*PESO
3. PESO=B0+B1*ALQUITRAN+B2*NICOTINA
Siendo el VIF=1/(1-R(i,resto)) donde R es el coeficiente de determinacin al cuadrado de la
variable i-sima del modelo frente al resto de variables regresoras.
Una vez calculados estos modelos nos fijamos en su coeficiente de correlacin mltiple:
1. ALQUITRAN=B0+B1*NICOTINA+B2*PESO
Resumen del modelo
Modelo
1
R
,948(a)
R cuadrado
R cuadrado corregida
,899
a Variables predictoras: (Constante), PESO, NICOTINA
,890
Error tp. de la estimacin

1,9913
VIF del ALQUITRAN=1/(1-0,899)=9.901; tolerancia=0,1
2. NICOTINA=B0+B1*ALQUITRAN+B2*PESO
Resumen del modelo
Modelo
R cuadrado
,950(a)
,903
,894
,1172
a Variables predictoras: (Constante), PESO, ALQUITRA
VIF NICOTINA=1/(1-0.903)=10,31;tolerancia=0,097
3. PESO=B0+B1*ALQUITRAN+B2*NICOTINA
Resumen del modelo
Modelo
R cuadrado
,490(a)
,240
,167
8,066E-02
a Variables predictoras: (Constante), NICOTINA, ALQUITRA
VIF PESO=1/(1-0,240)=1,35; tolerancia=0,76

La varianza inflada se considera alta cuando supera el 10 que es el valor referencia, para la
toreancia ser por tanto 0,1 el valor referencia. En nuestro caso la variable NICOTINA es la que
presenta un mayor VIF, est distorsionando el modelo, provoca estaimadores Bi grandes (puede
incluso cambiarlos de signo) y hace que se "infle" la varianza. Hemos de eliminar esta variable
del modelo. Para ver como afecta esto a nuestro modelo tenemos la tabla Diagnsticos de
colinealidad:
Diagnsticos de colinealidad(a)
Modelo Dimensin
Autovalor
Indice de
condicin
Proporciones de la varianza
Constante
ALQUITRA NICOTINA PESO
3,828
1,000
,00
,00
,00
,00
,161
4,882
,01
,04
,01
,01
8,362E-03
21,395
,01
,95
,96
,00
3,320E-03
33,953
,97
,00
,02
,99
Si vemos el modelo de dimensin 3 tanto la variable NICOTINA como ALQUITRAN aportan la

misma proporcin de varianza, una de las dos es superflua, en este caso nos quedamos con la
variable ALQUITRAN porque para dos dimensiones explica ms cantidad de varianza. Con
todo esto slo nos queda plantear el nuevo modelo con dos variables regresoras
(CO=B0+B1*ALQUITRAN+B2*PESO) y analizarlo, el nuevo modelo es:
Resumen del modelo(b)

Modelo
1
R cuadrado
,908(a)
,825
,809
Durbin-Watson
2,0699
1,932

El nuevo modelo tambin tiene un buen coeficiente de determinacin y sus residuos no tienen
autoceorrelacin.
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
(Constante)
Error tp.
Estadsticos de colinealidad
t
Sig.
Beta
Tolerancia
FIV
1,365
4,817
,283 ,780
,712
,081
,883 8,816 ,000
,793
1,262
2,829
5,308
,053
,793
1,262
1 ALQUITRA
PESO
Coeficientes
estandarizados
,533 ,599
CO=0,771+0,081*ALQUITRAN+5,308*PESO; La tabla del anlisis de la varianza es:

ANOVA(b)
Modelo
1
Suma de cuadrados
gl
Media cuadrtica
Regresin
444,890
222,445
Residual
94,261
22
4,285
539,150
24
Total
F
51,917
Sig.
,000(a)

Vemos que se ha corregido el problema de la multicolinealidad, ahora tenemos que ver que
sucede con los residuos, para ello comencemos con los descriptivos que nos ofrece SPSS en la
salida:
Estadsticos sobre los residuos(a)
Mnimo
Mximo
Media
Desviacin tp.
Valor pronosticado
4,2978
25,8800
12,5280
4,3055
25
Valor pronosticado tip.
-1,912
3,101
,000
1,000
25
,4492
1,4055
,6864
,2117
25
5,2983
27,9160
12,6172
4,5204
25
-2,7978
6,5284
1,883E-15
1,9818
25
Error tpico del valor pronosticado

Valor pronosticado corregido
Residual
Residuo tip.
-1,352
3,154
,000
,957
25
Residuo estud.
-1,575
3,403
-,018
1,054
25
-4,4160
7,6022
-8,9201E-02
2,4253
25
-1,634
4,832
,035
1,272
25
Dist. de Mahalanobis
,170
10,105
1,920
2,093
25
Distancia de Cook
,001
,699
,084
,187
25
Valor de influencia centrada
,007
,421
,080
,087
25
Residuo eliminado
Residuo eliminado estud.
Los errores tienen media 0 y desviacin tpica 1 (2 fila de la tabla), as que esta hiptesis si la
cumplen, ahora han de seguir una distribucin normal, esto lo comprobamos viendo el grfico
PP de distribucin normal que podemos obtener dentro del campo Grficos de la regresin
lineal (pulsando el icono
que tenemos en el men del output nos evitamos tener que repetir
todo el proceso de creacin de la regesin):
Vemos que la distribucin tambin se asemeja a una distribucin normal, esta hiptesis tambin
la cumple. Ahora hemos de comprobar que los residuos tengan igualdad de varianza (la hiptesis
de la homocedasticidad) y esto lo hacemos con el grfico de residuos estudentizados frente a
predicciones que tambin podemos obtener en el campo Grficos del modelo de regresin:
No hay heterocedasticidad ya que no se ve ninguna forma de abanico o embudo en el grfico, si

nos llaman la atencin dos valores separados que quiz sean influyentes en el modelo, tienen
unos residuos tipificados muy separados de el resto. Para ver si un caso es influyente contamos
con ciertas medidas que determinan si un valor es influyente. Si nos fijamos en la tabla de
estadsticos sobre los residuos tenemos dos filas referentes a la distancia de Cook y al valor de
influencia centrada:
Estadsticos sobre los residuos(a)
Distancia de Cook
,001
,699
,084
,187
25
Valor de influencia centrada
,007
,421
,080
,087
25
Estas medidas son capaces de determinar la influencia de un punto, hay una para cada
observacin y en la tabla tenemos mnimo, mximo, media y desviacin. En el caso de la
distancia de Cook el valor referencia es el 1 si se sobrepasa este valor estamos ante un caso
influyente, como el mximo es 0,69 ningn valor es influyente. Para el caso del valor de
influencia centrada (Leverages en ingls) el valor referencia est en funcin de las variables
regresoras y del tamao muestral:2*(var.regresoras+1)/nobservaciones, en nuestro caso es 0,24.
Para los leverages tenemos que en nuestro modelo influye alguna observacin. Para ver que
observaciones son las potencialmente influyentes en el cuadro de dilogo de la regresin nos
vamos al campo Guardar:
Seleccionamos: Valores corregidos pronosticados que son los resultantes de eliminar el caso isimo, Distancias de Cook, los residuos eliminados que son los conocidos como residuos press
que son los residuos obtenidos cuando eliminamos el caso i-simo y los DFBetas que miden
como cambia el estimador del parmetro cuando eliminamos el caso. Pinchamos en continuar y
en nuestro conjunto de datos parecen 6 nuevas variables con las que estudiamos los valores
influyentes. Una para los residuos coregidos, otra para los valores ajustados con el modelo,
distancia de Cook y tres columnas con los DFBetas para cada trmino del modelo (B0, B1, B2).
La distancia de Cook ya la estudiamos con anterioridad y vimos que ninguna observacin era
influyente para los DFBetas se considera una observacin influyente si en valor absoluto es
mayor que 2/la raiz cuadrada del nmero de observaciones. Para no alargar el ejemplo vamos a
estudiar slo los residuos press que SPSS nos ha guardado como dre_1, estudiemos sus
descriptivos:
Estadsticos descriptivos
N
Deleted Residual
24
N vlido (segn lista)
24
Mnimo
-4,73664
Mximo
7,56633
Media
-,1015308
Desv. tp.
2,5016649
Parece que pueda haber casos que nos afecten, en concreto el mximo supera tres veces la la
desviacin tpica respecto la media, debera ser un caso a tener en cuenta. Hemos de identificar
este caso en el conjunto de datos y es la primera observacin, esta observacin est
influenciando la estimacin de los parmetros y sera conveniente eliminarla.
Como podis ver aun nos quedara camino por recorrer hasta encontrar un modelo que de verdad
se adece del todo y aun as seguiramos encontrando otros caminos y posibilidades como la
regresin robusta que espero sea uno de los prximos ejemplos que trabaje. Os recomiendo que
sigais con el modelo hasta el final y que analicis otras medidas de potenciales y veis otros
grficos para que veis las posibilidades de este ejemplo que aunque parezca sencillo es bastante
til para tomar ocntacto con la modelizacin.

Ejemplo de Regresión Múltiple Con SPSS 8

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ejemplo de Regresión Múltiple Con SPSS 8

Uploaded by

Copyright:

Available Formats

Ejemplo de Regresin mltiple con SPSS 8.

Como variable dependientes tenemos la emisin de CO de los cigarrilos y como variables

PESO, ALQUITRA, NICOTINA(a)

a Todas las variables solicitadas introducidas

Todas las variables han sido seleccionadas para el modelo.

R cuadrado R cuadrado corregida Error tp. de la estimacin Durbin-Watson

a Variables predictoras: (Constante), PESO, ALQUITRA, NICOTINA

El modelo es bastante bueno, tenemos un coeficiente de determinacin r cuadrado muy prximo

a Variables predictoras: (Constante), PESO, ALQUITRA, NICOTINA

Esta es la tabla del anlisis de la varianza, se rechaza el contraste de regresin ya que la

,919 ,369 -,234

,707 2,797 ,011 2,423

En esta tabla ya tenemos el modelo:

** La correlacin es significativa al nivel 0,01 (bilateral).

a Variables predictoras: (Constante), PESO, NICOTINA

Error tp. de la estimacin

VIF del ALQUITRAN=1/(1-0,899)=9.901; tolerancia=0,1

Error tp. de la estimacin

a Variables predictoras: (Constante), PESO, ALQUITRA

Error tp. de la estimacin

a Variables predictoras: (Constante), NICOTINA, ALQUITRA

VIF PESO=1/(1-0,240)=1,35; tolerancia=0,76

ALQUITRA NICOTINA PESO

Si vemos el modelo de dimensin 3 tanto la variable NICOTINA como ALQUITRAN aportan la

Resumen del modelo(b)

Error tp. de la estimacin

a Variables predictoras: (Constante), PESO, ALQUITRA

,883 8,816 ,000

CO=0,771+0,081*ALQUITRAN+5,308*PESO; La tabla del anlisis de la varianza es:

a Variables predictoras: (Constante), PESO, ALQUITRA

Valor pronosticado tip.

Error tpico del valor pronosticado

Valor de influencia centrada

No hay heterocedasticidad ya que no se ve ninguna forma de abanico o embudo en el grfico, si

Valor de influencia centrada

N vlido (segn lista)

You might also like

CO=0,771+0,081ALQUITRAN+5,308PESO; La tabla del anlisis de la varianza es: