You are on page 1of 34

Mtodos de seleccin de variables

Regresin lineal mltiple


Lorena Paola Brun Gonzlez
Universidad de Antioquia
Mtodos Estadsticos I
Ingeniera Industrial
Semestre 2015-I

23 de marzo de 2015
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Mtodos de seleccin de variables


Eliminacin Backward
Seleccin Forward
Regresin Stepwise

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Mtodos de seleccin de variables


En muchas aplicaciones de anlisis de regresin, el conjunto
de variables a ser incluidas en el modelo de regresin no es
predeterminado.
Las preguntas frecuentes mientras se formula un modelo de regresin son:
Cules variables deben ser incluidas?
En que forma deben ser incluidas las variables?
Encontrar un apropiado subconjunto de variables regresoras para
el modelo es llamado el problema de seleccin de variables.
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Este problema involucra dos criterios opuestos:


Se desea que el modelo tenga tantas regresoras como sea
posible de tal manera que el sesgo del error sea pequeo y
pueda tenerse la fiabilidad de los valores ajustados.
Se desea que el modelo sea parsimonioso1 debido a los costos que se tienen al tratar de obtener informacin de muchas
variables y el monitoreo de ellas.
En la prctica se debe hacer un equilibrio entre los dos criterios
lo cual es llamado seleccin de la mejor ecuacin de regresin.
logo
1

Modelo con pocas variables explicativas.


Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Nota: Una vez se han determinado las variables que deben estar en el modelo, se debe realizar un anlisis de residuales para
identificar defectos en los datos tales como outliers. Se debe
determinar el efecto de las observaciones influyentes y luego
verificar los supuestos del modelo.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

No existe un nico procedimiento estadstico para la seleccin


de la mejor ecuacin de regresin. Existen varios mtodos y cada uno puede generar diferentes resultados. Algunos de estos
son:
Eliminacin Backward
Seleccin Forward
Regresin Stepwise

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Contenido

Mtodos de seleccin de variables


Eliminacin Backward
Seleccin Forward
Regresin Stepwise

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Eliminacin Backward
Este es el ms simple de todos los procedimientos de seleccin
de variable y se puede implementar fcilmente sin software especial. En situaciones donde hay una jerarqua compleja, eliminacin hacia atrs se puede ejecutar manualmente teniendo
en cuenta las variables que son elegibles para ser quitadas del
modelo.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Pasos para aplicar el procedimiento


1

Comience con todos los predictores en el modelo.

Retire el predictor de mayor p-valor superior al nivel de


significancia .

Vuelva a colocar el modelo y realice el paso 2.

Detngase cuando todos los p-valores sean menores que


.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Pasos para aplicar el procedimiento


1

Comience con todos los predictores en el modelo.

Retire el predictor de mayor p-valor superior al nivel de


significancia .

Vuelva a colocar el modelo y realice el paso 2.

Detngase cuando todos los p-valores sean menores que


.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Pasos para aplicar el procedimiento


1

Comience con todos los predictores en el modelo.

Retire el predictor de mayor p-valor superior al nivel de


significancia .

Vuelva a colocar el modelo y realice el paso 2.

Detngase cuando todos los p-valores sean menores que


.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Pasos para aplicar el procedimiento


1

Comience con todos los predictores en el modelo.

Retire el predictor de mayor p-valor superior al nivel de


significancia .

Vuelva a colocar el modelo y realice el paso 2.

Detngase cuando todos los p-valores sean menores que


.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Ejemplo 1
Hald (1952) presenta los datos del calor desarrollado en calorias por gramo de cemento (Y ) como una funcin de cada uno
de los cuatro ingredientes en la mezcla: tricalcium aluminate
(X1 ), tricalcium silicate (X2 ), tetracalcium alumino ferrate (X3 ), y
dicalcium silicate (X4 ). Los datos se muestran en la tabla

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13

Yi
78.5
74.3
104.3
87.6
95.9
109.2
102.7
72.5
93.1
115.9
83.8
113.3
109.4

Ingeniera Industrial

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Xi1
7
1
11
11
7
11
3
1
2
21
1
11
10

Xi2
26
29
56
31
52
55
71
31
54
47
40
66
68

Xi3
6
15
8
8
6
9
17
22
18
4
23
9
8

Regresin lineal mltiple

Xi4
60
52
20
47
33
22
6
44
22
26
34
12
12

logo

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

El MRLM para los datos es:


Yi = 0 + 1 Xi1 + 2 Xi2 + 3 Xi3 + 4 Xi4 + i ,
ajustndolo en R se obtienen los siguientes resultados:
g = lm(Y X 1 + X 2 + X 3 + X 4, data = datos)
summary(g)
Coefficients:
Estimate Std. Error t value p-valor
(Intercept) 62.4054
70.0710
0.891 0.3991
X1
1.5511
0.7448
2.083 0.0708
X2
0.5102
0.7238
0.705 0.5009
X3
0.1019
0.7547
0.135 0.8959
X4
-0.1441
0.7091
-0.203 0.8441
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Como la variable con mayor p-valor es tetracalcium alumino ferrate (X3 ) se saca del modelo y se ajusta el nuevo modelo sin
esa variable es:
g = update(g, . . X 3)
summary(g)
Coefficients:
Estimate Std. Error
(Intercept) 71.6483
14.1424
X1
1.4519
0.1170
X2
0.4161
0.1856
X4
-0.2365
0.1733

t value
5.066
12.410
2.242
-1.365

p-valor
0.000675
5.78e-07
0.051687
0.205395
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Como la variable con mayor p-valor en el paso anterior es dicalcium silicate (X4 ) se saca del modelo y se ajusta el nuevo
modelo sin esa variable es:
g = update(g, . . X 4)
summary(g)
Coefficients:
Estimate Std. Error
(Intercept) 52.57735 2.28617
X1
1.46831
0.12130
X2
0.66225
0.04585

t value
23.00
12.11
14.44

p-valor
5.46e-10
2.69e-07
5.03e-08

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Por tanto, el mejor MRLM seleccionado utilizando este mtodo


es:
Yi = 0 + 1 Xi1 + 2 Xi2 + i .

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Contenido

Mtodos de seleccin de variables


Eliminacin Backward
Seleccin Forward
Regresin Stepwise

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Seleccin Forward
Es el inverso del mtodo Backward.
1

Comience con ninguna variable en el modelo.

Ajuste un modelo con cada predictor y el intercepto. Elija


el que tiene el predictor con menor p-valor inferior al nivel
de significancia .

Ingrese al modelo el predictor que tiene p-valor inferior a .

Contine hasta que no se pueden aadir nuevos


predictores.
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Seleccin Forward
Es el inverso del mtodo Backward.
1

Comience con ninguna variable en el modelo.

Ajuste un modelo con cada predictor y el intercepto. Elija


el que tiene el predictor con menor p-valor inferior al nivel
de significancia .

Ingrese al modelo el predictor que tiene p-valor inferior a .

Contine hasta que no se pueden aadir nuevos


predictores.
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Seleccin Forward
Es el inverso del mtodo Backward.
1

Comience con ninguna variable en el modelo.

Ajuste un modelo con cada predictor y el intercepto. Elija


el que tiene el predictor con menor p-valor inferior al nivel
de significancia .

Ingrese al modelo el predictor que tiene p-valor inferior a .

Contine hasta que no se pueden aadir nuevos


predictores.
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Seleccin Forward
Es el inverso del mtodo Backward.
1

Comience con ninguna variable en el modelo.

Ajuste un modelo con cada predictor y el intercepto. Elija


el que tiene el predictor con menor p-valor inferior al nivel
de significancia .

Ingrese al modelo el predictor que tiene p-valor inferior a .

Contine hasta que no se pueden aadir nuevos


predictores.
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Ejemplo 2
Con los datos del ejemplo 1 se aplicar este mtodo.
Modelo inicial
Yi = 0 + i ,
se ajusta este modelo con cada predictor.
g1 = lm(Y X 1, data = datos)
summary(g1)
Coefficients:
Estimate Std. Error t value
(Intercept) 81.4793
4.9273
16.54
X1
1.8687
0.5264
3.55

p-valor
4.07e-09
0.00455
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

g2 = lm(Y X 2, data = datos)


summary(g2)
Coefficients:
Estimate Std. Error
(Intercept) 57.4237
8.4906
X2
0.7891
0.1684

t value
6.763
4.686

g3 = lm(Y X 3, data = datos)


summary(g3)
Coefficients:
Estimate Std. Error
(Intercept) 110.2027
7.9478
X3
-1.2558
0.5984

t value
13.866
-2.098

p-valor
3.1e-05
0.000665

p-valor
2.6e-08
0.0598
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

g4 = lm(Y X 4, data = datos)


summary(g4)
Coefficients:
Estimate Std. Error
(Intercept) 117.5679
5.2622
X4
-0.7382
0.1546

t value
22.342
-4.775

p-valor
1.62e-10
0.000576

En los resultados anteriores podemos observar que la variables


con menor p-valor es dicalcium silicate (X4 ), lo que implica que
esta es la primera variable en ingresar al modelo, es decir:
Yi = 0 + Xi4 + i .
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

La siguiente variable es tricalcium silicate (X2 ), donde el modelo


es:
Yi = 0 + Xi2 + Xi4 + i ,
g5 = lm(Y X 2 + X 4, data = datos)
summary(g5)
Coefficients:
Estimate Std. Error t value
(Intercept) 94.1601
56.6271
1.663
X2
0.3109
0.7486
0.415
X4
-0.4569
0.6960
-0.657

p-valor
0.127
0.687
0.526
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Teniendo en cuenta el resultado anterior, se puede decir que la


presencia de la variable X2 en el modelo afecta a la variable X4 ,
por tanto no se debe incluir.
La siguiente variables en ingresar al modelo es tricalcium aluminate (X1 ), puesto que tiene p-valor pequeo, el modelo es:
Yi = 0 + Xi1 + Xi4 + i ,
summary (lm(Y X 1 + X 4, data = datos))
Coefficients:
Estimate
Std. Error t value
(Intercept) 103.09738 2.12398
48.54
X1
1.43996
0.13842
10.40
X4
-0.61395
0.04864 -12.62
Ingeniera Industrial

Regresin lineal mltiple

p-valor
3.32e-13
1.11e-06
1.81e-07

logo

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Como no hay ms variables con p-valor inferior a , para el proceso y el modelo obtenido por este proceso es:
Yi = 0 + Xi1 + Xi4 + i .

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Contenido

Mtodos de seleccin de variables


Eliminacin Backward
Seleccin Forward
Regresin Stepwise

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Regresin Stepwise
Esta es una combinacin de los dos mtodos anteriores. Esto
se refiere a la situacin en la que se agregan o se quitan las variables al inicio del proceso y queremos cambiar nuestra opinin
acerca de ellos ms adelante.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Conclusin
Teniendo en cuenta la naturaleza de los datos es posible que
al aadir o mover variables, se pierda el modelo "ptimo".
La eliminacin de los predictores no significativos tiende a aumentar la importancia de los predictores restantes. Este efecto
lleva a exagerar la importancia de los predictores restantes.

logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Con cualquier mtodo de seleccin de variables, es importante tener en cuenta que el modelo seleccionado no puede
estar divorciada de la finalidad subyacente de la investigacin.
Sera incorrecto decir que las variables que salen no estn
relacionadas con la respuesta, es slo que no proporcionan
ningn efecto explicativo adicional ms all que el de esas variables ya incluidas en el modelo.
La seleccin de variables paso a paso tiende a recoger los
modelos que son ms pequeos de lo deseable para fines de
prediccin.
logo

Ingeniera Industrial

Regresin lineal mltiple

Mtodos de seleccin de variables

Eliminacin Backward
Seleccin Forward
Regresin Stepwise

Referencias
Linear Models whith R. Faraway Julian J, 2005.
Montgomery D.C. Design and Analysis of Experiment. Limusa
Wiley, 2001, 5 Edition.

logo

Ingeniera Industrial

Regresin lineal mltiple

You might also like