You are on page 1of 9

Captulo XII

Regresin con Variables Ficticias


Conceptos y Definiciones
La regresin con variables ficticias (variables dummy) surge por la
necesidad

que

tiene

el

investigador

de

involucrar

variables

cualitativas (o de atributos, o de categoras) en un anlisis de


regresin sea este simple o mltiple.
En algunas ocasiones el investigador maneja variables como:

Estado civil (soltero, casado, viudo, divorciado)

Sexo o gnero (masculino, femenino)

Diagnstico

Grupo racial (blanco, negro, amarillo)

Ocupacin (sin y con trabajo)

Zona de residencia (urbano, rural, suburbano)

Tabaquismo (fumador cotidiano, exfumador, no fumador)

Peso (muy pesado, medio pesado, poco pesado)

Religin (catlico, testigo, musulman, evanglico)

Estatura (bajo, mediano, alto)

Presin sangunea (hipotenso, normotenso, hipertenso)

Desempeo (bajo, medio, alto)

Clima organizacional (favorable, desfavorable, aceptable)

En estos casos, el investigador se esfuerza por la inclusin de una


o ms de ellas porque sospecha un grado de contribucin importante
al reducir la suma de cuadrados del error y, por lo tanto, a

153
proporcionar estimaciones ms precisas (de menor error estndar) de
los parmetros de inters.
Las variables imaginarias (variables falsas o dummy) para poder
incorporarlas en un modelo de regresin deben ser codificadas
convenientemente. La regla es introducir tantas variables imaginarias
como categoras menos uno tenga la variable cualitativa, es decir, si
una variable cualitativa tiene K categoras se introducirn en el
modelo de regresin K-1 variables falsas.
Una variable falsa es una variable que slo toma un nmero finito
de valores (como cero y uno) para identificar las diferentes categoras
de una variable cualitativa.
Esta regla slo es aplicable a aquellos casos en los cuales la
ecuacin de regresin tiene una constante o intercepto.

Tcnicas de codificacin
Para el ejemplo de tabaquismo que se refiere al principio si las
categoras son: fumador, ex fumador (no ha fumado por 5 aos o
menos), ex fumador (no ha fumado por ms de 5 aos), no fuma.
Como existen 4 categoras tendrn que crearse 3 variables falsas as:
X1= (1: para fumador, 0 para otro caso)
X2= (1: para ex fumador <=5 aos; 0: para otro caso)
X3= (1: para ex fumador > 5 aos; 0: para otro caso)
En otros casos (Gujarati,1997) , la codificacin se puede establecer
as:
Sea por ejemplo, el estudio del precio por onza de cola en funcin
del tipo de almacn (descuento, cadena o de conveniencia), producto
de marca o sin marca, llenado del envase.

154
Para almacn crea una sola variable D1 (dummy 1) que se
codificar con 001 (si es un almacn de descuento), con 010 (si es
almacn de cadena) y con 001 (si es almacn de conveniencia).
Para producto de marca crea una sola variable D2 (dummy 2) que
codificar con 10 (si es un producto de marca) y como 01 (si es un
producto sin marca).
Para el llenado del envase codificar as:
D3= 0001 (botella de 2 litros o 67,6 onzas)
= 0010 (botella de un litro o 28-33,8 onzas)
= 0100 (botella de 16 onzas)
= 1000 (latas de 12 onzas)
El comentario acerca de esta codificacin plantea dos reflexiones
una es que ocasiona la misma magnitud de disminucin del error
estndar del estimador, lo cual es favorable, pero por otro lado los
resultados son ms difciles de interpretar. Con esta codificacin
tambin se tienen que crear menos variables y esto es una economa
en el anlisis. Si codificamos por la primera forma tendramos que
haber creado para el llenado del envase tres variables dummy porque
tiene 4 categoras.
El comentario final sera codificar con 1 (uno) la categora de
inters y como 0 (cero) la otras. Esto facilitar la interpretacin de los
resultados.
Modelos de Regresin con variables falsas
Con tres variables (ejemplo del precio botellas de cola)
P b0 b1D1 b2 D2 b3 D3

Donde:
P: Precio
D1= tipo de almacn
D2= marca del producto
D3= Llenado del envase
Con dos variables pero hay interaccin entre ellas:

155

Y b0 b1 X1 b2 X 2 b3 ( X 1* X 2)
Trmino de interaccin

Con trminos polinmicos


Y b0 b1 X1 b2 X 2 b3 X12 b4 X 22

Usos y aplicaciones de la Regresin con variables ficticias


(a)

Para evaluar el efecto de variables cualitativas


independientes

(b)

Para desestacionalizar series de tiempo

(c)

Para evaluar efectos de interaccin entre variables


independientes

(d)

En casos de control estadstico del error (ANCOVA) que son


modelos de regresin que contienen una mezcla de variables
cuantitativas y cualitativas. Pero previamente deben
probarse los supuestos de independencia entre la covariable
y el tratamiento, tambin la homogeneidad de las
pendientes y por ltimo, la relacin lineal entre la covariable
y la variable respuesta.

Ejemplo de aplicacin
Un grupo de investigadores en salud mental desea comparar tres
mtodos (A,B,C) para el tratamiento de la depresin grave. Tambin
se desea estudiar la relacin entre la edad y la eficacia del
tratamiento, as como la interaccin (si existe) entre edad y
tratamiento. Cada individuo de una muestra aleatoria simple de 36
pacientes, todos los cuales presentaban un diagnstico y grado de
depresin semejantes, recibi uno de los tres tratamientos.
resultados se muestran a continuacin.

Los

156

La variable dependiente representa la eficacia del tratamiento (Y),


la variable cuantitativa independiente X1 representa la edad del
paciente, y la variable independiente cualitativa se refiere al tipo de
tratamiento recibido que tiene tres niveles.
Se utiliza el siguiente cdigo de variables ficticias para cuantificar
la variable cualitativa:
Como ya tenemos una variable X1 que es la edad, se procede a
crear una variable X2 y X3 para codificar el tratamiento, as:
X2= (1 si es el tratamiento A, 0 en otro caso)
X3= (1 si es el tratamiento B, 0 en otro caso)
Los trminos de interaccin se generan con la opcin DATA seguido
de TRANSFORMATIONS escribiendo:
IF TRAT=A THEN X2=1 ELSE X2=0

(as creamos X2, recibir el

tratamiento A)
IF TRAT=B THEN X3=1 ELSE X3=0 (as creamos X3, recibir el
tratamiento B)
Usando las mismas opciones del Men, se crea la variable
X4=X1*X2 (que representa la interaccin recibir A con la edad) y la
interaccin X5 =X1*X3 (que representa la interaccin de la edad y
recibir el tratamiento B). El tratamiento C queda representado por el
intercepto.

157

Matriz de Datos
Una vez

creadas las variables se

procede

a alimentar

computadora con nuestros datos:


Medida de eficacia Y

Edad X1

56
55
63
52
58
65
64
61
69
73
62
70
41
40
46
48
45
58
55
57
62
47
64
60
28
25
71
62
50
46
34
59
36
71
62
71

21
28
33
33
38
43
48
53
53
58
63
67
23
30
33
42
43
43
45
48
58
29
66
67
19
23
67
56
45
37
27
47
29
59
51
63

Mtodo de
Tratamiento
A
B
B
C
A
C
B
C
B
A
A
C
C
B
A
C
B
C
A
B
B
C
A
A
B
C
A
B
A
B
B
A
C
C
A
C

a la

158

MATRIZ DE DATOS CODIFICADOS QUE GENER EL SOFTWARE TRAS


LA ALIMENTACIN DE LAS TRES VARIABLES
Y
X1
X2
X3
X1X2
X1X3
56
21
1
0
21
0
55
28
1
0
28
0
63
33
1
0
33
0
52
33
1
0
33
0
58
38
1
0
38
0
65
43
1
0
43
0
64
48
1
0
48
0
61
53
1
0
53
0
69
53
1
0
53
0
73
58
1
0
58
0
62
63
1
0
63
0
70
67
1
0
67
0
41
23
1
1
0
23
40
30
0
1
0
30
46
33
0
1
0
33
48
42
0
1
0
42
45
43
0
1
0
43
58
43
0
1
0
43
55
45
0
1
0
45
57
48
0
1
0
48
62
58
0
1
0
58
47
29
0
1
0
29
64
66
0
1
0
66
60
67
0
1
0
67
28
19
0
1
0
0
25
23
0
1
0
0
71
67
0
1
0
0
62
56
0
1
0
0
50
45
0
1
0
0
46
37
0
1
0
0
34
27
0
1
0
0
59
47
0
0
0
0
36
29
0
0
0
0
71
59
0
0
0
0
62
51
0
0
0
0
71
63
0
0
0
0
Al examinar la salida impresa de los resultados se obtiene mayor
informacin acerca de la naturaleza de las relaciones entre las
variables:
Statistix 8.0
Unweighted Least Squares Linear Regression of Y
Predictor

159
Variables
Constant
X1
X2
X3
X4
X5

Coefficient
24.0453
0.75214
15.3884
-7.62024
-0.25718
0.01722

R-Squared
Adjusted R-Squared
Source
Regression
Residual
Total

DF
5
30
35

Cases Included 36

Std Error
4.50528
0.08286
4.83035
3.02533
0.10507
0.05622

0.8430
0.8168
SS
4548.06
846.94
5395.00

T
5.34
9.08
3.19
-2.52
-2.45
0.31

P
0.0000
0.0000
0.0034
0.0173
0.0204
0.7615

Resid. Mean Square (MSE)


Standard Deviation
MS
909.611
28.231

F
32.22

VIF
1.8
6.9
2.9
7.2
2.0
28.2315
5.31333

P
0.0000

Missing Cases 0

Como se aprecia, la ecuacin por mnimos cuadrados es:

Y 24,04 0,75 X 1 15,4 X 2 7,62 X 3 0,26 X 4 0,02 X 5


Cuyo R-cuadrado es:

R2 0,84
Lo cual indica que el 84% de la variacin en la eficacia de los
tratamientos

se

explican

por

la

edad,

el

tratamiento

interacciones.
Las tres ecuaciones de regresin para los tres tratamientos son las
siguientes:
Para el Tratamiento A
Y (24,04 15,38) (0,75 0,257) X 1

Para el Tratamiento B
Y (24,04 7,62) (0,75 0,017) X 1

Para el Tratamiento C
Y 24,04 0,75 X 1

La conclusin es:
Todos Los efectos fueron significativos
La grfica del diagrama de dispersin de la eficacia versus la edad
muestra que las pendientes no son iguales:

sus

160

As mismo, la grfica de la eficacia versus edad para el


tratamiento B, revelan que las pendientes no son iguales:
E

Estas grficas justifican o avalan la existencia de una interacin


significativa (al entrecruzarse) entre el tratamiento y la edad.

You might also like