You are on page 1of 24

TEMA V

ANLISIS DE REGRESIN LOGSTICA

LECTURA OBLIGATORIA
Regresin Logstica. En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 223-246.

Modelos Multivariantes

INTRODUCCIN
Predecir la probabilidad de que un evento ocurra
Gran utilidad en medicina y Ps. Clnica: identificar factores de riesgo y factores de proteccin, estimar cunto aumenta la probabilidad de sufrir una patologa si se dan una serie de caracterstica o condiciones, Logstica Binaria y Logstica Multinomial

Por qu recurrir a la RL?


Posibilidad de incorporar VI categricas

Modelos Multivariantes

EJEMPLOS
ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A PARTIR DE: Nivel de colesterol Edad Presin arterial Sexo Antecedentes familiares ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA ESQUIZOFRENIA, EN FUNCIN DE UNA SERIE DE VIs PREDECIR EL XITO O FRACASO DE UNA TERAPIA CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIN ELECTORAL, el absentismo laboral, el burnout, etc.
Modelos Multivariantes 4

FILOSOFA
Qu hace la RL?
A partir de las puntuaciones de los sujetos en diferentes VIs, se estiman probabilidades para poder hacer pronsticos. Se estima la probabilidad (P) de que la VD presente uno de los dos valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en funcin de cmo se comporta en determinadas VI. Si la probabilidad estimada es menor de 0.5 la prediccin ser No se rehabilita.
Modelos Multivariantes 5

TRMINOS QUE DEBES DOMINAR


Se compara la probabilidad de ocurrencia de un evento con la probabilidad de

que no ocurra. Al cociente entre ambos se le denomina ODD.

P (Y 1) 1 P (Y 1)

Se trata de identificar aquellas variables que implican cambios en ese ratio de probabilidad, aumentndolo o disminuyndolo de forma significativa. La ODD RATIO sera la razn o cociente entre dos ODDs. Permite comparar el pronstico realizado bajo dos situaciones o condiciones distintas (Ej: La proporcin de xito/fracaso escolar es 5 veces menor en familias desectructuradas que en familias estructuradas). Lo que la regresin logstica pretende es identificar aquellas VI que hacen variar esa ODD.
Modelos Multivariantes 6

TRMINOS QUE DEBES DOMINAR


Lo que se estima en la Regresin Logstica para cada sujeto no es un valor de Y, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra un evento, frente a la probabilidad de que no le ocurra. Se puede definir tambin como el Logaritmo de la ODD de cada sujeto, esto es:

P (Y 1) Ln 1 P (Y 1)
El LOGIT es, precisamente, la VD en la Regresin Logstica.
Modelos Multivariantes 7

EL MODELO
Dado que debemos llegar a un cociente de Probabilidades, el modelo debe asumir una expresin matemtica particular, concretamente logartmica:

Ln

P (Y 1 P (Y

1) 1)

1 X1

2X2

...

nXn

La regresin logstica utiliza una Funcin de Enlace Logartmica, para pasar de los valores cualesquiera en las VI a predicciones en trminos de un cociente probabilidades y, de ah a una Probabilidad (entre 0 y 1) y , finalmente a un pronstico concreto. El modelo de regresin logstica asume que existe una relacin lineal entre los predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no ocurrencia de dicho evento (LOGIT).
Modelos Multivariantes 8

SUPUESTOS
Menos exigente que el A.D. No es necesario que las VI
sean mtricas, normales, y ni siquiera cuantitativas. 1. El modelo debe estar especificado correctamente, con las VI relevantes 2. La relacin entre cada VI y el Logaritmo de las ODD debe ser lineal 3. Que no exista multicolinealidad

Modelos Multivariantes

ESTIMACIN DEL MODELO


Cmo se estima el modelo en la RL?
En la Regresin Lineal se haca siguiendo el criterio de Mnimos Cuadrados, mientras que en la RL se hace siguiendo el de Mxima Verosimilitud. Se generan Coeficientes Logsticos para las distintas VI. Dichos coeficientes de la ecuacin ( 1, 2, 3,...) se utilizan para hacer las estimaciones de probabilidad de que ocurra el evento objeto de estudio.

Al igual que en la Regresin Lineal disonemos del mtodo directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).

Modelos Multivariantes

10

EVALUACIN DEL AJUSTE


Un primer indicador es el valor de 2LL, que vendra a ser como la parte no explicada por el modelo. Excesivamente rudimentario: no est acotado. Cuanto ms prximo a cero mejor ser el ajuste. SPSS facilita tambin un contraste 2 para saber si la capacidad explicativa del modelo puede considerarse o no estadsticamente significativa. Tambin disponemos de un % de sujetos correctamente clasificados (debemos de ganarle al menos al azar: al menos 62.5%). Tambin tenemos dos R2:
R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea perfecto) R2 de Nagelkerke (versin corregida del anterior)
Modelos Multivariantes 11

INTERPRETACIN
Qu VI son buenos predictores?
En la Regresin Lineal se recurra a un contraste t para saber si cada uno de los predictores eran o no significativamente distintos de cero. En la RL se recurre al Estadstico de Wald. Un coeficiente positivo implica un aumento en la probabilidad de ocurrencia del evento y negativo una disminucin. Adems Un negativo se corresponde con un ODD RATIO menor de 1 (una desventaja). El SPSS le llama Exp(b) Justamente el valor de Exp(b) indica cunto mejor o peor es el pronstico en funcin de los valores que asume la VI. La VENTAJA o desventaja de una poseer una determinada caracterstica, condicin o factor. Nos permite identificar: FACTORES DE RIESGO y FACTORES DE PROTECCIN Modelos Multivariantes 12

PARALELISMOS CON LA RLM


Contrastes globales:
F Anova 2

Contrastes particulares
t Student Wald

Mtodo de estimacin
Mnimos cuadrados Mxima verosimilitud
Modelos Multivariantes 13

EJEMPLO
70 pacientes vctimas de accidentes de trfico y con dao cerebral (TCE) Se desea saber si variables como el Tipo de Lesin, la Atencin, el Apoyo Familiar, o laEdad del sujeto influyen en la rehabilitacin del paciente

VD dicotmica: REHABILITACIN
0 (NO SE REHABILITA) 1 (SE REHABILITA)

3 Variables explicativas cualitativas (dicotmicas)


APOYO:

0 (SIN APOYO FAMILIAR)


1 (CON APOYO FAMILIAR) LESIN: 0 (DIFUSA) 1 (FOCALIZADA)

ATENCIN
0 (NO INMEDIATA) 1 (INMEDIATA)

1 Variable explicativa cuantitativa: EDAD


Modelos Multivariantes 14

EJEMPLO
Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de una tabla de contingencia podemos calcular 4 probabilidades:
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no se rehabilite (ODD para la rehabilitacin) La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no se rehabilite, si es que se trata de una lesin focalizada (ODD para la rehabilitacin con lesin focalizada) La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no se rehabilite, si es que se trata de una lesin difusa (ODD para la rehabilitacin con lesin difusa) El cociente entre las dos ODD, la obtenida para una lesin focalizada y la obtenida para una lesin difusa (ODD RATIO).
Modelos Multivariantes 15

EJEMPLO
Tabla de contingencia REHABILITACAIN * LESIN LESIN DIFUSA REHABILIT ACAIN NO SE REHABILITA Recuento % de LESIN SE REHABILITA Recuento % de LESIN T otal Recuento % de LESIN 19 57,6% 14 42,4% 33 100,0% FOCALIZADA 8 21,6% 29 78,4% 37 100,0% T otal 27 38,6% 43 61,4% 70 100,0%

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no se rehabilite (ODD para la rehabilitacin). P/1-P 43/27=1.59, o lo que es lo mismo 43/70 27/70 Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados
Modelos Multivariantes 16

EJEMPLO
Tabla de contingencia REHABILITACAIN * LESIN LESIN DIFUSA REHABILIT ACAIN NO SE REHABILITA Recuento % de LESIN SE REHABILITA Recuento % de LESIN T otal Recuento % de LESIN 19 57,6% 14 42,4% 33 100,0% FOCALIZADA 8 21,6% 29 78,4% 37 100,0% T otal 27 38,6% 43 61,4% 70 100,0%

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no se rehabilite, si es que se trata de una lesin FOCALIZADA (ODD para la rehabilitacin con lesin focalizada) 29/8= 3.62 PRIMER DATO: como la ODD focalizada es mayor que la ODD global (ese nivel de la variable hace que aumente la probabilidad de rehabilitacin), se tratara de un FACTOR DE PROTECCIN
Modelos Multivariantes 17

EJEMPLO
Tabla de contingencia REHABILITACAIN * LESIN LESIN DIFUSA REHABILIT ACAIN NO SE REHABILITA Recuento % de LESIN SE REHABILITA Recuento % de LESIN T otal Recuento % de LESIN 19 57,6% 14 42,4% 33 100,0% FOCALIZADA 8 21,6% 29 78,4% 37 100,0% T otal 27 38,6% 43 61,4% 70 100,0%

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no se rehabilite, si es que se trata de una lesin difusa (ODD para la rehabilitacin con lesin DIFUSA) 14/19= 0.73 SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la variable hace que disminuya la probabilidad de rehabilitacin y, por tanto, se tratara de un FACTOR DE RIESGO
Modelos Multivariantes 18

EJEMPLO
El cociente entre las ODDs obtenidas con LESIN FOCALIZADA Vs. DIFUSA es 3.62/0.73=4.92; esto es, La ODD RATIO par la variable tipo de lesin sera 4.92. La proporcin de rehabilitados es CASI 5 VECES MAYOR en el caso de una lesin focalizada que de una difusa. Variables en la ecuacin
B Paso a 1 LESIN Constante 1,593 -,305 E.T . ,532 ,352 Wal d 8,952 ,752 gl 1 1 Sig. ,003 ,386 Exp(B) 4,920 ,737

a. Vari able(s) i ntroducida(s) en el paso 1: LESIN.

ODD RATIO

TERCER DATO: si para una determinada caracterstica la ODD RATIO>1, poseer dicha caracterstica supondra una ventaja de cara a la probabilidad de ocurrencia de un evento, en este caso rehabilitarse. Si fuese similar a 1, se tratara de una variable irrelevante en trminos de pronstico.
Modelos Multivariantes 19

Veamos el modelo completo


Variables en la ecuacin B Paso a 1 Paso b 2 EDAD Constante LESIN EDAD Constante -,152 4,697 1,770 -,154 3,950 E.T . ,040 1,130 ,665 ,041 1,177 Wal d 14,808 17,272 7,086 13,736 11,258 gl 1 1 1 1 1 Sig. ,000 ,000 ,008 ,000 ,001 Exp(B) ,859 109,623 5,872 ,858 51,915

a. Vari able(s) i ntroducida(s) en el paso 1: EDAD. b. Vari able(s) i ntroducida(s) en el paso 2: LESIN.

Modelos Multivariantes

20

Si sustituimos los parmetros


Variables en la ecuacin B Paso a 1 Paso b 2 EDAD Constante LESIN EDAD Constante -,152 4,697 1,770 -,154 3,950 E.T . ,040 1,130 ,665 ,041 1,177 Wal d 14,808 17,272 7,086 13,736 11,258 gl 1 1 1 1 1 Sig. ,000 ,000 ,008 ,000 ,001 Exp(B) ,859 109,623 5,872 ,858 51,915

a. Vari able(s) i ntroducida(s) en el paso 1: EDAD. b. Vari able(s) i ntroducida(s) en el paso 2: LESIN.

ln[ odd (Y

1)] 3.95 0.15( Edad ) 1.77 ( Lesin )

Para el Sujeto n 1 (de 19 aos y con lesin difusa) el logaritmo de la ODD de rehabilitarse sera:

ln[ odd (Y

1)] 3.95 0.15(19) 1.77 (0) 1.1


Modelos Multivariantes 21

INTERPRETACIN DEL LOGIT


Para pasar de un LOGIT (que es un logaritmo) a una razn de probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a la INVERSA DEL LOGARITMO, en este caso: Inv Log (1.1) =3 INTERPRETACIN: para un sujeto con estas caractersticas la probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse. Pero, cul es concretamente la probabilidad que tiene de rehabilitarse?. Habra que despejar la ecuacin:
P 3(1 P ) 3 3P

ODD

P 1 P

3
Modelos Multivariantes

3 4

0.75
22

Y si es una lesin FOCALIZADA?


Repitamos el clculo ahora para el caso de una lesin FOCALIZADA. El resto de las condiciones son iguales:

ln[ odd (Y

1)] 3.95 0.15(19) 1.77(1)


Inv Log (2.87) =17.6

2.87

INTERPRETACIN: En el caso de UNA LESIN FOCALIZADA por cada paciente no rehabilitado tendramos 17 rehabilitados. En el caso de LESIN DIFUSA por cada paciente no rehabilitado tenemos 3 rehabilitados. Los ingleses apostaran: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada 17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO
Modelos Multivariantes 23

INTERPRETACIN DEL EXP(B)


Si dividimos la ODD para focalizada entre la ODD para difusa, obtendremos la ventaja (o desventaja) de tener una lesin focalizada a la hora de hacer un pronstico de rehabilitacin. Veamos: ODD (focalizada) = 17.6 ODD (difusa) = 3

17.6 / 3= 5.87
que es exactamente el valor de EXP(B)
Variables en la ecuacin B Paso a 1 Paso b 2 EDAD Constante LESIN EDAD Constante -,152 4,697 1,770 -,154 3,950 E.T . ,040 1,130 ,665 ,041 1,177 Wal d 14,808 17,272 7,086 13,736 11,258 gl 1 1 1 1 1 Sig. ,000 ,000 ,008 ,000 ,001 Exp(B) ,859 109,623 5,872 ,858 51,915

a. Vari able(s) i ntroducida(s) en el paso 1: EDAD.

b. Vari able(s) i ntroducida(s) en el paso 2: LESIN.

Modelos Multivariantes

24

You might also like