You are on page 1of 9

DOCUWEB FABIS Dot.

Nm 0702011

Confusin e interaccin (2): su abordaje en el anlisis multivariante.


Aguayo Canela M, Lora Monge E Servicio de Medicina Interna. Hospital Universitario Virgen Macarena. Sevilla

Cuando no se sabe a que puerto nos dirigimos, dirigimos, cualquier viento nos parecer desfavorable
(aforismo de Sneca)

creer er que el primer viento que sopla le llevar a su destino Y el navegante necio cre
(comentario del del Autor Autor) utor)

Resumen
En el documento anterior de esta serie sobre confusin e interaccin8 se hizo una aproximacin a la deteccin de confusin o de modificacin de efecto (interaccin) a travs del anlisis estratificado. Ahora profundizaremos un poco ms en estos conceptos y veremos como abordarlos en el anlisis de regresin multivariante.

0. Introduccin terica y conceptos bsicos.


El anlisis multivariante se ha convertido en una importante herramienta estadstica y de modelado matemtico en los estudios de investigacin en ciencias de la salud, ya que permiten evaluar el papel de dos o ms variables simultneamente sobre uno o varios efectos o desenlaces, siendo una aproximacin ms realista que el anlisis bivariante a la complicada maraa de relaciones entre variables aleatorias que suele subyacer en los acontecimientos de la naturaleza. Sin embargo esta potencialidad es a la vez uno de sus peores enemigos,1 ya que un uso indiscriminado de estas pruebas multivariantes -y no bien dirigido por hiptesis previas correctamente establecidas en el protocolo de investigacin- puede llevar a encontrar asociaciones espreas cuando no realmente absurdas, o en otras ocasiones a no detectar relaciones o acciones de gran inters para comprender el problema de investigacin. Por todo ello, antes de entrar en el tema conviene hacer una revisin de los diferentes papeles que juegan las distintas variables en un estudio clnico-epidemiolgico, y que idealmente si se conocen- deberan estar correctamente situadas en el marco terico del proyecto de investigacin y en el aparatado del diseo adecuadamente identificadas en su papel y en sus posibles relaciones, y bien operativizadas para poder ser medidas con validez y precisin.
La accesibilidad a estos anlisis multivariantes por la actual generalizacin de los ordenadores personales y el uso de programas estadsticos muy potentes (y algunos gratuitos), hace peligroso su empleo indiscriminado por investigadores inexpertos, que creen que slo se trata de introducir cuantas ms variables mejor y dejar a las matemticas que escudrien los datos y busquen asociaciones estadsticamente significativas. Correspondencia: marianoaguayo@telefonica.net
1

1 de 9

Aguayo Canela, Mariano

DocuWeb fabis.org

As, en un problema de investigacin clnica, aunque normalmente se evala un binomio principal, en general una causa y un efecto, caben distinguir los siguientes tipos de variables y sus relaciones, resumidas en la figura 1: VARIABLE DEPENDIENTE: es la variable respuesta, resultado, desenlace o efecto (outcome en ingls), la que se desea comprender o predecir. VARIABLE INDEPENDIENTE o FACTOR EN ESTUDIO: es la principal variable que los investigadores intentarn relacionar con la respuesta o variable dependiente, evaluando su influencia o relacin causal. VARIABLES CONFUNDENTES o FACTOR DE CONFUSIN: Es una variable externa a la relacin principal que se evala y anterior en el tiempo al posible factor de estudio, aunque de alguna manera relacionada tanto con l como con la variable dependiente, de forma que su presencia distorsiona la medida de asociacin entre la variable dependiente y la variable independiente2 (se dice que sesga o confunde la estimacin de dicha medida, ya sea una OR o un RR), y a. puede observarse un efecto donde en realidad no existe (relacin esprea) b. puede hallarse una exageracin de una asociacin real (confusin positiva) c. puede encontrarse una atenuacin de una asociacin real (confusin negativa) d. excepcionalmente puede incluso alterar el sentido de la asociacin real, invirtindolo (efecto paradjico) VARIABLES MODIFICADORAS DE EFECTO o de INTERACCIN: Es una variable que interacta con la variable independiente modificando su efecto sobre la variable dependiente. A veces aumenta el efecto del factor de estudio, hablndose de efecto sinrgico. Otras veces reduce, elimina o incluso invierte el efecto del factor en estudio, y se habla de antagonismo, efecto supresivo o efecto antagnico. VARIABLES NO CONTROLADAS: As se conoce de forma genrica a cualquier variable que tiene efecto o asociacin con la variable dependiente pero que no est relacionada con el factor en estudio o variable independiente. Se tratan de otros factores que explican parte del efecto evaluado, por lo que su no inclusin en el estudio conlleva a interpretaciones incompletas del fenmeno estudiado y a modelos con menor capacidad predictiva. VARIABLES INTERMEDIARIAS: Se trata de cualquier variable que se site, dentro de la cadena causal, entre la variable dependiente y el factor de estudio. Pueden asociarse estadsticamente a las variables principales del estudio y conducir a diferentes estimaciones de la relacin principal que se evala si se tienen en cuenta o no en el anlisis (ajuste), comportndose de forma muy similar a los factores de confusin, con los que se diferencian nicamente en que las variables intermediaras s forman parte de la cadena etiolgica. VARIABLES POSTERIORES: Se tratara de variables cuya actuacin en la cadena causal es posterior al efecto o desenlace (variable dependiente), incluso pudiera ser consecuencia de ste.

Sus caractersticas quedaron establecidas en la primera parte de este documento: debe ser un factor de riesgo para el efecto que se evala, debe estar relacionada con la variable independiente y debe excluirse que se trate de un eslabn intermedio en la cadena causal.

DocuWeb fabis.org

2 de 9

Confusin e interaccin (2): su abordaje en el anlisis multivariante.

fabis.org, 2007

VARIABLE MODIFICADORA DE EFECTO

VARIABLE NO CONTROLADA

VARIABLE INDEPENDIENTE
(Factor en estudio, criterio, exposicin, causa)

VARIABLE DEPENDIENTE
(Resultado, outcome, efecto)

Variable Intermediaria

VARIABLE CONFUNDENTE
(Factor de confusin, efectos mezclados)

VARIABLE POSTERIOR

Figura 1. Se muestran los principales tipos de variables que pueden existir en un diseo de investigacin (en
recuadros) y sus relaciones (con flechas, siendo las marcadas en azul las que tienen sentido etiolgico o causal y las rojas las que tienen sentido de asociacin estadstica). La relacin fundamental que se evala es la que se sita sobre el recuadro amarillo, esto es, la asociacin (causal o no) entre la variable dependiente y el factor en estudio o variable independiente principal, constituyendo el objetivo en s del estudio analtico. Sin embargo su estimacin puede verse influida, en diferentes formas, por terceras variables.

Cualquier estudio analtico bien diseado debera evaluar la relacin entre la variable independiente y la variable dependiente (objetivo principal) para obtener una estimacin no sesgada y precisa de la medida de asociacin (una OR o un RR) entre ambas. Como ya sabemos, los sesgos nacen de diseos y mediciones incorrectas, y de la presencia de factores de confusin no controlados. Para conseguir esto ltimo -el control de los factores confundentes- hay cinco estrategias fundamentales, tres en la fase del diseo y dos en la fase del anlisis: 1. Emparejamiento o matching: consiste en seleccionar individuos emparejados por el factor presumiblemente confundente. Es una estrategia empleada en los estudios caso-control. 2. Restriccin: consiste en restringir el estudio al grupo de individuos en los que no est presente el factor presumiblemente confundente, an a expensas de perder informacin y capacidad de generalizacin de resultados. 3. Asignacin aleatoria: es el procedimiento ms perfecto para controlar la confusin, no slo para factores conocidos sino tambin para factores desconocidos o no medidos.

DocuWeb fabis.org

3 de 9

Aguayo Canela, Mariano

DocuWeb fabis.org

La distribucin de los individuos a los grupos de comparacin por mecanismos exclusivamente aleatorios (la randomizacin tpica de los ensayos clnicos aleatorizados) har que, en muestras grandes, se balanceen por igual diferentes factores, de manera que pierdan su capacidad de alterar o mezclar los efectos medidos. Su limitacin es que slo es aplicable a estudios experimentales en los que el investigador manipula o decide la exposicin (variable dependiente), y no tiene aplicacin en los estudios analticos. 4. Anlisis estratificado: es un procedimiento -en la fase de anlisis- que permite obtener medidas de asociacin entre las variables principales del estudio en los diferentes estratos establecidos por terceras variables presumiblemente confundentes. (Ha sido objeto de revisin en el documento anterior) 5. Anlisis multivariantes: Los modelos de regresin mltiple (lineal, logstica, de Cox) son excelentes herramientas para controlar el efecto de terceras variables, ya que permiten como su nombre indica- evaluar simultneamente las relaciones entre ms de dos variables. Las dos ltimas son estrategias de control de la confusin empleadas en la fase de anlisis de los datos. Requieren por tanto, que los factores o variables que deseen controlarse se hayan tenido en cuenta en el diseo del estudio y se hayan recogido de forma vlida y precisa en los individuos estudiados. Slo as ser posible ajustar por dichas variables en los anlisis estadsticos. Ajustar y controlar son trminos sinnimos en este sentido y pueden usarse alternativamente. De hecho, ajustar por una tercera variable implica controlar o reducir su variabilidad, por ejemplo dejndola fija o constante. Sin embargo, controlar la relacin principal por una tercera variable tiene implicaciones, al disminuir la variabilidad de las otras dos variables (exposicin y respuesta). El descenso en la variabilidad de la respuesta (v. dependiente) implica una menor incertidumbre en el devenir de los acontecimientos y, con el mismo nmero de individuos, un estudio ms preciso y ms informativo; por el contrario, al disminuir la variabilidad en la exposicin o intervencin (v. independiente) se puede perder eficiencia estadstica. Ajustar por una tercera variable tiene por tanto pros y contras, que el investigador debe valorar: con ello conseguir establecer mejor (sin sesgo) el efecto de una determinada exposicin o intervencin, independientemente de los efectos de otras variables, pero quizs a expensas de incrementar el error aleatorio o incluso de alejarse del autntico objetivo del estudio, haciendo irreal su aplicacin. En general, las tcnicas de ajuste estadstico permitirn controlar el efecto de terceras variables que puedan influir en la relacin entre la exposicin (variable independiente) y la respuesta (variable dependiente). Por supuesto esto requiere el conocimiento previo de que dichas variables pueden afectar a la relacin evaluada (lo que enfatiza la adecuada revisin terica y bibliogrfica previa al diseo de cualquier investigacin), y su recogida y registro en el estudio. Por ello, antes de llevar a cabo cualquier anlisis estadstico multivariante con las variables incluidas en el estudio, los investigadores deberan bajo la ptica del conocimiento previo del problema- intentar clasificar las variables y establecer una estrategia de anlisis, tal y como se propone en el cuadro siguiente:

DocuWeb fabis.org

4 de 9

Confusin e interaccin (2): su abordaje en el anlisis multivariante.

fabis.org, 2007

TIPO DE VARIABLE

Estrategia en el anlisis INCLUIR SIEMPRE

Comentario / Observacin Es el efecto o resultado, la variable que intenta modelizarse, exlicarse, predecirse Se incluir siempre en el modelo de regresin. Es la exposicin o causa, la variable principal elegida como predictora, factor de riesgo, factor causal Se incluir siempre en el modelo de regresin, y si no se detecta asociacin con la v. dependiente se explorar la relacin incluyendo otras variables posiblemente explicativas, confundentes o modificadoras de efecto, que pudiesen estar sesgando o alterando la verdadera asociacin entre ellas. Son variables asociadas a la exposicin y a la vez predictoras del efecto o resultado, y pueden alterar la relacin principal evaluada. Su inclusin en el modelo multivariante har que se modifique la medida de asociacin entre la v. independiente y la v. dependiente, representada por el coeficiente de regresin (b) y su error estndar (ee). El investigador decidir si este cambio mejora el modelo de regresin y, por tanto, debe mantenerse dicha variable confundente para reducir o controlar un posible sesgo. Son variables que interactan con la v. independiente modificando su accin sobre la v. dependiente, por lo que deben ser tenidas en cuenta ya que son explicativas de la relacin principal evaluada, aportando informacin adicional importante sobre cmo es dicha relacin. En los modelos multivariantes suelen incluirse si sus coeficientes de regresin son estadsticamente significativos. Actan de forma parecida a los factores de confusin pero forman parte de la cadena causal, por lo que en parte son efecto del factor de estudio o v. independiente (y en este sentido no modificables externamente), y por ello su inclusin en el anlisis puede ser innecesaria y aumentar el error aleatorio. Incluirlas en el modelo puede producir un sesgo por sobreajuste.

Dependiente

Independiente

INCLUIR SIEMPRE

Confundente

PROBAR ANTES

Modificadora de efecto (V. de interaccin)

PROBAR ANTES

Intermedia Posterior

NO INCLUIR

NO INCLUIR

1. Como operar en el anlisis multivariante.


Los modelos de regresin multivariante constituyen actualmente una poderosa herreamienta como tcnica de control, de forma que se emplean extensamente para evaluar o medir el efecto de una determinada exposicin (X) sobre una respuesta (Y) en presencia de terceras variables (X1, X2, X3,, Xi) susceptibles de producir fenmenos de confusin e interaccin. Debe ser el investigador quin determine el conjunto de las i potenciales variables de control, que debern ser recogidas junto con las variables principales X e Y objeto del estudio- de forma sistemtica y precisa. La identificacin de estas variables de control, que fundamentalmente dependen del objetivo del estudio, se realizar a partir de los conocimientos tericos y de una slida revisin bibliogrfica de investigaciones previas en las que hayan sido exploradas. Si no se tienen en cuenta y no se miden, los resultados del estudio pueden ser incorrectos, sesgados o invlidos. A continuacin se describen los pasos que deben darse para llevar a cabo un anlisis multivariante:

DocuWeb fabis.org

5 de 9

Aguayo Canela, Mariano

DocuWeb fabis.org

Paso 1: Construccin de una matriz de datos con las variables principales del estudio (X
e Y) y con el conjunto de las i variables susceptibles de control. Esta matriz de datos debera sustentarse en la correcta identificacin del papel jugado por las variables (ver figura 1), y contendr la mayor cantidad de variables medidas, siempre y cuando tengan una justificacin terica y no sean ni variables posteriores ni variables intermedias en la relacin principal evaluada (X Y). Pueden aadirse a la matriz algunas funciones de las variables (Xin, logXi, 1/Xi, etc.) que puedan mejorar el ajuste del modelo, sobre todo si se conoce o sospecha que la relacin entre ellas y la variable respuesta (Y) no es lineal.

Paso 2: Evaluacin bivariante y anlisis estratificado.


Debera evaluarse la relacin simple entre la variable dependiente (Y) y la independiente (X) y obtener una medida cruda de dicha asociacin. Esta ser una medida sesgada -en presencia de confusin- o promedio -en presencia de interaccin-. As mismo debera explorarse, para las variables de control (X1, X2, X3,, Xi), la posible asociacin simple con la variable respuesta (Y), para evaluar su efecto en el estudio. Estas medidas de asociacin (OR, RR) as obtenidas deben interpretarse con cautela y sirven para tener una idea sobre si hay o no confusin y/o interaccin. De hecho deben completarse con el anlisis estratificado o multivariante, introduciendo una tercera variable (Xi) cada vez en la evaluacin de la relacin principal estudiada (X Y) y observando si cambian los ndices, tanto en magnitud como en direccin.
En el ANALISIS ESTRATIFICADO, las categoras de la variable de control sern las que establecen la estratificacin, y para cada estrato se obtendr una medida de asociacin. Si llevamos a cabo directamente el ANALISIS MULTIVARIANTE introduciendo entre las variables predictoras (covariables o independientes en el programa SPSS) la independiente (X) y la de control (Xi), obtendremos un coeficiente de regresin de X sobre Y ajustado por Xi.

Paso 3: Incluir en el modelo todas las potenciales variables de control.


Establecidas las variables a controlar, el anlisis multivariante debe iniciarse incluyndolas todas en el modelo (conocido as como modelo mximo inicial, por contener todos los trminos de confusin y de interaccin), y debe obtenerse la estimacin de los parmetros. Para llevar a cabo este procedimiento no se pueden utilizar las funciones automticas de regresin de la mayora de los programas estadsticos, sino que debe ser el analista quin conduzca la accin; en el programa SPSS esto supone emplear la opcin Introducir (Enter en la versin en ingls). Si el subconjunto de i variables de control es elevado conviene seleccionar, como variables a controlar e incluir en los modelos, un nmero ms reducido, en base a: incluir las ms importantes desde el punto de vista clnico o epidemiolgico incluir las que tienen una interpretacin ms clara dejar fuera las que estn medidas de forma subjetiva o poco fiable

DocuWeb fabis.org

6 de 9

Confusin e interaccin (2): su abordaje en el anlisis multivariante.

fabis.org, 2007

si varias miden aspectos parecidos, incluir slo la ms fcil de medir o la que se obtenga a menor coste

Paso 4: Valorar posibles efectos de interaccin.


Antes de evaluar la confusin, debe evaluarse la interaccin, ya que a veces dichos fenmenos coexisten en la misma variable Xi, y si no se hace as y se procede directamente a ajustar por ella se perder la ocasin de explicar ms correctamente el fenmeno estudiado. En el artculo anterior se explic como puede evaluarse la interaccin o modificacin de efecto en el anlisis estratificado, tanto en un modelo multiplicativo (OR, RR) como en un modelo aditivo (RA), al detectarse valores diferentes en los estratos establecidos por la tercera variable y, a su vez, diferentes del valor global o crudo, que resulta un promedio de los otros. En el anlisis de regresin multivariante (lineal o logstica), los trminos de interaccin tienen carcter multiplicativo y se anotan por: X*Xi Ciertamente se pueden generar trminos de interaccin de 2 orden (con dos variables modificadoras de efecto X*Xi*Xj), 3er orden (con tres variables modificadoras de efecto X*Xi*Xj*Xk) o incluso superiores, pero son de difcil interpretacin clnica y pueden dar problemas de colinealidad, por lo que no son aconsejables. Igual ocurre con trminos multiplicativos de variables de confusin (Xi*Xj). Debe seguirse, en la inclusin de trminos multiplicativos de interaccin, el llamado principio jerrquico,3 que supone que en una familia de modelos jerrquicos, si se elimina un trmino cualquiera, todos los trminos de mayor orden en los que intervenga tambin deben ser eliminados; y a la inversa, si se incluye un trmino cualquiera, todos sus trminos de menor orden deben estar presentes en el modelo. La presencia de interaccin o modificacin de efecto se valora, en los modelos de regresin multivariante, con pruebas de significacin estadstica. Esto es, deberan quedar en el modelo los trminos de interaccin que sean estadsticamente significativos y, segn el principio jerrquico, todos los trminos elementales o de orden menor que los contengan. Y deberan, alternativamente, eliminarse del modelo aquellos trminos de interaccin cuyos coeficientes de regresin no sean estadsticamente significativos y, por ende, los trminos de mayor orden que los contengan. Si hay varias interacciones en el modelo, debe evaluarse el conjunto de interacciones empezando por las de orden mayor, con una prueba de significacin global (chunk test) sobre el decremento de R2 producido al estimar el modelo mximo sin estos trminos de interaccin: si el resultado de la prueba es estadsticamente NO significativo se procede a eliminar del modelo el conjunto de interacciones, mientras que si es estadsticamente significativo se pasa a explorar el grado de significacin de cada interaccin, dejando en el modelo aquellas que son estadsticamente significativas y eliminando el resto. En el modelo deben de quedar, por el principio jerrquico, aquellos trminos e interacciones de orden menor que sean componentes de las interacciones retenidas. El proceso sigue
3

Bishop, Fienberg, Holland (1975)

DocuWeb fabis.org

7 de 9

Aguayo Canela, Mariano

DocuWeb fabis.org

entonces evaluando las interacciones de orden menor con una prueba de significacin global (chunk test), de forma similar a lo explicado antes para las interacciones de orden mayor, eliminndolas todas si el resultado es estadsticamente NO significativo, o pasando a evaluar cada interaccin de primer orden si la prueba global es significativa. Al final nos debe quedar un modelo que contiene todos los trminos de confusin, los trminos de interaccin que han resultado estadsticamente significativos y los trminos retenidos por el principio jerrquico.

Paso 5: Valorar la presencia de confusin.


La decisin de eliminar o dejar en el modelo de regresin los trminos de confusin no deben tomarse en razn de los resultados de una prueba de significacin, puesto que su objetivo es estimar sin sesgo (o ajustadamente) el coeficiente de la exposicin o v. independiente (X), y que mide la contribucin de X en explicar o predecir Y. Se tratar por tanto de incluir en la ecuacin final slo aqullos trminos de confusin que producen cambios cientficamente importantes en el comportamiento del modelo y, en ltimo extremo, el la relacin entre X e Y. En este caso el procedimiento es ms laborioso, puesto que conlleva comparaciones entre el modelo de referencia (que contiene el trmino de confusin evaluado) y el modelo reducido (que no lo tiene), valorando los cambios de los coeficientes de la variable independiente X y de los trminos de interaccin y de sus componentes retenidos en el paso anterior. Aqu no hay pruebas estadsticas para tomar la decisin, pudiendo ser orientativo el criterio de mantener aquellos trminos de confusin cuya eliminacin modifica en ms de un 10% el valor neto del coeficiente de regresin principal.(Ref. 5) Al evaluar varios factores de confusin de la manera antes comentada, se obtendrn diversos modelos de regresin. El modelo final se elige entre los submodelos con diferencias clnicamente relevantes sobre el modelo de referencia, teniendo en cuenta, adems de ventajas terico-prcticas en su aplicacin, el que estime el efecto (Y) de forma ms precisa (con menor error estndar o IC95% ms estrecho).

Referencias bibliogrficas.
1. Domnech JM, Sarri A. Anlisis multivariante: modelos de regresin. Unidad Didctica 8: Confusin e interaccin. Editorial Signo. Barcelona, 1997. 2. De Irala-Estvez J, Martnez-Gonzlez MA. Errores en la estimacin de medidas de asociacin en estudios epidemiolgicos. En: Epidemiologa Aplicada. Ariel Ciencias Mdicas. Editorial Ariel S.A. Barcelona, 2004. Captulo 7, pginas 257-346. 3. De Irala-Estvez J, Martnez-Gonzlez MA. Variables modificadoras de efecto. En: Epidemiologa Aplicada. Ariel Ciencias Mdicas. Editorial Ariel S.A. Barcelona, 2004. Captulo 8, pginas 347-370. 4. Cobo E, Buekens P. Necesidades y limitaciones del ajuste. Med Clin (Barc) 1990; 95: 702-708.

DocuWeb fabis.org

8 de 9

Confusin e interaccin (2): su abordaje en el anlisis multivariante.

fabis.org, 2007

5. de Irala J, Martnez-Gonzlez MA, Guilln-Grima F. Qu es una variable de confusin? Med Clin (Barc) 2001; 117: 377-385. 6. Cobo E, Corchero C. Ajuste: qu variables, cmo y cundo. FMC 2003; 10(10): 741742. 7. Cobo E. Anlisis multivariante en investigacin biomdica: criterios para la inclusin de variables. Med Clin (Barc) 2002; 119(6): 230-237. 8. Aguayo M. Confusin e interaccin (1): Qu son, qu suponen y cmo manejarlas en el anlisis estratificado. DocuWeb-fabis. Huelva: Fundacin Andaluza Beturia para la Investigacin en Salud.[en lnea] Disponible desde Internet en: <http://www.fabis.org/html/?page_name=DocuWeb> [consultado el 07/05/2007]

DocuWeb fabis.org

9 de 9

You might also like