You are on page 1of 29

~:;' ~I') ~

~
:.,
:::.:
,;..
.,;.
r~"

14.
;::..
;,-,,:
;;1:
"~
~...

J ~'"':

~~',

..~;

~,
.:
!':':.

~
;,.,

~
fi

L~I primcr~1 experiencia que se tiene con el anlisis multivariado le deja


;1 lino con la impresin de que acaba de serle re\'elado un milagro de la
leL'nolo~i.1 dcl .lnillisis de datos: el mtodo permite controlar la confusin
y cv.lluar 1.ls intcr.lcciones de multitud de variables con gran eficiencia
t.'st.ldisticd. Mejor .ln. una computadora te hace todos los clculos y te
imprime con limpieza los resultados. La temeraria exoeriencia de orde-
l1arle l\l1C c()nsig.1 todas estas metas analticas. para I~ego simplemente
pt)n~r en ()rden y publicar cl sofisticado output con apenas una pausa
p:lra volver ;I tccl~~lr. es indiscutiblemente tentadora. Ciertamente. puede
il1cluso Jle~.lr ;I ser decepcionante ver cmo el anlisis que culmina el
Ir.lh.l.i() dc sem.ln.ls. mc$cs o .\os de recogida de datos se acaba en un
lit:mpo 1.111<:orlo y los resultados se comprimen de tan compacta manera,
Por til ttue pueda ser. sin embargo. el anlisis multivariado no es
un.\ p:.\nace.\ c$t.1distica. Su mayor inconveniente radica en la barrera
ttue inserl:.1 entre el in\'estigador y los datos. Otros mtodos analticos
f:.lcilit:.\n una comprensin intima de estos. haciendo consciente al inves-
tig.\dor de !.l exi5tencia de irregularidade$ o deficiencias -unas pocas
cntradas de celda criticas con frecuencias pequeas, por ejemplo-, Los
mtodos multiv:.\riados dificultan esta intimidad con los datos. Otro
inconveniente. relacionado con ste. se halla en la falta de capacidad de
captacin para comunicar a otros el mensaje de los resultados. Algunos
lectore5 se sienten poco familiarizados e incmodos con los modelos
m;ltcmiiticos 4uC se manejan y totl05 ellos. lo mismo que los investigado-
res. ()hticncn una compren5in mils clara de los datos si lo que se
prcsentan S()t1 fre<:uenci:.ls tahulatl:.ls,
La crecientc disponibilidad de hllrdll'(lre y .~~/ill.are de computadoras
ha 5ignilicado el pistoletazo de 5alid:.\ para una avalancha de datos mal
digeridos. gran parte de ella caracterizada por sus anlisis desectructura-
dos y pobremente conceptualizados, que conducen al investigador hacia
la meta de la investigacin por accidente, si es que le conducen a alguna
p:.lrte. En la literatura cientifica, uno se encuentra frecuentemente con
situaciones en las que loS mtodos analticos descritos en anteriores

317

~
j~;~t:t~~~~~'

--
r.iJ
I
31p EPIDEMIOLOGIA
MODERNA

<.:;pitui('s dc c~tl' libro podrian haber sido aplicados, pero se los dej de
lild() Cl1 r;\.or dcl anillisi~ multivariado y con otras en las que se aplica a
I(IS diltos \';rios modclos multivariados. cu~lndo con uno o dos habria
,id(, c;uli<.:icI1IC, Al cridemilogo. de el1lrada. le merece m~ la pena
ilrl'~;rsl:. ~icl11prc quc rue~c posible. el1 lo.c; procedimientos del anlisis
~,lr;tili<.:ildo. quc ~on m.c; directo~ y que en~endran una mayor familiari-
(l;d l\)11 I()s dato~ tanto p~lr.1 el inve~tigador como para e] Icctor.
( "u;l1d(, e] citad() anilli~ic; estratific~ld(' sr h~lce impracticable. el mul-
11\.ariild() es il1dudahlcmel1tc lJtil com(' ahordaie allalitico. La viahilidad
(I~ 111.'\ar .1 c;h() cl cstr~ltilicadt' depelldc del numero de subcategoria.c; a
1\, I;r!!(' d~ las cualc.C\ hclyil quc dispcr~l.lr It).c; datos: s son demasiado
I1UIll~rl)Sol.'i. los datos qucdariln e~troltilicoldo~ de rorma en extremo delga-
d:\ il II' l;rl1l'
-~ dc dich:ls suhcatc{!oria.c; \ el al1i\lisi.c; se volver ineficiente
..
1(, 1.1111.. c~ i() llli~nl(1 que decir quc lo.c; estim.ldo.c; resultante~ sern impre-
cisos. r;1 an:ilisis lllui\i\'ariad() proporciona una manera de preservar la
precisil)n al ticmp<) que se controlan mucha.c; variables. postulando un
m(,dc]<1 miltcmiltico quc permitc utilizar lo.c; d~lto~ de modo ms eficiente
paril e~timilr simultilneolmente mucho~ erectos. La medida en quc e~te
!.'r<)<.:cso al1:lli\ico repre~el1tc uno\ me.ior:l el1 la eficiencia. y no slo un
s<.:s~('. dcpcl1dc dc la adccuacin
IllIIl'I(1 mil\Cmiltico.
dc las .lsuncione.c; incorporadas
Un :lnilli.c;i.c; es\ratilicoldo. quiz(i.c; limitado
en el
a alguna~
I t
\.ilriilhlcs cl;vc. coIl~tituye con rrecuenci:l UI1 priogo sensato del multi-
~
\.ilriaI). rlle~\O quc ruede arro.iar luz ~ohre cl groldo el1 que los dato.c; se
rnllCS\roln col1rorme~ COI1 la~ aSUI1CiOlle~ dc un modelo multivariado I
!.'articular. Pese iI que c()nsumc mil~ tiempo. una combinl.-lci()n de estrate-
!-!ias analitica.c; suc!c ser mi\s rructircra el1 cuanto a dar pistas sobre los
(lato~ qUl' cuo\lquicr ahorda.ic por scraroluo. I
<.'ul.lndo se ha ortoldo par un anlisis multi\'ariado. el tiempo que se
cmrlca en rll.lnilicar la con~\rucci()n dc UI1() () UI1O~ pocos modelos de e~te
\ir(). el1'\"e7 de ordcn~\r por la~ buenas la generacin de ,'arios direrentes. .I'
I
tt.'lldrii C"l)mO producto trab~l.iar meno~ ~. con resultados ms claros. En
1;.; 111l'.i(:\tescircunstancia~. e] producto final seri\ un resumen elegante de
1{" d;t()s. dt=~cribiend() la.c; complicadas
mul'h;~ \"ariablc.c;.
il1\errelaciones existentes entre I
r:n su scl1tid() mil~ I.lmplio. anlisis multi\'ariado es cualquier anlisis
lll' dat('1~ que tom; mucha~ \'ariablc.c; en cuenta. Un concepto unificador
qll~ c;l1h~.ace a sus diferen\es \iras e.c;el uso de un modelo matemtico
quc rcsp()l1dc dc 1.1 intcrrelacin en\re la.<; ,'ariables del anlisis. Las
l.<.:II;<.:i(,nl'~ pr()hilhilisticas prcscntad.\s en el captulo 12 para estimar
n)l'Jid;s l.,.'idcmi(l!cI!!iL':ls dcl crc<.:t<,;llliem!.'(' que se conlrolaha 11.1conru-
sic,I\. SI)I\ c.icmplos dc I()s 1111)dcl<).<;miltcm:i\icos que constituyen un
:In:i!ic;i~ multi\.ariad(). MIICh<ls Olr()S Il:ln .'ij<lo desarrollados. h.lbilual-
11\~ntl.. <.:011!.'ropi)sil<)S c~pl:ciali7.ados. El oln.iiisi.<; por ractores. por e.icm- I
pl(\. es \In:l mctotl()lo~ia cOI1Cebid.l rara c()I~lpsar UI} nmero grande de
\.ilriilhlc~ predictoras CIl otr{) nlti.c; pequeo de factore~) que representan
suh!:!ruros corrclacionatlo~ del con.iunt<' dc volriables origil1al. El an{ilisis
dl' sl'rics tcmporolle~ cs UI1 mctodo diri~id() a evaluar la asociacin entre

~.~"'.!:~...,::,.":.;.; ,..':;.;~'-c.~~T~~.:'-:{:

.:~
;~~;
~~~1
c.;.~.: :,:,:.."'...;.,.;,~"
.--1.~*"~/.<~ ,..~ "

~-
~

ANALISIS MULTIVARIADO 319

v:lri:lhlcs. 11licnlr:ls Sc loman en con~ideracin la variacin dependiente


1 lcllicI11r(} y 1:1 l:()rrclaci()11 enlre la~ variables ~eleccionadas. El abordaje
llllC Ila Icllid() 1111:1 clplil:aci()n mils amplil en epidemiologia es el anlisis
(Ic rt:~rcsii}11 mlllirlc. <I\IC poscc numcrosas varianles: en sus formas ms
~1.:11l'r:llt:s. SUhSlll11C I11llcII()s }Iros ,Ihordajcs mulliv,lriados. como el ,ln-
lisis 1}!:t,lrilll1ico linc,11 (Iog-lincal). los ,lhord,lje~ probabili~ticos descritos
1.:1I cll:apiIUI(} 12. cl ,lnilli~is de co-v,lrianza e incluso el anlisis de series

] lt:mp()r,llcs.
1:1 ,111illi~is 111t1ltivari,ldo es un lema avanzado que ha sido objeto de
IIIUI:II~}S lihr(}s. lJn,l discusin plenu de sus aplicacioncs resulta impo~ible
a<lui. !)()r I:Onlr,l. el objetivo de este caplulo es describir en trminos
I SClIl:ill(}s los m(}delo~ matemticos
I.:stra tC!:!i,l q tiC el epidemilogo
bsicos que se utilzan y discutir
debe adoptar para construir e interpretar
la

1 111(}dcl(}s multivarildos.
j

)1)r:LOS MA TEMA TlCOS BASICOS

IfIJ(,/fl 1;,I('fll

1:1 Il\odcll) lI\;is rulldamental que describe la relacin entre dos variables
cs la lilll:~1 re(;ta. E! modelo lil\eal par~1 dos de dichas variables sirve de
Irall\p()lill para l)lrOS lI\is (;u11\pli(.;ados. entre dos o ms de ellas. La
l:(;lla(;i(,ll dc la lillCa recIa que rclaciona dos variables tiene dos parme-
Ir(I,. f(lrllllllilU()' !lahilualmcnlc como 1.1 intercepcin. o constante y la
pcndicl1lc. o cucli(;icnte-:

}' afl + al,'( [ 14. J ]

1:11I~\ CCU\l;i(}11 114.11, 11{1es 1\ intercepcin o constante: es decir, ao es el


yalt}r II1I.:t.lio t.1~ 1\ vari\ble }' cu\lldo la variable ,\, I es igual a cero. El
(}Ir() p.\ri\metro. 111.es I(\ pendiente de la lnea que relaciona X 1 e Y. y
rcpresent,\ cl 11l1mero de unidades de cambio de y por cada unidad de
L".\mbio Cll .\.I. El sumando I: es el trmino de error, y representa una
scp.lr.\ci()n t.iebid.\ .II .\z,\r" de la v,\riable dependiente respecto del valor
~sr(.'rat.I(}. El error medio se asume generalmente que es cero. El rango
tt.'l}riL"o t.\nto de (III como de (1, y,\ de menos infinito a ms infinito. La
lil!ur.\ 14.1 ilustr,\ ~r,ilic.\mente el modelo line.\1 con 2 variables.
-Es raro quc 1,\ ;cl,\cil)11 real cntre dos v,\riables sea lineal: la asuncin
illh(.'rcnt~ Cll l;u.\lquier ,\ni\lisis que depende de un modelo matemtico
I.:S quc csc mot.I~lo constituye una descripcin simplilicadora que no
s~ 1;(.}llrOrm\ 1lL'l;l.:s,\ri.\mente segt\n la relacin que hay en la realidad
~Iltrc I,\s v.\riahles. pero si 1,1 representa de forma suficientemente cer-

.1.:1 inlcrccpci(Jn c~ ll:lmad:l en muchos lextos matemticos ordenada en origen,

\', Ih' T. J

a
i~
f:~:l~~~~.1~*~~
!ffl' ..,~..~w'
t~~~~
~;;:' r*;~~~~~~
,,!,~:' ~t.~~~
;;-
:~~1l~~f~
~IJ
~:

1 ri.
~~

~t
r,,:
32(! EPIDEMIOLOGIA MODERNA

,-,
.,.
~;
;;I:


.
:;:.c

I [:,

x +x,

;
"
;
;
i
!

-y

Fig. 14. I{('"r(',\('///(/("iril/ ,f!r(ifl("11 (Ir' J(/ ('("/,(I("i,i/1 tiC' /(1/{/ J;//('11 r('C1a

cana como para quc .c;can razonable~ la~ inferencia~ que se extraen
s()hre II ba.c;e dcl mismo. L(1 separacin de los datos respecto del
modclo puede rene.iar una discrepancia entre este ~. la naturaleza. as
como fuentes de inexactitud (1 I~! hor:l de obtener la informacil)n. Un
(,h.ictiv() scnsato consiste en ele.1:!ir UI1 m('dl'lo que se a.iuste a los dato~
Sllficicntcmcnte como para quc la milyor fucntc de scparacin dc los mi~-
m()s con rcspccto al modelo pr()\,en~a de inexactitudes inherentes a ellos
: n() dc I() inapropiado de ste.
La figura 14.2 ilustra una relacin casi lineal entre el nmero de ;
~
ci!:!arrillos fumados al dia y la mortalidad por cncer laringeo estanda- ,
"
rizada por edades (Rothman ('I al.. 1980). Raras veces siguen unos .,
t
datos epidemiolgicos un patrn lineal de forma tan cercana como stos. .~
1
Cuando las obser\'aciones no caen exactamente sobre una lnea, pero ,...
siguen mostrundo un patrn bsicamente lineal a pesar de una cierta ;i

dispcrsi(ln. el invcsti~ador debe (1royar~c en mtodo~ e~tadsticos de


:ldL'ClJaci()n rara ohtCJ1Cr la ecllacilln de la linea que mejor cuadre. La
ccuaci()n dc la lncI.que mcjor se adecua ruede determinarse mediante
una \'ricdad de tcnicas. Los me.iore.c; mtodo~ son aqullos que toman
cn Clicnt~1 la c~lntid(Jd de informacin rene.iada en cada observacin; un

~~~~~~~~~i~li~;
,."".,

",~'

~~ir~
::<~:::;;~~i~ik~~
(~:
ANALISIS MUlTlvARIA[Ja 321

~
~
~
~
c
':J
01
~
U)
~
~
I
N
"t:
~
-0
C
~
t
~
~
I
:2
m
~
O
~

o 10 20 30 40 50
Cigarrillos fumados al da

Fig. 14.2. M orlalidad c.\'la1ld{"i:oda por ('{1{/{1d('hi{lo o ('(i1l{'('r lar1l,r:('o, ,\,('ltli1l ('1
mm('ro d(' cigarrillo.\' jiIIlIOdo.\' diariam('1Il('. (1 p{,,'ir dr lo.\' d(110,\,d{' Kahll ( Rnlh-
man et al.. 1980).

mlodo comn que se utiliza es el de los cuadrados minimos pondera-


dos, que minimi7.:.1 la suma de los cuadrados de las desviaciones vertica-
les de cada observacin respccto dc la linca, pondcrando cada dcsvia-
cin al cuadrado segl1 un valor que rencja 1:.1car1tidad de il1rormacil1
que posee esa observacin. La ecuacin dc la lir1ea que mejor se adecua
en la figura 14.2 es }' = 0,86 + 0,2926X, donde r es la tasa de
mortalidad estimada, medida en muertes por IO~ pcrsona-aiios, y >.. e~ el
nmero de cigarrillos fumados al di~l. Para 110 fUm(ldoreS, 1~1t~IS(l dc
mortalidad que este modclo lincal prcdice es 0.R6 por I~ .persona-aos;
para fumadores de 40 cigarrillos al da, 0,86 + (40 x 0,2926) por
105 persona-aos. El resultado dcl parntcsis cs 11,70, cirra quc hay quc
aadir a las il1ici(lles 0,86.
En el lenguaje estadstico, la ecuacin [14.1] sc conoce corno una
ecuacin de regresin, lo que indica quc UJl conjunto dc variables, en
este C(lS0 X J, SOI1 utilizadas para predecir o dcscribir a otra variable, Y.
A X I se la llama variable indepel1dente y a Y, variable dependiente.
La ecuacin [14.1] es la de una regresin lineal sencilla, porque dicha
ecuacin posee nicamente una variable indepcndier1te. Sin embargo,
seria posible ampliarla, aadiendo variables independientes adicionales;
cuando posee mltiples variables independientes, la ecuacin se llama de
regresin lineal mltiplc:
}' = ao + al X l + a2 X 2 + aJX J + ...[14.2]
:;~.:~,~~i~fd:
,~,,~~~~""~,
:~~~.r;r~\~'t(f;~,\~~;~:t~~

~:
,.,

.t
~.

322 EPIDEMIOL

E~ltl ccut\cil1 sif!uc siel1do lineal. pero la linea recla cruzn un espacio
(,.'(tI1 mils dl.: dos dimensiol1es. una por ctlda variable dc la ecuacin. f
il1L.Illill:1 1:1 \'arjahlc ucpelldiel11e.
1:1 r:ls!.!() cl:lvc ucl al1illisis mullivtlri:lu(). quc Ic hacc scr Ul1tl Iccnica
1;111 \llil rtlr:1 cl tll1illisis cridcl\1i(tli)~i(,.'(I. csl;i Cl1 cl hcchl) uc quc Itl il1fc-
r\.,ll(i;l h:lsall:l Cl1 cl c()cricicl11C <ic ciI;llq\licr \'ari:lhlc illdcrCIldienl(' del
11,(1ucl() CSI:"I C()11llici()l1adtl tl I:I~ rcslal\ll:~ \.:Iri:lhlc~ iI1UCrcl1dicl1lcs del
11\IS111('. r:Sl;1 il1ll.:rrrcl:l(,.'i()l1 c()l1dici()11;,1 si~l1ific;I q\ll' CI1 \111 m()ucl() SCI1-
l.illl\ Sl. rlll:Jl. (,.'(11\lr(tl:lr sim\lll;il1c:1111~111l. 1..1C()11r\l~ii)l1 (Ichi(ltl 1 lii1 ~ral1
1111111L'r('d rtlClltrC~ ~ qllC !\C r11cdr dCICrmil1tlr :1 p:lrtir dc I()s c()cfi-
l.il;l1lL'S :I(lcc\lld()~; cl cfcct(l d(' C:ldtl r:lCI()r. 5in q\lc 1()5 rC51tlnte5
f:I'L.I ( 1rl:S ucl m()licl( 1 acIlICl1 col1f u I1d icndl)llI. siem rrc q liC las tlsul1ciol1es
11l;11L'111ill ic:ls dc J ich(, m()dcl() 5ca 11 rtl7.()I11 hlc5.

7 1'(11'.\:1 (11'/11(1(.i,III('
,/'1,,1(}/1('/( l,I('(/, tllltili.\i.\ l(.1gi.\" I j('(}

La cc\laci{)11 r 14.1 :1. () ~u exlcnsi)11 [ 14.2]. repre~enlan la forma b~ica de


ml)dcla.il' e~ladislic() para virlualmcnlc lodas las aplicaciones epidemio-
Il}!:!icas. llay modclos ms complicados quc rueden. ror lo general, ser
cxrreSad()5 el1 una forma que corres ronde a alguna de esla5 ecuaciones,
y S\I C()mrlc.iidad deri,'aril de que se hayan hecho lransformacione5 en
\1l1a (} m5 de las \'ariable5 del modelo. Dicha5 transformacioncs posibili-
lal1 a UI1 modcl() lil1cal describir rclaciones inherentemenle no lineales.
J}()f e.iemrlo, ~\1rol1gamos que }. representa la tasa de incidencia y que la
\':\riablc independienle e5 la edad. con los dalos siguiendo el palrn de la
fi~ura 14.3. U n~: linca rccta que relacionase I~I tasa de incidencia y la
edad constituiria un~l adecuacin robre. rcro consideremos la posibili-
d.ld dc definir l.I \'ariable independiente como el cuadrado de la edad: )..1
= (cdad)2. La rel.\cin cnlre }. y la ,'ariable de edad lransformada seria
ahora perfeclamente lil1eal. El uso creativo de lransformaciones capacita
.\1 modelo lineal para acomodar5e a casi cualquier relacin no lineal.
T~11 nexibilid~\d tiene un precio, si el numero de trmino~ del modelo
sr alImenta. Aadir trminos reduce los grados de libertad residuales
del mismo. haciendo decrecer con ello lu erlciencia de la estimacin. Esta
prdid.l de eficienci~1 es habitualmente pequea. excepto cuando el mo-
delo posee ya un nllmero relativamente grande de restricciones para esa

c:an!idad de d~ltOS.
El\ \1n ~Inilli~is cpidcmiolgico es comun que una variable tenga slo
dos ,.alores, quc corrcsponden a 1.1rresencia o ausencia de enfermedad o
a l.1 rrc~encia o ~\\1~cnci.\ dc cxpo~icin. A los model5 de regresin
ha~ados en \ariablc~ dcpendiente~ dicot)micas se los conoce como re-
J;rcsionc~ binaria~. Sllpongamos qlle sc llevase a cabo un estudio de
se~uimicnto para evaluar la aparicin de enfermedad en un grupo ex-
ruc~t(' ~. otro n()-cxpllesto. En ~u forma m~ sencilla, los dato~ consisti-
rian CI\ do~ oh~crv.\cione~ hinarias ror cad~l sujelo: ~i e~tahn expue~to, o
110. y si hahia cado enfermo al final de1 perodo de seguimiento. o no.

~
j'.;:
~;~
,0-.,-
c~..';:;,,:~~.;.;..,
IG
~:., .-~ ,.~ ~ :..
'.> :-:..'.~..;:V'.;~.~
~. ~~
\~~~!~\;~~~~~~J~~:~~.'.;:~:
~

I.

I~ .~:;."

ANALISIS MULTIVARIADO 323

...

s
I ::; .:
:::

:;.

.J

10

C
al
-0

l ~
~
""'
~
:/1
~
0-

Edad

I:ig. 14.3. La ttl.\"Q d(' i,1Cide,lCia tJUlllellta .\"ef:l1l el cuadrado de la edad.

I Los dalos del ejemplo 11.4 ilustran tal situacin: si tanto la variable
illdepcn<.\icntc Com() la dependiente son binnrias, los datos se resumen
mcdilntc UJ11tahla de 2 x 2. Se puede lpliclr a los mismos una regre-
D sin tlmbin hinaril: resulta convenicnte codificar cada una de las
\:ari:lhlcs con los valores O (> I dcl1otan<.\o. rcspectiVlmente, la ausencia y
presencia de exposicin o de enfermedad. Utilizando este esquema de
codificacin, el trmino constante ao corresponde a la incidencia acumu-
llda en el grupo no-expuesto. Por lo tanto, al. el coeficiente de la
v\riable independiente del modelo, corresponde a la diferencia de inci-
~ dencias acumuladas (o diferencia de riesgos) entre los expuestos y los
l1o-expuestos. Por supuesto, la diferencia de riesgo se puede estimar de
forma direct\ a partir de la tabla de 2 x 2 que describe los datos. con lo
que la regresin lineal, cuando se tienen datos binarios sencillos, resulta
innecesaril. El modelo de regresin, sin embargo. se puede extender
filcilmente para lcomodar muchas variables adicionales y es ah donde
~
~, radica su ventaja. Si se hiciesen diez observaciones ms por cada sujeto,
..~
rcprescntando diez f,lctores de confusin, podra controlrselos simple-
mente l,\diendo al modelo lineal una cantidad tan pequea de trminos
como diez, que corresponderan a los diez factores de confusin citados.

, ~~~

}~~~;:i~;:t~;;::.. .::.

,.;:~~~je:
.;~

~
~~ lh

37.: EPIDEMIOLOGIA MODERNA

Sll colllrol ~imullilne() por medio de la eslralificacin, por el contrario.


rcsullaria dificil. porque requerira un minim() de 21, o sea 1.024 estra-
I ()s.
l:n cl mdcl() dc rcgrcsi()n. 1:1inlcrprclaci()n eridcmilgica de] coefi- 1
t:il:nI t.' ul:rcndc (1l:1 lip() uc Ual()s. Si. p(lr l:.il:l11pl(l. sc arlicase lin modelo
Sl:lll.ill() dc rcgrcsi()n hinari,1 :1 dal(ls dl' <.:as(l-conlrol con fOrmal() de
1:1.'1:1(It.' ~ ). 2. (1(1C(lrrl:SpOlldcria a la uifl:rcncia dc proporcin dc casos ]
: t:()nl r(llc~ c x rlIC~1 ()s. E~lo~ \'alorc~ posccn roca inlerpretacin epidc-
nliol()!!ica inhcrcnlc: a parlir del mdelo. no se puede oblener directa-
mcnlc 1:1mcdida de inters. la ra7.()n de venlaja, y de ah que para datos
dL' cas()-conlrol el modelo resulle inapropiado.
111Cillso cuando la re!!resi()n hinaria sencilla se aplica al tipo apropia-
U(I Ul' dalns. cxi~le Ull;t ()h.iccin tel)rica C()nlr su uso. La incidencia
:lclll11ulada licllC: lin ran~(l leric() que \'a de O a 1. Una linea de regre-
si()n. ~in emhar!:!. carece IcricamenlC de lmiles. En consecuencia, es
pt)sihll' que lin I11(lucl(1 dc rc~rcsil)n pudiesc dar estimados de la inciden-
1.
CI:I aclll11ulada quc caycscll fucra dc su rango terico. En la prctica.
r:lras \'CCC~ c~larin los eslimados de la incidencia acumulada muy por
d~ha.i(\ dl: cer() (I por cncima de uno. ~' en todo caso slo por combina- ...J
.t
Ci(lnC~ cxlrcl11a~ de los \,al()res de las \'ariables independientes. Cuando .4

CS() ~uccdicsc. e!' razonable suslituir lales estimadores inadmisibles por el


\'alor lc()rico miximo o mnimo. segn el caso.
I\UI1qllC la cil:ld:1 oh.icci()n lcric(1 no sea un impedimento serio para ,
i
cl US(\ dc la rc~r<.:~il)n hin;lria con dalos dc seguimiento, ha motivad() la
\llili7.acii)n dc (llrO~ l11ouelos que carccen de esle problema. Lo nico que
st.' nL't:c~il:1 cs Iransfor'11:lr lina variahle rncdid.1 en forma de proporcin,
Ul' l11:lnl'ra quc 1.1 \'ariablc transform.ida leng3 un rango terico de
I11cno~ infinilo a I11i~ infinilo. en lugar de desde cero a uno, Dicha
,
Ir\nsf()rm'acin ~l: ruede rcaliz(\r el1 dos elapas: si }' es una proporcin
-;:~
l'(ln lit) rango enlrc () y I. }../( I -}'). a lo que se conoce como venta.ia
dl: }... rosec un rango enlre cero e infinito: el segundo paso consiste en
h;lll:tr el logaritmo de la venla.ia. In [ )./( I -}')], que tendr un rango
L"llrc mL'no~ in/inilo ~' ms infinito. El logarilmo de dicha ventaja de }' se
l'()nt)ce como Iol!il. Un modelo lineal con e] lo2il como variable
dcpl:nuicnle c!' un~a simple variante de la ecuacin [ 14.1 ]:~

}"
111
= a() + al ).'1 [14.3]
J -}'

Sr I rII.1 dc Ul1 m()dcl() de regrcsi()ll de la dependencia de \Jna proporcin


c~rerada () probabilidad de }.. sobre '\.1. Con variables independientes
.ldici()ll:lle~. 1., ecuaci()n [ 14.3] puede ser rcilmente ampliada. Se la
rllcde rccscribir cn rorm.\ logislicu como:

(,"" +al.\"

)' = .
,,;;-":j--;;-;T ---,,-Ion+ol.\:tl
[14.4]
+ (' 4- (

:~
;~~'
.4-'..

ANALISIS MULTIVARIADO 325

quc e~ algehr:.1icamcnte identic:.l a la ecuacin [14.3]. La [14.4], amplia-


(1.1 <.:()n variahlc~ ilt<.1ependienles :.ldicionales, conslituye el modelo de
rt.:!.!rcsii)n /tJ,l.'xfil'll 1IIIi/fir/I',
I.a c.lCfillicil1 c.lcl I()gil a~cgura quc cl valor de y e~tari1 siempre en
L'I rallg() cltlrc I:t.:ro y tIno. sin quc importc cl valor dcllado derecho de la
I.'cuacii)lt 114..\ I. I~sta rc~lriccii)n impuc~l,t a la variable dependiente
rllctlc scr ~nlclttli<.1a como una vcntaja tlcl modelo 10gistico, aunque
(It.:sc.lc ~I punl() c.lc \'i~ta pr..1clico e~ secundaria.
EsiC moc.lclo logistico po~ce igu:.1lmente una implicacin importante
tlt.: c~lra ;1 la ilttt.:rrrclaci()n tic ~u.c; coeficienle.c;. Si la variable indepen-
(licltl(.' I.'S hilt;lri.1 ,v sc 1:1 mi(lc I:om() I =CXpIIC.C;tO yO=no-expue.c;to.
'1 11.1 l:orrt.:sp()II(lc :II :11!:!()rilm() c.lc la \'Clllaia tic cIlfcrmedad entre 10$
It()-~Xpll(.'St()S ~:'

:"!,1

Clo
(I() = In
[ 14.5]

tlOl1dc ("In indic:l cl rie~go de enfermar entre los no-expuestos. El10garit-


m() tle la \.ent~lja de enfermedad entre los expuestos es ao + al, con lo
l)liC {I I se corre~pol1de con la diferencia entre los logaritmos de la ventaja
tic l:l1rCrnl~lr o. cl)lii\'~llel1tcmcnte. con ellogaritmo de la razn de venta-
.I~I.

(/ = In rCII(1 -.SIo)l [14.6]


L Clo( 1 -CI1 J,

Por lo tanto. el Llntilogaritmo del coeficiente de una variable indepen-


diente binaria 011 en una regresin logistica constituye un estimado de la
rL1Zi)n de ventLljLl. Si los datos son de incidencia acumulada, la inter-
rrctLlc;il)n ue UiC;i1LIrazn de ventaja est sujeta a todas las reservas que
SOI1 i1abituLllmcntc de Llrlic~lci()n cuando se usa una razn de ventaja con
datos de incidenc;iLl acumulada (\,ase Cap. 6 y Tabla 6.1).
m
Puesto que el modelo logistico puede suministrar estimados de la
gj
r~lZn ue venlaj~l. se le puede ap1icar a datos de prevalencia o de caso-
control y obtener medidas epidemiolgicas de utilidad. En tanto la
regresin binaria lineal no transformada producia resultados epidemio-
I()gicos interpretLlbles slo Con datos de incidencia acumulada, y daba en
I.'SCC;LISOun estimLldo de nicLImente la diferencia de incidencias acumu-
l;1d;ls. 1.'1mouclo ue regresin 10gistic~1 resulta til para un gran nmero
dc ;lrlic;~lciont:s. ;I sLlber. Llquell;ls en l~lS que la razn de ventaja es de
illtcrcs I.'pidcmioli>gico. Esta convenienciLl del citado modelo 10gistico
I.'S mucho ms importante que la conveniencia terica que motiv su
~ desLlrrollo.
~ l~emos visto que la transformacin logistica, al cambiar el rango de
1:1variable dependiente, cambiaba simultneamente la interpretacin de
I(>s cot:fic;ientes del modelo, lo que hace resaltar tambin la utilidad del

r-1
U

~~

;ii~~.
1\
;~~:;~~\\~\~:

~-

..,
32r; EPIDEMIOLOGIA MODERNA

mismo. La transformacin posee otros aspectos concomitantes, sin em-


bargu. que imponen lmites a su utilidad y que deberan ser siempre
Ile\.ados en mente por el investigador cuidadoso. Supon~amos que en :1
\'CZ de con una variable independiente binaria, el modelo logstico se
aplica~e con una variable independiente ordinal () con una continua. Un
c.icmpl(1 podra ser aqulla que indica~e la conducta en relacin al hbito
de fumar. con la variable adoptand() los valores de O. 1. 2. 3 y as
slICesi\.amcnle para del1otar el nllmcr() de paquete~ de ci~arrillos fuma-
c.!()Sal dia. El cocficicl1le p,lra 1:1\'ariahlr fun1ar reprc~entaria la c,lntidad )
iI1L"rCI11l:11Iilldcl I(lgil) qllC corrcsril11dc ;1 \in camhi(1 i.J!U;ll ;iI\ unidad
lll' 1;\ \.:Iri:lhll: i,IOCrCI1OicI1IC CSil) cs. cl il1rrCmcnl(1 ocl llI~il ror cada
r;I(IIIClc ;lllicim111 fUI11:1c.!<1 p<)r c.!i:1 .1:1 al II il()~arit'u<1 dcl cocliciclllC se
inlcrprcl: c()m() la ra7.()11 c.!c vCl1ta.iil quc c.!cscrihc la tasa de enfcrmcc.!,ld.
:1 CU:llqllier l1i\'cl d(lO() dc hi\bil() dc fumar. Cll relacin ,\ la tasa corre~-
r()I1c.!iCI1IC a f\lmarse \111 paqucle menos tll di:1. En el model() esta inhe-
rCl1ll. lJIIC cada uI1ic.!ac.! adiciol1al dc incremenlo de la variable indepen-
]
diel1le o cada paquete adicional fumad() al dia. multiplica a la razn de
\'cnla.ia. o equi\'alenlemenle a la tasa de enfermedad. por un factor 1
collslanlc. Por lo tanlo. se~n el modelo (vase Fi~. ]4.4) cada variable .

..
,t
}

i ~

f;-i~, 14.4. EII (,1111(}(/('1(1 1(},!!:;,\'li('(1 ,\,(' 11all(1 illlplCil(1 un(1 re/acin e-'\'pollellcia/
('III/'(' 1';"('1(',\ (1(' c.\.,,(},\'i('i(in l11Illi,,/(',\' .1' ,.ie,\,.~(1 d(' l'1!ft'rmedad,

"'1
, t
.~

'.
;~~

~~jj:
;~~;.: :~~~,

~
;'.;1',:

~iil
;:'.{:~~ft;~;

AL
111~ ;l~rg~~r~~~~:~:f:'

~~:.~:.-.

:':":1

ANALISIS MULTIVARIAOO 327


-'j

illdepelldiente medida en ms de dos puntos describe inherentemente


~11l.1relacin expone.nc~al ~on la frecuencia de enfermedad. Tal patrn
Inhcrentemente multlpIlC3tlVO es una servidumbre importante del mode-
I(~ logistico (Greenlund. 1979). Raras veces va a querer un investigador
aJu~turse ~ un mo.delo en el. que se 3SU.ma automtic3mente que las
van.1blcs Indcpendlcntes contInuas u ordlnales poseen una relacin ex-
rollcllciul con 1.1ellfcrmedad. Por fortuna. se puede esquivar el problema
Jl:fi/licIlJ() :1 Jich:ls \'Uri.1hlcs illdcpcndiclltcs como hinarias: esta estrate-
!:tia sc discutc cn lin.1 secci()n posterior. Diseo de modelos multivariados
rara re.1lizar il1fcrcltcias.
Una limitacil)lt Jcl modclo logistico mltiple. relacionada con la
~ allterior y qlle IlO se puede esquivar con fucilidad. es la relacin multipli-
~?J
<.:ativu que cn cl moc.lelo po~cen unas con otr3s las variables independien-
tc~ ~cpar.lda~. Plie~to que cada una de ellas contribuye a una suma que
}1 ~s 1:1 logaritmo de 1.1 ventaja de enfermedad. las diferentes variables del
'J modelo tienen entre si una relacin multiplicativa respecto de la tasa
de ocurrencia de la misma. Tal relacin multiplicativa equivale a asumir
que 1.1medida del efecto de un factor dado. expre~ada en forma de razn.
a es constanle a lo largo de las categorias de los dems factores. Esta
asuncin pudiese no resultar un handic3p serio -en rigor. es una asun-
cin que se hace con frecuencia en el anlisis estratificado- pero a
diferenci.1 de ste. el modelo logstico no permite evaluar drectamente si
rcsult.l adecuado rc.1Iizarla. La asullcin multiplicativa puede ser evalua-
da cx:tmin~IIlJo la magnitud de los coeficientes de los trminos que
rcprCSCl1tall rrOd11<:to de dos variables independientes en el modelo. Una
I:Villt/i/t:ic;/t nl:is llirccta tic lit mcdi(lit ~n l!tlC sc ticnc en pie la asuncin
multiplicativa. resulta posible utilizaltdo cl modelo de riesgo relativo
generalizado de Thomas (1981}, que enmarca al modelo logistico en 00
,
'.

cuestin en un modelo multivariado ms generalizado y capacita al ~


investigador para comparar 13 adecuacin de las asunciones matemti-
cas de una amplia gama de modelos especificos, de los cuales ellogistico
;,
no es sino uno ms. I!
;'
Represente o no la asuncin multiplicativa inherente en el modelo r:
;;
logis\ico un.l descripcin matemtica adecuada de los datos, la evalua- <:
.
.

m cil)n de una interaccin biolgica (en contraposicin a la estadstica} ~


"
:o
entre factores. en un modelo logistico, est complicada por la naturaleza
multiplic3tiva del modelo (Greenland, 1979). Este tema se discute en el
~ capitulo 15.
Vale la pena hacer notar que para datos de casos y controles en los
que los datos de exposicin y enfermedad son dicotmicos. se puede
formular una regresin logistica teniendo como variable dependiente ya
~ea a la enfermedad o a la exposicin. Si es la enfermedad, el modelo es
matemticamente idntico al utilizado para estudios de seguimiento
( Prentice y Pyke. 1979). Si la variable dependiente es la exposicin, la
~ presencia de enfermedad debe ser incluida como variable independiente,
y el estimado de la razn de ventaja se obtiene como el antilogaritmo del
coeliciente del trmino de enfermedad en el modelo (Prentice, 197~~Por
~

I.
::.~~:}

'.-:~~] ~~.:~\;
32P EPIDEMIDLOGIA MODERNA

r
10 1!cncral. eslos do.c; abordajes son ms o menos. si es que no exacta-
mcnlc. cquiv.1Iellle.c; ( Breslo\\' y Powers. 197H), Resulta generalmenle ms
1 ~
r:icil uliliwr a la cl1rermedad como variable dependiente, porque este
(
IlICtod() pcrmilc la evaluacin dcl crccl() de divers.l$ variables de exposi-
ri()11 dirL'rcntcs cn UI1 nlism(\ 111()dl:I(\ ~. rllCdc rilcilmcnlc d.1r cabid.1 .1
L'XI')osici()ncs medid~l.C; con ms dl: dos c:1lc~orias.

F.llllfl(l('/fl (1(' rj("\,,f!(),\' "rf)!,()r('jf))1tllc

L()." modclo.<; matcmticos descritos en secciones previas corresponden a


.tn:ilisi." ell lo.<; cualc.<; loS datos se pueden resumir a modo de frecuencias
dc llhla." de contillgel1ci.l. Si el modelo e~t{1 adecuadamente definido. los
:111{llisis dc I.1 r.1Z()11 de VCl1ttj.1 has.ldos en dttos de tabla de contingen-
ci:l. <!lit' .<;c prCSCI1I:lroll CI1 anlcriore.<; carituloS. rueden ser todos ellos
clcrtalllcntc rcformulldos cn trmino~ log.<;tico." con idnticos re~ullado~
(CJart. 19711. No ob~tantc. lo~ modelos logisticos slo se pueden utilizar
COII d:lto.<; dc frccucncia: p.\ra formular modelo~ matemticos que ~irvan
C(1ll dal()S tIc las:l~ tIc iIICidcl1Ci1. CI1 loS que los denominadores son
t1lcoidas dc pcrsoll:l-ticmpo ~. no frccucncils. se requiere un abordaje
oislinto.
lin mtodo 11:1con~i~lido en utilizlr como variable dependiente. en
un t1l()dclo dc rc~resin linctl. 1.1 cantidad de tiempo transcurrido por
cad:1 ~u.icto ha~ta el acontecimiento de inters. o alguna transformacin
dc dich.1 cantidad. L:1 principal dificultad de este abordaje directo est
cn <.JUC.cn la mayor p.lrte dc 10." estudioS. 11gran mayora de los su.ietos
~Oll arartado~ dc la oh~erv\cin antcs de que desarrollen el citado
acontccimienlo de inters. ya ~ea porque el e~tudio finaliza. el seguimien-
1(, del illdividuo se pierde o el individuo muere por otra causa. La
f!cncr.tlizacil1 dc modeloS de regresin ordinaria. a utilizar con datos
fucrtcmente cen~urados, re~ulta problemtica ~' plantea dificultades com-
putacionales (Brc~lo\\.. 19791. El aborda.ie es apropiado si casi todos los
~u.iclos desarrollan el acontecimiento durante el periodo de seguimiento.
Un mtodo ms flexible ha ~ido el plal1leldo por Cox ( 1972). quien
propus(' un modelo de regresin que predice como variable dependiente
1:1 ra7i)n de ta~as de incidencia y en el cual ~e evala la probabilidad
c('11oicil'l1almcntc al cI'n.iunto de ~u.ictos que pcrm.lnccen ba.io ob~erva-
ci()11 trl.<; la ocurrenci\ de cada caso. Este modelo se conoce como el
modelo de los riesgos proporcionales, porque se asume que la razn
de t.IS11~de incidencia (entendiel1do la tasa de incidencia como riesgo) es
constantc a I(, largo dclticmpo -e~ decir, los riesgos son proporciona-
Ic~ * En la rorma en que se lo propuso originalmente. el modelo es
inherel1tcmente multiplicativo. como el logistico. con el que se halla~

.E~t;1 1!1,Cji)l) dc rjc~!!o cs. c()m() sc VC. 31!!() djrcrcntc a la que sc m\ncj\ con cl
lI()mhrc ((rj~k el1 mllch()~ tcxt()~ dc erjdemi()I()~i;. En in!!Jcs. 1; conrllsil1 no es rosiblc.
ror cl II~O dc do~ r:'I:lhr:ls distillt:l~. risk y hnz:lrd. ( "'. dcl T.}

I
i~

~$~tJ:1:..

~
,;:~::;
:\ft~~i\~\;~~:

;rf~~~ !~~I~I
~!
ANALISIS MULTIVARIADO 329

rcl~lciol1ado de form~l muy cercana. La construccin e interpretacin de


los 1rminos del modelo son fundamentalmente las mismas que las del
modclo logistico. EI1 rigor, cuando se agrupan en intervalos los tiempos
dc los acontecimientos, dicho modelo logistico se puede adaptar a los
d~ltOS y producir frecuentemente resultados casi idnticos a los que se
()hticl1cn COI1 cl an~ilisi~ de riesgos proporcionales {Abbott, 1985). Como
~uced~l COI1 el primero. este segundo modclo se puede incardinar en un

] l11odelo de riesgo rclativo gener~llizado (Thomas.


Nclder. IYR3) lo que permite evaluar la ~lsuncn multiplicativa.
J981; McCul1agh y

I\parte de las limitaciones mencionadas antes para el modelo logisti-


1 co. una dificult~ld que tiene el de los riesgos proporcionales es que
rcsult~1 oner()s() ~!l trmil1os de c:ilculo en relacin con estos modelos
11111Itivariad()s. rUCS!O <.Juc 1~1evaluacin probabilstica es complicada y
11ay quc iria rCpilil.'!l para un numcro grande de subconjuntos de los
datos. Par~l conjul1tos de dalos de seguimiento razonablemente peque-
li()s. del tipo dc los quc con frecuencia se encuentra uno en los ensayos
~I!licos. 1~IScomputaciones no plantean dificultades serias a una compu-
~ lador~l de ~llta velocidad. Howard (vase la discusin de Cox. 1972) ha
rropucst() un .1lgoritmo recursivo. que h~l sido modificado por Gail el al.
( 19H I) y que reduce considerablemente el nmero de clculos. Incluso
<.:1)11 cl algoritmo recursivo. sin embargo. el modelo de riesgo~ proporcio-
,-

nllcs rodria 110 ser pr.1ctico o factible COI1 el equipamiento de computa- ~-


.,.
..-

li(\r:ls lit: quc sc disr()l1e l1uy da. dados lo~ grandes conjuntos de datos :;
~,.
<.JUCS()11<.:1)1111111I.'S ;1 ~sle nivel en los seguimientos epidemiolgicos rela-
<.:ionados ~UII 1.1ill\"cslieacin etioieca. En circunstancias as. una alter- ~:

11ati\.~1 r~IZOI1~lhle cs ~lg;upar los d~ltOS por periodos de tiempo yjo edad.
l.:oI1siderand() .1 1.1 vez un modelo logistico condicion~ldo segun las
Jivers~ls c~llegor~ls temporales YlO etarias. pero no segun los muchos
subconjuntos Je individuos que permanecen bajo observacin en cada
runt() en el tiemp() (Breslow. 1979: Abbott. 1985). S. como se espera,
continua el progreso tecnolgico en el equipamiento in[ormtico, el
tiempo y el coste de los clculos que se precisan para adecuar a un
~ nllmero grande de datos un modelo de riesgos proporcionales puede que
t1 pronto resulte de poca importancia.
El mdelo que nos h~l ocup~ldo es uno de entre una variedad de
mtodos que sirven para estudiar datos con problemas en el eje tempo-
r.11. K.1lbncisch y Prcntice ( 1980) dan una excelente descripcin de estos
m!oJ(}s.

,\ f (Id(,/(1,\' fl',!,'-lill('(II(',\"

~ Los modelos log-lineales estn tambin intimamente relacionados con


los modelos de regresin logstica. Se trata de modelos tiles para tablas
~
de contillgencia que poseen un eje o dimensin correspondiendo a cada
variable sometida a estudo. El logartmo del valor esperado para cada
L'clda de una tabla de contingencia multidmensional as, se predce

~~~;~:.;:: ~~~;:.i~ -~
.,,1

c~*: ,,;-:-~.~.
33(1 EPIDEMIOLOGIA
---~-
MODERNA
J
com() Ull:1 ful1cii)11 lincal a buse de tcrmil1os, Dichos trminos correspon-
dcn a clda variahlc dc la labia mullidimensiol1al, al tiempo que existen
\'ari:ls comhinacioncs de \'ariables represenlando los correspondienles
Icrmillos dc iIIICracci()t!. Los lolules marginales de la tabla multidimen-
si()I111prororcional1 rcslricciol1es a los \'alores esperados que se conside-
r111adccllados r~lra 1~lsccldas,
( ()II cl modcl() arroriado. esrccific~ldo en el conlexlo, de predictor
hillilri() \' v:lri:lhlc~ dr rcsull:ldos. 1:1SOlllCi()11 de mxima probabilidad de
IIII III()(I~I() 1o'J!.-lillc:11 scril idcnlica a la solllcin de mxim~1 rrobabilidad
ll\.' I(IS \'al()rcs c~rcrad()s rara la eslim(lcii)n de la razn de venlaja In"
t.('mlln CI1 lit! <:onjllt!l(1 de lahla~ dc :! >< 2. de la manera que se describa
cn el carillll<" I.:.: El cslimad<" de m~iximil rrob.lbilidad de la razn de
1;
vl.:ntl.i:1 rllcd(' ohlenersc a rartir dc los valores esrcrados de celda del SU
nl(IJ\.'I(1 1(,~-lil1cill lil11 \'c'/. :Idccllallll, ,iIISI(1 l"(lm() ~C Ilaca a parlil dc loS
\II()rcs lambicll adccllado~ qllc eman~lball de la eculcin [1.:.,25], Ms
al In, lin m()dcll) de regresit! lof!istica aprori(ldamenle especificado dar r,\
lambin los mismos reSUll~\dos, Todos e~los mlodos son reformulacio- I.c 1i
I1Cs matem:itica~ de un mismo modclo sut1yacente. el de una razn de
vcnla,ia qllc es con~lantc a I() larg<" dc la~ cat.egorias de uno o ms
.~Il
f:lclores distintos: es un modelo mulliplicativo porque conforme cambia m
lit tasa dc los n<,,-expuestos. la tasa de los expuestos debe multiplicarse
ror lil1 faclor constante de cara a que la razn de tasas de .incidencia, o 1~
11 ra7()n dr \'Clllaia. seall i!!lialmentc cOnslantes.
l(,s modelos iof!-lincal~~ han sid<" rorlllares enlre lo~ estadislicos
!)()rqlle ()frecen lil1a esrecie de ncxit1ilidld cstadistica: 11<"exislc esrecifi-
l"ilt"()11 (Ir Ul1a \'ilriat1lc dcrCI1(licJlte ~. ()lr(1 <:Oll,illl1t(' d(' \'uri~lhlc~ illdc-
rl.:l1dic:IIIC:;. ni d\.. lil1\ cnfcrlllC:d:ld ~' lilla \':II iablc: dc cxrosicil)n todas I S(

las \'ari:lbles sc tratan de mot!o eqlli\'aJclIle como comronenles del , :q

mot!clo ., Aunquc estc lrutamicnlo ecumnico de las variables ofrece a


lin orortunidau de explorar las maneras en las que un factor que acta
conflll1diendo ~e relacion(1 con otro que tambin lo hace, as como con la
I~
cxpo~icinn. poco~ epidemilogos verian en esto una venta.ja, Los anlisis u
cridcmiolgico~ esln centrados. generalmente. en una interrelacin es- !\
rc<:ifica de las variable~ ~' si no lo esln. probablemente deberan estarlo,
l:na dc~\'enta.i(1 que sc ha citado del modelo 10g-lineal es que incluso I~
e
\'ari:lhlc~ conlil1ua~ deben ser categorizadas para presentarla~ con for- d
mal(, de tablas de contingencia. en tanto un modelo de regresin logs- I r
tit":1 rlledc dur cabida a vuriables predictoras discretas o conlinuas, No
[
(''lstal1lc. esttl limitacii}n n<" es grave, rue~to que como se argumenta en r
11 sC:l'ci()n si[!uicl1le, Di.c;cil(1 de Modelos Multivariados para realizar
Infcrcl1cia~,~la calegorizacii)n de variables continuas es frecuentemente I~
dcschlc inclll.C;o en modclos lo!:!$ticos de regresin. El mayor inconve- r
nicl1lc del modcl() log-linc(11 e.l; el mismo que tiene el modelo logstico
dc rcgrc~in .~I .c;aber. Sll inherente (1suncn multiplic(1liva,
n~

:::~l~!~.
,.,;o.
"",..
:~~".fij:;;.*: .: ,

-~I.
l ANALISIS MULTIVARIAOO 331

.\ 1 ( 1(/('/( 1,\' 1111//' ;!'(ir ;,1(/(1.\' f1l1 r(1 ('.V, 11(/;0.\" d(' ('{1.\,(1-('(1111r(l/ OfJ{lr('(I{/OS

1:1 :11\;ilisis ti~ tlalos de c.\so-conlrol .1pareados requiere habitualmente


4u~ sc controle. cn t:1 ani1lisis. la confusin que los factores de aparea-
11\i~nto introdu.icrol\ en el proceso de seleccin de sujetos. Los anlisis
~spcci.llizados discutidos en el capitulo anterior son. de hecho. simple-
111~nlc lcnic.1s tic eslr.1tific.1Cin aplicad.\s a datos apareados. en los que
] <.::Illa l:()I\junto apare~ldo constituye un cstr.1to nico del anlisis. Una
i,llrtlrlal\tc limil(lci(ll\ lfuC posce cl (In(ilisis ~lparc.1do mediante cstratifi-
'"i1 L.:I<.:i(ll\ ~s tltlc. pllr III !:!cncr:11. n() rcsllll.1 aplo par(1 contrOI(lr 1.1confusin
\)rll(ltl<.:i(I;1 Iltlr I1I1 r:IL:I(lr (III~ 1\(1 s~ ha ap~lrc~I<.1o en la seleccin dc
'111l:lcl". I..~I:I lilllll;ll"illll 1)IIt;tit; ,llrt:rarst: ~mplc~lndo mo<.1clos multi\,a-
rl;ltlt IS.
( .\)II\t) 1.:11Itls L"slu<.1i()sti~ t:~lS(I-Colltr(11 cl p~lri1111ctro dc inters es la
r:ll()I\ dc \"~I\l~lj~l. ~1111()<.1clomlllti\-aria<.1o pertincntc es el modelo logis-
I it:t) y ,lIS gcncr~lliz~lciones (Thom~ls. 1981 ). ~1p.1rtir de los cuales puede
't:r ~slim~I<.1~l f~i(,:ilm~nle dich~l r~lzn de ventaj~l. Si los nicos factores de
:lrart:amicnlo SOll v~lri.1bles con ~lo unas pocas categoras. el modelo
mlllti\.ariado ~c puetlc construir incluyendo como varables independien-
Ics <.leI mismo lrminos que correspondan a estos factores. y el aparea-
mit:nlo s~ri1 relcv.1nte p~lra el .1nt.\lisis slo en la medida en que toda
v:lriable ar~lr~~ld~1 I.'n la ..'e!eccn de sujetos debe ser incluida en el
m()<.1t:I(). L;.lS \'~Iriables de confusin ~ldicionales que no han sido apa-
rt:aJ;ls cn la seie<.:ciLln de suje1os pueden ser aadidas tambin al modelo.
Si los tlctores de apare.1miento son variables con muchas categorias.
sc pl~lntc~l un problema porque el modelo se aproxima a la situacin de
lfu~ hubicsc un lrmino por cada conjunto apareado. Esta situacin es
al\~il()g~l ;1 un ~ln~llisis estr(ltific~ldo que tuviese un cstrato nico corres-
p(ln<.1icndo ~1c~lda conjunto ~lpareado. Recurdese que la estimacin de
mi1xima prob.lbilidad de la razn de ventaja no puede llevarse a cabo en
Ull ~lni1lisis eslralific.1do si cada conjunto apareado constituye un estrato
sep~lr.1do utiliz.1ndo el (lbordaje no condicional de dos binomiales inde-
pen<.1ientes (frmulas [12.22] y [12.24]), porque el procedimiento de
cstim(lci(>n da lug.lr a un sesgo sustancial cuando los totales marginales
tic c~ld.1 cstr~lto son pequeos. El sesgo se elimina. no obstante, condicio-
1\.lndo la estim.1ci()n a ambos mrgenes de cada tabla de 2 x 2 (frmulas
112.22] y r 12.23]). De modo similar. s el nmero de trminos de un
11\()<.1elo mullivari(ldo se h.lce grande en relacin con el nmero de
suj~tos del ;.lnillisis. como ocurre cuando se introduce un trmino separa-
do para cada conjunto apareado. la estimacin de mxima probabilidad
no condicional se ses2a. El modelo IO2istico 2eneralmente se adecua
mediante un procedimiento de mxima p~obabilidad. que es esencialmen-
lc la contr.1partida del procedimiento de estimacin no condicional
cmple.1do en un anlisis estratificado. A pesar de todo, es posible cons-
lruir un modelo logistico en el que los coeficientes se estimen por un
procedimiento de .1decuacin que es tambin la contrapartida del mto-

~
,
:~,~::; :,;:; :
$.
;~~.
X:~I~1~
3 ~.

.).
EPIDEMIOLOGIA MODERNA

ti(, t'()lltiicional tic e~lilllaci()n dc rnixima probabilidad de la razn de


\.CIIII.i:1 ( !>rcnticc y lircslo\\". J l)7HI, I:~I1 cslrllclllra condicional e~ rnate-
111ilit:1111Cnlr ~imilar, allnlJlic no t(\11 complicltia. al modelo de rie~gos
rr(1r()rciollalcs dc (-O\ ( 1972). CII t:1 cll:II la cxpcricncia de ~upervivencia
lil' IIIl !!rllp() ~e m()dcla c()lldiciollaln1cl1lc a Jo~ que ~obreviven en cada
rlllllt' dcl tiemp(' somctid(),c; a ()h~er\'~lci()n, Com() sucede con el citad()
In('(lrl(1 (Ir rics!!os proporcion~llcs, 11 aliccll~lci()n dc I~I rcgrc~i()n logistica
l't'llliic:i()nal plll'lic acarrcar cOmplllICi()nc~ ~I !!1'~ln c~cal~l. pero el rnt()-
lil1 pcrmilc <.Iue los d~llos dc ca,c;('-conlrol apareado,c; sean analizados con
L'I Ilccc'C;ario cOlllrol de los f~1Clore~ de ap.1rcamiento. as corno el control
<.Ic lo,c; faCI()re,c; dc confusin adicion~1Ie~ por los que no se apare, El
.11~()ritmo recllrsivo de Gail ('I al. (l9RII reduce considerablcrnente la
t'ar~:1 cornplllacion.11. \\:~1Iker (19821 h.1 hech() notar que el rnodel()
II ,!-!:isli<.'(' c:()nliit'i()11:11 ~. cJ mo(lcl() (1(' ric,c;!!os proporcionale~ ~on tan
"illlilarl's <.111<.'I()S rr()!:!r;llll:IS Ol' t'()IIIPIII;I(\('r; qllc ,c;irvcll par(1 lino se
1'llrJcn lililiz~1r para cl ()lr(l,

I (1(1(,I(}.\ (It .i('.~.f!(1 /,('/(II ir(1 .l'('/I('/,(I/(',\"

Th()mas ( 19R I ). al comprobar la similitud de las ecuaciones de probabili-


dad csladistica~ que se usan para los anlisis apareados de caso control,
p~lra los de regresin logstica mltiple ~. para el modelo de riesgos
proporcionales propuest() por Cox. ha desarrollado un modelo ms
general basado en medida-" del erecto expresadas en forma de razn. que
suhsume estos ~. otros modelos. Su modelo general permite comparaci()-
nes entre. por e.icmpl(). modelos aditivos versus modelos multiplicativos
del riesg() relativo. creand() mezclas de los modelos con formato de
modelo general y eValUaJld() la contrihucin relativa de cada componen-
te dc la mezcla. \\ialker ~. Rothman ( 1982) describieron un mtodo
sencillo par~l elegir entre un model() de riesg() relativo aditivo y otro
multiplicativo. Con el m()del() general de riesgo relativo. no obstante.
I'\tll'llcll .Idccuarsc. mc7.clarsc ~. compararse una gran variedad de m()de-
Il)S m~ltcmtico-" especficos dcl mismo. Esta metodologa supera muchas
de la-" limitaciones inherente-" a los modelos multiplicativos y es por ello
una notable ampliacin de las opciones disponibles para el anlisis
epidemiolgico multi\.ariado.

DISEO DE MODELOS MUL TIVARIADOS


PARA I{EALIZAR INFERENCIA

L.I fil1alidnd habitual de los modelos multivariados en el anlisis epide-


mi()I()f!ico es pcrmilir la estimacin de medidas epidemiolgicas del
erect(). al ticmp() que se controlnn eficientemente diversos factores de
C()llrusi()n, Los modelo,c; multivariados rueden emplearse tambin para
\'alorar una intcracci()n: esta aplicaci()ll se discute en el caritulo 15. La

~~:
:!t:i~~~i~ ~~~}~:
\;f\~1~\~f\\\1
--'--' ;;,,-- ..,.;;;..:.;
;..~~~ :

l ANALISIS MULTIVARIADO 333

v:lriahle dependiente generalmente es un trmino indicador, esto es, una


variahle binaritl con valores posibles de cero o uno, que denotan la
catcgorizaci()n de un sujeto dado Con respecto a unt\ enfermedad. La
\'arit\hle
l:1 modclo de como
exposicin y todas
variables las variables o de
independicntcs confusin se incluven
predictoras. . en

Unt\ variahle de un t\n:ilisis epidemiolgico no corresponde. necesa-


riamentc. a un trmino nico en un modclo rnultivariado, Se requiere al
mcl1OS uno p('1r ctldt\ vnrit\ble. t1unque t\ veces hacen falla varios. El tipo
m:is simplc dc variahle cs una dc cscala nominal que tuviese slo dos
~] I.:atcgort\s. talcs 1.:01110varn y hcmbra. Una variablc tal se incluiria en
lln modelo rnultivariado corno un trmino tlnico: una variable indic3do-
ra que tu\'iesc val('1rcs de tIno y cero que correspondiesen a las dos
] L':ltc!:!wias scri:l. pIICS, Itl rcprc~el1ttlCil1 numric3 de la variable sexo
l:O dicho m()dclo multivarit\do, Consideremos ahora una variable de
~scala nomioal c()n tres categorias. talcs como blanco, negro y oriental
tllle. ilnicamcnte :I l:fectos del ejemplo. t\sumiremos que son categorias
rnutuamcnte cxclu)'entes y colectivtlmente exhaustivas, No es apropiado
~l~ignar vtllore~ numricos diferentcs a estas tres categorias e incluirlas
c()mo un si)lo trmino, Como las tres categorias no representan aspectos
cuantittltivt)~ de Untl sola medida. un trmino nico no permitiria una
tlcscripci('n complcttl del efecto de la variable. Con tres. entonces. se
11eccsitan cn ~I m(\tlelo dos de los citados trminos: una de las tres
1.::1
Ic!:!ori~\s. p(\r e,icmpl(). hlanco. dehe de~ignarse arbitrariamente como
c~llcg()rin dc rcfcrcl1cia: los dos trminos del modelo son trminos indica-
d()re~ que corrcsponden n la presencia de una de las dos categorias no
hlancns, Sup()ngumos que los trminos de raza son las variables ,'( I y ,'( 1
y quc i\'1 indica 11cgro y i'( 2 oricntal. S el sujeto es blanco, tanto X l
como .\.2 adoptan el valor cero, S el sujeto es negro. entonces X I = 1 y
,\': = O. y si el ~ujeto es orientt1\. .'( I = O y i'( 2 = 1. Los coeficientes
adecuados de loS ,'( I y .\'2 representt\n medidas del efecto de la caracte-
ristictl negro u oriental con relacin a la caracteristica blanco. Importa
poCO qu categora se selecciona COmo la de referencia: es por lo general
huena idea. sin embargo. seleccionar una que tenga una gran proporcin
de su.ietos, puesto que la e~tabilidad estadistica de los coeficientes del
modell.) ~n relaci)n con la vari~\hle en cue~tin depender de tal eleccin
de Itl calegoria de rcfcrel1ca. Si la \'ariahlc tiene una categoria de referen-
Ci~1natural. cse ~rUro deheri:l Icncr pri()ridad. incluso si no fuese el
mt\yor, Por ejcmplo. al cvalUtlr el rie,c;go de lesin por participar en
acti\'idades atlticas escolares varias. loS que se abstengan de cualquier
t\ctividad forman un grupo de referencia natural, incluso si algunos otros
grupos de la clasificacin fuesen ms grandes.
En general. si una variabie de escala nominal tiene 1" categoria5,
entonces se necesitan en el modelo 11 -I trminos para describir el
efccto de cada una de las 1! -I 'categoras de esa variable en relacin a
llnt\ categora ba$al, Si se incluyen trminos ndicadores para toda~ las
L':\tcgort\s. el modelo seria redundante y se tornar imposible resol\'er el
sistema de ecuaciones que da las estimaciones de loS coeficientes sin

Q ."

~~

':~~;.
334 EPIDEMIDLOGIA MODERNA

al!.!\lllil restriccin m.\tcmiltica adicional. Las direrentes categorias de


una \"ariahlc dc escala nominal pueden entcnderse como un conjunto dc
\.aritlhles que pucden ser cvaluadas. por separado. en relacin a una
l.ltc!!oria de rercrcncia arhitrariamcntc clct!ida: 1(\ que las constituyc
l.('m(1 rolecci()n apartc cs qUl' S()1l n1\IIUaml'l1ll' cxdIJ~'cl1lcs y. por tll1tO.
11(' il1dcpCl1dicl1tcs. Tc()ricamcntc. la fllll dc indepcl1dcl1ciu clltre los
t::rmill()S dl' \In modcl(1 multivuriad(, plllllCl P()C(\ prohlcma. l 11(1scr
quc l1uhicse unu pcrrcct.! corrclaci()11 entre dos de elios (o cntre cualquicr J

tcrmino y cualquier combinacin lincal de los dem{ls). en cuy() caso el


modl'I(\ es redundantc. En w prctica. correlaciones muy altas entre dos
tcrminos dcl modelo. aun si la correlacill no es perrecta, pueden llevar a
una iJlcstabilidad estadistica a la hora de acomodar los coericientes
rclacionados. rcne.iand(1 el dilicil problema estadistico de desenredar los
cc:clos de dos \.ariahle~ altamente correlacionad(ls.
1\1 COI1!\truir un 1l1()dclo. el primcr paso es dertnir la variable depen-
dicntc. El invc~ti~ldor proccdcri a continuacin a definir el trmino o
IL'rnlill(1S dc: cxp(,.'\ici()I1. Lu variahlc de cxpo5icin pucde repre5entarse en
cJ modcl() de rormtl tall sellcill1 como es mediante un\ variable indicado-
ra llnicu: c~ decir. una \'ariable con valor de uno. 5i el su.ieto es expuesto.
~ ccr(\ cn Ctl~() colltrtlrio. Si la \"aritlble de expo5icin es nominal con ms
dc do~ cale!!oritls. dche expre~arsc en el model() en rorma de varios
tcrminos. seglln sc describia en el prraf(, anteior. Si es ordinal. o un
intcr\'I(,. es posihlc exprestlrla en e! modelo como un trmino llnico.
I laccr e~t(\ COI1 \1111\'tlriablc ordinal exige a~i~nar punluacione~ a las
calct!oritls. tr~ll1srormal1do en erecto la escala ordinal en otra a base de
il1ler\'tllos. Tal1l() rara una \"ari(\hle ordil1al puntuada como par1 una de
i!1tcrvllos. el iJl\'e~lig~ldor dcbe valorar si e~ razonable permitir la rorma
il1l1erenle de la curva que se construyc del1lr('1 del modelo. relacionando
la e.xposicin )' la medida del erecto que se usaril. Con Ja regresin
1()gisljC\. por e.iemplo. UI1 trmino de expo~icin conlinua e~tar necesa-
ri:lme~llC relacionad(1 de modo exponencial con la ventaja de riesgo de en-
fcrmcdad. dc mtlnera que cada unidad aliadida de exposicin multiplica-
ri la \.cl1ta.ia ba~al por UI1 vllor constlllte. que corresponde al anti-
l()~aritmo de! coeficie!1te de regre~in Iqgistica. Una curva exponencial
difil"ilmel1tc seria lpropitlda. ~.a quc. com(' sc describi(l anteriormente.
cllo implic\ritl que ulla unidad de cxpo~icin. por e.iemplo. el duodcimo
cigarrillo rumado clda dia. incremenlara m~ la ventaja de enrermedad
que cualquicra de las unidades de exposicin que estuviesen por deba.io
del mismo. como el octav() o el undcimo cigarrillo rumados cada da.
En consccuencia. el invcstigador debe adoptar precauciones antes de
i!1ci\lir CII \111m<1dcl() multivlriado trmil1os continuos, de intervalo ni
()rdillalcs punluados. tI 11(\ ser quc Icnga una evidencia po~itiva de que la
cur\'a implicita ell el m()delo es apropiada.
Una construccin alternativ.l consiste el1 categorizar una variable de
il1terval() o continua (una variable ordil1al ya est categorizada) y tr\tar-
ll com(\ si ruera l1()mil1(\I. il1cluvcl1do en cl modelo varios trminos de
cxposici{)IJ. En rril1cipio. esla aproximtlci()11 puede p\recer torpe. puesto

~.

~II~
.m:~i~~r~;~~~~:;:~1fu~:
"1> "...v , ~,~;
.,
ANALISISMULTIVARIADO 335

llll~ 1:1 illr()rlllaci()11 tic lo~ dato~ sobre cxpo~icin. sca ordenada por
rallgo I) (;olltinua. sc pierde y se necesitarn ahora varios trminos en el
m()delo dondc ante~ .~()Io ~e requeria uno. Es verdad que la potencia
l:st:ldistica de una prueba de tendencia que evaluase una relacin dosis-
rcspuest.l. incorporada en el v.llor de p adscrito al coeficiente de una
variable continua. se pierde con este mtodo. Por el contrario, la inclu-
si()n de varios trminos de exposicin permite utilizar la informacin
acerc.l de cada nivel de exposicin para generar estimados del efecto que
no cstcn constreidos a seguir ningun patrn especifico. La simplicidad
cs algo que en un modelo multivariado se ha visto casi siempre como
mlly descable. pero su lgica interna se basa habitualmente en la adop-
t:il)ll II~ m(){I~llls 1.:1111 pr{)p()sitos prcdictore$ o descriptivos. Cuando se
L.II)rl(;;111 1111111t:111,. I.:CIIII() .!.!t:llt:r:lllllt:lll~ -;c 11:ICCcn cpidcmiologia. para
11II.:t:rillf~rt:ll(;i:1 "llhrt: l:1 ral')ci tic r:ll.:tl)rCS cspccificoS. la simplicidad del
Ill()dclo Il() l:S lina IllCt.l importante. PI)r tanto. la inclusin de varios
trminos en vez de lino no representa un inconveniente real en lo que a
I.l complejidad dei modelo se refiere. La ventaja de ser capaz de estimar
por separado. sin un patrn impuesto. el efecto a cada nivel de exposi-
cin con relacin a un nivel basal. supera las desventajas de este aborda-
je en la mayoria de las situaciones. Cuando hay datos suficientes. relacio-
nc$ de dosis-respuesta complicadas como las que tienen forma de U o
I U invertida. pueden detectarse y estimarse sin temor a que el modelo no
describie$e .ldecuadamente los datos.
Tras definir cl trmino o trminos de exposicin del modelo. el
I in\,estigador
planteamientos
debe (;entrarse.en los factores de confusin. Para stos. los
son en gran medida los mismos que para la exposicin.
Cad.l \'.lriable debe ser traducida para introducirla en uno o ms trmi-
nos del modelo. De nuevo es deseable usar un conjunto de- trminos
indic.ldores que permita una relacin menos constreida entre el factor
que confunde y la enfermedad. La meta analtica es un tanto diferente
para las variables de confusin. En vez de realizar inferencia acerca del
erecto del factor que actua confundiendo. el objetivo es tomar en consi-
deracin el mismo. de forma que el efecto de la exposicin no resulte
distorsionado. Para conseguirlo. no obstante. se necesita esencialmente
~ dar en el modelo el mismo tratamiento a dicho factor de confusin que a
la exposicin. Para el primero no resulta importante apuntar ajustada-
mente la forma de I.l curva de dosis-respuesta, pero. por otra parte. hay
poco que ganar por lo general reduciendo el nmero de trminos del
Illodelo. a no ser que los datos estuviesen desperdigados o deficiente-
Illcnte distribuidos. Ms aun. en algunos anlisis un factor de confusin
de la exposicin podra tener por derecho propio algun inters, en tanto
que constituye exposicin. Si las variables en cuestin estn definidas de
manera ptim.l en el modelo, se pueden realizar con facilidad inferencias
~
:Iccrca de I.l exposicin y de varios factores de confusin a partir de un
(1
modelo nico. Por el contrario. si se sabe que el citado factor de confu-
sin tiene una relacin montona) con el resultado enfermedad, es
posible conseguir un mejor control de la confusin manteniendo la
EJ

's~

.:-:~: {~:,:.;;

~
~~~f;~~ ;\~

33(, EPIDEMIOLOGIA MODERNA

(\rll~11;lcji)J1 11alllral dc la5 calegora5 CJ1lIJ1 llJ1ic() lrmiJ1() punluado. sea


(\rdjJ1al l' c(}l1linuo. El lira y an().ia cl1lrc la c.\pacidad de adecuar una
Cllr\.; mc.i()r. cmplcaJ1do lIl1 C()I1.illJ1l() dc lrmil1()s indicadores, y el orden
11ll\lml )' 1\ rcrdida dc mcnos grad()s dc libcrlad que resullan de
l'111rll.:;\r \111 lrmil1() lll1ic(, J1(' csl;i bicJ1 Cl1lcl1did() c()m() para re.llizar
l1111rCC()mCI1da(."ii)11~cI1cral. l:sli\ cllro. sjJ1 cmbargo. que la iJ1Cerljdum-
hrl' s(}brc la ClIr\';1 q\IC rcl;ciol1a cl raCl()r dc canrusi()n )' la enrermcdad
;\(."lll' a rav()r dc lralar iI rrimcr() dc la misma rorma que a la exposicin.
mt'(lial1lc \111C()J1illnl(' dc lrmjl1()s il1dicadorcs.
l11 ml(}d(\ (."\mlll\ CII la rlleSl; cn pic dc m()dcl()s mllltivariad()s es el
Ih('rda.ic r()r pasos. CJ1 cl qllc sc ..ladell () se sustrael1 trmino5 al
m()dcl(1 r()r CIlraS !\liccsi\.as. dc acllcrd() COI1 lIn critcrio dc sit!lli(jc..l-
l"ii)nl. csladisli(."a qllc csti\ rclaci()n,d() C()11 la medida cn quc lu .ldccU.I-
(."ii\11 llcl mi!\m(\ Sl: \'C arcclad;\ r()r la rcrdida () gan,\ncia dcl tcrmino
si!:!,licl1lc. La idc;1 dc lIn rr()ccs(, dc !\clcccii)1l alll()mtica rc5Ulla lenlad()-
r;\. l'spccialmcllll' rar;, 1;\ rcrs()lla qllc csl; canslrllyend(, el m()dcl() ~. sc
sicnll' inci)moda il1lcrrrCland() m()dcl()!\ mullivari..ldo5. A pes..,r dc todo,
cslc ml()d() cs i,1adccuad() rara la may()ri.1 de las aplicaciones epide-
11\i(,I()l!icas y dcbc scr cvil;\d(). P()slllla com() met..\ quc el modelo debc
scr rarsim()J1i()s() c()n respcct() ..\1numcr() dc trmino5. pero dichu mela no
l'S rcrlincl1lc rara cl al1;isis cpidcmi()l()gic(). que sc cel1tra en el erect() de
f~,clorcs c~pccfic()s. El ml()d() cmplca l~\ !\igllific..,cin cstud5tica para
\.;II(\rar la adcc,I;lcii,l) dc lIll m(}dcl(}. eJ1 luf!..lr de juzgar lu nccesidad de
c()lllr(\I~,r la (."()nrllsj(;n r(\r raClorcs csrcciri(;os. 5()bre I..l basc dc la canlj-
d;\J Jl' csl~\ q\IC cst; imrljl::.1d.l. Es posihlc que dicz raclores dirercntes
l'~llI\"icsCI) C(\nrllndicl1(I(1 Cll cal1lidad m()dcrad.\. rer() que il1di\'idual-
IIIC.:111l'nin1!lIl)() t'slllVicSl. rcla(;iol1adl' c()n la cl1rcrmcdad dc r()rma SlI(j-
l.il'nICmCJ1ic rllcrtc c()m(' r~lra areCl..1r 1..1adecu.,cin del model() de un
m()d(, csladi~li(;(lmCnlC sigl1ific..ltivo. UI1 aborda.ie por pasos podra
11l'\.ar ;) lIll m()del() qllc exclll~'ese I()s lrminos relacionados con todos
t:11(\s.,Pcr(). i.qllc ~c g,ll\aria ccJ1sllral1d() cl m()dclo p(lra excluir estos
Il'rmiu()s: Si la m~lv()ri~\ dc I(}", r;lcl()rcs cslllvie~cl1 c()J1rundiend() en la
Il1i~m;, dircccii\l1. I(; qllc c~ lIl1(1 p(\sihilid;ld. p()dri(1 haber una canlidad
\;IISI;II1Ci(11 dc C()J1rllsi()n cn el al!rc\!ad() dchiJa ..\ I()s r..\ClOres exclllidos,
il)ciIIS() si l1il1gllJ1() r()r si 5(}1() cnl;ihllia dc unu rorm..1 est(ldisticamenle
'i1!!niricali\.a)1 (ll m()dcl(). Cierllmenlc I(l vel1lai(1 rul1damel1tal de emplear
III~ m()dcl(1 mlllli\.ari..1d() el1 lIn al1i\lisis cride.mjolgico cs su capacidad
rar~1 (."()nlr(\lar cficieJ1lemeJ1le ul1a mullilud de raClOre$ a I~l vcz. Uljljzar
lIl\ (\hl\rd;l.ic r()r r~IS()S J1l) cs sll\ dcrr()ch(ldor, sjno que niega algunas de
las \'cJ1l;lia-" dcl al1~llisis mlllli\'(lri(ldo. Evil(lr cualquer opcn por pasos
\. cn ...li illl!ar il1lCl1llr c()nslruir lll1 m()dcl() mlllli\,.lri(ldo gl()bal unico
~lllC illclll~'~Sl' 1 I()J(}S I()s ra(."l()rcs dc c(}nru~j()n jmp()rlaJ1lCS, .ilJnl() con el
lt:rmin() (\ lrmil1(\s dc cxr()$ici(\I1. es ;llg() qllc simpljfic(l y rorlalcce un
~,I); lisis.
I.()s m(\dclos mlllli\.ariaJ()s rllcdcl1 l'lili7.lr~C lamhicJ1 par..1 valorar la
11)C,Jifit';ICi(;11dcl CrcCI(' () la inlcr;lc(."i(;I1. l~()s dCt;lllcs sc disClllCJ) CI1 cl cari-
1111(1I :'. rc.:r() rcslill;1 imr(\rl:IJ1lc 11:ICt'r c(\11sl;lr qllC ~i sc ..1i1;ldcn al m()dclo

:..
~

$(:
{~~~:: ;11~
',JIJ; ~~
~:, :.~~~.
:~~
\~J~~
:jL;~.:;-

l ANALISIS MULTIVARIADO 337

I()~ tcrmi!los de i!lleracci!l que incluyen la exposicin. se vuelve dificil


v:II()rar cl CrCclo dc la misma. Si la exposicin. o un nivel dado de ella,
I.:sl:i prcscl11c s()lo C!l un nico tcrmino. tal erecto puede ser estimado a
r:lrtir (Icl L"(IcliL"icIIIC (Icl mismo. Si sc incluvcn en el modelo los trmi-
11(IS-rr(I(IIIL"I(IS l'Jllrc 1:1cxr()siL"il1'1 y ()Iras va~iahlcs. cl crccto de la misma
sl: (lirllll(lir: s(lhrc I(IS vlri(ls Icrlllill()S 411C 1:1 incluyan: un cxamen dcta-
11:ltI() tIc cst()S l.llilll(IS rllCdc rcvcl:lr i!lr()rmacil)n sohrc cl efecto, pero a
IllC!ludo sc haL"e imposible un,l evaluacin de forma directa. Por ejemplo.
si cn un modelo un trmino indicador de exposicin se suplementa con
()Ir() de interaccin que incluyese el producto de exposicin y edad para
tomar en cucnta una nteraccin por esta ltima, el investigador puede
c!lL"()nlrarse con un cocficienle negalivo para el trmino de exposicin y
(1lro positivo par:1 el de inleraccin exposicin-edad. Bajo tales circuns-
lallL"ias. puede que "O sea rcil delerminar. si el erecto lolal de la exposi-
l'i()11 es pOSilivo o negativo. Un,l aproximacin sensata consiste en evitar
llllC los Icrmil1(1S lle i!lleraccin incluy,ln la exposicin. a menos que
cvalu,tr la modific.1cin del cfeclo ruese una mela analilica especfica. en

] ~U'!O ~.ISO dcbe adopl,lrse


~;lpilUlo. En conlr,lsle.
el abordaje
aadir lrminos
que se describe en el prximo
de inleraccin que incluyan el
rr()dUClO dc dos o m,is covari,lbles plantea poco problema: por lo
gcl1er,tl. se ruede adecuar sin graves inconvenientes un modelo con
~ualquier nivel de complicacin deseado para los ractores de confusin.
il1~luyelldo complicadas inleracciones entre ellos. (La nica preocupa-
~i()n eslil en que la dispersin excesiva de los datos puede llevar a una
I inestabilidad estadistica a la hora de adecuar el modelo con los trminos
:ladido5.) Por cjcmplo. 105 lrminos de inleraccin edad-sexo permiten
tomar cn consideracin direrentes efectos de la edad para varones y
I1C.:mbras. Lo intrincado de un modelo que incluye lrminos de interac-
Ci()ll l'ntre covari,lbles no inhibe la posibilid,ld de, realizar inferencia
dirccta acerca dcl cfccto de 1,1exposicin y rermile el control efectivo de
1,1 ~onfusi!l. dejando ,II modelo ,tdaplarse al patrn de los factores de
confusin que se ,1decuan de forma ms cercana a los datos.
Un,l de las medidas asociadas con rrecuencia a los modelos multiva-
riados es el coeficiente de correlacin. El coeficiente de correlacin mlti-
rlc C5 la correlacin simple producto-momento entre la variable depen-
diente y el conjunto de estimados suyos generados por el modelo que
~orresponde ,1 los puntos de los dalos individuales. El cuadrado de la
correlacin mltiple corresponde a la proporcin de la varianza de la
v,lri,1ble dependiente que se explica por el modelo: no obstante. no posee
interpretacin epidemiolgica. Las correlaciones. simples o parciales. son
medid,ls de asociacin entre dos variables: las correlaciones simples son
medidas brutas. mientras que las parcales estn controladas segn otros
factores. Los coeficientes de correlacin son generalmente inadecuados
par,l inferencias epidemiolgicas. puesto que no orrecen ninguna inter-
prct,lbilidad ,1 este nivel. El valor de un coeficiente de correlacin depen-
de de 1,1distribucin y del rango de las variables componentes y conse-
ctlcntcmente. de r~lctores del diseo que no deberan tener peso en la

~.

.~:h~~
33~

illfcrcll(;i:l CiClllfic:I, Dclltro dc Ull ran!!o suficientemente estrecho de dos


\.:Iri;lhll."". 1:1..;correl.lciollc.c; scrilll pequc:ls. fuese cual fuese el grado de
;IS()l.j;I<..i(.'1l .c;()hre UIlO m..ls (lmplio. Por cllo. .Ipoyarse en lo.c; coeficientes
llL' l.()rrCI;I(;ii)11 p;lr;1 haccr illfcrcl1ci.1 pucdc illducir a error y es algo que
llL'hL'ri:1 l'\'itar,1c, La.c; infcrcl1cia.c; nbtenida.c; dc cneficientes de regresin
11(' CSI:ll1d:lri7.(ldo.c; I1n est(\n su.ietas al mismo problem(l que las extraidas
dl. Il)~ c()eficicntcs dc correlacin. pcro e! uso dc cara a la inferencia de
l.\lcficienlcs dc c()rrelaci()11 estalldarizados es prohlemtico. ya que dicho
\.'(ll'ril.ll.'llle cst;llld;lri7.ad() dcpcl1dc dc la frecuencia total del factnr dc
ril."'!!(1 y del re.c;ull;ld(, dcl estudio: por 1:1 mism:l razn. los anlisi.c; por
mcdi(, dc ata.i()s. qllC dcpel1dcn fucrtemente de correlaciones parciales.
d1.'hcl1 ,lcr e\'it(ld()s cnm() hcrramicnt.l .lnaltica el1 la epidcmiologia
f(jrcrl11:1I1d ('1 {11.. 19X61.
r~esllmiendo. 1;1 il1lcrprel;lcin de UI1 model(, multi\'ariado que sr
lllili7aSl' par;1 lIll :In.ilisis cridcmiolo!:!ic(' sr r.lcilit(l con cl cmpleo de
tcrmil1os il1dicadores. inclusn si para formarlos resulta necesario romper
.\.ariahles ordinales o cnl1tinuas al objeln de liberar al investigador, en
al~ul1a mcdida. de I"s c(lnslriccinnes matemticas del modelo multiva-
ri:l(lo. Este pr()cedimicllIO cnmplica el modelo al aadirle ms trminos,
pcr() rcrmite m(l~'or nc.xihilidad. Un" rel"cil1 montona entre un factor
dl' <.'(ll1rlISii)n ~' 1:1cnrcrmcd"d. si se c()nnce con seguridad, podria justifi-
(;ar el u.c;()de Ul1 Icrmil1(' l1ico para ohtener un nivel de control ptimo,
pl'r(1 si,l(, .c;i 1:1 pel1diel1tc dc 1(1cur\'a se corresrondc bien con lo que el
m()dcl(\ imrula, [vitand<, los "Igoritmos por pas()s, ruede reducirse la
<.'l)lllple.jidad 101"1 del ;lll;ilisis. puesto que se permite al in\'e.~ti!;"dnr
l'Cl1lr:lrsc ell lIl1 m()del(' lll1ic() cnl1 t()dos los trminos rclcvantes. Los de
iI1ICr"cci{.'IJ rllCdcll aa<.1irsc para dar respucsta a la interrelacin entre
f:I(;1()rc~ de collrusil1. per(' resulta <.Iesc"hlc e\.itar trmino.c; producto
I.IliC il1clu~.al1 I" cxposici()1l dchid() II qllc O.I;C1Jrc<..en I" interpretacin, .1 no
Sl'( 4lll' el c~ll1<.1i{1dc 1,,1 i,Jlcr;ICci(\IJ fllesl' 11l1a de la.c; metas analiticas
(\C;I"l' <..al). 15). (, cl ill\'(;,1li!!,,(I(lr 111\'icsc ("()llfi"IIZ" Cl1 1;1 CX"ClillId dcl
m()dclo. Por illtimo, en .ll1illisis epidemol)!;icos no deberan emplearse
J(,S l'\leficientes de c()rrelacin ni los de regresil1 estand(lrizados.

MODELOS !\1 UL TI\' ARIADOS EN ANALISIS ECOLOGICOS

Lo~ e~ludio~ cn lo~ quc la unidad de observacin e~ un grupo de gente


CIl \'C7 de Ull indi\'iduo. sc conocen como e~tudios ecolgico~ (vase Cap.
l. La medida del resllllado en un aniili~is ecolgico e~ habitualmente
llnil \'ari:lhlc contillu:l. com() 1:1 tasa de mortalidac.l de un pais, lo que
(li.c;lill!!ue a lo~ c~tlldio,( ccolgicos dc otr(1S cstlldio~ cpic.lemioli)gico~ y
rl.'qllicrc Ull ahorda.il' analilic(1 difcrclltc (ll: (1lr(1~ que tllviescn como
re~lIltad(1 lIn:1 vari(lhle discreta. El modcl(l.il: multi\'ari(ldo e~ un:1 forma
con\'ellientc dc di~eccionar 1(1 vilriabilidad de la \':lriahlc re~ult;lc.I(, y la
cxrlic(1 como fullcin de diver~a~ otra~ vlri(lblcs illdepenc.licnles, Lo~
an~llisis multi\'ariado~ aplicado~ a un anlisis ecolgico se correspondcn

~.
I
ANALISISMULTIVARIADO 339

hict1 COl! UI! prohlcma de regresin clilsica. ya quc /o tipico es que midan
l:ll una e$cala (.'olltinua no $(>Io la variable rcsult~ldo. sino tambin a
todas I~l$ v~lriables independientes. Puesto quc la unidad de observacin
c~ una poblacin. la informacin sobre variables predictoras se mide
como un promedio de poblacin. que es una variable continua. Inclu$o
vari~lbles discretas. como el gnero, se hacen continuas cuando se las
promedia para ulla poblacin: el gnero es una variable binaria. pero la
proporcin de una poblacin que son varones es esencialmente conti-
nu~l.
Aunque con dato~ a~i podria parecer que un modelo de regresin
L'1..1~ic~1 enc~lj~lria hicn. hay que llevar con claridad en la mente algunos
1t1:lticcs a la hor:1 tic re~lli7.ar el anillisis. Primero. dado que cada unidad
(Ic ()hscrvacii)11 cs Ijll:1 pohlacin y pue~to que las poblaciones difieren en
1:1111:lri().la (.'alltitl:lti tic informaci(>n de cada unidad observacional diferi-
,:;i. 1):lr:t tom;lr c~to adccuadamente en consideracin en el anlisis. la
rL'~rcsii)l! dchcr~i ser ponderada. Este procedimiento toma en cuenta
a~ignar ;1 cada ob~ervacin un peso que refleje la cantidad relativa de
informacin incorporada en Ja misma. Como pesos podran tomarse los
reciprocos de la varianza estimada de cada observacin; para una tasa
de incidencia o de mortalidad. serian el cuadrado del denominador
dividido por el numerador. Otro esquema razonable de ponderacin es
pesar cad~1 observacin simplemente segn el tamao del denominador
de la tasa.
Un segundo punto a tener presente es que los coeficientes del modelo
habitualmente no pueden convertirse a las medidas epidemolgicas
usuales del efecto. Aunque la variable resultado pudiera ser una medida
del tipo de una tasa de incidencia o de mortalidad. las variables indepen-
dientes representan. como mucho, valores promedios de exposicin y no
pueden reflejar con exactitud el efecto de un cambio en el nivel de la
exposicin sobre la ocurrencia de la enfermedad, a no ser que la asun-
cin lineal del modelo fuese razonablemente exacta. La ms de las veces.
las variables independientes del mismo son en cualquier caso aproxma-
I das. por lo que la interpretacin epidemiol()gica de los coeficientes resul-
t~l problemtica. estando en el mejor de los casos sujeta a considerable
~e$go. Los estim~ldos del erecto de los estudios epidemiolgicos pueden
I cstar grandemente exagerados
~csgo de cruce de niveles (Morgenstern,
por un fenmeno que se conoce como
1982). Con todo, teniendo
datos ecolgicos las inferencias epidemiolgicas son ocasionalmente po-
sibles y hasta podria ser factible valorar el grado de sesgo (Stevens y
Moolgavkar, 1984). Ejemplo de variables aproximadas son los datos
sohre impuesto~ recaudados por consumo de cgarrillos o de alcohol, en
lug~lr
~ U ndetercer
loS reales
punto sobrees queel elconsumo
control de de launos u otro. resulta dificil en los
confusin
]
anillisis ecolgicos. puesto que las observacones individuales son datos
promedio o datos aproximados de poblaciones, llevando por ello a
asociaciones atenuadas e intercorrelaciones entre varables que limitan el
control de la confusin {Greenland, 1980; Morgenstern, 1982). Ms an,

.J

~~~::~;~,

-.:.:-;i:="",-;~j:'~{:~:i" ,.," :~,;;:~;.:;;;i;~:


--:':::

~;~~Ifr~
~~c
;~~~~~~~;J~~

,~
1;:;'
340 EPIDEMIOlOGIA
MODERNA

CI' I()s cslll<.1i()S ccol()gicos c,<; ror I() gencral mils dificil oblencr dato~
..illllicr:1 :Irr()xima<.1os dc all!l1n()~ r:lCl()rC~ ql1C ~e c()n()ce o ~c ~o~pccha
l'lll. ;ICIII:I" t'()"fll"dicndo. L:I f:lll:l dc di~rnnibilidad de informacin II:",) W;

rL'll.\.;111Il. CS cl ha,,<.1ic:lr mil~ ~cri() c" los anilli~i~ ecolgico~.


1:.1' III' model() dc rc!!rCSi()11 lil1cal. la variablc dcpendienle tienc un
.
1 "~~:: ~:.
~c

.~ "!1; " -

r:111!!(1dl. mc,,()s infinil() ;1 mils inrinilo. rer() 1:1lasa de incidencia .vn ~lo
~.C.:;,
llc ccr(1 :1 m;'ls inrinil('. La i"c()mpar~lhilidad dc los rangos puede ser :i j' -
rt:..l1cll;, m()dificLl"d(, 1:1 l:ls:l <.I(' i"cidenci:l mediante lransrormacin I()-
~:Iritl"ic;t [;.n ta"I() qlll' csl:l tran~rOrmLICi()I' cs malem,ilicamcnlc alrac-
li\.;I. pl)rqlll' prc\,icnc ql1C cl m()<icl(, rr()dl17.C:l e~limad()s negalivo~ de la
l:lS:I <ic i"ci<ienciLI.la rri"cir,11 c()nsideraci()" cs si elm()dcl() multiplicati.
\,(1 qllC rL'sl111:l c()nslil\lyC \11':1 mc.ior dcscrirci" dc los dal()S ql1e el
:I<iili\'(' qllC sc arlic:l si" dich:l lransform~lci()n logLlrilmica. Los lrminos
C()I'li"II().; <.Icl m()(lcl() mllllirlic"liv(\ tc"dran. cnm() en el modelo logisli-
l.(I. 11";1 rcl;lci()J1 cxro"CI'Ci;11 I()~ u"o~ COII lo~ olr()s. Scria posible em-
rlC;lr \I" con.iunl(\ dc \,:Iri;,hlcs il,dicad()r:ls p:lra cada variable conlinua
, .
<icl m()<icl(). pcro r\leSI() ql'C Itls v:lrinblc~ conlinuas son promedios de : :;..,
i;..~~. .
r()hl:lcii",. sc vl1clven m\lci,() m;'ls diricile~ dc inlerrrelar. A n() ser que
\1":1 r:17()I' csrccric;, 1(\ dcm:l"d:lsc. parccc prercriblc llevar a cabo la
m:I\.()ri" <ic lo~ :IJ1;',li~i~ ccoli)1!icos ml1lli\'ariados como regresiones linea-
.~
Il.S "(1 Ir;l"srorm:ld:ls.

\;:.NT\.I\S "'I' llMITACIONES


1)1. 1.()S t\101)I:l.OS J\,1tllTIVARIADOS

1:1111's il11:ilisis critlcmioli)~icos. lil cstratirlcilcin sc ha presentado como


l:1 m.I(\dl) tlL' primer(1 linc:l p(lra contr()ar 1:1 confusin ~. e\'aluar la
11)11(lirll.at:i('11 tlel efcclo. l:l cl:lsiricaci()11 crul.tltla tic los datos. en funcin
tlr m\It:11as \'aritlhles simullilncamcnlt:. pucde dcsperdigar las observacio-
nl'~ tic f()rmtl demasiad() delgada ~ohre las muchas $ubcategorias reque-
ritl(ls, hlcicnd() asi la cstratiricacii)11 imrracticahle cuand() el investiga-
tlllr 1IIvicse quc prcstar alcncin a un ntlmer(\ relativamente grande de
\.ari:lhlc~ cn el ani\lisis. El punto e~peciric(' en que la estratificacin se
\'uclve inmanc.iahlc dependc dc la cantidad de datos. del nmero de
\'ariahlcs ~' cale~orias. dc la distribucin de los datos sobre estas varia-
hlcs y del .iuicio del in\'estigador acerca del precio que merece 1(1 pena J
ser ra~ad<) para conducir un anilli~is e$tratificado. Ciertamente. la estra-
tiricaci()n orrct:c al~un:ls \'cnta.ias clara~: r(1r 1(1gcneral el anlisis ruede 1
IIl"\.arsc :1 caho t"O11apcnas 1111acalcul:ldora dc hol~ill(1 (aunquc habitual-
mt.:11tc se cmrlca \In ordcnad<)r. lIlIC cs a 111L'11\ldoncccsari(1 p(\ra gencrar \
1()s dat()s e~tratific:ld()~I: cl in\'csligador ~c ramiliari7.a con 1(1~ datos y t
1
rucde ()hservar la distrihucii)n dc cada \'ariahlc a 1(1largo de l(1s c~trat(1s: ~
cl palri)n dc los estimados del creclo a trav~ de 1(1!' mismo!' $e hace
\:isihlc rilpidamcntc ~: la pre$entacin del anlisi!' tiene capacidad de
captaci()\l par:1 lo~ Icct(1re$, mucho$ dc los cuales se $ienten ms conror-
t(lhlcs CO\l los a\l:\li$i!' cstratificado$ que con los multivariados, especial-

f1
J

"..::m~

:~~:
11it

~
'.:~~;~::~\:~~. ~.;~t.~::

; ~.;.: :

l ANf\LlSIS MUL TIVARlf\OO 341

IllClllc I;U:Illtl() SC rrl:~l:lllaI1 allccl(.)r I(.)s tlat(.)s eslratilicad(.)s para que los
c~cruliI1e. L~I pril1cipallimitacin del anlisis estratificado es su incapaci-
ti~ld para hacer frente a mi1s de unas pocas variables a la vez. a no ser
que cl ap.lrc~lmiento haya proporcionado distribuciones similares, a lo
largo tic los cstr.1tos. de las series comparad.1s. Sin .1pareamiento. confor-
j mc cl nmero de ohscrvaciones dentro de los estratos disminuyese con el
:Iumento dcl nllmcr(.) dc stos. 1.1 r.1zn de controles a casos (o en
cstudios de seguimiento. la razn de sujetos no-expuestos a expuestos)
nuctu.1ril al .1Zar cn OI1d.IS dcscontrol.ld.1s sobre el valor medio; estas
nuctu.lcioncs inycct.1n tlclnasi.ldo error alcatorio al proceso de estima-
l;i()11. <:ausantl() 1Iila pcrtlitla tic cficicncia del estudio que pone en

1 l'lcli~r(1 11 inICrl'lrl:I:I<.:i(in tIc I(IS rcsultatlos. En estas circunstancias.


llllir.:: ;111L'111all\; ;111:1Iti<.:arcslllt:1 "cr algulla ft)rm.1 de anlisis multiva-
la

ri~It1().
IJ~ls \CJII~I.jas y limit.lcioncs dcl ~ln~llisis multivariado son en gran
mctlida I~I im.lgcncll espcjo de las del anlisis estratificado. Mientras que
cl :In.ilisis cstratificado sc vuelve ineficiente frente a muchas covariables,
cl multivariudo es por lo general muy eficiente. Por el contrario. en el
~ln~llisis multiv.lriado se echa en falta la capacidad de captacin global
lJue licne el primero. La computadora viene a intercalarse como intrusa
cntre las observaciones crudas y las medidas epidemiolgicas que resul-
tln tle cllas. oscureciendo a los ojos tanto del investigador como del
Icctor algunas de las interrelaciones entre las variables del estudio que
p()sccn m.\s scntido. Slo una larga experiencia con el modelaje multiva-
riatlo cmpe7..1r:i a parecerse a la sensibilidad tratando datos que se
\)hticnc dc un ~In.ilisis cstratificado. Los cillculos son tan complicados
quc cl invcstigador se ve obligado a depender por completo del equipo
inform.itico y dcl .\,(~/i),.llr(' de que disponga. Los errores de dicho s~fi1\.a-
r(' puedcn p.lsar desapercibidos a travs de muchos anlisis. porque no
h.1y rorm.1 sencilla de comprobarlos en su integridad. Adems, la eficien-
L'ia cst.1distica tle los modelos multivariados tiene un precio, que es la
asuncin de que una forma matemtica dada describa la relacin de las
vari.1bles del estudio. La extrapolacin ms all de los lmites de las
\)hServ.1Ciones. que es algo que muchos investigadores son reacios a
R
l~l hacer y que es fi1cil de eludir en los anlisis estratificados, resulta dificil
(le evitar en los modelos multivariados. Ciertamente, en un anlisis
multivariado 1.1extrapolacin y la interpretacin son cuestiones criticas
a la hora de ganar en eficiencia. Asumiendo que el modelo matemtico :
~
tlcscrihe la distribucin condicional de una variable sobre un rango de
v:llorcs p~lra los cu.1les f.1It~ln 1.ls obscrvaciones directas, el modelo puede
cxpres.lr 1.1rel.1cin combinada de muchos factores simultneamente con
scncille7. y elcg.lncia. Si el modelo es incorrecto, sin embargo, la mejora
(Ic cficicnci.l pucdc quedar negada por un grado intolerable de sesgo:
q Inils ~ln. t.11scsgo no seri1 detcctable sin esfuerzos especiales y la precau-
'-1
~ cin que c.1racteriza a esfuerzos as puede verse minada frente al gancho
scductor de un modelo ntido y de aspecto eficiente.
I~stos inconvcnientes que tiene el anlisis multivariado convierten al

~f.
;~~:
~~\~r~

fl'lDEMIOLOGII\ MOOEnNI\

cs\ra\ific.ld() en la alternativa deseable. cuando los datos lo permitan, En


muchas $ituaciones, los anlisi~ estratificados y multivariados pueden ser
L'()mrlemcl\t.\rio~ para proporcionar apreciacione$ tiles acerca de los
dat()s. L.\ ~r(\n fuerz.\ del anlisis multivariado radica en su capacidad
para controlar simultneamente un gran nmer() de variables. meta que
el eslra\i~c.\d() con frecuencia no puede conseguir, De modo similar, un
:In;ilisi~ aparcado de cas()-control que emplea la estratificacin puede
l'()ntr()lar con cficiencia llnicamente aquellos factore~ que han sido apa-
r::;ldl)S: un anlisis de regresin lo~istica condicional permite controlar
f;lclorcs adicionales ms all de aqullo~ que se aparean, Para tales
aplicaciones, el ar.lisi~ multi,'ariado es un componente necesario del

reperloril) al\alitico de! epidemilogo,

LISO DE UNA PUNTU AClON RESUMEN


PARA EL EFECTO DE CONFUSION

Com() las ventajas e inconvenientes de la estratificacin y el modelaje


multi\'ariad() son complementarios, es razonable plantearse cmo po-
drian combinarse los dos aborda.ies en una metodologa nica que
contu\'icse las \'enta.ias de ambos, El inconveniente bsico de la estratifi-
cacin es la prdida de erlciencia que resulta de la creacin de un gran
nmer(\ de estratos para controlar simultneamente la confusin por
muchas variables, En principio. debera resultar posible combinar mu-
ch(\s de c~tos e$trat(\s ~in introducir ninguna confu$in $ustancial. pero
la dirlcultad estil cn idcntific,lr cules. Si hubiera slo una variablc
c()1lfundicndo. digamos la cd,ld. ~' los e$tratos hubie$en sido creados por
cada ao de la mi$ma. el gran nmero resultante de ello$ seria innecesa-
rio. puest(\ que casi toda la confusin debida a la edad podria ser
controlada con un puado de categoras etarias (Cochran, 1986), Colap-
s:lr los cstratos de edad redundantes no presenta dificultad alguna.
porquc la cdad e.<; una \'ariable continua y las categoras vecinas se
pucden fundir en unos pocos estratos de edad ms amplios.
La idca que ha~. detrits dc resumir el efecto de la confusin es definir ~

j
una \'ariahle continua unica que atIne la informacin rele\'ante acerca de
la~ pr<.'picdade~ de toda~ las variables a este respecto (Bunker el al.,
1969: Miettinen. 1976: Rosenbaum )' Rubin. 1983). Consideremos un 1
expcriment(\ aleatorio. Una propensin para desarrollar enfermedad, si
l,l r,lndClmizacin funcion:l bien debera estar distribuida por igual entre
los ~rupos dc intcr\'encin, No hay. no obstante. forma directa de com-
1
pr()h:lr estas distrihuciones. puestCl quc la propensin a la enfermedad
n() pucdc medir~c direclamentt' mils quc midiendo la incidencia de la
misma. quc es el rc$ultado del estudio ~; quc pCldria verse innuenciada
por la intervencin en si. Lo que $e necesita para evaluar la eficacia de
dicha randomizacin es alguna indicacin del riesgo de enfermedad
cntre lo~ individuos de los diferentes grupo$ de tratamiento aparte del
efecto de la intcrvencn, La distribucin de los factores de riesgo cono- n

:~

:t~~ ~~::;;~~
ANALISIS MULTIVARIADO 343

cid os sirve como indicador de esta propensin a la enfermedad. No


()hstante. un estudio puede lener poca o ninguna confusin incluso si las
<.Iistribuciones de 'Ios ractores de riesgo conocidos no son idnticas,
ruesto que es posible que descompensaciones a ravor de algunos de ellos
rUCSC!1 co!1lrarcsadas ror descompensaciones de otros, La confusin
I()lal quc existicra rodria ser rilcilmente controlada si la contribucin de
1()ti()s los racl()rc~ tic riesgo conocidos a 1,1 rropensin a desarroJlar la
l.:!1rcrmedad pudiera ser sumariz,ld,l cn una mcdida !1ica,
1>:lra c()mhinar en 11!1a mcdida llnic,l (una puntuacin resumcn dcl
l:ICl.I() <.Il: 1:1<:()llrIISi()II) la illr()rm,lci()!1 sohrc cl ractor de ricsgo, se rucde
111ilil:ar 1111111()ticl<.) multivariado, El mtodo es de aplicacin tanto a
.'-1
I.:stutlios II() I.:xpcrilllC!ltalc~ como a experimentos. En estudios de segui-
111it:lltO. 1.11plllltU;II.:I()11 <:onstituye un,l aproximacin al riesgo de enrer-
m.1r, En I()s dc C.ISOS y controlcs no pucde serIo: la medida anloga
rlll.:tic 1.:!l11.:1Id1.:rsc 4l1c scri,1 1,1 prob.1bilidad de resullar clasificado como
<.:as(). a <.:O!lt1iCj()11tic I.:Sl,lr cn cl csludio. 1\lgunas de las desventajas que
C()111Ic\'a t:J all,ilisis multivari,ldo no se aplican al utilizar modelos de esa
natur.1leza p,lr,1 generar puntuaciones resumen del erecto de la conru-
,-;in. Si el modelo multivariado se utiliza simplemente para generar
puntuaciones que van a emplearse de cara a la estratificacin y no
dircct,lmente rara realizar inrerencia. el problema de la ralla de capaci-
dad de C~lpt,lcin del modelo se ve aliviado,
1.;1 <.:onstruccin de un modelo multi\',lriado para generar puntuacio-
I1CSdc rcsumcl1 dc la <.:onrusi)n. e~ directa. No slo se conseguiria casi
1.:()11 CII:1141Iil:r lip() (Ic 11l()dcl() malcmiltico. sino que seria posible haccr la
<.1c.:lini<:i()11tic sus lcrmi!1o~ tan c.:omrlcja c.:omo sc desease. incluidos los de
l.:.xp()si<:i()!1. sin ()Sl'llrcc:cr la illtcrprclaci()n. rucslo que sla no est basa-
tIa tlircclal11ClIlc CII cl modclo. Las vari.lhlc~ dc exposicin pueden estar
rcprescl1l,ldas ror varios trminos del mismo. incluyendo. si se desea.
lrminos de inter,lCcin y trminos polinmicos de orden ms alto. Es
deseable omitir en el modelo ractores que ruesen ruertemente predictores
dcl resultado pero que en ese caso no estuviesen relacionados con la
e,xposicill de inlers y por lanto no estuviesen conrundiendo: incluir
lales ractores no mejora la \'alidz. pero puede afectar adversamente a la
eficiencia por introducir menos superposicin de la distribucin de casos
v l1o-casos, Tr,ls ,1decuar el modelo. hay que estimar las puntuaciones
p.\r,\ l',lda sujeto. Como se trata de la puntuacin del riesgo de enrerme-
d.\d (o de la proh,lbilid,\d de cJasilic~lcin de enfermedad} condicional a
1.\ au~c!1cia de 1,1 exposicin que se desea. los valores de dicha puntua-
ci()11 deben c,llcul,lrse colocando la exposicin al valor no expuesto.
i!1dcpc!1dicntcmel1te de 1,1 exposicin real. par,\ todos los sujetos y em-
rlcalldo lucgo los olros datos de cada sujeto para calcular la puntuacin
rC~tlmCI1 .1 p,trtir del modelo multivariado una vez adecuado (Miettinen.
1976). \llern.1tiv,lmente, las puntuaciones se pueden calcular a partir de
lin modelo ,tjustado a datos relacionados slo con sujetos .no expuestos.
Un,t ve7: que se han calculado las puntuaciones. stas pueden em-
plc~lrse como una variable resumen del efecto de los factores que actan

nc .

[r.

:i~~;
~i: ;*
::~~tr~t\f:~~ ~1;~~;:;!:!~ :~;%.

::;~4;;;.::;;~

EPIDEMIOLOGIA MODERNA

collflllldicl1do, sobrc la cual puede basarse un anlisis estratificado. El


;111;lisis ~c prosi!:!uc como si fuese un confusor continuo nico. como
pl)(lri;\ ser la cdad. El producto final tiene muchas de las ventajas de
alllh()s alliili~i~: cl cstralificad() y multivariado.
EIIllClodo ticl1c ~u~ illcol1vcnicntes, no obstante. Una debilidad es la
L'()lnplc.iidad dc tcl1er quc adecuar primero un modelo multivariado,
L.aIL'III..r las pul1tllaciollC~ ~ luego llevar a cabo un anlisis estratir.cado.
1:11rclaciol1 COI1 la complc.iidad dcl procedimiento se da cierta compleji-
dad .ll1adida dc intcrprctaci<.)n: a partir de los e~tratos no siempre estiI
ciar() qllc variables han ~ido controladas y con cunta efectividad. Hay
otros prohlcma~: como ~liccdc con cualquier modelaje multivariado. la
\"alidcl si~ue dcpendicl1d(1 de i{) adecuado del modelo. El procedimiento
cs circul.lr en la medida CI1 que las puntuaciones para el agente de
confusil)ll emplcada~ en l.1 estratificacin se han estimado a partir del
modclo adecuado a los datos que habia que estratificar. Pike el al. (1979)
han sealado que la comprobacin de hiptesis estadsticas basadas en
el proccdimiento estil se~gada. Quizil estos inconvenientes expliquen por
quc cl mctodo no se ha hecho popular. A pesar de todo, el principio
ticnc su atractivo ~. puede quc demuestre ser ti! como forma de ganar
cicrta capacidad a.ldida dc comprensin en anlisis complicados.

J~I:I:I:I{I:N(.I\S

I\hh()tl. R. D" L()pi~tic rc~rc~~iol1 in survival analysjs" Am" J. E,,;deI71;ol.


19R5:121:465-471.
Hrl:~ln\\.:N" Stati~tical mcthod~ ror censored survival data" E/!viro/1. Hlth. Pt'r-
"..'1(.(";: 1979:32: 19 1-192"
Arc~ln\\". N" E.. and P{)\\.crs. ~;- E- Arc lhcrc two logislic regressions ror retro-
~rccti\,c ~tlldic~? /J;(IIII("r;(.-~ 1978;34:1()()-105-
Hlil1kcr- ..T. p-- Forre~t- ~'. ..1-- Jr.- Mostcller. F-. cl al. Th(' Nat;(1/!al Hal(/tha/!e
.~-',I(il -..1 .)llltlI. tJf ,h(. "tJ.~.~;h/r /1-~.\.(}(-i(l';(111B(',I\"('e/1 Halo'hm,(' A,,('-~,h(',~;a
(I}/(I jl(I,~'tJf1(.r(ll;rr H(.f1(1';(. N('('r(/,~i,~, B('th<,.~d(1: N(1t;mlal J/!.~litulc,~ ~r Hcalth,
/\"(/,,(II/(III/,-~,;,/I'(. (~f G(',/('r(ll M('J;('(11 SC;(./!('(.,~, 1969.
( -(I(.hr(I/'. II-, G, Th(' (~fr('('I;'.(./1(',\".\. Ilf' (/(ill,\"'m('", h.l. ,\"I(h('I(1,~,~~(icati(1/!i/! remo"i/!g
h;(l\ ;,' (lh-..('r'.(/I;(l11tJI ,~"IJ;(',\". /Ji(I/7'("r;(.,\" 19('R:24:295-313"
(.{)x. D. R- Rcl!rc~~i{)n m()dcl~ :lnd lirc lablc~ Iwilh di~cussion). J, R- S,al" Soc.
/J. 11)7~:~4:1 R7-220.
( i;lil. t\1. II.. l-llhil\. -1- II-. :l1\J 1{llhil1!;tcil1. 1.- V. Likclih()()d calculation~ ror
m:llchl:J ca!;c-c{)ntr{)1 !;IIIJic!; :11\<.1s\lrviv:ll !;Iudic~ wilh licd dcalh times.
JJi(I11/(.'r;k(1 19R I :6R:703- 707 ,
(i:lrl. .J. .1, Thc c()mp:lrj~("1n ()r pr()p()rliol1~: A rcvicw or significanle lesls, confi-
dcncc il1tcrval~ al1d a<.1-iu~lmcl1ls ror slratification. R('v. 1,,1. Slal- J/!.~t.
1971:.'1,9:14~-1('9.
Grccl\l.\nd. S. Limilalion~ or Ihc logi~lic analysi~ or epjdemiologic dala. Am. J-
Ef1;(('m;(/I. 1979: 110:('93-698-
Grccnland. S" Thc crrccl or mi~classificalion un lhc pre~ence or covarjates. Am.
.I. J;,I;J(.m;m. 19RO:112:564-569,

-*
...:~.t~~:
;~'>:: ~~~\,:~~.

~:

ANALISIS MUL TIVARIADO 345


~

( jrccnl:lrnl. s.. St;lllc~~clmtln. J. J.. Criqui. M. H. Thc rallacy or employing


st:lndlrdizcd rcgrcssion cocmcients and corrclations :lS mc:lsures or effcct.
..1,1,. .1. 1:..p;tl(",,;(J!. 19R6:123:203-208.
Kalhllci~cll. J. D.. and Prcnlice. R. L. Th{' S,ali.\"I;('al ,'ll/al.I..\"i.\" ()r Failur('-Ti",e
I)(,,(,. Ncw Y()rk:Wilcv. 19R().
Ml:( .,lilIt!I\. I).. al\d Ncldcr. J. A. (i(,I/(.'.(,li;(.d l~il/(.('r M(I(I(,/.\". Ncw York: Ch3p-
mall allu 11:111.19H3.

J Micllincn. O. S. Strt\lilication
l:.il;(I(.I11;(,I. 197(,: J04:609-620.
by il multivariate conrounder score. A",. J.

M()rgcn~tcrn. II. lJscs of ecologic :Inulysis in epidemiologic research. Am. J.


l'llhl(. HI,h. 19R2:72:1336-1344.
I)ikc. \1. t~.. 1\lldcr~()n. J.. alld Dav. N. Some insights into Miettinens multivari-
;llC c()nfollndcr "c()rc :'rproach to c3se-conlrol sludy an3lysis. Epide,"ini.
(i,l11l11. 1/1'. 1l)79:33:10~-IO6. ~

I)rcnlit;c. 1{. l)sc l)f thc lugi~lic model in retrospective studies. Biom('lric.\" l~.

l~i(,:.~?::,q4-(,()h.
I)rclllit;c. 1{. I~.. alld P~'kc. I~. Ll)gislic dise~lsc incidence models and C3Se-COnlrol
dal:l. 11i(I/II(.fri".(( 1979:66:408-41 ::..
l)rl:llllcc. I~. L.. :Illtl Bresll)\V. N. E. Relrospective studies and failure time
m()uc~. n(II11('frika 1975:65: 153-15S.
J{()scllh~llIm. p R.. and RlIbin. D. The ccntral role of lhe propensity score in
()h~cr\'alion~11 stlldies ror causal effects. Bi(l/lll.'rika 1983:70:41-45.
I{()lllmall. K. J.. (..ann. C. I.. 1:I~lndcrs. D.. et al. Epidemiology of laryngeal
c;l"ccr. 1:,,;tl(.I/I;(II. RC1.. 19R():2:195-?09.
SIC\,I:IIS. J{. ( i.. antl Ml)()lg:lvk~lr. S. 11. 1\ cohort ~malysis or lung c3ncer and
~m()kin{! ill Hritish malcs. ..11/1.J. Ep;tl{!mi()/. 1984:119:624-641.
rll()mas. D~ C. (Jcllcral rcalivc risk modeis ror sur\,ival time and matched C3SC-
;1)lllr()1 an~llvsis. /J;(II,'(.'r;('.~ 1981 :37:673-676.
Wllkcr. 1\. M. mCienl ~Is~essment or ;onfounder effecls in matched folJow-up
,tlldics. :1""i. .)I(lf. 19R2: 31:::.93-297.
\V.llkcr. 1\. M.. alld Rolhman. K. J. Models or v3r~'ing paramelric form. ..111,.J.

E,,;tl(.I/,;(II. 19R~:115:129-137.

s
m i

i
~

r.l
4

":;:.:':[:;.-\:..j::,;,:~:~;:r~;.
'!~

11'11~ ~~~.

You might also like