Análise de Dados Categorizados

AN
ALISE DE DADOS
CATEGORIZADOS
Julio da Motta Singer
Universidade de S ao Paulo
S ao Paulo, Brasil
Minicurso apresentado no
XIII Simposio de Estadistica
Estadstica en Ciencias de la Salud
3 a 7 de agosto de 2003
Armenia, Quindio. Colombia
Prefacio
Estas notas de aula correspondem ao resumo de um texto sobre an alise de dados
categorizados em elabora c ao por Carlos Daniel Paulino e Julio da Motta Singer.
Elas tambem contem material extrado de um manual implementa c ao computa-
cional das tecnicas a desenvolvidas, preparado por Carine Savalli, Carlos Daniel
Paulino, Giovani Loiola Silva, Julio da Motta Singer, Maria Paula Chicarino,
M ario de Castro e Rodrigo Andrade Tavares.
Julio da Motta Singer
S ao Paulo, julho de 2003.
2
1 Dados categorizados
Dados discretos relativos a uma ou mais vari aveis denidas por meio de um
n umero nito de nveis ou categorias s ao denominados dados categorizados.
Alguns exemplos podem ser encontrados na Tabela 1. As vari aveis correspon-
dentes podem ser classicadas como ordinais ou nominais conforme suas cate-
gorias sejam ordenadas ou n ao.
Tabela 1. Exemplo de matriz com dados categorizados.
Dados de um estudo sobre Endometriose
Dr. Maurcio Simes Abro (FMUSP)
Grupo Paciente Idade Gestao Partos Abortos Dismenorria Dispareunia AFSr
Controle 1 26 3 3 0 L N 0
Controle 2 37 4 3 1 N P 0
Controle 3 37 4 4 0 N N 0
Controle 8 38 11 7 4 N N 0
Controle 10 41 4 3 1 N N 0
Controle 11 36 7 4 3 N N 0
Controle 12 38 3 3 0 N N 0
Controle 13 32 3 3 0 L N 0
Controle 14 37 3 3 0 M P 0
Controle 15 32 6 6 0 N N 0
Doente 1 31 0 0 0 M P 1
Doente 2 32 0 0 0 M N 1
Doente 3 27 0 0 0 I PRO 1
Doente 4 28 1 1 0 L N 1
Doente 5 34 2 1 1 M N 1
Doente 6 38 9 6 4 I 2 1
Doente 7 29 0 0 0 S/ N 1
Doente 8 38 0 0 0 M 2 1
Doente 9 20 0 0 0 M . 1
Doente 10 38 0 0 0 L N 2
Doente 11 34 5 3 2 M 2 2
Doente 12 29 1 1 0 I PRO 2
Doente 13 23 0 0 0 I PRO 2
Doente 14 27 3 2 1 I PRO 2
Doente 15 40 2 2 0 M N 2
Doente 16 25 1 0 1 M P 2
Doente 17 39 0 0 0 I PRO 2
Doente 18 34 3 2 1 I PRO 2
Doente 19 24 2 1 1 I PRO 2
Doente 20 25 1 0 1 I PRO 2
Doente 21 39 0 0 0 I N 3
Doente 22 27 0 0 0 L PRO 3
Doente 23 30 1 0 1 M PRO 3
Doente 24 28 0 0 0 I N 3
Doente 25 20 0 0 0 M . 3
Doente 26 28 2 2 0 I N 3
Doente 27 26 0 0 0 M 2 3
Doente 28 32 1 1 0 I PRO 3
Doente 29 37 0 0 0 M PRO 3
3
Essencialmente estes dados podem ser dispostos na forma de uma tabela (de
contingencia) s r onde as s linhas correspondem ` as combina c oes dos nveis de
uma ou mais variaveis explicativas (se existirem), e as r colunas ` as combina c oes
dos nveis de uma ou mais variaveis respostas. A distin c ao entre vari aveis
explicativas e respostas e conseq uencia da deni c ao das quest oes de interesse do
estudo e da especica c ao do planejamento amostral. Havendo apenas vari aveis
respostas, consideramos s = 1. De uma forma generica, as tabelas de contingencia
enfocadas neste trabalho podem ser representadas segundo o modelo da Tabela
1, em que n
qm
, q = 1, . . . , s , m = 1, . . . , r, denota a freq uencia observada na
casela correspondente, n
q.
=

r
m=1
n
qm
, q = 1, . . . s e o total da q-esima linha e
N e o tamanho da amostra.
Tabela 2. Forma bidimensional de uma tabela de contingencia generica
Categorias de resposta
Subpopula c ao 1 2 . . . m . . . r Total
1 n
11
n
12
. . . n
1m
. . . n
1r
n
1
2 n
21
n
22
. . . n
2m
. . . n
2r
n
2

q n
q1
n
q2
. . . n
qm
. . . n
qr
n
q

s n
s1
n
s2
. . . n
sm
. . . n
sr
n
s
Total N
Alguns exemplos ilustrativos seguem abaixo.
Exemplo 1 (Paulino e Singer (2003)). Os dados da Tabela 3 se referem a
um estudo de suscetibilidade ` a c arie dent aria em crian cas. Os dois metodos de
avalia c ao dessa suscetibilidade determinam duas vari aveis respostas, cada uma
com 3 nveis (neste caso s = 1 e r = 9).
4
Tabela 3. Freq uencias observadas de 97 crian cas de 11-13 anos de uma escola
p ublica.
Risco de c arie segundo
o metodo convencional
Baixo Medio Alto
Risco de c arie Baixo 11 5 0
segundo o Medio 14 34 7
metodo simplicado Alto 2 13 11
Exemplo 2 (Paulino e Singer (2003)). Os dados da Tabela 4 s ao prove-
nientes de um estudo envolvendo a avalia c ao pulmonar pre-operat oria de 1162
pacientes (classicados como tendo baixo, medio ou alto risco) e a ocorrencia
de complica c ao pulmonar no perodo p os-operat orio de cirurgia geral (neste caso
s = 3 e r = 2).
Tabela 4. N umero de pacientes.
Avalia c ao pre-operat oria Avalia c ao pulmonar
do grau de complica c ao p os-operat oria
pulmonar Sem complica c ao Com complica c ao
Baixo 737 48
Moderado 243 74
Alto 39 21
Exemplo 3 (Paulino e Singer (2003)). Estudo de fertilidade de ovelhas de
v arios rebanhos identicados pela ra ca e pela fazenda onde eram criadas, cuja in-
uencia no tamanho da ninhada se pretende averiguar (neste caso s = 9 e r = 4).
5
Tabela 5. N umero de ovelhas.
N umero de borregos
por ninhada
Fazenda Ra ca 0 1 2 3 Total
A 10 21 96 23 150
1 B 4 6 28 8 46
C 9 7 58 7 81
A 8 19 44 1 72
2 B 5 17 56 1 79
C 1 5 20 2 28
A 22 95 103 4 224
3 B 18 49 62 0 129
C 4 12 16 2 34
Exemplo 4 (Koch et al. (1985)). Os dados da Tabela 6 resultaram da
avalia c ao por um conjunto de homens de certos objetos culturalmente masculi-
nos. Cada indivduo classicava como masculino (M) ou feminino (F) objetos que
eram mostrados durante perodos vari aveis de exposi c ao. Os indivduos foram
subdivididos em dois grupos conforme o conhecimento (Grupo 2) ou n ao (Grupo
1) da nalidade da experiencia (neste caso s = 2 e r = 9).
Tabela 6. Freq uencias observadas da avalia c ao do simbolismo sexual de
objetos.
Categorias de resposta nos 3 perodos de exposi c ao
Grupo MMM MMF MFM MFF FMM FMF FFM FFF
1 171 18 6 12 7 7 7 56
2 184 38 10 14 7 7 20 114
Exemplo 5. (Upton and Fingleton, 1985) Em ordem a detectar a eventual
existencia de intera c ao positiva (atra c ao ) ou negativa (repuls ao) entre carvalhos
e nogueiras, uma dada zona orestal foi dividida em 576 areas de tamanho e
forma xos e registrou-se para cada uma delas a ocorrencia ou n ao de cada tipo
6
de arvore (neste caso s = 1 e r = 4) Os resultados obtidos est ao descritos na
Tabela 7.
Tabela 7. N umero de areas.
Nogueira
Carvalho Presente Ausente Total
Presente 261 177 438
Ausente 93 45 138
Total 354 222 576
Exemplo 6. (Koch et al. (1985)) Pacientes com diagn ostico complicado
ou n ao complicado, submetidos a 3 tratamentos (A, B e C) s ao observados com
rela c ao ` a cura de uma infec c ao nas vias urin arias. Os dados s ao classicados
em 6 subpopula c oes, resultantes da combina c ao dos nveis das duas vari aveis ex-
plicativas (Tipo de diagn ostico e Tratamento) com 2 possveis valores da vari avel
resposta (neste caso s = 6 e r = 2).
Tabela 8. N umero de pacientes.
Status com rela c ao ` a cura
Tipo de diagn ostico Tratamento Curados N ao curados
A 78 20
Complicado B 101 11
C 68 46
A 40 5
N ao Complicado B 54 5
C 34 6
Exemplo 7. Este exemplo e parte de um conjunto de dados tomado de
Goodman (1962) e descreve as inten c oes de voto (voto nos partidos A e B ou
indecis ao) de 445 pessoas registradas em duas entrevistas espa cadas de um mes
(neste caso s = 1 e r = 9). O objetivo e saber se as mudan cas na inten c ao de
voto s ao iguais nos dois sentidos.
7
Tabela 9: Inten c oes de voto em duas sondagens
Segunda sondagem
A B I
Primeira A 192 1 5
sondagem B 2 146 5
I 11 12 71
Para a an alise de dados com essas caractersticas podemos seguir os seguintes
passos:
i) deni c ao das quest oes de interesse;
ii) especica c ao do delineamento amostral;
iii) descri c ao dos dados amostrais;
iv) escolha de um modelo probabilstico que se agure adequado (pelo menos,
na base do senso comum ...);
v) tradu c ao das quest oes de interesse em termos dos par ametros do modelo
probabilstico adotado, ou seja, especica c ao de modelos estruturais;
vi) ajuste dos modelos especicados atraves de alguma metodologia estatstica
(e.g., metodologia de m axima verosimilhan ca ou metodologia de mnimos
quadrados generalizados);
vii) compara c ao do(s) modelo(s) ajustado(s) com outros modelos alternativos;
viii) convers ao das conclus oes em termos das quest oes originais.
2 Medidas de associa cao
Consideramos aqui algumas medidas importantes para a an alise de dados cate-
gorizados. Come camos com o seguinte exemplo:
Fator Estado do paciente
de risco Sem doen ca Doente Total
N ao 1
0

0
1
Sim 1
1

1
1
8

0
: Propor c ao de pacientes nao expostos ao fator de risco que apresen-
taram a doen ca.

1
: Propor c ao de pacientes expostos ao fator de risco que apresentaram a
doen ca.
Risco atribuvel (d =
1
0
): aumento na propor c ao de doentes atribuvel
` a exposi c ao ao fator risco.
Risco relativo (r =
1
/
0
): propor c ao de doentes entre indivduos expos-
tos ao fator de risco e r vezes a propo c ao de doentes entre os n ao expostos.
Compara cao
0
= 0.42
1
= 0.44
_
d = 0.02
r = 0.44
0
= 0.02
1
= 0.04
_
d = 0.02
r = 2.00
log r = log
1
log
0
: genese dos modelos log-lineares
Import ancia do conhecimento de alguma medida de associa c ao entre fator
de risco e doen ca mesmo sem conhecimento de
0
e
1
. Em muitos estudos
(caso/controle, por exemplo) n ao se pode estimar
0
e
1
.
Chances (odds): medida de freq uencia de ocorrencia de eventos

1
/(1
1
): chance de um indivduo ser doente vs. n ao doente quando
exposto ao fator de risco.

0
/(1
0
): chance de um indivduo ser doente vs. n ao doente quando
nao exposto ao fator de risco.
Razao de chances (odds ratio):
=

1
/(1
1
)
0
/(1
0
)
Estudos caso-controle
Estado do Exposi c ao ao fator de risco
paciente N ao Sim Total
Sem doen ca (controle) 1 p
0
p
0
1
Doente (caso) 1 p
1
p
1
1
9
p
0
: propor c ao de controles (n ao doentes) que tiveram exposi c ao ao fator
de risco (=
0
).
p
1
: propor c ao de casos (doentes) que tiveram exposi c ao ao fator de risco
(=
1
).
Utilizando o Teorema de Bayes pode-se demonstrar que
p
1
/(1 p
1
)
p
0
/(1 p
0
)
=

1
/(1
1
)
0
/(1
0
)
=
3 Modelos probabilsticos
A escolha de um modelo probabilstico para os dados depende do planejamento e
do objetivo do estudo. Vamos considerar tres estrategias de obten c ao dos dados
de uma pesquisa de inten c ao de voto, cujo interesse era avaliar a rela c ao entre
a opini ao de eleitores sobre um determinado candidato (X
1
) e sua faixa et aria
(X
2
).
Estrategia I: entrevistar tantas pessoas quanto possvel, por exemplo, em
4 horas. Poder-se- ao obter dados como os da Tabela 10.
Tabela 10: Frequencias hipoteticas dos resultados de entrevistas realizadas
num perodo de tempo xo.
Faixa et aria
Opini ao < 40 40 Total
Favor avel 43 25
Desfavor avel 41 70
Total 179
Suposi c oes sobre o n umero de transeuntes com menos de 40 anos favor aveis
ao candidato que passa no stio em que se vai colher a amostra:
i) num determinado intervalo de tempo, o n umero desses transeuntes e
independente do n umero de transeuntes com as mesmas caractersticas
que passa em qualquer outro intervalo de tempo disjunto daquele;
10
ii) a distribui c ao daquele n umero de transeuntes s o depende do compri-
mento do intervalo de tempo considerado e n ao do seu instante inicial;
iii) a probabilidade de passagem de um daqueles transeuntes num inter-
valo de tempo sucientemente pequeno (um segundo, por exemplo)
e aproximadamente proporcional ao comprimento do intervalo, com
constante de proporcionalidade
11
;
iv) a probabilidade de que dois ou mais daqueles transeuntes passem si-
multaneamente num intervalo de tempo sucientemente pequeno e de-
sprez avel.
Essas suposi c oes permitem demonstrar que o n umero n
11
de apoiantes com
menos de 40 anos que passa num intervalo de tempo de comprimento m =
14400s (= 4 3600s) tem uma distribui c ao de Poisson com media
11
=
m
11
.
Aplicando o mesmo argumento aos outros n
ij
e admitindo a independencia
entre todas essas vari aveis aleat orias (suposi c ao que, neste caso, pode gerar
alguma controversia), chegamos ao modelo Produto de distribui c oes de
Poisson:
f (n | ) =
2
i=1
2
j=1
e
ij
n
ij
ij
n
ij
!
, (1)
para n
ij
IN
o
i, j = 1, 2 onde n = (n
11
, n
12
, n
21
, n
22
)
, = (
11
,
12
,
21
,
22
)
com
ij
IR
+
, i, j = 1, 2.
Hip otese de interesse: a propor c ao de apoiantes entre os indivduos mais
jovens e a mesma que existe entre as pessoas menos jovens, ou seja,
H
I
:

11
1
=

12
2
_
=

1
_
(2)
onde
j
=

i
ij
,
i
=

j

ij
e
=

i,j

ij
. Note-se que esta hip otese e
equivalentemente express avel por
H
I
:
ij
=

i
, (3)
para i, j = 1, 2.
11
Estrategia II: xar antecipadamente o n umero N de pessoas a entrevistar
e selecion a-las de um modo aleat orio. Por exemplo, xando N = 200,
poder-se- ao obter dados como os da Tabela 11.
Tabela 11: Frequencias hipoteticas dos resultados do n umero xado de
entrevistas
Faixa et aria
Opini ao < 40 40
Favor avel 50 26
Desfavor avel 48 76
Total 200

ij
: probabilidade de um indivduo apresentar a caracterstica (i, j), con-
siderada constante para todo o indivduo da popula c ao em estudo, i.e.
ij
= P (X
1k
= i, X
2k
= j), k = 1, . . . , N.
Seja = (
11
,
12
,
21
,
22
)
tal que 1
i,j

ij
= 1.
Associemos ao indivduo k da amostra selecionada o vetor W
k
(com compo-
nentes W
kij
ordenadas lexicogracamente) denido de tal forma que W
kij
=
1 e W
ki
j
= 0, i
= i ou j
= j, se para tal indivduo se tem X

1k
= i e
X
2k
= j. Isto signica que W
k
e um vetor aleat orio cujos valores possveis
s ao
{(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)}.
Deste modo, os vetores W
k
, k = 1, . . . , N s ao identicamente distribudos
segundo a distribui c ao de Bernoulli (trivariada) de par ametro .
Assumindo adicionalmente que esses vectores s ao independentes, segue-se
que o vetor das frequencias observ aveis n =

N
k=1
W
k
apresenta a dis-
tribui c ao Multinomial
f (n | N, ) = N !
2
i,j=1
n
ij
ij
n
ij
!
, (4)
com 1
n = N, 1
= 1.
12
Hip otese de interesse: independencia estoc astica entre X
1
e X
2
.
H
II
:
ij
=
i
j
, (5)
para i, j = 1, 2, onde {
i
} e {
j
} representam as probabilidades marginais
de X
1
e X
2
, respectivamente.
Estrategia III: xar antecipadamente o n umero N
j
de indivduos de cada
faixa et aria. Fixando, por exemplo N
1
= N
2
= 100, poder-se- ao obter
dados tais como aqueles dispostos na Tabela 12.
Tabela 12: Frequencias hipoteticas dos resultados do n umero de entrevis-
tas xado para cada faixa et aria.
Faixa et aria
Opini ao < 40 40
Favor avel 54 30
Desfavor avel 46 70 Total
Total 100 100 200
Note-se que, enquanto na Estrategia II s o o total geral da tabela e xo,
aqui, os totais marginais das colunas tambem s ao xos. A vari avel xa,
X
2
, serve apenas para indicar as subpopula c oes de onde s ao tomadas as
observa c oes de X
1
.

i(j)
: probabilidade de qualquer indivduo ser classicado na categoria i de
X
1
dado que est a classicado no nvel j de X
2
, i.e.,
i(j)
= P (X
1k
= i | X
2k
= j) ,
para k = 1, . . . , N, j = 1, 2. Ent ao

2
i=1
i(j)
= 1, j = 1, 2.
Argumentos similares aos utilizados no caso anterior permitem concluir que
um modelo probabilstica adequado e o modelo Produto de distribui c oes
Multinomiais
f (n | N, ) =
2
j=1
_
_
_
N
j
!
2
i=1
n
ij
i(j)
n
ij
!
_
_
_
(6)
onde N = (N
1
, N
2
)
e = (
1
,
2
)
, com
j
= (
1(j)
,
2(j)
)
, j = 1, 2.
13
Hip otese de interesse: homogeneidade das distribui c oes Multinomiais
H
III
:
1(1)
=
1(2)
. (7)
Rela cao entre os modelos: A fun c ao de probabilidade do modelo Pro-
duto de distribui c oes de Poisson admite as seguintes fatoriza c oes :
f (n | ) =
e
!
n
!
2
i,j=1
(
ij
/
)
n
ij
n
ij
!
(8)
=
e
!
n
!
2
j=1
(
j
/
)
n
j
n
j
!

2
j=1
_
n
j
!
2
i=1
(
ij
/
j
)
n
ij
n
ij
!
_
(9)
=
2
j=1
_
e
n
j
j
n
j
!
_
j=1
_
n
j
!
2
i=1
(
ij
/
j
)
n
ij
n
ij
!
_
(10)
Como conseq uencia de (8), o modelo Multinomial com par ametros
ij
=
ij
/
pode ser obtido a partir do Modelo Produto de distribui c oes de

Poisson por condicionamento no total da tabela, N.
Como conseq uencia de (9) ou (10), o modelo Produto de distribui c oes Multi-
nomiais com par ametros
i(j)
=
ij
/
j
pode ser obtido a partir do Modelo
Produto de distribui c oes de Poisson ou Multinomial por condicionamento
nos totais marginais, N
j
.
Esses resultados permitem que a classica c ao de algumas vari aveis como
fatores seja feita a posteriori, por condicionamento.
4 Modelos estruturais
Em geral estamos interessados na redu c ao do n umero de par ametros do modelo
probabilstico, acarretando uma simplica c ao de sua estrutura parametrica. A
express ao matem atica dessa redu c ao e chamada modelo estrutural. Em seguida
apresentamos modelos que surgem em diversas situa c oes pr aticas. Lembramos
que as restri c oes naturais,

j

j
= 1 sob o modelo Multinomial ou

j

i(j)
= 1,
i = 1, , s, sob o modelo Produto de distribui c oes Multinomiais devem ser
levadas em conta. Essas restri c oes podem ser expressas compactamente como
(D
= 1
s
) em que D e uma matriz conveniente.
14
4.1 Modelo linear geral
O chamado modelo linear geral tem formula c ao dada por
A = X , (11)
onde A e uma matriz u sr com posto r(A) = u sr tal que r([A
, D]) =
u + s, X e a matriz u p de constantes conhecidas especicadora do modelo
com posto r(X) = p u e e o vetor dos p par ametros do modelo estrutural.
Modelos de simetria e homogeneidade marginal, por exemplo, se enquadram
na express ao (11). Em termos de restri c oes, (11) e equivalente a
CA = 0
(up)
(12)
onde C e uma matriz (u p)u de caracterstica m axima, com linhas ortogonais
` as colunas de X.
Exemplo 1 (continua cao). A hip otese de a distribui c ao do grau de risco ser
a mesma para os dois metodos em an alise (homogeneidade marginal),
i
=
i
,
i = 1, 3, e express avel por (11) com = (
1
,
2
)
,
A =
_
_
_
_
_
1 1 1 0 0 0 0 0 0
0 0 0 1 1 1 0 0 0
1 0 0 1 0 0 1 0 0
0 1 0 0 1 0 0 1 0
_
_
_
_
_
, (13)
X =
_
_
_
_
_
1 0
0 1
1 0
0 1
_
_
_
_
_
. (14)
Sob a formula c ao (12), a hip otese de homogeneidade marginal pode ser expressa
com A dada por (13) e
C =
_
1 0 1 0
0 1 0 1
_
. (15)
Exemplo 7 (continua cao). A hip otese de simetria, i.e.
ij
=
ji
, i, j =
1, 3, i < j e express avel por (11) com = (
12
,
13
,
23
)
,
15
A =
_
_
_
_
_
_
_
_
_
_
0 1 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0
0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 1 0 0
0 0 0 0 0 0 0 1 0
_
_
_
_
_
_
_
_
_
_
, (16)
X =
_
_
_
_
_
_
_
_
_
_
1 0 0
0 1 0
1 0 0
0 0 1
0 1 0
0 0 1
_
_
_
_
_
_
_
_
_
_
. (17)
Sob a formula c ao (12), a hip otese de simetria pode ser expressa com A dada por
(16) e
C =
_
_
_
1 0 1 0 0 0
0 1 0 0 1 0
0 0 0 1 0 1
_
_
_. (18)
Exemplo 3 (continua cao). A compara c ao das subpopula c oes determinadas
pela combina c ao dos nveis das vari aveis denidoras da fazenda e ra ca poder a ser
feita em termos do tamanho medio da ninhada. Admitimos que as categorias
representadas pelos inteiros 3 s ao agrupadas tendo score comum igual a 3.
O interesse no modelo de ausencia de intera c ao entre as vari aveis explicativas
(fazenda e ra ca) e obtido em (11) tomando A e X indicadas abaixo, com
traduzindo a parametriza c ao da casela de referencia na subpopula c ao (1,1), ou
seja correspondente ` a ra ca A na fazenda 1, i.e., = (
1A
,
B
,
C
,
2
,
3
)
.
A = I
9
(0, 1, 2, 3)
(19)
X
=
_
_
_
_
_
_
_
_
1 1 1 1 1 1 1 1 1
0 1 0 0 1 0 0 1 0
0 0 1 0 0 1 0 0 1
0 0 0 1 1 1 0 0 0
0 0 0 0 0 0 1 1 1
_
_
_
_
_
_
_
_
(20)
16
4.2 Modelos log-lineares
Entre outras aplica c oes os modelos log-lineares s ao uteis na descri c ao de padr oes
de associa c ao entre vari aveis categorizadas. Exemplos tpicos s ao os modelos de
independencia. Os modelos log-lineares podem ser expressos na forma
log
q
= 1
r
q
+X
q
, q = 1, . . . , s
ou, de uma forma condensada, por
log = (I
s
1
r
) +X , (21)
onde e um vetor de s componentes associados ` as restri c oes naturais. A matriz
X = (X
1
, . . . , X
s
, de dimens ao (sr p), e tal que cada submatriz (r p) de

X, gerando
q
a partir de , satisfaz r([1
r
, X
q
]) = 1 + r(X
q
) , q = 1, . . . , s e
r([I
s
1
r
, X]) = s +r(X) = s +p. A formula c ao (21) equivale a
Alog = X
L
(22)
onde A e uma matriz s(r 1) sr tal que r(A) = s(r 1) e AD = 0
s(r1)s
e
X
L
e uma matriz s(r 1) p com as rela c oes
X
L
= AX e X = A
(AA
)
1
X
L
.
Na express ao acima 0
s(r1)s
representa uma matriz s(r 1) s de elementos
iguais a 0. Tomando A = I
s
[I
r1
, 1
r1
] obtemos os chamados logitos de
referencia (relativos ` a categoria r).
Exemplo 5 (continua cao). O modelo Multinomial correspondente a este
problema pode ser reparametrizado fazendo-se
log
ij
= +
X
i
+
Y
j
+
XY
ij
com as restri c oes de identicabilidade
2
i=1
X
i
=
2
j=1
Y
j
=
2
i=1
XY
ij
=
2
j=1
XY
ij
= 0.
O modelo estrutural de independencia corresponde a tomar
XY
11
= 0 e poder ser
expresso sob a formula c ao (21) com s = 1, r = 4, = , = (
X
1
,
Y
1
)
e
17
X =
_
_
_
_
_
1 1
1 1
1 1
1 1
_
_
_
_
_
. (23)
Sob a formula c ao (22), basta tomar
A =
_
_
_
1 0 0 1
0 1 0 1
0 0 1 1
_
_
_ (24)
X
L
=
_
_
_
2 2
2 0
0 2
_
_
_. (25)
Exemplo 6 (continua cao). Neste caso, que pode ser adequadamente mode-
lado por um produto de distribui c oes Multinomiais, o modelo log-linear saturado
correspondente pode ser convenientemente expresso por (22) com
A = I
6
(1, 1) (26)
X
L
=
_
_
_
_
_
_
_
_
_
_
1 1 1 1 1 1
1 1 1 0 1 0
1 1 0 1 0 1
1 1 1 1 1 1
1 1 1 0 1 0
1 1 0 1 0 1
_
_
_
_
_
_
_
_
_
_
. (27)
Aqui os elementos de = (,
1
,
1
,
2
,
11
,
12
)
tem interpreta c ao similar

` aquela dos par ametros de uma ANOVA com restri c oes de identicabilidade de
soma zero.
Embora as formula c oes (21) e (22) sejam equivalentes, para efeito de inter-
preta c ao e implementa c ao computacional, a primeira e mais adequada para prob-
lemas cujo modelo probabilstico e Multinomial enquanto a segunda e mais ade-
quada para problemas cujo modelo probabilstico e um produto de distribui c oes
Multinomiais.
18
Ainda em rela c ao aos modelos log-lineares pode-se considerar uma classe mais
ampla express avel por
A
log = X
L
, (28)
onde A
e uma matriz u sr com r(A
) = u s(r 1) e a matriz u p de
especica c ao X
L
e tal que r(X
L
) = p u. Nesta classe, mais ampla que aquela
descrita acima, podemos ter u < s(r 1) e A
D = 0
us
. Tais modelos s ao
ditos log-lineares generalizados. Quando A
D = 0
us
o modelo (28) pode
ser escrito na forma (21); para detalhes ver Paulino e Singer (2003).
Em certas aplica c oes o modelo e mais facilmente concretizado via (22) e em
outras, via (28).
Exemplo 2 (continua cao). Um dos objetivos do estudo era comparar
os riscos relativos de ocorrencia de complica c oes pulmonares no perodo p os-
operat orio, tomando como referencia a categoria de baixo risco pre-operat orio.
Assim, o modelo (28) reete a igualdade dos dois riscos relativos ao fazermos
= ,
A
=
_
0 1 0 1 0 0
0 1 0 0 0 1
_
, (29)
X
L
= (1, 1)
. (30)
4.3 Modelos funcionais lineares
Os modelos vistos anteriormente constituem casos particulares de modelos fun-
cionais lineares denidos por
F() = X , (31)
onde F() e um vetor de u s(r1) fun c oes parametricas de interesse e a matriz
u p de especica c ao X tem r(X) = p u. A fun c ao vetorial F() : IR
sr
IR
u
deve satisfazer certas condi c oes de regularidade (ver Paulino e Singer (2003), por
exemplo).
Aqui, (31) corresponde ` a chamada formula cao em termos de equa c oes
livres, sendo que (11), (22) e (28) conguram casos particulares. De forma
equivalente temos a formula cao em termos de restri c oes
19
CF() = 0
(up)
,
onde C
e uma matriz u (u p) base do complemento ortogonal do espa co

imagem de X, e portanto, CX = 0
(up)p
.
Em muitas aplica c oes F() pode ser construda atraves da composi c ao de
fun c oes lineares, logartmicas, exponenciais e adi c ao de um vetor de constantes.
Exemplo 1 (continua cao). Um dos objetivos do estudo era avaliar o grau
de concord ancia entre os dois metodos de avalia c ao. Para isto pode-se usar a
estatstica Kappa,
=
ii

i
1
i
=
ii

i
_
j=i
j
_
.
que pode ser obtida atraves de
F() = = exp[A
4
log{A
3
exp{A
2
log(A
1
)}}] , com
A
1
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0 0 1 0 0 0 1
1 1 1 0 0 0 0 0 0
0 0 0 1 1 1 0 0 0
0 0 0 0 0 0 1 1 1
1 0 0 1 0 0 1 0 0
0 1 0 0 1 0 0 1 0
0 0 1 0 0 1 0 0 1
1 1 0 1 1 0 1 1 0
1 0 1 1 0 1 1 0 1
0 1 1 0 1 1 0 1 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
, (32)
A
2
=
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0 0 0 0 0 0 0 0
0 1 0 0 1 0 0 0 0 0
0 0 1 0 0 1 0 0 0 0
0 0 0 1 0 0 1 0 0 0
0 1 0 0 0 0 0 0 0 1
0 0 1 0 0 0 0 0 1 0
0 0 0 1 0 0 0 1 0 0
_
_
_
_
_
_
_
_
_
_
_
_
_
, (33)
A
3
=
_
1 1 1 1 0 0 0
0 0 0 0 1 1 1
_
, (34)
20
A
4
=
_
1 1
_
. (35)
5 Estima cao por Maxima Verossimilhan ca
Para estimar os par ametros dos modelos estruturais apresentados consideramos
um conjunto de dados com o paradigma da Tabela 2, para o qual assumimos um
modelo probabilstico Produto de Multinomiais, em que, por raz oes de simplici-
dade notacional denimos
ij
=
i(j)
. Nosso interesse e ajustar modelos estrutu-
rais da forma = () = (
1
(), . . . ,
s
())
com
i
() = (
i1
(), . . . ,
ir
())
,
i = 1, . . . , s em que e um vector p-dimensional de par ametros desconhecidos.
Sob essas condi c oes, o logaritmo da fun c ao de verossimilhan ca correspondente
pode ser expresso como
ln L
n
(|n) = K +
s
i=1
r
j=1
n
ij
ln
ij
() (36)
em que K e uma constante que n ao depende de . O estimador de m axima
verossimilhan ca (MV) de e a solu c ao

n
das seguintes equa c oes, obtidas quando
igualamos a zero as derivadas de (36)
U
n
() =
s
i=1
r
j=1
n
ij
ij
()
ij
() = 0 sujeito a
r
j=1
ij
() = 1, i = 1, . . . , s.
(37)
Como a matriz hessiana correspondente,
V
n
() =

2
ln L
n
(|n)
=
s
i=1
r
j=1
n
ij
[
ij
()]
2
ij
()

ij
()
+
s
i=1
r
j=1
n
ij
ij
()
ij
()
e negativa negativa, a solu c ao de (37) corresponde a um ponto de m aximo.
Embora existam solu c oes explcitas de (37) em alguns casos, geralmente e
preciso recorrer a metodos iterativos para resolver essas equa c oes. Um dos mais
comum e o metodo de Newton-Raphson, que consiste em iterar
21
(q)
=
(q1)
[V
n
(
(q1)
]
1
U
n
(
(q1)
), q = 1, 2, . . . (38)
iniciando o processo por uma aproxima c ao conveniente
(0)
e terminando-o com
a satisfa c ao de um criterio de convergencia previamente denido. Em situa c oes
particulares, outros metodos iterativos podem ser mais convenientes.
5.1 Modelo linear geral
Para o modelo de simetria, existem solu c oes explcitas para as equa c oes de verossim-
ilhan ca que s ao dados por
ij
=
_
n
ij
/N, i = j
(n
ij
+n
ji
)/(2N), i = j.
(39)
Para outros modelos estruturais, o metodo do gradiente, proposto por Paulino
e Silva (2000) e uma alternativa adequada. O metodo e desenvolvido com base
na formula c ao (12). Partindo de uma estimativa inicial para , novas estimativas
s ao calculadas iterativamente ate que um criterio de convergencia seja satisfeito.
Com a estimativa de assim obtida, denotada por

(nota c ao tambem usada
para o estimador), segue de (11) que
= (X
X)
1
XA
.
Para grandes amostras a matriz de covari ancia aproximada do estimador MV
de e dada por
V
= { J
D
N
D
1
()
J }
1
, (40)
onde N = n
.
1
r
= (I
s
1
r
1
r
) e D
N
e uma matriz diagonal sr sr tendo
os componentes de N na diagonal. A matriz J, de dimens ao sr p, suposta de
posto completo, e o jacobiano ()/
, e e calculada por
J = PA
(APA
)
1
X , com P = I
s
(I
r
r
1
1
r
1
r
).
A matriz de covari ancia assint otica de A
e dada por
V
A
= X V
. (41)
Substituindo por

em (40) e (41) obtemos estimadores consistentes das
matrizes de covari ancias correspondentes.
22
5.2 Modelos log-lineares
Um exemplo de situa c ao em que existem solu c oes explcitas para as equa c oes
de verossimilhan ca (37) e aquele para qual o modelo de independencia pode ser
cogitado. Nessas condi c oes, para uma tabela I J, os estimadores MV de
ij
s ao
dados por
ij
= n
i
n
j
/N, i = 1, , I, j = 1, , J. (42)
Para outros casos, podemos adotar o procedimento de Newton-Raphson de-
scrito em Reis (1989), por exemplo. O procedimento iterativo para maximiza c ao
da fun c ao de verossimilhan ca e iniciado com uma estimativa
(0)
. A partir desta,
e s ao sucessivamente calculados ate que um criterio de convergencia seja
atendido. As matrizes de covari ancias assint oticas de e Alog s ao dadas por
V
= {
s
q=1
n
q.
X
q
[D
q

q
q
]X
q
}
1
(43)
V
Alog
= X V
= X{J
D
N
D
1
()
J }
1
X
(44)
Substituindo por

em (43) e (44) obtemos estimadores consistentes para as
respectivas matrizes de covari ancias.
6 Estima cao por Mnimos Quadrados General-
izados
Nas Se c oes 5.1 e 5.2 o metodo MV foi particularizado para os modelos linear
geral e log-linear. Aqui nos dedicamos ` a tecnica MQG, aplic avel a toda a classe
de modelos funcionais lineares da Se c ao 4.3. Em particular, essa tecnica tambem
e aplic avel aos modelos linear geral e log-linear. Referencias importantes sobre
esse t opico s ao Grizzle, Starmer and Koch (1969), Landis et al. (1976) e Koch et
al. (1985).
Seja p = D
1
N
n o vetor das sr propor c oes amostrais. A matriz de covari ancia
de p e a matriz sr sr diagonal em blocos dada por
V
p
= D
1
N
diag(D
q

q
q
, q = 1, . . . , s). (45)
Substituindo por p em (45) obtemos o seguinte estimador consistente para V
p
:
23
V
p
= D
1
N
diag(D
pq
p
q
p
q
, q = 1, . . . , s). (46)
Denindo F [F
1
(p), . . . , F
u
(p)]
temos um estimador consistente de F(). Um

estimador consistente da matriz de covari ancia de F e dado por
V
F
= H

V
p
H
, (47)
em que H = F()/ |
=p
e a matriz u sr das derivadas das fun c oes F()
calculadas em p.
Escrevendo
E
A
(F) = F() = X , (48)
onde E
A
signica valor esperado assint otico e X e tem o mesmo signicado
indicado na Se c ao 4.3, o estudo das fun c oes de interesse F() pode ser feito
analisando (48) como um modelo de regress ao linear. Minimizando
(F X)
V
F
1
(F X) ,
obtemos o estimador de MQG
= (X

V
F
1
X)
1
X

V
F
1
F , (49)
cuja matriz de covari ancia pode ser estimada de forma consistente por
= (X

V
F
1
X)
1
. (50)
Valores preditos de F() sob o modelo (48) podem ser calculados como
F = X
. (51)
Um estimador consistente da matriz de covari ancia correspondente e
F
= X(X

V
F
1
X)
1
X
(52)
Um estimador consistente para o vetor de probabilidades e fornecido por
= p

V
p
H

V
F
1
(F

F)
24
Observa cao 1. Mesmo quando o modelo Produto de Multinomiais n ao e ad-
equado ` as freq uencias observadas, podemos realizar a an alise das fun c oes de in-
teresse usando os resultados (49)(52) se dispusermos de estimativas de F() e
V
F
com as propriedades mencionadas.
Observa cao 2. A existencia de freq uencias observadas nulas (zeros amostrais)
merece aten c ao especial neste caso. Ver Paulino e Singer (2003) para detalhes.
7 Testes de ajustamento dos modelos
Calculada uma estimativa

para o vetor de probabilidades,

= D
N
fornece
uma estimativa para as freq uencias esperadas nas caselas. O ajustamento dos
modelos pode ser avaliado confrontando, por algum meio, as freq uencias obser-
vadas (n) com as freq uencias esperadas sob o modelo (
).
Para os modelos linear geral e log-linear com par ametros estimados por MV
podemos usar a estatstica da raz ao de verossimilhan cas de Wilks
Q
V
= 2n
(log
logn). (53)
As estatsticas de Pearson (Q
P
) e de Neyman (Q
N
) denidas como
Q
P
= (n

)
D
1
(n

), (54)
Q
N
= (n

)
D
1
n
(n

) (55)
s ao gerais na medida em que se aplicam aos dois metodos de estima c ao (MV e
MQG). O c alculo de Q
P
exige freq uencias estimadas estritamente positivas,
enquanto Q
V
e Q
N
exigem freq uencias observadas com esta propriedade.
O teste de ajustamento do modelo dispensa a estima c ao dos par ametros, se
recorrermos ` a estatstica de Wald
Q
W
= (CF)
[CH
V
p
(CH)
]
1
CF , (56)
onde F = Ap (F = Alogp), H = A ( H = AD
1
p
) para o modelo linear geral
(log-linear) e

V
p
e dada em (46). A matriz C exerce o mesmo papel indicado na
Se c ao 4.3, mas em rela c ao ` a matriz X em (11), X
L
em (22) e X
L
em (28), con-
soante o modelo em quest ao. No caso do modelo (28), a matriz A usada no c alculo
de H acima e substituda por A
. Nos modelos log-lineares, as frequencias ob-

servadas devem ser estritamente positivas. As estatsticas Q
N
e Q
W
s ao identicas
quando avaliadas com estimativas MQG.
25
Sob a validade do modelo estrutural em teste, a distribui c ao limite comum
das estatsticas apresentadas e qui-quadrado com u p graus de liberdade, com
u = s(r 1) nos modelos (21) e (22).
Na situa c ao da nota do nal da Se c ao 6 o ajuste do modelo pode ser testado
com a estatstica de Wald.
8 Hip oteses redutoras de modelos
Tendo conseguido um modelo satisfatoriamente ajustado aos dados pode haver
interesse em testar simplica c oes adicionais materializadas em hip oteses do tipo
H
0
: W = 0
t1
, (57)
onde W e uma matriz t p de posto r(W) = t p. Essas hip oteses podem ser
testadas atraves da estatstica generalizada de Wald
Q
WG
= (W
(W
)
1
W
, (58)
onde

e

V
s ao calculados de acordo com o modelo (ver express oes apropriadas

nas Se c oes 5.1, 5.2 e 6). Sob H
0
a distribui c ao limite de Q
WG
e
2
t
.
26
9 Exemplo de analise
Tabela 13: Distribui c ao de les ao obstrutiva coronariana expressiva para pa-
cientes com e sem hipertens ao arterial, controlando sexo e idade.
Hipert Grau de les ao
Sexo Idade arterial LO<50% LO50% Total
Fem <55 N ao 31 (65%) 17 (35%) 48 (100%)
Sim 42 (61%) 27 (39%) 69 (100%)
55 N ao 55 (57%) 42 (43%) 97 (100%)
Sim 94 (47%) 104 (53%) 198 (100%)
Subtotal 222 (51%) 190 (49%) 412 (100%)
Masc <55 N ao 80 (42%) 112 (58%) 192 (100%)
Sim 70 (35%) 130 (65%) 200 (100%)
55 N ao 74 (28%) 188 (72%) 262 (100%)
Sim 68 (18%) 314 (82%) 382 (100%)
Subtotal 292 (22%) 744 (78%) 1036 (100%)
Total 514 (35%) 934 (65%) 1448 (100%)
Vari aveis explicativas: Sexo (M, F), Idade (< 55, 55%), HAS (n ao, sim)
Vari avel resposta: grau de les ao obstrutiva (< 50%, 50%)
Modelo probabilstico: Produto de distribui c oes Binomiais
Par ametros:
p(F, < 55, H): propor c ao (populacional) de pacientes com les ao ob-
strutiva 50% entre as mulheres com < 55 anos hipertensas
p(M, 55, NH): propor c ao (populacional) de pacientes com les ao
obstrutiva 50% entre os homens com 55 anos n ao hipertensos.
Deni c ao an aloga para os demais par ametros
Um modelo estrutural saturado para esse problema pode ser expresso por (22)
com
A = I
8
(1, 1)
27
X
L
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
.
O modelo aditivo, i.e., sem as intera c oes de primeira ou segunda ordem entre as
vari aveis explicativas pode ser escrito na mesma formula c ao; nesse caso a matriz
X
L
e obtida da matriz acima com a elimina c ao das ultimas quatro colunas. O
vetor de par ametros correspondente e = (intercepto, sexo, idade, HAS)
.
Os resultados sugerem um bom ajuste e as estimativas (exponenciadas) dos
par ametros correspondentes est ao indicadas na Tabela 14.
Tabela 14: Estimativas das raz oes de chances sob um modelo log-linear
aditivo
Par ametro Estimativa IC (95%)
exp(idade) 1.95 1.54 - 2.48
exp(HAS) 1.50 1.19 - 1.90
exp(Sexo) 3.41 2.58 - 4.35
Caso os 1448 pacientes avaliados puderem ser considerados como uma amostra
aleat oria simples da popula c ao de interesse, podemos concluir que a chance (odds)
de pacientes do sexo feminino com idade < 55 anos e sem hipertens ao arterial ter
les ao obstrutiva 50% contra n ao te-la e de 0.40 (IC(95%) = 0.40; 0.55). Inde-
pendentemente dessa suposi c ao (isto e, mesmo que essa chance tenha um valor R
diferente desse), a chance correspondente ca multiplicada por 3.41 (IC(95%) =
2.58; 4.35) para pacientes do sexo masculino, por 1.95 (IC(95%) = 1.54; 2.48)
para pacientes com idade 55 e por 1.50 (IC(95%) = 1.19; 1.90) para pacientes
hipertensos. Dessa forma temos:
28
Tabela 15: Chances ajustadas atraves de modelo log-linear aditivo
Sexo Idade Hipertens ao arterial Chance
LO 50%/LO < 50%
Fem < 55 N ao R
Fem 55 N ao 1.95 x R
Fem < 55 Sim 1.50 x R
Fem 55 Sim 1.95 x 1.50 x R
Masc < 55 N ao 3.41 x R
Masc 55 N ao 3.41 x 1.95 x R
Masc < 55 Sim 3.41 x 1.50 x R
Masc 55 Sim 3.41 x 1.95 x 1.50 x R
Se a suposi c ao de que os 1448 pacientes constituem uma amostra aleat oria da
popula c ao de interesse, basta substituir R por 0.40 na tabela acima, para termos
as chances correspondentes. Os termos que multiplicam a chance R s ao as raz oes
de chances (odds ratios).
Referencias
[1] EMBRAPA (1996). Centro Nacional de Pesquisa Tecnol ogica em Inform atica
para a Agricultura. Software NTIA, vers ao 4.2.1 : manuais. 2 disquetes
3 1/2. Campinas.
[2] Grizzle, J.E., Starmer, C.F. and Koch, G.G. (1969). The analysis of categor-
ical data by linear models. Biometrics, 25, 489504.
[3] Koch, G.G., Imrey, P.B., Singer, J.M., Atkinson, S.S. and Stokes, M.E.
(1985). Lectures Notes for Analysis of Categorical Data. Montreal: Les
Presses de lUniversite de Montreal.
[4] Landis, R., Stanish, W. Freeman, J. and Koch, G.G. (1976). A computer
program for the generalized chi-square analysis of categorical data using
weighted least squares (GENCAT). Computer Programs in Biomedicine, 6,
196-231.
[5] Paulino, C.D.M. e Singer, J.M. (2003). An alise de Dados Categorizados
(Vers ao preliminar parcial). S ao Paulo: IME/USP.
29
[6] Paulino, C.D.M. e Silva, G.L. (2000). On the maximum lilkelihood analysis
of the general linear model in categorical data. Computational Statistics and
Data Analysis, 30, 197-204.
[7] Reis, I.M. (1989). Modelos Log-lineares para An alise de Dados Categoriza-
dos. Departamento de Estatstica, Disserta c ao de mestrado. S ao Paulo:
IME/USP.
[8] Savalli, C., Paulino, C.D.M., Silva, G.L., Singer, J.M., Chicarino, M.P.Z.,
Castro, M. e Tavares, R.A. (1999). An alise de Dados Categorizados no Sis-
tema EMBRAPA-CNPTIA-NTIA, Vers ao 1.0. S ao Paulo: IME/USP.
[9] Upton, G. and Fingleton, B. (1985). Spatial data analysis by example, Vol
1.. London: Wiley.
30

Análise de Dados Categorizados

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análise de Dados Categorizados

Uploaded by

Copyright:

Available Formats

AN

= j, se para tal indivduo se tem X

pode ser obtido a partir do Modelo Produto de distribui c oes de

, de dimens ao (sr p), e tal que cada submatriz (r p) de

tem interpreta c ao similar

e uma matriz u sr com r(A

e uma matriz u (u p) base do complemento ortogonal do espa co

temos um estimador consistente de F(). Um

. Nos modelos log-lineares, as frequencias ob-

s ao calculados de acordo com o modelo (ver express oes apropriadas

You might also like