You are on page 1of 7

MTODOS ESTATSTICOS MULTIVARIADOS DISCIPLINA MTODOS ESTATSTICOS MULTIVARIADOS OBJETIVOS: -INTRODUZIR MTODOS ESTATSTICOS MULTIVARIADOS PARA LEIGOS -SERVIR

COMO UM GUIA PRTICO - ILUSTRAR AS POSSIBILIDADES DE ANLISE ESTATSTICA MULTIVARIADA PR-REQUISITOS - CONHECIMENTO PRTICO DE ESTATSTICA ELEMENTAR -TESTES DE SIGNIFICNCIA USANDO A DISTRIBUICO NORMAL, t, QUIQUADRADO E F - ANLISE DE VARINCIA E REGRESSO LINEAR - LGEBRA MATRICIAL (RAZOVEL COMPETNCIA NA REA) - ACESSO A ALGUM PACOTE COMPUTACIONAL OBS: TODOS OS ALUNOS DEVEM DURANTE A DISCIPLINA IMAGINAR OS SEUS DADOS EM CADA TCNICA MULTIVARIADA QUE FOR SENDO EXPLANADA O MATERIAL DE ANLISE MULTIVARIADA 1.1 EXEMPLOS DE DADOS MULTIVARIADOS (VRIAS VARIVEIS RELACIONADAS, SIMULTANEAMENTE) UNIVARIADO MULTIVARIADOS ENSAIOS OBSERVACIONAIS EXPERIMENTAIS

EXEMPLO 1.1 PARDAIS SOBREVIVENTES DA TEMPESTADE DESCRIO: APS UMA FORTE TEMPESTADE EM 1 DE FEVEREIRO DE 1898, DIVERSOS PARDAIS MORIBUNDOS FORAM LEVADOS AO LABORATRIO BIOLGICO DE HERMON BUMPUS NA UNIVERSIDADE DE BROWN EM RHODE ISLAND. APROXIMADAMENTE METADE DOS PSSAROS MORREU E BUMPUS VIU ISSO COMO UMA OPORTUNIDADE DE ENCONTRAR SUPORTE PARA A TEORIA DE SELEO NATURAL DE CHARLES DARWIN. TOMOU 8 MEDIDAS MORFOL GICAS EM CADA PASSARO E TAMBEM OS PESOU. OS RESULTADOS DE 5 MEDIDAS SO MOSTRADOS NA TABELA 1.1, PARA FMEAS SOMENTE. Tabela 1.1 Medidas do corpo de pardocas PASSAROS X1 (mm) X2 (mm) 1 156 245 ... ... ... 49 164 248 Nota: X1 Comprimento Total ... X3(mm) 31,6 ... 32,3 X4(mm) 18,5 ... 18,8 X5 (mm) 20,5 ... 20,9

Francis Galton, 1877, iniciou estudos do coeficiente de correlao linear como uma medida de relao entre duas variveis.

Carlos Tadeu dos Santos Dias

MTODOS ESTATSTICOS MULTIVARIADOS Harold Hotelling 1956, descreveram um mtodo pratico para componentes principais

QUESTES RESPONDER: 1. Como esto as vrias variveis relacionadas? Por exemplo, um valor grande para uma das variveis tende a ocorrer com valores grandes para as outras variveis? 2. Os sobreviventes e no-sobreviventes tm diferenas estatisticamente significantes para seus valores mdios das variveis? 3. Os sobreviventes e no-sobreviventes mostram quantidades similares de variao para as variveis? 4. Se os sobreviventes e no-sobreviventes diferem em termos das distribuies das variveis, ento possvel construir alguma funo dessas variveis que separe os dois grupos? Ento seria conveniente se valores grandes da funo tendessem a ocorrer com os sobrevivent es enquanto que a funo seria aparentemente um ndice de ajuste darwiniano das pardocas. EXEMPLO 1.2 CRNIOS EGPCIOS Medidas feitas em crnios masculinos da rea de Tebas no Egito. H cinco amostras de 30 crnios cada uma dos perodos: Pr-dinstico primitivo (cerca de 4000 a.c.); Do perodo pr-dinstico (cerca de 3300 a.c.); Da 12 e 13 dinastias (cerca de 1850 a.c.); Do perodo ptolemaico (cerca de 200 a.c.); Do perodo romano (cerca de 150 d.c.). Tabela 1.2 Medidas de crnios egpcios masculinos (mm)
Crnios
1 131

X1

...
30

...

138

P.D.P. X2 X3
89

X4
49 46

P.P.D X1 X2
124 130

124

...

138

101

...

... ...

138

X3

128

...

...

101

X4
48

Da 12 e 13 D. X1 X2 X3
137

101

... ...
51

138

...

141 133

... ... ...


91 46

96

X4
52

X1

137

X2

135

...

134

P.P. X3

130

...

107

X4
54

X1

100

... ...
51

137

123 133

X2

P.R. X3
91

136

...

97

... ...
51

50

X4

Figura 1.1 QUESTES RESPONDER: 1. Como esto as quatro variveis relacionadas? 2. Existem diferenas estatisticamente diferentes nas mdias amostrais das variveis? E se existem, essas diferenas refletem mudanas graduais ao longo do tempo na forma e tamanhos dos crnios? 3. Existem diferenas significantes nos desvios padro amostrais para as variveis, e se existem, essas diferenas refletem mudanas graduais ao longo do tempo na quantidade de variao? 4. possvel construir uma funo das quatro variveis que, em algum sentido, descreva as mudanas ao longo do tempo? Obs.: Existem diferenas entre as cinco amostras que podem ser explicadas parcialmente como tendncias no tempo. Obs.: No entanto, as razes para as aparentes mudanas so desconhecidas. Por exemplo, migrao de outras raas dentro da regio pode ter sido o fator mais importante. Carlos Tadeu dos Santos Dias

MTODOS ESTATSTICOS MULTIVARIADOS

EXEMPLO 1.3 DISTRIBUIO DE BORBOLETAS DESCRIO: 16 colnias de borboletas Euphydryas editha na Califrnia e Oregon. Tabela 1.3 Variveis ambientais e freqncias gnicas
Colnias SS ... GL Altitude (ps) 500 ... 10500 Precipitao Anual (pol.) 43 ... 50 Temperaturas Mxima Mnima 98 17 ... ... 81 -12 Freq. de mobilidade gnica Pgi (%) 0,4 0,6 0,8 1 1,16 1,3 0 3 22 57 17 1 ... ... ... ... ... ... 0 3 1 92 4 0

Obs.: As freqncias descrevem a distribuio gentica das borboletas Figura 1.2 localizao geogrfica das colnias QUESTES RESPONDER: 1. So as freqncias Pgi similares para colnias que esto prximas no espao? 2. O quanto, se algum, as freqncias Pgi esto relacionadas s variveis ambientais? Obs.: So questes importantes na tentativa de decidir como as freqncias Pgi so determinadas: - Se a composio gentica das colnias foi largamente determinada pelas migraes passadas e presentes, ento as freqncias gnicas tendero a ser similares para colnias que esto localizadas nas proximidades, apesar delas poderem mostrar um pequeno relacionamento com as variveis ambientais. - Por outro lado, se o meio ambiente mais importante, ento isso deve aparecer em relacionamentos entre as freqncias gnicas e as variveis ambientais (assumindo que tenham sido medidas as variveis corretas) Obs.: O pesquisador tem que dominar a informao que as variveis trazem para sua pesquisa. Definir bem quais so as importantes e sempre mirando no objetivo da pesquisa. No deve ser o estatstico ou uma expressomodelo estatstica que define isso. - Colnias prximas somente tm freqncias gnicas similares se elas tm ambientes similares. - Obviamente que colnias que esto prximas no espao usualmente tm ambientes similares (APARENTEMENTE), de modo que pode ser difcil chegar a uma concluso sobre essa questo. EXEMPLO 1.4 CES PR-HISTORICOS NA TAILNDIA Tabela 1.4 Mdias de medidas de mandbulas para sete grupos caninos (mm) Grupo X1 X2 X3 X4 X5 X6 Co moderno 9,7 21,0 19,4 7,7 32,0 36,5 ... ... ... ... ... ... ... Co pr-histrico (PH) 10,3 22,1 19,1 8,1 32,2 35,0 Obs.: A origem dos ces PH no conhecida. Obs.: Na tentativa de esclarecer os ancestrais dos ces PH foram feitas medidas de mandbula em espcimes de todos os 7 grupos

Carlos Tadeu dos Santos Dias

MTODOS ESTATSTICOS MULTIVARIADOS QUESTES RESPONDER: 1. O que as medidas sugerem sobre os relacionamentos entre os grupos? 2. Como os ces PH parecem se relacionar com os outros grupos? EXEMPLO 1.5 EMPREGO EM PAISES EUROPEUS Tabela 1.5 Porcentagem de fora de trabalho de empregados em nove diferentes grupos de indstria em 30 pases da Europa Pas Grupo AGR MIN FAB FE CON SER FIN SSP TC Blgica UE 2,6 0,2 20,8 0,8 6,3 16,9 8,7 36,9 6,8 ... ... ... ... ... ... ... ... ... ... ... Turquia Outro 44,8 0,9 15,3 0,2 5,2 12,4 2,4 14,5 4,4 Objetivos: - Isolar grupos de pases com padres similares de empregos - Entender os relacionamentos entre os pases - Diferenas entre pases que so relacionados a grupos polticos (EU, AELC, LESTE EU) podem ser de particular interesse. 1.2 VISO PRVIA DOS MTODOS MULTIVARIADOS

ANLISE DE COMPONENTES PRINCIPAIS ACP (PCA) O QUE : So combinaes lineares das variveis originais OBJETIVO: Reduzir o nmero de variveis a um nmero menor de ndices (Componentes principais) e que expliquem grande parte da varincias das variveis originais EXEMPLO: Grande parte da variao nas medidas do corpo das pardocas (X1 a X5, Tabela 1.1) est relacionado ao tamanho geral dos pssaros e o total I1=X1+X2+X3+X4+X5, mede esse aspecto dos dados, em uma dimenso. Obs.: Em estatstica, uma combinao de variveis aleatrias, tambm uma varivel aleatria (Reduo de 5 1) I2=X1+X2+X3-X4-X5, um contraste entre as trs primeiras variveis medidas e as duas ultimas. Este reflete outra dimenso dos dados. Obs.: Essa combinao linear nas variveis X's aqui obtidas de forma arbitrria, pode no maximizar a informao de varincia total das X's Obs.: A ACP fornece uma forma objetiva de encontrar ndices, tornando concisa a informao de variao nos dados. A ACP um meio de simplificar dados pela reduo do nmero de variveis. ANLISE DE FATORES AF (FA) O QUE : Ao contrrio da ACP, na AF cada varivel original expressa como uma combinao linear desses fatores, mais um termo residual que reflete o quanto a varivel independente das outras variveis. Estudar a variao das variveis originais usando um nmero menor de variveis ndices ou FATORES EXEMPLO: Um modelo de dois fatores para os dados das pardocas:

Carlos Tadeu dos Santos Dias

MTODOS ESTATSTICOS MULTIVARIADOS

X1=a11F1+a12F2+e1 X2=a21F1+a22F2+e2 X3=a31F1+a32F2+e3 X4=a41F1+a42F2+e4 X5=a51F1+a52F2+e5 em que aij so constantes; F1 e F2 so fotores; ei so erros especficos (parte da variao em Xi que independente da variao nas outras variveis). - Aqui, F1 pode ser o fator Tamanho e a11, a21, a31 a41 e a51 seriam todos positivos, refletindo o fato de que alguns pssaros tendem a ser grandes e outros pequenos em todas as medidas do corpo. - F2 poderia medir a forma dos pssaros com alguns coeficientes positivos e outros negativos Obs.: Se o modelo com F1 e F2 ajustar bem aos dados, ento ele forneceria uma descrio relativamente direta do relacionamento entre as cinco medidas do corpo que esto sendo consideradas. F1* F1 ROTAO FATORIAL (VARIMAX) F2* OBJETIVO: facilitar a interpretao dos Fatores. F2 ANLISE DE FUNO DISCRIMINANTE AFD (DFA) OBJETIVO: Formar diferentes grupos de observaes (ou indivduos, amostras), com base nas variveis disponveis. EXEMPLO: A AFD pode ser usada para ver quo bem pardais sobreviventes e nosobreviventes podem ser separados usando suas medidas e assim ver quais variveis discriminam tais populaes. BASE: Combinaes lineares convenientes das variveis originais. Distncias ANLISE DE AGRUPAMENTO (AG) O QUE : a identificao de objetos similares

Objetos Obs.:Nos exemplos dos pardais, no h muito sentido em fazer AG, pois os grupos j existem a priori (sobreviventes e no-sobreviventes). Idem para o exemplo dos crnios egpcios, pois pocas j so conhecidas. Obs.: No exemplo 1.3 poder haver algum interesse em agrupar colnias de borboletas com base nas variveis ambientais ou freqncias Pgi ou ambas. Obs.: No exemplo 1.4 o principal interesse est na similaridade entre ces pr-histricos tailandeses e outros animais (a similaridade entre as outras raas e de interesse secundrio) Obs.: No exemplo 1.5 os pases europeus podem possivelmente ser agrupados em termos de suas similaridades no padro de empregos. Carlos Tadeu dos Santos Dias

O2 O5 O1 O3 O2

MTODOS ESTATSTICOS MULTIVARIADOS

ANLISE DE CORRELAO CANNICA ACC (CCA) OBJETIVO: Descobrir alguma relao entre grupo de variveis (no objetos) No Exemplo 1.3 o interesse biolgico est na relao entre as variveis genticas e ambientais ANLISE DE ESCALONAMENTO MULTIDIMENSIONAL AEM (MSA) OBJETIVO: partir de alguma medida de distncias entre objetos constre-se um mapa mostrando como estes objetos esto relacionados. No Exemplo 1.4 h formas de medir as distncias entre ces modernos e jacais dourados, ces modernos e lobos indianos etc. Temos 21 distancias e delas a AEM pode ser usada para produzir um tipo de mapa de relacionamento entre os grupos. MAPA UNIDIMENSIONAL GRUPOS EM UMA LINHA RETA MAPA BIDIMENSIONAL GRUPOS EM PONTOS EM UM PLANO MAPA TRIDIMENSIONAL GRUPOS EM UM CUBO Obs.: Solues de quarta dimenso ou mais so possveis, mas de uso limitado, pois no podem ser visualizados de forma simples Obs.: A AEM pode ser uma alternativa til AG. - No exemplo 1.4 mostraria imediatamente quais grupos de ces o PH so mais similares - No exemplo 1.5 uma AEM mostraria pases do leste europeu podem estar juntos de pases do oeste europeu, por suas caractersticas de semelhana nas suas polticas de emprego. Obs.: Mtodos de ordenao CP e EM, produzem eixos nos quais um conjunto de objetos de interesse pode ser representado. Existem outros ANLISE DE COORDENADS PRINCIPAIS (AC*P) DEFINIO: um tipo de ACP que inicia com informaes sobre o quanto os pares de objetos so diferentes (medidas de dissimilaridades) em vez dos valores das medidas dos objetos (dados originais) OBJETIVOS: os mesmos da AEM, mas os mtodos numricos so diferentes. ANLISE DE CORRESPONDNCIA (AC) CARACTERSTICAS DOS DADOS: Dados de abundncia (freqncia, ocorrncia) de cada uma das variveis, para cada objeto (indivduo, amostra). TIL: em ecologia diferentes locais (objetos) e diferentes espcies (variveis) OBJETIVO: tornar clara as relaes entre os locais, em termos de distribuio das espcies e vice-versa caros, insetos, bactrias, vrus, 1.3 A DISTRIBUIO NORMAL MULTIVARIADA pssaros, pessoas, IMPORTNCIA: muitos mtodos estatsticos, assumem a DNM no borboletas, rvores, momento de realizar os testes estatsticos (ANLISE CONFIRMATRIA) plantas, micro- ou EXIGNCIA MNIMA PARA A MULTINORMALIDADE: macro-nutrientes etc. Que cada varivel seja individualmente normal (mas isso no garante a multinormalidade!) X~Np( , ) TRANSFORMAO DE DADOS (Potncia tima de Box-Cox) pode levar uma varivel normalidade! Carlos Tadeu dos Santos Dias

MTODOS ESTATSTICOS MULTIVARIADOS

1.4 PROGRAMAS COMPUTACIONAIS No se consegue fazer uma boa anlise estatstica multivariada sem o uso de computadores! O uso de mtodos multivariados por pesquisadores ainda hoje escasso! RAZOES: - Desconhecimento dos mtodos multivariados; - Receio do uso de lgebra de matrizes; - Medo de interpretar os resultados; Precisamos ser mais agressivos no uso desses mtodos! SAS R SPSS CANOCO (ter Braak e Smilauer, 2003) PC-ORD (Digisys, 2003) XLSTAT-PRO (Xlstat, 2003) add-in para o Excel, GenStat, MINITAB, MVSP 3.1, NCSS 2004, Stata 8.0, Statistica 6.1 1.5 MTODOS GRFICOS A grande evoluo das facilidades computacionais tem levado a um crescimento na variedade de mtodos grficos disponveis para dados multivariados, p.ex. BIPLOT

Carlos Tadeu dos Santos Dias

You might also like