You are on page 1of 5

1

6LJQLILFkQFLD FRP FRQILDQoD" 0iULR % :DJQHU Doutor em Epidemiologia (Universidade de Londres) Professor Adjunto, Departamento de Medicina Social, Faculdade de Medicina, Universidade Federal do Rio Grande do Sul Fonte: -RUQDO GH 3HGLDWULD ; :343-346. 5HVXPR Objetivos: Discutir brevemente aspectos da inferncia estatstica em medicina, salientando as limitaes da significncia obtida nos testes de hiptese da escola estatstica clssica de NeymanPearson, e a utilidade das estimativas de efeito por intervalos de confiana. Mtodos: Reviso de diversos livros de epidemiologia, bioestatstica e artigos selecionados. Resultados: Existem diversos testes de significncia estatstica que so freqentemente encontrados em artigos publicados na literatura mdica. Os resultados desses testes podem levar a concluses enganosas se no forem adequadamente interpretados. Uma vez que a significncia estatstica no assegura relevncia aos achados do estudo, sugere-se a utilizao de medidas de associao e seus respectivos intervalos de confiana para a avaliao da significncia clnica. Concluso: O rtulo estatisticamente significativo potencialmente enganoso e tem estado sob constantes crticas por parte de vrios estatsticos e epidemiologistas durante os ltimos anos. Para que se possa avaliar significncia igualmente ou mais importante do que o valor P que se estime o tamanho da associao envolvida. Isto pode ser obtido atravs de medidas de associao como o risco relativo e seus intervalos de confiana. $EVWUDFW Objectives: To briefly discuss aspects of statistical inference in medicine, pointing out limitations of the traditional statistical hypothesis testing under the Neyman-Pearson school, and the advantages of effect estimation using confidence intervals. Methods: Review of a number of epidemiology and biostatistics textbooks and selected articles. Results: There are a number of statistical significance tests which are frequently found in articles published in the medical literature. The results of these tests, however, can be misleading if not properly interpreted. Since statistical significance does not ensure relevance to study findings, measures of association and related confidence intervals are suggested for the proper consideration of clinical significance. Conclusion: The label of statistically significant finding is potentially misleading and has been under constant criticism by many statisticians and epidemiologists during recent years. In order to evaluate significance it is equally or more important than the P value to estimate the size of the association involved. This can be achieved by using measures of association such as the relative risk and related confidence intervals.

,QWURGXomR Nos artigos publicados em revistas mdicas, alm da freqente utilizao do mtodo epidemiolgico moderno so empregadas tcnicas estatsticas (algumas bastante avanadas), tanto no planejamento e conduo dos estudos, como na anlise e interpretao dos resultados. Este fenmeno ocorre de tal forma, que o clnico geral interessado em manter-se atualizado com a literatura no pode mais dar-se ao luxo de deixar os aspectos epidemiolgicos e estatsticos dos estudos aos H[SHUWV , sob pena de prejudicar o entendimento global dos artigos que l. Termos como estatisticamente significativo ou expresses do tipo P < 0,001, so freqentemente encontrados em artigos mdicos referindo-se aos resultados dos estudos. Muitas vezes as interpretaes desses termos e expresses deixam a desejar e podem at induzir o leitor a concluses incorretas. Este artigo pretende discutir brevemente alguns aspectos da inferncia estatstica na pesquisa em medicina, das limitaes da chamada significncia obtida nos testes de hiptese da escola estatstica clssica de Neyman-Pearson, e da utilidade da estimativa de efeito por intervalos de confiana. 7HVWHV GH VLJQLILFkQFLD HVWDWtVWLFD Diferentes tipos de variveis requerem diferentes tipos de anlises. As variveis (fatores ou caractersticas que medimos nos pacientes) podem assumir quatro nveis de medida: nominal, ordinal, intervalar e de razo. As variveis nos nveis de medida nominal e ordinal so freqentemente tambm chamadas de variveis qualitativas, enquanto que aquelas nos nveis intervalar e de razo so consideradas variveis quantitativas. Maiores detalhes sobre as definies dos nveis de medida das variveis podem ser encontrados em livros texto de bioestatstica1,2 ou em recente publicao do -RUQDO GH 3HGLDWULD3. De uma forma geral, variveis quantitativas so analisadas atravs de testes paramtricos e as qualitativas por testes no-paramtricos2. Os testes paramtricos recebem este nome devido aos seus parmetros fundamentais: a mdia e o desvio padro. Alm disso, os testes paramtricos partem do pressuposto que os dados a serem analisados seguem um padro de distribuio conhecido como curva Normal ou curva de Gauss. J os testes no-paramtricos so baseados em outra abordagem estatstica a qual no se baseia na mdia nem no desvio padro. Geralmente, em testes no-paramtricos os dados so classificados em postos ou posies (ranks) e comparados sem que haja a necessidade de seguirem um padro especfico de distribuio. Por esta razo os testes no-paramtricos so tambm conhecidos como testes de distribuio livre4. Assim, para a anlise de dados quantitativos os testes preferenciais so os testes paramtricos. Esses testes so considerados mais poderosos (maior capacidade de detectar diferenas) do que os testes no-paramtricos e por isso, sempre que possvel devem ser utilizados em dados quantitativos. Os pressupostos bsicos para a utilizao dos testes paramtricos so trs: (a) dados quantitativos, (b) padro de distribuio compatvel com a curva Normal e (c) homogeneidade de varincias (homocedasticidade) entre os grupos a serem comparados. So exemplos de testes paramtricos: teste W de Student, coeficiente r de correlao de Pearson e anlise de varincia (ANOVA). J os testes no-paramtricos no possuem pressupostos especficos. So utilizados na anlise de dados qualitativos e so os substitutos nas situaes onde os testes clssicos (paramtricos) no podem ser utilizados. So exemplos de testes no-paramtricos: teste U de Mann-Whitney, coeficiente de correlao de Spearman, teste de Kruskal-Wallis e teste de qui-quadrado. Na escolha de um teste estatstico, alm do tipo de varivel envolvida na anlise, importante avaliar se os dados so oriundos de observaes pareadas ou independentes. De uma forma geral, dados pareados so gerados quando ocorrem observaes seriadas no mesmo indivduo ou pareamento no delineamento do estudo. Dados independentes referem-se a grupos diferentes de indivduos nas comparaes. Finalmente, deve-se considerar quantos grupos sero comparados (2 grupos ou 3+ grupos) e quantas variveis estaro envolvidas simultaneamente na anlise (bivariada ou multivariada). O Quadro 1 apresenta uma lista de alguns dos testes estatsticos freqentemente utilizados na pesquisa mdica.

4XDGUR  Testes e tcnicas estatsticas freqentemente encontradas em artigos publicados na literatura mdica $ % &RPSDUDomR GH *UXSRV

Tipo de observao Independente Pareada &RUUHODomR GH YDULiYHLV

Razo/Intervalar t Student independente t Student pareado

2 grupos Ordinal U de Mann-Whitney T de Wilcoxon

Nominal 2; RR; exato de Fisher 2 de McNemar; RR

Razo/Intervalar ANOVA de um critrio (oneway) ANOVA de dois critrios (two-way)

3 ou + grupos Ordinal teste de KruskalWallis teste de Friedman

Nominal 2 teste de Cochran

&RQFRUGkQFLD HQWUH REVHUYDGRUHV Coeficiente Kappa

Nvel de medida Razo/Intervalar Ordinal Coeficiente de Coeficientes de Pearson Spearman ou Kendall $ $




Nome $QiOLVH (VWUDWLILFDGD 0RGHORV 0XOWLYDULDGRV Regresso linear Regresso logstica Regresso de Cox

Varivel dependente (desfecho) dicotmica

Variveis independentes (fatores em estudo) dicotmicos ou politmicos

Comentrios Possibilta o controle do efeito de alguns fatores simultaneamente. Fcil de conduzir, mas rapidamente ineficiente a medida que mais fatores so considerados. Os modelos multivariados so mais eficientes do que a anlise estratificada para o manejo simultaneo de diversos fatores Modelo de origem. Estima coeficientes angulares b . Estima RGGV UDWLRV ajustados para o efeito de diversos fatores simultaneamente. Estima riscos relativos (via densidade de incidncia) ajustados para o efeito de diversos fatores simultaneamente.

quantitativa dicotmica tempo para ocorrncia de um evento

quantitativas ou dicotmicas dicotmicas, politmicas ou quantitativas dicotmicas, politmicas ou quantitativos

6LJQLILFkQFLD HVWDWtVWLFD YHUVXV LQWHUYDOR GH FRQILDQoD A avaliao do papel do acaso (ou efeito da variabilidade amostral) vem sendo feita tradicionalmente em medicina atravs de testes de hiptese ou testes de significncia. A significncia pode ser avaliada pelos mais variados testes estatsticos (veja alguns exemplos no Quadro 1) e geralmente expressa atravs do chamado valor P. Segundo a teoria estatstica, o valor P contnuo, varia entre 0 e 1, e representa a compatibilidade dos dados observados com a hiptese nula, ou seja, a hiptese de que no h associao entre desfecho e fator em estudo. Apesar da escala contnua do valor P, muitos pesquisadores insistem em classificar os resultados dos testes estatsticos em uma dicotomia do tipo sim ou no . Desta forma, os resultados dos estudos so considerados significativos quando P 0,05 e no significativos quando P > 0,05. E, segundo esta abordagem, valores P = 0,06 e P = 0,60 so absurdamente tratados da mesma forma: como resultados no significativos. Em vista disso, deve-se salientar que significncia estatstica envolve uma questo de probabilidade de que exista ou no uma associao entre desfecho e fator em estudo (TXDOTXHU associao de TXDOTXHU tamanho). Assim, se a amostra for pequena, associaes moderadas ou at mesmo fortes podem ser consideradas no significativas (seriam ento associaes LQsignificantes?). Por outro lado, em grandes estudos epidemiolgicos, at mesmo fracas associaes atingem com facilidade a marca de P = 0,001. Com isso, pretende-se deixar claro que existe uma grande diferena entre significncia estatstica e significncia (relevncia) clnica. A significncia estatstica refere-se H[FOXVLYDPHQWH ao fato da associao observada ser, na verdade, diferente de zero. Conseqentemente, a significncia estatstica QDGD LQIRUPD VREUH R WDPDQKR RX LPSRUWkQFLD FOtQLFD GD DVVRFLDomR. Uma vez que a significncia estatstica pode levar a interpretaes inadequadas dos achados, o que se deve fazer ento? Diversos autores entre epidemiologistas e estatsticos5-8 tem argumentado que sempre que possvel deve ser feita uma avaliao cautelosa das diferenas absolutas e/ou relativas observadas entre os grupos de estudo. sugerido que sejam calculadas medidas de associao tipo risco relativo (tambm so aceitas abordagens alternativas como diferenas de mdias, propores ou outros ndices) de forma que se possa estimar a fora da associao. Para a avaliao do papel do acaso (variabilidade amostral) sugere-se o uso de intervalos de confiana para as diferenas ou risco relativo. Rothman & Greenland9 questionam a aparente arbitrariedade do nvel de significncia () fixado em 0,05 e argumentam que em situaes onde temos uma associao forte outros nveis (p.e., = 0,10) podem ser utilizados, obtendo-se intervalos de confiana de 90%. Quando comparada com o valor P, a abordagem via intervalo de confiana na avaliao de uma associao apresenta pelo menos trs vantagens. O valor P, como representante da significncia estatstica, informa simplesmente a compatibilidade dos dados com a hiptese em teste. J o intervalo de confiana, por sua vez, informa simultaneamente: (a) uma estimativa da magnitude da associao (p.e., risco relativo); (b) a variabilidade desta estimativa, atravs da amplitude dos limites inferior e superior do intervalo; e (c) a compatibilidade dos dados com a hiptese em teste. (Para a interpretao de intervalos de confiana de medidas de associao, veja Wagner & Callegari-Jacques10). &RQVLGHUDo}HV ILQDLV O uso quase que compulsivo de testes de significncia generalizado na literatura mdica. O achado significativo ou um rtulo de P < 0,05 interpretado de forma ingnua por muitos mdicos e pesquisadores como um certificado do tipo ISO 9002 de qualidade de seus dados. Este tipo de viso vem sendo duramente criticada por diversos grupos de epidemiologistas e estatsticos5-8 que acreditam ter ocorrido uma supervalorizao do famoso teste de hiptese da

escola estatstica clssica de Neyman-Pearson. Assim, sugere-se que na avaliao de significncia seja calculada uma estimativa do tamanho ou fora do efeito atravs de medidas de associao (p.e., risco relativo) com o clculo adicional de intervalos de confiana para determinar o papel da variabilidade amostral. 5HIHUrQFLDV

1. Kirkwood BR. (VVHQWLDOV RI PHGLFDO VWDWLVWLFV. Oxford: Blackwell Scientific Publications, 1988.

2. Altman DG. 3UDFWLFDO 6WDWLVWLFV IRU 0HGLFDO 5HVHDUFK. London: Chapman & Hall, 1991. 3. Wagner MB. Aspectos bsicos da descrio e sumarizao de informaes em medicina. -RUQDO GH 3HGLDWULD 1998;  71-76.

4. Siegel S. (VWDWtVWLFD 1mR3DUDPpWULFD. So Paulo: McGraw-Hill, 1975.

7. Greenland S. Randomization, statistics, and casual inference. (SLGHPLRORJ\ 1990;  421429. 8. Goodman SN. P values, hypothesis tests, and likelihood: implications for epidemiology of a neglected historical debate. $P - (SLGHPLRO 1993;  485-496.

6. Pocock SJ, Hughes MD, Lee RJ. Statistical problems in the reporting of clinical trials. 1 (QJO - 0HG 1987;  426-432.

5. Gardner MA & Altman DG. Confidence intervals rather than P values: estimation rather than hypothesis testing. %U 0HG - 1986;  746-750.

9. Rothman KJ & Greenland S. Approaches to Statistical Analysis. In: 0RGHUQ (SLGHPLRORJ\, edited by Rothman KJ & Greenland S. Philadelphia: Lippincot-Raven, 1998, pp. 181-200. 10. Wagner MB & Callegari-Jacques SM. Medidas de associao em estudos epidemiolgicos: risco relativo e odds ratio. -RUQDO GH 3HGLDWULD 1998;  247-251.

You might also like