You are on page 1of 12

O que so variveis? Variveis so caractersticas que so medidas, controladas ou manipuladas em uma pesquisa.

Diferem em muitos aspectos, principalmente no papel que a elas dado em uma pesquisa e na forma como podem ser medidas. Pesquisa "Correlacional" X Pesquisa "Experimental" A maioria das pesquisas empricas pertencem claramente a uma dessas duas categorias gerais: em uma pesquisa correlacional (Levantamento) o pesquisador no influencia (ou tenta no influenciar) nenhuma varivel, mas apenas as mede e procura por relaes (correlaes) entre elas, como presso sangnea e nvel de colesterol. Em uma pesquisa experimental (Experimento) o pesquisador manipula algumas variveis e ento mede os efeitos desta manipulao em outras variveis; por exemplo, aumentar artificialmente a presso sangnea e registrar o nvel de colesterol. A anlise dos dados em uma pesquisa experimental tambm calcula "correlaes" entre variveis, especificamente entre aquelas manipuladas e as que foram afetadas pela manipulao. Entretanto, os dados experimentais podem demonstrar conclusivamente relaes causais (causa e efeito) entre variveis. Por exemplo, se o pesquisador descobrir que sempre que muda a varivel A ento a varivel B tambm muda, ento ele poder concluir que A "influencia" B. Dados de uma pesquisa correlacional podem ser apenas "interpretados" em termos causais com base em outras teorias (no estatsticas) que o pesquisador conhea, mas no podem ser conclusivamente provar causalidade. Variveis dependentes e variveis independentes. Variveis independentes so aquelas que so manipuladas enquanto que variveis dependentes so apenas medidas ou registradas. Esta distino confunde muitas pessoas que dizem que "todas variveis dependem de alguma coisa". Entretanto, uma vez que se esteja acostumado a esta distino ela se torna indispensvel. Os termos varivel dependente e independente aplicam-se principalmente pesquisa experimental, onde algumas variveis so manipuladas, e, neste sentido, so "independentes" dos padres de reao inicial, intenes e caractersticas dos sujeitos da pesquisa (unidades experimentais).Espera-se que outras variveis sejam "dependentes" da manipulao ou das condies experimentais. Ou seja, elas dependem "do que os sujeitos faro" em resposta. Contrariando um pouco a natureza da distino, esses termos tambm so usados em estudos em que no se manipulam variveis independentes, literalmente falando, mas apenas se designam sujeitos a "grupos experimentais" baseados em propriedades prexistentes dos prprios sujeitos. Por exemplo, se em uma pesquisa compara-se a contagem de clulas brancas (White Cell Count em ingls, WCC) de

homens e mulheres, sexo pode ser chamada de varivel independente e WCC de varivel dependente. Nveis de Mensurao As variveis diferem em "quo bem" elas podem ser medidas, isto , em quanta informao seu nvel de mensurao pode prover. H obviamente algum erro em cada medida, o que determina o "montante de informao" que se pode obter, mas basicamente o fator que determina a quantidade de informao que uma varivel pode prover o seu tipo de nvel de mensurao. Sob este prisma as variveis so classificadas como (a) nominais, (b) ordinais e (c) intervalares. (a) Variveis nominais permitem apenas classificao qualitativa. Ou seja, elas podem ser medidas apenas em termos de quais itens pertencem a diferentes categorias, mas no se pode quantificar nem mesmo ordenar tais categorias. Por exemplo, pode-se dizer que 2 indivduos so diferentes em termos da varivel A (sexo, por exemplo), mas no se pode dizer qual deles "tem mais" da qualidade representada pela varivel. Exemplos tpicos de variveis nominais so sexo, raa, cidade, etc. (b) Variveis ordinais permitem ordenar os itens medidos em termos de qual tem menos e qual tem mais da qualidade representada pela varivel, mas ainda no permitem que se diga "o quanto mais". Um exemplo tpico de uma varivel ordinal o status scio-econmico das famlias residentes em uma localidade: sabe-se que mdia-alta mais "alta" do que mdia, mas no se pode dizer, por exemplo, que 18% mais alta. A prpria distino entre mensurao nominal, ordinal e intervalar representa um bom exemplo de uma varivel ordinal: pode-se dizer que uma medida nominal prov menos informao do que uma medida ordinal, mas no se pode dizer "quanto menos" ou como esta diferena se compara diferena entre mensurao ordinal e intervalar. (c) Variveis intervalares permitem no apenas ordenar em postos os itens que esto sendo medidos, mas tambm quantificar e comparar o tamanho das diferenas entre eles. Por exemplo, temperatura, medida em graus Celsius constitui uma varivel intervalar. Pode-se dizer que a temperatura de 40C maior do que 30C e que um aumento de 20C para 40C duas vezes maior do que um aumento de 30C para 40C.

Relaes entre variveis

Duas ou mais variveis quaisquer esto relacionadas se em uma amostra de observaes os valores dessas variveis so distribudos de forma consistente. Em outras palavras, as variveis esto relacionadas se seus valores correspondem sistematicamente uns aos outros para aquela amostra de observaes. Por exemplo, sexo e WCC seriam relacionados se a maioria dos homens tivesse alta WCC e a maioria das mulheres baixa WCC, ou viceversa; altura relacionada ao peso porque tipicamente indivduos altos so mais pesados do que indivduos baixos; Q.I. est relacionado ao nmero de erros em um teste se pessoas com Q.I.'s mais altos cometem menos erros. Por que relaes entre variveis so importantes? Geralmente o objetivo principal de toda pesquisa ou anlise cientfica encontrar relaes entre variveis. A filosofia da cincia ensina que no h outro meio de representar "significado" exceto em termos de relaes entre quantidades ou qualidades, e ambos os casos envolvem relaes entre variveis. Assim, o avano da cincia sempre tem que envolver a descoberta de novas relaes entre variveis. Em pesquisas correlacionais a medida destas relaes feita de forma bastante direta, bem como nas pesquisas experimentais. Por exemplo, o experimento j mencionado de comparar WCC em homens e mulheres pode ser descrito como procura de uma correlao entre 2 variveis: sexo e WCC. A Estatstica nada mais faz do que auxiliar na avaliao de relaes entre variveis. Aspectos bsicos da relao entre variveis As duas propriedades formais mais elementares de qualquer relao entre variveis so a magnitude ("tamanho") e a confiabilidade da relao. (a) Magnitude muito mais fcil de entender e medir do que a confiabilidade. Por exemplo, se cada homem em nossa amostra tem um WCC maior do que o de qualquer mulher da amostra, poderia-se dizer que a magnitude da relao entre as duas variveis (sexo e WCC) muito alta em nossa amostra. Em outras palavras, poderia-se prever uma baseada na outra (ao menos na amostra em questo). (b) Confiabilidade um conceito muito menos intuitivo, mas extremamente importante. Relaciona-se "representatividade" do resultado encontrado em uma amostra especfica de toda a populao. Em outras palavras, diz quo provvel ser encontrar uma relao similar se o experimento fosse feito com outras amostras retiradas da mesma populao, lembrando que o maior interesse est na populao. O interesse na amostra reside na informao que

ela pode prover sobre a populao. Se o estudo atender certos critrios especficos (que sero mencionados posteriormente) ento a confiabilidade de uma relao observada entre variveis na amostra pode ser estimada quantitativamente e representada usando uma medida padro (chamada tecnicamente de nvel-p ou nvel de significncia estatstica).

O que "significncia estatstica" (nvel-p) A significncia estatstica de um resultado uma medida estimada do grau em que este resultado "verdadeiro" (no sentido de que seja realmente o que ocorre na populao, ou seja no sentido de "representatividade da populao"). Mais tecnicamente, o valor do nvel-p representa um ndice decrescente da confiabilidade de um resultado. Quanto mais alto o nvel-p, menos se pode acreditar que a relao observada entre as variveis na amostra um indicador confivel da relao entre as respectivas variveis na populao. Especificamente, o nvel-p representa a probabilidade de erro envolvida em aceitar o resultado observado como vlido, isto , como "representativo da populao". Por exemplo, um nvel-p de 0,05 (1/20) indica que h 5% de probabilidade de que a relao entre as variveis, encontrada na amostra, seja um "acaso feliz". Em outras palavras, assumindo que no haja relao entre aquelas variveis na populao, e o experimento de interesse seja repetido vrias vezes, poderia-se esperar que em aproximadamente 20 realizaes do experimento haveria apenas uma em que a relao entre as variveis em questo seria igual ou mais forte do que a que foi observada naquela amostra anterior. Em muitas reas de pesquisa, o nvel-p de 0,05 costumeiramente tratado como um "limite aceitvel" de erro.

Como determinar que um resultado "realmente" significante? No h meio de evitar arbitrariedade na deciso final de qual nvel de significncia ser tratado como realmente "significante". Ou seja, a seleo de um nvel de significncia acima do qual os resultados sero rejeitados como invlidos arbitrria. Na prtica, a deciso final depende usualmente de: se o resultado foi previsto a priori ou apenas a posteriori no curso de muitas anlises e comparaes efetuadas no conjunto de dados; no total de evidncias consistentes do conjunto de dados; e nas "tradies" existentes na rea particular de pesquisa. Tipicamente, em muitas cincias resultados que atingem nvel-p 0,05 so considerados estatisticamente significantes, mas este nvel ainda envolve uma probabilidade de erro razovel (5%). Resultados com

um nvel-p 0,01 so comumente considerados estatisticamente significantes, e com nvel-p 0,005 ou nvel-p 0,001 so freqentemente chamados "altamente" significantes. Estas classificaes, porm, so convenes arbitrrias e apenas informalmente baseadas em experincia geral de pesquisa. Uma conseqncia bvia que um resultado considerado significante a 0,05, por exemplo, pode no s-lo a 0,01.

Significncia estatstica e o nmero de anlises realizadas Desnecessrio dizer quanto mais anlises sejam realizadas em um conjunto de dados, mais os resultados atingiro "por acaso" o nvel de significncia convencionado. Por exemplo, ao calcular correlaes entre dez variveis (45 diferentes coeficientes de correlao), seria razovel esperar encontrar por acaso que cerca de dois (um em cada 20) coeficientes de correlao so significantes ao nvel-p 0,05, mesmo que os valores das variveis sejam totalmente aleatrios, e aquelas variveis no se correlacionem na populao. Alguns mtodos estatsticos que envolvem muitas comparaes, e portanto uma boa chance para tais erros, incluem alguma "correo" ou ajuste para o nmero total de comparaes. Entretanto, muitos mtodos estatsticos (especialmente anlises exploratrias simples de dados) no oferecem nenhum remdio direto para este problema. Cabe ento ao pesquisador avaliar cuidadosamente a confiabilidade de descobertas no esperadas.

Fora X Confiabilidade de uma relao entre variveis Foi dito anteriormente que fora (magnitude) e confiabilidade so dois aspectos diferentes dos relacionamentos entre variveis. Contudo, eles no so totalmente independentes. Em geral, em uma amostra de um certo tamanho quanto maior a magnitude da relao entre variveis, mais confivel a relao. Assumindo que no h relao entre as variveis na populao, o resultado mais provvel deveria ser tambm no encontrar relao entre as mesmas variveis na amostra da pesquisa. Assim, quanto mais forte a relao encontrada na amostra menos provvel a no existncia da relao correspondente na populao. Ento a magnitude e a significncia de uma relao aparentam estar fortemente relacionadas, e seria possvel calcular a significncia a partir da magnitude e vice-versa. Entretanto, isso vlido apenas se o tamanho da amostra mantido constante, porque uma relao de certa fora poderia ser tanto altamente significante ou no significante de todo dependendo do tamanho da amostra.

Por que a significncia de uma relao entre variveis depende do tamanho da amostra? Se h muito poucas observaes ento h tambm poucas possibilidades de combinao dos valores das variveis, e ento a probabilidade de obter por acaso uma combinao desses valores que indique uma forte relao relativamente alta. Considere-se o seguinte exemplo: H interesse em duas variveis (sexo: homem, mulher; WCC: alta, baixa) e h apenas quatro sujeitos na amostra (2 homens e 2 mulheres). A probabilidade de se encontrar, puramente por acaso, uma relao de 100% entre as duas variveis pode ser to alta quanto 1/8. Explicando, h uma chance em oito de que os dois homens tenham alta WCC e que as duas mulheres tenham baixa WCC, ou vice-versa, mesmo que tal relao no exista na populao. Agora considere-se a probabilidade de obter tal resultado por acaso se a amostra consistisse de 100 sujeitos: a probabilidade de obter aquele resultado por acaso seria praticamente zero. Observando um exemplo mais geral. Imagine-se uma populao terica em que a mdia de WCC em homens e mulheres exatamente a mesma. Supondo um experimento em que se retiram pares de amostras (homens e mulheres) de um certo tamanho da populao e calcula-se a diferena entre a mdia de WCC em cada par de amostras (supor ainda que o experimento ser repetido vrias vezes). Na maioria dos experimento os resultados das diferenas sero prximos de zero. Contudo, de vez em quando, um par de amostra apresentar uma diferena entre homens e mulheres consideravelmente diferente de zero. Com que freqncia isso acontece? Quanto menor a amostra em cada experimento maior a probabilidade de obter esses resultados errneos, que, neste caso, indicariam a existncia de uma relao entre sexo e WCC obtida de uma populao em que tal relao no existe. Observe-se mais um exemplo ("razo meninos para meninas", Nisbett et al., 1987): H dois hospitais: no primeiro nascem 120 bebs a cada dia e no outro apenas 12. Em mdia a razo de meninos para meninas nascidos a cada dia em cada hospital de 50/50. Contudo, certo dia, em um dos hospitais nasceram duas vezes mais meninas do que meninos. Em que hospital isso provavelmente aconteceu? A resposta bvia para um estatstico, mas no to bvia para os leigos: muito mais provvel que tal fato tenha ocorrido no hospital menor. A razo para isso que a probabilidade de um desvio aleatrio da mdia da populao aumenta com a diminuio do tamanho da amostra (e diminui com o aumento do tamanho da amostra).

Por que pequenas relaes podem ser provadas como significantes apenas por grandes amostras? Os exemplos dos pargrafos anteriores indicam que se um relacionamento entre as variveis em questo (na populao) pequeno, ento no h meio de identificar tal relao em um estudo a no ser que a amostra seja correspondentemente grande. Mesmo que a amostra seja de fato "perfeitamente representativa" da populao o efeito no ser estatisticamente significante se a amostra for pequena. Analogamente, se a relao em questo muito grande na populao ento poder ser constatada como altamente significante mesmo em um estudo baseado em uma pequena amostra. Mais um exemplo: Se uma moeda ligeiramente viciada, de tal forma que quando lanada ligeiramente mais provvel que ocorram caras do que coroas (por exemplo uma proporo 60% para 40%). Ento dez lanamentos no seriam suficientes para convencer algum de que a moeda viciada, mesmo que o resultado obtido (6 caras e 4 coroas) seja perfeitamente representativo do viesamento da moeda. Entretanto, dez lanamentos no so suficientes para provar nada? No, se o efeito em questo for grande o bastante, os dez lanamentos sero suficientes. Por exemplo, imagine-se que a moeda seja to viciada que no importe como venha a ser lanada o resultado ser cara. Se tal moeda fosse lanada dez vezes, e cada lanamento produzisse caras, muitas pessoas considerariam isso prova suficiente de que h "algo errado" com a moeda. Em outras palavras, seria considerada prova convincente de que a populao terica de um nmero infinito de lanamentos desta moeda teria mais caras do que coroas. Assim, se a relao grande, ento poder ser considerada significante mesmo em uma pequena amostra. Pode uma "relao inexistente" ser um resultado significante? Quanto menor a relao entre as variveis maior o tamanho de amostra necessrio para prov-la significante. Por exemplo, imagine-se quantos lanamentos seriam necessrios para provar que uma moeda viciada se seu viesamento for de apenas 0,000001 %! Ento, o tamanho mnimo de amostra necessrio cresce na mesma proporo em que a magnitude do efeito a ser demonstrado decresce. Quando a magnitude do efeito aproxima-se de zero, o tamanho de amostra necessrio para prov-lo aproxima-se do infinito. Isso quer dizer que, se quase no h relao entre duas variveis o tamanho da

amostra precisa quase ser igual ao tamanho da populao, que teoricamente considerado infinitamente grande. A significncia estatstica representa a probabilidade de que um resultado similar seja obtido se toda a populao fosse testada. Assim, qualquer coisa que fosse encontrada aps testar toda a populao seria, por definio, significante ao mais alto nvel possvel, e isso tambm inclui todos os resultados de "relao inexistente". Como medir a magnitude (fora) das relaes entre variveis? H muitas medidas da magnitude do relacionamento entre variveis que foram desenvolvidas por estatsticos: a escolha de uma medida especfica em dadas circunstncias depende do nmero de variveis envolvidas, nveis de mensurao usados, natureza das relaes, etc. Quase todas, porm, seguem um princpio geral: elas procuram avaliar a relao comparando-a de alguma forma com a "mxima relao imaginvel" entre aquelas variveis especficas. Tecnicamente, um modo comum de realizar tais avaliaes observar quo diferenciados so os valores das variveis, e ento calcular qual parte desta "diferena global disponvel" seria detectada na ocasio se aquela diferena fosse "comum" (fosse apenas devida relao entre as variveis) nas duas (ou mais) variveis em questo. Falando menos tecnicamente, compara-se "o que comum naquelas variveis" com "o que potencialmente poderia haver em comum se as variveis fossem perfeitamente relacionadas". Outro exemplo: Em uma amostra o ndice mdio de WCC igual a 100 em homens e 102 em mulheres. Assim, poderia-se dizer que, em mdia, o desvio de cada valor da mdia de ambos (101) contm uma componente devida ao sexo do sujeito, e o tamanho desta componente 1. Este valor, em certo sentido, representa uma medida da relao entre sexo e WCC. Contudo, este valor uma medida muito pobre, porque no diz quo relativamente grande aquela componente em relao "diferena global" dos valores de WCC. H duas possibilidades extremas: (a) Se todos os valore de WCC de homens so exatamente iguais a 100 e os das mulheres iguais a 102 ento todos os desvios da mdia conjunta na amostra seriam inteiramente causados pelo sexo. Poderia-se dizer que nesta amostra sexo perfeitamente correlacionado a WCC, ou seja, 100% das diferenas observadas entre os sujeitos relativas a suas WCC's devem-se a seu sexo. (b) Se todos os valores de WCC esto em um intervalo de 0 a 1000, a mesma diferena (de 2) entre a WCC mdia de homens e mulheres encontrada no estudo seria uma parte to pequena na diferena global dos valores que muito provavelmente seria considerada desprezvel. Por exemplo, um sujeito a mais que fosse considerado poderia mudar, ou mesmo reverter, a direo da

diferena. Portanto, toda boa medida das relaes entre variveis tem que levar em conta a diferenciao global dos valores individuais na amostra e avaliar a relao em termos (relativos) de quanto desta diferenciao se deve relao em questo.

"Formato geral" de muitos testes estatsticos Como o objetivo principal de muitos testes estatsticos avaliar relaes entre variveis, muitos desses testes seguem o princpio exposto no item anterior. Tecnicamente, eles representam uma razo de alguma medida da diferenciao comum nas variveis em anlise (devido sua relao) pela diferenciao global daquelas variveis. Por exemplo, teria-se uma razo da parte da diferenciao global dos valores de WCC que podem se dever ao sexo pela diferenciao global dos valores de WCC. Esta razo usualmente chamada de razo da variao explicada pela variao total. Em estatstica o termo variao explicada no implica necessariamente que tal variao "compreendida conceitualmente". O termo usado apenas para denotar a variao comum s variveis em questo, ou seja, a parte da variao de uma varivel que "explicada" pelos valores especficos da outra varivel e viceversa.

Como calculado o nvel de significncia estatstico Assuma-se que j tenha sido calculada uma medida da relao entre duas variveis (como explicado acima). A prxima questo "quo significante esta relao"? Por exemplo, 40% da variao global ser explicada pela relao entre duas variveis suficiente para considerar a relao significante? "Depende". Especificamente, a significncia depende principalmente do tamanho da amostra. Como j foi explicado, em amostras muito grandes mesmo relaes muito pequenas entre variveis sero significantes, enquanto que em amostras muito pequenas mesmo relaes muito grandes no podero ser consideradas confiveis (significantes). Assim, para determinar o nvel de significncia estatstica torna-se necessria uma funo que represente o relacionamento entre "magnitude" e "significncia" das relaes entre duas variveis, dependendo do tamanho da amostra. Tal funo diria exatamente "quo provvel obter uma relao de dada magnitude (ou maior) de uma amostra de dado tamanho, assumindo que no h tal relao entre aquelas variveis na populao". Em outras palavras, aquela funo forneceria o nvel de significncia (nvel-p), e isso permitiria conhecer a probabilidade de erro envolvida em rejeitar a idia de que a relao em questo no existe na populao. Esta hiptese "alternativa" (de que no h relao na populao)

usualmente chamada de hiptese nula. Seria ideal se a funo de probabilidade fosse linear, e por exemplo, apenas tivesse diferentes inclinaes para diferentes tamanhos de amostra. Infelizmente, a funo mais complexa, e no sempre exatamente a mesma. Entretanto, em muitos casos, sua forma conhecida e isso pode ser usado para determinar os nveis de significncia para os resultados obtidos em amostras de certo tamanho. Muitas daquelas funes so relacionadas a um tipo geral de funo que chamada de normal (ou gaussiana). Por que a distribuio normal importante? A "distribuio normal" importante porque em muitos casos ela se aproxima bem da funo introduzida no item anterior. A distribuio de muitas estatsticas de teste normal ou segue alguma forma que pode ser derivada da distribuio normal. Neste sentido, filosoficamente, a distribuio normal representa uma das elementares "verdades acerca da natureza geral da realidade", verificada empiricamente, e seu status pode ser comparado a uma das leis fundamentais das cincias naturais. A forma exata da distribuio normal (a caracterstica "curva do sino") definida por uma funo que tem apenas dois parmetros: mdia e desvio padro. Uma propriedade caracterstica da distribuio normal que 68% de todas as suas observaes caem dentro de um intervalo de 1 desvio padro da mdia, um intervalo de 2 desvios padres inclui 95% dos valores, e 99% das observaes caem dentro de um intervalo de 3 desvios padres da mdia. Em outras palavras, em uma distribuio normal as observaes que tem um valor padronizado de menos do que -2 ou mais do que +2 tem uma freqncia relativa de 5% ou menos (valor padronizado significa que um valor expresso em termos de sua diferena em relao mdia, dividida pelo desvio padro). Ilustrao de como a distribuio normal usada em raciocnio estatstico (induo) Retomando o exemplo j discutido, onde pares de amostras de homens e mulheres foram retirados de uma populao em que o valor mdio de WCC em homens e mulheres era exatamente o mesmo. Embora o resultado mais provvel para tais experimentos (um par de amostras por experimento) que a diferena entre a WCC mdia em homens e mulheres em cada par seja prxima de zero, de vez em quando um par de amostras apresentar uma diferena substancialmente diferente de zero. Quo freqentemente isso ocorre? Se o tamanho da amostra grande o bastante, os resultados de tais repeties so "normalmente distribudos", e assim, conhecendo a forma da curva normal pode-se calcular precisamente a probabilidade de obter "por

acaso" resultados representando vrios nveis de desvio da hipottica mdia populacional 0 (zero). Se tal probabilidade calculada to pequena que satisfaz ao critrio previamente aceito de significncia estatstica, ento podese concluir que o resultado obtido produz uma melhor aproximao do que est acontecendo na populao do que a "hiptese nula". Lembrando ainda que a hiptese nula foi considerada apenas por "razes tcnicas" como uma referncia contra a qual o resultado emprico (dos experimentos) foi avaliado.

Todos os testes estatsticos so normalmente distribudos? No todos, mas muitos so ou baseados na distribuio normal diretamente ou em distribuies a ela relacionadas, e que podem ser derivadas da normal, como as distribuies t, F ou Chi-quadrado (Qui-quadrado). Tipicamente, estes testes requerem que as variveis analisadas sejam normalmente distribudas na populao, ou seja, que elas atendam "suposio de normalidade". Muitas variveis observadas realmente so normalmente distribudas, o que outra razo por que a distribuio normal representa uma "caracterstica geral" da realidade emprica. O problema pode surgir quando se tenta usar um teste baseado na distribuio normal para analisar dados de variveis que no so normalmente distribudas. Em tais casos h duas opes. Primeiramente, pode-se usar algum teste "no paramtrico" alternativo (ou teste "livre de distribuio"); mas isso freqentemente inconveniente porque tais testes so tipicamente menos poderosos e menos flexveis em termos dos tipos de concluses que eles podem proporcionar. Alternativamente, em muitos casos ainda se pode usar um teste baseado na distribuio normal se apenas houver certeza de que o tamanho das amostras suficientemente grande. Esta ltima opo baseada em um princpio extremamente importante que largamente responsvel pela popularidade dos testes baseados na distribuio normal. Nominalmente, quanto mais o tamanho da amostra aumente, mais a forma da distribuio amostral (a distribuio de uma estatstica da amostra) da mdia aproxima-se da forma da normal, mesmo que a distribuio da varivel em questo no seja normal. Este princpio chamado de Teorema Central do Limite.

Como se conhece as conseqncias de violar a suposio de normalidade? Embora muitas das declaraes feitas anteriormente possam ser provadas matematicamente, algumas no tm provas tericas e podem demonstradas apenas empiricamente via experimentos Monte Carlo (simulaes usando gerao aleatria de nmeros). Nestes experimentos grandes nmeros de amostras so geradas por um computador seguindo especificaes pr-

designadas e os resultados de tais amostras so analisados usando uma grande variedade de testes. Este o modo emprico de avaliar o tipo e magnitude dos erros ou viesamentos a que se expe o pesquisador quando certas suposies tericas dos testes usados no so verificadas nos dados sob anlise. Especificamente, os estudos de Monte Carlo foram usados extensivamente com testes baseados na distribuio normal para determinar quo sensveis eles eram violaes da suposio de que as variveis analisadas tinham distribuio normal na populao. A concluso geral destes estudos que as conseqncias de tais violaes so menos severas do que se tinha pensado a princpio. Embora estas concluses no devam desencorajar ningum de se preocupar com a suposio de normalidade, elas aumentaram a popularidade geral dos testes estatsticos dependentes da distribuio normal em todas as reas de pesquisa.

RETORNAR

You might also like