You are on page 1of 11

TEXTO 1

FUNDAMENTOS TEÓRICOS DA INFERÊNCIA


ESTATÍSTICA: ALGUMAS NOTAS SOBRE
DISTRIBUIÇÕES TEÓRICAS DE
PROBABILIDADES
ALEXANDRA LOPES

O USO DO TEXTO PARA DESCREVER A LEI NORMAL


SEGUNDO YOUDEN

A
Lei
Normal do
Erro aparece na
História da Humanidade
Como uma das mais alargadas
Generalizações da Filosofia natural.
Serve como um instrumento que guia muitos
Investigadores na física, nas ciências sociais e humanas,
Na medicina, na agricultura e na engenharia. É uma ferramenta
Fundamental para interpretação de dados obtidos por observação ou experiência

© ALEXANDRA LOPES, 2008


A INFERÊNCIA ESTATÍSTICA

Até esta altura tem lidado sobretudo com estatísticas descritivas, ou seja,
medidas que o ajudam a sumariar dados, seja numericamente (ex. Média,
desvio padrão), ou graficamente (histogramas, etc.).
Agora precisamos de abordar algumas lições da teoria estatística que nos
permitam avançar para uma classe bem mais sofisticada e “poderosa” de
técnicas de análise quantitativa – a inferência estatística.

Mas qual é o objectivo da inferência estatística?

Para ser muito honesta devo dizer que se trata tudo de um conjunto de
estratégias para “adivinhar”. Na prática vamos usar a informação que
conhecemos para avançar com “palpites” mais ou menos informados sobre o
que não sabemos.
A informação que conhecemos são as estatísticas (médias, desvios padrão,
etc.), que obtivemos com base na observação de uma amostra.
Usamos estas estatísticas amostrais para construir “palpites”, ou seja,
inferências sobre “a verdade”, ou seja, sobre o que julgamos ser o valor real
respectivo na população.
O nosso trabalho nesta cadeira vai girar em torno dos métodos que podemos
usar para com validade usarmos estatísticas amostrais para estimar
parâmetros populacionais.

Todo o edifício da inferência estatística assenta em dois alicerces teóricos:

1. Teoria da Amostragem
2. Teoria das Probabilidades

1. AMOSTRAS E POPULAÇÕES

A maior parte dos projectos de investigação e estudos têm como


referência empírica uma determinada população de interesse. Em muitos
casos, essa população de interesse é constituída por pessoas. Mas tal
não é obrigatório, podendo as unidades de uma população ser de outro
tipo, como por exemplo empresas, escolas, agregados familiares, entre
outros.
O que também é bastante frequente é o facto de muitas das populações
de interesses dos nossos estudos serem de grande dimensão, o que
dificulta o processo de recolha de dados para todos os seus elementos.
Quando tal é possível, estamos na presença de um censo. Por exemplo,
de 10 em 10 anos, o INE faz um estudo censitário à população

© ALEXANDRA LOPES, 2008


portuguesa, ou seja, observa, num dado momento no tempo um conjunto
de características de toda a população portuguesa.
Para a maior parte dos estudos, no entanto, um censo não é exequível.
Mesmo quando se tenta tal proeza, raramente se consegue obter
resultados muito ricos. Por exemplo, nos EUA, os censos populacionais
(na medida em que implicam a recolha de dados a partir do próprio
inquirido) debatem-se sempre com volumes extensos de informação em
falta (informação essa que não é aleatória). Isso tem dado origem a
debates interessantes sobre se se deveria tentar obter informação sobre
esses casos em falta através de esforços adicionais de amostragem (o
debate é, obviamente político, já que sob o ponto de vista estatístico a
resposta é SIM). Para a maior parte das finalidades da investigação
científica, uma boa amostra é preferível a um censo mal conseguido.
Quando um censo não é, então, possível recorre-se à observação de um
pequeno conjunto de unidades da população, uma amostra dela retirada.
Uma amostra deverá, em princípio, ser representativa da população,
para que possamos generalizar o que observarmos na amostra a toda a
população da qual foi inicialmente retirada.
Para ser considerada representativa do ponto de vista da inferência
estatística, uma amostra tem que ser obtida por um método
probabilístico. Se assim não for, a amostra diz-se não representativa.
Claro que, a esse propósito, poderíamos introduzir o debate sobre a
representatividade teórica vs. a representatividade estatística.
Deixaremos isso para outro momento.

2. A DISTRIBUIÇÃO AMOSTRAL DE AMOSTRAS

Mantenhamos presente que o nosso objectivo é concluir algo sobre uma


população não observada com base no que observamos numa amostra. O
problema é que não podemos fazer esta passagem amostra – população de
forma simples e directa.

Imaginemos a seguinte situação: obteve com uma amostra A um rendimento


médio igual a 3 000 euros. Qual será o seu melhor palpite sobre o rendimento
médio da população da qual retirou essa amostra?

Bom, o seu melhor palpite será precisamente o seu resultado amostral: 3 000
euros. O seu problema é que não tem qualquer base para estar confiante que
esse é realmente o valor do rendimento médio na população. Pode ser um
bom palpite, ou pode ser um palpite totalmente inútil. O nosso problema é
não sabermos.

Uma vez que a população não é observada, o que sabemos sobre a amostra
observada não vai ser suficiente para fazermos afirmações sobre a
população com segurança. A ferramenta extra que precisamos é a

© ALEXANDRA LOPES, 2008


distribuição amostral de amostras. Podemos pensar nela como uma espécie
de ponte entre a amostra e a população.

Bom, mas afinal o que é esta distribuição amostral das amostras?

Basicamente é uma distribuição de frequências.

Mas trata-se de uma distribuição especial porque tem uma unidade de


análise única. Não se trata de pessoas, da sua idade ou do seu rendimento.
A unidade de análise desta distribuição será a amostra. E a variável que
estaremos a usar e a representar graficamente será a estatística dessa
amostra, por exemplo a média amostral.

Seguindo o exemplo anterior, imagine agora que retira da população uma


amostra B. Provavelmente não vai obter o mesmo rendimento médio que
obteve com a amostra A. E se retirar ainda uma amostra C, vai
provavelmente obter um outro valor médio.

O que se passa é que, antes mesmo de construir qualquer amostra de uma


população, existe uma série de possibilidades para os valores que a
estatística (neste caso o rendimento médio) pode assumir.

São estas possibilidades que vamos representar no eixo horizontal da nossa


distribuição amostral de amostras. A altura da curva representa a proporção
de vezes (ou seja, a frequência relativa) que cada valor específico da
estatística ocorre num número infinito de amostras hipotéticas. Daí formar
uma distribuição amostral de amostras.

Imagine que continua a retirar amostras do mesmo tamanho para sempre e


que regista para cada amostra a média que calculou. Não vai obter sempre o
mesmo resultado, mas em alguns casos as amostras vão de facto ter a
mesma média. Rapidamente se tornará claro que alguns valores vão ocorrer
mais vezes do que outros. Como o número de amostras na nossa distribuição
amostral de amostras é infinito, pensamos sempre em termos de frequência
relativa de cada resultado. O mesmo é dizer em termos de probabilidade de
ocorrência de cada resultado.

Tenho consciência que isto lhe deve parecer bastante estranho. Porque é
que uma distribuição hipotética aparece como tão importante?

Felizmente que, graças aos avanços na teoria das probabilidades, sabemos


muita coisa acerca de distribuições amostrais de amostras, mesmo quando
só temos informação muito elementar sobre a população. E é isso que nos
vai permitir definir modelos teóricos que usaremos como base para as nossas
análises de inferência.

É precisamente aqui que entra em cena uma das mais “famosas”


distribuições teóricas de probabilidades: a curva normal.

© ALEXANDRA LOPES, 2008


A Distribuição Normal

A distribuição normal representa-se com uma curva em forma de sino e é


definida por uma fórmula matemática que não nos interessa aqui explorar. O
nosso interesse no estudo desta distribuição tem a ver com o facto de muitas,
mesmo muitas, das distribuições amostrais de amostras seguirem de forma
muito aproximada a Lei Normal.

É, sem dúvida, a mais importante distribuição da Estatística. Aproxima-se


muito das distribuições de inúmeras variáveis na vida real. No entanto, a sua
real importância advém do facto de a maior parte dos métodos de inferência
estatística usarem as propriedades da curva normal, mesmo quando a
amostra específica com que se trabalha não tem a forma da curva normal.
Aparece frequentemente designada como Curva de Gauss, do nome do
matemático que a teorizou.

Figura 1. Antiga nota de 10 DM (marco alemão) com a fotografia de Gauss

Quais são então as propriedades da curva normal?

Trata-se de uma curva suave, simétrica e unimodal, frequentemente descrita


como tendo a forma de um sino. O facto de ser simétrica significa que média,
moda e mediana coincidem.

Cada distribuição normal é definida por dois parâmetros: a média (µ) e o


desvio-padrão (σ).

Claro que os nossos dados concretos podem estar medidos de várias formas
(altura, comprimento, rendimento, etc.) e por isso a nossa curva normal geral
poderia ter qualquer média e qualquer desvio-padrão (tal como calculados
em cada amostra). Para tornar as coisas mais simples procede-se a uma
estandardização das diferentes métricas para unidades de desvio-padrão.

A mais simples das distribuições normais é designada por Distribuição


Normal Estandardizada, também conhecida como a Distribuição Z. Tem uma
média igual a zero (0) e um desvio-padrão igual a um (1).

Qual o seu aspecto?

© ALEXANDRA LOPES, 2008


Como a curva é simétrica, isso significa que metade dos casos caem à
esquerda da média e outra metade à direita. Daí na figura aparecer 0,5 em
cada lado da curva. Em linguagem de probabilidades isso significa que a
probabilidade de obtermos uma estatística amostral maior que a média é 0,5
(ou 50%) e a probabilidade de obtermos uma estatística amostral menor que
a média é também 0,5 (ou 50%).

Mas o que é aquele Z que aparece ao lado da figura?

Os scores Z referem-se à distância entre um valor possível da variável Y


(seja ela qual for) e a média da sua distribuição de probabilidades. A
particularidade dos scores Z é que expressam essa distância enquanto
unidades de desvio-padrão. Ou seja, o valor do score Z para um valor da
variável Y é o número de desvios-padrão que esse valor de Y se afasta da
respectiva média.

Y 
Z

Agora, muita atenção. Não vamos confundir Scores Z com Áreas sob a curva.

© ALEXANDRA LOPES, 2008


Scores Z são distâncias (desvios-padrão) ao longo do eixo horizontal.

Áreas são regiões (probabilidades) sob a curva normal, ou seja, ao longo do


eixo vertical.

A regra empírica para definir áreas sob a curva normal é a seguinte:

Vejamos um exemplo/exercício para percebermos como se trabalha com esta


curva normal estandardizada.

© ALEXANDRA LOPES, 2008


A distribuição dos quocientes de inteligência da população segue uma
distribuição aproximadamente normal com média igual a 100 e desvio-padrão
igual a 15.

Gostava de saber qual a proporção da população que tem quocientes de


inteligência entre 100 e 120.

100 120

Primeiro temos que estandardizar a distância entre a média e aquele valor


particular da nossa variável para que fique expressa em unidades de desvio-
padrão.

120  100
Z  1.33
15

Ou seja, o que queremos saber é qual a proporção de casos que ficam entre
μ + 1.33σ.

Felizmente que existem umas tabelas que nos dão informação sobre a área
sob a curva normal para vários valores de Z. Só temos que consultar uma
dessas tabelas.

Procure sob a coluna Z o valor correspondente ao que calculamos = 1.33.


Pode ter que usar a primeira linha da tabela para formar as casas decimais.
Uma vez localizado o seu score Z na tabela, procure no corpo da mesma o
valor correspondente para a área sob a curva normal. Deverá ter encontrado
o valor 0.4082.

O que é que isso significa? Significa que 40.82% da população têm um


quociente de inteligência entre 100 e 120.

São muitos os cálculos que podemos fazer com esta distribuição


normalizada. Ao longo do semestre teremos oportunidade de ver, na prática,
a sua extrema utilidade.

© ALEXANDRA LOPES, 2008


Distribuições amostrais de amostras e o Teorema do Limite Central

Regressemos agora às nossas distribuições amostrais de amostras.

Imagine que continua a retirar amostras para estimar o rendimento médio de


uma população. Se o fizer para toda a eternidade e se representar
graficamente as médias das suas amostras enquanto um histograma de
frequências vai obter a sua distribuição amostral de amostras.

Um achado importante derivado do Teorema do Limite Central é que, para


amostras aleatórias, a média amostral varia em trono da média populacional.
Mais do que isso, a média da distribuição amostral de amostras ( X ) é igual à
média populacional (µ).

Um outro achado muito importante é o de que se continuarmos a construir


um número elevado de amostras, a distribuição maostral de amostras
aproximar-se-á cada vez mais da distribuição normal, mesmo que a
população que lhe está subjacente não esteja nem sequer perto da
normalidade.

A população pode ser fortemente assimétrica, plana, discreta, ou até parecer


um zig-zag massivo. Mas a distribuição amostral de amostras vai aproximar-
se da distribuição normal com um número suficiente de amostras.

Vamos dar uma vista de olhos a esta demonstração.

Exemplo dos dados

Imagine que passa 20 anos da sua vida a atirar ao ar um dado (não viciado,
obviamente). Dado que cada número num dado tem uma probabilidade
idêntica de sair, esperar-se-ia que ao fim de 20 anos de lançamentos tivesse
mais ou menos o mesmo número de ocorrências para cada face do dado. Ou
seja, teria uma distribuição de freqência com um aspecto mais ou menos
como isto...

© ALEXANDRA LOPES, 2008


A média da sua população é igual a 3.5. Repare, no entanto, que esta é uma
distribuição totalmente plana, nada parecida com uma curva normal.

Imagine agora que continua a fazer os lançamentos de um dado, mas regista


os seu resultados em séries de 10 lançamentos. Faz isso para 5 séries, ou
seja, 50 lançamentos.

Para cada série de 10 lançamentos registou a média. Repare que as médias


amostrais (de amostras de tamanho relativamente reduzido) já são
aproximações bastante razoáveis de µ. No entanto nehuma média é
exactamente igual a 3.5, a média populacional.

Se representarmos graficamente esta dsitribuição de médias amostrais


teremos...

Podemos ver aqui que a distribuição amostral de amostras com apenas 5


amostras já não é uma distribuição plana.

Imagine o que aconteceria se aumentássemos o número de amostras para


100.

© ALEXANDRA LOPES, 2008


Ainda que a população real subjacente ao fenómeno que se estuda
(lançamento de um dado) tenha uma distribuição totalmente não normal
(neste caso plana), a distribuição amostral das médias amostrais torna-se
aproximadamente normal na sua forma à medida que aumenta o número de
amostras. Este é um resultado importantíssimo do Teorema do Limite
Central.

© ALEXANDRA LOPES, 2008

You might also like