You are on page 1of 412

Probabilidade e Estatstica

Caroline Cavatti Vieira


carolinevieira@ceunes.ufes.br 2012/1

Contedo Programtico
Distribuies de frequncia Representao grfica Medidas estatsticas Noes de probabilidade Variveis aleatrias Principais distribuies discretas e contnuas Estimao de parmetros Teste de hipteses

Bibliografia bsica:
Caroline C. Vieira. Notas de aula 1 semestre de 2012.
Mario F. Triola. Introduo Estatstica 10 Ed. M. N. Magalhes; Antonio C. P. de Lima. Noes de Probabilidade e Estatstica 2002.

1. Introduo
Definio de Estatstica: um conjunto de tcnicas que nos permite, de forma sistemtica, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos e experimentos.

Est dividida em duas reas:

Estatstica Descritiva: utilizada na etapa inicial da anlise para que possamos nos familiarizar com os dados, e tirarmos concluses informais e diretas a respeito de caractersticas de interesse com base nos dados observados. Inferncia Estatstica: Tcnicas que permitem extrapolar para a populao, concluses tiradas de subconjuntos ou amostras desta populao.

Conceitos:
Populao: um conjunto de dados / pessoas / objetos / etc. que possuem pelo menos uma caracterstica em comum de interesse do pesquisador. Exemplos: 1. a populao brasileira. 2. a totalidade dos carros produzidos no Brasil. 3. uma jazida de minrio de ferro de determinada mina. 4. o sangue no corpo de uma pessoa.

Amostra: um subconjunto desta populao obtida de acordo com certas regras (tcnicas de amostragem). 1. 2. 3. 4. a populao do Paran. carros produzidos pela Fiat. um testemunho ou poro retirada da mina. uma ampola de sangue colhida para um exame.

Estatstica Descritiva

Amostragem Populao Amostra

Inferncia Estatstica

Dados: Conjuntos de valores, numricos ou no. Todo dado se refere determinada caracterstica (varivel). Tipos de Variveis: Qualitativas: quando os possveis valores que assume representam atributos ou qualidades.

Podem ser: Nominais: o conjunto dos possveis valores no possui uma ordenao natural. Ex: Sexo, Raa, Religio, etc. Ordinais: possvel ordenar o conjunto dos possveis valores. Ex: Classe Social, Escolaridade do chefe da famlia, etc.

Quantitativas: quando os possveis valores que assume so de natureza numrica. Podem ser:

Discretas: em geral so fruto de uma contagem. O conjunto de possveis valores enumervel. Ex: Nmero de filhos na famlia, nmero de pessoas chegando em uma fila, nmero de caras obtidas em 5 lanamentos de uma moeda etc. Contnuas: assumem valores em intervalos dos nmeros reais. Ex: peso, altura, idade, etc.

2. Estatstica descritiva
Apresentao dos dados: organizar os dados de maneira prtica e racional para o melhor entendimento do fenmeno que se est estudando. Pode ser por meio de tabelas e grficos.

2.1. Construo de Tabelas


O conjunto de informaes disponveis aps tabulao de questionrio ou pesquisa de campo denominado tabela de dados brutos.
Nela so listados individualmente cada elemento da populao ou amostra, com os valores de todas as variveis estudadas. (Vide anexo 1)

Apesar de conter muita informao, a tabela de dados brutos no prtica para respondermos rapidamente a questes de interesse.
Assim, a partir da tabela de dados brutos normalmente construmos uma nova tabela denominada tabela de frequncia.

A tabela de frequncia mais simples aquela que lista os valores observados para determinada varivel, e o nmero de ocorrncias (ou frequncia absoluta) de cada um destes valores. Exemplos:
Sexo F M total fi 37 13 50 Turma A B total fi 25 25 50

fi Freq. absoluta: n de elementos pertencentes a uma classe. Outras Freqncias: Freqncia acumulada (fa): fa = freq. absoluta da classe + freq. absoluta das classes anteriores

Freqncia relativa (fr):


. = .

Freqncia relativa acumulada (fra): fra = freq. relativa da classe + freq. relativa das classes anteriores

Exemplo:
Idade 17 18 19 20 21 22 23 24 25 fi 9 22 7 4 3 0 2 1 2 fa 9 31 38 42 45 45 47 48 50 fr (%) fra (%) 18 44 14 8 6 0 4 2 4 18 62 76 84 90 90 94 96 100

Total

50

100

No caso da varivel discreta assumir muitos valores e no caso das variveis contnuas, os dados sero classificados em grupos, possuindo diversos valores numa classe.

Exemplo:
Peso 44 |- 52 52 |- 60 60 |- 68 PMi 48 56 64 fi 11 19 7 fa 11 30 37 fr 0,22 0,38 0,14 fra 0,22 0,60 0,74

68 |- 76
76 |- 84 84 |- 92 92 |- 100 Total

72
80 88 96

7
1 4 1 50

44
45 49 50

0,14
0,02 0,08 0,02 1

0,88
0,90 0,98 1,00

Definies:
Limite inferior da classe (LI): o valor mnimo que a varivel alcana. Limite superior da classe (LS): o valor mximo que a varivel alcana. Amplitude da classe (h): a diferena entre o LS e o LI de uma mesma classe.

Amplitude total (R): a diferena entre o maior e o menor valor observado.


Ponto mdio da classe (PM): obtido somando-se o LI e o LS de uma mesma classe, e dividindo-se o resultado por 2.

2.2. Procedimento para construo de tabelas


1. Calcular a amplitude total (R). 2. Estipular o nmero de classes da tabela (k). Em geral varia de 5 a 20.

Critrio para escolher k: seja n o nmero de dados


- se 25 = 5
- se > 25

3. Calcular a amplitude das classes (h), de forma que as classes tenham a mesma amplitude. Para isso, toma-se: =

OBS: h deve ser tomado com nmero de casa decimais igual ou menor que os dados; e seu valor deve, sempre, ser arredondado para cima.

Exemplo: as notas de 32 estudantes de uma classe esto descritas a seguir.


0,0 3,5 5,0 6,0 0,0 4,0 5,0 6,5 1,0 4,0 5,0 6,5 1,5 4,0 5,0 7,0 2,0 4,5 5,5 7,0 2,0 4,5 5,5 7,0 2,5 4,5 6,0 8,0 3,5 5,0 6,0 8,5

Construir a tabela de freqncia.

1. = 8,5 0,0 = 8,5


2. = 32 5,66 6
3. = 8,5 6 1,42 1,5

Notas
0,0 |- 1,5 1,5 |- 3,0 3,0 |- 4,5 4,5 |- 6,0 6,0 |- 7,5 7,5 |- 9,0 Total

fi
3 4 5 10 8 2 32

fa
3 7 12 22 30 32

fr (%)
9 13 16 31 25 6 100

fra (%)
9 22 38 69 94 100

2.3. Construo de Grficos


Grfico de Barras: Para cada valor da varivel, desenha-se no eixo horizontal (ou vertical) uma barra com altura correspondente a sua freq. absoluta (ou relativa).

Este tipo de grfico se adapta melhor s variveis quantitativas discretas ou qualitativas.

Ex: Grfico de barras para a varivel Idade.


25

20 Frq. Absoluta

15

10

0 17 18 19 20 21 Idade 22 23 24 25

Diagrama circular, disco ou pizza: Tipo de grfico muito utilizado para representao de variveis qualitativas.
Consiste num crculo dividido em setores, cujos tamanhos so proporcionais s freq. absolutas ou porcentagens correspondentes. til quando o nmero de classes pequeno.

Ex: Grfico de pizza para a varivel OpTV.

Histograma: Este um grfico que parte de uma tabela de freqncia de dados agrupados. Este grfico consiste de retngulos contguos cuja base igual amplitude da classe correspondente e rea igual freqncia relativa de cada classe.

A altura de cada retngulo chamada de densidade da classe. A densidade da classe i o valor dado por:
. =

No caso da primeira classe da tabela de freq. da varivel peso temos:


= 0,22 8 = 0,0275

Obs: o histograma pode ainda ser representado por retngulos contguos cuja base igual amplitude da classe correspondente e altura igual freqncia absoluta (ou relativa) de cada classe.

Ex: histograma da varivel peso.


0,05
0,045 0,04 0,38

0,035
Densidade 0,03 0,025 0,02 0,015 0,01 0,005 0 48 56 64 72 80 88 96 0,02 0,08 0,02 0,14 0,14 0,22

Peso - Ponto Mdio

Polgono de Frequncia: Este grfico obtido unindo-se os pontos mdios de cada classe por segmentos de reta.
Este grfico fornece uma melhor idia da forma de distribuio dos dados. OBS: Devem-se acrescentar classes com freqncia zero em ambos os extremos da distribuio para ligar o grfico ao eixo horizontal.

0,05 0,045 0,04 0,035 Densidade 0,03 0,025 0,02

0,015
0,01 0,005 0 48 56 64 72 80 88 96 Peso - Ponto Mdio

Ogiva: Representao grfica das freqncias acumuladas de uma tabela de freqncias de dados agrupados.
uma linha poligonal que parte do eixo horizontal no limite inferior da 1 classe e para cada limite superior indica a freqncia acumulada de sua classe.

60 49 44 Freq. acumulada 40 30 30 37 45 50

50

20 11 10 0 0 44 52 60 68 Pesos 76 84 92 100

2.4. Medidas
Medidas so resumos ou sumrios da informao trazida pela populao (ou amostra) em um nico nmero.

Existem diferentes classes de medidas, sendo as mais conhecidas as medidas de posio e disperso.

Definies: Parmetro: Resumo de uma caracterstica obtido a partir de todos os elementos de uma populao. Ex: mdia populacional (), desvio-padro populacional (). Estatstica: Resumo da caracterstica de interesse levando-se em conta apenas os elementos da amostra. Ex: mdia amostral ( ), desvio-padro amostral (s).

2.4.1.

Medidas de posio

Tendem a representar os elementos comuns da populao (ou amostra). Ex: mdia, moda, mediana, quartis, etc.

Mdia Medidas de tendncia central Mediana Moda Medidas de posio

Quartis Medidas Separatrizes Percentis

Mdia amostral ( ): um valor que representa o centro de massa ou ponto de equilbrio da distribuio (histograma). calculado por:

X1 + X2 + + Xn X= = n

Pn
i=1

Xi

Para melhor compreenso do conceito de mdia como centro de massa, imagine uma amostra com os seguintes valores {8, 9, 5, 5, 4, 3, 6, 4}.
Faamos um Diagrama de pontos, que um grfico til para visualizao de pequenas amostras.

Para tanto simplesmente plotamos um ponto para cada valor da amostra sobre um segmento de R que contenha todos os valores. Se houver repeties plotamos um ponto sobre o outro.

Note que a mdia pode ser pensada como um centro de massa porque se cada ponto tivesse a mesma massa, digamos 1kg, o tringulo representando a mdia equilibraria exatamente estes pesos.
Mdia = 5,5

Se os dados estiverem dispostos em tabela de freqncia como no exemplo abaixo,


Varivel X1 X2 ... fi f1 f2 ...

... Xk
Total

... fk
n

fazemos:
1 1 + 2 2 + + = =
=1

Se conhecermos a freqncia relativa, o clculo da mdia passa a ser:


1 = 1 + + = 1 1 + + =


=1

Exemplo: Para calcularmos a mdia dos dados abaixo:


X fi fr

1
2 3 5 Total

3
4 2 1 10

0,3
0,4 0,2 0,1 1

Pelos dados brutos:


1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5 22 = = = 2,2 10 10

Pela freqncia absoluta:


13+24+32+51 = = 2,2 10

Pela freqncia relativa:

= 1 0,3 + 2 0,4 + 3 0,2 + 5 0,1 = 2,2

Dados agrupados em classe: Para calcularmos a mdia nestes casos devemos inicialmente calcular o ponto mdio de cada classe, denotando-o por PMi.

A partir disto calculamos a mdia utilizando uma das seguintes expresses:


=1

=
=1

Vamos calcular a nota mdia dos 32 alunos de nosso exemplo a partir da tabela de distribuio de frequncias, incluindo o ponto mdio de cada classe.

Notas
0,0 |- 1,5 1,5 |- 3,0 3,0 |- 4,5 4,5 |- 6,0 6,0 |- 7,5 7,5 |- 9,0 Total

PMi
0,75 2,25 3,75 5,25 6,75 8,25

fi
3 4 5 10 8 2 32

PMi*fi
2,25 9 18,75 52,5 54 16,5 153

fr
0,09 0,13 0,16 0,31 0,25 0,06 1

PMi*fr
0,0675 0,2925 0,6 1,6275 1,6875 0,495 4,77

Assim, pela freq. absoluta: = 153 32 = 4,78 J pela freq. relativa: = 4,77

Em certas situaes, os valores de um conjunto de dados tm graus de importncia diferentes, o que nos leva a calcular uma mdia ponderada.

Em tais casos, calculamos a mdia ponderada atribuindo pesos (w) diferentes aos diversos valores. Assim, Pn w1 x1 + w2 x2 + + wn xn i=1 wi xi X= = Pn w1 + w2 + + wn i=1 wi

Exemplo: mdia ponderada de 3 avaliaes.


w1 = 1 w2 = 1 w3 = 2 x1 = 7 x2 = 8 x3 = 6

17+18+26 X= = 6; 75 4

Mdia Global:
Sejam X1; X2; : : : ; Xk as mdias aritmticas de k conjuntos de n1; n2; : : : ; nk elementos, respectivamente. A mdia aritmtica da srie formada pelo conjunto dos n1 + n2 + + nk elementos dada por:
n1 X 1 + + nk X k i=1 ni X i X= = Pk n1 + + nk i=1 ni Pk

Exemplo: 2 turmas de determinada disciplina. Turma 1: 40 alunos; mdia final (X1 ) = 8,5. Turma 2: 55 alunos; mdia final (X 2 ) = 7,0. Turma 1 + Turma 2 = 95 alunos
40 8; 5 + 55 7; 0 X= = 7; 63 95

Observaes: A mdia uma medida afetada por valores extremos. Se calcularmos o valor mdio de uma varivel para toda a populao, teremos a mdia populacional, normalmente designada pela letra grega (mi). Onde: =1 =

Mediana: o valor que divide o conjunto de dados ao meio, de tal forma que 50% dos valores observados so menores ou iguais mediana e 50% so maiores ou iguais a ela. Notao: md ou Md.

Procedimento para calcular a mediana:

1. Ordenar os dados. 2. Localizar a posio central. Para isto calcula-se:


+ 1 2

3. Se o nmero de observaes (n) for mpar, a mediana ser a observao central; e se n for par, a mediana ser o ponto mdio entre as duas observaes centrais.

Exemplos:

quando n par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}.


1. {1; 1; 1; 2; 2; 3; 3; 3; 3 ;5}; 2. (10 + 1) 2 = 11 2 = 5,5

Os dois candidatos a md so o 2 e o 3. Ento, tomamos o ponto mdio entre eles como a mediana:
2+3 = = 2,5 2

quando n mpar: { 1; 1; 1; 3; 3; 4; 4; 5; 5}.


Posio - (9 + 1) 2 = 10 2 = 5

Neste caso, = 3.

Observao: a mediana no afetada por valores extremos.

Moda:
A moda de um conjunto de dados o valor que ocorre com maior freqncia. Notao: mo ou Mo. Exemplo: { 1; 1; 3; 3; 5; 3; 3; 2}. = 3.

Em um conjunto de dados pode haver mais de uma moda. Exemplo: { 1; 1; 1; 1; 3; 3; 3; 3; 5}. 1 = 1 e 2 = 3.


Neste caso se diz que o conjunto bimodal.

Se houver mais de duas modas diz-se que o conjunto multimodal. Por outro lado se nenhum valor se repete o conjunto no tem moda.

Dados agrupados em classe (Mtodo Czuber)


Uma das formas de se calcular a moda para dados agrupados utilizando o Mtodo de Czuber. Esse mtodo consiste nos seguintes passos:

1. Localize a classe de maior freqncia (classe MODAL) e os limites superior (L) e inferior (l) desta classe.

2. Encontre as seguintes freqncias: fmo : freqncia absoluta da classe modal;

fant : freqncia absoluta da classe anterior classe modal;


fpos : freqncia absoluta da classe posterior classe modal;

3. Aplique a frmula de Czuber:


fmo fant mo = l + (L l) 2fmo (fant + fpos)

O mtodo de Czuber determina a moda por interpolao usando a hiptese que leva seu nome:
A moda divide o intervalo da classe modal em distncias proporcionais s diferenas entre a freqncia da classe modal com a freqncia das classes adjacentes".

A partir da, utilizando os conceitos de semelhana dos tringulos e observando o histograma abaixo vemos que:
1 = fmo fant 2 = fmo fpos X = mo l

X 1 = hX 2

(onde h = L l)

Resolvendo a equao para X, temos:


1 X= h 1 + 2

Dessa Forma,
fmo fant mo = l + (L l) 2fmo (fant + fpos)

Exemplo: Para acharmos a moda da varivel peso fazemos:


Peso fi 11

Classe Modal

44 |- 52

fmo = 19 fant = 11 fpos = 7


19 11 mo = 52 + (60 52) 2 19 (11 + 7)

52 |- 60
60 |- 68 68 |- 76 76 |- 84 84 |- 92 92 |- 100 Total

19
7 7 1 4 1 50

mo = 55; 2

Medidas de tendncia central Propriedades: 1. Se somarmos uma constante c a todos os valores de um conjunto de dados, a moda, mdia e mediana ficam tambm acrescidas dessa constante. 2. Se multiplicarmos uma constante c a todos os valores de um conjunto de dados, a moda, mdia e mediana ficam tambm multiplicadas dessa constante.

Percentil (P): O percentil de ordem de um conjunto de dados um valor P% tal que % dos valores so inferiores ou iguais a ele e (100 - )% dos valores so maiores ou iguais a ele.

Observaes: A mediana o percentil de ordem 50.

Os percentis de ordem 25, 50 e 75 so chamados respectivamente de 1 Quartil, 2 Quartil e 3 Quartil.

Como calcular: 1. Localizar a classe a qual pertence o percentil P observando:

L limite superior da classe do percentil P. l limite inferior da classe do percentil P.

2. Encontrar a frequncia relativa da classe que contm o percentil P. Denote-a por .


3. Encontrar a frequncia relativa acumulada at a classe anterior classe do percentil P. Denote-a por .

4. Calcule a diferena . Esta diferena a frequncia relativa da classe (l |- P).


P

% fraa%

5. O valor da mediana obtido resolvendo-se a seguinte regra de trs:


( ) = + ( )

Exemplo: Para acharmos a mediana e o 1 quartil das notas dos alunos de nosso exemplo fazemos: Mediana (P50): 1. Classe 4,5|- 6,0.
2. 50 = 0,31. 3. = 0,38.

4. = 0,5 0,38 = 0,12. 5. 50 = 4,5 + 6,0 4,5


0,12 0,31

5,1

Assim, 50% dos alunos tiraram notas inferiores a 5,1.

1 quartil (P25): 1. Classe 3,0|- 4,5.


2. 25 = 0,16. 3. = 0,22. 4. = 0,25 0,22 = 0,03. 5. 25 = 3,0 + 4,5 3,0
0,03 0,16

3,3.

Assim, 25% dos alunos tiraram notas inferiores a 3,3.

2.4.2.

Medidas de variabilidade

Medem o espalhamento ou disperso dos dados. Complementam importantes informaes escondidas pelas medidas de posio.

Exemplo: Desempenho de dois alunos em 5 avaliaes:


Aluno 1: {55; 57; 60; 62; 66}. = 60 e = 60. Aluno 2: {38; 49; 60; 72; 81}. = 60 e = 60.

Amplitude total (R):


A amplitude total de um conjunto de dados definida como a diferena entre o maior e o menor valor observado.
Ex: - Aluno 1: = 11. - Aluno 2: = 43.

Varincia amostral ( ):
A varincia uma medida de disperso que leva em conta todas as observaes feitas. Ela mede a disperso dos dados em torno da mdia amostral . Considere as observaes X1, X2, ... , Xn:

Temos

Assim define-se a varincia amostral como:


2 =
=1(

)2 1

Ex: - Aluno 1: 2 = 55 60
2

+ 57 60 2 + + 66 60 1

25 + 9 + 0 + 4 + 36 74 = = = 18.5 4 4
2

- Aluno 2: 2 = 38 60
2

+ 49 60 2 + + 81 60 1

484 + 121 + 0 + 144 + 441 1190 = = = 297.5 4 4


2

Observao: Se calcularmos a varincia de uma populao de tamanho N, teremos a varincia populacional, normalmente designada pela letra grega (sigma). Onde:

2 =

=1

Inconvenientes da varincia: 1. As unidades de medida da varincia amostral so o quadrado da unidade original da varivel (m2 para altura, kg2 para peso, etc).

Para evitar-se este desconforto estabeleceu-se o desvio padro amostral definido por:
=1(

2 =

)2 1

que mostra a variabilidade medida na unidade original da varivel analisada.

Ex: - Aluno 1: = 18,5 = 4,3.


- Aluno 2: = 297,5 = 17,2.

2. No permite comparar a variabilidade de dados medidos em diferentes unidades de medida ou medidos na mesma unidade mas com mdias diferentes.

Aqui a soluo foi a criao de uma medida chamada coeficiente de variao que no sofre influncia nem da mdia nem da unidade de medida. O coeficiente de variao definido como:
Amostra = ( ) 100 Populao = ( ) 100

Exemplo: Em qual grupo h mais variao em torno da mdia:

p 0; 0025 CVa = 100 = 2; 9% 1; 70 p 2; 25 CVp = 100 = 2; 5% 60

Frmula da varincia amostral abreviada:


1 2 = 1
=1

2 =1

Dados agrupados em classes: Para calcular a varincia nestes casos, considere o ponto mdio de cada classe, denotado por PMi e faa
2 = ou 1 = 1
2 =1 =1(

)2 1
2 =1

Exemplo:
Freq. cardaca 60 |- 65 65 |- 70 70 |- 75 PMi 62,5 67,5 72,5 fi 11 35 68 PMi*fi 687,5 2362,5 4930 PMi2*fi 42968,75 159468,75 357425

75 |- 80
80 |- 85 85 |- 90

77,5
82,5 87,5

20
12 10

1550
990 875

120125
81675 76562,5

90 |- 95
95 |- 100 Total

92,5
97,5

1
3 160

92,5
292,5 11780

8556,25
28518,75 875300

Assim,
= 11780 160 = 73,6 1 11780 2 = 875300 159 160 = 50,3 = 7,1
2

= 50,3

Observao: A varincia tambm afetada por valores extremos.

Varincia Propriedades: 1. Se somarmos uma constante c a todos os valores de um conjunto de dados, a varincia no sofre alterao. 2. Se multiplicarmos uma constante c a todos os valores de um conjunto de dados, a varincia fica multiplicada pela constante ao quadrado (c2).

2.5. Tpicos especiais 2.5.1. Assimetria


Definio: Uma distribuio simtrica quando a metade esquerda da mesma a imagem-espelho da metade direita. Uma distribuio de dados assimtrica quando um dos lados da mesma apresenta-se mais prolongado que o outro.

Distribuio simtrica:
moda = mediana = mdia e

X = mo = md

= Mo = Md

Tipos de assimetria
Assimetria direita ou positiva: a distribuio apresenta uma cauda mais acentuada direita.

moda mediana mdia e

Assimetria esquerda ou negativa: a distribuio apresenta uma cauda mais acentuada esquerda.

mdia mediana moda e

2.5.2. Boxplot
uma representao grfica envolvendo os quartis. Definimos um retngulo com base inferior igual ao 1 quartil e base superior igual ao 3 quartil. A mediana representada por um segmento de reta no interior do retngulo.

A partir dos pontos mdios das bases superior e inferior, so traados segmentos que se estendem at os valores mximo e mnimo que no sejam observaes discrepantes (outliers). Uma observao considerada discrepante, quando esta assume um valor superior a DS ou inferior a DI, onde: DS = Q3 + 1,5(Q3 Q1) e DI = Q1 - 1,5(Q3 Q1)

Exemplo: As informaes abaixo se referem aos dados de tempos de prova (em segundos), de 150 corredores, selecionados aleatoriamente, que terminaram a Maratona da Cidade de Nova Iorque em um ano recente.
Q1 13955,5 Mediana 15326 Q3 17396,5 Min. 9631 Max. 25898

DS = 17396,5 + 1,5(17396,5 - 13955,5) = 22558. DI = 13955,5 - 1,5(17396,5 - 13955,5) = 8794.

Boxplot da varivel tempos (em segundos):

Observaes:

A diferena (Q3 Q1) denotada Intervalo Interquartil (IQR). Este intervalo abrange 50% das observaes centrais de um conjunto de dados ordenados.
Os Boxplots so convenientes para revelar a distribuio emprica dos dados, tendncias centrais, disperso e a presena de outliers.

Os Boxplots tambm so convenientes para realizar a comparao de dois ou mais conjuntos de dados. Exemplo: Boxplots da varivel consumo de combustvel (milhas por galo) de acordo com o tipo de estrada. Grfico construdo a partir de uma amostra de 20 carros de diferentes tipos e marcas.

2.5.3. Ramo e Folhas


O diagrama Ramo e Folhas um procedimento utilizado na organizao e apresentao de dados. utilizado para se ter uma idia da distribuio dos dados. Uma vantagem do ramo e folhas que no h perda de informao sobre os dados.

Cada valor observado da varivel X deve consistir de no mnimo dois dgitos e a varivel pode ser tanto quantitativa discreta como contnua.

No existe uma regra fixa para construir o ramo e folhas.


A idia bsica dividir cada nmero em duas partes. A primeira, denominada ramo, colocada esquerda de uma linha vertical e a segunda, denominada folha, colocada direita.

O ramo consistir de um ou mais dgitos iniciais se o valor da varivel for um nmero inteiro e do nmero inteiro, se o valor da varivel for um nmero com decimais.
Nas folhas, colocam-se os dgitos restantes se o valor observado for nmero inteiro, ou os decimais, caso contrrio.

Exemplo: Considere as seguintes notas de um teste de coordenao fsica, aplicado a 20 estudantes, aps eles terem ingerido uma quantidade de lcool igual a 0,1% do seu peso.
69 61 88 67 84 74 63 72 52 79 57 74 93 65 64 55

82

61

68

77

Ramo em Folhas ampliado Unidade das folhas = 1 5 275 6 91534718 7 49247 8 482 9 3 257 11345789 24479 248 3 5a 5b 6a 6b 7a 7b 8a 8b 9a 2 5 1 5 2 7 2 8 3

7 1 7 4 9 4

3 8 4

4 9

OBS: Em geral, o nmero de linhas varia de 5 a 20.

a: 0 a 4 b: 5 a 9

3.

Probabilidade
Conceitos iniciais

3.1.

Probabilidade a medida de incerteza sobre algum fenmeno aleatrio de interesse.

Fenmeno Aleatrio: um acontecimento cujo resultado no pode ser previamente previsto com certeza. Um experimento aleatrio pode fornecer diferente resultados, mesmo que seja repetido sempre da mesma maneira. Exemplos:

1. O resultado do seu time no prximo jogo do Campeonato Brasileiro; 2. A altura de um aluno sorteado ao acaso nesta sala; 3. A taxa de inflao do ms de dezembro de 2011; 4. O resultado do lanamento de um dado.

Espao amostral ( ou S): o conjunto de todos os resultados possveis de um fenmeno ou experimento aleatrio. Pode ser finito ou infinito, de acordo com a quantidade de possveis resultados.

O espao amostral de cada um dos exemplos anteriores :


1. = {derrota, empate, vitria}; 2. = {0; 1}; 3. = R; 4. = {1, 2, 3, 4, 5, 6}.

Evento (A; B; C; ... ;Z): qualquer subconjunto do espao amostral (). Exemplos: 1. Seu time no perde A = {empate, vitria}; 2. A altura do aluno est entre 1,40 e 1,60 B = (1,40; 1,60); 3. A taxa de inflao de dezembro de 2011 menor ou igual a 10% C = (- 1 ; 0,10]; 4. Ocorre uma face par D = {2; 4; 6}.

Evento elementar: um resultado ou evento que no pode mais ser decomposto em componentes mais simples.

Eventos especiais:
Evento impossvel ( ): o evento que nunca ocorre. Evento certo (): o evento que sempre ocorre.

Unio de eventos ( ): representa a ocorrncia de


pelo menos um dos eventos A ou B, ou seja, A ou B ou ambos.

EX: Experimento: lanamento de um dado.

Evento A ocorre face par. Evento B ocorre face inferior a 4.

= {1, 2, 3, 4, 6}

Interseo de eventos ( ): representa a


ocorrncia simultnea de A e B.

EX: no nosso exemplo anterior.


Evento A ocorre face par. Evento B ocorre face inferior a 4.

= {2}

Eventos disjuntos ou mutuamente exclusivos: So


eventos que no podem ocorrer simultaneamente. A e B so disjuntos se e somente se = .

Eventos complementares ( ou , ou ): O evento ocorre se o evento A no ocorre. formado por todos os pontos de que no esto em A. A e so complementares se, e somente se, = = . e

EX: No lanamento de um dado, se A ocorrer face


par, ento B ocorrer face mpar o evento complementar de A.

Observao: importante relembrar as leis de Morgan:


( ) = e ( ) =

3.2. Interpretaes de probabilidade


Probabilidade uma funo () definida do
conjunto de todos os possveis subconjuntos de em [0;1]. Esta funo atribui chances de ocorrncia de cada evento de .

Definio clssica de probabilidade: Seja um


experimento aleatrio com espao amostral finito = {1 , 2 , , }. Se tivermos evidncias de que todos os resultados tm a mesma chance de acontecer, define-se: 1 = = 1, ,

Para defini-se:
# () = = # () Neste caso dizemos que os resultados so equiprovveis.

Exemplos: 1. Qual e a probabilidade de se extrair um s de um baralho bem misturado de 52 cartas?


n(A) = 4; n() = 52

4 1 = = 0,08 52 13

2. lanar duas moedas e observar a configurao obtida. c = cara; k = coroa. = {cc; ck; kc; kk} Qual a probabilidade de se obter zero caras? E uma cara?
A zero caras A = {kk} = 1 4. B uma cara B = {ck; kc} = 2 4.

Aproximao relativa.

da

probabilidade

pela

freqncia

Realize (ou observe) um experimento aleatrio um grande nmero de vezes.

Registre quantas vezes o evento A ( A ) ocorre efetivamente.

Ento, a probabilidade de ocorrncia do evento A estimada como se segue


# = #

Lei dos Grandes Nmeros: Ao se repetir um experimento um grande nmero de vezes, a probabilidade pela freqncia relativa de um evento tende para a probabilidade terica. A lei dos Grandes Nmeros afirma que a aproximao pela freqncia relativa tende a melhorar quando o nmero de observaes aumenta.

Formalmente, tem-se que: Considere n repeties independentes de um experimento aleatrio . Seja A um evento qualquer. Defina:
# = #

A probabilidade frequencial de A ento dada por:


= lim

Exemplos: 1. Num lanamento de um dado, a probabilidade de ocorrncia da face i dada por:


# = #

Quando o nmero de lanamentos muito grande, fri se estabiliza. Da, toma-se fri como a probabilidade de ocorrncia da face i.

2. Suponha que temos uma linha de produo em grande escala. Retiramos n itens desta linha de produo, e a cada retirada contamos o nmero de itens defeituosos (A = item defeituoso)

Podemos ento afirmar que a probabilidade frequencial de um item defeituoso nesta linha de produo 0,05.

3.3. Regras bsicas de probabilidade


= 1. = 0. 0 () 1, para qualquer evento A.

1. 2. 3.

4. Regra da adio: = + ( )

Se A e B forem disjuntos, ento:


= +

5. = 1 (). Como A e so complementares temos = e = . Ento, pela regra da adio, = = + e pela regra 1, + = 1, logo = 1 .

6. Se B, ento () (). Podemos escrever B como = ( ). Os eventos A e so disjuntos, ento pela regra da adio podemos escrever = + ( ). Como, pela regra 3, ( ) 0 logo () ().

Exemplo: Distribuio de alunos segundo o sexo e a escolha do curso.


Sexo
Curso Homens (H) 70 Mulheres (M) 40 Total

Matemtica Pura (P)

110

Matemtica Aplicada (A)


Estatstica (E) Computao (C) Total

15
10 20 115

15
20 10 85

30
30 30 200

- = + = 200 + 200 = 200 = 0,7 - = + ( ) 30 85 15 100 = + = = 0,5 200 200 200 200 - = 1 = 1 200 = 200 = 0,85
30 170

110

30

140

3.4. Probabilidade condicional


Para dois eventos A e B do espao amostral
definimos:

Definio: A probabilidade condicional de um evento


A dado um evento B, denotada por (|), , ( ) = () () 0

A probabilidade condicional de A dado B revela a incerteza que se tem sobre o evento A supondo conhecida a verdade sobre o evento B. Podemos interpret-la como a chance relativa de A restrita ao fato de que B ocorreu.

Exemplos: 1. Uma urna contm 2 bolas brancas (B) e 3 bolas vermelhas (V). Suponha que so sorteadas duas bolas ao acaso, sem reposio.

2. As informaes abaixo se referem aos candidatos que prestaram vestibular na UFES em 2010:
Homem (H) Mulher (M) Total

Aprovado (A)
Reprovado (R) Total

8
4 12

14
6 20

22
10 32

Um aluno sorteado ao acaso. Qual a probabilidade de: Ser mulher e ter sido aprovado? Se mulher, ter sido aprovada? Ser mulher dado que foi aprovado?

Solues:
a. = 14 32 0,44
() () 14 32 20 32 14 20

b.

= 0,70

c.

() ()

14 32 22 32

14 22

0,64

Propriedades:
1. 2. 3. 4. 5. 6. |B = 1 |B = 0 0 (|) 1, para qualquer evento A. | = | + | ( |) | = | + | = | = 1 (|)

3.5. Regra da multiplicao

A definio de probabilidade condicional pode ser reescrita para fornecer uma expresso geral para a probabilidade da interseo de dois eventos:
= = ()

Exemplo: Acredita-se que na populao do ES 20% de seus habitantes sofrem algum tipo de alergia, sendo classificados como alrgicos para fins de sade pblica. Sendo alrgico, a probabilidade de ter reao a certo antibitico de 0,5. Para os no alrgicos esta probabilidade de apenas 0,05.

Escolhendo-se uma pessoa ao acaso da populao do ES, qual a probabilidade de que ela:
a. Seja do grupo dos alrgicos e tenha alergia ao ingerir o antibitico? b. Seja do grupo dos no alrgicos e no tenha alergia ao ingerir o antibitico?

Soluo: Se fizermos A ser do grupo dos alrgicos e


B ter reao, temos: a. b. = = 0,5 0,2 = 0,10 = = 0,95 0,8 = 0,76

3.6. Regra da probabilidade total

A regra da multiplicao til para determinarmos a probabilidade de um evento que depende de outros eventos.

Exemplo:
Em uma fbrica de parafusos, as mquinas A e B produzem 2/3 e 1/3 da produo total, respectivamente. Da produo de cada mquina 2% e 0,8%, respectivamente, so parafusos defeituosos. Escolhendo-se aleatoriamente um parafuso, qual a probabilidade que ele seja defeituoso?

Claramente a resposta depende de qual mquina produziu aquele parafuso.

Se chamarmos A parafuso produzido pela mquina A, B parafuso produzido pela mquina B e D


parafuso defeituoso podemos afirmar que: = ( )

E como e ( ) so disjuntos podemos


escrever que: = + = + = 0,02 2 3 + 0,008 1 3 = 0,016

Para generalizarmos o conceito da probabilidade total, definimos: Definio: Dizemos que os eventos {A1; A2; ... ; An} formam uma partio do espao amostral se:
1. = 2.
=1

Podemos assim enunciar Probabilidade Total:

Teorema

da

Seja {A1; A2; ... ; An} uma partio do espao amostral e seja B um evento qualquer, ento,

= 1 + 2 + +
() = 1 1 + 2 2 + +
=1

() =

3.7. Independncia
Definio: Dois eventos A e B so independentes se a ocorrncia de um no afeta a probabilidade de ocorrncia do outro. Assim, tem-se que:
1. = () 2. = ()

Dessa forma, para dois eventos independentes a regra da multiplicao reduz-se a:


= () ()

Exemplos: 1. Urna 2 bolas brancas (B) e 3 bolas vermelhas (V).

Sorteia-se 2 bolas ao acaso, com reposio.

Uma empresa produz peas em duas mquinas (1 e 2). Estas mquinas podem apresentar desajustes com probabilidade 0,05 e 0,1, respectivamente. Suponha que as mquinas trabalhem de forma independente.

No incio do dia um teste realizado e caso a mquina esteja fora do ajuste a mesma pra de operar e vai para manuteno. Para que se cumpra o nvel mnimo de produo diria necessrio que pelo menos uma mquina esteja funcionando. Qual a probabilidade de que a empresa cumpra a produo do dia?

Soluo: Se fizermos O1 mquina 1 est operando e


O2 mquina 2 est operando, a probabilidade de que a produo seja cumprida : 1 2 = 1 + 2 (1 2 )

Mas pela independncia:


1 2 = 1 2 = 0,95 0,9 = 0,855 1 2 = 0,95 + 0,9 0,855 = 0,995

3.8. Teorema de Bayes


Partindo da definio de probabilidade condicional e usando a comutatividade da interseo podemos escrever:
= = = ()

E agora, usando o segundo e quarto termos da igualdade vem um resultado til que nos permite escrever a probabilidade de A dado B em termos da probabilidade de B dado A:
() =

Partindo desta expresso, e escrevendo o denominador usando a regra da probabilidade total, obtemos o Teorema de Bayes:

Teorema de Bayes: Se {A1; A2; ... ; An} for uma partio de e B um evento qualquer, ento:
( ) = 1 1 + +

Exemplos: 1. Suponha que um fabricante de sorvetes recebe 20% de todo o leite que consome da fazenda F1, 30% da fazenda F2 e o restante da F3. A vigilncia sanitria inspecionou as fazendas de surpresa e observou que 20% do leite produzido na fazenda F1 estava adulterado por adio de gua, o mesmo ocorrendo com 5% e 2% respectivamente nas fazendas F2 e F3.

Na indstria de sorvete os gales de leite so armazenados sem identificao das fazendas produtoras. Um galo sorteado ao acaso na indstria. Calcule:
a. A probabilidade de que o galo esteja adulterado.

b. A probabilidade do galo estando adulterado ter vindo da fazenda F1.

Soluo: Seja A o leite est adulterado e Fi o


leite veio da fazenda Fi .

a.

= 1 2 3 = 1 + 2 + 3

() = 1 1 + 2 2 + 3 3 Assim: = 0,2 0,2 + 0,05 0,3 + 0,02 0,5 = 0,065

b. Pelo teorema de Bayes, temos:


1 1 (1 ) = 1 1 + 2 2 + 3 3 0,2 0,2 1 = 0,615 0,065

2. Das pacientes da clnica de Ginecologia com idade acima de 40 anos, 60% so ou foram casadas e 40% so solteiras. Sendo solteira, a probabilidade de ter tido um distrbio hormonal no ltimo ano de 10%, enquanto para as demais esta probabilidade aumenta para 30%.

Pergunta-se:

a. Qual a probabilidade de uma paciente escolhida ao acaso ter tido um distrbio hormonal no ltimo ano? b. Se a paciente escolhida tiver tido um distrbio, qual a probabilidade dela ser solteira? c. Escolhemos duas pacientes ao acaso e com reposio, qual a probabilidade de pelo menos uma ter o distrbio?

Soluo: Sejam os eventos S paciente solteira e


H paciente teve distrbio hormonal no ltimo ano.
= + = 0,1 0,4 + 0,3 0,6 = 0,22

a.

b. =

()

0,10,4 0,22

0,188

c. Seja Hi o evento de que a i-sima paciente tenha tido distrbio hormonal. Da:

1 2 = 1 + 2 (1 2 ) 1 2 = 1 + 2 (1 ) (2 ) 1 2 = 0,22 + 0,22 0,222 0,392

4.

Variveis Aleatrias

Sabe-se que um espao amostral ( ou S) o conjunto de todos os resultados possveis de um fenmeno ou experimento aleatrio. Em muitos casos no estamos interessados na descrio detalhada de todos os resultados, e mais interessante resumirmos o resultado atravs de nmeros.

Definio: Uma varivel aleatria (v.a.) uma funo que confere um nmero real a cada resultado no espao amostral de um experimento aleatrio. Uma varivel aleatria denotada por uma letra maiscula (por ex. X) e os valores que ela pode assumir como xi.

Exemplos:
1. E lanar duas moedas. O espao amostral desta experincia = {cc; ck; kc; kk} onde c = cara e k = coroa. Uma varivel aleatria pode ser nmero de caras, X = {0; 1; 2}.

2. E jogar um dado duas vezes. X = soma das duas faces obtidas.

(1; 1) = (6; 1)

(1; 6) (6; 6)

Classificao:
Varivel aleatria discreta: assume valores num conjunto finito ou infinito enumervel. EX: n de filhos, n de peas defeituosas em um lote, bits transmitidos que foram recebidos com erros.

Varivel aleatria contnua: seu conjunto de valores qualquer intervalo dos nmeros reais, o que seria um conjunto infinito no enumervel. EX: peso, altura, corrente eltrica, presso, temperatura, tempo.

4.1. Variveis aleatrias discretas


Alguns modelos de variveis aleatrias discretas: 1. Um sistema de comunicao por voz de uma empresa possui 48 linhas externas. A cada intervalo de tempo o sistema supervisionado e registra-se o nmero de linhas em uso. Se fizermos X = nmero de linhas em uso. Os valores possveis de X = {0; 1; 2; ...; 48}.

2. No processo de fabricao de semicondutores o fabricante deve se preocupar com o nmero de partculas contaminantes. Se definirmos a varivel aleatria Y = nmero de partculas contaminantes em uma pastilha, os valores possveis de Y = {0; 1; 2; ...}.

Modelo Probabilstico: Um modelo probabilstico consiste em atribuir a cada valor da v.a. X a sua probabilidade de ocorrncia.
A funo que atribui a cada valor xi de X a sua probabilidade chamada de funo de probabilidade.

Assim se X uma varivel aleatria assumindo os valores x1, x2, ... , xn a funo de probabilidade associada a X :
= = = = 1, 2,

A distribuio de probabilidades de uma varivel aleatria X uma descrio das probabilidades associadas com os possveis valores de X. Esta descrio pode ser realizada em forma de tabelas ou grficos.

No exemplo da varivel aleatria nmero de caras num lanamento de duas moedas (supondo que as moedas sejam honestas e os lanamentos independentes) temos a seguinte distribuio de probabilidades:

So propriedades da funo de probabilidade:


1. 0 1

2.

= 1

Exemplo: Com os dados do ltimo censo a assistente social do centro de sade constatou que na regio 20% das famlias no tm filhos, 30% possuem 1 filho, 35% possuem 2 filhos e as demais se dividem igualmente entre 3, 4 ou 5 filhos. Suponha que uma famlia seja escolhida aleatoriamente e defina a v.a. N como o nmero de filhos desta famlia. Construa a funo de probabilidade para N.

Soluo: Se N o nmero de filhos na famlia temos que os valores possveis de N so: {0; 1; 2; 3; 4; 5}. Supondo que todas as famlias tm chances iguais de serem sorteadas:
n de filhos pi 0 1 2 3 4 5

0,20 0,30 0,35 0,05 0,05 0,05

4.1.1. Mdia e varincia de uma varivel aleatria discreta


A mdia ou valor esperado de uma varivel aleatria discreta X dada pela expresso:
= =

A varincia de X dada pela expresso:


2 = =

( )2 =

2 2

O desvio padro da v.a. X , ento, dado por:


= 2

Exemplo: Um canal digital transmite dados com certa probabilidade de erro. Seja X o nmero de bits recebidos com erro nos quatro prximos bits transmitidos. Os valores possveis de X so {0; 1; 2; 3; 4}. Suponha que tenhamos as seguintes probabilidades:
0 = 0,6561; 1 = 0,2916; 2 = 0,0486;
3 = 0,0036; 4 = 0,0001.

Calcule a mdia e a varincia da v.a. X.

Soluo: Clculo da mdia


= = 0 0 + 1 1 + 2 2 + 3 3 + 4(4)
= 0 0,6561 + 1 0,2916 + 2 0,0486 + 3 0,0036 + 4 0,0001

= 0,4

Clculo da varincia e do desvio padro


2 = 02 0 + 12 1 + 22 2 + 32 3 + 42 (4)

2 = 02 0,6561 + 12 0,2916 + 22 0,0486

+32 0,0036 + 42 0,0001 = 0,52

2 = = 0,52 0,42 = 0,36 = 0,36 0,6

4.2. Distribuies discretas mais comuns

Estudaremos nesta seo a distribuio de probabilidade de algumas variveis aleatrias, que por possurem caractersticas especiais comuns so agrupadas em famlias.

4.2.1.

Distribuio Bernoulli

Muitos experimentos so tais que os resultados apresentam ou no uma determinada caracterstica. Por exemplo:
Uma moeda lanada: o resultado cara ou no; Uma pea escolhida ao acaso de um lote contendo 500 peas: essa pea defeituosa ou no;

Em ambos os casos, estamos interessados na ocorrncia de sucesso ou fracasso. OBS: A palavra sucesso como usada aqui arbitrria e no representa, necessariamente, algo bom

Definio: Seja X uma varivel aleatria que assume os valores 1 (sucesso) e 0 (fracasso). Diz-se que X tem distribuio Bernoulli com parmetro p, onde p a probabilidade de sucesso.
Notao: X ~ Bernoulli(p)

A funo de probabilidade de X :
= = (1 )1 , = 0 1

Assim temos:
=
1 =0

= = 0 = 0 + 1 = 1

= = 1 =

1 =0

2 =

= 02 = 0 + 12 = 1 2 = = 1 2 = 2 = (1 )

4.2.2.

Distribuio Binomial

Se realizarmos n experimentos de Bernoulli de forma independente e se cada experimento tem probabilidade de sucesso igual a p (fixo), ento a varivel aleatria que conta o nmero de sucessos nestes n experimentos tem distribuio binomial.

Por exemplo:
Uma moeda lanada trs vezes; qual a probabilidade de se obter duas caras? Dez peas so extradas, ao acaso, com reposio, de um lote de 500 peas; qual a probabilidade de que pelo menos duas sejam defeituosas; sabendo-se que 10% das peas do lote so defeituosas?

Imagine o experimento de Bernoulli (E) em que:

Vamos realizar n repeties independentes de E, chamando X do nmero de sucessos nas n repeties.

O resultado desta experincia um vetor (1 , , )


em que cada resultado pode ser um sucesso (S) ou um fracasso (F). Se quisermos calcular ( = ) teremos:

= (1 )
k n-k

Mas quantos vetores de tamanho n com k sucessos e (n k) fracassos podem ser formados?
Para responder a essa pergunta, basta calcularmos o nmero de permutaes possveis de n elementos com k e (n k) repeties.

Dessa forma, o nmero de permutaes procurado : ! = ! !

Agora intuitivo ver que a probabilidade procurada : = = (1 ) .

Definio: Uma distribuio de probabilidade Binomial resulta de um experimento que satisfaz os seguintes requisitos: 1. O experimento tem um nmero fixo de tentativas; 2. As tentativas devem ser independentes; 3. Cada tentativa deve ter todos os resultados classificados em duas categorias; 4. A probabilidade de um sucesso em cada tentativa, denotada por p, permanece constante.

A varivel aleatria X, correspondente ao nmero total de sucessos nas n tentativas do experimento, tem distribuio Binomial com parmetros n e p e funo de probabilidade:
= = (1 ) , = 0, 1, 2, , .

Notao X~Binomial(n; p)

Exemplos:

1. Um professor de Psicologia planeja dar um teste surpresa que consiste em 4 questes de mltipla escolha, cada uma com 5 alternativas possveis (a, b, c, d, e), uma das quais correta. Suponhamos que um aluno despreparado faa adivinhaes aleatrias. Qual a probabilidade de que este aluno acerte exatamente trs questes?

Soluo: Primeiramente, note que esse procedimento satisfaz os 4 requisitos para uma distribuio binomial.

Se chamarmos de sucesso o fato da resposta estar


correta, vemos que = 1 5 = 0,2; uma vez que para cada questo h 5 respostas possveis (a, b, c, d, e), uma das quais correta.

A varivel aleatria X, nmero de respostas corretas dentre as 4 questes, pode assumir os valores {0, 1, 2, 3, 4}. Dessa forma, X ~ Binomial(4; 0,2).

Assim, a probabilidade de 3 respostas corretas :


4 = 3 = 0,23 (1 0,2)43 3 4! = 3 = 0,008 0,8 0,026 3! 4 3 !

2. Uma linha de produo em grande escala produz 6% de itens defeituosos. 30 itens da produo semanal so observados. Calcular a probabilidade de se observar pelo menos 2 itens defeituosos?

Soluo: Seja X = nmero de itens defeituosos dentre os 30 observados. X = {0, 1, 2, ..., 30}. X ~ Binomial(30; 0,06)
2 = 1 < 2 Onde, < 2 = = 0 + = 1

30 < 2 = 0

0,06

0,94

30

30 + 1

0,06

0,94

29

< 2 = 0,156256 + 0,299213 = 0,455469

2 = 1 0,455469 0,545

A figura a seguir mostra exemplo de distribuies binomiais. Para n fixo (no exemplo n = 20) medida que p aumenta de 0 a 0,5 a distribuio se torna mais simtrica. O mesmo acontece se p diminui de 1 a 0,5.

Mdia e varincia de uma distribuio binomial:


= = (1 )

Exemplo: No exemplo anterior da linha de produo, tem-se que o nmero esperado de itens defeituosos dentre os 30 observados :
= 30 0,06 = 1,8

A varincia e o desvio padro so respectivamente:


= 30 0,06 0,94 = 1,692 = 1,692 = 1,3

4.2.3.

Distribuio de Poisson

til para descrever as probabilidades do nmero de ocorrncias num campo ou intervalo contnuo (em geral tempo ou espao).

Por exemplo, a v.a. de interesse pode ser:


N de peas defeituosas substitudas num veculo durante o primeiro ano de vida; N de erros tipogrficos por pgina, em um material impresso; N de acidentes por ms, em determinada rodovia; Nmero de clientes que chegam ao caixa de um supermercado por hora;

A utilizao da distribuio de Poisson baseia-se nas seguintes hipteses: 1. A probabilidade de ocorrncia a mesma para dois intervalos quaisquer de igual comprimento. 2. A probabilidade de duas ou mais ocorrncias simultneas aproximadamente zero.

3. O nmero de ocorrncias em qualquer intervalo independente do nmero de ocorrncias em outros intervalos.

A funo de probabilidade de Poisson definida pela seguinte equao:


e x P (X = x) = x!

Onde, P(X = x) - probabilidade de x ocorrncias em um intervalo.

e - base dos logaritmos naturais ( e = 2; 71828).


- taxa de ocorrncias no intervalo considerado.

OBS: o nmero de ocorrncias no tem limite mximo. Ela uma v.a. discreta que pode assumir uma sequncia infinita de valores (X = 0, 1, 2, ...). Mdia e varincia de uma distribuio de Poisson
= =

Exemplos:
1. Suponha que estejamos interessados no nmero de carros que chegam a um caixa automtico drivethru de um banco durante um perodo de 15 minutos nas manhs de fins de semana. Considere que a anlise dos dados histricos mostre que o nmero mdio de carros que chegam no perodo considerado igual a 10.

Determine a probabilidade de: a) Exatamente 5 carros chegarem em 15 min.? X = n de carros que chegam em um perodo de 15 min qualquer.
e10 105 P (X = 5) = = 0; 0378 5!

b) Um carro chegar em um perodo de 3 mim.?


Y = n de carros que chegam em um perodo de 3 min qualquer.

10 =3 = 2 = Nmero esperado de carros ) 15 que chegam em um perodo


de 3 min

Portanto,
e2 21 P (Y = 1) = = 0; 2707 1!

2. Suponha que os defeitos em fios para tear possam ser aproximados por um modelo de Poisson com mdia de 0,2 defeitos por metro. Inspecionando-se pedaos de fio de 6 metros de comprimento, determine a probabilidade de se encontrar menos de 2 defeitos.

= 6 0; 2 = 1; 2
P (X 1) = P (X = 0) + P (X = 1) e1;2 1; 20 e1;2 1; 2 = + 0! 1! = 0; 301 + 0; 3612 = 0; 6622

4.3. Variveis aleatrias contnuas


Vimos que uma v.a. contnua uma funo X, definida sobre o espao amostral , que assume valores num intervalo dos nmeros reais.
Ex: tempo de vida de uma lmpada, nvel de colesterol no soro sanguneo, tempo de espera de um cliente para ser atendido num banco, durao de uma chamada telefnica, etc.

Distribuies de probabilidade contnuas: Dado que uma v.a. contnua X assume um conjunto infinito no enumervel de valores, torna-se impraticvel a idia de atribuir uma probabilidade a cada possvel valor de X, como era feito no caso de uma v.a. discreta.

Agora, o procedimento para a obteno de probabilidades levar em conta intervalos de valores e usar o histograma.

Considere uma distribuio de freqncias com 9 classes:


Peso
x0 |- x1 x1 |- x2

fi
f1 f2

fr
fr1 fr2

x2 |- x3
x7 |- x8

f3
f8

fr3
fr8

x8 |- x9
Total

f9
n

fr9

Lembre-se que na construo de um histograma, a altura correspondente a cada retngulo equivale densidade da classe, onde = / . Dessa forma, a rea de cada retngulo igual a freq. relativa da classe. Assim, dado que a soma das freq. relativas igual a 1, a rea total do histograma e do polgono de freqncias tambm 1.

di

Considere o intervalo (x1,x2). Temos que a probabilidade de um ponto qualquer cair entre x1 e x2 ser aproximadamente igual a rea do retngulo hachurado.

Se diminuirmos a amplitude dos intervalos, (aumentando, assim, o nmero de intervalos) tornando a mesma infinitamente pequena, o polgono de freqncias passar a ser uma curva.

di

Essa curva a representao grfica de uma funo da


v.a. X, denotada por () e chamada funo de densidade de probabilidade. Esta funo deve satisfazer as seguintes propriedades: () 0, para todo , ; A rea definida por () tem que ser igual a 1.

1. 2.

Uma vez que, para v.a. contnuas, as probabilidades


so definidas para intervalos de valores e so obtidas como reas sob a curva (), temos que: = = = 0; Uma vez que s temos uma linha, cuja rea zero.

4.3.1. Mdia e varincia de uma varivel aleatria contnua


A mdia ou valor esperado de uma varivel aleatria discreta X dada pela expresso:
Z = E(X) =
1 1

x f (x) dx

A varincia de X dada pela expresso: Z 1 2 = V (X) = (x )2 f(x) dx


1

Z 2 = V (X) =

x2 f (x) dx 2
1

O desvio padro da v.a. X , ento, dado por:


= 2

Exemplo: Arquelogos estudaram certa regio e estabeleceram um modelo terico para a varivel C, comprimento de fsseis na regio (em cm). Suponha que C uma varivel aleatria contnua com a seguinte funo densidade de probabilidade:
8 < f (c) = :
1 40

c
10

+ 1 ; se 0 c 20 caso contrrio a

Calcule a mdia e a varincia da v.a. C.

Soluo: Clculo da mdia


20

=
0

1 1 + 1 = 40 10 400 3

3 20 0

1 + 40 2

2 20 0

35 = 3

Clculo da varincia e do desvio padro


20 0 20 0

() =
0

20

1 + 1 40 10
2 4 20 0

1 () = 400 4
2 2

1 + 40 3

3 20 0

500 = 3

500 35 = 3 3
2

= 30,56 2

30,56 = 5,53

Propriedades da mdia:
1. = 2. = () 3. + = + 4. + = + ()

Propriedades da varincia:
1. = 0 2. = 2 () 3. + = 2 () 4. = ()

4.4. Distribuies contnuas mais comuns 4.4.1. Distribuio Uniforme

Definio: Uma v.a. contnua tem uma distribuio uniforme se todos os valores que assume so igualmente provveis.

Uma v.a. X tem distribuio Uniforme Contnua no intervalo [a, b], a < b, se sua funo densidade de probabilidade dada por:
1 , = ( ) 0,

Notao: X ~ Uniforme[a, b]

Exemplo: Uma professora planeja a aula to cuidadosamente, que a durao de suas aulas distribuda uniformemente entre 50 e 52 minutos. Isto , qualquer tempo entre 50 e 52 minutos possvel, e todos esses valores possveis so igualmente provveis.

Se selecionarmos aleatoriamente uma aula e designarmos X a v.a. representativa do tempo de aula, ento, X tem uma distribuio definida pela funo densidade
1 , = 2 0, 50 52

Ache a probabilidade de uma aula durar mais de 51,5 minutos.


> 51,5 = > 51,5 = 0,5 0,5 = 0,25

Mdia e varincia de uma distribuio Uniforme Contnua


= + =
2

2 12

Exemplo: No exemplo anterior relacionado durao de aula de uma determinada professora, designou-se X a v.a. representativa do tempo de aula (em min.), onde X seguia uma distribuio Uniforme[50, 52]. Dessa forma, o tempo esperado de aula :
52 + 50 = = 51 2

A varincia e o desvio padro so respectivamente:


(52 50)2 4 = = 0,333 12 12 = 0,333 0,578

4.4.2.

Distribuio Exponencial

Uma v.a. contnua X, assumindo valores no


negativos, segue o modelo Exponencial com parmetro > 0 se sua densidade : , 0, 0

Notao: X ~ Exp().

Para calcular probabilidades com a exponencial, precisamos resolver a integral correspondente ao intervalo de interesse. Assim,

Esta distribuio tem sido amplamente utilizada nas reas de fsica, engenharia, computao e biologia. Variveis como a vida til de equipamentos, tempos de falha, tempos de sobrevivncia de espcies e intervalos entre solicitaes de recursos so algumas das quantidades que tm sido modeladas pela exponencial.

Mdia e varincia de uma distribuio Exponencial


= 1 = 1 2

Exemplo: Uma indstria fabrica lmpadas especiais


que ficam em operao continuamente. A empresa oferece a seus clientes a garantia de reposio, caso a lmpada dure menos de 50 horas. A vida til dessas lmpadas modelada atravs da distribuio Exponencial com parmetro 1 8000. Determine a proporo de trocas por defeito de fabricao.

Soluo: Representemos pela v.a. T, o tempo de vida da lmpada, e assim T ~ Exp(1 8000). A probabilidade desejada ser:
50 1 1 8000 8000

< 50 =
0

< 50 =

50 1 8000 0 50 8000

1 8000 0

1 8000 50

< 50 = 1

0,006

Dessa forma, a proporo de trocas por defeito de fabricao ser de aproximadamente 0,6%. Esse nmero relativamente pequeno, o que no
surpresa, tendo em vista que, como o parmetro = 1 8000, a durao mdia das lmpadas = 1 = 8000 horas.

4.4.3. Distribuio Normal


Dizemos que uma varivel aleatria contnua X tem distribuio Normal com parmetros e 2, se sua funo densidade dada por:
1 = 2 ( )2 , < < 2 2 1

Notao: X ~ N(, 2 ).

Propriedades da Normal:
1. simtrica em relao a . 2. 0 quando . 3. O valor mximo de ocorre quando = .

A distribuio Normal completamente especificada pela mdia e pela varincia 2 (parmetros da distribuio). A figura a seguir mostra exemplo de distribuies Normais.

Como calcular Probabilidades para distribuio Normal ?


Z ~ N(0,1) distribuio Normal Padro. ( 1 ) so tabeladas (valores de z entre -3 e 3)

z1

Exemplos: Termmetros Cientficos Introduo Estatstica Mrio F. Triola.

livro:

Procedimento para achar escores z a partir de reas conhecidas. 1. Desenhe uma curva em forma de sino e identifique a regio sob a curva que corresponde probabilidade dada. Se esta regio no for uma regio acumulada esquerda, trabalhe com regies conhecidas que sejam acumuladas esquerda.

Usando a rea acumulada esquerda, localize a probabilidade mais prxima no corpo da tabela da distribuio Normal e identifique o escore z correspondente.

Exemplos: Termmetros Cientficos Introduo Estatstica Mrio F. Triola.

livro:

Como calcular probabilidades para uma N(,2)?

A fim de que possamos calcular probabilidades para


distribuies Normais no-padronizadas, iremos transformar uma v.a. X ~ N(, 2 ) em uma v.a. com distribuio Normal padro (Z ~ N(0,1)).

A padronizao de x feita usando-se a frmula:


=

Qual a distribuio de X - ?

Qual a distribuio de Z = (X-)/?

Resultado Importante: Se X ~ N(, 2 ), ento:


= ~ (0, 1) e =

Exemplo: Doentes sofrendo de certa molstia so submetidos a um tratamento intensivo cujo tempo de cura foi modelado por uma densidade Normal, de mdia 15 e desvio padro 2 (em dias). Seja X a v.a. que denota o tempo de cura, temos que X ~ N(15, 4).

Calcule a probabilidade do tempo de cura:


a. Ser superior a 17 dias? b. Ser inferior a 20 dias? c. Estar entre 14 e 17 dias?

Soluo:
a. > 17 = >
1715 2

= > 1

= 1 1 = 1 0,8413 = 0,1587
2015 2

b. < 20 = <

= < 2,5 = 0,9938

c. 14 < < 17 =

1415 2

< <

1715 2

= 0,5 < < 1 = < 1 ( < 0,5) 14 < < 17 = 0,8413 0,3085 = 0,5328

Uma questo interessante seria saber o tempo mximo necessrio para a recuperao de 25% dos pacientes, ou seja,
< = 0,25 15 = = 0,25 2

A partir da tabela da Normal padro obtemos:


15 = 0,67 = 13,66 2

Assim, 25% dos pacientes ficaro curados antes de 14


dias, aproximadamente.

Dessa forma, = + ().

4.5. Distribuies amostrais


4.5.1. Distribuio de mdias amostrais.
Considere uma populao com parmetros (mdia) e 2 (varincia). Se tirarmos uma amostra aleatria de tamanho n e calcularmos sua mdia, teremos um valor para .

Se retirarmos outras amostras de tamanho n da mesma


populao, obteremos outros valores para que sero diferentes do primeiro.

Logo uma varivel que muda de valor de amostra


para amostra.

Se associarmos a cada valor de a probabilidade da


amostra que lhe corresponde, passa a ser uma varivel aleatria.

Assim, tem uma distribuio de probabilidade que


recebe o nome de distribuio amostral de .

Exemplo: Selecionamos todas as possveis amostras de tamanho 2, com reposio, da populao {1, 3, 5, 5, 7}. Existem 5x5 = 25 possibilidades:
1e1 3e1 1e3 3e3 1e5 3e5 1e5 3e5 1e7 3e7

5e1
5e1 7e1

5e3
5e3 7e3

5e5
5e5 7e5

5e5
5e5 7e5

5e7
5e7 7e7

E suas mdias so: 1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5, 6, 3, 4, 5, 5, 6, 4, 5, 6, 6 e 7, respectivamente. Como cada amostra tem probabilidade de ocorrncia igual a 1/25, a distribuio amostral de dada por:

( = ) 1

1 25 2

2 25 5

3 25 6

4 25 6

5 25 4

6 25 1

7 25

= =
2 = =

= 4,2

2 2 = 2,08

Note que a mdia e varincia populacionais so, respectivamente:


= = 4,2 e 2 = () = 4,16,

Verificamos, aqui, dois fatos:


primeiro, a mdia das mdias amostrais ( ) coincide com a mdia populacional (); segundo, a varincia de igual varincia de X, dividida por n = 2.

Esses dois fatos no so casos isolados. Na realidade, temos o seguinte resultado.

Teorema: Seja X uma v.a. com mdia e varincia 2 ,


e seja Ento, = = e
2

1 , ,

uma amostra aleatria de X. 2 = =

OBS: O desvio padro de comumente chamado de


erro padro de e denotado por .

Teorema Central do Limite (TCL)


Dado:
1. A v.a. X tem uma distribuio (que pode ou no ser normal) com mdia e desvio padro . 2. Amostras aleatrias, todas de tamanho n, so

selecionadas da populao. (As amostras so selecionadas de modo que todas as possveis amostras de tamanho n tm a mesma chance de serem escolhidas).

Concluso:
A distribuio das mdias amostrais () ir se aproximar de uma distribuio normal medida que n aumentar. Ou seja, 2 ~N , .

Regras prticas comumente utilizadas:


1. Se a populao no for normalmente

distribuda, eis uma diretriz em comum: para amostras de tamanho n maior que 30, a distribuio de pode ser razoavelmente bem aproximada pela distribuio normal. A aproximao se torna melhor medida que o tamanho amostral n aumenta.

OBS: Populaes com distribuies muito assimtricas, requerem tamanhos de amostra muito maiores que 30.
2. Se a populao for normalmente distribuda, ento ser normalmente distribuda para qualquer tamanho amostral n.

Exemplo: Em uma certa cidade, a durao de conversas telefnicas em minutos, originrias de telefones pblicos, segue um modelo Exponencial com parmetro 1/3. Observando-se uma amostra aleatria de 50 dessas chamadas, qual ser a probabilidade delas, em mdia, no ultrapassarem 4 minutos?

Soluo: Representando por X a durao das


chamadas, temos que X ~ Exp(1/3). Dessa forma, tem-se que: = 3 e = 9.

Admitindo uma amostra suficientemente grande, pelo


TCL temos que: ~N(3; 9/50).

Dessa forma, podemos calcular a probabilidade desejada da seguinte forma:


4 = 43 9 50 = 2,36 = 0,9909

Tendo em vista o alto valor de probabilidade encontrado, podemos dizer que praticamente certo que a media amostral estar abaixo de 4 min.

4.5.2. Distribuio de propores amostrais


Uma aplicao do TCL relaciona-se coma distribuio da proporo amostral. Recorde que a proporo amostral definida como a frao de indivduos com uma dada caracterstica em uma amostra de tamanho n, isto ,
. =

Se construirmos para o i-simo indivduo uma v.a.


tal que
= 1, 0,

Podemos reescrever a proporo amostral como


1 + 2 + + = =
=1

= .

Logo, a proporo amostral nada mais do que a mdia de v.a.s convenientemente definidas. Assumindo que a proporo de indivduos com a dada caracterstica na populao p e que os indivduos so selecionados aleatoriamente, temos que 1 , , formam uma seqncia de v.a.s independentes com distribuio de Bernoulli.

Assim, = e = (1 ). Logo,
=1

=1

(1 ) =

Tendo em vista o TCL temos que para n


suficientemente grande, ~ N , e dessa forma, () = (1 )
(1)

(0, 1).

Exemplo: Suponha que a proporo de peas fora de especificao em um lote de 40%. Tomada uma amostra de tamanho 30, a probabilidade de esta amostra fornecer uma proporo de peas defeituosas menor que 0,50 pode ser calculada de forma exata pela Binomial e aproximada pelo modelo Normal.

Soluo: Seja X a v.a. representando o nmero de peas defeituosas na amostra. Claramente, X ~ Binomial(30; 0,40). Logo, se representa a proporo amostral de peas defeituosas, temos que
< 0,50 = 30 < 0,50 = ( < 15) =
14 =0

30 0,40 0,6030 = 0,825.

Considerando agora a aproximao pela normal, temos, como conseqncia do TCL


0,40 0,60 ~ 0,40; 30

Assim,
< 0,50 < 0,50 0,40 0,40 0,60 30

< 0,50 < 1,12 = 0,8686;

Temos, ento, mesmo para uma amostra no muito grande, uma proximidade razovel entre as duas respostas.

5.

INFERNCIA ESTATSTICA

Objetiva estudar a populao atravs de evidncias fornecidas pela amostra. No nosso caso, as amostras sero obtidas por amostragem aleatria simples (AAS).

5.1. Estimao
Definies: Parmetro: Resumo de uma caracterstica obtido a partir de todos os elementos de uma populao. Ex: mdia populacional (), desvio-padro populacional (), proporo populacional (p).

Estimador: combinao dos elementos da amostra, construda com a finalidade de representar, ou estimar, um parmetro de interesse. Notao: , , , etc.
Estimativa: Um valor especfico do estimador, obtido para uma amostra em particular.

5.1.1.

Estimao pontual

Um nico valor amostral usado como estimativa de um parmetro da populao. A seguir encontram-se alguns exemplos de estimadores pontuais.

Parmetro

Estimador 1 + 2 + + = = . = 2 = 2 =
=1(

)2 1 2

= =

5.1.2.

Intervalos de Confiana

Idia Bsica: Suponha que estamos interessados num


parmetro populacional verdadeiro (mas desconhecido) . Podemos obter uma estimativa pontual de () usando informao de nossa amostra. Contudo, sabemos que o valor estimado dificilmente verdadeiro. ser exatamente igual ao valor

A partir da estimao pontual, somos incapazes de julgar qual a possvel magnitude do erro que estamos cometendo.
Da, surge a idia de construir os intervalos de confiana, que so baseados na distribuio amostral do estimador pontual.

Definio: um intervalo de confiana (IC) uma faixa (ou um intervalo) de valores usada para estimar o verdadeiro valor de um parmetro populacional.

5.1.3.

Intervalos de Confiana para

Suponha que queiramos estimar a mdia de uma


populao qualquer, e para tanto utilizamos a mdia de uma amostra de tamanho n. Do TCL,
2 ~N ,

E portanto,
2 = ~ N 0, ,

onde

2 = =

Daqui podemos determinar qual a probabilidade de cometermos erros de determinadas magnitudes. Por exemplo,
< 1,96 = 1 = 0,95 ou < 1,96 = 0,95

Que equivalente a
1,96 < < 1,96 = 0,95

E, finalmente,
1,96 < < + 1,96 = 0,95

Onde 1 = 0,95 o nvel de confiana do


intervalo.

Dessa forma, um intervalo de confiana de 95% para


dado por: ; 0,95 = ( 1,96 ; + 1,96 )

Podemos criar intervalos de confiana com outros


nveis de confiana, tais como: 80%, 90%, 99%.

De forma geral, o intervalo de confiana de 100


1 % para dado por: ; 1 = 2 ; + 2

Onde = 2

denominado margem de erro e

o valor que define uma rea de 2 na cauda

direita da distribuio normal padro.

OBS: 1) Quanto maior o nvel de confiana (1 ), maior ser


2

e assim E tambm aumentar.

2) Quanto maior for , maior ser a margem de erro (E).

Interpretao do intervalo de confiana: Se


obtivermos vrias amostras de mesmo tamanho e, para cada uma delas, calcularmos os correspondentes intervalos de confiana com coeficiente de confiana 1 , esperamos que a proporo de intervalos que contenham o valor de seja igual a 1 .

Interpretao Grfica do IC(, )

Exemplo: Seja X uma v.a. distribuda normalmente com


mdia desconhecida e desvio padro 4. Toma-se uma amostra de tamanho 100 e encontra-se = 20. Determine um intervalo de confiana de 95% para .

Soluo: Para 1 = 0,95


tabela 1 2). =
2

= 1,96. (Olhar na

= 1,96

4 100

= 0,8

; 0,95 = 20 0,8; 20 + 0,8 = (19,2; 20,8)

Assim, estamos 95% confiantes de que o intervalo de 19,2 a 20,8 realmente contenha o verdadeiro valor de .

Um problema com a construo de intervalos para


que no sabemos o verdadeiro desvio padro populacional .

Dessa forma, o estimamos com o valor do desvio


padro amostral . Porm, isso introduz uma outra fonte de incerteza, especialmente com amostras pequenas.

Para manter o intervalo de confiana em algum nvel desejado, tal como 95%, compensamos essa incerteza adicional construindo um intervalo de confiana um pouco mais largo.

Para tal, utilizamos a distribuio t de Student ao


invs da dist. Normal padro. Assim, em vez de usar o valor 2 , usamos um valor ligeiramente maior ( 2 ) fornecido pela dist. t de Student.

Distribuio t de Student Se a distribuio de uma populao essencialmente normal (com forma aproximada de um sino), ento a distribuio de
=

essencialmente uma distribuio t de Student com n 1 graus de liberdade.

O nico parmetro que define e caracteriza a forma dessa distribuio o nmero de graus de liberdade (g.l.), que corresponde ao nmero de valores amostrais que podem variar aps terem sido impostas certas restries aos dados amostrais.

Ex: 10 estudantes obtm em um teste mdia 8,0.


A soma das 10 notas deve ser 80. Portanto, neste caso, temos 10 1 = 9 graus de liberdade, uma vez que as nove primeiras notas podem ser escolhidas aleatoriamente, mas a 10 deve ser igual a [80 (soma das 9 primeiras notas)].

Propriedades da dist. t-Student: diferente conforme o tamanho da amostra (n);

Tem a mesma forma geral simtrica que a dist. Normal padro, mas reflete a maior variabilidade esperada em pequenas amostras;
Tem mdia igual zero;

O desvio padro varia com o tamanho da amostra, mas maior do que 1; medida que o tamanho amostral n se torna maior, a dist. t-Student se aproxima da dist. Normal padro.

Dessa forma, o intervalo de confiana de


por: ; 1 = 2 ; + 2

% para , quando desconhecido, dado

Onde

o valor que define uma rea de 2 na

cauda direita da distribuio t-Student.

Exemplo: Considere um teste de coliso de carros. A anlise de 12 carros danificados resulta num custo de conserto que parece ter distribuio em forma de sino, com mdia e desvio-padro a seguir (R$).
= 26.227 e = 15.873

Determine um intervalo de 95% de confiana para (custo mdio de conserto).

Soluo:
1 = 0,95 Para . . = 1 = 11 = 2,201.

= 2,201

15.873 12

= 10.085,29

; 0,95 = 26.227 10.085,29; 26.227 + 10.085,29

; 0,95 = (16.141,71; 36.312,29)

Assim, estamos 95% confiantes de que o intervalo


(16.141,71; 36.312,29) verdadeiro valor de . realmente contenha o

5.1.4.

Intervalos de Confiana para p

A construo de um intervalo de confiana para a


proporo populacional baseia-se na distribuio amostral de e anloga a construo de IC para .

Devido ao TCL, tem-se que


~ N ,
(1)

Assim, o intervalo de confiana de 100 1 %


para dado por:
(1 ) ; + (1 ) ,

; 1 =

onde =

(1)

a margem de erro.

Note que no sabemos o verdadeiro valor de .


Existem duas possveis solues para esse problema: 1) Substituir pela sua estimativa pontual . 2) Substituir por 1 2, uma vez que a funo (1 ) atinge seu valor mximo quando = 1 2.

Dessa forma, existem duas alternativas para o calculo


de IC para .

A primeira denominada abordagem otimista, pois


parte da crena que a estimativa pontual obtida est suficientemente prxima de .

J a segunda denominada abordagem conservativa,


pois preferimos substituir por um valor seguramente maior ou igual ao real.

Exemplo: Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre determinado produto, e 70% delas preferiram a marca A. construa um IC de 90% para a proporo de pessoas que preferem a marca A. Soluo: Para 1 = 0,90
na tabela 1 2).
2

= 1,645. (Olhar

1) Abordagem otimista:

(1 ) 0,7(0,3) = 1,645 = 0,038 400

; 0,90 = 0,7 0,038; 0,7 + 0,038 ; 0,90 = (0,662; 0,738)

2) Abordagem conservativa:

0,5(1 0,5) 0,25 = 1,645 = 0,041 400

; 0,90 = 0,7 0,041; 0,7 + 0,041 ; 0,90 = (0,659; 0,741)

Assim, em ambos os casos, estamos 90% confiantes de


que o intervalo construdo realmente contenha o verdadeiro valor de .

5.2. Teste de Hipteses (TH)

Definio: Uma hiptese estatstica uma afirmao acerca dos parmetros de uma populao, ou acerca da distribuio da populao.

O objetivo de um teste de hipteses fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidncias que apiem ou no uma hiptese formulada.
Exemplo: exemplo 8.1 do livro do Magalhes.

5.2.1. Procedimento geral do teste de hipteses


A construo de um TH para um parmetro populacional pode ser colocado do seguinte modo: Existe uma v.a. X associada a dada populao e tem-se uma hiptese sobre determinado parmetro dessa populao.

Por exemplo, afirmamos que o verdadeiro valor de


0 .

Colhe-se uma amostra aleatria de elementos dessa populao, e com ela deseja-se comprovar ou no tal hiptese.

Passo 1: Formular as hipteses nula e alternativa. 0 (hiptese nula): a hiptese que estamos pondo prova. 1 (hiptese alternativa): hiptese que ser considerada aceitvel, caso 0 seja rejeitada.

As possveis hipteses de interesse so:


0 : = 0 1 : 0 1 : > 0 . 1 : < 0 .

Qualquer que seja a deciso tomada, vimos que estamos sujeitos a cometer erros. Erro do tipo I: Rejeitar 0 quando essa verdadeira.
Chamamos de a probabilidade de cometermos esse erro, isto ,
= 0 0

Erro do tipo II: No rejeitar 0 quando essa falsa. A


probabilidade de cometermos esse erro denotada por , logo:
= 0 0

Passo 2: Identificar a distribuio do estimador (estatstica de teste) e obter sua estimativa.

Passo 3: Fixar (nvel de significncia) e obter a regio


crtica (ou regio de rejeio).

Regio crtica (RC): o conjunto de todos os valores da


estatstica de teste que nos levam a rejeitar 0 .

A definio da RC de pende da hiptese alternativa. Por exemplo, suponha que estamos realizando um teste para a mdia () de uma populao qualquer. Tem-se que, para:
1 : 0 = | < 1 > 2 1 : > 0 = | > 1 : < 0 = | <

Ou de forma equivalente:
1 1 : 0 = | < 1 > 2

2 1 : > 0 = | >

3 1 : < 0 = | <

Aps fixar a probabilidade , constri-se a RC, de modo


que: 0 = , onde o estimador de .

OBS: importante ressaltar que a RC sempre


construda sob a hiptese de 0 ser verdadeira.

Passo 4: Concluir o teste com base na estimativa e na


regio crtica. Se o valor da estatstica de teste calculado com base na amostra no pertencer RC, no rejeite 0 ; caso contrrio rejeite 0 .

5.2.2. Teste sobre a mdia de uma populao com varincia conhecida


Exemplo: A resistncia trao do ao inoxidvel produzido numa usina permanecia estvel, com uma resistncia mdia de 73 kg/mm2 e um desvio padro de 2,0 kg/mm2; sendo que tal resistncia comportase de acordo com uma dist. Normal. Recentemente, a mquina foi ajustada.

A fim de determinar o efeito do ajuste, 10 amostras foram testadas.


76,2 78,3 76,4 74,7 72,6 78,4 75,7 70,2 73,3 74,2

Presuma que o desvio padro seja o mesmo que antes do ajuste. Podemos concluir que o ajuste mudou a resistncia trao de ao? (Adote um nvel de significncia de 5%)

Soluo: Passo 1: Formulao das hipteses.


0 : o ajuste no mudou a resistncia trao de ao 1 : o ajuste mudou a resistncia trao de ao

Em termos estatsticos, temos que:


0 : = 73 1 : 73

Passo 2: Identificar a distribuio do estimador


(estatstica de teste) e obter sua estimativa.
2 ~ ; 22 ~ ; 10

A amostra obtida forneceu a estimativa = 75.


Dessa forma,
0 75 73 = = = 3,16 2 10

Passo 3: Fixar e obter a regio crtica.


Tendo em vista a especificao de 1 , a RC ser da
forma: = | < 1 > 2

Fixando-se = 0,05, temos que:


0 = 0,05 < 1 > 2 = 73 = 0,05 < 1 + > 2 = 0,05

Pela tabela da dist. normal padro, tem-se que:


1 = 1,96 e 2 = 1,96

Dessa forma, = | < 1,96 > 1,96

Passo 4: Concluso.
Uma vez que = 3,16 pertence RC, rejeitamos 0 ao nvel de significncia de 5%. Ou seja, conclumos que a resistncia trao do ao mudou aps ter sido feito ajuste da mquina.

5.2.3. Teste sobre a mdia de uma populao com varincia desconhecida

Exemplo: Um fabricante afirma que seus cigarros contm no mais que 30mg de nicotina. Uma amostra de 25 cigarros fornece mdia de 31,5mg e desvio padro de 3mg. No nvel de 5%, os dados refutam ou no a afirmao do fabricante?

Soluo: Passo 1:
0 : = 30 1 : > 30

Passo 2:
= ~ (24)

A amostra obtida forneceu a estimativa = 31,5.


Dessa forma, 0 31,5 30 = = = 2,5 3 25

Passo 3: Fixando-se = 0,05, temos que:


0 = 0,05 > = 30 = 0,05

Pela tabela da dist. t-Student, tem-se que: = 1,711.


Dessa forma, = | > 1,711

Passo 4: Uma vez que = 2,5 pertence RC,


rejeitamos 0 ao nvel de significncia de 5%. Ou seja, h evidncias de que os cigarros contenham mais de 30mg de nicotina.

5.2.4. Teste sobre a proporo populacional


Exemplo: O Servio de Imigrao e Naturalizao Americano relatou que 76% dos viajantes estrangeiros que visitaram os Estados Unidos declararam que o objetivo principal de suas visitas foi desfrutar as frias (Amrica by the Numbers, 1995).

Em 2005, foi realizado um estudo com 500 viajantes que chegaram aos EUA. Desses, 360 disseram que o principal objetivo da visita os Estados Unidos era desfrutar as frias.

A proporo de viajantes estrangeiros que tiraram frias nos Estados Unidos em 2005 menor do que a proporo relatada em 1995? Considere um nvel de significncia de 5%.

Soluo:

Passo 1:

0 : = 0,76 1 : < 0,76

Passo 2:

~ N ,

(1)

A amostra obtida forneceu a estimativa


= 360 500 = 0,72

Dessa forma,
= 0 0 (1 0 ) = 0,72 0,76 0,76(0,24) 500 = 2,09

Passo 3: Fixando-se = 0,05, temos que:


0 = 0,05 < = 0,76 = 0,05

Pela tabela da dist. normal padro, tem-se que


= 1,645. Dessa forma, = | < 1,645

Passo 4: Uma vez que = 2,09 pertence RC,


rejeitamos 0 ao nvel de significncia de 5%. Ou seja, conclumos que a proporo de visitantes estrangeiros que buscam desfrutar frias, diminuiu entre 1995 e 2005.

5.2.5. Probabilidade de significncia (p-valor)

Ao realizarmos um teste de hipteses, partimos da


fixao do nvel de significncia para construirmos a RC.

Um enfoque alternativo consiste em calcular, supondo que a hiptese nula seja verdadeira, a probabilidade de se obter um valor da estatstica de teste que seja no mnimo to extremo quanto o que foi observado a partir da amostra. Essa quantidade chamada probabilidade de significncia ou p-valor.

Valores pequenos de p-valor evidenciam que 0


falsa, pois sendo a amostra nossa ferramenta de inferncia sobre a populao, ela fornece uma estimativa que teria uma probabilidade muito pequena de ocorrer, caso 0 fosse verdadeira.

Exemplo: No exemplo relacionado ao Servio de Imigrao e Naturalizao Americano, onde o objetivo era testar se proporo de viajantes estrangeiros que tiraram frias nos Estados Unidos em 2005 era menor do que a proporo relatada em 1995.

Tnhamos as seguintes hipteses de interesse:


0 : = 0,76 1 : < 0,76

Como vimos, sob 0 , ~ N 0,76,

0,76(10,76) 500

Colhida a amostra obtivemos = 0,72.

Dessa forma o p-valor dado por:


= < 0,72| = 0,76 0,72 0,76 0,76(0,24) 500

= <

= < 2,09 = 0,0183

Note que o p-valor se relaciona diretamente com o


nvel de significncia .

Neste exemplo, se tivssemos fixado um 1,83%,


a deciso seria pela rejeio de 0 , ao passo que para < 1,83%, optaramos por no rejeitar 0 .

Podemos considerar probabilidades de significncia bilaterais. Um procedimento tomar o p-valor unilateral como sendo igual a 2 vezes o p-valor unilateral. Assim, a definio do p-valor depende da relao entre e 0 . Onde o estimador de .

Dessa forma para testar 0 : = 0 vs 1 : 0 ,


temos que:

1 Caso: se < 0 ,
= 2 < | 0 .

2 Caso: se > 0 ,
= 2 > | 0 .

Exemplo: No exemplo da resistncia trao do ao inoxidvel, estvamos testando as hipteses:


0 : o ajuste no mudou a resistncia trao de ao 1 : o ajuste mudou a resistncia trao de ao 0 : = 73 1 : 73

22 Como vimos, sob 0 , ~ 73; 10 .

Colhida a amostra obtivemos = 75.

Dessa forma o p-valor dado por:


= 2 > 75| = 73 = 2 > 75 73 2 10

= 2 > 3,16 = 2 1 < 3,16 = 2 1 0,9992 = 2 0,0008 = 0,0016

You might also like