You are on page 1of 65

Clculo das Probabilidades e Estatstica I

Prof. Dr. Eufrsio de Andrade Lima Neto Tutor de EAD


Curso de Matemtica - UFPBVIRTUAL
eufraneto@hotmail.com

Ambiente Virtual de Aprendizagem: Moodle (www.ead.ufpb.br)


Site do Curso: (www.mat.ufpb.br/ead)
Site da UFPBVIRTUAL www.virtual.ufpb.br
Telefone UFPBVIRTUAL (83) 3216 7257

Carga horria: 60 horas Crditos: 04

Ementa

Conceitos Fundamentais. Distribuio de Frequncia. Tabelas e Grficos. Medidas de Posio e


Disperso. Introduo Probabilidade. Variveis Aleatrias Unidimensionais. Esperana Matemtica.
Distribuies Discretas e Contnuas. Noes Elementares de Amostragem. Estimao Pontual. Intervalos de
Confiana e Testes de Hipteses. Correlao e Regresso.

Descrio

Esta disciplina servir de apoio ao educador em Matemtica no processo de tomada de deciso. Ao


longo do curso o aluno ser apresentado a um leque de mtodos estatsticos, descritivos e inferenciais, com
o intuito facilitar a manipulao e anlise de dados.

Objetivos

Ao final do curso, espera-se que o aluno


1. Possua competncia referente compreenso do significado de um experimento estatstico
e saiba identificar as variveis a serem estudadas;
2. Esteja habilitado a reconhecer um grfico, uma tabela estatstica e fazer uma anlise dos
dados ali apresentados;
3. Saiba fazer uma estimao pontual ou por intervalo de uma mdia ou proporo
populacional;
4. Tenha criado uma concepo aplicada do conceito de teste de hiptese sobre a mdia e/ou
sobre a proporo populacional, saiba formular tal teste e apresentar concluses sobre o
mesmo.

Unidades Temtica Integradas

Unidade I: Anlise de Dados Estatsticos

Conceitos Bsicos de Estatstica


Fases do Experimento Estatstico
Estatstica Descritiva
Medidas Estatsticas

Unidade II: Probabilidade

Espao Amostral e evento


O conceito de Probabilidade
Propriedades
Probabilidade em Espaos Amostrais Finitos
Probabilidade Condicional
Independncia de Eventos
Unidade III Variveis Aleatrias e Distribuies de Probabilidade

O conceito de Varivel Aleatria


Variveis Aleatrias Discretas
Funo de Distribuio de Probabilidade
Experimentos Binomiais e a Distribuio Binomial
Distribuio Normal

Unidade IV Teoria Elementar da Amostragem

Conceitos Bsicos
Tipos de Amostragem
Distribuies Amostrais da Mdia e da Proporo

Unidade V Intervalos de Confiana e Teste de Hiptese

Estimao de Parmetros
Intervalos de Confiana para a Mdia Populacional
Determinao do Tamanho da Amostra para estimar mdias
Intervalo de Confiana para uma Proporo Populacional
Determinao do Tamanho da Amostra para estimar Propores
Testes de Hipteses
Conceitos Fundamentais
Definio da Regra de Deciso, Erros e Nvel de Significncia
Testes de Hipteses para a Mdia Populacional
Testes de Hipteses para uma Proporo Populacional

Unidade VI Correlao e Regresso

Correlao: Conceitos
Coeficiente de Correlao: Definio e Teste de Hipteses
Regresso: Conceitos
Regresso Linear Simples: Estimao dos Parmetros

2
Unidade I: Os Anlise de Dados Estatsticos

1. Situando a Temtica

A Estatstica considerada por alguns autores como Cincia no sentido do estudo de uma populao.
considerada como mtodo quando utilizada como instrumento por outra Cincia.
A palavra estatstica frequentemente est associada imagem de aglomerao de nmeros, dispostos
em uma imensa variedade de tabelas e grficos, representando informaes to diversas quanto nascimentos,
mortes, taxas, populaes, rendimentos, dbitos, crditos, etc. Isto devido ao uso comum da palavra
estatstica como sinnimo de dados, como, por exemplo, quando falamos das estatsticas de uma eleio,
estatsticas da sade, estatsticas de acidente de trnsito ou as estatsticas de acidentes de trabalho.
No sentido moderno da palavra, estatstica lida com o desenvolvimento e aplicao de mtodos para
coletar, organizar, analisar e interpretar dados de tal modo que a segurana das concluses baseada nos dados
pode ser avaliada objetivamente por meio de proposies probabilsticas.
O propsito da estatstica no exclusivo de qualquer cincia isolada. Ao contrrio, a estatstica
fornece um conjunto de mtodos teis em toda rea cientfica onde haja a necessidade de se coletar,
organizar, analisar e interpretar dados. Estes mtodos podem ser usados to eficazmente em farmacologia
como em engenharia, em cincias sociais ou em fsica.

2. Problematizando a Temtica

Ao estudarmos fenmenos naturais, econmicos ou biolgicos tais como, a precipitao de chuvas


em uma determinada regio, a evoluo da taxa de inflao em uma regio metropolitana, a influncia das
mars no desenvolvimento de animais marinhos, etc., estamos lidando com experimentos cujos resultados
no conhecemos e desejamos saber se as hipteses que afirmamos so verdadeiras, isto , se os fenmenos
esto ocorrendo como espervamos. Para isto, necessrio que os dados oriundos das observaes possam
nos dar informaes claras e precisas. Estes dados devem ser organizados de forma adequada para podermos
fazer uma anlise crtica e fundamentada do fenmeno.
A partir de agora voc est convidado a participar de uma experincia que consiste em obter um
conjunto de dados, represent-lo em distribuies de frequncia e apresent-lo atravs de tabelas e grficos.
Ver como algumas medidas estatsticas podem nos auxiliar nesta anlise e como utiliz-las.

3. Conhecendo a Temtica

3.1 Conceitos Bsicos de Estatstica

Podemos considerar a Estatstica como um conjunto de mtodos e processos quantitativos que


serve para estudar e medir os fenmenos coletivos.

A estatstica teve acelerado seu desenvolvimento a partir do sculo XVII, atravs dos estudos de
BERNOULLI, FERMAT, PASCAL, LAPLACE, GAUSS, GALTON, PEARSON, FISHER, POISSON e
outros que estabeleceram suas caractersticas essenciais.
A Estatstica tem como OBJETIVO o estudo dos fenmenos coletivos.

A Estatstica a cincia que trata da coleta, do processamento e da disposio dos dados.

Objetivando o estudo quantitativo e qualitativo dos dados (ou informaes), obtidos nos vrios campos
da atividade cientfica, a Estatstica manipula dois conjuntos de dados fundamentais: a "populao" e a
"amostra".

Populao (ou Universo)


o conjunto dos seres, objetos ou informaes que interessam ao estudo de um fenmeno coletivo
segundo alguma(s) caracterstica(s). , portanto, um conjunto definido de informaes relativas a qualquer
rea de interesse, podendo, quanto ao nmero de elementos, ser: finita (tamanho N) ou infinita. Na maioria

3
das vezes no conveniente, ou mesmo possvel, realizar o levantamento dos dados referentes a todos os
elementos de uma populao. Portanto, analisamos parte da populao, isto , uma amostra.

Amostra
um subconjunto no vazio ou parte da populao. Duas consideraes devem ser feitas sobre o
estudo amostral dos fenmenos. Uma diz respeito aos cuidados que se deve tomar para assegurar que a
amostra seja representativa da populao. Para atender a essa exigncia, deve-se selecionar os elementos de
forma aleatria, de modo que todo e qualquer elemento da populao tenha a mesma chance de participar da
amostra, a outra diz respeito preciso dos dados coletados, buscando minimizar os erros que poderiam
induzir a concluses equivocadas. O nmero de elementos de uma amostra chamado o tamanho da
amostra, e denotado por n.

Definio 1.1: Parmetro


Uma caracterstica numrica estabelecida para toda uma populao denominada parmetro. So
valores, geralmente desconhecidos (e que portanto tm de ser estimados), que representam certas
caractersticas da populao.

Definio 1.2: Estimador


uma caracterstica baseada em observaes amostrais e usada para indicar o valor de um parmetro
populacional desconhecido.

Definio 1.3: Estimativa


O valor numrico assumido pelo estimador numa determinada amostra denominada estimativa.

Exemplo 1.1:
No fenmeno coletivo eleio para reitor da UFPB, a populao o conjunto de todos os eleitores
habilitados na Universidade. Um parmetro a proporo de votos do candidato A. Uma amostra pode ser
um grupo de 300 eleitores selecionados em toda a UFPB. Um estimador a proporo de votos do
candidato A obtida na amostra. O valor resultante do estimador, a proporo amostral, a estimativa.

Processos Estatsticos de Abordagem


Quando solicitados a estudar um fenmeno coletivo podemos optar entre os seguintes processos
estatsticos:
a) CENSO - avaliao direta de um parmetro, utilizando-se todos os componentes da populao. Entre
as principais caractersticas de um Censo, podemos destacar: admite erro processual zero e tem
confiabilidade 100%, caro, lento e quase sempre desatualizado. Nem sempre vivel.
b) AMOSTRAGEM (INFERNCIA) - avaliao indireta de um parmetro, com base em um
estimador atravs do clculo das probabilidades. Entre as principais caractersticas, podemos
destacar: admite erro processual positivo e tem confiabilidade menor que 100%, barata, rpida e
atualizada. sempre vivel.

Dados Estatsticos
Normalmente, no trabalho estatstico, o pesquisador se v obrigado a lidar com grande quantidade de
valores numricos resultantes de um censo ou de uma amostragem. Estes valores numricos so chamados
dados estatsticos.
No sentido da disciplina, a Estatstica ensina mtodos racionais para a obteno de informaes a
respeito de um fenmeno coletivo, alm de obter concluses vlidas para o fenmeno e tambm permitir
tomada de decises, atravs dos dados estatsticos observados. Desta forma, a estatstica pode ser dividida
em duas reas: Estatstica Descritiva e Estatstica Inferencial.

Estatstica Descritiva
a parte da Estatstica que tem por objetivo descrever os dados observados. A Estatstica Descritiva,
na sua funo de descrio dos dados, tem as seguintes atribuies:
A obteno dos dados estatsticos;
A organizao dos dados;
A reduo dos dados;
A representao dos dados e
A obteno de algumas informaes que auxiliam a descrio do fenmeno observado.

4
A obteno ou coleta dos dados normalmente feita atravs de um questionrio ou de observao direta de
uma populao ou amostra. A organizao dos dados consiste na ordenao e crtica quanto correo dos
valores observados, falhas humanas, omisses, abandono de dados duvidosos, etc. A reduo dos dados
envolve o entendimento e a compreenso de grande quantidade de dados atravs de simples leitura de seus
valores individuais uma tarefa extremamente rdua e difcil mesmo para o mais experimentado
pesquisador. A representao dos dados compreende de tcnicas para uma melhor visualizao dos dados
estatsticos, facilitando sua compreenso. Por exemplo, os grficos, quando bem representativos, tornam-se
importantes instrumentos de trabalho. ainda atributo da Estatstica Descritiva a obteno de algumas
informaes que sumarizam os dados, facilitando a descrio dos fenmenos observados.

Estatstica Inferencial (ou Indutiva)


a parte da Estatstica que tem por objetivo obter e generalizar concluses para a populao a partir
de uma amostra. Complementando o processo descritivo, a Estatstica Indutiva estuda parmetros a partir do
uso de estimadores usando o clculo das probabilidades, elemento este que viabiliza a Inferncia Estatstica.

Dados ou Variveis Estatsticas


As informaes ou dados caractersticos dos fenmenos ou populaes so denominados variveis
estatsticas ou simplesmente variveis. Conforme suas caractersticas particulares, podem ser classificadas
da seguinte forma:
Quantitativas - So aquelas que podem ser expressas em termos numricos. Em geral so as
resultantes de medies, enumeraes ou contagens. So subdivididas em contnuas e
discretas, conforme abaixo:
o Contnuas - so aquelas que podem assumir qualquer valor num certo intervalo de
medida, podendo ser associados ao conjunto dos nmeros reais, ou seja, um
conjunto no enumervel. Entre outras, enquadram-se nesta categoria as medidas de
tempo, comprimento, espessura, rea, volume, peso, velocidade, dosagem de
hemoglobina no sangue, concentrao de flor na gua oferecida populao, etc.
o Discretas - quando s podem assumir determinados valores num certo intervalo, ou
seja, um conjunto finito ou enumervel. Em geral, representam nmeros inteiros
resultantes de processo de contagem, como o nmero de alunos por sala, de crditos
por disciplinas, de pacientes atendidos diariamente num hospital, etc.

De modo geral, as medies do origem a variveis contnuas e as contagens ou enumeraes, a variveis


discretas. Designamos estas variveis por letras latinas, em geral, as ltimas: X, Y, Z.

Qualitativas - Nem sempre os elementos de uma populao so exclusivamente contveis.


Muitas vezes, eles podem ser qualificados tambm segundo algumas de suas caractersticas
tpicas. Nesses casos, as variveis podem ser agrupadas em nominais ou ordinais (por
postos)
o Nominais - quando puderem ser reunidas em categorias ou espcies com idnticos
atributos. Aqui se incluem os agrupamentos por sexo, rea de estudo, desempenho,
cor, raa, nacionalidade e religio.
o Ordinais - quando os elementos forem reunidos segundo a ordem em que aparecem
dispostos numa lista ou rol. So tpicas desta forma de agrupamento, variveis como
classe social, grau de instruo, entre outras.

Em geral, uma mesma populao pode ser caracterizada por mais de um tipo de varivel. Assim, os inscritos
num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o
sexo ou rea de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas.

3.2 Fases do Experimento Estatstico

Em linhas gerais, podemos distinguir no mtodo estatstico as seguintes etapas:

3.2.1 Planejamento

o trabalho inicial de coordenao no qual define-se a populao a ser estudada estatisticamente,


formulando-se o trabalho de pesquisa atravs da elaborao de questionrio, entrevistas, etc.

5
A organizao do plano geral implica em obter respostas para uma srie tradicional de perguntas,
antes mesmo do exame das informaes disponveis sobre o assunto, perguntas que procuram justificar a
necessidade efetiva da pesquisa, a saber:

- "quem", "o que", "sempre", "por que", "para que", "para quando".

Imaginemos, por exemplo, que o Governo do Estado tenha necessidade de obter informaes acerca
do desempenho em Matemtica dos estudantes matriculados na rede pblica de ensino.
O primeiro trabalho da equipe encarregada da pesquisa, ser evidentemente, o de obter respostas para
aquelas perguntas. Seriam ento:

- Quem deseja as informaes?


- O que devemos perguntar no questionrio?
- A pesquisa ser peridica ou ocasional? Ser executada sempre?
- Por que desejam as informaes?
- Quando dever estar concluda a pesquisa?
- Qual a poca oportuna para a aplicao dos questionrios?
- Para que desejam as informaes?

Ainda na fase do planejamento, temos:

O exame das informaes disponveis: trabalho inicial de coleta de trabalhos ou


publicaes sobre o assunto, obtendo-se relatrios sobre atividades semelhantes ou
correlatas;
A Definio do Universo, isto , saber qual o conjunto a ser pesquisado, distribuindo,
classificando ou agrupando os elementos desse conjunto em subpopulaes, para permitir
um trabalho mais fcil, mais lgico, mais racional;
O tipo de levantamento, Censo ou Amostragem, dever ser decidido com a devida
antecedncia e a necessria anlise das vantagens e desvantagens de um e de outro, em
virtude do custo financeiro e do prazo determinado para a concluso do trabalho.

3.2.2 Coleta de Dados

Aps cuidadoso planejamento e a devida determinao das caractersticas mensurveis do fenmeno


coletivamente tpico que se quer pesquisar, damos incio coleta dos dados numricos necessrios sua
descrio.
A coleta dos dados poder ser feita de diversas formas. A ideal aquela que maximiza os recursos
disponveis, dados os objetivos e a preciso previamente estipulados. No seu planejamento, deve-se
considerar o tipo de dado a ser coletado, o local onde este se manifestar, a frequncia de sua ocorrncia, e
outras particularidades julgadas importantes.
Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poder ser realizada
mediante respostas a questionrios previamente elaborados. Esses questionrios podem ser enviados aos
entrevistados para devoluo posterior ou podem ser aplicados pelos prprios pesquisadores ou por
entrevistadores externos ou contratados.
Os dados ou informaes representativas dos fenmenos ou problema em estudo podem ser obtidos
de duas formas: por via direta ou por via indireta.

1. Por via direta - quando feita sobre elementos informativos de registro obrigatrio (p. ex.: fichas no
servio de ambulatrio, nascimentos, casamentos, bitos, matrculas de alunos etc.) ou, ainda, quando os
dados so coletados pelo prprio pesquisador atravs de entrevistas ou questionrios. A coleta direta de
dados, com relao ao fator tempo, pode ser classificada em:
1.1. Contnua - tambm denominada registro, feita continuamente, tal como a de nascimentos e
bitos, etc. Tambm so do tipo contnuo o registro de certas doenas, como cncer, hansenase,
tuberculose e tambm algumas doenas infecciosas agudas com finalidade de controle.
1.2. Peridica - quando feita em intervalos constantes de tempo, como os censos(de 10 em 10 anos), os
balanos de uma farmcia, etc.;
1.3. Ocasional - quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma
emergncia, como no caso de epidemias que assolam ou dizimam seres humanos

6
2. Por via indireta - quando inferida de elementos conhecidos (coleta direta) e/ou conhecimento de
outros fenmenos relacionados com o fenmeno estudado. Como exemplo, podemos citar a pesquisa
sobre a mortalidade infantil, que feita atravs de dados colhidos via coleta direta.

3.2.3 Crtica dos Dados

Os dados colhidos por qualquer via ou forma e no previamente organizados so chamados de dados
brutos. Esses dados brutos, antes de serem submetidos ao processamento estatstico propriamente dito,
devem ser "criticados", visando eliminar valores imprprios e erros grosseiros que possam interferir nos
resultados finais do estudo.
A crtica externa quando visa s causas dos erros por parte do informante, por distrao ou m
interpretao das perguntas que lhe foram feitas; interna quando se observa o material constitudo pelos
dados coletados. o caso, por exemplo, da verificao de somas de valores anotados.

3.2.4 Apurao ou Processamento dos Dados

Uma vez assegurado que os dados brutos so consistentes, devemos submet-los ao processamento
adequado aos fins pretendidos. A apurao ou processamento dos dados pode ser manual, eletromecnica
ou eletrnica. Os processos e mtodos estatsticos a que um conjunto de dados pode ser submetido sero
nosso objeto de estudo nas sees seguintes.

3.2.5 Exposio ou Apresentao dos Dados

Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob
forma adequada (tabelas ou grficos), tornando mais fcil o exame daquilo que est sendo objeto de
tratamento estatstico.
No caso particular da estatstica descritiva, o objetivo do estudo se limita, na maioria dos casos,
simples apresentao dos dados, assim entendida a exposio organizada e resumida das informaes
coletadas atravs de tabelas ou quadros, bem como dos grficos resultantes.

Anlise dos Resultados


Como j dissemos, o objetivo ltimo da Estatstica tirar concluses sobre o todo (populao) a
partir de informaes fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases
anteriores (Estatstica Descritiva), fazemos uma anlise dos resultados obtidos, atravs dos mtodos da
Estatstica Inferencial, que tem por base a induo ou inferncia, e tiramos desses resultados concluses e
previses.

3.3 Estatstica Descritiva

A Estatstica Descritiva a parte da estatstica que se ocupa com a coleta, crtica, ordenao e
apresentao das informaes fundamentais caracterizao e descrio do fenmeno que se deseja estudar e
interpretar. Aqui se trabalhar com alguma caracterstica notvel do objeto de estudo, a qual ter de ser
coletada de alguma forma e em algum lugar. Na coleta das informaes deve-se considerar,
preferencialmente, toda a populao; caso a obteno de dados sobre toda a populao (censo) seja difcil ou
at mesmo impossvel (dado o grande nmero de elementos ou a sua disperso no tempo ou no espao), o
estudo poder ser feito com base numa amostra representativa.

3.3.1 Distribuies de Frequncia

Os dados numricos, aps coletados, so colocados em srie e apresentados em tabelas ou quadros.


Quando se estuda uma varivel (qualitativa ou quantitativa), o maior interesse do pesquisador conhecer a
distribuio dessa varivel atravs das possveis realizaes (valores) da mesma. Iremos, pois, ver uma
maneira de se dispor um conjunto de valores, de modo a se ter uma boa ideia global sobre esses valores, ou
seja, de sua distribuio.

Uma distribuio de frequncias pode ser apresentada nas seguintes maneiras:


Distribuio de Frequncias por Valores (varivel qualitativa ou quantitativa discreta):
construda considerando-se todos os diferentes valores ou categorias, levando em
considerao suas respectivas repeties.

7
Distribuio de Frequncias por Intervalos ou Classes (varivel quantitativa): Constroem-

se classes de valores, levando em considerao o nmero de valores que pertencem a cada
classe e quando a variabilidade dos dados grande. A construo de tabelas de frequncias
para variveis contnuas necessita de certos cuidados.
Exemplo 1.1 - A tabela 01 apresenta a distribuio de frequncia da varivel PROCEDNCIA, a partir dos
dados do Quadro 1

Tabela 01 - Frequncias e Percentuais dos 46 Estudantes de CPE


Turma 01- Perodo: 97.1, segundo a Regio de Procedncia
NO Estudantes Percentual
PROCEDNCIA
( Fi ) ( fi %)
Capital 20 43,5
Interior 16 34,8
Outra Regio 10 21,7
Total 46 100,0
FONTE: Quadro 1

Quadro 1- Informaes sobre sexo, curso, idade (anos), procedncia, renda familiar, nmero de disciplinas
matriculado(a), peso (kg) e altura (cm) de 46 alunos matriculados na disciplina CLCULO
DAS PROBABILIDADE E ESTATSTICA (CPE) - perodo 97.1 turma 01
O
ID SEXO CURSO IDADE PROCEDNCIA RENDA N . DISCIP. PESO ALTURA
(Anos) FAMILIAR MATRIC. (kg) (cm)

1 Fem Fsica 19 Interior Mdia 6 47 156


2 Masc Matem. 18 Capital Mdia 6 75 167
3 Fem Matem. 18 Outra Regio Mdia 6 61 169
4 Fem Matem. 18 Capital Mdia 6 56 163
5 Masc Matem. 18 Capital Mdia 6 80 178
6 Fem Matem. 20 Interior Mdia 6 44 158
7 Fem Matem. 20 Interior Mdia 6 52 158
8 Masc Matem. 19 Capital Mdia 6 67 174
9 Fem Matem. 19 Outra Regio Mdia 3 48 167
10 Masc Matem. 18 Capital Mdia 6 83 180
11 Fem Matem. 18 Capital Mdia 6 53 163
12 Masc Matem. 21 Outra Regio Mdia 5 66,5 175
13 Masc Matem. 18 Interior Mdia 6 78 180
14 Fem Matem. 18 Interior No Info. 6 46 158
15 Fem Matem. 18 Capital Mdia 6 54 160
16 Fem Matem. 19 Capital Mdia 6 56 162
17 Fem Matem. 19 Capital Mdia 7 53 160
18 Fem Matem. 18 Capital Mdia 6 57 164
19 Fem Fsica 23 Outra Regio Mdia 6 53 160
20 Masc Matem. 18 Interior Mdia 6 76 180
21 Masc Matem. 21 Outra Regio Mdia 6 65 171
22 Masc Matem. 19 Capital Mdia 6 78,5 180
23 Masc Matem. 19 Outra Regio Mdia 6 104 183
24 Fem Matem. 17 Interior Mdia 6 47,5 155
25 Masc Matem. 18 Interior Baixa 6 67,5 175

8
26 Masc Matem. 19 Outra Regio Mdia 6 61 160
27 Masc Matem. 17 Interior No Info. 6 68 169
28 Masc Matem. 21 Interior Mdia 5 75 178
29 Fem Matem. 18 Interior Mdia 5 58 154
30 Masc Matem. 21 Outra Regio Mdia 6 65 165
31 Masc Matem. 21 Capital Mdia 6 67 178
32 Fem Matem. 18 Capital Alta 6 47 167
33 Masc Matem. 21 Capital Mdia 5 69 179
34 Fem Matem. 19 Outra Regio Mdia 6 68 170
35 Masc Matem. 18 Capital Mdia 6 53 166
36 Fem Matem. 17 Capital Mdia 6 51 153
37 Fem Matem. 19 Capital Mdia 6 63 168
38 Masc Matem. 19 Capital Mdia 6 60 166
39 Masc Matem. 18 Capital Mdia 6 72 174
40 Masc Matem. 21 Interior Mdia 5 54 163
41 Masc Matem. 18 Interior Baixa 6 60 165
42 Masc Matem. 19 Interior Mdia 6 75 181
43 Fem Matem. 18 Capital Mdia 6 52 160
44 Masc Matem. 18 Outra Regio Mdia 6 100 175
45 Masc Matem. 22 Interior Mdia 6 80 179
46 Masc Matem. 21 Interior Mdia 6 50 166
FONTE: Questionrio aplicado - aula 24/03/97

Exemplo 1.2 - A tabela 02 apresenta a distribuio de frequncia da varivel NO DE DISCIPLINAS


MATRICULADO(A), a partir dos dados do quadro 1 (Dados Agrupados sem Intervalos)

0
Tabela 02 - Frequncias e Percentuais do N de Disciplinas Matriculadas
dos 46 Estudantes de CPE Turma 01- Perodo: 97.1.
o O
N DISC. MATRIC. N Estudantes Percentual
(Xi) ( Fi ) ( fi %)
3 1 2,2
5 5 10,9
6 39 84,8
7 1 2,2
Total ou 46 100,0
FONTE: Quadro 1

OBS.: ==> letra grega "SIGMA", indica total ou somatrio.

Regras Bsicas para Elaborao de uma Distribuio de Frequncias por Classes ou Intervalos
(Dados Agrupados em Intervalos)

1. Colete n dados referentes varivel cuja distribuio ser analisada. aconselhvel que n seja
superior a 50 para que possa ser obtido um padro representativo da distribuio.
2. Efetua-se um ROL ESTATSTICO (ordenao crescente ou decrescente de grandeza) nos Dados
Brutos (aqueles ainda no organizados numericamente).
3. Identifique o menor valor ( X min ) e o maior valor ( X max ) da amostra.
4. Calcule a AMPLITUDE TOTAL dos dados ( AT ) :
AT = X max X min

9
5. Escolhe-se convenientemente o nmero de classes k (inteiro); 5 k 15 , onde podemos tomar:
k n ou k 1 + 3,3 log(n ) , se n 50
6. Calcule o comprimento de cada classe dos dados (h ) :
AT
h=
k
aconselhvel construir classes de mesma amplitude.
7. Efetua-se o AGRUPAMENTO EM CLASSES, calculando os limites de cada classe:
1 Classe:
Limite Inferior: LI 1 = X min Limite Superior: LS1 = LI 1 + h
2 Classe:
Limite Inferior: LI 2 = LS1 Limite Superior: LS 2 = LI 2 + h
M
i-sima Classe:
Limite Inferior: LI i = LS i 1 Limite Superior: LS i = LI i + h
Continue estes clculos at que seja obtido um intervalo que contenha o maior valor da amostra
( X max ) entre seus limites.
8. Construa a tabela de distribuio de frequncias.

Uma tabela de distribuio de frequncias (por classes ou valores), dever conter as seguintes colunas:
Nmero de ordem de cada classe (i) ou valor;
Limites de cada classe (no caso da distribuio de frequncias por classes)
o As classes so fechadas esquerda e abertas direita.
o As observaes iguais ao limite superior da classe i-1, o qual igual ao limite inferior da
classe i, pertencem classe i. NOTAO: |------.
LI i + LS i
Ponto Mdio pmi da i-sima classe denotado por: pmi =
2
Tabulao: contagem dos dados pertencentes a cada classe ou a quantidade de vezes que o valor se
repete.
Frequncia simples ou absoluta (Fi ) da i-sima classe ou do i-simo valor
 Fi = nmero de observaes da i-sima classe (ou do i-simo valor)
k
 Observe que: F
i =1
i =n

Frequncia Relativa ( f i ) da i-sima classe (ou do i-simo valor)


 f i = nmero de observaes da i-sima classe (ou do i-simo valor) dividido pelo
F
tamanho da amostra, isto , f i = i
n
 Observe que a soma de todos os valores de f i deve ser igual a 1, ou seja,
k

f
i =1
i = 1 . Multiplicando cada f i por 100 obtm-se o percentual da classe (ou

valor) correspondente, isto , f i % = f i 100 .


Existem outros tipos de frequncias que tambm podem ser calculadas:
Frequncia Simples Acumulada (do tipo abaixo de): frequncia simples acumulada da i-
sima classe ou valor
Faci = F1 + F2 + L + Fi
Frequncia Relativa Acumulada: frequncia relativa acumulada da i-sima classe ou valor.
faci = f 1 + f 2 + L + f i .

10
Normas Tcnicas para Apresentao Tabular

De um modo geral tem-se a destacar em uma tabela (disposio escrita que se obtm referindo-se a
uma coleo de dados numricos a uma determinada ordem de classificao) os seguintes elementos
essenciais (obrigatrios) e complementares (no-obrigatrios):
Elementos essenciais:
Ttulo: Indicao que precede a tabela e que contm a designao do fato observado, o local e a
poca em que foi registrado.
Cabealho: Parte superior da tabela que especifica o contedo das colunas.
Coluna Indicadora: Parte da tabela que especifica o contedo das linhas.
Corpo da tabela: Conjunto de colunas e linhas que contm as informaes sobre a varivel em
estudo.
Fonte: Entidade responsvel pela informao.

Elementos complementares:
o Notas: Informaes de natureza geral destinadas a conceituar ou esclarecer o contedo das
tabelas ou a indicar a metodologia adotada no levantamento ou na elaborao dos dados.
o Chamadas: Informaes de natureza especfica sobre determinada parte da tabela, destinada a
conceituar ou a esclarecer dados.
o Sinais Convencionais:Nenhuma casa da tabela deve ficar em branco, apresentando sempre um
smbolo, a saber:
 (hfen): quando o valor numrico nulo;
 K (reticncia): quando no se dispe de dado;
 ? (ponto de interrogao): quando h dvidas quanto exatido do valor numrico;
 0,0: quando o valor numrico muito pequeno para ser expresso pela unidade utilizada. Se
os valores so expressos em nmeros decimais, acrescenta-se o mesmo nmero de casas
decimais ao valor zero;
 x (letra x): quando o dado for omitido a fim de evitar individualizao da informao.

As tabelas apresentadas oficialmente devem atender s normas da ABNT (resoluo 886 de


20/10/60).

Exemplo 1.3 Elabore uma tabela de distribuio de frequncias (dados agrupados em intervalos) da
varivel ALTURA (em cm), dos 46 estudantes de CPE, turma 01 Perodo 07.1, usando-se os dados do
Quadro 1.

Soluo:
Passo 1: Estabelecer o nmero de classes: k 46 7
Passo 2: Amplitude Total: AT = 183 153 = 30
AT 30
Passo 3: Amplitude das Classes: h= = 4,3
k 7
Passo 4: Construo da Tabela de Distribuio de Frequncias

Tabela 03 Distribuio de Frequncias das ALTURAS dos 46 Estudantes de CPE, Perodo:


97.1.
NO Estudantes Percentual
ALTURA (Xi)
( Fi ) ( fi %)
153,0 |----- 157,3 4 8,7
157,3 |----- 161,6 8 17,4
161,6 |----- 165,9 7 15,2
165,9 |----- 170,2 10 21,7
170,2 |----- 174,5 3 6,5
174,5 |----- 178,8 6 13,0
178,8 |----- 183,1 8 17,4
Total ou 46 100,0
FONTE: Quadro 1

11
Exemplo 1.4 - Elabore uma tabela de distribuio de frequncias (dados agrupados em intervalos) da
varivel IDADE (em anos) de 33 estudantes de CPE, conforme Dados Brutos abaixo:

DADOS BRUTOS ROL DE DADOS ORDENADOS


22 25 23 22 23 26 25 33 23 35 20 21 22 22 22 22 22 22 23 23
27 24 24 22 24 22 24 21 22 28 23 24 24 24 24 24 24 25 25 25
30 25 28 29 24 25 20 27 34 26 25 26 26 27 27 28 28 29 30 30
36 30 22 34 35 36

Soluo:
Passo 1: Estabelecer o nmero de classes: k 33 6
Passo 2: Amplitude Total: AT = 36 20 = 16
AT 16
Passo 3: Amplitude das Classes: h= = 2,7
k 6
Passo 4: Construo da Tabela de Distribuio de Frequncias

Tabela 04 - Distribuio de Frequncias das IDADES de 33 Estudantes de CPE, Perodo: 97.1.


IDADE (Xi) Fi
20,0 |----- 22,7 8
22,7 |----- 25,4 13
25,4 |----- 28,1 6
28,1 |----- 30,8 3
30,8 |----- 33,5 0
33,5 |----- 36,2 3
Total ou 33
FONTE: Quadro 1

A Tabela 5, a seguir, um exemplo de como calcular os outros tipos de frequncias a partir da Tabela 3

Exemplo 1.5

Soluo:

Tabela 05 Distribuio de Frequncias das ALTURAS dos 46 Estudantes de CPE, Perodo:


97.1.
Freq. Abs. Freq. Relat. Ponto
Freq. Absoluta Freq. Relativa Freq. Percentual
ALTURA (Xi) Acum. Acum. Mdio
Fi fi fi %
Faci faci pmi
153,0 |----- 157,3 4 0,087 8,7 4 0,087 155,15
157,3 |----- 161,6 8 0,174 17,4 12 0,261 159,45
161,6 |----- 165,9 7 0,152 15,2 19 0,413 163,75
165,9 |----- 170,2 10 0,217 21,7 29 0,630 168,05
170,2 |----- 174,5 3 0,065 6,5 32 0,695 172,35
174,5 |----- 178,8 6 0,130 13,0 38 0,825 176,65
178,8 |----- 183,1 8 0,174 17,4 46 1,000 180,95
Total ou 46 1,000 100,0 - - -
FONTE: Quadro 1

3.3.2 Representao Grfica de Distribuies de Frequncia

O grfico estatstico uma forma de apresentao dos dados estatsticos, cujo objetivo produzir,
no investigador ou no pblico em geral, uma impresso rpida e viva do fenmeno em estudo..
Para tornarmos possvel uma representao grfica, estabelecemos uma correspondncia entre os
termos da srie (Tabela) e determinada figura geomtrica, de tal modo que cada elemento da srie seja
representado por uma figura proporcional.

12
Requisitos
A representao grfica de um fenmeno deve obedecer aos seguintes requisitos primordiais:
Simplicidade - indispensvel devido necessidade de levar a uma rpida apreenso do
sentido geral do fenmeno apresentado a fim de no nos perdermos na observao de
mincias de importncia secundria;
Clareza - o grfico deve possibilitar uma correta interpretao dos valores representativos do
fenmeno em estudo;
Veracidade - indispensvel qualquer comentrio, posto que, se no representa uma
realidade, perde o grfico sua finalidade.

Os principais tipos de grficos estatsticos para as distribuies de frequncias so os diagramas,


que so grficos geomtricos de, no mximo duas dimenses. Para sua construo, em geral, fazemos uso s
do sistema cartesiano. Dentre os principais tipos de diagramas, destacamos:

Variveis Qualitativas:
Para representarmos as variveis qualitativas graficamente usamos os grficos de Barras, Colunas,
Setores ou Linha.

Grfico em Barras ou Colunas: a representao de uma srie por meio de retngulos,


dispostos horizontalmente (em barras) ou verticalmente (em colunas);
Grfico de Setores: o grfico que representa as partes de um todo, por setores de um
crculo, visando justamente comparar estas partes entre si em relao ao todo.
Grfico de Linha: til na representao de tabelas ou sries que evoluem ao longo do tempo
(sries temporais), possibilitando a identificao de tendncias.

Exemplo 1.6: Construindo um Grfico de Barras


Procedncia dos Estudantes de CPE - Per. 97.1
25

s 20
e
t
n
a 15
d
tu
sE
. 10
m
u
N
5

0
Capital Interior Outra Regio

Procedncia

FONTE: Quadro 1

Exemplo 1.7: Construindo um Grfico de Setor


Procedncia dos Estudantes de CPE - Per. 97.1

Outra Regio
22% Capital
43%

Interior
35%

FONTE: Quadro 1

13
Variveis Quantitativas
Discretas:para representarmos as variveis quantitativas discretas graficamente usamos grficos em
Barras ou Colunas;
Contnuas: para representarmos as variveis quantitativas contnuas graficamente usamos o
Histograma ou o Polgono de Frequncias.

Histograma
a representao grfica de uma distribuio de frequncias de varivel quantitativa contnua
(dados agrupados em intervalos) por meio de retngulos justapostos, centrados nos pontos mdios das
classes e cujas reas so proporcionais s frequncias das classes.

Exemplo 1.8: Construindo um Histograma


Distribuio das Alturas dos Estudantes de CPE, Per. 97.1
12

at 10
lu
o
s 8
b
A
iac 6
n
e
u 4
q
re
F 2

0
155.15 159.45 163.75 168.05 172.35 176.65 180.95

Altura (cm)

FONTE: Quadro 1

Polgono de Frequncia
a representao grfica de uma distribuio de frequncias de varivel quantitativa contnua
(dados agrupados em intervalos) por meio de uma linha poligonal fechada ou polgono, cuja rea total
igual do histograma.

Exemplo 1.10: Construindo um Polgono de Frequncias


Distribuio das Alturas dos Estudantes de CPE, Per. 97.1
12

10

8
Frequencia Absoluta

0
150.85 155.15 159.45 163.75 168.05 172.35 176.65 180.95 185.25

Altura (cm)

FONTE: Quadro 1

14
3.4 Medidas Estatsticas

Vimos anteriormente a sintetizao dos dados sob a forma de tabelas, grficos e distribuies de
frequncias. Aqui, vamos aprender o clculo de medidas que possibilitem representar um conjunto de dados
(valores de uma varivel quantitativa, isto , informaes numricas), relativos observao de determinado
fenmeno de forma reduzida.
Estes ndices estatsticos so as MEDIDAS DE POSIO e, dentre as mais importantes, citamos as
Medidas de Tendncia Central, que recebem tal denominao pelo fato dos dados observados tenderem,
em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendncia central, destacamos:
Mdia aritmtica ou Mdia;
Moda;
Mediana.
As outras medidas de posio so as SEPARATRIZES, que englobam:
a mediana;
os quartis;
os percentis.

3.4.1 Medidas de Tendncia Central

Mdia Aritmtica (ou simplesmente MDIA)


Notao:
X = a mdia da amostra ou mdia amostral
= a mdia da populao ou mdia populacional
(a) Distribuio de Frequncias por Valor
Sejam x1 , x 2 ,K , x k as medidas da varivel de interesse, realizadas para uma amostra de tamanho n
extrada de uma populao. Definimos a mdia da amostra X como: ( )
k k

x
i =1
i Fi x
i =1
i Fi
X = k
ou, simplesmente, X =
n
Fi
i =1
onde:
xi o i-simo valor da varivel de interesse;
Fi a frequncia absoluta do i-simo valor;
n o tamanho da amostra.

Exemplo 1.11: Determinar a mdia do seguinte conjunto (amostra) de valores 3, 7, 8, 10, 11

Logo, X =
X i
=
3 + 7 + 8 + 10 + 11
= 7,8
n 5

Exemplo 1.12: Determinar a mdia do seguinte conjunto (amostra) de valores


2, 3, 8, 8, 5, 2, 2, 2, 8, 5, 3, 8, 2, 2, 5, 8, 2, 5, 8, 2
Ento: Dados Agrupados sem Intervalos
xi Fi xi Fi
2 8 16
3 2 6
5 4 20
8 6 48
20 90

15
4

x i Fi
90
4
n = Fi = 20
X= i =1
4
= X = 4,5 e
20 i =1
Fi =1
i

(b) Distribuio de Frequncias por Classes


Sejam pm1 , pm2 ,K , pmk os pontos mdios das classes, ocorrendo com frequncias F1 , F2 , K , Fk ,
k
respectivamente, de modo que F
i =1
i = n.

Definimos a mdia da amostra X como: ( )


k k

pmi Fi
i =1
pm
i =1
i Fi
X = k
ou, simplesmente, X =
n
F
i =1
i

onde:
pmi o ponto mdio da i-sima classe;
Fi a frequncia absoluta da i-sima classe;
n o tamanho da amostra

Vantagens e Desvantagens da Mdia

uma medida de tendncia central que, por uniformizar os valores de um conjunto de dados, no
representa bem os conjuntos que revelam tendncias extremas. Ou seja, grandemente influenciada pelos
valores extremos (grandes) do conjunto. Alm disso, no pode ser calculada para distribuies de
frequncias com limites indeterminados (indefinidos).

Propriedades:
n
1. A soma dos desvios tomados em relao mdia nula, isto , ( X
i =1
i )
X = 0.
2. Somando-se ou subtraindo-se uma constante c a todos os valores de uma varivel, a mdia do
conjunto fica aumentada ou diminuda dessa constante, isto , Yi = X i c Y = X c .
3. Multiplicando-se ou dividindo-se todos os valores de uma varivel por uma constante c, a mdia
do conjunto fica multiplicada ou dividida por essa constante, isto , Yi = X i c Y = X c ou
Xi X
Yi = Y = , para c 0 .
c c

Exemplo 1.13: Utilizando os dados apresentados na Tabela 5, determine a ALTURA MDIA dos 33
estudantes de Estatstica Vital - 97.1 turma 06

Freq. Absoluta Ponto Mdio pmi Fi


ALTURA (Xi)
Fi pmi
153,0 |----- 157,3 4 155,15 620,60
157,3 |----- 161,6 8 159,45 1275,60
161,6 |----- 165,9 7 163,75 1146,25
165,9 |----- 170,2 10 168,05 1680,50
170,2 |----- 174,5 3 172,35 517,05
174,5 |----- 178,8 6 176,65 1059,90
178,8 |----- 183,1 8 180,95 1447,60
Total ou 46 - 7747,50
k

pm
i =1
i Fi
7747,50
Ento: X = = = 168,42 cm
k
46
F
i =1
i

16
Moda
Notao: Mo

Dado um conjunto ordenado de valores. A moda (so) o(s) valor(es) que ocorre(m) com maior
frequncia no conjunto de dados, ou seja (so) o(s) valor(es) mais frequente(s) do conjunto de dados.

Exemplo 1.14: Determine a moda dos seguintes conjuntos de dados abaixo


a) 2, 2, 3, 3, 5, 5, 8, 8 No existe moda (ou amodal)
b) 2, 2, 3, 5, 5, 5, 8, 8 Mo = 5
c) 2, 2, 2, 3, 3, 5, 5, 5, 8 Mo = 2 e Mo = 5

Observao:
i) A moda de um conjunto de dados pode no existir (figura 1 (a) )
ii) A moda de um conjunto de dados pode no ser nica (figura 1 (c) )

Figura 1: Caracterizao de Dados quanto moda

Clculo da Moda em uma Distribuio de Frequncias por Classes


Em uma distribuio de frequncias com dados agrupados em classes, denominamos classe modal a
classe que possui a maior frequncia, e, consequentemente, ser esta classe que conter a moda.

Exemplo 1.15: Utilizando os dados apresentados na Tabela 5, apresentamos o clculo determine a ALTURA
MODAL (Moda) para dados agrupados em intervalos, a partir da frmula de Czuber apresentada na Figura
2.

Figura 2: Clculo da moda para dados distribudos em classes

FRMULA de CZUBER (interpretao


geomtrica atravs de Histograma)
1
Mo = Lmo + hmo
1 + 2
onde:
Lmo : limite inferior da classe modal
hmo : amplitude da classe modal
1 = Fmod al Fanterior
2 = Fmod al F posterior

Soluo:

17
A Classe modal ser o intervalo com maior frequencia absoluta (Fi). Neste caso a classe modal (4a) ser
165,9 |----- 170,2 Lmo = 165,9 , hmo = 4,3 , 1 = Fmod al Fanterior = 10 7 = 3 e
2 = Fmod al F posterior = 10 3 = 7 .
3
Da, Mo = Lmo + 1
hmo = 165,9 + 4,3 = 167,19 cm.
1 + 2 3+ 7

Vantagens e Desvantagens da Moda


 No depende de todos os valores do conjunto de dados, podendo mesmo no se alterar com a
modificao de alguns deles;
 No influenciada por valores extremos (grandes) do conjunto de dados
 Pode ser calculada para distribuies com limites indeterminados (indefinidos) na maioria dos casos.

Mediana
Notao: Me

Considere um conjunto de dados ordenado constitudo de n valores. A mediana o valor que divide
o conjunto em duas partes iguais (isto , em duas partes de 50% cada).

1 Caso: n mpar
Para a srie de valores ordenados em ordem crescente de grandeza (isto , um rol), a mediana o
valor central, isto ,
n +1
Me = elemento que est na posio .
2
2 Caso: n par
Para a srie de valores ordenados em ordem crescente de grandeza (isto , um rol), a mediana a
mdia aritmtica dos valores centrais, isto ,
n n
Me = mdia aritmtica entre os elementos das posies e + 1.
2 2
3o Caso: Clculo da Medida em uma Distribuio de Frequncias por Classes
No caso de dados agrupados, relembramos que uma distribuio de frequncias pode ser
representada por meio de um Histograma. Dizemos ento que a mediana ser o valor de X (abscissa) cuja
ordenada divide a rea total do Histograma em duas partes iguais.
Em uma distribuio de frequncias com dados agrupados em classes, denominamos classe mediana
n
a classe que contm o elemento que est na posio e, consequentemente, ser esta a classe que conter a
2
mediana.

Figura 3: Clculo da mediana para dados distribudos em classes


n
Fac ant
Me = LI me + 2 hme
Fme


onde:
LI me o limite inferior da classe mediana;
Fme a frequncia absoluta da classe mediana;
Fac ant a freq. absoluta acumulada da classe anterior
classe mediana;
hme a amplitude da classe mediana;
n o nmero de observaes.

18
Assim, para dados agrupados em intervalos, a mediana obtida atravs de interpolao de acordo com
a frmula dada na figura 3.

Propriedades da Mediana

1. A mediana no influenciada por valores extremos (grandes) de uma srie ou conjunto de dados;
2. A mediana de uma srie de dados agrupados de classes extremas indefinidas pode ser calculada.

Exemplo 1.16: Determinar a ALTURA MEDIANA dos 46 estudantes da turma de CPE, - Perodo: 97.1,
conforme os dados agrupados na tabela 5.
Classe mediana a classe que contm o elemento que est na posio n , ou seja, a classe mediana
2
a classe que contm o elemento que est na 23 posio. Logo, a classe mediana ser a 4: 165,9 |----- 170,2
(Classe mediana: primeira classe que ultrapassar 50% (n/2) ou mais das observaes)

LI me = 165,9 Fme = 10 hme = 4,3


Fant = 19
Ento:
n 46
Fant 19
Me = LI me + 2 hme = 165,9 + 2 4,3 = 165,9 + 1,72 = 167,62 cm.
f me 10

3.4.2 Medidas de Disperso

No item anterior, aprendemos a calcular e entender convenientemente as medidas de posio


representativas de um determinado conjunto de dados, onde destacamos a mdia, a moda e a mediana.
Sejam quatro conjuntos A, B, C e D com os seguintes valores:

Conjunto A ====> 7, 7, 7, 7, 7
Conjunto B ====> 5, 6, 7, 8, 9
Conjunto C ====> 4, 5, 7, 9, 10
Conjunto D ====> 0, 5, 10, 10, 10

Para representarmos cada conjunto, podemos calcular a sua respectiva mdia aritmtica, encontrando
X A = XB = XC = XD = 7 .
Vemos assim que, apesar de constitudos de valores diferentes, os grupos revelam uma mesma mdia
aritmtica. Observando-os mais detalhadamente, notamos que em cada grupo, isto , conjunto de dados, os
valores se distribuem diferentemente em relao mdia. Necessitamos assim de uma medida estatstica
complementar para melhor caracterizar cada conjunto apresentado.
As medidas estatsticas responsveis pela variao ou disperso dos valores de um conjunto de dados
so as medidas de disperso ou de variabilidade, onde se destacam a amplitude total, a varincia, o desvio
padro e o coeficiente de variao. Em princpio, diremos que entre dois ou mais conjuntos de dados, o mais
disperso (ou menos homogneo ) aquele que tem a maior medida de disperso.

Amplitude Total
Notao: AT

Medida j apresentada na elaborao de uma distribuio de frequncias com dados agrupados em


classes, definida por:
AT = X max X min ,
onde: X max o maior valor do conjunto de dados e X min o menor valor do conjunto de dados.

19
Varincia
Notao: S 2 a varincia da amostra ou varincia amostral
2 a varincia da populao ou varincia populacional

A varincia de um conjunto de dados (amostra ou populao ) mede a variabilidade do conjunto em


termos de desvios quadrados em relao mdia aritmtica. uma quantidade sempre no negativa e
expressa em unidades quadradas do conjunto de dados, sendo de difcil interpretao.

Distribuio de Frequncias por valor


Sejam x1 , x 2 ,K , x k as medidas da varivel de interesse, realizadas para uma amostra de tamanho n
extrada da populao considerada. Definimos a varincia da amostra S 2 como: ( )
k

(x
2
i X ) Fi
S2 = i =1

n 1
onde:
xi o i-simo valor da varivel de interesse;
Fi a frequncia absoluta do i-simo valor;
X a mdia da amostra;
n o tamanho da amostra.

Observao: A equao acima utilizada quando nosso interesse no se restringe descrio dos dados
mas, partindo da amostra, visamos tirar inferncias vlidas para uma respectiva populao.

Distribuio de Frequncias por Classes


Sejam pm1 , pm 2 , K , pmk os pontos mdios das classes, ocorrendo com frequncias F1 , F2 , K , Fk de
k
modo que F i ( )
= n . A varincia da amostra S 2 definida por como:
i =1
k

( pm
2
i X ) Fi
S2 = i =1

n 1
onde:
pmi o ponto mdio da i-sima classe;
Fi a frequncia absoluta da i-sima classe;
X a mdia da amostra;
n o tamanho da amostra.

Desvio-Padro
Notao: S o desvio-padro da amostra ou desvio-padro amostral
o desvio-padro da populao ou desvio-padro populacional

uma outra medida de disperso mais comumente empregada do que a varincia, por ser expressa
na mesma unidade do conjunto de dados. Mede a "DISPERSO ABSOLUTA" de um conjunto de valores e
obtida a partir da varincia.
Desvio Padro = Varincia (Raiz quadrada da Varincia ).

Assim,
S = S2
Coeficiente de Variao

uma medida que expressa a variabilidade em termos RELATIVOS, comparando o desvio-padro


com a mdia:

20
S
CV = 100% , sendo que X 0 .
X
Note que importante expressar a variabilidade em termos relativos porque, por exemplo, um
desvio-padro igual a 1 pode ser muito pequeno se a magnitude dos dados da ordem de 1.000, mas pode ser
considerado muito elevado se esta magnitude for da ordem de 10.
Observe tambm que o coeficiente de variao adimensional e por este motivo permite a
comparao das variabilidades de diferentes conjuntos de dados.

Comentrios sobre as principais Medidas de Tendncia Central e Disperso


1. O conjunto de todos os possveis elementos de uma determinada pesquisa constitui uma populao
estatstica. Sua mdia a mdia populacional, usualmente representada pela letra grega . Na
grande maioria das situaes prticas, a mdia populacional desconhecida e deve ser estimada a
partir de dados amostrais. Se a amostra for extrada de forma adequada, a mdia amostral X uma
boa estimativa de .
2. Comparando a mdia e a mediana, temos que a mediana pouco sensvel presena de valores
muito altos ou muito baixos na amostra, enquanto a mdia j muito sensvel a esta situao. Para
ilustrar o sentido desta afirmao, vamos considerar os dados abaixo:

5 14 47 61 122 620

A mediana deste conjunto de dados :


47 + 61
Me = = 54
2
enquanto que a mdia dada por:
5 + 14 + 47 + 61 + 122 + 620 869
X = = = 144,8 .
6 6
Observe que a maior observao (620) exerceu uma grande influncia sobre a mdia somente este
dado maior do que a mdia, o que ento no sintetiza de forma adequada as informaes contidas
na massa de dados. Portanto, neste exemplo, a mediana parece ser a melhor medida para indicar a
localizao dos dados.
De modo geral, quando o histograma construdo para os dados da amostra do tipo assimtrico,
devemos preferir a mediana como medida de tendncia central.
3. A amplitude, apesar de ser muito fcil de calcular, tem a desvantagem de levar em considerao
apenas os dois valores extremos (mximo e mnimo) da massa de dados, desprezando os demais.
4. A varincia populacional representada por 2 . Usualmente, a varincia populacional
desconhecida e deve ser estimada a partir dos dados amostrais. Se a amostra foi extrada de forma
adequada, a varincia amostral S 2 uma boa estimativa de 2 .
5. As medidas X , S 2 e S tomadas na amostra, denominadas ESTATSTICAS, so estimativas dos
PARMETROS POPULACIONAIS , 2 e (supostos desconhecidos).

Exemplo 1.17: Utilizando os dados apresentados na Tabela 5, determine a VARINCIA, o DESVIO-


PADRO e o COEFICIENTE DE VARIAO DAS ALTURAS dos 46 estudantes de CPE - 97.

Freq. Absoluta Ponto Mdio pmi Fi pmi2 Fi


ALTURA (Xi)
Fi pmi
153,0 |----- 157,3 4 155,15 620,60 96286,09
157,3 |----- 161,6 8 159,45 1275,60 203394,42
161,6 |----- 165,9 7 163,75 1146,25 187698,44
165,9 |----- 170,2 10 168,05 1680,50 282408,03
170,2 |----- 174,5 3 172,35 517,05 89113,57
174,5 |----- 178,8 6 176,65 1059,90 187231,34
178,8 |----- 183,1 8 180,95 1447,60 261943,22
Total ou 46 - 7747,50 1308075,10

21
2
k
pmi Fi
( pmi X )2 Fi pmi2 Fi i =1
k k

n
A expresso S 2 = i =1 = i =1 . Assim,
n 1 n 1
2
k
pmi Fi 2
k
i =1 (7747,5)
i ipm 2
F
n
1308075,10
46 3210,83
S 2 = i =1 = = = 71,35 cm 2 .
n 1 46 1 45
Logo,
S 8,44 cm
S = S 2 = 71,35 cm 2 = 8,44 cm e CV = 100% = 100% = 5,01%
X 168,42 cm

Exemplo 1.18: Uma fbrica classifica operrios de acordo com os graus obtidos em testes de aptido. Os
dados so apresentados na distribuio de frequncia abaixo:

Notas Teste Aptido


(Xi)
Fi Faci pmi pmi x ( pmi x )2 ( pmi x )2 Fi
0 |----- 2 6 6 1 -4,172 17,409 104,454
2 |----- 4 10 16 3 -2,172 4,719 47,193
4 |----- 6 23 39 5 -0,172 0,030 0,684
6 |----- 8 11 50 7 1,828 3,340 36,741
8 |---- 10 8 58 9 3,828 16,650 117,203
Total ou 58 - - 40,149 306,276

a) Calcule o grau mdio obtido pelos operrios;


___
b) O operrio que tirar nota acima de X + 2 S receber um prmio. Um operrio para receber esta
meno dever ter tirado quanto?
c) Com base nos dados da tabela, a partir de que nota temos 50% dos operrios mais aptos.

Soluo:
5

___ pm F
i =1
i i
300
a) O grau mdio dado por: X = = = 5,172414
n 58
b) A varincia para os dados agrupados dada pela frmula:
5 __

( pm i X ) 2 Fi
306,276
S2 = i =1
= = 5,373 .
n 1 57
Logo o desvio padro S = 2,318,
___
Desta forma X + 2 S = 9,808, portanto qualquer operrio com nota maior que 9,808 receber o premio.

c) A nota acima da qual esto 50% dos operrios chamada nota mediana, a qual calculada para dados
agrupados em intervalos por:

n 58
( Fac ant ) ( 16)
26
M d = LMd + 2 hMd = 4 + 2 2 = 4 + = 4 + 1,13 = 5,13 .
FMd 23 23

22
4. Avaliando o que foi construdo

Nesta unidade aprendemos a explorar dados estatsticos, onde estudamos desde a organizao dos
dados em tabelas e grficos at o clculo de medidas estatsticas importantes que sero utilizadas nas
unidades subseqentes e convidamos vocs a resolverem a lista de exerccio anexa a este material, tentando
descobrir no seu dia a dia a utilidade para o contedo aqui abordado. Este foi o inicio da convivncia com a
Estatstica. Esperamos que tenha sido prazeroso. Procure seus tutores, use e abuse deste material.

23
Unidade II Probabilidade

1. Situando a Temtica

A teoria das probabilidades o fundamento para a inferncia estatstica. O objetivo desta parte que
o aluno compreenda os conceitos mais importantes da probabilidade.
O conceito de probabilidade faz parte do dia-a-dia dos trabalhadores das rea das cincias exatas,
cincias biolgicas, engenharia, etc., uma vez que seu conceito frequentemente usado na comunicao
diria. Por exemplo, podemos dizer que um aluno tem chance de 70% de ser aprovado em uma determinada
disciplina. Um professor est 90% seguro de que um novo mtodo de ensino proporcione uma melhor
compreenso pelos alunos. Um engenheiro de produo afirma que uma nova mquina reduz em 20% o
tempo de produo de um bem. Tal como mostram os exemplos, as pessoas expressam a probabilidade em
porcentagem. Trabalhando com a probabilidade matemtica mais conveniente express-la como frao (as
porcentagens resultam da multiplicao das fraes por 100).

2. Problematizando a Temtica

O conceito de probabilidade fundamental para o estudo de situaes onde os resultados so


variveis, mesmo quando mantidas inalteradas as condies de sua realizao. Por exemplo, jogando-se um
dado, temos seis resultados possveis de cada vez; a observao do sexo dos candidatos inscritos num
concurso pblico conduz a dois resultados possveis - masculino ou feminino. Em ambos os casos, embora
no sejamos capazes de afirmar de antemo que resultado particular ocorrer, temos condies de descrever
o conjunto de todos os resultados possveis do experimento. A sua repetio continuada mostra uma certa
regularidade nos resultados, o que nos permite estudar o experimento, apesar da incerteza nele presente.

3. Conhecendo a Temtica

3.1 Espaos Amostrais e Eventos

Antes de passarmos definio de probabilidade necessrio fixarmos os conceitos de experimento


aleatrio, espao amostral e evento.

Experimento Aleatrio

o processo da coleta dos dados relativo a um fenmeno que acusa variabilidade em seus resultados.
Um experimento caracteriza-se como aleatrio, em funo de poder ser repetido indefinidamente sob
condies, essencialmente inalteradas, e embora no sejamos capazes de afirmar que resultado particular
ocorrer, seremos sempre capazes de descrever o conjunto de todos os possveis resultados do mesmo.

Espao Amostral ( Notao: S ou (mega) )

o conjunto formado por todos os possveis resultados de um experimento aleatrio.

Eventos ( Notao: A, B. C, ... )

qualquer subconjunto do espao amostral.

3.1.1 Operaes entre Eventos

Combinaes de Eventos

Sejam A e B eventos em um mesmo espao amostral. Temos as definidas as seguintes operaes


entre conjuntos:

Evento Unio A B (l-se: A unio B): o evento unio de A e B equivale ocorrncia de A ou


de B ou de ambos. Contm os elementos do espao amostral que esto em A ou em B ou em ambos.

24
Evento Interseo A B (l-se: A interseo B): o evento interseo de A e B equivale
ocorrncia de A e de B, simultaneamente. Contm os elementos do espao amostral que esto em A e em
B.

Evento Complementar A (l-se: A evento complementar de A): o evento complementar de A


equivale no ocorrncia do evento A. Contm os elementos do espao amostral que no esto em A.

Eventos Disjuntos ou Mutuamente Exclusivos: dois eventos A e B dizem-se mutuamente


exclusivos ou mutuamente excludentes quando a ocorrncia de um deles impossibilita a ocorrncia do
outro. Os dois eventos no tm nenhum elemento em comum. Exprime-se isto escrevendo:
A B =

UNIO INTERSEO

EVENTO COMPLEMENTAR EVENTOS DISJUNTOS

3.2 O Conceito de Probabilidade

Definio 2.1: Uma funo P : R dita uma probabilidade se satisfaz os seguintes axiomas:
i) P() = 1 ;
ii) 0 P( A) 1 ;
iii) Sejam A e B eventos em um mesmo espao amostral. Se A e B forem mutuamente exclusivos,
ento P( AU B) = P( A) + P( B ) .

Por enquanto, ainda no sabemos calcular a probabilidade de ocorrncia de um evento A P(A). No


entanto, vamos enunciar algumas propriedades relacionadas a P(A) que decorrem das condies acima e que
no dependem da maneira pela qual calculamos P(A).

3.2.1 Propriedade de Probabilidade

Sejam A e B eventos em um mesmo espao amostral:


1. Se o evento impossvel, ento P() = 0 ;
( )
2. Se AC o evento complementar de A, ento P A C = 1 P( A) .
3. Se A e B so dois eventos quaisquer, ento P( A B ) = P( A) + P(B ) P( A B ) ;
4. Se o evento A B, ento P( A) P( B) .

25
3.2.2 Probabilidade em Espaos Amostrais Finitos

Seja um espao amostral associado a um experimento aleatrio constitudo de N resultados


igualmente provveis (equiprovveis). Seja A um evento qualquer constitudo de r resultados possveis
( 0 r N ).
A probabilidade de ocorrncia do evento A, denotada P(A), dada por:

n( A) nmero de casos favorveis a A r


P ( A) = = =
n ( ) nmero de casos possveis N

Exemplo 2.1: Em uma seleo para uma vaga de engenheiro mecnico de uma grande empresa verificou-se
que dos 100 candidatos 40 tinham experincia anterior e 30 possuam curso de especializao. Vinte dos
candidatos possuam tanto experincia profissional como tambm algum curso de especializao.
Escolhendo um candidato ao acaso, qual a probabilidade de que:
a) Ele tenha experincia ou algum curso de especializao?
b) Ele no tenha experincia anterior nem curso de especializao?

Soluo
Vamos definir os seguintes eventos:
A = {O candidato possui experincia anterior}
B = {O candidato possui especializao}
Dados: p(A) = 0,4, p(B) = 0,3 p(AB) = 0,2 pede-se as seguintes probabilidades:

a) Ele tenha experincia ou algum curso de especializao


p(AB) = p(A) + p(B) p(AB) = 0,4 + 0,3 0,2 = 0,5

b) Ele no tenha experincia anterior nem curso de especializao?


P(AcBc) = P((AB)C) = 1- P(AB) = 1- [P(A) + P(B) P(AB)] =
= 1 [0,4 + 0,3 0,2] = 1 - 0,5 = 0,5.

3.2.3 Probabilidade Condicional e Independncia de Eventos

Dados dois eventos A e B contidos num espao amostral , muitas das vezes, estamos interessados
na ocorrncia de A dado que o evento B tenha ocorrido.
Para dar consistncia ideia de uma probabilidade condicional, suponhamos que uma organizao
de pesquisa junto a consumidores tenha estudado os servios prestados dentro da garantia por 200
comerciantes de pneus em uma grande cidade, obtendo os resultados resumidos na tabela seguinte:
Dentro da Garantia
Vendedores de Pneus Total
Bom Servio Servio Deficiente
Com marca 64 16 80
Sem marca 42 78 120
Total 106 94 200

Selecionado aleatoriamente um desses vendedores de pneus (isto , cada vendedor tem probabilidade de ser
selecionado), constatamos que as probabilidades de se escolher um vendedor de determinada marca (M), um
vendedor que presta bons servios dentro da garantia (Bs), ou um vendedor de marca determinada e que
presta bons servios dentro da garantia (MBs) so:
80 106 64
P( M ) = = 0,40 , P( Bs) = = 0,53 e P( M Bs) = = 0,32 .
200 200 200

Todas essas probabilidades foram calculadas por meio da definio clssica de probabilidade. Como a
segunda dessas probabilidades P(Bs) prxima a 0,50 (50%), vejamos o que acontece se limitamos a escolha

26
a vendedores de uma marca determinada. Isto reduz o espao amostral s 80 escolhas, correspondentes 1a
linha da tabela. Temos ento, que a probabilidade de se escolher um vendedor que presta bons servios (Bs),
64
sabendo (ou dado) que a marca de pneu vendido pelo mesmo determinada ser de P( Bs | M ) = = 0,80 ,
80
tendo-se uma melhora em relao a P(Bs) = 0,53 . Note que a probabilidade condicional que obtivemos aqui,
P ( Bs | M ) = 0,80 pode escrever-se como:
64
200 P( M Bs)
P( Bs | M ) = =
80
200 P( M )

Generalizando, formulamos a seguinte definio de probabilidade condicional, que se aplica a dois


eventos quaisquer A e B pertencentes a um dado espao amostral :

Probabilidade Condicional

Se P(B) diferente de zero, ento a probabilidade condicional de A relativa a B, isto , a


probabilidade de A dado que B ocorreu denotada por
P( A B)
P ( A | B) = , desde que P ( B ) > 0 .
P( B)

Teorema da Multiplicao
O resultado a seguir, obtido a partir da definio de probabilidade condicional, fornece a
probabilidade da ocorrncia conjunta de dois eventos A e B, isto , a probabilidade P(AB):

P( A B) = P( A) P(B | A) ou P( A B) = P(B) P( A | B)

dependendo da ordem de ocorrncia dos eventos.

Independncia de Eventos

Dizemos que dois eventos A e B so independentes, se as probabilidades condicionais P(A | B) =


P(A) e P(B | A) = P(B). Isto equivale, a partir da regra da multiplicao, escrevermos a ocorrncia simultnea
de A e B como sendo:
P( A B) = P( A) P( B) .

Exemplo 2.2: Uma caixa contm 4 lmpadas boas e 2 queimadas. Retiram-se, ao acaso, 3 lmpadas sem
reposio. Calcule a probabilidade dessas 3 lmpadas serem boas.

Soluo: Seja Ai a i-sima lmpada boa, ento:

4 3 2 1
P(A1 A2 A3) = P (A1) P(A2 | A1) P(A3 | A1 A2) = =
6 5 4 5

Exemplo 2.3: Sejam A e B dois eventos tais que P(A) = 0,4 e P(AB) = 0,7. Seja P(B) = p. Para que valor
de p, A e B sero mutuamente exclusivos? Para que valor de p A e B sero independentes?

Soluo:

A e B so mutuamente exclusivos se A B = . Logo P( A B) = 0 , com isso


P ( A B ) = P ( A) + P ( B ) 0,7 = 0,4 + p p = 0,7 0,4 = 0,3.

Se A e B so independentes P ( A B ) = P ( A) P ( B ) = 0,4 p . Como


P ( A B ) = P ( A) + P ( B ) P ( A B ) temos que: 0,7 = 0,4 + p 0,4p. Logo, p = 0,5.

27
3.2.4 Teorema de Bayes

k
Sejam B1, B2, ..., Bk uma partio do espao amostral , onde Bi Bj = i j e UB
i =1
i = , ou

seja, os eventos eventos B1, B2, ..., Bk so mutuamente exclusivos. Seja A um evento qualquer associado a ,
ento:
P( Bi A) P( A | Bi ).P( Bi )
P( Bi | A) = = , i = 1,K , k .
P( A) P ( A | B1 ).P ( B1 ) + K + P ( A | Bk ).P ( Bk )

Figura 4: Visualizao de um problema envolvento Teorema de Bayes


B4 B1

A
B2
B3
S
Exemplo 2.3: Numa certa turma, 1% dos homens e 4% das mulheres tem menos que 1,60m de altura. Alm
disso, 60% dos estudantes so homens. Considere que um estudante, selecionado aleatoriamente, tem menos
que 1,60m de altura. Qual a probabilidade do estudante ser homem?

Soluo: Sejam os eventos:


A = {estudantes com menos de 1,60m de altura};
M = {estudantes do sexo feminino};
H = {estudantes do sexo masculino}.

Note que os eventos M e H so mutuamente excludentes e representam uma partio do espao amostral ,
ou seja, M H = e M H = . Alm disso, sabemos que o evento A ocorreu, visto que dito que o
estudante possui menos que 1,60m de altura.

Assim, pelo Teorema de Bayes:

P ( H A) P( A | H ).P( H ) 0,01 0,60 0,006 3


P( H | A) = = = = =
P( A) P( A | H ).P ( H ) + P( A | M ).P ( M ) 0,01 0,60 + 0,04 0,40 0,022 11

4. Avaliando o que foi construdo

Nesta unidade aprendemos lidar com um conceito muito importante da estatstica e que est presente
quase diariamente nas nossas vidas, a probabilidade. Aprendemos nesta unidade que uma maneira de
responder a pergunta qual a probabilidade de chover hoje seria observar, em um passado recente de dias, o
nmero de dias que choveu e dividi-lo pelo total de dias. Aprendemos tambm os conceitos de probabilidade
condicional, independncia de eventos e teorema de Bayes. Com isso, estamos nos preparando cada vez
mais para as etapas futuras que so as mais significantes deste curso. Para voc que est conosco, Parabns.

28
Unidade III Variveis Aleatrias e Distribuies de Probabilidade

1. Situando a Temtica

Na unidade anterior estudamos alguns fenmenos probabilsticos por meio de espaos amostrais mais
simples. No entanto, em situaes prticas mais gerais, necessrio ampliar esses conceitos para que
tenhamos modelos probabilsticos que atendam as necessidades do problema. A definio do conceito de
varivel aleatria possibilitar uma maior flexibilidade e aplicabilidade dos conceitos de probabilidade em
problemas diversos.

2. Problematizando a Temtica

Ao estudarmos fenmenos aleatrios tais como, a renda de uma populao, o desempenho escolar de
um grupo de alunos, o impacto de uma dieta no peso de animais, etc., desejamos saber como controlar esses
experimentos e tentar extrair concluses sobre as respostas obtidas. Neste caso, usaremos uma ferramenta
valiosa que so as variveis aleatrias.

3. Conhecendo a Temtica

Quando na prtica desejamos investigar algum fenmeno, estamos na realidade interessados em


estudar a distribuio de uma ou mais variveis relacionadas a este. Assim, por exemplo, podemos estar
interessados em estudar a distribuio das notas de estudantes em uma determinada disciplina, do grau de
instruo, da altura, etc.
O que pretendemos, nesta unidade, apresentar alguns modelos tericos de distribuio de
probabilidade, aos quais um experimento aleatrio estudado possa ser adaptado, o que permitir a soluo de
um grande nmero de problemas prticos.

3.1. O Conceito de Varivel Aleatria e Variveis Aleatrias Discretas

Definio 3.1: Seja E um experimento e um espao amostral associado a E. Um funo X, que associe a
cada elemento um nmero real, X(), denominada varivel aleatria.

Observao:
1. Cada elemento de corresponder a exatamente um valor;
2. Diferentes valores , podem levar a um mesmo valor de X;
3. Nenhum elemento poder ficar sem valor de X.

Definio 3.2: Seja E um experimento e seu espao amostral. Seja X uma varivel aleatria definida em
e seja Rx seu contradomnio. Seja B um evento definido em relao a Rx, isto , B Rx. Ento, define-se o
evento A como
A = { | X ( ) B} = X 1 ( B) .

Assim, o evento A ser constitudo por todos os resultados em para os quais X() B.

Exemplo 3.1: Suponha 2 moedas lanadas e observada a sequncia de caras e coroas obtidas. Considere o
espao amostral associado a este experimento:

29
= {(Ca,Co), (Ca,Ca), (Co,Ca), (Co,Co)}

Agora, defina uma varivel aleatria X = nmero de caras obtidas no lanamento de 2 moedas. Assim, temos
que X = {0, 1, 2}, visto que X(Co,Co) = 0; X(Ca,Co) = X(Co,Ca) = 1 e X(Ca,Ca) = 2.

Variveis Aleatrias Discretas


Denomina-se X uma varivel aleatria discreta se o nmero de valores possveis de X for um conjunto de
pontos finito ou infinito enumervel. Digamos RX = {x1, x2, . . . , xn , . . . }.

Definio 3.2: (Funo de Probabilidade) - Seja X uma varivel aleatria discreta. A cada possvel
resultado xi de X est associado um nmero pi = P(X = xi), denominado probabilidade da varivel aleatria
X assumir o valor xi, satisfazendo as seguintes condies:
a) pi 0 para todo xi RX
b) p i = p 1 + p 2 + ... + p n + ... = 1 (a soma das probabilidades igual a 1).

Definio 3.3: (Funo de Distribuio de Probabilidade) - Dada uma varivel aleatria discreta X,
definimos F(x) a funo de distribuio acumulada ou, simplesmente, funo de distribuio (f.d) de X,
dada por:
n
F ( xi ) = P ( X xi ) F ( xi ) = P ( X = xi )
i =1

Exemplo 3.2: Considerando o exemplo 3.1, denote a funo de probabilidade e a funo de distribuio da
varivel aleatria X.

Soluo:

Seja X = nmero de caras obtidas no lanamento de 2 moedas, temos que a varivel aleatria X assume os
seguintes valores, X = {0, 1, 2}.

Temos que,
P(Co,Co) = P(X = 0) = ;
P(Ca,Co) = P(Co,Ca) = P(X = 1) = ;
P(Ca,Ca) = P(X = 2) = .

Denotamos a funo de probabilidade de X por

xi 0 1 2
P(X = xi) 1/4 1/2 1/4

Por conseguinte, a funo de distribuio acumulada de X dada por

xi 0 1 2
F(xi) = P(X xi) 1/4 3/4 1

Exemplo 3.3: Um par de dados lanado. Seja X a varivel aleatria que associa a cada ponto (d1, d2) de
a soma desses nmeros, isto , X(d1, d2) = d1 + d2. Determine a funo de probabilidade de X.

Soluo:

O espao amostral formado de 36 pares ordenados, representando as possibilidades no lanamentos de


dois dados = {(1,1), (1,2), ..., (5,6), (6,6)}.

Ento, a varivel aleatria X = d1 + d2 assume os seguintes valores X = {2, 3, 4, ..., 12}. Por conseguinte, a
funo de probabilidade de X obtida, calculando-se:

P (X = 2) = P(d1=1,d2=1) = 1/6 1/6 = 1/36


P (X = 3) = P(d1=1,d2=2) + P(d1=2,d2=1) = 1/36 + 1/36 = 2/36

30
..
P (X = 12) = P(d1=6,d2=6) = 1/36

Logo, a funo de probabilidade de X ser representada por

xi 2 3 4 5 6 7 8 9 10 11 12
P(X = xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

3.2. Variveis Aleatrias Contnuas

Uma varivel aleatria dita contnua se o seu contradomnio for um intervalo ou uma unio de sub-
intervalos.

Definio 3.4: Uma varivel aleatria X contnua se existir uma funo f, denominada funo densidade
de probabilidade (fdp) de X, que satisfaa as seguintes condies:

1. f ( x) 0, x R X ;
+
2. f ( x)dx = 1 ;

b
3. Sejam a e b quaisquer no intervalo < a < b < + , temos que P (a X b) = f ( x)dx .
a

Observaes
P (a X b) representa a rea sob a curva da funo densidade de probabilidade f(x).
x0
Para qualquer valor especfico de X, digamos x0, P(X = x0) = 0, pois P ( X = x 0 ) = f ( x)dx = 0 .
x0

Como a probabilidade de X assumir valores em pontos isolados nula, temos que


P ( a X b) = P ( a X < b) = P ( a < X b ) = P ( a < X < b ) .

Definio 3.5: A definio de funo de distribuio para o caso contnuo dada por

x
F ( x) = P ( X x) = f ( x)dx .

Observao: Seja F(x) a funo de distribuio acumulada de uma varivel aleatria contnua X, com fdp
dF ( x)
f(x). Ento, f ( x ) = = F ' ( x) , para todo x no qual F(x) seja derivvel.
dx

Exemplo 3.4: Suponha que X uma varivel aleatria contnua com a seguinte fdp:

2 x , 0 < x <1
f ( x) = .
0, caso contrario

a) Mostre que f(x) uma fdp;


b) Calcule P(X );
c) Calcule P(X | 1/3 X 2/3)

Soluo:

+ 1 1
a) Para que f(x) seja uma fdp basta verificar que f ( x)dx = 2 xdx = x 2 = 1.
0 0
1/ 2 1
1/ 2 1/ 2
b) P ( X 1 / 2) = f ( x)dx =
= . 2 xdx = x 2
0 0 4
c) Aplicando diretamente o conceito de probabilidade condicional, teremos

31
1/ 2

P ( X 1 / 2 | 1 / 3 X 2 / 3) =
P (1 / 3 X 1 / 2)
=
1/ 3
2 xdx
=
5 / 36 5
= .
2/3
P (1 / 3 X 2 / 3) 1 / 3 12
1/ 3
2 xdx

Exemplo 3.5: Seja a varivel aleatria X com f(x) definida no exemplo 3.4, calcule sua funo de
distribuio acumulada.

Soluo:
0, x<0
x x
F ( x) = f ( s )ds = f ( s )ds = x 2 ,0 x < 1
0
1, x 1

3.3 Valor Esperado e Varincia de uma Varivel Aleatria

Nos modelos probabilsticos que temos considerado, parmetros podem ser empregados para caracterizar
sua distribuio de probabilidade. Dada uma distribuio de probabilidade, possvel associar certos
parmetros, os quais fornecem informaes valiosas sobre tal distribuio.

Um dos parmetros mais importantes o valor esperado (esperana ou mdia) de uma varivel aleatria
X, denotado por E(X) ou .

Definio 3.6: (Valor Esperado ou Mdia): Seja X uma varivel aleatria discreta com possveis valores
x1, x2, . . . ,xn , ... . Seja p(xi) = P (X = xi ), i = 1, 2, ..., n, ... Ento, o valor esperado ou mdia da varivel
aleatria X definido por:

= E ( X ) = xi p( xi ) ,
i =1


se a srie
i =1
xi p( xi ) convergir, ou seja, xi
i =1
p( xi ) < .

Seja X uma varivel aleatria contnua com fdp f(x). O valor esperado de X ser definido por
+
= E ( X ) = xf ( x)dx .

Observao: E(X) mede o valor mdio de X, sendo expressa na mesma unidade de X.

Exemplo 3.6: Considere a varivel aleatria definida no exemplo 3.2. Obtemos a E(X) por
3
1 1 1
E ( X ) = x i p ( x i ) = 0 + 1 + 2 = 1
i =1 4 2 4

Isto representa que, ao lanarmos a moeda 2 vezes esperamos que, em mdia, em um dos lanamentos
aparea Cara.

Exemplo 3.7: Considere a varivel aleatria contnua definida no exemplo 3.4. Obtemos a E(X) por
1 1 2
E ( X ) = x(2 x) dx = 2 x 2 dx =
0 0 3

Um outro parmetro importante que caracteriza uma varivel aleatria a varincia, denotada V(X)
2
ou . A varincia de uma varivel aleatria uma medida que d a idia de disperso dos valores da
varivel, em relao ao seu valor esperado (mdia).

Definio 3.7: (Varincia): Seja uma varivel aleatria X (discreta ou contnua) sua varincia, denotada
V(X) ou 2, definida por:

32
2 = V ( X ) = E [( X ) 2 ] ,
onde = E(X) a mdia de X.

Observaes:
V(X) 0 e mede a variabilidade ou disperso de X em torno da sua mdia ;
V(X) expressa em unidades quadradas (o que torna difcil a sua interpretao);
O Desvio Padro X = V ( X ) mede a disperso absoluta de X, sendo expressa na mesma unidade da
varivel aleatria X.
A definio de varincia de uma varivel aleatria (v.a.) X, pode ser re-escrita por
2 = V ( X ) = E ( X 2 ) [E ( X )]2 ,

onde: E ( X 2 ) = xi2 p ( xi ) .
i =1

Propriedades Importantes do Valor Esperado

Sejam X uma v.a. e c = constante, ento:

1. O valor esperado (mdia) de uma constante a prpria constante:


E(c) = c

2. Multiplicando-se uma constante por uma varivel aleatria X, sua mdia fica multiplicada por esta
constante:
E(c.X) = c. E(X)

3. Somando ou subtraindo uma constante de uma varivel aleatria X, sua mdia fica somada ou
subtrada desta constante:
E(X c) = E(X) c

4. Sejam X e Y duas variveis aleatrias, o valor esperado da soma/subtrao de variveis aleatrias


equivale a soma/subtrao dos valores esperados de X e Y:
E(X Y) = E(X) E(Y)

5. Sejam X e Y duas variveis aleatrias independentes, temos que


E(X.Y) = E(X).E(Y).

Propriedades Importantes da Varincia

Sejam X uma v.a. e c = constante, ento:

1. A varincia de uma constante zero:


V(c) = 0

2. Multiplicando-se uma constante por uma varivel aleatria X, sua varincia fica multiplicada pelo
quadrado da constante:
V(c.X) = c2. V(X)

3. Sejam X e Y duas variveis aleatrias independentes, a varincia da soma/subtrao de variveis


aleatrias equivale a soma das varincias de X e Y:
V(X Y) = V(X) + V(Y)

Exemplo 3.8: Encontre a varincia da varivel aleatria X, denotada por


1
,a < x < b
f ( x) = b a
0, c.c

33
Temos que, V ( X ) = E ( X 2 ) [E ( X )]2 . Assim,
b
1
b 1 x2 (b 2 a 2 ) ( a + b)( a b) ( a + b)
E( X ) = x dx = = = =
a ba ba 2 a
2 (b a ) 2(b a ) 2
Alm disso,
b 1 (b 3 a 3 ) (b a )(b 2 + a 2 + 2ab) (b 2 + a 2 + 2ab )
E( X 2 ) =
a
x2
ba
dx =
3(b a )
=
3(b a )
=
3
Logo,

2 (b 2 + a 2 + 2ab) ( a + b) 2 (b a ) 2
Var ( X ) = E ( X 2 ) [E ( X ) ] = =
3 4 12

3.4. Experimentos Binomiais e a Distribuio Binomial

Dentre as funes de probabilidade, apresentaremos inicialmente uma distribuio discreta de grande


importncia, denominada Distribuio Binomial. Em seguida, faremos estudo de uma distribuio contnua
de grande utilizao na teoria da probabilidade, chamada a Distribuio Normal.

Para utilizar a teoria das probabilidades no estudo de um fenmeno concreto, devemos encontrar um
modelo probabilstico adequado a tal fenmeno. Endentemos por modelo probabilstico para uma v.a. X,
uma forma especfica de funo de distribuio de probabilidade que reflita o comportamento de X. As
propriedades bsicas de um modelo probabilstico devem ser:
Adequao: O modelo deve refletir adequadamente o mecanismo aleatrio que ocasiona variao
nas observaes;
Simplicidade: Utilizao, sempre que possvel, de hipteses simplificadoras, de modo que o modelo
se preste anlise estatstica, sem sacrifcio de adequao;
Parcimnia de Parmetros: Um nmero excessivo de parmetros prejudicaria a anlise estatstica.
Entre 2 modelos que constituam aproximao adequada de um fenmeno, devemos preferir aquele
que apresente o menor nmero de parmetros.

Distribuio de Bernoulli
Suponha que realizamos um experimento E, cujo resultado pode ser observado e classificado
como sucesso ou fracasso, caso o evento que nos interessa ocorra ou no, respectivamente. Associe
p, a probabilidade de sucesso, ao evento que nos interessa e 1 p = q, a probabilidade de fracasso.
Definimos, ento, a seguinte varivel aleatria discreta:

0, se ocorrer fracasso
X = .
1, se ocorrer sucesso

A distribuio de probabilidade de X definida por:

xi 0 1
P(X = xi) 1p p

Verifica-se facilmente que E(X) = p e V(X) = p(1 p), que so as principais caractersticas da v.a.
X.

Experimentos Binomiais

Um experimento binomial apresenta quatro propriedades:

1. O experimento consiste em uma sequncia de n ensaios idnticos e independentes;


2. Dois resultados so possveis em cada ensaio. Um denominado de sucesso e o outro de fracasso;

34
3. A probabilidade de um sucesso denotada por p, e no se modifica de ensaio para ensaio. (O mesmo se
aplica probabilidade de fracasso q = 1 p );
4. Os ensaios so independentes;
5. Defina uma varivel aleatria Y como sendo o nmero de sucessos nos n ensaios.

Definio 3.8: Dizemos que uma varivel aleatria discreta Y = X1 + X2 + ... + Xn, onde cada Xi um ensaio
de Bernoulli, apresenta distribuio binomial com n provas (ensaios ou tentativas) e probabilidade p de
sucesso, sendo sua funo de probabilidade definida por:
n
P( X = k ) = p k (1 p ) n k , k = 0,1,K n ,
k
pois, para X = k teremos observado k sucessos, cada um com probabilidade p e consequentemente (n-k)
fracassos, cada um com probabilidade q = 1 p.

Notao: X ~ B (n, p ) , equivalente a dizer que X tem distribuio Binomial com parmetros n e p.

Propriedades

E(X) = np
V(X) = npq

Exemplo 3.9: Dois times de futebol, A e B, jogam entre si 6 vezes. Suponha que as probabilidades de A
ganhar, perder ou empatar sejam as mesmas e permaneam constantes durante as 6 partidas. Encontre a
probabilidade do time A ganhar 4 vezes e calcule a esperana e a varincia.
Soluo
Seja X = {nmero de vezes que o time A ganha}
Note que p = 1/3 (vencer) e que q = 2/3 (perder ou empatar). Alm disso, n = 6.
6 20
Logo, P( X = 4) = (1 / 3) 4 (1 1 / 3) 6 4 = 15 (1 / 3) 4 ( 2 / 3) 2 = 0,08 .
4 243
1
Temos tambm que a esperana (mdia) de vitrias ser E ( X ) = np = 6 =2 e a
3
1 2 4
varincia V ( X ) = npq = 6 = .
3 3 3

3.5. Distribuio Normal

A distribuio normal a mais importante das distribuies contnuas de probabilidade. Conhecida


por alguns leitores como a curva em forma de sino, tem sua origem associada aos erros de mensurao.
sabido que, quando se efetuam repetidas mensuraes de determinada grandeza com um aparelho
equilibrado, no se chega ao resultado todas as vezes. Obtm-se, ao contrrio, um conjunto de valores que
oscilam, de modo aproximadamente simtrico, em torno do verdadeiro valor. Construindo um histograma
desses valores e o correspondente polgono de frequncias, obtm-se uma poligonal aproximadamente
simtrica. A distribuio normal desempenha, no obstante, um papel preponderante na estatstica e os
processos de inferncia, nela baseados, tm larga aplicao. Muitas das variveis quantitativas analisadas em
pesquisas nas diversas reas de estudo correspondem ou se aproximam da distribuio normal.

Uma distribuio normal caracteriza-se por uma funo real f(x) denominada de funo densidade de
probabilidade (f.d.p) da v.a X, dado pelo modelo probabilstico abaixo e grfico correspondente:
1 (x )2 2
f ( x) = exp 2 , - < x < +, - < < +, > 0.
2 2
2

35
Propriedades da Curva Normal

1. unimodal, isto , f(x) tem um ponto de mximo cuja abscissa x = . Esse ponto, situado no meio
da distribuio, aquele em que coincidem os valores da mdia, moda e mediana;
2. f(x) simtrica em relao mdia ;
3. f(x) tem dois pontos de inflexo, cujas abscissas so x = e x = + ;
4. O desvio-padro dado por ( a raiz quadrada positiva da varincia 2);
5. A rea total sob a curva normal e acima do eixo horizontal equivale a 1 (o eixo das abscissas o eixo
dos valores de v.a. X;
6. f(x) tem uma assntota. A partir do topo, a curva cai gradativamente at formar as caudas que se
estendem indefinidamente, aproximando-se cada vez mais da linha base sem, entretanto, jamais toc-la.
7. Fixando-se a mdia, verifica-se que o achatamento da curva est diretamente ligado ao valor do desvio
padro , ou seja, quanto maior for o desvio padro mais achatada a curva, como pode ser vista na
figura abaixo.

Notao: X N ( , 2), ou seja, X tem distribuio normal com mdia e varincia 2. Ou ainda, X
N ( , ) , isto , X tem distribuio normal com mdia e desvio padro .

Distribuio Normal Padro

O clculo direto de probabilidades envolvendo a distribuio normal no um processo elementar.


Notemos, entretanto, que a funo de densidade normal depende de dois parmetros, e , de modo que se
tabelssemos as probabilidades diretamente a partir dessa funo, seriam necessrias tabelas de dupla entrada
para cada valor particular = 0 e = 0, complicando consideravelmente o problema. Recorre-se, por
isso, a uma mudana de varivel, transformando a v.a. X na v.a. Z assim definida:

X
Z=

Esta nova varivel chama-se varivel normal padronizada, ou reduzida, sendo sua mdia igual a
zero ( = 0) e o seu desvio padro igual um ( = 1).

36
X E( X )
E(Z ) = E = = =0

2
X V (X ) 0
V (Z ) = V = = =1
2 2

A curva normal padro conserva as mesmas propriedades listadas anteriormente. Mediante tal
transformao, basta construirmos uma nica tabela, a da normal reduzida e, atravs dela, obtermos as
probabilidades associadas a todas as distribuies N (, ).

A utilidade notvel da tabulao pela varivel normal padronizada devida ao fato de que, se X
tiver qualquer distribuio normal N(, ), a tabela da distribuio N(0; 1) pode ser empregada para calcular
probabilidades associadas a X, simplesmente aplicando a transformada para a varivel Z.
Consequentemente, temos que

a b b a
P( a X b) = P Z = ,

onde (z) = P (Z z), a funo de distribuio acumulada de N(0; 1).

Exemplo 3.9: Os salrios mdios dirio dos operrios de uma indstria so distribudos segundo uma
distribuio normal com mdia de R$ 50,00 e desvio padro de R$ 4,00. Encontre a probabilidade de um
operrio ter um salrio dirio abaixo de R$ 52,00.

Soluo

Seja X = o salrio dirio do operrios, estamos interessados em encontrar P (X < 52). Assim,

52 52 50
P( X < 52) = P Z < = P Z < = P( Z < 0,50) = (0,50) .
4

Atravs da tabela da distribuio normal padro, obtemos a probabilidade de interesse (0,50) = 0,6915 .
Logo, pode-se afirmar que a probabilidade de um operrio apresentar um salrio inferior a R$ 52,00 de
69,15%.

Acesse a plataforma MOODLE e faa o download da tabela da distribuio normal


padronizada.

Dica
Trs importantes informaes que iro facilitar o clculo de probabilidades envolvendo a
distribuio normal padro, a partir da tabela que voc baixou na plataforma MOODLE: (i) a
tabela que voc est utilizando apresenta as probabilidades de P(Z z0) = F(z0), ou seja, a funo
de distribuio acumulada. No entanto, esta tabela considera apenas valores positivos para Z. (ii) a
rea total sob a curva equivale a 1. Logo, a metade da curva representa probabilidade igual a 0,5;
(iii) a curva da normal simtrica. Essa propriedade ser bastante til no clculo de
probabilidades onde os valores de Z so negativos, ou seja, P(X x0) = 1 P(X + x0);.

Exerccios

3.1 Cinco por cento dos motoristas de nibus da cidade HH so mulheres. Suponha que 20 motoristas de
nibus so selecionados aleatoriamente para serem entrevistados sobre as condies de trabalho. Qual a

37
probabilidade de que nenhum motorista selecionado seja mulher? Qual a probabilidade de que pelo menos 3
motoristas selecionados sejam mulheres?

3.2 O departamento de Recursos Humanos da empresa FF recebe 25 currculos para diversos cargos, e espera
que a probabilidade de no ocorrer candidatos experientes no grupo seja de 80%. Determine a probabilidade
de no mximo 8 currculos recebidos apresentarem candidatos experientes.

3.3 Uma confeco de roupa masculina suspeita que 35% de sua produo apresenta algum defeito. Se tal
suspeita correta, determine a probabilidade de que, numa amostra de seis peas, sejam encontradas: duas
peas defeituosas; no mnimo trs peas defeituosas; menos que trs peas defeituosas.

3.4 A probabilidade de um atirador acertar o alvo 2/3. Se ele atirar 5 vezes, qual a probabilidade de acertar
exatamente 2 tiros ?

3.5 Suponhamos que a presso sangnea sistlica normal de indivduos com idade entre 15 e 25 anos uma
varivel aleatria com distribuio normal de mdia 120mmHg e desvio padro 8mmHg. Nestas condies,
calcule a probabilidade de um indivduo dessa faixa etria, com presso sangnea sistlica normal
apresentar presso:
a) Inferior a 120mmHg; (R: 0,5)
b) Entre 100 e 110mmHg; (R: 0,0994)
c) Acima de 106mmHg; (R: 0,9599)
d) Abaixo de 136mmHg; (R: 0,9772)
e) Para os 20% dos indivduos que tm as maiores presses sangneas sistlicas, determinar a menor
presso sangnea sistlica. (R: 126,72 mmHg)
f) Para os 18% dos indivduos que tm as menores presso sangneas sistlicas, determinar a maior
presso sangnea sistlica. (R: 112,64 mmHg)

3.6 Acredita-se que as vendas aproximadas do creme dental MM sejam normalmente distribudas, com uma
mdia de 20.000 tubos por semana e um desvio padro de 3.000 tubos por semana. Calcule a probabilidade
de que mais de 22.000 tubos sejam vendidos em qualquer dada semana;

3.7- Os mergulhadores que so membros do Sindicato dos Mergulhadores Profissionais ganham em mdia
U$ 17 por mergulho de alta profundidade. Considere que os dados disponveis indicam que o pagamento seja
distribudo normalmente com desvio padro de U$ 2,25.
a) Qual a probabilidade de que os salrios estejam entre U$15,00 e U$20,00 por mergulho;
b) Qual a probabilidade de que os salrios sejam menores que U$12,00 por mergulho;

4. Avaliando o que foi construdo

Nesta unidade aprendemos o conceito de funo de distribuio de probabilidade, o conceito


de varivel aleatria, alm dos conceitos de esperana e varincia de variveis aleatrias.
Conhecemos tambm duas distribuies importantssimas na estatstica que so as distribuies
Binomial e Normal. Particularmente, a distribuio normal ser uma ferramenta essencial nas
unidades seguintes. Faa todos os exerccios propostos, pois eles sero de grande valia.
Aguardo voc no MOODLE!

38
Unidade IV Teoria Elementar da Amostragem

1. Situando a Temtica

Amostragem uma rea da Estatstica que estuda tcnicas de planejamento de pesquisa para
possibilitar inferncias sobre uma populao a partir do estudo de uma pequena parte de seus componentes,
uma amostra.

2. Problematizando a Temtica

Ao fazermos uma jarra de suco e adicionamos acar desejamos saber se a quantidade de acar foi
satisfatria. Para isto, no precisamos tomar toda a jarra de suco, uma colher basta. Da mesma forma, ao
estudarmos um fenmeno probabilstico em uma populao no precisamos investigar toda a populao, e
sim uma amostra dela. No entanto, algumas questes podem surgir: como obter essa amostra? qual deve ser
o tamanho dessa amostra? Esta unidade tem como objetivo responder esta e mais algumas questes
correlatas.

3. Desenvolvendo a Temtica

3.1 Conceitos Bsicos

Muitas vezes faz-se necessria a coleta de dados diretamente na origem. Entretanto, quando
impossvel se observar toda a populao recorremos s tcnicas de amostragem, onde nos limitamos a uma
amostra da populao em estudo. Basicamente, nosso objetivo coletar uma pequena frao da populao de
modo que as informaes observadas na amostra possam ser generalizadas para a populao. Para que esta
generalizao seja possvel, os integrantes da amostra devem ser escolhidos adequadamente.

Antes de aprofundarmos nosso discurso, vamos definir alguns termos necessrios:


Populao Objeto: a populao de interesse sobre a qual desejamos obter informaes (ex.: peas
produzidas em uma fbrica);
Populao de Estudo: o conjunto de indivduos de interesse especfico (ex.: peas que
permanecem em estoque);
Caracterstica Populacional: Aspectos da populao que interessam serem medidos ou observados
(ex.: dimetro da pea)
Unidade Amostral: Definida de acordo com o interesse do estudo, podendo ser uma pea, um
indivduo, uma fazenda, etc. Tal escolha deve ser feita no incio do estudo;
Estrutura Amostral ou Amostra: o conjunto de unidades amostrais (ex.: o conjunto das peas
selecionadas).

importante ressaltar que existem dois tipos de amostragem, a saber:


Amostragem Probabilstica: o procedimento atravs do qual existe uma probabilidade conhecida
e diferente de zero (p) para cada elemento da populao ser escolhido para constituir a amostra;
Amostragem No-Probabilstica: Quando, no processo de seleo, no existe nenhum mecanismo
probabilstico para selecionar os indivduos da populao para constituir a amostra.

De acordo com a definio de amostragem probabilstica, existe a suposio de um sorteio com regras bem
determinadas, cuja realizao s ser possvel se a populao for finita e totalmente acessvel. Esse tipo de
amostragem a melhor garantia para se obter uma representatividade da populao pela amostra. Os
principais planos de amostragem probabilstica so:

1. Amostragem Aleatria (ou Casual) Simples: Neste tipo de plano, supe-se que todos os elementos
da populao tem igual probabilidade de pertencer amostra, ou alternativamente, se todas as
possveis amostras, de mesmo tamanho, tm a mesma probabilidade de serem selecionadas.
Normalmente, consideramos esse tipo de plano amostral quando a populao homognea. Esse
processo de amostragem pode ser feito com ou sem reposio do elemento amostrado. Uma tcnica
que garante esta igual probabilidade a seleo aleatria de elementos, por exemplo, atravs de
sorteio.

39
2. Amostragem Sistemtica: Inicia com uma escolha aleatria de um elemento da populao e, a
partir deste, usa-se um sistema de seleo para compor o restante da amostra. Por exemplo, numa
listagem de elementos da populao, sorteamos um entre os dez primeiros da lista o 5o elemento. A
partir do elemento sorteado, selecionamos um a cada quinze elementos (o 20o, o 35o e assim por
diante). Este mtodo de amostragem pode ser utilizado quando se quer planejar um perodo de tempo
para execuo da coleta de dados ou quando se deseja cobrir um determinado perodo de tempo com
a amostra estudada. Tambm consideramos esse tipo de plano amostral quando a populao
homognea.
3. Amostragem Estratificada: Na amostragem estratificada a populao dividida em grupos
internamente homogneos (estratos) e em seguida selecionada uma amostra aleatria de cada
estrato. Este tipo de amostragem usado quando o evento estudado numa populao tem
caractersticas distintas para diferentes categorias que dividem esta populao, ou seja, dentro de
cada estrato os elementos so bastantes semelhantes entre si e, entre os estratos eles so
heterogneos. Assim, a estratificao apropriada para agrupar os elementos por sexo, faixa etria,
religio, escolaridade ou em populaes heterogneas como rendas, produes agrcolas, produes
industriais, etc.
4. Amostragem por Conglomerados: A populao dividida em pequenas subpopulaes, com
elementos internamente heterogneos, chamadas conglomerados (clusters). Seleciona-se uma
amostra aleatria simples desses conglomerados, e deles selecionam-se aleatoriamente os elementos
que iro compor a amostra. Assim, numa pesquisa scio econmica pode-se dividir a cidade em
bairros (conglomerados), em seguida obter uma amostra aleatria de bairros e, ento efetuar o
levantamento estatstico nas residncias dos bairros selecionados. Observe que, no caso da
estratificao, indivduos sero selecionados em cada estrato, enquanto no caso da diviso da
populao em conglomerados, selecionamos apenas parte dos conglomerados.
5. Amostragem por Estgios Mltiplos: Esta estratgia de amostragem pode ser vista como uma
combinao de dois ou mais planos amostrais. Considere por exemplo uma populao estratificada
onde o nmero de estratos muito grande. Ao invs de obter uma amostra aleatria de cada estrato,
o que poderia ser invivel devido quantidade de estratos, o pesquisador poderia optar por
selecionar aleatoriamente alguns estratos e em seguida selecionar uma amostra de cada estrato
selecionado. Neste caso, teramos uma amostragem em dois estgios usando, nas duas vezes, a
amostragem aleatria simples, sendo que no primeiro estgio as unidades amostrais so os estratos e
no segundo so as componentes da populao.

importante ressaltar que certos cuidados dever ser tomados no processo de obteno de uma
amostra, ou seja, no processo de amostragem, pois muitas vezes erros grosseiros e concluses falsas
ocorrem devido a falhas nesse processo.

3.2 Distribuio Amostral da Mdia e da Proporo

Na Inferncia Estatstica, o principal problema fazer uma afirmao sobre um parmetro


populacional (mdia, proporo, varincia, etc.) baseado em informaes coletadas de uma amostra, atravs
de um Estimador (mdia amostral, varincia amostral, etc.). No entanto, a validade de nossa afirmao seria
melhor compreendida se soubssemos o comportamento do Estimador ao retirarmos todas as amostras
possveis de tamanho n de uma populao de tamanho N. Em outras palavras, estamos interessados em
conhecer a distribuio amostral de um Estimador.

3.2.1 Distribuio da Mdia Amostral

A distribuio amostral da mdia X uma distribuio que mostra as probabilidades de obter os


possveis valores das mdias amostrais. Vamos supor uma populao {1, 3, 5} com N=3 elementos e a
varivel aleatria X assumido o valor do elemento na populao, com a seguinte distribuio de
probabilidade:
xi 1 3 5
P(X = xi) 1/3 1/3 1/3

Observe que a distribuio acima tem mdia (valor esperado) e varincia dados por:
1+ 3+ 5 2
(1 3) 2 + ( 3 3) 2 + (5 3) 2 8
E(X) = = =3 e V(X) = = = .
3 3 3

40
Se retirarmos todas as amostras aleatrias de tamanho n = 2, com reposio, dessa populao
obtemos um total de Nn = 32 = 9 amostras com os seguintes resultados:

(1,1) (1,3) (1,5) (3,1) (3,3) (3,5) (5,1) (5,3) (5,5).

Considerando essas 9 possibilidades igualmente provveis, podemos construir a distribuio amostral da


mdia para uma amostra de tamanho 2. Para tanto, basta calcular a mdia de cada uma dessas amostras
obtendo os seguintes valores xi : 1, 2, 3, 2, 3, 4, 3, 4, 5, respectivamente. Note que, a partir das mdias
amostrais obtidas nas 9 amostras possveis, possvel obtermos a seguinte distribuio amostral para X :

xi 1 2 3 4 5
P( X = xi ) 1/9 2/9 3/9 2/9 1/9

Ainda com respeito distribuio amostral de X , acima apresentada, observa-se que:


a sua mdia (valor esperado) igual mdia da populao, ou seja, E( X ) = X =
1 2 3 2 1 27
= 1 + 2 + 3 + 4 + 5 = =3= ;
9 9 9 9 9 9

a sua varincia igual varincia da populao dividida pelo tamanho da amostra. Temos que:
[ 2
]
V ( X ) = E( X 2 ) E( X ) .
1 2 3 2 1 93
Logo, E ( X 2 ) = 12 + 2 2 + 3 2 + 4 2 + 5 2 = .
9 9 9 9 9 9
8
93 93 93 81 12 4 2
[ ] = = = 3=
2
Assim, V ( X ) = E ( X 2 ) E ( X ) = 32 = 9= . Tais relaes
9 9 9 9 3 2 n
entre e X , e 2 e X2 , observadas no exemplo acima, podem ser generalizadas.

Usando a teoria das probabilidades possvel mostrar que os seguintes resultados gerais so vlidos
com relao distribuio amostral da mdia. Seja X uma varivel aleatria com valor esperado E(X) = e
varincia V(X) = 2 finita, isto , 0< 2 < . Seja X a mdia desta varivel aleatria, obtida de amostra
aleatria de tamanho n, selecionada com reposio. Ento, temos que:
E( X ) = X = ;
2
V( X ) = X2 = .
n

Alm disso, tem-se o resultado conhecido como Teorema Central do Limite: Seja X uma varivel aleatria
com valor esperado E(X) = e varincia V(X) = 2. Para n suficientemente grande,
1 n
X = Xi
n i =1
2
apresenta, aproximadamente, uma distribuio normal com mdia e varincia , Logo,
n
2 X
X N , e Z = N (0,1) .
n

n

A distribuio da varivel padronizada Z conhecida por Distribuio Normal Padro.

Observaes

1) O desvio padro de X , denotado por X = , chamado erro padro da mdia e descreve a
n
variabilidade das mdias amostrais em torno da verdadeira mdia populacional . Assim, quanto maior o

41
erro padro da mdia, maior ser a diferena entre parmetro e sua estimativa X , calculada a partir da
2
amostra . Quando n grande decresce, significando que a mdia amostral fornecer uma estimativa
n
mais segura para em grandes amostras.

2) Para amostras sem reposio, de populao finita, temos a mdia X = E( X ) = e varincia X2 =


2 N n
V( X ) = . , onde N o total de elementos da populao.
n N 1

3) Para valores grandes de n ( n 30) a aproximao da distribuio amostral da mdia X pela distribuio
Normal considerada satisfatria.

Exemplo 4.1 - Os registros de uma agncia de turismo mostram que um turista gastou, durante o ltimo ano,
em mdia = US$800,00, sendo o desvio padro dos gastos igual a = US$80,00. Ache a probabilidade de
que uma amostra de 64 turistas apresente um gasto mdio entre US$770,00 e US$825,00.

Soluo: Considere a varivel X = gastos (em US$). Embora a distribuio de X no seja conhecida, como o
tamanho da amostra n = 64 bastante grande, podemos admitir que a mdia amostral de X segue a
distribuio Normal com parmetros
80
X = = X = 800 e X = = = 10 .
n 64
Assim temos que


770 800 X 825 800
P(770 X 825) = P = P(3,0 Z 2,5) =
10 10

n

P( Z 3,0) P( Z 2,5) = 0,9938 0,0013 = 0,9925 .

Se considerarmos um grande nmero de amostras, cada uma com 64 turistas, em aproximadamente 99,25%
delas o gasto mdio estaria entre US$770,00 e US$825,00.

3.2.2 Distribuio Amostral da Proporo

Se o parmetro de interesse p representa uma proporo (ou percentagem) de elementos com certa
caracterstica (atributo) na populao, ento chamamos a estatstica correspondente na amostra de proporo
amostral, denotando-a por
x o
p = , onde x = n de elementos da amostra que possuem a caracterstica de interesse.
n

Pode-se mostrar que, sob certas condies, e se n suficientemente grande, a distribuio da


p. q
proporo amostral p aproximadamente Normal, com mdia E( p ) = p e varincia V( p ) = , onde
n
q = 1 p. Dessa forma, temos que
p.q e p p
p N p, Z= N (0,1) .
n p.q
n

No caso de uma populao finita de tamanho N e uma amostra sem reposio, recomenda-se o uso do fator
de correo populacional no clculo da varincia de p , sendo expressa por:
p.q N n
V( p ) = .
n N 1

42
Exemplo 4.2 Suponha que de um grande lote de produo, 10% dos itens produzidos apresentam algum tipo
de defeito. Em uma amostra aleatria de tamanho 60, obtida do lote para inspeo de qualidade, calcule a
probabilidade de ter mais de 15% dos itens defeituosos.

Soluo:


p p 0,15 0,10
P( p > 0,15) = P > = P( Z > 1,29) = 1 0,9015 = 0,0985 .
p.q 0,1 0,9

n 60

Se considerarmos um grande nmero de amostras, cada uma contendo 60 itens, em aproximadamente 9,85%
das amostras a proporo de itens defeituosos seria superior a 15%.

Exerccios

4.1 Admita que a aceitao de um grande lote de peas ocorra apenas se o comprimento mdio de 10
peas, retiradas aleatoriamente do lote, estiver entre 5 cm e 10 cm. Sabe-se que o comprimento das peas
uma varivel aleatria com distribuio Normal com mdia = 7,5cm e varincia 2 = 20 cm2. Calcule a
probabilidade do lote ser aceito. (R.: 0,9232)

4.2 Seja X1, X2, ... , Xn uma amostra aleatria de tamanho n obtida de X ~ N( , 2). Qual a
probabilidade da mdia amostral, X , estar compreendida em cada um dos intervalos seguintes?
a) X ;
b) 2 X ;
c) 3 X ;
onde =
X
. Dica: (a) Calcule P( - X + ).
X X
n
R.: (a) 0,6826; (b) 0,9544; (c) 0,9974.

4.3 Considere que o consumo mensal de gua por residncia em um certo bairro tem distribuio Normal,
com mdia = 10 e desvio padro = 2 (em m3). Para uma amostra aleatria de 25 dessas residncias, qual
a probabilidade da mdia amostral, X , no se afastar da mdia verdadeira, , por mais de 1 m3? R.:
P( X 1) = 0,9876.

4.4 - O departamento de compras de uma companhia rejeita rotineiramente remessa de peas se uma amostra
aleatria de tamanho 100, extrada de um grande lote de peas, acusa 10 ou mais defeituosas. Determinar a
probabilidade de um lote ser rejeitado se tem uma percentagem p de peas defeituosas de: a) 5%; b) 18%.
R.: a) 0,011; b) 0,9812.

4.5 - Em um processo de produo, 10% das unidades produzidas so defeituosas. Em uma amostra aleatria
de 100 unidades, ache a probabilidade da proporo amostral de unidades produzidas com defeito ser: a)
inferior a 13%; b) entre 7% e 16%; c) maior que 8%. R.: a) 0,8413; b) 0,8185; c) 0,7486

4.6 Suponha que a proporo de itens defeituosos em um grande lote de peas seja 0,1. Qual o tamanho
mnimo de uma amostra aleatria de itens a ser retirado do lote para que, com probabilidade de 0,983, a
proporo de itens defeituosos na amostra seja no mximo 0,13? Dica: Use P( p 0,13) = 0,983. R.: n
450

4.7 Desejamos coletar uma amostra aleatria de uma varivel aleatria X com distribuio Normal com
mdia desconhecida, , e varincia 2 = 40. Qual deve ser o tamanho da amostra, n, para que, com
probabilidade 0,92, a mdia amostral, X , no se afaste da mdia da populao, , por mais de 2 unidades?
Dica: Use P( X 2) = 0,92 onde X - = erro amostral da mdia. R.: n 31

43
4.8 - Uma empresa compra canetas esferogrficas, em grande quantidade, de um certo distribuidor. Antes de
aceitar os lotes remetidos, a empresa faz testes para verificar a sua qualidade. Se uma certa remessa
apresentar 5% de canetas defeituosas, a remessa ser devolvida ao fabricante. Calcule a probabilidade de
que em uma amostra aleatria de 50 canetas, mais do que 7% apresentem defeitos? R.: 0,2578

4. Avaliando o que foi construdo

Nesta unidade aprendemos como coletar e determinar o tamanho de uma amostra. Agora j
temos conhecimentos bsicos para estudarmos alguns conceitos sobre de estimao de parmetros.
Portanto, programe-se. Planeje seus estudos. J h muito o que estudar sobre distribuies
amostrais.

44
Unidade V Intervalos de Confiana e Teste de Hiptese

1. Situando a Temtica

Quando estudamos fenmenos probabilsticos estudamos tambm o comportamento de alguns


parmetros relacionados a este experimento. Tais parmetros, muitas vezes, so impossveis de serem
determinados restando-nos apenas tentar estim-los da melhor forma possvel. Os procedimentos para tal
estimao, juntamente com o fato de termos certeza que estamos obtendo uma boa estimativa para o
parmetro, ser abordado nessa unidade quando estudaremos intervalos de confiana e testes de hiptese.

2. Problematizando a Temtica

Qual a altura mdia do povo brasileiro? Qual a proporo de pessoas com nvel superior em Joo
Pessoa? A resposta para essas perguntas no so to fceis, mas para respond-las com exatido teramos que
medir todos os cidados brasileiros ou verificar quantos habitantes em Joo Pessoa possuem nvel superior, o
que impossvel. No entanto se coletarmos uma amostra e calcularmos a mdia e a proporo,
respectivamente, ser que essas estimativas esto prximas dos verdadeiros valores populacionais
(parmetros)? Uma outra pergunta seria a seguinte: Se a quantidade mdia de gua ingerida por um ser
humano de 10 litros por semana, os brasileiros bebem muito ou pouca gua? Como responderamos a esta
questo? A resposta para essas questes veremos nessa unidade.

3. Conhecendo a Temtica

3.1. Estimao de Parmetros

H inmeras situaes reais em que se procura determinar valores para quantidades desconhecidas
como mdias e propores. Certamente, de interesse para muitos empresrios saber a quantia mdia gasta
por um turista em sua cidade; um produtor de televiso procura sempre saber qual o ndice de audincia de
determinados programas; um engenheiro de controle de qualidade procura determinar a proporo de itens
produzidos com defeito em uma linha de produo.
A estimao consiste em determinar um valor amostral que substitua o respectivo valor real do
parmetro populacional desconhecido.

3.1.1. Conceitos Fundamentais

Para uma melhor compreenso dos temas mais importantes desta unidade, vamos definir alguns
conceitos fundamentais dentro da inferncia estatstica:

Estimador - uma funo matemtica que leva em considerao os dados amostrais. Como tal
funo calculada baseada em uma amostra, considerada uma varivel aleatria, caracterizada por
1 n
uma distribuio de probabilidade. Assim, X = xi , onde x1, x2, ... , xn so n valores amostrais,
n i =1
um estimador que representa a mdia populacional (parmetro).

Estimativa - um valor particular do estimador para uma dada amostra coletada. Assim, por
exemplo, para uma dada amostram, X = 3,9kg pode ser uma estimativa para o verdadeiro peso
mdio, desconhecido, de recm-nascidos do sexo feminino em certa localidade.

Estimao por ponto ou Estimao Pontual chamamos de estimao pontual quando, a partir de
uma amostra, um nico valor usado para estimar um parmetro desconhecido. Um estimador
pontual para um parmetro populacional , geralmente representado por . Assim, X , S2, S e p
so estimadores pontuais para os parmetros , 2, e p respectivamente, isto , = X , 2 =S2,
x
=S e p = p = , onde x = no de elementos da amostra que possuem certa caracterstica de
n
interesse.

45
Quando achamos uma estimativa pontual, ela raramente coincide com o valor real do parmetro.
Uma desvantagem do uso de estimadores pontuais que, se nenhuma informao adicional for dada, no h
maneira de decidir o quo boa a estimativa, pois no temos nenhuma ideia da sua preciso. Um
procedimento mais desejvel para estimao , ento, calcular um intervalo que tenh uma probabilidade
pr-estabelecida de conter o parmetro desconhecido.

A Estimao por intervalo ou Intervalos de Confiana um mtodo de estimao onde, a partir de


uma amostra aleatria, determinamos um intervalo [T1, T2] que contm o verdadeiro parmetro com uma
probabilidade conhecida 1 - , chamada de Grau ou Nvel de Confiana, onde (alfa) a probabilidade
do intervalo no conter o verdadeiro valor do parmetro desconhecido. Assim, se amostras aleatrias, do
mesmo tamanho, so obtidas repetidamente da mesma populao, uma certa percentagem de intervalos
(nvel de confiana) incluir o parmetro populacional desconhecido. Alm disso, veremos que a partir das
estimativas intervalares possvel inferir sobre o quo confiveis so realmente as estimativas pontuais
obtidas.

3.2 Intervalos de Confiana para Mdia Populacional

Um intervalo de confiana para uma mdia especifica um intervalo de valores dentro do qual o
parmetro populacional desconhecido, neste caso a mdia, pode estar. Estes intervalos podem ser usados, por
exemplo, por um fabricante que deseja estimar sua produo mdia diria ou um pesquisador que deseja
estimar o tempo de resposta mdia, por paciente, a uma nova droga.

De modo geral, estamos interessados em encontrar um intervalo na forma


[T1 = X 0 ; T2 = X + 0 ] = [ X 0 ] ,
onde 0 representa a semiamplitude do intervalo de confiana, sendo chamado de Erro de Preciso em
relao a . Portanto, o objetivo encontrar 0, tal que
P (| X |< 0 ) = 1 ,
que equivalente a
P( 0 < X < + 0 ) = 1 .
Note que essa afirmao probabilstica pode ser reescrita por
P( X 0 < < X + 0 ) = 1 .
Em breve, entenderemos a necessidade destas duas ltimas afirmaes probabilsticas.

3.2.1. Intervalos de Confiana para Mdia Populacional Caso 1: 2 conhecida

Suponha que temos uma amostra aleatria de tamanho n, X1, X2, ... , Xn, de uma populao cuja
distribuio normal com mdia e varincia 2. Ento
1 n 2
X =
n i =1
xi apresenta distribuio X N , e Z = X N (0,1) .
n


n
Sejam 1- um nvel de confiana qualquer, 0 < 1- < 1. Temos que,
P( 0 < X < + 0 ) = 1
0 +0
P( <Z< ) = 1 f(z)
/ n / n
0 0 /2 /2
P( <Z< ) = 1
/ n / n
P ( z / 2 < Z < + z / 2 ) = 1
0 0 -z/2 z/2
onde: z / 2 = e z / 2 = .
/ n / n

46
Logo,

0 = z / 2 .
n
Assim, note que a partir da expresso acima podemos tambm estimar, por exemplo, o tamanho da amostra
(n) quando 0, z e so conhecidos
2

n = z / 2 .
0

Como, P ( 0 < X < + 0 ) = 1 P ( X 0 < < X + 0 ) = 1 , temos que



P ( X z / 2 ) =1 .
< < X + z / 2
n n
Em outras palavras, isso significa que a probabilidade de que o verdadeiro valor de pertena ao
intervalo

[ X z / 2 ; X + z / 2 ]
n n
igual a 1-.

Exemplo 5.1: Para estimar gasto mdio semanal no supermercado A, coletou-se uma amostra aleatria de
16 consumidores, obtendo-se um gasto mdio amostral de X = US$30,00. Supondo uma distribuio
normal para a populao, com desvio padro = US$2,60, obtido de outros estudos similares, calcule um
intervalo de 95% de confiana para estimar o gasto mdio semanal populacional no supermercado A.

Soluo: Temos: = 2,6; n = 16 e X = 30. Para = 5% z/2 = P( Z z / 2 ) = 1,96. Logo, o intervalo de


2,6
confiana ser, ento expresso por: IC(,95%) = 30 1,96 = 30 1,27 ou [28,73; 31,27].
16
Observao.: No IC(,95%) = [30 1,27], o valor 1,27 a estimativa do erro para a estimativa. Em outras
palavras, h 95% de probabilidade da estimativa no diferir do verdadeiro valor da mdia () por mais de
1,27.

Dica: Abaixo, seguem os valores mais usados de z/2 tal que P ( Z z / 2 ) = 1 ( / 2) :

1% 5% 10%
z/2 2,57 1,96 1,64

3.2.2 Intervalos de Confiana para Mdia Populacional Caso 2: 2 NO conhecida

Quando a varincia populacional desconhecida, adota-se como estimador de 2 a varincia


amostral S2, expressa por
n

(x i x )2
S2 = i =1
.
n 1
Agora, a estatstica
X
T= ~ t ( n1) ,
S/ n

ter distribuio t-Student com n-1 graus de liberdade, e no mais a distribuio normal padro. No
entanto, podemos re-escrever a estatstica T como funo da distribuio normal padro (Z), da seguinte
forma:

47
X X
T= = =Z .
S S S
n n
Logo,
S
t ( n1, / 2 ) = z / 2 z / 2 = t ( n 1, / 2 ) .
S
S
Substituindo z / 2 = t ( n 1, / 2 ) no intervalo de confiana do caso 1 teremos, quando a varincia

populacional 2 desconhecida, o intervalo de confiana que contm o verdadeiro valor da mdia
populacional com probabilidade 1-, expresso por
S S
[ X t ( n 1, / 2 ) ; X + t ( n 1, / 2 ) ].
n n
Logo,
S
0 = t( n 1, / 2 ) .
n

Assim, a partir da expresso acima podemos tambm estimar, por exemplo, o tamanho da amostra (n)
quando 0, z e S so conhecidos.

Exemplo 5.2: Um fiscal de produtos alimentcios seleciona uma amostra aleatria de 16 pacotes de lanche
marca M nas prateleiras de um supermercado. Pesa o contedo de cada pacote, encontrando um peso
mdio X = 170g e um desvio padro S = 5g. O peso lquido indicado em cada pacote 180g. Verifique se
um intervalo com 90% de confiana para o peso mdio lquido verdadeiro abrange o peso lquido
especificado na embalagem. Suponha distribuio normal para a populao.

Soluo: Dados: n = 16, X = 170g e S = 5g. Para = 10% e n = 16 t n 1, / 2 = t n1, 2 = t15;0,05 =1,753,
obtido da tabela da distribuio t-Student, pois a informao que dispomos no problema diz respeito ao
desvio padro amostral.

Logo, o intervalo de confiana para o peso mdio populacional ser denotado por: IC(,90%) =
5
170 1,753 = [170 2,19] ou [167,81; 172,19]. Note que o IC no abrange o peso lquido indicado na
16
embalagem de 180g.

Exemplo 5.3: Em uma amostra de n = 9 testes de consumo, um motor experimental percorreu,


respectivamente, 16, 14, 17, 15, 15, 14, 18, 17 e 18 km com l litro de gasolina (sob condies especficas).
Supondo distribuio normal para a populao, construa um intervalo de 99% de confiana para a distncia
mdia verdadeira do novo motor, com 1 litro de gasolina.

Soluo: Seja X = quilmetros percorridos com 1 litro de gasolina. Temos que n = 9, X = 16km/l e S =
1,581 km/l. Para = 1% e n = 9 t n1, 2 = t8; 0,005= 3,355, obtido da tabela da distribuio t-Student.

1,581
Logo, o intervalo de confiana ser denotado por: IC(,99%) = 16 3,355 = [16 1,77] ou [14,23;
9
17,77] km/l de gasolina.

Assim, podemos afirmar que com 99% de confiana, o intervalo [14,23 km/l; 17,77km/l] contm o
verdadeiro valor para a distncia percorrida pelo novo motor (em quilmetros) com um litro de gasolina.

48
Exemplo 5.4: Se um pesquisador sabe que uma populao tem distribuio normal com desvio padro =
12. Considerando um nvel de confiana de 95%, encontre o tamanho de amostra necessrio para que a
mdia amostral no se afaste em mais de 2 unidades do verdadeiro valor da mdia populacional.

Soluo: Em nosso problema, observamos que o desvio padro populacional conhecido. Neste caso,
usamos a seguinte expresso para o clculo do tamanho de amostra

2

n = z / 2 .
0

Temos que = 12, 0 = 2 e que = 5% z/2 = 1,96. Dessa forma,


2 2
12
n = z / 2 = 1,96 139 .
0 2

3.2.3 Intervalos de Confiana para uma Proporo Populacional p

Estes intervalos podem ser usados para, por exemplo, informar sobre a proporo de alunos evadidos
na UFPB, a proporo de itens defeituosos em uma linha de produo ou a proporo de uma populao que
imune a certa enfermidade.
Seja X a varivel aleatria representando o no de sucessos em n repeties independentes de um
experimento com dois possveis resultados (sucesso e fracasso), onde P(sucesso) = p e a P(fracasso) = q =1 -
p, constantes. Ento X B(n,p), onde X = E(X) = np e 2 = Var(X) = np(1-p). Para p no muito prximo
de 0 ou 1 e se n suficientemente grande (um critrio usado na prtica, usar a aproximao quando np e
n(1-p) forem maiores do que 5) temos, segundo o Teorema Central do Limite, que

X ~ N (np , np (1 p ) ) .

Logo, x p (1 p ) , visto que X 1 e


p = ~ N p, E ( p ) = E = np = p
n n n n
X 1 p(1 p) . Assim, Z = p p
Var ( p ) = Var = 2 np(1 p) = N (0,1) .
n n n p(1 p)
n
O intervalo que estamos procurando, da forma [ p 0 ] , ser obtido por um caminho semelhante
ao adotado no caso da mdia populacional chegando-se, facilmente, a
p (1 p )
0 = z / 2 .
n
Note que a partir da expresso acima tambm podemos o tamanho da amostra (n) quando 0, z e p so
conhecidos.

No entanto, na prtica p desconhecido, sendo substitudo pela proporo amostral p . Tal


substituio encontra justificativa no fato de que se n suficientemente grande para garantir a aproximao
para Normal, a estimativa deve ser razoavelmente prxima do valor real do parmetro. Assim, o intervalo de
confiana para p, ao nvel de confiana 1-, dado por

p (1 p ) p (1 p )
[ p z / 2 ; p + z / 2 ]
n n
Exemplo 5.5: Para se avaliar a taxa de desemprego em uma cidade, coletou-se uma amostra aleatria de
1000 habitantes em idade de trabalho e observou-se que 87 eram desempregados. Estimar a percentagem de
desempregados em toda a cidade (populao) atravs de um intervalo de 95% de confiana.

49
Soluo: Temos que n = 1000 e que a proporo amostral de desempregados p = 87 = 0,087 . Logo, q$ =
1000
1 p = 0,913. Para = 5% Z/2 = 1,96.

O intervalo de confiana ser, ento:


0,087 x 0,913
IC(p,95%) = [0,087 1,96x ] = [0,087 0,0175] ou [ 0,0695; 0,1045] ou, ainda, [6,95%;
1000
10,45%].

Exemplo 5.6: Numa pesquisa de mercado, 57 das 150 pessoas entrevistadas preliminarmente afirmaram que
seriam compradoras de certo produto a ser lanado. Essa amostra suficiente para estimar a proporo real
de futuros compradores, com um erro de 4% e confiana de 95%?
Soluo: p = 57 = 0,38 e q$ = 1 p = 0,62; 0 = 0,04; Z/2 = 1,96.
150
2 2
z 1,96
Logo, n = / 2 p (1 p ) = 0,38(0,62) 566 .

0 0,04
Como apenas 150 pessoas foram entrevistadas preliminarmente, a amostra no foi suficiente. Sendo
necessrio entrevistar mais 566 - 150 = 416 pessoas.

3.3. Testes de Hipteses

Na estimao de parmetros, foram apresentados procedimentos que permitem definir estimadores


pontuais ou por intervalos de parmetros populacionais. Um outro procedimento de inferncia estatstica o
Teste de Hiptese - tem como objetivo principal verificar, a partir de informaes contidas em uma amostra
aleatria, se hipteses a respeito de parmetros populacionais so ou no verdadeiras. Assim podemos estar
interessados em: verificar uma especificao de qualidade de um produto, testar uma experincia de sucesso
no passado, avaliar uma teoria ou decidir sobre suposies resultantes das observaes. Logo, atravs dos
testes de hipteses podem-se eliminar, tanto quanto possvel, falsas concluses cientficas.

3.3.1. Conceitos Fundamentais

O Teste de Hiptese se baseia numa situao experimental (amostra) e consiste na comparao de


duas hipteses chamadas Hiptese Nula e Hiptese Alternativa.

Hiptese Nula (H0) - uma afirmao sobre o parmetro, supostamente verdadeira, que vai ser posta
prova e na qual o teste montado. Em geral, formula-se H0 com o objetivo de rejeit-la, isto , formulamos
H0 contrria ao que suspeitamos que seja verdade. Por exemplo, se um cientista acha que uma nova droga
eficaz para certo tipo de paciente, ento, por contradio, formulamos a hiptese H0 de que a nova droga no
eficaz. Portanto, para provar que o cientista est certo, H0 teria de ser rejeitada. Dessa forma, podemos
pensar que o que estamos interessados deve ser alocado em H1 (Hiptese Alternativa).
Uma possvel representao : H0: = 0 , onde qualquer parmetro.

Hiptese Alternativa (H1) - Hiptese que vai ser comparada hiptese nula, isto , uma afirmao
sobre o parmetro que afirma A hiptese nula H0 falsa.

Se usamos H0: = 0 para representar a hiptese nula, ento podemos usar as seguintes
representaes para as possveis hipteses alternativas:
H1: 0;
H1: < 0;
H1: > 0

50
3.3.2 Definio da Regra de Deciso, Erros e Nvel de Significncia

Quando testamos hiptese estatsticas, qualquer que seja a deciso tomada, estamos sujeitos a
cometer dois possveis tipos de erros:
Erro do Tipo I: quando se rejeita a hiptese nula H0 e a mesma verdadeira. Denotamos por a
probabilidade de cometer este erro, isto , = P(erro tipo I) = P(rejeitar H0 | H0 verdadeira). O
erro tipo I () tambm conhecido como nvel de significncia de um teste de hipteses.
Erro do Tipo II: no se rejeita a hiptese nula H0, quando a mesma falsa. Denotamos por a
probabilidade de cometer este erro, isto , = P(erro tipo II) = P(no rejeitar H0 | H0 falsa).

O quadro abaixo resume as possibilidades das decises envolvidas em um teste de hiptese, com as
probabilidades de ocorrncias dos erros tipo I () e II ().

Quadro 1: Avaliao das Decises em um Teste de Hipteses


Situao Real
Deciso
H0 Verdadeira H0 Falsa
No Rejeitar H0 Deciso Correta Erro do Tipo II ()
Rejeitar H0 Erro do Tipo I () Deciso Correta

Devido as dificuldades de se conseguir minimizar os dois tipos de erros ao mesmo tempo, em geral,
nos preocupamos mais na possibilidade de rejeitar uma hiptese sendo ela verdadeira. Dessa forma, teremos
uma maior ateno no controle do erro do tipo I. Por exemplo, se definimos as hipteses

H0: uma nova droga no eficaz para certos pacientes;


H1: uma nova droga eficaz para certos pacientes.

A aceitao de H0, sendo esta hiptese falsa, possibilita a busca de outros meios de tratamentos, enquanto
que a rejeio de H0, sendo esta verdadeira, exclui a possibilidade de se prosseguir com outras opes para os
pacientes. Logo, desejvel exercer um controle sobre e mant-lo pequeno. Dessa forma, os testes de
hiptese podem ser montados de maneira que, fixado o erro do tipo I, o erro do tipo II seja minimizado
aumentando-se o tamanho da amostra.

Observao: O significado de usado nos Testes de Hipteses totalmente diferente de seu significado na
Estimao por Intervalos. Nos Testes de Hiptese, representa a probabilidade de rejeitar uma hiptese nula
suposta verdadeira, enquanto que na Estimao por Intervalos representa a probabilidade de que os limites
de confiana construdos no contenham o verdadeiro valor do parmetro.

Estatstica do Teste

A deciso de rejeitar ou no a hiptese nula (H0) baseada nos dados amostrais, que so usados para
calcular o valor da Estatstica de Teste e que servir de referncia para a tomada da deciso. Para isso,
divide-se a curva da distribuio amostral da estatstica em duas regies, uma chamada Regio Crtica (ou
Regio de Rejeio de H0), e a outra Regio de No Rejeio de H0. Temos, ento, a seguinte Regra de
Deciso do teste: se o valor calculado da estatstica do teste pertencer regio crtica, rejeita-se H0 em
favor da hiptese alternativa; caso contrrio, H0 no ser rejeitada em relao hiptese alternativa.

Outras definies importantes, necessrias na formulao de um problema de Testes de Hipteses so:

Regio Crtica do Teste - a regio de rejeio de H0, isto , o conjunto de valores de uma
estatstica que determina a rejeio de H0. Rejeitamos a hiptese nula se a estatstica de teste est
na regio crtica, porque isto indica uma discrepncia significativa entre a hiptese nula e os
dados amostrais.
Valor Crtico do Teste: o valor, ou valores, que separa(m) a regio crtica (que levam a
estatstica do teste a rejeitar a hiptese nula) da regio de no rejeio de H0.

Dependendo da hiptese alternativa, temos os seguintes tipos de Testes de Hipteses:

51
Teste Unilateral: quando a regio crtica do teste localizada completamente em uma das
extremidades da curva da distribuio amostral da estatstica do teste.
o Teste Unilateral Esquerda: a regio crtica (sombreada) localiza-se no extremo
esquerdo da distribuio.
Hipteses: H0: = 0 vs H1: < 0
o Teste Unilateral Direita: a regio crtica (sombreada) localiza-se no extremo direito da
distribuio.
Hipteses: H0: = 0 vs H1: >
Teste Bilateral: a regio crtica (sombreada) localiza-se nas duas extremidades da distribuio.
Hipteses: H0: = 0 vs H1: 0

A escolha entre usar um teste unilateral e um teste bilateral determinada pelos objetivos do problema, no
qual se deseja verificar uma afirmao a cerca do parmetro populacional.

3.3.3 Fases na Realizao de um Teste de Hipteses

1 - Formular as hipteses nula (H0) e alternativa (H1);

2 - Decidir qual estatstica de teste ser usada para julgar a hiptese nula;

3 - Fixar o nvel de significncia ;

4 - Determinar a regio crtica;

5 - Usar os valores amostrais para calcular o valor da estatstica citada na fase 2;

6 - Se o valor citado na fase anterior pertencer regio crtica, rejeitar H0. Caso
contrrio, no rejeitar H0.

3.3.4. Teste de Hipteses para a Mdia Populacional Caso 1: 2 conhecida

O primeiro passo num Teste de Hipteses consiste em formular a hiptese a ser testada. No quadro 1,
podemos observar que para cada possvel hiptese existe uma regio crtica e regra de deciso associada. No
caso do teste de hipteses para mdia populacional, supondo a varincia populacional conhecida, utilizamos
a seguinte estatstica do teste:
X 0
ZC = .
n
Note que a estatstica calculada com base nas informaes contidas na amostra.

O prximo passo consiste em fixar o nvel de significncia do teste (). A seguir, apresentamos os valores
mais usados para Z e Z/2.

1% 5% 10%
Z 2,33 1,64 1,28
Z/2 2,57 1,96 1,64

52
Quadro 2: Resumo das Hipteses, Regies Crticas e Regras de Deciso para a Mdia Populacional,
considerando 2 conhecido.
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)

H0: = 0
H1: 0 Zc -Z/2 ou Zc Z/2

H0: = 0 (*)
H1: < 0 Zc -Z

H0: = 0 (**)
H1: > 0 Zc Z

(*) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.
(**) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.

Exemplo 5.7: O gerente de uma indstria de carnes enlatadas tem estabelecido a seguinte especificao: um
novilho com 12 meses de vida resulta numa mdia de 250kg de carne. A experincia passada indica que,
mesmo com uma mudana na mdia, o desvio padro permanece ligeiramente constante, em = 18kg. Para
determinar se a especificao est sendo observada, o gerente seleciona uma amostra aleatria com 100
novilhos e obteve uma mdia X =253kg de carne. Realize um teste de hiptese para verificar se houve
mudana na especificao, a um nvel de significncia de 5%.

Soluo:

H0: = 250kg
H1: 250kg (a especificao no est sendo observada)

Temos que = 18kg; n = 100, X = 253kg e = 5%.


253 250
Dessa forma, a estatstica do teste Zc = = 1,67. Como o teste bilateral, o valor crtico ao nvel
18
100
= 5% ser Z/2 = 1,96.

Deciso: Como Z/2 < Zc < Z/2 No existem evidncias para rejeitar H0. Logo, com base nos dados
amostrais e com 5% de significncia no podemos rejeitar a hiptese H0, ou seja, no existem evidncia para
afirmar que a especificao est sendo violada.

3.3.5. Teste de Hipteses para a Mdia Populacional Caso 2: 2 NO conhecida

Quando a varincia populacional (2) desconhecida, precisamos estim-la a partir das informaes
contidas na amostra, atravs da expresso

53
n

2
(x
i =1
i x)
S = .
n 1

Dessa forma, a estatstica do teste para mdia populacional quando 2 desconhecida ser expressa por
X 0
TC = ,
S n
que segue uma distribuio t-Student com n-1 graus de liberdade.

O prximo passo consiste em fixar o nvel de significncia do teste (). A seguir, apresentamos as
regies crticas e regras de deciso para as respectivas hipteses.

Quadro 3: Resumo das Hipteses, Regies Crticas e Regras de Deciso para a Mdia Populacional,
considerando 2 desconhecido.
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)

H0: = 0
Tc -t(n-1,/2) ou
H1: 0
Tc t(n-1,/2)

H0: = 0 (*)
H1: < 0 Tc -t(n-1,)

H0: = 0 (**)
H1: > 0 Tc t(n-1,)

(*) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.
(**) Por simplicidade, excluiu-se a possibilidade 0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: = 0.

Exemplo 5.8: O tempo mdio necessrio para completar uma tarefa era de 15 minutos. Obtm-se uma
amostra aleatria de nove indivduos e, durante o perodo de teste, seus tempos (X) para concluir a tarefa
foram 11, 12, 15, 10, 12, 14, 15, 13 e 15. Assumindo que estes dados vm de uma distribuio normal, teste
a hiptese de que houve alterao no tempo mdio para completar a tarefa. Use um nvel de 5% de
significncia.

Soluo:

H0: = 15min
H1: 15min (houve alterao no tempo mdio)

Com base nas informaes amostrais, temos que n = 9; X = 13min e S = 1,871 min.

54
13 15
Dessa forma, a estatstica do teste ser Tc = = 3,207. Como o teste bilateral , o valor crtico ao
1,871
9
nvel = 5%, sendo n = 9, ser tn-1;/2 = t8;0,025 = 2,306 (obtido da tabela da distribuio t-Student).

Deciso: Como Tc < tn-1;/2, existem evidncias para rejeitar H0. Logo, com base nos dados amostrais e com
5% de significncia podemos rejeitar a hiptese H0, ou seja, existem evidncias para afirmar que os
indivduos apresentaram um tempo mdio para executar a tarefa diferente do que era observado
anteriormente.

3.3.6. Teste de Hipteses para a uma Proporo Populacional p

Ao se fazer inferncias sobre uma proporo populacional, p, tomamos nossas com base nas
evidncias sobre seu valor amostral, p , de elementos com a caracterstica de interesse.
Pelo Teorema Central do Limite, sabe-se que, para n suficientemente grande, a proporo amostral,
p (1 p ) .
p = segue, aproximadamente, uma distribuio p ~ N p,
x

n n
Dessa forma, sob a hiptese H0: p = p0, a estatstica do teste para a proporo populacional p ser
expressa por
p p0
ZC = ~ N (0,1) ,
p0 (1 p0 )
n
que segue uma distribuio normal padro.

Aps fixar o nvel de significncia do teste (), apresentamos a seguir as regies crticas e regras de deciso
para as respectivas hipteses.

Quadro 3: Resumo das Hipteses, Regies Crticas e Regras de Deciso para a Proporo
Populacional p.
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)

H0: p = p0
H1: p p0 Zc -Z/2 ou Zc Z/2

H0: p = p0 (*)
H1: p < p0 Zc -Z

H0: p = p0 (**)
H1: p > p0 Zc Z

(*) Por simplicidade, excluiu-se a possibilidade p p0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: p = p0.

55
(**) Por simplicidade, excluiu-se a possibilidade p p0 na hiptese nula H0 , com base no conhecimento de que tal fato
levaria mesma deciso que a aceitao simples de H0: p = p0.

Exemplo 5.9: Afirma-se que em um alqueire de mas, 10% esto estragadas. De uma amostra aleatria de
150 mas examinadas, 30 estavam estragadas. O que voc conclui sobre a proporo de mas estragadas
em um alqueire a um nvel de 5% de significncia?

Soluo:

H0: p = 0,1
H1: p 0,1

Com base nas informaes amostrais, temos que n = 150 e p = 30/150 = 0,2.
0,2 0,1
Dessa forma, a estatstica do teste ser ZC = = 4,08. Como o teste bilateral, o valor crtico ao
( 0,1).( 0,9 )
150
nvel de significncia de = 5% ser Z/2 = 1,96.

Deciso: Como ZC > Z/2 Existem evidncias para rejeitar H0. Logo, com base nos dados amostrais e ao
nvel de 5% de significncia, podemos concluir que a porcentagem de mas estragadas diferente de 10%.

Exemplo 5.10: De registros de vendas passadas sabe-se que 30% dos consumidores compram a pasta dental
C. Uma nova propaganda desse produto feita e, para testar sua eficcia, de uma amostra aleatria de 1000
consumidores que viram a propaganda, 334 responderam que compram a pasta dental C. Isso indica que a
nova propaganda foi bem sucedida? Use um nvel de 5% de significncia para testar se a nova propaganda
aumentou a proporo de consumidores da pasta dental C.

Soluo:

H0: p= 0,3
H1: p > 0,3 (a nova propaganda aumentou as vendas da pasta C)

Com base nas informaes amostrais, temos que n = 1000 e p = 334/1000 = 0,334.
0,334 0,300
Dessa forma, a estatstica do teste ser ZC = = 2,35. De acordo com a hipteses H1, temos
( 0,3).( 0,7 )
1000
que o teste ser unilateral e, portanto, o valor crtico ao nvel = 5% ser Z = 1,64.

Deciso: Como ZC > Z Existem evidncias para rejeitar H0. Logo, com base nos dados amostrais e ao
nvel de 5% de significncia, podemos concluir a nova propaganda aumentou a proporo de consumidores
que compram a pasta dental C.

4. Avaliando o que foi construdo

Ao final desta unidade aprendemos duas importantes tcnicas inferenciais: intervalos de confiana e
testes de hipteses. Ambas podem ser aplicadas no processo de tomada de deciso em inmeros problemas
prticos. Pratique tais conceitos resolvendo os exerccios propostos no MOODLE. Estamos bem perto de
finalizar essa viagem pelos Mtodos Estatsticos.

56
Unidade VI Correlao e Regresso

1. Situando a Temtica

Correlao e Regresso so duas tcnicas estritamente relacionadas que envolvem uma forma de
estimao. A diferena entre essas duas tcnicas e o tipo de estimao estudados anteriormente que as
tcnicas anteriores foram utilizadas para estimar um nico parmetro, enquanto que as tcnicas que sero
estudadas nesta unidade se referem estimao de uma relao que possa existir na populao.

2. Problematizando a Temtica

A correlao e regresso permite-nos investigar uma relao entre duas variveis. O estudo de tal
relao pode ser a resposta a perguntas, tais como: Qual o preo de venda para uma casa com 200m2 ? ou
Pais mais altos tendem a ter filhos mais altos? ou, ainda, De cada unidade adicional de renda quanto, em
mdia, gasto com despesas adicionais com vesturio?. A noo de casualidade est implcita nestas
questes. Por exemplo, o tamanho de uma casa determina, ou contribui, para a definio do preo de venda,
mas no o contrrio. Ao estudar a correlao entre variveis, a determinao da direo da casualidade entre
tais variveis deve ser o primeiro passo ao se analisar dados para o uso dessas tcnicas inferenciais, que sero
melhor discutidas a seguir.

3. Conhecendo a Temtica

3.1. Correlao

O objetivo do estudo da correlao a determinao do grau de relacionamento entre duas variveis.


O termo correlao significa co-relacionamento, sinalizando at que ponto os valores de uma varivel
esto relacionados com os da outra. Caso os pontos das variveis, representados num plano cartesiano (X, Y)
ou grfico de disperso, apresentem uma disperso ao longo de uma reta imaginria, dizemos que os dados
apresentam uma correlao linear.

Diagrama de Disperso

Uma forma de visualizarmos se duas variveis (X,Y) apresentam-se correlacionadas atravs do


diagrama de disperso, onde os valores das variveis so representados por pontos, num sistema cartesiano.
A figura abaixo representa dois exemplos de grficos de disperso. O primeiro grfico apresenta a relao
entre as variveis horas de treinamento e no de acidentes. O segundo grfico relaciona as variveis nota
no vestibulare mdia na graduao.
Figura 5: Exemplos de Grficos de Disperso
4,00
60 3,75
so 3,50
50 a
t
s o 3,25
na
te 40 eu 3,00
n
e 30 dd a 2,75
id i rg
a 2,50
c 20 da 2,25
A n 2,00
M
10 1,75
1,50
0
0 2 4 6 8 10 12 14 16 18 20
300 350 400 450 500 550 600 650 700 750 800
Horas de treinamento Nota no vestibular

57
Correlao

Uma medida do grau e do sinal da correlao linear entre duas variveis (X,Y) dado pelo
Coeficiente de Correlao Linear de Pearson, definido por:

Cov ( X , Y )
r= ,
S X SY

onde SX e SY representam o desvio padro amostral das variveis X e Y, respectivamente, e Cov(X,Y) a


covarincia entre elas, definida por:
n

(x
i =1
i x )( yi y )
Cov ( X , Y ) = .
n 1

Portanto, aps alguma lgebra, possvel denotar o coeficiente de correlao linear pela expresso
abaixo: n n n
n xi y i xi y i
i =1 i =1 i =1
r=
2 2
n
n n
n
n x i xi n y i yi
2 2

i =1 i =1 i =1 i =1

Propriedades do Coeficiente de Correlao Linear

o Este coeficiente adimensional, logo no afetado pelas unidades de medidas das variveis X e Y;
o O sinal positivo indica que as variveis so diretamente proporcionais, enquanto que o sinal
negativo indica que a relao entre as variveis inversamente proporcional;
o O valor de r estar sempre no intervalo de -1 a 1. Teremos r = +1 se os pontos estiverem
exatamente sobre uma reta ascendente (correlao positiva perfeita). Por outro lado, teremos r = -1
se os pontos estiverem sobre uma reta descendente (correlao negativa perfeita)

-1 0 1

ausncia
Sentido: negativa negativa ne gativa positiva positiva positiva
Fora: forte m oderada fraca fraca moderada forte

Teste de Hipteses para o Coeficiente de Correlao Linear

Como o valor de r calculado com base nos n elementos de uma amostra, este representa uma
estimativa do verdadeiro valor para o coeficiente de correlao populacional (). Logo, faz-se necessrio
alguma ferramenta de inferncia estatstica que permita saber se o valor de r, combinado com o respectivo
tamanho de amostra n, a um dado nvel de significncia , suficiente para afirmarmos que existe uma
correlao linear entre duas variveis.

Dessa forma, sob a hiptese H0: = 0, a estatstica do teste para correlao linear populacional ser
expressa por
n2
TC = r ~ t ( n 2), / 2 ,
1 r 2

que segue uma distribuio t-Student com n-2 graus de liberdade.

Aps fixar o nvel de significncia do teste (), apresentamos a seguir a regio crtica e a regra de deciso
para o teste bilateral.

58
Quadro 4: Hipteses, Regio Crtica e Regra de Deciso para a Correlao Linear Populacional
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)

H0: = 0
Tc -t(n-2,/2) ou
H1: 0
Tc t(n-2,/2)

Exemplo 6.1: A tabela abaixo apresenta os preos mdios das aes e ttulos divulgados pela Bolsa de Nova
York entre 1950 e 1959. Calcule o coeficiente de correlao de Pearson, interprete o resultado e verifique sua
significncia a nvel de 5%.

Ano Aes (X) Ttulos (Y)


1950 35,22 102,43
1951 39,87 100,43
1952 41,85 97,43
1953 43,23 97,81
1954 40,06 98,32
1955 53,29 100,07
1956 54,14 97,08
1957 49,12 91,59
1958 40,71 94,85
1959 55,15 94,65
Total () 452,64 974,66

Soluo:

Para o clculo do coeficiente de correlao r, necessitamos de alguns clculos preliminares a partir da tabela
acima:

Ano Aes (x) Ttulos (y) xy x2 y2


1950 35,22 102,43 3607,58 1240,45 10491,90
1951 39,87 100,43 4004,14 1589,62 10086,18
1952 41,85 97,43 4077,45 1751,42 9492,60
1953 43,23 97,81 4228,33 1868,83 9566,80
1954 40,06 98,32 3938,70 1604,80 9666,82
1955 53,29 100,07 5332,73 2839,82 10014,00
1956 54,14 97,08 5255,91 2931,14 9424,53
1957 49,12 91,59 4498,90 2412,77 8388,73
1958 40,71 94,85 3861,34 1657,30 8996,52
1959 55,15 94,65 5219,95 3041,52 8958,62
Total () 452,64 974,66 44025,03 20937,69 95086,72

Logo, temos que


n n n
n x i y i xi y i
i =1 i =1 i =1 9 (44025,03) (452,64 974,66)
r= = = 0,4561
2 2 2 2
n
n n
n 9 (20937,69) (452,64) 9 (95086,72) (974,66)
n xi x i n y i y i
2 2

i =1 i =1 i =1 i =1
59
Conclumos que existe uma correlao negativa entre os preos mdios das aes e de ttulos, ou seja, existe
uma tendncia de baixa nos preos das aes quando se verifica alta nos preos dos ttulos e vice-versa,
embora tal relao no seja acentuada.

Para testar a significncia da correlao, devemos realizar um teste de hipteses para correlao
populacional. As hipteses H0 e H1 so definidas por:

H0: = 0
H1: 0

Com base nas informaes amostrais, temos que n = 9 e r = -0,4561. Dessa forma, a estatstica do teste ser
n2
TC = r = 1,4496 . De acordo com a hipteses H1, temos que o teste ser bilateral e, portanto, o
1 r2
valor crtico ao nvel = 5% ser t(n-2,/2) = t(7,0.025) = 2,37.

Deciso: Como t(n-2,/2) < TC < t(n-2,/2) No existem evidncias para rejeitar H0. Logo, com base nos
dados amostrais e ao nvel de 5% de significncia, no podemos afirmar que exista uma correlao entre os
preos mdios das aes e dos ttulos entre 1950 e 1959.

3.2. Regresso

Quando analisamos dados que sugerem a existncia de uma relao funcional entre duas variveis,
surge ento o problema de se determinar uma funo matemtica que exprima esse relacionamento, ou seja,
uma equao de regresso.

Portanto, ao imaginar uma relao funcional entre duas variveis, digamos X e Y, estamos
interessados numa funo que explique grande parte da variao de Y por X. Entretanto, uma parcela da
variabilidade de Y no explicada por X ser atribuda ao acaso, ou seja, ao erro aleatrio.

Admitimos que a varivel X seja coletada sem erro, isto , X no ser aleatrio. Enquanto que a
varivel Y apresenta uma variao na qual, acreditamos, que possa ser explicada por X. Essa situao admite
a formulao do problema de modo que uma varivel Y, chamada de varivel resposta ou dependente, seja
apresentada em funo de uma varivel X, denominada de varivel explicativa ou independente.

Formalmente, a anlise de regresso parte de um conjunto de observaes pareadas (x1, y1), (x2, y2),
..., (xn, yn), relativas s variveis X e Y e considera que podemos escrever a relao entre as duas variveis,
da seguinte maneira:
yi = + xi + i,
onde:
o yi a varivel resposta associada i-sima observao de Y;
o xi a i-sima observao do valor fixado para a varivel independente (e no aleatria) X;
o i o erro aleatrio para a i-sima observao, isto , o efeito de fatores que esto afetando a
observao de Y de forma aleatria. Por suposio, consideramos que i ~ N(0,2);
o e so parmetros que precisam ser estimados.

Estimando os Parmetros do Modelo

O nosso objetivo ser estimar valores para e atravs dos dados fornecidos pela amostra. Alm
disso, queremos encontrar a reta que passe o mais prximo possvel dos pontos observados segundo um
critrio pr-estabelecido.

60
O mtodo de mnimos quadrados usado para estimar os parmetros do modelo ( e ), segundo um
critrio, e consiste em fazer com que a soma dos erros quadrticos seja menor possvel, ou seja, este mtodo
consiste em obter os valores de e que minimizam a expresso:

SQE = i2 = (y i x i ) 2 = f ( , ). .

Aplicando-se derivadas parciais em relao a e na expresso acima e igualando-se a zero,vamos


encontrar as seguintes estimativas para e , as quais chamaremos de a e b, respectivamente:

n x i yi x i yi y i b x i
b= a= .
n x i2 ( x i )
2
n

A chamada equao (reta) de regresso dada por

y = a + b x ,

e para cada valor xi (i = 1, ..., n) temos, pela equao de regresso, o valor predito:

y i = a + b x i .

A diferena entre os valores observados e os preditos ser chamada de resduo do modelo de regresso,
sendo denotado por:
ei = yi yi .

O resduo relativo i-sima observao (ei) pode ser considerado uma estimativa do erro aleatrio (i), como
ilustrado abaixo.

61
O Coeficiente de Determinao (R2)

O coeficiente de determinao uma medida descritiva da proporo da variao de Y


que est sendo explicada pela varivel X, segundo o modelo de regresso especificado. Ele
expresso pela seguinte razo:
(y i y ) = variao explicada pelo modelo ,
2

R2 = 2
(y i y ) variao total

onde y =
y i
.
n

Teste de Hipteses para o Coeficiente

Note que o coeficiente representa a inclinao da reta de regresso. Dessa forma, um teste de
hipteses sobre este parmetro pode ser usado como uma maneira de verificar se a equao de regresso
ajustada com base em dados amostrais estatisticamente significante. Para tanto, vamos definir as hipteses
nula e alternativa por:
H0: = 0
H1: 0.

A estatstica do teste para o coeficiente angular ser expressa por


|b|
TC = ~ t ( n 2), / 2 ,
Sb
n

(y i y i ) 2
onde: S b2 = i =1
n
e TC segue uma distribuio t-Student com n-2 graus de liberdade.
(n 2) ( xi x ) 2

i =1

Aps fixar o nvel de significncia do teste (), apresentamos a seguir a regio crtica e a regra de deciso
para o teste bilateral.

Quadro 5: Hipteses, Regio Crtica e Regra de Deciso para a Correlao Linear Populacional
Hiptese Regio Crtica Regra de Deciso
(sombreada) (Rejeitar H0)

H0: = 0
Tc -t(n-2,/2) ou
H1: 0
Tc t(n-2,/2)

62
Exemplo 6.2: A tabela abaixo apresenta os respectivos pesos X e Y de uma amostra de 12 pais e de seus
filhos mais velhos. Determine a reta de regresso e realize um teste de hipteses ao nvel de 5% de
significncia para o coeficiente angular

Peso Pais (X) Peso Filho (Y)


65 68
63 66
67 68
64 65
68 69
62 66
70 68
66 65
68 71
67 67
69 68
71 70
= 800 = 811

Soluo:

Para o clculo dos coeficientes de um modelo de regresso, necessitamos de alguns clculos preliminares a
partir da tabela acima:

Peso Pais (X) Peso Filho (Y) xy x2


65 68 4420 4225
63 66 4158 3969
67 68 4556 4489
64 65 4160 4096
68 69 4692 4624
62 66 4092 3844
70 68 4760 4900
66 65 4290 4356
68 71 4828 4624
67 67 4489 4489
69 68 4692 4761
71 70 4970 5041
= 800 = 811 54107 53418

Obtemos os as estimativas dos parmetros do modelo de regresso linear atravs dos coeficientes

n x i y i x i y i 12(54107) (800 811)


b= = = 0,4764 e
n x ( x i )
2
2
i
12(53418) (800) 2

a=
y i b x i
=
811 (0,4767)800
= 35,82 .
n 12

Assim, a equao de regresso que relaciona os pesos dos pais e de seus filhos, pode ser denotada por

y = 35,82 + 0,4764 x .

A estatstica do teste para o coeficiente angular ser expressa por


|b|
TC = ,
Sb

63
n

(y i y i ) 2
onde: S b2 = i =1
n
. Assim, temos que
(n 2) ( xi x ) 2

i =1
n

(y i y i ) 2
(68 66.8) 2 + L + (70 69.6) 2
S b2 = i =1
= = 0,027934 .
n
(n 2) ( xi x ) 2
[
(12 2) (65 66.7) 2 + L + (70 66.7) 2 ]
i =1

Dessa forma, a estatstica do teste ser TC = | 0,4764 | = 2,85 . De acordo com a hipteses H1, temos que o
0,027934
teste ser bilateral e, portanto, o valor crtico ao nvel = 5% ser t(n-2,/2) = t(10,0.025) = 2,23.

Deciso: Como TC > t(n-2,/2) Existem evidncias para rejeitar H0. Logo, com base nos dados amostrais
e ao nvel de 5% de significncia, podemos afirmar que existe uma relao funcional entre os pesos dos pais
e de seus filhos mais velhos.

Por ltimo, o coeficiente de correlao mltiplo pode ser calculado a partir dos dados observados (y) e de
seus respectivos valores preditos ( y ). A tabela abaixo apesenta os clculos necessrios para obter o R2.

Peso Pais (X) Peso Filho (Y) y ( y y ) 2 ( y y) 2


65 68 66,8 0,64 0,17
63 66 65,8 3,06 2,51
67 68 67,7 0,02 0,17
64 65 66,3 1,62 6,67
68 69 68,2 0,40 2,01
62 66 65,4 4,96 2,51
70 68 69,2 2.51 0,17
66 65 67,3 0,10 6,67
68 71 68,2 0.40 11,67
67 67 67,7 0,02 0,34
69 68 68,7 1,23 0,17
71 70 69,6 4,25 5,84
= 800 = 811 - 19,22 38,92

Logo, temos que

R2 =
(y i
2
y)
=
19,22
= 0,4938 = 49,38% .
(y i
2
y) 38,92

Isso significa que apenas 49,38% da variao dos pesos dos filhos pode ser explicada pela variao de peso
nos pais.

4. Avaliando o que foi construdo

Ao final desta unidade aprendemos dois importantes conceitos dentro da Estatstica: correlao e
regresso. Ambos os mtodos podem ser aplicadas no processo de tomada de deciso em inmeros
problemas reais. Pratique tais conceitos resolvendo os exerccios propostos no MOODLE. Espero que essa
viagem pelos Mtodos Estatsticos tenha sido bem explorada.

64
5. Referncias Bibliogrficas

FONSECA, J.S., MARTINS, G.A. & TOLEDO, G.L., Estatstica Aplicada, So Paulo, Editora Atlas, 2
ed., 1985.
TRIOLA, M.F, Introduo Estatstica, Livros Tcnicos e Cientficos, 7 ed,, Rio de Janeiro, 1999.

COSTA NETO, P.L., Estatstica, Edgard Blucher, So Paulo, 1977.

MEYER, P.L., Probabilidade: Aplicaes Estatstica, Livros Tcnicos e Cientficos, Editora AS, Rio de
Janeiro, 1983.

65

You might also like