Professional Documents
Culture Documents
BSICA
autor
FERNANDO DE FIGUEIREDO BALIEIRO
1 edio
SESES
rio de janeiro 2015
Conselho editorial sergio augusto cabral; roberto paes; gladis linhares
Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida
por quaisquer meios (eletrnico ou mecnico, incluindo fotocpia e gravao) ou arquivada em
qualquer sistema ou banco de dados sem permisso escrita da Editora. Copyright seses, 2015.
isbn: 978-85-5548-129-1
Objetivos 50
2.1 Medidas de tendncia central 51
2.1.1 Mdia aritmtica 51
2.1.1.1 Propriedades da mdia 54
2.1.2Moda 54
2.1.3Mediana 55
2.1.4 Clculos das medidas de tendncia central para dados
agrupados em intervalos de classes 59
2.2 Medidas de disperso 63
2.2.1 Mnimo, mximo e amplitude 64
2.2.2 Desvio mdio, varincia e desvio padro amostrais 65
2.2.2.1 Uma regra prtica para interpretar o desvio-padro 67
2.2.2.2 Propriedades do desvio padro 68
2.2.3 Coeficiente de variao 72
2.2.4 Clculos da varincia e do desvio padro para dados
agrupados em intervalos de classes 73
2.3 Medidas separatrizes ou de ordenamento 75
2.3.1Quartis 75
2.3.2 Decis e Percentis 77
2.3.3 Clculo das medidas separatrizes para dados
agrupados em intervalos de classes 78
2.4 Medidas de assimetria e curtose 86
2.5 Utilizao do Microsoft Excel na Anlise de Dados 92
Reflexo 95
Referncias bibliogrficas 95
Objetivos 98
3.1 Varivel aleatria 99
3.2 Distribuio Normal 99
3.3 Utilizao do Microsoft Excel no clculo de probabilidades normais 118
Reflexo 124
Referncias bibliogrficas 125
4. Teste de Hipteses 127
Objetivos 128
4.1 Fundamentos do teste de hipteses 129
4.2 Teste de hipteses para a mdia populacional 131
4.2.1 Tipos de erros, nvel de significncia e estatstica de teste 131
4.2.2 Deciso e interpretao 135
4.3 Teste de hipteses para duas amostras 139
4.3.1 Testes para diferenas entre mdias 140
4.3.1.1 Amostras independentes com desvios
padres desconhecidos e diferentes 141
4.3.1.2 Amostras independentes com desvios
padres desconhecidos e iguais 144
4.3.1.3 Amostras independentes com desvios padres conhecidos 148
4.3.1.4 Amostras dependentes 150
4.4 Utilizao do Microsoft Excel para testes de duas amostras 154
4.4.1 Comparao de duas mdias com desvios padres
desconhecidos e diferentes 154
4.4.2 Comparao de duas mdias (amostras dependentes) 157
Reflexo 162
Referncias bibliogrficas 163
Objetivos 166
5.1 Diagrama de disperso 167
5.2 Coeficiente de correlao linear 168
5.3 Teste de hipteses para correlao 173
5.4 Regresso linear simples 175
5.5 Coeficiente de determinao 181
5.6 Utilizao do Microsoft Excel na anlise de regresso e correlao 185
Reflexo 195
Referncias bibliogrficas 196
1
Conceitos Iniciais e
Apresentao dos
Dados por meio
de Distribuies
de Frequncias e
Grficos
Nesse primeiro captulo, estudaremos conceitos bsicos da Estatstica e
como organizamos e apresentamos um conjunto de dados por meio de distri-
buies de frequncias e grficos apropriados.
Os conceitos abordados neste captulo so muito importantes, pois qualquer
estudo ou pesquisa deve ser conduzido a partir dos conhecimentos adquiri-
dos neste primeiro momento, para que os resultados obtidos na anlise se-
jam um instrumento confivel para tomadas de decises.
OBJETIVOS
Aps o estudo dos conceitos e tcnicas que sero apresentados, esperamos que voc consiga:
8 captulo 1
1.1 Definio de Estatstica
muito comum nos meios de comunicao, como jornais, revistas, televiso e
internet, nos depararmos com informaes estatsticas. Por exemplo:
Para que estas informaes sejam obtidas, precisamos coletar dados para
transform-los em informaes. Portanto, podemos definir a Estatstica da se-
guinte maneira:
Estatstica um conjunto de tcnicas utilizadas para a coleta, organizao,
resumo, anlise e interpretao de dados.
Quando o foco est nas cincias biolgicas e da sade, usamos o termo
bioestatstica.
A Estatstica tem um papel fundamental em diversas reas do conhecimen-
to, pois o uso de tcnicas estatsticas apropriadas fornece informaes que au-
xiliam no processo de tomada de decises. Por exemplo, a eficcia de um novo
medicamento para reduzir o LDL colesterol feito por meio de um teste clnico
com pacientes. A anlise dos dados obtidos informar se a reduo estatisti-
camente significante.
Mtodos estatsticos so essenciais no estudo de situaes em que as variveis
de interesse esto sujeitas, inerentemente, a flutuaes aleatrias. Isto acontece
muito na rea da sade. Por exemplo, mesmo que o estudo seja feito com pacien-
tes homogneos, observamos uma grande variabilidade, por exemplo, na resposta
a algum tipo de tratamento. Ento, para estudar problemas clnicos, precisamos
de uma metodologia capaz de tratar a variabilidade de forma adequada.
O avano da informtica e a popularizao dos computadores contriburam
para o uso de mtodos estatsticos. Antigamente, era muito demorado fazer anli-
ses de muitas informaes, e agora, com o auxlio do computador, as anlises so
feitas rapidamente. Alm disto, com o avano da informtica, novas tcnicas de
anlise de dados foram introduzidas, principalmente mtodos grficos. Muitos
pacotes estatsticos foram desenvolvidos e so usados tanto no meio acadmico
captulo 1 9
como em indstrias, como, por exemplo, Minitab, SPSS e SAS. Utilizamos tambm
o Microsoft Office Excel, que possui opes para certas tcnicas estatsticas. Apesar
do grande auxlio fornecido pelos pacotes estatsticos e pelo Excel, precisamos ter
um conhecimento terico slido para saber qual tcnica estatstica utilizar para
resolver um problema, alm de saber analisar e interpretar os resultados obtidos.
A Estatstica pode ser dividida em duas grandes reas: a estatstica descriti-
va e a inferncia estatstica.
Na estatstica descritiva, utilizamos tcnicas destinadas a organizar, des-
crever e resumir os dados. Os dados so tabulados e apresentados por meio de
grficos e resumidos atravs de medidas numricas. Desta maneira, as infor-
maes estatsticas so apresentadas de maneira clara e de fcil entendimento.
Na inferncia estatstica (ou inferncia indutiva), utilizamos dados amos-
trais para fazer estimativas, testar hipteses e fazer previses sobre caracters-
ticas de uma populao. Veremos, a seguir, alguns conceitos que facilitaro o
entendimento da importncia da inferncia estatstica.
CONCEITOS
10 captulo 1
CONCEITOS
captulo 1 11
Podemos justificar a primeira razo, custo e demora dos censos, analisando
as pesquisas eleitorais. As prvias eleitorais so feitas regularmente e publica-
das. Analisar todos os milhes de eleitores do Brasil em um curto espao de
tempo torna-se impossvel para o pesquisador. Vamos lembrar que nosso pas
possui uma vasta extenso territorial, fazendo com que a pesquisa leve muito
tempo e gere um custo muito alto.
No caso de populaes muito grandes, impossvel estud-las por inteiro.
Por exemplo, se temos interesse de estudar determinada planta em uma mata.
O nmero de plantas matematicamente finito, mas to grande, que pode ser
considerado infinito para qualquer estudo prtico.
Em algumas situaes, impossvel examinar toda a populao. Por exem-
plo, na anlise de sangue de uma pessoa, no podemos observar toda a popu-
lao de interesse.
E, por fim, a coleta de dados por meio de uma amostra tem maior valor
cientfico do que se estivssemos estudando brevemente toda a populao.
Por exemplo, um pesquisador social tem interesse em estudar hbitos e com-
portamentos relacionados sade da criana e do adolescente de uma grande
cidade brasileira. melhor fazer uma avaliao criteriosa e cuidadosa de da-
dos amostrais do que uma avaliao rpida e resumida de toda a populao de
crianas e adolescentes da cidade.
A Figura 1.1 ilustra os conceitos de populao e amostra e as reas da esta-
tstica descritiva e inferencial, com seus respectivos objetivos.
12 captulo 1
Quando temos acesso a todos os elementos que desejamos estudar, ou seja, a popula-
o, no necessrio o uso de tcnicas da inferncia estatstica.
CONEXO
Em pocas de recenseamento, uma declarao muito comum : o recenseador no passou
em minha residncia. Para entender a metodologia adotada pelo IBGE, leia as informa-
es disponveis em: <http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&bus-
ca=1&idnoticia=1866> Acesso em: 30 de Abr. 2015.
EXEMPLO
1.1: Um hospital e maternidade possui 3 200 funcionrios. O departamento de recursos
humanos fez uma pesquisa de clima organizacional com 620 funcionrios selecionados nos
diversos setores do hospital e um dos tpicos abordados foi o grau de satisfao com os
benefcios oferecidos pela empresa. A anlise dos dados mostrou que 55% dos funcionrios
esto satisfeitos com os benefcios oferecidos. De acordo com as informaes contidas no
enunciado, vamos identificar:
captulo 1 13
a) A populao em estudo.
b) A varivel em estudo.
c) O tamanho da amostra.
d) A informao numrica 55% um parmetro ou uma estatstica?
Resoluo
a) Populao em estudo: 3 200 funcionrios do hospital e maternidade.
b) Varivel em estudo: nvel de satisfao com os benefcios oferecidos.
c) Tamanho da amostra: 620 funcionrios.
d) A informao numrica 55% uma estatstica, pois esta informao foi obtida atravs
de dados amostrais.
14 captulo 1
por motivo de sade (0, 1, 2,...) e nmero de peas defeituosas em um lote (0,
1, 2, 3,...) so classificadas como quantitativas discretas, enquanto que peso,
altura, renda familiar (salrios mnimos) so classificadas como quantitativas
contnuas.
Podemos atribuir cdigos numricos s categorias de respostas de algumas
variveis qualitativas. Por exemplo, para a varivel gner, podemos associar o c-
digo 1 para o sexo feminino e 2 para o sexo masculino. Mas isto no a torna uma
varivel quantitativa, ou seja, no podemos, por exemplo, calcular uma mdia
destas respostas, pois no conseguiramos interpretar o resultado obtido.
EXEMPLO
1.2: Vamos classificar as seguintes variveis:
a) Nmero de peas defeituosas produzidas em uma linha de montagem.
b) Peso de pacientes.
c) Fumante.
d) Tipo sanguneo.
e) Grau de satisfao do consumidor com determinado produto.
Resoluo
a) Varivel quantitativa discreta, pois as possveis respostas so 0, 1, 2, 3, etc. (as respos-
tas assumem somente valores inteiros).
b) Varivel quantitativa contnua, pois as possveis respostas so 58,7; 89,8; etc. (as res-
postas podem assumir valores decimais).
captulo 1 15
c) Varivel qualitativa nominal, pois as possveis respostas so sim ou no. (as possveis
respostas so categricas).
d) Varivel qualitativa nominal, pois as possveis respostas so A, AB, B ou O (as possveis
respostas so categricas).
e) Varivel qualitativa ordinal, pois as possveis respostas so nada satisfeito, pouco sa-
tisfeito, satisfeito, muito satisfeito (as possveis respostas so categricas e possuem uma
ordenao natural, do menor grau de satisfao para o maior).
Outra maneira comum de classificar os dados atravs do uso dos nveis de mensura-
o intervalar e de razo. No nvel intervalar, as diferenas so significativas, mas no
existe ponto inicial zero natural e as razes no tm sentido e, no nvel de mensurao
de razo, h um ponto inicial zero natural e as razes so significativas.
16 captulo 1
na maneira de coletar estes dados. De acordo com TRIOLA (2008, p. 17), se os
dados amostrais no forem coletados de maneira apropriada, eles podem ser
de tal modo inteis que nenhuma manipulao estatstica poder salv-los.
Para que possamos usar os resultados obtidos na amostra para fazer in-
ferncias sobre a populao de interesse, precisamos garantir que a amostra
seja representativa desta populao. Por exemplo, no Exemplo 1.1, se os 620
funcionrios forem selecionados somente em um dos setores da empresa, no
podemos garantir que esta amostra seja representativa de todos os funcion-
rios, pois parece pouco provvel que os outros funcionrios dos diversos seto-
res tenham a mesma avaliao sobre o grau de satisfao com os benefcios
oferecidos.
Veremos agora quais tcnicas de amostragem podemos utilizar para garan-
tir a representatividade da populao.
captulo 1 17
Estudaremos agora algumas tcnicas muito utilizadas de amostragem
probabilstica.
18 captulo 1
EXEMPLO
1.3: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra aleatria simples?
Resoluo
Para obtermos uma amostra aleatria simples de 8% dos 4 500 estudantes, precisamos
sortear 360. Como poderemos fazer este sorteio? Temos como obter o nome ou registro
acadmico de cada um dos alunos facilmente. Estas informaes esto disponveis na se-
cretaria acadmica da universidade. Os nomes ou registros acadmicos so escritos em pe-
daos de papel. Aps colocar, separadamente, as informaes em 4 500 papis, eles so
colocados em uma urna. Misturamos bem e sorteamos um papel. Repetimos o procedimen-
to at que 360 papis sejam sorteados. Os nomes (ou registros acadmicos) selecionados
correspondem aos alunos que comporo a amostra. A descrio do sorteio foi feita desta
maneira para facilitar o entendimento deste tipo de amostragem. Nos dias atuais, colocamos
todos os nomes em uma planilha do Excel e utilizamos a funo ALEATRIOENTRE.
captulo 1 19
EXEMPLO
1.4: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. H uma suspeita de que mulheres so mais crite-
riosas na avaliao institucional. De acordo com informaes acadmicas, aproximadamente
60% dos estudantes so do sexo feminino. Qual deve ser o procedimento para a obteno
de uma amostra estratificada?
Resoluo
De acordo com as informaes, vamos separar os estudantes em dois estratos: estudan-
tes do sexo masculino e estudantes do sexo feminino. Depois, obtemos uma amostra alea-
tria simples de cada estrato (gnero) e reunimos os dados selecionados dos dois estratos
em uma s amostra estratificada.
20 captulo 1
EXEMPLO
1.5: Uma universidade est elaborando uma pesquisa com o objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando ao aperfeioamen-
to e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra sistemtica?
Resoluo
Na amostragem sistemtica, precisamos de uma lista dos elementos que compem a
populao. Aps conseguir uma listagem com todos os estudantes, precisamos encontramos
N 4 500
a frao amostral k= . No nosso exemplo, k= =12,5 . Como k no um nmero
n 360
inteiro, devemos arredondar para o inteiro mais prximo, ou seja, vamos considerar k = 13.
captulo 1 21
EXEMPLO
1.6: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra por conglomerados?
Resoluo
Nesta situao, podemos formar conglomerados com os alunos matriculados em cada
um dos cursos da universidade. Por exemplo, conglomerado formado com todos os estu-
dantes matriculados no curso de Administrao, ou conglomerado formado com todos os
estudantes matriculados no curso de Enfermagem e assim por diante. Aps a identificao
dos conglomerados, sorteamos alguns deles e entrevistamos todos os estudantes dentro de
cada conglomerado sorteado.
22 captulo 1
Clculo pode escolher todos os alunos que cursam sua disciplina, nos diversos
cursos em que leciona, para compor a amostra que ser utilizada na pesquisa.
Neste tipo de seleo, o professor restringe a escolha dos alunos que faro par-
te da amostra, pois estudantes que no tm aula com ele estaro excludos de
participar da amostra.
CONEXO
Uma leitura interessante sobre a amostragem no probabilstica encontrada no seguinte
trabalho: Amostragem no Probabilstica: Adequao de Situaes para uso e Limitaes de
amostras por Convenincia, Julgamento e Quotas. Disponvel em: < http://www.fecap.br/
adm_online/art23/tania2.htm>. Acesso em: 30 de Abr. 2015.
Mais importante saber que no basta ter em mos uma frmula, ou um programa de
computador para estimar o tamanho da amostra. preciso algum conhecimento prvio
(estimativas preliminares de um ou mais parmetros, obtidas de amostras pilotos ou da
literatura) e uma boa dose de bom senso.
captulo 1 23
CONEXO
Para uma leitura introdutria sobre clculo do tamanho de amostras, o artigo: Anlise a res-
peito do tamanho de amostras aleatrias simples: uma aplicao na rea de Cincia da In-
formao aborda diferentes procedimentos estatsticos para a determinao do tamanho
de uma amostra aleatria simples. Disponvel em: <http://dgz.org.br/ago05/Art_01.htm>.
Acesso em: 30 de Abr. 2015.
24 captulo 1
Aps a obteno dos dados, por exemplo, atravs de experimentos, cadas-
tros, entrevistas ou preenchimento de questionrios, obtemos o conjunto de
dados brutos, ou seja, dados que ainda no foram organizados. Neste momen-
to comeamos com a apurao, isto , organizao dos dados brutos. Isto
feito por meio da construo da distribuio de frequncias, que estudaremos
a seguir.
captulo 1 25
Frequncia relativa acumulada (fra): o quociente da frequncia acumula-
da pelo nmero total de dados. Esta frequncia tambm pode ser expressa em
porcentagem. O valor de (fra x100) definido como fra (%).
A seguir apresentamos a estrutura de uma distribuio de frequncias.
Respostas da varivel
1. As tabelas devem ser delimitadas, no alto e embaixo, por traos horizontais. Esses
traos podem ser mais fortes do que os traos feitos no interior da tabela; as tabelas
no devem ser delimitadas, direita e esquerda, por traos verticais;
2. O cabealho deve ser delimitado por traos horizontais;
3. Podem ser feitos traos verticais no interior da tabela, separando as colunas;
4. As tabelas devem ter significado prprio, isto , devem ser entendidas mesmo
quando no se l o texto em que esto apresentadas;
5. As tabelas devem ser numeradas com algarismos arbicos. Pode ser adotada a
numerao progressiva por sees.
6. Quando dois ou mais tipos de informao tiverem sido agrupados em um s con-
junto, esse conjunto entra na tabela sob a denominao outros.
EXEMPLO
1.7: Um questionrio foi aplicado aos dez candidatos a uma vaga no departamento finan-
ceiro de uma loja de departamentos e alguns dos resultados obtidos esto apresentados no
quadro a seguir. Vamos organizar os dados das variveis grau de escolaridade e idade em
distribuio de frequncias.
26 captulo 1
TEMPO DE EXPERINCIA
CANDIDATO DA VAGA GRAU DE ESCOLARIDADE IDADE
NA REA
1 Ensino Mdio 30 7
2 Ensino Superior 35 12
3 Ensino Superior 26 4
4 Ensino Mdio 22 1
5 Ensino Mdio 28 8
6 Ps Graduao 30 10
7 Ensino Mdio 26 3
8 Ensino Superior 33 8
9 Ps Graduao 35 6
10 Ensino Mdio 23 2
Resoluo
A distribuio de frequncias contm 3 colunas: a varivel em estudo, a frequncia e a
frequncia relativa (%). Toda tabela deve conter um ttulo que explique o contedo da tabela.
Tambm podemos utilizar como cabealho para a segunda coluna a palavra Frequncia.
captulo 1 27
O mesmo procedimento feito para encontrar os valores referentes ao grau de escolaridade
Ensino Superior e Ps Graduao.
Analisando as informaes, observamos que, dos 10 candidatos vaga, 50% deles pos-
suem Ensino Mdio, seguidos por 30% com Ensino Superior e 20% com Ps-Graduao.
Pelo Quadro 1, verificamos que h repetio das idades 26 (candidatos 3 e 7), 30 (can-
didatos 1 e 6) e 35 (candidatos 2 e 9).
Por meio das informaes contidas na Tabela 1.2, observamos que a idade mnima dos
candidatos 22 anos e a mxima 35 anos. Podemos concluir, tambm, que 70% dos
candidatos tm no mximo 30 anos (30 anos de idade ou menos).
Podemos observar que a estrutura da distribuio de frequncias a mesma tanto para
variveis qualitativas quanto para variveis quantitativas. No caso de variveis quantitativas,
colocamos os valores numricos em ordem crescente.
Como dissemos anteriormente, em algumas anlises precisamos da frequncia acumula-
da, como na construo de um grfico denominado Ogiva e no clculo de medidas separatri-
zes para dados organizados em intervalos de classes. Construiremos, agora, uma distribuio
de frequncias com a frequncia acumulada absoluta e a frequncia acumulada relativa (%).
FREQUNCIA ACU-
NMERO DE CANDI- FREQUNCIA FREQUNCIA
IDADE MULADA RELATIVA
DATOS RELATIVA (%) ACUMULADA
(%)
22 1 10 1 10
23 1 10 2 20
26 2 20 4 40
28 1 10 5 50
30 2 20 7 70
28 captulo 1
FREQUNCIA ACU-
NMERO DE CANDI- FREQUNCIA FREQUNCIA
IDADE MULADA RELATIVA
DATOS RELATIVA (%) ACUMULADA
(%)
33 1 10 8 90
35 2 20 10 100
Total 10 100
A coluna da frequncia acumulada obtida somando cada frequncia com as que lhe
so anteriores e a frequncia acumulada relativa (%) obtida dividindo a frequncia acumu-
lada pelo nmero total de dados (X 100).
Por exemplo, a frequncia acumulada associada idade 30 obtida somando a frequn
cia desta resposta com as frequncias anteriores (1 + 1 + 2 + 1 + 2 = 7) e a frequncia
7
acumulada relativa (%) obtida fazendo 100 = 70% .
10
Quando estamos analisando uma varivel quantitativa contnua, comum os valores no
se repetirem. Se construirmos uma distribuio de frequncias como na Tabela 1.2, ela ficar
muito extensa e no atingiremos o objetivo de resumir o conjunto de dados. Nestes casos,
conveniente agrupar os dados em intervalos de classes. O mesmo procedimento pode ser
feito quando a varivel for quantitativa discreta e apresentar um nmero grande de dados,
mas com valores com pouca repetio.
Identificamos os seguintes valores em um intervalo de classe:
captulo 1 29
Na construo de uma distribuio de frequncias com intervalos de classes devemos
ter respostas para estes dois questionamentos:
Qual o nmero de classes que a tabela deve ter?
Qual o tamanho (ou a amplitude) das classes?
Podemos usar o bom senso e escolher arbitrariamente quantas classes e qual a ampli-
tude que estas classes devem ter.
Quando no tivermos nenhuma referncia sobre qual deve ser o nmero de classes a
se trabalhar, podemos utilizar o critrio que sugerido por vrios autores. Chama-se regra
da raiz:
k n
De modo geral, a quantidade de classes no deve ser inferior a 5 e nem superior a 20.
Se o nmero de classes for muito pequeno, perderemos informao, e com um nmero gran-
de de classes, o objetivo de resumir os dados fica prejudicado.
Construiremos intervalos de classe fechados esquerda. A representao deste tipo
de intervalo :
Li | Ls
Por exemplo:
5 | 10
30 captulo 1
Pertencem a este intervalo valores iguais ou superiores ao limite inferior do intervalo
(neste exemplo, 5) e inferiores ao limite superior (neste exemplo, 10). Se houver o nmero
10 no conjunto de dados, ele entra no prximo intervalo de classe.
1.8: Os dados abaixo referem-se frao de colesterol de muito baixa densidade, em mili-
gramas por decilitro (mg/dl), em indivduos do sexo feminino. Vamos organizar este conjunto
de dados numa distribuio de frequncias.
22 22 24 24 25 26 26 26
26 26 26 26 27 27 27 28
28 28 28 28 28 28 28 28
28 29 29 29 29 29 29 30
30 30 30 30 30 30 30 30
30 30 32 34 34 34 34 34
35 35 35 35 35 35 35 36
36 37 39 39 40 40 45 48
Resoluo:
Apesar da varivel em estudo (frao de colesterol de muito baixa densidade) estar apre-
sentada na forma discreta, h uma variao grande de nmeros. Se construirmos uma distri-
buio de frequncias colocando os nmeros do menor para o maior, a tabela ficar extensa.
Ento, nesta situao, conveniente agrupar os dados em intervalos de classes.
Primeiro, precisamos saber quantas classes vamos construir. Para isto, utilizaremos a
frmula:
64 = 8
captulo 1 31
FRAO DE COLESTEROL DE BAIXA
FREQUNCIA FREQUNCIA RELATIVA (%)
DENSIDADE
22 | 26 5 7,81
26 | 30 26 40,63
30 | 34 12 18,75
34 | 38 15 23,44
38 | 42 4 6,25
42 | 46 1 1,56
46 | 50 1 1,56
Total 64 100,00
1.5 Grficos
Os grficos estatsticos so utilizados frequentemente nos meios de comunica-
o. Em geral, as pessoas tem mais facilidade de compreender as informaes
que esto contidas numa tabela por meio de grficos. H uma quantidade mui-
to grande de grficos disponveis em softwares estatsticos e no Excel, mas de-
vemos ter em mente que a construo de grficos deve ser feita cuidadosamen-
te! Por exemplo, a construo de um grfico desproporcional em suas medidas
pode nos levar a concluses equivocadas.
CONEXO
Um texto interessante que chama reflexo sobre a necessidade de abordagens pedaggi-
cas mais efetivas para o ensino e a aprendizagem de grficos est disponvel em: <http://
www.ufrrj.br/emanped/paginas/conteudo_producoes/docs_22/carlos.pdf>. Acesso em:
30 de Abr. 2015.
32 captulo 1
1.5.1 Tipos de grficos
Os grficos mais utilizados so: grfico de linhas, diagramas de rea (como por
exemplo: grfico de barras e grfico de setores) e grficos para representar as
distribuies de frequncias construdas com intervalos de classes (como por
exemplo: polgono de frequncias e histograma).
De acordo com VIEIRA (2013, p. 17):
Cada tipo de grfico tem indicao especfica, mas, de acordo com as normas brasileiras:
EXEMPLO
1.9: A Tabela 1.5 fornece o nmero de casos de dengue no Brasil, no perodo 2000 2013.
captulo 1 33
ANO NMERO DE CASOS
2000 135.228
2001 385.783
2002 696.472
2003 274.975
2004 70.174
2005 147.039
2006 258.680
2007 496.923
2008 632.680
2009 406.269
2010 1.011.548
2011 764.032
2012 589.591
2013 1.452.489
Tabela 1.5 Nmero de casos de dengue - Brasil. Fonte: Disponvel em : < http://portal-
saude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classica-at---2013.pdf >. Acesso
em: 17 jun. 2015.
O grfico que melhor representa este conjunto de dados o grfico em linhas, j que os
dados se reportam a uma srie no tempo (srie temporal). O grfico est ilustrado na Figura 1.3.
34 captulo 1
Analisando a Figura 1.3 observamos uma oscilao no nmero de casos de dengue, no
Brasil, no perodo em estudo. O nmero de casos em 2013, comparado 2012, aumentou,
aproximadamente 146%!
EXEMPLO
1.10: A Tabela 1.6 apresenta a distribuio, por tipo sanguneo, de 120 recm- nascidos em
uma maternidade. Vamos apresentar as informaes por meio de um grfico de barras (na
posio horizontal e vertical).
A 33 27,50
AB 5 4,17
B 21 17,50
O 61 50,83
captulo 1 35
Figura 1.4 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.
A Figura 1.5 apresenta as barras na posio horizontal, e elas so construdas com base na
frequncia relativa (%). Nesta situao, as categorias so apresentadas no eixo vertical e no
eixo horizontal construmos a escala, utilizando a frequncia absoluta ou a frequncia relativa
(geralmente em porcentagem). H a opo de colocarmos tais frequncias acima das barras.
Figura 1.5 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.
Vale a pena ressaltar que as informaes contidas nestes dois grficos so as mesmas
que esto apresentadas na Tabela 1.6.
36 captulo 1
1.5.1.3 Grfico de setores
EXEMPLO
1.11: Em uma universidade h 4 500 estudantes, dos quais 60% so do sexo feminino e
40% do sexo masculino. Os dados esto apresentados na Tabela 1.7.
captulo 1 37
1.5.1.4 Histograma
EXEMPLO
1.12: Vamos construir um histograma para os dados da Tabela 1.4.
38 captulo 1
1.5.1.5 Polgono de frequncias
captulo 1 39
A grande utilidade deste diagrama a de permitir uma fcil visualizao e
identificao das causas ou problemas mais importantes, possibilitando a con-
centrao de esforos sobre os mesmos. O diagrama de Pareto uma das sete
ferramentas da qualidade.
EXEMPLO
1.13: A distribuio de frequncias a seguir apresenta as reclamaes fundamentadas de
2013, por rea, na Fundao Procon SP.
Tabela 1.8 Reclamaes no Procon SP por rea, em 2013. Fonte: Disponvel em: < http://
www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 de Maio. 2015.
40 captulo 1
Analisando o grfico, observamos que, em 2013, o maior nmero de reclamaes fundamen-
tadas foi na rea de produtos, seguido por assuntos financeiros.
EXEMPLO
1.14: Uma construtora quer verificar a eficcia de seus anncios em determinado programa
de televiso. O objetivo verificar se h relao entre a quantidade de anncios e o nmero
de apartamentos vendidos. A tabela abaixo mostra o nmero de anncios que foram ao ar,
durante seis meses, e o correspondente nmero de apartamentos vendidos de um edifcio
em lanamento.
10 4
15 7
18 6
22 12
25 15
30 19
captulo 1 41
Figura 1.10 Diagrama de disperso do nmero de anncios e nmero de apartamentos
vendidos.
Pela anlise grfica observamos que medida que o nmero de anncios que foram ao
ar aumenta, ocorre um aumento no nmero de apartamentos vendidos. Como identificamos
uma relao entre as duas variveis, podemos medir a intensidade da relao e fazer pre-
vises do nmero de apartamentos vendidos a partir de um valor especfico de anncios.
Estudaremos estes conceitos no Captulo 5.
Vimos que os grficos nos transmitem informaes contidas no conjunto de dados, de
maneira simples e de fcil compreenso. Apesar de ser uma ferramenta eficaz, precisamos
tomar cuidado na construo dos grficos para no obtermos concluses enganosas. Os
principais erros na elaborao de um grfico so:
42 captulo 1
as escalas empregadas devem ser coerentes com o tama-
EIXO VERTICAL nho da figura exibida. Se o eixo vertical estiver comprimi-
COMPRIMIDO do, as diferenas reais entre as categorias de respostas da
varivel podem ficar distorcidas.
captulo 1 43
2 passo: Neste passo, selecionamos os dados. Podemos escolher a frequ-
ncia absoluta ou relativa. Neste caso, o grfico ser construdo com a frequn-
cia absoluta (colunas selecionadas: A e B, sem os ttulos!). Aps a seleo, esco-
lher a aba Inserir e depois selecionar o tipo de grfico a ser elaborado. Vamos
escolher a primeira opo para o grfico de Coluna (lembre-se, que j vimos
que o Excel denomina o grfico de barras verticais como coluna). Clicar em OK.
44 captulo 1
4 passo: Para iniciar a formatao, clicamos sobre o grfico e aparecer
Ferramentas de Grfico com algumas opes de escolha. Clicar em Layout e
logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma para co-
locar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo vertical. A
Figura 1.14 ilustra a escolha para o Ttulo do Eixo Horizontal Principal, com a
opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, seguimos o
mesmo procedimento para o eixo vertical.
5 passo: A Figura 1.15 apresenta o grfico com ttulos nos eixos horizontal
e vertical. Para finalizar, vamos excluir a legenda e as linhas de grade.
captulo 1 45
em Linhas de grade, escolher a opo Linhas de Grade Horizontais Principais e
clicar em Nenhuma. A Figura 1.16 apresenta o grfico finalizado.
Figura 1.16 Grfico de barras horizontais para a varivel Grau de escolaridade dos candidatos.
Agora, basta copiar e colar, por exemplo, em um arquivo formato DOC e in-
terpretar as informaes obtidas por meio da anlise grfica.
Para montar os outros grficos com o auxlio do Excel, basta seguirmos os
mesmos passos descritos acima. H pequenas diferenas entre a montagem de
um tipo de grfico e outro, mas fcil verificar quais procedimentos devem ser
seguidos.
REFLEXO
Estamos encerrando nosso primeiro captulo. Vimos, aqui, alguns conceitos que so funda-
mentais na compreenso do restante do contedo apresentado neste livro.
Com os conceitos adquiridos, voc ser capaz de coletar dados de maneira apropriada,
saber identific-los como qualitativos ou quantitativos e apresent-los por meio de tabelas
e grficos.
Estamos apenas no comeo. Muitas tcnicas (muito interessantes!) ainda sero aborda-
das. E lembre-se que o conhecimento e o domnio da Estatstica certamente ajudaro voc a
tomar s decises mais acertadas.
46 captulo 1
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1338 voc encontrar dois udios interes-
santes, primeiro mdulo e segundo mdulo, que introduz o conceito de Estatstica e anlise
e dados por meio de informaes sobre gravidez na adolescncia.
REFERNCIAS BIBLIOGRFICAS
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008. Disponvel
em:<http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&busca=1&idnoticia=1866>
Acesso em: 30 abr. 2015.
OLIVEIRA, Tania M. Veludo. Disponvel em: < http://www.fecap.br/adm_online/art23/tania2.htm>.
Acesso em: 30 abr. 2015.
OLIVEIRA, Ely F. Tannuri; GRCIO, Maria C. Cabrini. Disponvel em: <http://dgz.org.br/ago05/Art_01.
htm>. Acesso em: 30 abr. 2015.
MONTEIRO, Carlos E. Ferreira. Disponvel em: < http://www.ufrrj.br/emanped/paginas/conteudo_
producoes/docs_22/carlos.pdf > Acesso em: 30 abr. 2015.
Disponvel em: < http://www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 maio
2015.
Disponvel em : < http://portalsaude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classica-
at---2013.pdf >. Acesso em: 17 jun. 2015.
FUSHIGIRA, Vanessa; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em: < http://m3.ime.unicamp.
br/recursos/1338 >. Acesso em: 03 maio 2015.
captulo 1 47
48 captulo 1
2
Medidas Resumo
No primeiro captulo vimos que, aps a coleta dos dados brutos, fundamen-
tal a organizao e apresentao dos dados em distribuies de frequncias e
grficos apropriados. Atravs deles, conseguimos ter uma viso geral do com-
portamento da varivel em estudo. Alm das distribuies de frequncias, po-
demos resumir ainda mais um conjunto de dados quantitativos encontrando
valores que sejam representativos de todo o conjunto.
Temos interesse em encontrar valores que descrevam duas caractersticas
do conjunto de dados:
OBJETIVOS
Este captulo aborda como podemos resumir um conjunto de dados quantitativos por meio de
medidas resumo. Esperamos que, atravs dos conhecimentos aprendidos, voc seja capaz de:
50 captulo 2
2.1 Medidas de tendncia central
2.1.1 Mdia aritmtica
i =1x i
n
x=
n
em que:
X mdia (lemos como x barra).
n
xi
i =1 : somatrio de n observaes (X1, X2, X3, ..., Xn); X1 representa o primei-
ro valor observado, X2 representa o segundo valor observado e assim por diante,
Xn representa o n-simo valor observado.
n: nmero de observaes no conjunto de dados.
A frmula apresentada para o clculo da mdia utilizada para dados amostrais. Quan-
do estivermos trabalhando com dados de toda a populao, usamos uma notao di-
ferente. O nmero de observaes i denotado por N e utilizamos a letra grega (Mi)
para indicar a mdia, ou seja, = xi .
i=1
captulo 2 51
EXEMPLO
2.1: Um questionrio foi aplicado aos dez candidatos a uma vaga no setor financeiro de uma
clnica de cirurgia plstica e uma das variveis em estudo era a idade dos candidatos. Os
dados obtidos foram:
30 35 26 22 28 30 26 33 35 23
Resoluo
Sabemos que para encontrar a mdia, somamos todos os valores e dividimos pela quan-
tidade de valores no conjunto de dados. Para nos familiarizarmos, vamos utilizar a frmula:
x=
n 10 10 10
x i fi
k
x = i =1
n
Tabela 2.1 Estrutura da distribuio de frequncias para o clculo da mdia por meio dos
dados tabelados.
52 captulo 2
S faz sentido acrescentarmos a coluna (x1 f1) se quisermos encontrar a mdia, ou seja,
ela uma coluna auxiliar do clculo.
2.2: Construindo uma distribuio de frequncias para os dados do Exemplo 2.1, obtemos:
Vamos encontrar a idade mdia dos candidatos vaga por meio da distribuio de fre-
quncias.
Resoluo
Como os dados j esto organizados em uma distribuio de frequncias, basta acres-
centarmos uma coluna na tabela:
Ento:
i =1x i fi
k
288
x = = = 28, 8 anos
n 10
captulo 2 53
A mdia aritmtica possui algumas propriedades importantes, que estudaremos no pr-
ximo item.
Outro tipo de mdia muito utilizada, por exemplo, no clculo da mdia final de um es-
tudante em uma disciplina ou na nota final do candidato em um concurso, a mdia
ponderada. Na mdia ponderada so atribudos aos valores importncias diferentes.
Por exemplo, um estudante pode fazer 4 provas durante o semestre e para cada pro-
va atribudo um peso. O clculo da mdia ponderada feito por meio do somatrio
das multiplicaes entre valores e pesos, divididos pelo somatrio dos pesos, ou seja,
xp =
x i pi , em que Pi so o pesos atribudos.
pi
2.1.2 Moda
54 captulo 2
Portanto, a resposta para a moda pode ser o valor ou a categoria que aparece
com a maior frequncia. Existem conjuntos de dados em que nenhuma respos-
ta aparece mais vezes que outras. Neste caso, dizemos que o conjunto de dados
no apresenta moda.
Em outros casos, podem aparecer duas ou mais respostas de maior frequ-
ncia no conjunto de dados. Nestes casos, dizemos que o conjunto de dados
bimodal e multimodal, respectivamente.
No conjunto de dados apresentados no Exemplo 2.1, temos que as respostas
que aparecem com maior frequncia (frequncia 2) so: 26, 30 e 35. Portanto:
Mo = 26, 30 e 35 anos
2.1.3 Mediana
A mediana uma medida que divide o conjunto de dados ordenados ao meio, dei-
xando a mesma quantidade de valores abaixo dela e acima. Por isto, ela tambm
uma medida separatriz, pois separa o conjunto de dados em dois grupos: pelo
menos 50% dos valores ordenados so maiores ou iguais ao valor da mediana e pelo
menos 50% dos valores ordenados so menores ou iguais ao valor da mediana.
O clculo para se encontrar a mediana difere no caso do nmero de elemen-
tos (n) do conjunto de dados ser par ou mpar.
Se o nmero de elementos do conjunto de dados for mpar, ento a mediana
ser exatamente o valor do meio, ou seja:
Md = x n +1
2
xn + xn
+1
2 2
Md =
2
captulo 2 55
EXEMPLO
2.3: Os dados abaixo se referem aos batimentos cardacos para 15 pacientes que chegaram
ao hospital em estado de parada respiratria e inconscientes. Vamos encontrar a mediana.
167 150 125 120 150 150 140 136 120 150 125 140 148 120 125
Resoluo
Para encontrarmos a mediana, os dados precisam estar ordenados:
120 120 120 125 125 125 136 140 140 148 150 150 150 150 167
Md = x n+1
2
Md = x15+1 = x8
2
ou seja, a mediana o valor que ocupa a oitava posio do conjunto de dados ordenados,
Md = 140
Repare que a observao 140 divide o conjunto de dados ao meio, com 7 observaes
abaixo dela e 7 observaes acima dela.
Ento, conclumos que pelo menos 50% dos valores so maiores ou iguais a 140 batidas
por minuto.
Tambm podemos encontrar a mediana quando os dados esto apresentados em uma
distribuio de frequncias. Para isto, seguimos o seguinte procedimento:
n
2
56 captulo 2
n
Quando for ser exatamente igual a uma das frequncias acumuladas fa, o clculo da
2
mediana ser a mdia aritmtica entre dois valores da varivel: xi e xi+1. O valor da varivel xi
n
ser aquele associado = fa e o valor da varivel xi+1 ser aquele que est imediatamente
2
aps xi na distribuio de frequncias.
Para facilitar a compreenso, vamos aplicar no prximo exemplo o passo a passo des-
crito acima.
2.4: O nmero de faltas ao trabalho, no ltimo semestre, dos 30 funcionrios de uma clnica,
so:
NMERO DE FALTAS 0 1 2 3
FREQUNCIA DE FUNCIONRIOS 9 10 5 6
Resoluo
Vamos organizar uma distribuio de frequncias incluindo a frequncia acumulada.
NMERO DE FREQUNCIA
Valor da varivel FREQUNCIA fa Frequncia acu-
FALTAS RELATIVA (%)
associado fre- 0 9 30,00 9 mulada imedia-
quncia acumula- 1 10 33,33 19 tamente superior
2 5 16,67 24
da igual a 19 a 15
3 6 20,00 30
Total 30 100,00
Seguindo o roteiro:
1 Passo:
n 30
= = 1
2 2
Md=1 falta
captulo 2 57
Lembre que o valor da varivel est na primeira coluna da tabela!
Em algumas situaes, a mediana pode ser a medida de tendncia central mais repre-
sentativa para o conjunto de dados em estudo. Vamos entender quando isto ocorre anali-
sando o prximo exemplo.
2.5: Trinta residncias de um bairro foram selecionadas para participar de uma pesquisa e
uma das variveis em estudo era a renda familiar (salrios mnimos). Os dados obtidos foram:
4,3 5,1 5,7 6,4 6,8 7,1 7,4 7,6 8,2 8,7
8,9 9,2 9,5 9,7 10,0 10,4 10,6 11,2 11,4 11,6
11,7 11,9 12,1 12,3 12,4 12,4 12,7 13,2 13,5 91,3
Resoluo
Para encontrar a mdia, somamos todos os valores e dividimos por 30, ou seja:
4, 3 + 5,1+ 5, 7 + + 913
, 373, 3
x = = = 12, 44 s.m.
30 30
Ou seja, conclumos que a renda familiar mdia dos moradores das 30 residncias sele-
cionadas 12,44 salrios mnimos.
Analisando o conjunto de dados, observamos que o valor encontrado para a mdia est
acima dos valores de 26 observaes do conjunto! Por que isto ocorreu? Temos uma obser-
vao discrepante, ou seja, muito maior que as outras, que 91,3. Esta observao puxa
a mdia para cima, fazendo com que tenhamos uma interpretao enganosa sobre o centro
em torno do qual os dados se distribuem.
A mdia aritmtica muito sensvel a valores extremos, ento, dizemos que a mdia no
uma medida de tendncia central resistente.
x 30 + x 30
+1
2 2
Md =
2
x15 + x16
Md =
2
58 captulo 2
ou seja, a mediana a mdia entre os valores que ocupam a dcima quinta e dcima
sexta posio do conjunto de dados ordenados.
10 + 10, 4
Md = = 10, 2 s.m.
2
Com o resultado obtido para a mediana, observamos que ela no afetada pela obser-
vao discrepante, sendo, portanto, a medida de tendncia central mais representativa para
este conjunto de dados.
Agora que j sabemos calcular e interpretar a mdia, moda e mediana, podemos utiliz
-las para detectar assimetria em um conjunto de dados:
A distribuio dos dados assimtrica quando se estende mais para um lado do que
para o outro e simtrica se a metade esquerda do seu histograma se comporta de
maneira praticamente igual da sua metade direita. No Captulo 1 vimos que o histo-
grama um grfico muito utilizado para identificar a forma da distribuio dos dados.
captulo 2 59
Por exemplo, vamos supor que o intervalo de 10| 15 tenha frequncia 5. No sabe-
mos quais so os valores destas 5 observaes, s podemos afirmar que so maiores
ou iguais a 10 e menores que 15. Ento, assumiremos que as 5 observaes so iguais
a 12,5, que o ponto mdio deste intervalo.
EXEMPLO
2.6: Uma professora de Cincias, interessada em fazer uma aula prtica com seus alunos,
fez um levantamento dos pesos, em quilogramas, de cada um deles. Os dados esto apre-
sentados na Tabela 2.4.
Resoluo
Mdia
Para encontrarmos a mdia, precisamos acrescentar duas colunas na distribuio de
frequncias: x i (ponto mdio da classe ) e x i fi .
Para o clculo da mediana, precisaremos da frequncia acumulada. Ento, vamos acres-
centar mais uma coluna contendo tais frequncias.
FREQUNCIA FREQUNCIA
PESO (KG) FREQUNCIA xi xi fi
RELATIVA(%) ACUMULADA
40 | 45 8 5,59 42,5 340 8
45 | 50 25 17,48 47,5 1.187,5 33
50 | 55 50 34,97 52,5 2.625 83
55 | 60 40 27,97 57,5 2.300 123
60 captulo 2
FREQUNCIA FREQUNCIA
PESO (KG) FREQUNCIA xi xi fi
RELATIVA(%) ACUMULADA
60 | 65 20 13,99 62,5 1.250 143
Total 143 100,00 7.702,50
Tabela 2.6 Clculos das colunas auxiliares para encontrar a mdia e a mediana.
Li + Ls
Para encontrar o ponto mdio, basta fazer Pm = . Ento, para o primeiro inter-
40 + 45 2
valo, Pm = = 42, 5 .
2
i =1x i fi
k
7.702, 50
x = = = 53, 86kg
n 143
Moda
Existem vrias definies para localizar a posio da moda em uma classe modal, mas a
mais simples definir a moda como o ponto mdio da classe modal.
Portanto, neste exemplo, a classe modal 50 | 55 (pois, apresenta a maior frequncia
= 50) e, vamos considerar a moda o ponto mdio desta classe, ou seja:
Mo = 52, 5kg
Mediana
Para o clculo da mediana utilizaremos uma frmula que, a princpio, pode parecer um
pouco complexa ou trabalhosa, mas veremos que as quantidades que precisamos para subs-
tituir na frmula so fceis de serem obtidas. Utilizaremos a seguinte frmula para o clculo
da mediana para dados agrupados em intervalos de classes:
hmd n
Md = linf + F
md fmd 2 aant
em que:
linf : : limite inferior do intervalo que contm a mediana;
md
captulo 2 61
n: nmero total de observaes da distribuio de frequncias;
Fa : : frequncia acumulada do intervalo anterior quele que contm a mediana.
ant
A primeira informao que precisamos saber qual intervalo contm a mediana. Este
intervalo est associado frequncia acumulada imediatamente superior n .
2
n 143
Pela Tabela 2.5, como= = 715
, , o intervalo que contm a mediana 50 | 55
2 2
(pois fa = 83).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : : 50
md
hmd : : 55 50 = 5
fmd : : 50
n: 143
Fa : : 33 pa do intervalo
ant
anterior quele
FREQUNCIA
PESO (KG) FREQUNCIA que contm a
ACUMULADA
Intervalo que 40 | 45 8 8 mediana
contm a 45 | 50 25 33
50 | 55 50 83
mediana Nmero de ob-
55 | 60 40 123
60 | 65 20 143 servaes do in-
Total 143 tervalo que con-
n tm a mediana
Tabela 2.7 Identificao dos valores que sero utilizados no clculo da mediana.
hmd n
Md = linf + F
md fmd 2 aant
5 143
Md = 50 + 33
50 2
Md = 50
0 + 3, 85 = 53, 85kg
62 captulo 2
As medidas resumo calculadas quando os dados estiverem agrupados em intervalos de
classes so apenas aproximaes dos verdadeiros valores, pois substitumos os valores
das observaes pelo ponto do mdio do intervalo de classe.
EXEMPLO
2.7: Os dados abaixo se referem aos salrios de 10 funcionrios que possuem o cargo de
enfermeiro chefe nas cidades e regio metropolitana de So Paulo e Belo Horizonte.
S.P 3 250 4 125 5 270 6 029 9 840 5 127 6 350 4 250 7 125 3 850
B.H. 5 250 5 025 5 270 5 550 5 870 5 625 5 120 5 840 5 720 5 946
i =1x i
n
3250 + 4125 + + 7125 + 3850
x SP = = = 552160
, reais
n 10
e
i =1x i
n
5250 + 5025 + + 5720 + 5946
x BH = = = 552160
, reais
n 10
Embora as mdias sejam iguais, observamos claramente que a variabilidade dos salrios
na cidade de So Paulo e regio metropolitana maior que em Belo Horizonte. Portanto, a
mdia descreve bem a situao em Belo Horizonte, mas no em So Paulo.
captulo 2 63
Agora que ficou claro o conceito de disperso ou variabilidade, vamos aprender a calcular
as medidas de disperso.
EXEMPLO
2.8: Considerando os dados do Exemplo 2.7, vamos encontrar o mnimo, o mximo e a ampli-
tude do conjunto de dados na cidade de So Paulo e regio metropolitana.
Resoluo
Tabela 2.8 Valores mnimo, mximo e amplitude dos salrios em So Paulo e regio me-
tropolitana.
64 captulo 2
2.2.2 Desvio mdio, varincia e desvio padro amostrais
xi x
n
dm = i =1
n
O desvio mdio uma mdia dos valores absolutos dos desvios em relao
mdia. Esta medida utiliza o mdulo que, por suas caractersticas matem-
ticas, torna difcil o estudo de suas propriedades. Ento, vamos definir uma
medida que utiliza o quadrado dos desvios em relao mdia.
A varincia amostral uma medida de disperso que pode ser interpretada
como uma mdia dos quadrados dos desvios, ou seja:
i =1( x i x ) = ( x1 x )2 + ( x2 x )2 + + ( xn x )2
n 2
s2 =
n 1 n 1
captulo 2 65
O denominador, n 1, so os graus de liberdade associados varincia. Uma explicao
detalhada da utilizao de n 1 no denominador encontrada em TRIOLA (2008, p. 83).
( i =1x i )2
n
n
x2
i =1 i
s2 = n
n 1
em que:
xi2 : soma de cada valor observado ao quadrado;
( xi ) : quadrado da soma de todos os valores observados;
2
i =1( x i x ) fi = ( x1 x ) f1 + ( x 2 x ) f2 + + ( x k x ) fk
k 2 2 2 2
s2 =
n 1 n 1
( i =1x i fi )2
n
i =1x i2 fi
n
s2 = n
n 1
s = s2
66 captulo 2
em que:
s: desvio padro;
s2: varincia.
captulo 2 67
Cerca de 95% das observaes do conjunto de dados ficam a 2 desvios pa-
dres da mdia, ou seja, ( x 2s ) e ( x + 2s ) .
Cerca de 99,7% das observaes do conjunto de dados ficam a 3 desvios
padres da mdia, ou seja, ( x 3s ) e ( x + 3s ) .
Figura 2.1: Regra prtica para interpretao do desvio-padro. Fonte: TRIOLA (2008, p. 81).
68 captulo 2
EXEMPLO
2.9: Os dados abaixo referem-se s notas finais de dois alunos, um deles est na turma da
manh e o outro na turma da noite, na disciplina Bioestatstica.
Resoluo
Analisando as notas dos alunos, conseguimos identificar que as notas do aluno da ma-
nh esto variando mais, enquanto que as notas do aluno da noite esto mais prximas umas
das outras. Os dois alunos apresentam o mesmo desempenho mdio na disciplina, pois:
i =1x i
n
9, 5 + 7, 5 + 3, 5 + + 1
x manh = = = 5, 375
n 8
e
i =1x i
n
5 + 5, 5 + 5 + + 5
x noite = = = 5, 375
n 8
Para exercitar as frmulas, vamos resolver este exerccio de duas maneiras: da maneira
como os dados esto apresentados no enunciado e depois organizando-os em uma distri-
buio de frequncias.
Primeira maneira aluno manh
O valor mnimo 1 e o mximo 9,5. Portanto, a amplitude 8,5 pontos, ou seja a dife-
rena entre a menor nota e a maior 8,5 pontos.
Para encontrarmos a varincia, vamos utilizar a frmula alternativa:
( i=1xi )2
n
i=1xi2
n
2 = N
N
captulo 2 69
Precisamos encontrar a soma de cada valor observado ao quadrado:
( 9, 5 + 7, 5 + 3, 5 + 6, 0 + 6, 5 + 2, 0 + 7, 0 + 10
, ) = ( 43) = 1849
2 2
( i =1x i )2
n
(43)2
n
x2 291
i =1 i N 8 291 231125
, 59, 875
2 = = = = = 7, 48 pontos2
N 8 8 8
O desvio padro :
= 7, 48 = 2, 74 pontos
e
(5, 0 + 5, 5 + 5, 0 + 6, 5 + 6, 0 + 4, 5 + 5, 5 + 5, 0 )2 = (43)2 = 1849
( i =1x i )2
n
1849
i =1x i2
n
234
2 = N = 8 = 234 231125
,
=
2, 875
= 0, 36 ponto2
N 8 8 8
O desvio padro :
= 0, 36 = 0, 60 ponto
70 captulo 2
Vamos colocar as informaes em um quadro para facilitar a interpretao dos resulta-
dos obtidos.
MEDIDAS DE
MNIMO MXIMO AMPLITUDE VARINCIA DESVIO PADRO
DISPERSO
Apesar de j estar claro analisando as notas dos dois alunos, confirmamos atravs das
medidas de disperso que as notas do aluno da manh apresentam maior variabilidade. Ape-
sar das mdias das notas dois alunos serem iguais, todas as medidas de disperso indicam
maior variabilidade nas notas do aluno da manh. Vale ressaltar que a varincia tem a unida-
de de medida elevada ao quadrado, portanto, utilizamos o desvio padro para interpretar o
resultado obtido.
Segunda maneira aluno noite
Agora, vamos calcular as medidas por meio dos dados apresentados em uma distribuio
de frequncias. Na distribuio de frequncias, acrescentamos duas colunas (xi fi e xi2 fi)
cujos somatrios so exigidos na frmula da varincia. Utilizaremos as notas do aluno da
noite para aprender a fazer os clculos por meio dos dados tabulados. Aps o aprendizado,
faa o mesmo procedimento com o aluno da manh e compare com os resultados obtidos
atravs da primeira maneira. Voc encontrar os mesmos resultados!
FREQUNCIA
NOTAS (xi) FREQUNCIA (fi) xi fi xi2 fi
RELATIVA (%)
4,5 1 12,50 4,5 20,25
5 3 37,50 15 75
5,5 2 25,00 11 60,5
6 1 12,50 6 36
6,5 1 12,50 6,5 42,25
Total 8 100,00 43 234
Tabela 2.10 Clculos das colunas auxiliares para encontrar a varincia aluno noite.
captulo 2 71
Utilizamos os somatrios das duas ltimas colunas da Tabela 2.6 para encontrar a vari-
ncia:
( i=1xi fi )2
n
(43)2
i=1xi2 fi
n
234
N 8 234 231125
, 2, 875
2 = = = = = 0, 36 ponto2
N 8 8 8
O desvio padro :
= 0, 36 = 0, 60 ponto
No Exemplo 2.9 utilizamos o desvio padro para comparar as notas dos dois
alunos, pois as mdias so iguais e as variveis em estudo so as mesmas (as
notas). Agora, quando queremos comparar as variabilidades de dois conjuntos
que apresentam mdias bem diferentes e cujas variveis em estudo so diferen-
tes tambm, utilizamos uma medida de variabilidade denominada coeficiente
de variao. Veremos, no prximo item, como calcular esta medida.
s
cv = 100
x
72 captulo 2
Alguns autores consideram a seguinte regra emprica para a interpretao
do coeficiente de variao:
EXEMPLO
2.10: A Tabela 2.7 apresenta as frequncias de nveis sricos de colesterol para homens, de
determinada cidade, entre 25 e 35 anos.
Tabela 2.11 Distribuio de frequncias de nveis sricos de colesterol para homens, entre
25 e 35 anos.
Vamos encontrar a varincia e o desvio padro para os dados apresentados na Tabela 2.7.
Resoluo
Acrescentando as trs colunas adicionais para os clculos, temos:
captulo 2 73
NVEL DE
FREQUNCIA
COLESTEROL FREQUNCIA xi xi fi xi2 fi
RELATIVA (%)
(MG/100 ML)
80 | 120 13 1,21 100 1.300 130.000
120 | 160 150 14,02 140 21.000 2.940.000
160 | 200 442 41,31 180 79.560 14.320.800
200 | 240 299 27,94 220 65.780 14.471.600
240 | 280 115 10,75 260 29.900 7.774.000
280 | 320 34 3,18 300 10.200 3.060.000
320 | 360 11 1,03 340 3.740 1.271.600
360 | 400 6 0,56 380 2.280 866.400
Total 1.070 100,00 213.760 44.834.400
Tabela 2.12 Clculos das colunas auxiliares para encontrar a varincia e o desvio padro.
( i =1x i fi )2
n
( 213.760 )2
n 2
x f
i =1 i i
44.834.400
s2 = n = 1.070
n 1 1.070 1
2
44.834.400 42.704.053,83 2.130.346,17 mg
= = = 1.992,84
1.069 1.069 100ml
O desvio padro :
mg
=s =
1.992,84 44,64
100ml
74 captulo 2
2.3 Medidas separatrizes ou de ordenamento
As medidas separatrizes ou de ordenamento so: quartis, decis e percentis.
Os quartis (Q1, Q2 e Q3), como o prprio nome sugere, divide a distribuio
dos dados ordenados em quatro partes, sendo, Q1 o quartil que separa os 25%
valores inferiores dos 75% superiores, Q2 o que divide o conjunto ao meio ( a
mediana) e Q3 o que separa os 75% valores inferiores dos 25% superiores.
Os decis, por sua vez, dividem a distribuio dos dados em 10 par-
tes ( Di , i = 1, 2,, 9 ) e os percentis dividem a distribuio em 100 partes
( Pi = 1,2,,99 ) .
No h um consenso universal sobre um procedimento nico para o clculo
das medidas separatrizes, e diferentes calculadoras e softwares estatsticos po-
dem produzem resultados ligeiramente diferentes.
2.3.1 Quartis
EXEMPLO
2.11 Abaixo esto listadas as medidas de entrada calrica diria, registradas em quilocalorias
por quilograma, para uma amostra de adolescentes que sofrem de bulimia:
captulo 2 75
15,9 18,9 25,1 16,0 19,6 25,2 16,5 21,5 25,6 17,0
21,6 28,0 17,6 22,9 28,7 18,1 23,6 29,2 18,4 24,1
Resoluo
Para encontrarmos os quartis, precisamos ordenar o conjunto de dados. Ento:
15,9 16,0 16,5 17,0 17,6 18,1 18,4 18,9 18,9 19,6
21,5 21,6 22,9 23,6 24,1 24,5 25,1 25,2 25,6 28,0
24 24
( )
Posio do primeiro quartil Q1 :
4
=
4
=6.
Como a diviso resultou em um valor inteiro, o primeiro quartil ser o resultado da mdia
aritmtica entre o valor que est na sexta posio e o valor que est stima posio.
18,1 + 18, 4
Q1 = = 18, 25
2
Ento, pelo menos 25% das observaes so menores ou iguais a 18,25 quilocalorias
por quilograma e, pelo menos, 75% das observaes so maiores ou iguais a 18,25 quiloca-
lorias por quilograma.
2 2 24
( )
Posio do segundo quartil Q2 :
4
=
4
= 12
Como a diviso resultou em um valor inteiro, o segundo quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima segunda posio e o valor que est na dcima
terceira posio.
21,6 + 22, 9
Q2 = = 22, 25
2
Temos que pelo menos 50% das observaes so menores ou iguais a 22,25 quiloca-
lorias por quilograma e pelo menos 50% das observaes so maiores ou iguais a 22,25
quilocalorias por quilograma.
3 n 3 24
( )
Posio do terceiro quartil Q3 =
4
=
4
= 18
76 captulo 2
Como a diviso resultou em um valor inteiro, o terceiro quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima oitava posio e o valor que est na dcima nona
posio.
25, 2 + 25,6
Q3 = = 25, 4
2
Neste conjunto de dados, pelo menos 25% das observaes so maiores ou iguais
a 25,4 quilocalorias por quilograma e pelo menos 75% das observaes so menores ou
iguais a 25,4 quilocalorias por quilograma.
Assim como a mdia, o desvio padro no uma medida de disperso resistente. Para
conjunto de dados com valores discrepantes, uma medida de disperso alternativa ao
desvio padro uma medida denominada amplitude interquartil, ou distncia interquar-
til, definida como a diferena entre o terceiro e o primeiro quartil, ou seja, Dq = Q3 Q1.
No Exemplo 2.11, temos que a distncia interquartil Dq = Q3 Q1 =25,4 18,25=7,15.
Note que a amplitude interquartil contm, aproximadamente, 50% das observaes
centrais.
Para o clculo dos decis e dos percentis seguiremos o mesmo procedimento que foi
adotado para o clculo dos quartis. O decil Dk ser a observao que ocupar a po-
sio Pk; e o percentil ( k n ) , k = 1, 2, 9 ser a observao que ocupar a posio
(k n) . 10
, k = 1, 2, 99
10
EXEMPLO
2.12: Uma pesquisa feita com 40 brasileiros com 16 anos e mais, durante 15 dias, teve como
objetivo saber quantas horas por dia eles usavam a internet, de segunda a sexta-feira. Os
dados obtidos foram:
captulo 2 77
2,4 2,7 2,9 3,1 3,3 3,5 3,5 3,8 3,9 4,0
4,0 4,1 4,2 4,3 4,4 4,4 4,6 4,8 4,9 5,0
5,0 5,0 5,2 5,3 5,4 5,5 5,7 5,9 6,0 6,1
6,2 6,3 6,5 6,6 6,7 6,8 6,8 7,0 7,1 7,1
Resoluo
(6x40 )
O decil D6 ser a observao que ocupar a posio = 24 no conjunto de dados
10
ordenados.
Como a diviso resultou em um valor inteiro, o sexto decil ser o resultado da mdia
aritmtica entre o valor que est na vigsima quarta posio e o valor que est na vigsima
quinta posio.
5, 3 + 5, 4
D6 = = 5, 35
2
Temos que pelo menos 60% das observaes so menores ou iguais a 5,35 horas.
( 87 40 )
O percentil P87 ser a observao que ocupar a posio = 34, 8 no conjunto
100
de dados ordenados.
Como a diviso resultou em um valor fracionrio, vamos arredondar para 35. Portanto, o
percentil P87 o valor que est na trigsima quinta posio.
P87 = 6, 7
Neste conjunto de dados, pelo menos 13% das observaes so maiores ou iguais a
6,7 horas.
As medidas de ordenamento tambm podem ser calculadas para dados agrupados em
intervalos de classes. Os clculos so parecidos com aquele que utilizamos para calcular a
mediana. Vamos estud-los no prximo item.
78 captulo 2
hk k n
Pk = linf + Faant
k fk 100
em que:
n: nmero total de observaes da distribuio de frequncias;
k: 1, 2 , ..., 99;
linf : limite inferior da classe encontrada;
k
Podemos utilizar esta frmula geral, pois Q1 = P25 ,Q2 = P50 e Q3 = P75 e
D1 = P10 ,D2 = P20 ,..., D9 = P90 .
EXEMPLO
2.13: Vamos utilizar os dados do Exemplo 2.6 para encontrar o Q1, D3 e P85
captulo 2 79
linf : 50
k
hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 25 (o primeiro quartil o vigsimo quinto percentil)
hk k n
Pk = linf + Faant
k fk 100
5 25 143
P25 = 50 + 33
50 100
5
P25 = 50 + ( 35, 75 33)
50
5
P25 = 50 + ( 2, 75) = 50, 275
50
Ento, pelo menos 25% das observaes so menores ou iguais a 50,275 kg.
hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 30 (o primeiro quartil o vigsimo quinto percentil)
hk k n
Pk = linf + Faant
k fk 100
5 30 143
P30 = 50 + 33
50 100
5
P30 = 50 + ( 9, 9 ) = 50, 99
50
80 captulo 2
Octogsimo quinto percentil (P85)
k n 85 143
Como = = 12155
, , temos que o intervalo que contm o octogsimo quinto
100 100
percentil de 55 | 60 (pois fa = 123). Ento:
linf : 55
k
hk: 60 55 = 5
fk: 40
n: 143
Faant : 83
k: 85
hk k n
Pk = linf + Faant
k fk 100
5 85 143
P85 = 55 + 83
40 100
5
P85 = 55 + ( 38, 55) = 59, 82
40
Por meio do P85, observamos que pelo menos 15% das observaes so maiores ou
iguais a 59,82 kg.
captulo 2 81
Figura 2.2 Boxplot.Fonte: BUSSAB e MORETTIN (2002, p. 48).
82 captulo 2
EXEMPLO
2.14: Vamos utilizar os dados do Exemplo 2.9 para construir os boxplots associados a cada
um dos alunos.
2.15: Em um estudo que investiga as causas de morte entre pessoas com asma severa, os
dados foram registrados para dez pacientes que chegaram ao hospital em estado de parada
respiratria e inconscientes. A Tabela 2.9 lista os batimentos cardacos para os dez pacientes
na internao do hospital. Vamos construir o boxplot para este conjunto de dados.
captulo 2 83
PACIENTE BATIMENTO CARDACO
1 167
2 150
3 125
4 120
5 150
6 150
7 40
8 136
9 120
10 150
Tabela 2.13 Batimentos cardacos para dez pacientes asmticos em estado de parada
respiratria. Fonte: PAGANO; GAUVREAU (2004, p. 49).
Para a construo do boxplot, vamos seguir a descrio que est logo aps a Figura 2.2.
Precisaremos dos quartis, ento vamos ordenar os dados:
Q1 = 120
136 + 150
Q2 = = 143
2
Q3 = 150
dq = Q3 Q1
dq = 150 120 = 30
Agora, temos as informaes necessrias para encontrar o limite superior (LS) e limite
inferior (LI):
84 captulo 2
L S = Q3 + (15
, ) dq
LS = 150 + (15
, ) 30 = 195
e
LI = Q1 (15
, ) dq
LI = 120 (1, 5) 30 = 75
=
O retngulo construdo utilizando os quartis, ou seja, =
Q1 120, Q2 143 e Q3 = 150, .
A partir do retngulo, para cima, segue uma linha at o ponto mais remoto que no exceda
L S = Q3 + (15
, ) dq , ou seja, que no exceda 195. O valor mais remoto que no excede
195 167.
A partir do retngulo, para baixo, segue uma linha at o ponto mais remoto que no seja
menor do que L S = Q1 (15
, ) dq ou seja, que no seja menor que 75. O valor mais remoto
que no menor que 75 120.
As observaes que estiverem acima do limite superior ou abaixo do limite inferior estabe-
lecidos so chamados pontos exteriores e representados por asteriscos. Essas so obser-
vaes destoantes das demais e podem ou no ser o que chamamos de outliers ou valores
atpicos. Neste conjunto de dados temos uma observao destoante das demais, que a
resposta 40, representada no boxplot pelo asterisco.
captulo 2 85
2.4 Medidas de assimetria e curtose
Uma distribuio de frequncia ser simtrica se a metade esquerda de seu his-
tograma praticamente uma imagem espelhada de sua metade direita. Uma
distribuio de frequncia ser assimtrica se a cauda do grfico se prolongar
mais de um lado do que do outro. Uma distribuio ser assimtrica esquer-
da (negativamente assimtrica) se a sua cauda se prolongar para a esquerda.
Uma distribuio ser assimtrica direita (positivamente assimtrica) se a sua
cauda se prolongar para a direita.
em que:
Q1: primeiro quartil
Q2: segundo quartil
Q3: terceiro quartil
Se:
1. AS = 0: distribuio simtrica (a mdia, a moda e a mediana so iguais)
86 captulo 2
2. AS > 0: distribuio assimtrica positiva ou assimtrica direita (em ge-
ral, a mdia maior que a mediana, que maior que a moda).
3. AS < 0: distribuio assimtrica negativa ou assimtrica esquerda (em
geral, a mdia menor que a mediana, que menor que a moda).
Platicrtica
Mesocrtica
Leptocrtica
em que:
Q1: primeiro quartil
Q3: terceiro quartil
P10: dcimo percentil
P90: nonagsimo percentil
EXEMPLO
2.16 Os dados abaixo representam as vendas ( 1 000 reais) de uma amostra de vendedo-
res de produtos hospitalares de uma determinada empresa.
captulo 2 87
Figura 2.6 Histograma para a varivel vendas mensais de uma amostra de vendedores de
produtos hospitalares de uma empresa.
Resoluo
Pela anlise do histograma visualizamos uma distribuio aproximadamente simtrica,
pois a metade esquerda do histograma se comporta de maneira praticamente igual a meta-
de direita. Para calcular os coeficientes de assimetria e curtose, precisamos obter algumas
medidas separatrizes. Vamos colocar as informaes contidas no histograma em um quadro,
para facilitar os clculos, e aproveitamos para exercitar o clculo das medidas separatrizes
para dados agrupados em classes.
VENDAS MENSAIS NMERO DE FREQUNCIA
( 1 000) VENDEDORES ACUMULADA
0 | 300 5 5
300 | 600 24 29
600 | 900 48 77
900 | 200 22 99
1 200 | 1 500 4 103
Total 103
Tabela 2.14 Vendas mensais de vendedores do gnero alimentcio.
88 captulo 2
Primeiro Quartil
A primeira informao que precisamos saber qual intervalo contm o primeiro quar-
til. Este intervalo est associado frequncia acumulada imediatamente superior
k n 25 103
= = 25, 75 . O valor de k igual a 25, pois Q1 = P26, ou seja, estamos calculan-
100 100
do o vigsimo quinto percentil. Pelo Quadro 2.5, temos que o intervalo que contm o primeiro
quartil de 300 | 600 (pois fa = 29).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 300
k
hk k n
Pk = linf + Faant
k fk 100
300 25 103
P25 = 300 + 5
24 100
300
P25 = 300 + ( 25, 75 6 )
24
300
P25 = 300 + (19, 75) = 546, 875
24
Segundo Quartil
k n 50 103
Como = = 515
, , temos que o intervalo que contm o segundo quartil de
100 100
600 | 900 (pois fa = 77). Ento:
linf : 600
k
captulo 2 89
hk k n
Pk = linf + Faant
k fk 100
300 50 103
P50 = 600 + 29
48 100
300
P50 = 600 + ( 22, 5) = 740, 625
48
Terceiro Quartil
Seguindo o mesmo procedimento utilizado para encontrar o intervalo que contm o pri-
meiro quartil, temos que o intervalo que contm o terceiro quartil est associado frequncia
k n 75 103
acumulada imediatamente superior = = 77, 25 . O valor de k igual a 75, pois
100 100
Q3 = P75. Pelo Quadro 2.5, temos que o intervalo que contm o terceiro quartil de 900 |
1 200 (pois fa = 99).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 900
k
hk k n
Pk = linf + Faant
k fk 100
300 75 103
P75 = 900 + 77
22 100
300
P75 = 900 + ( 77, 25 77)
22
300
P75 = 900 + ( 0, 25) = 900 + 3,4
409 = 903, 409
22
90 captulo 2
Faant : 5
k: 10
hk k n
Pk = linf + Faant
k fk 100
300 10 103
P10 = 300 + 5
24 100
300
P10 = 300 + ( 5, 3) = 366, 25
24
hk k n
Pk = linf + Faant
k fk 100
300 90 103
P90 = 900 + 77
22 100
300
P90 = 900 + (15, 7) = 1114, 09
22
Q1 + Q3 2 Q2
AS =
Q3 Q1
546, 875 + 903, 409 2 ( 740, 625)
AS =
903, 409 546, 875
30, 966
AS = = 0, 0869
356, 534
captulo 2 91
Apesar do AS > 0, o valor encontrado est bem prximo do zero, ento, podemos consi-
derar a distribuio aproximadamente simtrica, comprovando o que havamos interpretado
por meio do histograma.
Calculando o coeficiente de curtose:
Q3 Q1
k=
2 (P90 P10 )
903, 409 546, 875
k=
2 (1114, 09 366, 25)
356, 534 290, 42
k= = = 0,194
2 ( 747, 84 ) 1495, 68
A maioria das medidas apresentadas neste captulo podem ser obtidas utili-
zando o Excel. Para isto, o suplemento Ferramenta de Anlise deve estar ativo.
Caso ele esteja ativo, deve aparecer o cone Anlise de Dados aps clicar na aba
Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea,
devemos seguir o seguinte procedimento:
92 captulo 2
Vamos utilizar os dados do Exemplo 2.7 para exemplificar como os clculos
so obtidos utilizando o Excel. Utilizaremos a verso Excel 2010.
1o passo: Digitar em uma planilha as respostas da(s) varivel(eis).
captulo 2 93
3 passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo
Intervalo de entrada, selecionar os dados arrastando com o mouse desde A1 at B11.
Marcar Rtulos na primeira linha (desde que os nomes das colunas tenham sido se-
lecionados). Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada dos
dados, basta identific-la no rodap) e, por fim, escolher Resumo Estatstico e Ok.
Figura 2.10 Resumo estatstico dos salrios de enfermeiros padro nas cidades de So
Paulo e Belo Horizonte.
94 captulo 2
Devemos observar que a palavra Amplitude substituda por Intervalo e
que Moda escrita como Modo. Quando um conjunto de dados no apresenta
moda, o resultado que aparece #N/D. Vale ressaltar que o resumo estatstico
do Excel no apresenta todas as respostas para a moda, caso o conjunto seja
bimodal ou multimodal. No Exemplo 2.7 no calculamos as medidas de posi-
o, a varincia, o desvio padro e os coeficientes de assimetria e curtose. Mas,
sabemos como calcul-las. Encontre as medidas e compare com os resultados
apresentados na Figura 2.9. Lembre-se, que h vrias maneiras de se calcular
as medidas separatrizes, ento, os valores encontrados podem divergir daque-
les encontrados pelo Excel!
REFLEXO
Neste captulo aprendemos diversas medidas que so utilizadas para gerar informaes es-
tatsticas de conjuntos de dados quantitativos. Alm de saber calcul-las, o mais importante
conseguir interpretar os resultados obtidos e identificar em quais situaes uma medida
pode ser mais representativa que outra. E, no podemos esquecer que o clculo de uma
medida resumo isoladamente pode no ser til na comparao de dois ou mais conjuntos de
dados, pois eles podem ter, por exemplo, mesma mdia, mas variabilidades completamente
diferentes. Em situaes como esta, uma anlise mais completa necessita do clculo do
desvio padro e do coeficiente de variao.
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1315 voc ter a oportunidade de ouvir
dois mdulos que exploram um problema envolvendo mdias ponderadas e que ressalta o
cuidado que devemos ter quando utilizamos a mdia como nica informao.
REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.
captulo 2 95
PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira
Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
OLIVEIRA, Samuel R.; TEIXEIRA, Thiago; SANTOS, Joa P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1315 >. Acesso em: 20 jun. 2015.
96 captulo 2
3
Distribuio de
Probabilidade
Normal
Nos captulos anteriores, tivemos como objetivo mostrar como organizamos e
resumimos um conjunto de dados. Estudamos como construir distribuies
de frequncias e grficos e como calcular e interpretar medidas de tendncia
central e variabilidade. Neste captulo, estudaremos a distribuio mais im-
portante na Estatstica, que a distribuio normal. Esta distribuio ocorre
frequentemente em situaes reais e desempenham papel importante nos
mtodos de inferncia estatstica, pois, muitos deles, exigem que os dados
amostrais sejam provenientes de uma populao que tenha distribuio que
no se afaste drasticamente de uma distribuio normal.
OBJETIVOS
Esperamos que, atravs dos conhecimentos aprendidos neste captulo, voc seja capaz de:
98 captulo 3
3.1 Varivel aleatria
Antes de comearmos a estudar a distribuio normal, precisamos esclarecer o
conceito de varivel aleatria.
Uma varivel aleatria X representa um valor numrico associado a cada um dos resul-
tados de um experimento aleatrio.
captulo 3 99
3. A rea total sob a curva normal igual a 1.
4. A curva normal aproxima-se mais do eixo x medida que se afasta da mdia em
ambos os lados, mas nunca toca o eixo.
100 captulo 3
A Figura 3.1 nos mostra que temos uma famlia de distribuies normais,
diferenciadas por suas mdias e desvios padres.
em que < x < . Valores especficos para e geram diferentes curvas, como as
apresentadas na Figura 3.1. A maneira de fazer o grfico a mesma que utilizamos
para qualquer funo que relaciona x e y ou x e f (x).
Como a rea total sob a curva de densidade igual a 1, existe uma corres-
pondncia entre rea e probabilidade (TRIOLA, 2008, p. 196).
Quando utilizamos a funo densidade de probabilidade da distribuio
normal para fazer clculos, percebemos que valores mais fceis para e so
= 0 e = 1. Considerando estes valores para os parmetros, matemticos
calcularam diferentes reas sob a curva, que so apresentadas em uma tabela.
Como existe uma correspondncia entre rea e probabilidade, utilizamos a ta-
bela para encontrar probabilidades.
A distribuio normal cuja mdia zero e varincia 1 chamada distribuio
normal reduzida ou distribuio normal padronizada e indicada pela letra Z.
De acordo com VIEIRA (2008, p. 213).
captulo 3 101
A Figura 3.2 apresenta a curva de uma distribuio normal reduzida.
X
Z=
102 captulo 3
A caracterstica de simetria da distribuio normal implica em: P (Z 0) = 0,5 = P (Z 0).
EXEMPLO
3.1: Seja X ~N (50,25). Calcular:
f) P (50 x 56)
g) P (39 x 57)
h) P (62 x 64)
i) P (X 58)
Resoluo
Primeiro, precisamos saber interpretar X ~N (50,25). Lemos da seguinte maneira: a
varivel aleatria X tem distribuio normal com mdia 50 e varincia 25. Como, precisamos
do desvio padro para utilizar na transformao, = 2 = 25 = 5 .
a) P (50 x 56)
Agora, hachuramos a rea do intervalo que queremos encontrar (50 x 56) na curva
normal.
50 50
Z1 = =0
5
56 50 6
Z2 = = = 12
,
5 5
captulo 3 103
Apresentaremos, a seguir, uma parte da tabela que est no final do livro.
Vamos aprender a encontrar a rea (probabilidade) por meio da tabela. Na primeira co-
luna da esquerda (z) identificamos o nmero que obtemos na transformao com uma casa
decimal e, a segunda casa decimal do nmero, est nas colunas (0 a 9). O nmero 1,2 igual
a 1,20, ou seja, a segunda casa decimal 0. Vamos linha 1,2 e na coluna 0. O nmero
encontrado 0,3849. Ento:
P ( 50 X 56 ) = P ( 0 Z 12
, ) = 0, 3849
104 captulo 3
b) P (39 x 57)
39 50
Z1 = = 2, 2
5
57 50
Z2 = = 14
,
5
Ento:
P ( 39 X 57) = P ( 2, 2 Z 0 ) + P ( 0 Z 14
, ) = 0, 4861+ 0, 4192
= 0, 9053
captulo 3 105
c) P (62 x 64)
Transformando:
62 50
Z1 = = 2, 4
5
64 50
Z2 = = 2, 8
5
O objetivo deste item alertar para o fato que a tabela fornece a rea do zero ao valor
tabelado. A rea hachurada neste item no corresponde rea fornecida diretamente na
tabela. Ento, como encontramos a rea procurada? Se encontrarmos a rea 0 Z 2,8
e a rea 0 Z 2,4 (que so obtidas na tabela) e subtrairmos as duas reas, encontramos
justamente a rea hachurada!
106 captulo 3
Portanto:
P ( 62 X 64 ) = P ( 2, 4 Z 2, 8 ) = P ( 0 Z 2, 8 ) P ( 0 Z 2, 4 )
P ( 62 X 66 ) = 0,4
4974 0, 4918 = 0, 0056
d) P (X 58)
Transformando:
58 50
Z= = 16
,
5
captulo 3 107
Neste item, tambm temos que encontrar uma rea que no fornecida diretamen-
te pela tabela. Como a rea total sob a curva 1 e a distribuio simtrica, temos que
P (Z 0) = P (Z 0). Ento:
P ( X 58 ) = P ( Z 16
, ) = P ( Z 0 ) P ( 0 Z 16
, ) = 0, 5 0, 4452 = 0, 0548
3.2: A taxa de glicose no sangue humano uma varivel aleatria com distribuio normal de
mdia = 100 mg por 100 ml de sangue e desvio padro = 6 mg por 100 ml de sangue.
Calcule a probabilidade de um indivduo apresentar taxa:
a) Superior a 110 mg por 100 ml de sangue;
b) Entre 90 e 100 mg por 100 ml de sangue.
Fonte: VIEIRA (2008, p. 225).
Resoluo
X: taxa de glicose no sangue humano
X ~ N (100, (62))
108 captulo 3
a) P (X > 100)
X 110 100 10
Z= = = = 167
,
6 6
P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525
captulo 3 109
Observao: Se quisermos apresentar o resultado obtido em forma de porcentagem,
basta multiplicarmos o resultado obtido por 100, ou seja:
b) P (90 x 100)
Transformando:
X 90 100 10
Z= = = = 167
,
6 6
P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525
3.3: Uma fbrica de chocolate comercializa barras que pesam em mdia 200g. Os pesos so
normalmente distribudos. Sabe-se que o desvio-padro igual a 40g. Calcule a probabilida-
de de uma barra de chocolate escolhida ao acaso:
110 captulo 3
a) pesar entre 200 e 250 g.
b) pesar entre 170 e 200 g.
c) pesar mais que 230 g.
d) pesar menos que 150 g.
Resoluo:
X: peso das barras de chocolate
X ~ N (200,(402)
a) P (200 x 250)
X1 200 200
Z1 = = =0
40
X 250 200 50
Z2 = 2 = = = 125
,
40 40
captulo 3 111
b) P (170 x 200)
Transformando:
X1 170 200 30
Z1 = = = = 0, 75
40 40
X 200 200 0
Z2 = 2 = = =0
40 40
c) P (X 200)
112 captulo 3
X1 230 200 30
Z1 = = = = 0, 75
40 40
d) P (X 150)
Transformando:
X1 150 200 50
Z1 = = = = 125
,
40 40
P ( X 150 ) = P ( Z 125
, ) = 0, 5 P ( 125
, Z 0 ) = 0, 5 0, 3944 = 0,1056
captulo 3 113
3.4: Uma clnica de emagrecimento recebe pacientes adultos com peso seguindo uma distribuio
Normal com mdia 130 kg e desvio padro 20 kg. Para efeito de determinar o tratamento mais ade-
quado, os 25% pacientes de menor peso so classificado de magros, enquanto os 25% de maior
peso de obesos. Determine os valores que delimitam cada uma dessas classificaes.
Fonte: MAGALHES;LIMA (2004, p. 203).
Resoluo
Este exerccio, diferentemente dos anteriores, fornece a rea (probabilidade) e precisa-
mos encontrar os valores crticos.
Do enunciado:
X: peso de paciente adultos
X ~ N (130,(202))
Construmos a curva normal desta maneira, pois o enunciado informa: os 25% pacientes
de menor peso so classificado de magros, enquanto os 25% de maior peso, de obesos.
Encontrar os valores que delimitam cada uma destas classificaes significa ter que
encontrar X1 e X2.
De acordo com a distribuio normal reduzida:
114 captulo 3
Para encontrarmos estes valores, precisamos encontrar a rea = 0,25 dentro da tabela e
verificar qual o valor crtico associado a esta rea.
X1
Z1 =
X 130
0, 678 = 1
20
X1 130 = 13, 56
X1 = 13, 56 + 130
X1 = 116,4
44 kg
em que: zc = Z1
X 2
Z2 =
X 130
0, 678 = 2
20
X 2 130 = 13, 56
X 2 = 13, 56 + 130
X 2 = 143, 56 kg
em que: zc = Z2
captulo 3 115
3.5: Nos dias atuais, dor crnica nas costas tornou-se frequente em crianas que carregam
mochilas muito cheias e pesadas. As crianas tm o hbito de carregar livros escolares, no-
tebooks, estojos, calculadoras, entre outros, tudo amontoado dentro da mochila, fazendo com
que a chance de ocorrer algum espasmo muscular nos ombros e no pescoo e dor na coluna
aumente. Uma pesquisa mostrou que o peso total carregado diretamente proporcional ao
volume da mochila. O volume de uma mochila vendida comercialmente segue uma distribui-
o normal com mdia 10 litros e desvio padro 1,8 litros. Encontre um intervalo simtrico
em torno da mdia, tal que 80% de todos os volumes de mochilas fiquem neste intervalo.
Resoluo
Do enunciado:
X: volume das mochilas
X ~N (10,(1,82))
Encontrar um intervalo simtrico em torno da mdia tal que 80% de todos os volumes
fiquem neste intervalo, significa encontrar X1 e X tal que:
116 captulo 3
Para encontrarmos estes valores, precisamos encontrar a rea = 0,40 dentro da tabela
e verificar qual o valor crtico associado a esta rea.
X1
Z1 =
X 10
1285
, = 1
18
,
X1 10 = 2, 313
X1 = 2, 313 + 10
X1 = 7, 687 litros
em que: zc = Z1
X 2
Z2 =
X 10
1285
, = 2
18
,
X 2 10 = 2, 313
X 2 = 2, 313 + 10
X 2 = 12, 313 litros
captulo 3 117
em que: zc = Z2
Portanto, 80% das mochilas tm volume entre 7,687 e 12,313 litros.
118 captulo 3
d) P (200 x 250)
captulo 3 119
Figura 3.6 Valor da probabilidade P (X 250).
P ( X 250 ) = 0, 89435
120 captulo 3
P ( 200 X 250 ) = 0, 89435 0, 5 = 0, 39435
e) P (170 x 200)
J sabemos que P (x 200) = 0,5 ento, vamos calcular por meio do Excel
P (x 170).
captulo 3 121
Agora, vamos clicar em OK para encontrar o valor de P (x 170).
Ento:
f) P (x 230)
122 captulo 3
Figura 3.9 Preenchimento dos argumentos da funo.
captulo 3 123
Ento:
Obs.: O valor da probabilidade igual a 1 aparece, pois a rea total sob a curva
normal 1.
g) P (x 150)
Esta probabilidade fornecida diretamente pelo argumento Cumulativo.
Portanto:
P ( X 150 ) = 0,10565
REFLEXO
Durante todo este captulo nos dedicamos a estudar a distribuio normal. Aprendemos que,
para encontrar a probabilidade de uma varivel aleatria que segue o modelo normal assumir
determinados valores, precisamos utilizar a distribuio normal padro (para encontrar proba-
bilidades diretamente da tabela). Alm de encontrar probabilidades, no podemos esquecer
124 captulo 3
quais as caractersticas da curva normal, pois esta distribuio exigida em muitas tcnicas
da inferncia estatstica e, com isso, precisaremos saber identificar se os dados amostrais
so provenientes de uma populao normal.
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1332 voc encontrar comentrios em
dois udios, primeiro mdulo e segundo mdulo, sobre a curva gaussiana (curva em forma de
sino) e uma discusso envolvendo conceitos de mdia e mediana.
REFERNCIAS BIBLIOGRFICAS
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
Disponvel em: < http://www.cultura.ufpa.br/dicas/biome/bionor.htm >. Acesso em: 01 jun. 2015.
NOIMAN, Caroline; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em:
< http://m3.ime.unicamp.br/recursos/1332 >. Acesso em: 01 jun. 2015.
captulo 3 125
126 captulo 3
4
Teste de
Hipteses
Estudamos, no Captulo 1, que a Estatstica pode ser dividida em duas grandes
reas: a estatstica descritiva e a inferncia estatstica. Na inferncia estats-
tica (ou inferncia indutiva), utilizamos dados amostrais para fazer estimati-
vas, testar hipteses e fazer previses sobre caractersticas de uma populao.
Muitos pesquisadores sociais e da rea da sade trabalham com amostras,
com o objetivo de generalizar os resultados obtidos para as populaes de
onde estas amostras foram retiradas. Por exemplo, pesquisadores da rea
mdica utilizam testes de hipteses para a tomada de decises sobre novos
medicamentos.
Ao longo deste captulo, concentraremos nossos estudos em uma das tcni-
cas da inferncia estatstica mais utilizada, que o teste de hipteses.
OBJETIVOS
Com a tcnica estudada neste captulo, esperamos que voc seja capaz de:
128 captulo 4
4.1 Fundamentos do teste de hipteses
Um teste de hipteses um procedimento padro para se testar uma afirmativa
sobre uma propriedade da populao (TRIOLA, 2008, p. 306).
Por exemplo, com base em estudos anteriores, sabe-se que o efeito imuno-
lgico de determinada vacina se prolonga por mais de um ano em apenas 20%
das pessoas que a tomam. Uma nova vacina foi desenvolvida para a mesma
finalidade. necessrio testar se a nova vacina melhor que a atual, ou seja, se
a proporo de pessoas imunizadas aps um ano maior que 20%. Como a efi-
ccia da vacina varia de pessoa para pessoa, precisamos utilizar algum mtodo
estatstico para chegarmos a uma concluso sobre a eficcia desta nova vacina.
Por meio de um teste de hipteses, tomamos decises em presena da variabi-
lidade, ou seja, verificamos se estamos diante de uma diferena real ou de uma
diferena devida simplesmente flutuao aleatria ao processo.
A afirmativa sobre a propriedade da populao (normalmente um parme-
tro populacional) chamada de hiptese estatstica. Para testarmos uma hi-
ptese estatstica, devemos estabelecer um par de hipteses, tal que uma delas
representa uma afirmativa e a outra, o seu complemento. A hiptese que con-
tm a afirmativa de igualdade a hiptese nula (representada por H0) e o com-
plemento da hiptese nula a hiptese alternativa (representada por H1 ou H0).
Representamos a hiptese alternativa usando um destes smbolos: < .> ou .
Por exemplo, se uma afirmativa para a mdia populacional que ela assume
o valor k, alguns pares possveis de hiptese nula e alternativa so:
H 0 :
=k H 0 :
=k H : =k
0
H
1 > k
:
H
1 <k
:
H
1 k
:
captulo 4 129
EXEMPLO
4.1: Identifique as hipteses que esto sendo testadas em cada caso.
a) Um fabricante afirma que sua vacina previne 85% dos casos de certa doena. Um gru-
po de mdicos desconfia que a vacina no seja to eficiente assim.
b) Um fabricante de bateria para automveis alega que a vida mdia de um determinado
modelo de 40 meses. Um proprietrio de automvel deseja testar essa afirmao.
c) Uma empresa instalou um equipamento antipoluio sonora com o objetivo de manter
o rudo mdio abaixo de 65 decibis. O sindicato decide testar se o equipamento est ou
no cumprindo sua funo.
Resoluo
a) H0 : p = 0, 85
H1 : p < 0, 85
Indicamos a proporo populacional por p. O fabricante faz uma afirmao sobre o pa-
rmetro populacional, ou seja, que a proporo de casos prevenidos pela vacina de 85%.
Como o grupo de mdicos desconfia que a vacina no to eficiente assim (ou seja, que a
proporo menor que 85%), definimos a hiptese alternativa como p > 0,85.
b) H0 : = 40
H1 : 40
A mdia populacional representada por . Neste item, o proprietrio deseja testar a
afirmao do fabricante (que a vida mdia da bateria de 40 meses), portanto, utilizamos o
smbolo na hiptese alternativa.
c) H0 : = 65
H1 : < 65
A empresa afirma que o equipamento instalado mantm o rudo mdio abaixo de 65
decibis. O sindicato deseja testar se o rudo mdio est abaixo de 65 decibis aps a insta-
lao do equipamento, portanto, utilizamos na hiptese alternativa o smbolo <.
Podemos realizar testes de hipteses para a mdia, desvio padro e proporo popula-
cionais, mas, neste captulo, focaremos nosso estudo em teste de hipteses para a mdia.
Podemos realizar testes de hipteses para a mdia, desvio padro e proporo popula-
cionais, mas, neste captulo, focaremos nosso estudo em teste de hipteses para a mdia.
130 captulo 4
4.2 Teste de hipteses para a mdia
populacional
SITUAO
H0 verdadeira H0 falsa
Deciso
Rejeitar H0 Erro do tipo I Deciso correta
captulo 4 131
medida que diminumos o erro do tipo I, a probabilidade de erro do tipo II
tende a aumentar. Ento, ao definir as hipteses, o erro mais importante a ser
evitado o erro do tipo I. A probabilidade mxima permitida de ocorrer um erro
do tipo I denominada nvel de significncia. As escolhas comuns para so
0,05; 0,01 e 0,10.
Aps a identificao das hipteses nula e alternativa e da especificao do
nvel de significncia, utilizamos dados de uma amostra aleatria para calcular
o valor da estatstica de teste.
Segundo TRIOLA (2008, p. 310)
A estatstica de teste um valor usado para se tomar a deciso sobre a hiptese nula
e encontrada pela converso da estatstica amostral (como a proporo amostral
p ou a mdia amostral x ou o desvio padro s) em um escore (como z, t e x2) com a
suposio de que a hiptese nula seja verdadeira.
132 captulo 4
ESTATSTICA DE TESTE CONDIES
- A amostra uma amostra aleatria simples.
x
z= - O valor do desvio padro populacional conhecido.
Pelo menos uma das condies seguintes verdadeira: a populao
n normalmente distribuda ou n > 30.
x
t= - A amostra uma amostra aleatria simples.
s
- O valor do desvio padro populacional no conhecido.
n Pelo menos uma das condies seguintes verdadeira: a populao
O nmero de graus de normalmente distribuda ou n > 30.'
liberdade (g.l.) n 1
Nota: Critrios para decidir se a populao ou no normalmente distribuda: A populao no
precisa ser exatamente normal, mas deve parecer simtrica de alguma forma e sem outliers. O teste
t robusto contra um afastamento da normalidade, ou seja, o teste funciona razoavelmente bem se o
afastamento no for extremo.
captulo 4 133
O que significa o valor crtico depender da natureza da hiptese nula?
Um teste de hipteses pode ser bicaudal (ou bilateral), unilateral esquerda
(monocaudal esquerdo) ou unilateral direita (monocaudal direito). A identifi-
cao de cada um destes tipos feita por meio da hiptese alternativa.
Temos que:
Figura 4.2 Testes bilateral, unilateral esquerda e unilateral direita.Fonte: TRIOLA (2008,
p. 313).
134 captulo 4
Quando estamos realizando testes bilaterais, devemos dividir igualmente o nvel de sig-
nificncia entre as duas caudas que constituem a regio crtica. Por exemplo, em um
teste bilateral com nvel de significncia = 0,05, h uma rea de 0,025 em cada uma
das caudas. Para testes que so unilaterais esquerda ou direita, a rea da regio
crtica na cauda respectiva .
MTODOS
Tradicional Valor P
Rejeitar H0 se a estatstica de teste ficar dentro
Rejeitar H0 se o valor P .
da regio crtica.
Deixar de rejeitar H0 se a estatstica de teste no
Deixar de rejeitar H0 se o valor P > .
ficar dentro da regio crtica.
Agora que j sabemos quais as etapas que devemos seguir para a realizao
de um teste de hipteses, vamos apresentar, a seguir, um sumrio.
captulo 4 135
EXEMPLO
4.2: Um laboratrio farmacutico lanou no mercado um novo medicamento contra dor de
cabea, retirando de circulao o antigo, com a justificativa que este novo medicamento tem
ao mais rpida. O antigo medicamento tinha um tempo mdio de 30 minutos para o incio
do efeito. Em uma amostra aleatria de 35 pessoas que tomaram o novo medicamento, ob-
teve-se um tempo mdio de 27 minutos, com desvio padro de 4 minutos. Testar a eficcia
do novo medicamento, ao nvel de 5%.
Resoluo
Neste estudo, temos uma amostra aleatria de 35 pessoas. No conhecemos o desvio
padro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios
para a realizao do teste de hipteses para a mdia populacional com desconhecido
esto satisfeitos.
Agora, seguiremos os passos necessrios para a realizao do teste:
1. Hipteses:
2. O nvel de significncia = 50
3. A estatstica de teste :
x 27 30 3
t= = = = 4, 4371
s 4 0, 676123
n 35
136 captulo 4
P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
35 0.682 1.306 1.690 2.030 2.133 2.438 2.724 2.996 3.591
36 0.681 1.306 1.688 2.028 2.131 2.434 2.719 2.990 3.582
120 0.677 1.289 1.658 1.980 2.076 2.358 2.617 2.860 3.373
6. Concluso:
Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encon-
trado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t = tc. Como 4,4371 < 1,691, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficien-
tes para se concluir que o tempo mdio de ao do novo medicamento inferior ao tempo
mdio de ao do antigo medicamento.
4.3: Um experimento foi conduzido para estudar o nvel mdio de colesterol no sangue. Em
uma amostra aleatria de 50 pacientes, a mdia amostral encontrada foi 268 mg/100 ml.
Estudos anteriores nos informam que o desvio padro populacional = 60 mg/100ml.
Teste a hiptese de que = 260, contra a alternativa de que > 260. Utilize um nvel de 5%.
Resoluo
Neste estudo, temos uma amostra aleatria de 50 pacientes. Conhecemos o desvio pa-
dro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios para
a realizao do teste de hipteses para a mdia populacional com conhecido esto satis-
feitos.
captulo 4 137
Agora, seguiremos os passos necessrios para a realizao do teste:
1. Hipteses:
H0 : = 260
H
1 :
> 260
x 268 260 8 8
z= = = = = 0, 9428
60 60 8, 485243
n 50 7, 0711
4. O valor crtico :
5. Concluso:
138 captulo 4
Como o teste unilateral direita (pois, H1 contm o sinal >) e a rea de z = 0 at o final
da cauda direita 0,5, temos que 0,5 0,05 = 0,45. Devemos encontrar o valor 0,45 (ou
valores prximos a este) no corpo da tabela. Portanto, o valor crtico z = 1,645.
Rejeitamos H0 se z > zc. Como 0,9428 > 1,645, a estatstica de teste no est na rea de
rejeio. Portanto, no rejeitamos H0, ou seja, os dados amostrais no fornecem evidncias
suficientes para se concluir que o nvel mdio de colesterol maior que 260 mg/100 ml.
captulo 4 139
Para a realizao de um teste de hipteses para duas amostras, extramos
uma amostra aleatria de cada uma das populaes, usamos uma estatstica
de teste e estabelecemos uma concluso (mesmo procedimento que utilizamos
no caso de uma nica amostra).
Realizaremos testes para comparao de duas mdias. Sendo 1 e 2 os par-
metros populacionais, temos as possveis hipteses nula e alternativa:
H0 : 1 = 2 H0 : 1 2 H0 : 1 2
, ,
H1 : 1 2 H1 : 1 > 2 H1 : 1 < 2
H0 : 1 2 = 0 H0 : 1 2 0 H0 : 1 2 0
, ,
H1 : 1 2 0 H1 : 1 2 > 0 H1 : 1 2 < 0
As situaes descritas acima nos informam que 2 amostras podem ser de-
pendentes ou independentes. Qual a diferena entre estas classificaes?
Duas amostras so independentes se os valores amostrais selecionados de
uma populao no esto relacionados com os valores amostrais selecionados
da outra populao. E, duas amostras so dependentes (ou emparelhadas) se os
membros de uma amostra podem ser usados para se determinarem os membros
da outra amostra.
140 captulo 4
Podemos identificar o uso de amostras independentes quando um grupo
de pacientes tratado com determinada droga para reduo de colesterol, en-
quanto que outro grupo de pacientes tratado com placebo. A independncia
ocorre, pois os pacientes tratados com a droga no esto de forma alguma rela-
cionados com os pacientes tratados com placebo.
No caso de amostras dependentes, por exemplo, o peso de um grupo de pes-
soas medido antes e aps uma dieta. Cada par de medidas antes/depois se
refere mesma pessoa.
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
x1 x 2 ( 2)
1
t=
s12 s22
+
n1 n2
captulo 4 141
4. Determinaremos o nmero de graus de liberdade: menor de n1 1 e
n2 1.
5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejei-
tamos H0.
Neste livro, utilizaremos uma estimativa simples e conservadora para o nmero de graus
de liberdade: o menor de n1 1 e n2 1. Os pacotes estatsticos, em geral, utilizam uma
estimativa mais precisa, porm mais difcil de ser calculada, dada por:
2
s12 s22
+
n n
g .l . = 12 2 2
s12 s22
n1 + n2
n1 1 n2 1
EXEMPLO
4.4: Dois grupos de indivduos participaram de um experimento planejado para testar o efei-
to da frustrao sobre a agressividade. O grupo experimental de 35 indivduos, escolhidos
aleatoriamente, recebeu um quebra-cabea frustrante para resolver, enquanto o grupo de
controle de 35 indivduos, escolhidos aleatoriamente, recebeu uma verso no frustrante do
mesmo quebra cabea. Mediu-se, ento, o nvel de agressividade para ambos os grupos. En-
quanto o grupo experimental (frustrao) acusou um escore mdio de agressividade x1 = 5
e um desvio padro S1 = 2,4, o grupo de controle (no frustrao) teve um escore mdio de
agressividade x2 = 3 e um desvio padro S2 = 1,5 (escores mdios mais altos indicam maior
agressividade). Com esses resultados, teste a hiptese nula de que no h diferena quanto
agressividade entre as condies de frustrao e no frustrao. O que o resultado desse
teste indica? Utilizar = 0,05.
Fonte: Adaptado (LEVIN, 2004, p. 259).
142 captulo 4
Resoluo
Neste estudo, temos duas amostras independentes, que foram selecionadas aleatoria-
mente. No conhecemos os desvios padres das duas populaes e no h suposies
sobre a igualdade destes desvios. Os tamanhos amostrais so grandes (com n1 > 30 e
n2 > 30). Portanto, os requisitos necessrios para a realizao do teste de hipteses para
amostras independentes com desvios padres desconhecidos e diferentes esto satisfeitos.
x1 = 5 x2 = 3
S = (2,4) = 5,76
1
2 2
S = (1,5)2 = 2,25
2
2
n1 = 36 n2 = 35
1. Hipteses:
H0 : 1= 2
H1 : 1
2
x1 x 2 ( 1
2) 530 2 2
t= = = = = 4,1807
s12 s22 5, 76 2, 25 0, 228857143 0, 478390
+ +
n1 n2 35 35
4. O nmero de graus de liberdade o menor entre n1 e n2. Como os dois tamanhos amos-
trais so iguais, g.l. 35 1 = 34.
5. Os valores crticos so:
captulo 4 143
P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
32 0.682 1.309 1.694 2.037 2.141 2.449 2.738 3.015 3.622
33 0.682 1.308 1.692 2.035 2.138 2.445 2.733 3.008 3.611
34 0.682 1.307 1.691 2.032 2.136 2.441 2.728 3.002 3.601
35 0.682 1.306 1.690 2.030 2.133 2.438 2.724 2.996 3.591
36 0.681 1.306 1.688 2.028 2.131 2.434 2.719 2.990 3.582
sp2 =
( n1 1) s12 + ( n2 1) s22
n1 + n2 2
144 captulo 4
Este valor chamado estimador combinado de Image, pois combina as in-
formaes de ambas as amostras.
De acordo com TRIOLA (2008, p. 378), os requisitos necessrios para a rea-
lizao deste teste so:
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
x1 x 2 ( 2 )
1
t=
1 1
sp +
n1 n2
Para usar este teste, precisamos verificar que os desvios padres das duas
amostras so iguais. Uma maneira usar um teste preliminar de 1 = 2. De
acordo com TRIOLA (2003), alguns autores ressaltam que dificilmente sabemos
que 1 = 2. Eles analisam o desempenho de diferentes testes, considerando
captulo 4 145
tamanhos amostrais e poderes dos testes e concluem que o esforo deve ser
empregado em aprender o mtodo descrito no item 4.3.1.1 (desvios padres
desconhecidos e diferentes).
A menos que algum problema e/ou exerccio j fornea alguma informao
sobre desvios padres desconhecidos e iguais, vamos trat-los como diferentes
e usar o mtodo descrito no item 4.3.1.1.
EXEMPLO
4.5: Um estudo foi conduzido para determinar se a fumaa de cigarro de uma gestante
tem algum efeito no contedo mineral sseo da criana por ela gerada, sob outros aspec-
tos saudveis. Uma amostra aleatria de 77 recm-nascidos cujas mes fumaram durante
a gravidez tem um contedo mineral mdio sseo de x1 = 0,098 g/cm e desvio padro
S1 = 0,026 g/cm; uma amostra aleatria de 161 bebs cujas mes no fumavam tem mdia
x2 = 0,095 g/cm e desvio padro S2 = 0,025 g/cm. Assuma que as varincias das popu-
laes originais sejam iguais. Estabelea as hipteses nula e alternativa para o teste bilateral
e conduza o teste ao nvel de significncia 0,05. O que podemos concluir?
Fonte: PAGANO (2004, p. 250).
Resoluo
Temos duas amostras independentes, que foram selecionadas aleatoriamente. Os tama-
nhos amostrais so grandes (com n1 > 30 e n2 > 30) e os desvios padres so desconheci-
dos, mas, supostamente iguais (o enunciado informa que devemos assumir que as varincias
das populaes so iguais). Portanto, os requisitos necessrios para a realizao do teste de
hiptese para amostras independentes com desvios padres desconhecidos e iguais esto
satisfeitos.
AMOSTRAS N x S
Mes que fumaram
77 0,098 0,026
durante a gravidez
Mes que no fumaram
161 0,095 0,025
durante a gravidez
1 =
H0 : 2
0 1
H : 2
146 captulo 4
De acordo com o enunciado, o teste bilateral.
2. O nvel de significncia = 0,05.
3. A estatstica de teste :
x1 x 2 ( 2 )
1
t=
1 1
sp +
n1 n2
em que:
sp2 =
( n1 1) s12 + ( n2 1) s22 = (77 1)( 0, 026 )2 + (161 1) ( 0, 025)2 = 0, 051376 + 0,10
n1 + n2 2 77 + 161 2 236
0,151376
= = 0, 0006414
236
e
sp = 0, 0006414 = 0, 02533
Ento:
x1 x 2 ( 2 )
1 0, 098 0, 095 0, 003 0, 003
t= = = = = 0, 8548
1 1 1 1 0, 02533 0,138558 0, 0035096
sp + 0, 02533 +
n1 n2 77 161
captulo 4 147
P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
110 0.677 1.289 1.659 1.982 2.078 2.361 2.621 2.865 3.381
120 0.677 1.289 1.658 1.980 2.076 2.358 2.617 2.860 3.373
0.674 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.290
0,25 0,10 0,05 0,025 0,02 0,01 0,005 0,0025 0,0005
6. Concluso
Como o teste bilateral, rejeitamos H0 se t < tc ou t > tc. Como 0,85 > 1,96, a estatstica
de teste no est na rea de rejeio. Portanto, no rejeitamos H0, ou seja, os dados amos-
trais no fornecem evidncias suficientes para apoiar a afirmativa de a fumaa de cigarro de
uma gestante tem algum efeito no contedo mineral sseo da criana por ela gerada.
148 captulo 4
es com distribuies normais (Para pequenas amostras, a exigncia de normalidade
relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja
outliers e os desvios da normalidade no sejam acentuados).
1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:
x1 x 2 ( 2 )
1
z=
12 22
+
n1 n2
Figura 4.3 Mtodos para inferncia sobre duas mdias independentes. Fonte: TRIOLA (2003).
captulo 4 149
Agora, estudaremos o caso em que as amostras so dependentes.
Neste caso, desejamos comparar duas mdias populacionais sendo que, para
cada unidade amostral, realizamos duas medies da caracterstica de interes-
se. No geral, estas medies so tomadas antes e aps uma dada interveno.
Voltando ao exemplo j citado sobre o peso de um grupo de pessoas. A medio
feita antes e aps uma dieta e cada par de medidas antes/depois se refere
mesma pessoa.
No caso de amostras dependentes, tambm precisamos verificar alguns re-
quisitos para a realizao do teste.
Segundo TRIOLA (2008, p. 384)
d
d
t=
sd
n
150 captulo 4
Vamos compreender a notao utilizada na estatstica de teste:
d: diferena individual entre os dois valores em um nico par.
d: valor mdio das diferenas d para a populao de todos os pares.
d : valor mdio das diferenas d para dados amostrais emparelhados.
sd: desvio padro das diferenas d para os dados amostrais emparelhados.
n: nmero de pares de dados.
EXEMPLO
4.6: Um estudo foi realizado com o objetivo de investigar a eficcia de uma dieta de ema-
grecimento. O quadro a seguir apresenta os pesos, em kg, de 10 pessoas selecionadas
aleatoriamente. Os pesos foram registrados antes e aps a dieta. Vamos supor que os dados
so provenientes de uma populao normalmente distribuda. Use um nvel de significncia
de 5% para testar a afirmativa que a dieta de emagrecimento eficaz na reduo do peso.
Antes 77 61 60 80 90 75 85 58 89 67
Depois 80 57 60 74 87 68 90 50 82 63
Resoluo
Temos um estudo com amostras dependentes (ou emparelhadas), pois cada par de me-
didas antes/depois se refere mesma pessoa.
Avaliando os requisitos necessrios para a realizao do teste, temos: os dados amostrais
so emparelhados, a amostra aleatria simples e proveniente de uma distribuio normal.
Ento, podemos realizar o teste de acordo a avaliao das informaes do enunciado.
Realizando os passos do teste, temos:
1. Hipteses:
d = 0
H0 :
0
H : d <0
Para encontrar o valor da estatstica, precisamos encontrar o valor mdio das diferenas
e o desvio padro das diferenas. Vamos acrescentar algumas colunas no Quadro 4.5, para
facilitar os clculos.
captulo 4 151
Tabela 4.2 Clculos auxiliares no clculo da mdia e do desvio padro das diferenas.
d 31 = 3,1
n
d = i =1 =
n 10
e a varincia amostral :
( i =1di )2
n
( 31)2
i =1di2
n
273
n 10 273 96,1 176,9
9
s2 = = = = = 19, 66
n 1 10 1 9 9
=s =
19, 66 4, 43
d d 3,1 0 3,1
t= = = = 2, 2129
sd 4, 43 14009
,
n 10
152 captulo 4
4. O nmero de graus de liberdade (g.l.) n 1 = 10 1 = 9.
5. O valore crtico :
6. Concluso
Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encon-
trado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
que escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t < t0. Como 2,2129 < 1,833, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficien-
tes para se concluir que a dieta eficaz na reduo do peso.
captulo 4 153
4.4 Utilizao do Microsoft Excel para testes
de duas amostras
EXEMPLO
4.7: Uma empresa de computadores desenvolveu um novo curso que, comparado com o usu-
al, apresenta novas tcnicas para reparar computadores pessoais. Trinta e um estagirios fo-
ram selecionados aleatoriamente em dois grupos: 31 deles fizeram o curso usual e os outros
31 frequentaram o novo curso. Aps 8 semanas, todos os estagirios foram submetidos ao
mesmo exame final. De acordo com os resultados apresentados a seguir, h evidncias de
que os dois cursos apresentam resultados diferentes em termos de habilidade nos reparos?
As pontuaes mais altas indicam maior habilidade nos reparos. Use = 0,05.
Resoluo:
Vamos seguir os seguintes passos para a realizao do teste:
154 captulo 4
Figura 4.4 Valores das pontuaes obtidas pelos estagirios, nos dois tipos de cursos.
Figura 4.5 Escolha da Anlise de dados Teste T: duas amostras presumindo varincias
diferentes.
captulo 4 155
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo
da varivel 1, selecionar os dados arrastando com o mouse desde A2 at A32. No campo
Intervalo da varivel 2, selecionar os dados arrastando com o mouse desde B2 at B32.
Em Hiptese da diferena de mdia, digitamos 0 (a hiptese 1 = 2 pode ser escrita como
1 2 = 0). O nvel de significncia = 0,05. Em Opes de sada, escolher Nova planilha
(as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos para digi-
tar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.
4 Passo: Os resultados abaixo foram apresentados em uma nova planilha. Vamos en-
tender as informaes que esto grifadas:
1. Mdia: mdia de cada amostra.
2. Varincia: varincia de cada amostra.
3. Observaes: nmero de observaes em cada amostra
4. Hiptese da diferena de mdias: 1 2 = 0.
5. g.l.: graus de liberdade (calculada por meio da frmula descrita no box explicativo).
6. Stat t: valor da estatstica de teste.
7. P(T < = t): valor p para o teste bicaudal (bilateral).
8. t crtico bicaudal: valores crticos para um teste bicaudal (bilateral).
156 captulo 4
Figura 4.7 Resultados obtidos a partir do Teste t duas amostras presumindo varincias
diferentes, para os dados do Exemplo 4.7.
captulo 4 157
Figura 4.8 Pesos, kg, de 10 pessoas, antes e depois de uma dieta.
Figura 4.9 Escolha da Anlise de dados Teste T: duas amostras em par para mdias.
158 captulo 4
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No cam-
po Intervalo da varivel 1, selecionar os dados arrastando com o mouse desde
A2 at A11. No campo Intervalo da varivel 2, selecionar os dados arrastando
com o mouse desde B2 at B11. Em Hiptese da diferena de mdia, digitamos
0 (a hiptese 1 = 2 pode ser escrita como 1 2 = 0.). O nvel de significncia
= 0,05. Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada
dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.
captulo 4 159
Figura 4.11 Resultados obtidos a partir do Teste t duas amostras em par para mdias,
para os dados do Exemplo 4.6.
Nesta anlise, tambm temos a informao do valor p. Como 0,027 < 0,05,
rejeitamos a hiptese nula, mesma concluso que aquela obtida pelo mtodo
descrito ao longo do captulo (-2,2111 < -1,833). Portanto, os dados amostrais
fornecem evidncias suficientes para se concluir que a dieta eficaz na reduo
do peso.
O valor p tambm pode ser obtido atravs da funo TESTE.T. Para explicar
o procedimento, vamos utilizar os dados do Exemplo 4.6. Aps digitar os dois
conjuntos de dados, como na Figura 4.8, seguimos os seguintes passos: na aba
Frmulas, clicar em Mais Funes , Estatstica e escolher TESTE.T. Esta sequ-
ncia apresentada na Figura 4.12.
160 captulo 4
Figura 4.12 Escolha da funo estatstica TESTE.T.
Aps clicar em TESTE.T aparecer uma janela em que temos que preencher
os argumentos da funo:
captulo 4 161
Figura 4.13 Probabilidade associada ao teste t de Student.
REFLEXO
Ao longo deste captulo, estudamos uma das ferramentas mais importantes da inferncia
estatstica, que so os testes de hipteses. Aprendemos a realizar testes para a mdia po-
pulacional, nos casos de uma ou duas amostras.
Com os exemplos apresentados, pudemos observar a grande aplicabilidade dos testes
de hipteses na rea da sade.
Quando queremos fazer comparaes sobre os parmetros de duas populaes, no
basta selecionarmos duas amostras e analisarmos somente as estatsticas amostrais obtidas.
Precisamos testar a afirmativa sobre estes parmetros analisando os dados amostrais, por
meio da realizao de um teste apropriado e, a partir da concluso do teste, teremos evidn-
cias para apoiar ou no a afirmativa sobre os parmetros.
No podemos esquecer que os testes no podem ser utilizados indiscriminadamente. H
requisitos que devem ser verificados! Com um planejamento correto para a obteno dos dados
amostrais, podemos fazer uso de mais uma ferramenta imprescindvel na tomada de decises!
162 captulo 4
LEITURA
Sugerimos que voc assista ao vdeo que est no seguinte endereo: http://m3.ime.unicamp.
br/recursos/1098. Voc aprender algumas tcnicas de planejamento de experimento, bem
como verificar a importncia da formulao correta de uma hiptese na anlise estatstica.
REFERNCIAS BIBLIOGRFICAS
FARIAS, Alfredo A.; SOARES, Jos F.; CSAR, Cibel C. Introduo Estatstica. 2 ed. Rio de Janeiro:
LTC, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVIN, Jack; FOX, James A. Estatstica para Cincias Humanas. 9 ed. So Paulo: Prentice Hall,
2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N. ; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira
Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura L. Ramos; CAMARNEIRO, Fbio; SANTOS, Jos P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1098 >. Acesso em: 03 maio 2015.
captulo 4 163
164 captulo 4
5
Correlao e
Regresso Linear
Simples
No Captulo 2, estudamos como podemos descrever os dados provenientes de
uma varivel quantitativa por meio de medidas resumo. Agora, estudaremos
uma tcnica estatstica denominada correlao. Por meio dela, verificamos
se existe relao entre duas variveis quantitativas: uma, chamada varivel Y
(dependente ou resposta), e a outra, chamada varivel X (independente ou ex-
planatria). Direcionaremos nosso estudo no relacionamento linear entre as
variveis X e Y.
Se identificarmos uma relao linear entre as variveis X e Y, podemos de-
terminar a equao da reta que melhor modela os dados. Esta reta chamada
reta de regresso, e sua equao chamada equao de regresso. Com esta
equao, podemos prever o valor da varivel resposta associada com um valor
fixo da varivel explicativa. Para encontrarmos a equao de regresso, utiliza-
remos a tcnica de regresso linear simples.
Um exemplo do estudo de correlao e regresso linear simples pode ser
feito para verificar a relao entre o comprimento e a idade gestacional de be-
bs nascidos com at 1500 gramas. Havendo uma relao, podemos encontrar
a equao de regresso e utiliz-la para estimar o comprimento do beb para
determinado valor atribudo idade gestacional.
OBJETIVOS
Com as tcnicas estudadas neste captulo, esperamos que voc seja capaz de:
166 captulo 5
5.1 Diagrama de disperso
Quando estudamos duas variveis quantitativas, temos interesse em responder
as seguintes questes:
Neste tipo de estudo, temos um par de resultados (x, y) para cada elemento
da amostra, ou seja, a anlise dos dados envolve a resposta de duas variveis
para cada elemento da amostra. Antes de conduzirmos qualquer tipo de anli-
se, devemos construir um grfico denominado diagrama de disperso, com o
objetivo de verificar se existe uma relao entre as variveis X e Y. Neste diagra-
ma, os pares ordenados (x, y) representam pontos em um plano coordenado. A
varivel X representada no eixo das abscissas (horizontal) e a varivel Y no eixo
das ordenadas (vertical).
A Figura 5.1 apresenta alguns tipos de correlao.
Figura 5.1 Diagramas de disperso com alguns tipos de correlao. Fonte: LARSON
(2004, p. 334).
captulo 5 167
Com o auxlio do diagrama de disperso, podemos identificar a forma, a di-
reo e a intensidade da relao particular existente entre duas variveis quan-
titativas. Na Figura 5.1, identificamo,s nos dois primeiros grficos superiores ,
uma forma bem definida: os dados dispem-se aproximadamente ao longo de
uma linha reta, portanto, verificamos um padro linear. Tambm, identifica-
mos nestes dois grficos, uma direo bem clara: No grfico esquerda, me-
dida que x cresce, y tende a decrescer e, no da direita, medida que x cresce, y
tende a crescer. A intensidade de uma relao determinada por quo prximo
os pontos se aproximam mais de uma reta. Analisando os dois grficos inferio-
res, verificamos que o da esquerda no mostra qualquer forma, sugerindo que
no h relao entre x e y. O grfico direita mostra uma forma bem distinta,
sugerindo uma relao entre x e y, cuja forma no de uma reta.
168 captulo 5
r=
( x y ) ( x ) ( y )
n
n
i =1 i i
n
i =1 i
n
i =1 i
, 1 r 1
n ( x ) ( x ) n ( y ) ( y )
n n 2 n n 2
2 2
i =1 i i =1 i i =1 i i =1 i
EXEMPLO
5.1: A Tabela 5.1 fornece o peso e a estatura de 10 pessoas adultas, do sexo feminino.
captulo 5 169
ALTURA (X) PESO (Y)
156 53,5
158 58,4
163 59,4
162 56,4
165 61,2
172 57,5
173 67,3
174 69,7
179 77,2
183 81,6
Tabela 5.1 Peso, em kg, e altura, em cm, de 10 pessoas adultas, do sexo feminino.
Resoluo
Primeiro, vamos construir o diagrama de disperso colocando cada par (x,y) no plano e
depois verificamos, visualmente, o comportamento conjunto das variveis.
Figura 5.2 Diagrama de disperso para os dados sobre a altura e o peso de 10 mulheres
adultas.
170 captulo 5
Analisando o diagrama de disperso, observamos que, medida que a altura aumenta, o
peso tende a aumentar. Portanto, o diagrama nos sugere que as variveis x e y so positiva-
mente correlacionadas. Para medir a intensidade da correlao, vamos calcular o coeficiente
de correlao linear. Para efetuar este clculo, vamos acrescentar trs colunas na tabela
original dos dados, obtendo o seguinte quadro:
Para obtermos os valores da coluna (x y), multiplicamos cada par (x , y), ou seja, 156
53,5, 158 58,4 e assim por diante. Os valores x2 so obtidos elevando ao quadrado cada
valor da primeira coluna, ou seja, 156 156 = 24.336; 158 158 = 24,964, e assim por dian-
te. Finalmente, obtemos y2 fazendo cada valor da segunda coluna ao quadrado, isto , 53,5
53,5 = 2.286,25; 58,4 58,4 = 3.410,56, e assim por diante.
Com os totais de cada uma das colunas, temos todos os valores necessrios para subs-
tituir na frmula do coeficiente de correlao linear:
captulo 5 171
r=
( x y ) ( x ) ( y )
n
n
i =1 i i
n
i =1 i
n
i =1 i
n ( x ) ( x ) n ( y ) ( y )
n n 2 n n 2
2 2
i =1 i i =1 i i =1 i i =1 i
1.089.025 1.082.107
r=
2.846.570 2.839.225 420.396 412.420, 84
6.918 6.918 6.918
r= = = = 0, 9039
7.345 7.975,16 85, 7030 89, 3038 7.653, 60
Uma alta correlao no implica necessariamente que haja uma relao de causa e efeito
entre x e y.
Uma baixa correlao no implica, necessariamente, que x e y no estejam correlacio-
nadas. Apenas podemos afirmar que no esto fortemente e linearmente relacionadas. O
diagrama de disperso pode retratar um padro que sugere uma forte relao no linear.
Um exemplo antigo, mas muito interessante, foi dado por um estatstico que mos-
trou que havia correlao positiva entre o nmero de recm-nascidos e o nmero
172 captulo 5
de cegonhas em uma pequena cidade da Dinamarca, no decorrer dos anos 30. A
correlao entre essas duas variveis espria: no indica relao de causa e efeito.
Existe uma terceira varivel, o crescimento da cidade, que implicava tanto no nmero
de recm-nascidos (quanto maior a cidade, mais crianas nascem) quanto no nmero
de casas com chamins, perto das quais as cegonhas faziam seus ninhos (VIEIRA,
2008, p. 120).
captulo 5 173
3. Especificar o nvel de significncia. Normalmente, utilizamos = 0,01,
= 0,05 ou = 0,10.
4. Determinar o nmero de graus de liberdade: g.l. = n 2.
5. Concluso:
EXEMPLO
5.2: Utilizando os dados do Exemplo 5.1, vamos testar a hiptese de que h uma correlao
entre o peso e a altura de pessoas adultas, do sexo feminino. Considerar = 0,05.
Resoluo
As hipteses so:
A estatstica de teste :
174 captulo 5
P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
2 0.816 1.886 2.920 4.303 4.849 6.965 9.925 14.089 31.600
3 0.765 1.638 2.353 3.182 3.482 4.541 5.841 7.453 12.924
4 0.741 1.533 2.132 2.776 2.999 3.747 4.604 5.598 8.610
5 0.727 1.476 2.015 2.571 2.757 3.365 4.032 4.773 6.869
6 0.718 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.959
7 0.711 1.415 1.895 2.365 2.517 2.998 3.499 4.029 5.408
8 0.706 1.397 1.860 2.306 2.449 2.896 3.355 3.833 5.041
9 0.703 1.383 1.833 2.262 2.398 2.821 3.250 3.690 4.781
10 0.700 1.372 1.812 2.228 2.359 2.764 3.169 3.581 4.587
11 0.697 1.363 1.796 2.201 2.328 2.718 3.106 3.497 4.437
12 0.695 1.356 1.782 2.179 2.303 2.681 3.055 3.428 4.318
110 0.677 1.289 1.659 1.982 2.078 2.361 2.621 2.865 3.381
120 0.677 1.289 1.658 1.980 2.076 2.358 2.617 2.860 3.373
0.674 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.290
0,25 0,10 0,05 0,025 0,02 0,01 0,005 0,0025 0,0005
De acordo com a estatstica de teste e os valores crticos, temos que 5,977 > 2,306.
Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre o peso e a altura
das mulheres.
Quando determinamos, por meio do teste de hipteses, que a correlao linear sig-
nificante, podemos encontrar a reta que melhor descreve os dados observados. Esta reta
obtida por meio da equao de regresso, que utilizada para prever o valor da varivel y para
determinado valor da varivel x.
Uma reta de regresso uma linha reta que descreve como uma varivel de resposta y
muda medida que uma varivel explicativa x tambm varia. Frequentemente utilizamos
uma reta de regresso para predizer o valor de y a partir de um determinado valor de x.
captulo 5 175
Para obtermos a reta de regresso, precisamos da equao de regresso.
Esta equao estimada utilizando a tcnica de regresso linear simples. A
equao de regresso expressa a relao entre a varivel independente (x) e a
varivel dependente ( y ). Voltando ao nosso exemplo do incio do captulo, a
idade gestacional do beb a varivel independente e, a partir de determinado
valor atribudo a ela, podemos prever o comprimento do beb (que varivel
dependente) utilizando a equao de regresso.
A regresso linear simples envolve uma varivel independente e uma varivel depen-
dente. A anlise de regresso envolvendo duas ou mais variveis independentes cha-
mada de anlise de regresso mltipla.
176 captulo 5
Utilizaremos as seguintes frmulas para encontrar os coeficientes b0 e b1,
respectivamente:
b1 =
n ( n
x
i =1 i) ( x ) ( y )
yi
n
i =1 i
n
i =1 i
n ( x ) ( x )
n n 2
2
i =1 i i =1 i
e b0 = y b1 x
xi
n
x = i =1 ( mdia da varivel x )
n
yi
n
y = i =1 ( mdia da varivel y )
n
Analisando a frmula para calcular b0, observamos que este coeficiente s pode ser
encontrado aps o clculo de b1.
CONEXO
A reta de regresso a que melhor se ajusta aos dados amostrais. O critrio especfico usa-
do para se determinar qual reta se ajusta melhor a propriedade dos mnimos quadrados.
Uma leitura interessante sobre a propriedade dos mnimos quadrados pode ser encontrada
em TRIOLA (2008, p. 435).
captulo 5 177
5.3: Vamos utilizar os dados do Exemplo 5.1 para encontrar a equao de regresso.
Resoluo
Precisaremos das informaes contidas no Quadro 5.1.
b1 =
n ( n
) ( x ) ( y )
x
i =1 i
yi
n
i =1 i
n
i =1 i
n ( x ) ( x )
n n 2
2
i =1 i i =1 i
6.918
b1 = = 0, 941865
7.345
b0 = y b1 x
b0 = 64, 22 0, 941865 (168, 5)
b0 = 64, 22 158, 704253 = 94, 4843
178 captulo 5
i =1y i
n
xi
n
1685 642, 2
pois, x = i =1 = = 168, 5 e y = = = 64, 22
n 10 n 10
Agora que j conhecemos a equao de regresso, a pergunta que surge : como po-
demos interpret-la?
Segundo TRIOLA (2008, p. 434)
Ao se trabalhar com duas variveis relacionadas por uma equao de regresso, a mu-
dana marginal em uma varivel a quantidade que ela varia quando a outra varivel
varia de exatamente uma unidade. A inclinao b1 na equao de regresso representa
a mudana marginal em y quando x varia de uma unidade.
Ento, para os dados da Tabela 5.1, referentes ao peso e altura das 10 mulheres, a
equao de regresso tem uma inclinao 0,9419, que mostra que, se aumentarmos x (al-
tura) em 1 unidade, o peso aumenta em 0,9419 unidades, aproximadamente. Esta in-
terpretao fica fcil de ser verificada se substituirmos valores para x. Por exemplo, se x =
155, y = 94, 4843 + 0, 9419 (155 ) = 94, 4843 + 155, 9945 = 515102
, e, se x = 156,
y = 94, 4843 + 0, 9419 (156 ) = 94, 4843 + 146, 9364 = 52, 4521. A diferena entre os va-
lores de y encontrados, y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (171) = 66, 58 kg ,
exatamente o valor de b1, ou seja, para cada acrscimo de 1 unidade em x, y cresce de
0,9419 unidades.
A Figura 5.3 apresenta, no diagrama de disperso, a reta de regresso.
captulo 5 179
Estudaremos, mais adiante, o que significa a informao R2 = 0,817.
Podemos utilizar a equao de regresso para prever valores de Y para quaisquer valo-
res de X dentro do intervalo estudado, mesmo que tais valores no estejam na amostra. Por
exemplo, para x = 171 (valor que no est na Tabela 5.1), podemos estimar o valor de Y.
Basta substituir este valor na equao da reta, ou seja:
Interpretamos o valor y = 66, 58 kg como uma previso para o peso, quando a altura da
mulher adulta for 171 cm.
Se atribuirmos varivel x um valor observado no conjunto de dados, por exemplo, x =
165, vamos encontrar o seguinte valor previsto para y:
Analisando a Tabela 5.1, observamos que para a altura x = 165 cm, o peso correspon-
dente y = 61,2 kg. Esta diferena entre o valor amostral observado e o valor previsto pela
equao de regresso denominada resduo. Ento, temos a seguinte definio:
Um grfico de resduos outro instrumento til para a anlise dos resultados da corre-
lao e regresso e para a verificao dos requisitos necessrios para se fazerem infe-
rncias sobre correlao e regresso. Este grfico construdo usando o mesmo eixo
x do diagrama de disperso, mas no eixo y (vertical) utilizamos os valores dos resduos.
Se o grfico de resduos no revelar qualquer padro, a equao de regresso uma
boa representao da associao entre as duas variveis.
A equao de regresso deve ser utilizada para fazer previses apenas se ela for um bom
modelo para os dados, ou seja, se for verificado por meio de um teste de hipteses que a
relao entre as duas variveis significante. Caso a relao no seja significante, o melhor
valor previsto de y y .
Devemos tomar o cuidado de no fazer extrapolaes, ou seja, utilizar a equao de re-
gresso para fazer previses para a varivel Y utilizando valores para X muito distantes dos
limites dos dados amostrais disponveis.
180 captulo 5
De acordo com Anderson et al. (2003, p. 447), usar a equao de regresso estimada
fora do intervalo dos valores da varivel independente deve ser feito com cuidado por-
que fora deste intervalo ns no podemos assegurar que a mesma relao seja vlida.
1. O diagrama de disperso nos d uma ideia da relao, ou no, entre duas variveis
quantitativas.
2. O coeficiente de correlao linear de Pearson mede a intensidade da relao linear, ou
seja, s tem sentido calcul-lo se o diagrama de disperso indicar uma relao linear.
3. Correlao no indica causa. Uma forte relao entre duas variveis no suficiente
para que se tirem concluses de causa e efeito.
4. Caso haja relao entre duas variveis quantitativas, podemos descrev-la atravs da
equao de regresso que melhor representa a relao.
5. Devemos usar a equao de regresso para previses somente se houver uma corre-
lao linear, confirmada pelo teste de hipteses. Caso contrrio, a melhor estimativa para a
varivel y sua mdia amostral y .
R 2 = ( 0, 9039 ) = 0, 8170
2
captulo 5 181
Isto significa que 81,70% da variao do peso das mulheres se explica pela
variao da altura. Este valor aparece na Figura 5.3.
Com a definio do coeficiente de determinao, podemos perceber que, se
o coeficiente de correlao for r = 0,7, teremos um coeficiente de determina-
o r2 = 0,49, significando que a reta de regresso ajustada no consegue expli-
car nem a metade da variao de y. Por isso, para 0,7 x 0,7, no se deve, em
geral, ajustar a reta de regresso. Para |r| = 0,9, a reta de regresso explica mais
de 80% da variao total de y.
Vamos estudar mais um exemplo para exercitar todos os contedos aborda-
dos ao longo do captulo.
EXEMPLO
5.4: Muitos acidentes de carro so causados por motoristas cansados. Vrios estudos de
pesquisa mostram que mudanas nas pupilas dos olhos esto relacionadas com a fadiga.
Obteve-se uma amostra aleatria de 25 motoristas, e mediram-se as oscilaes no tamanho
da pupila (x, em milmetros por segundo) usando-se um pupilgrafo. O cansao de cada
pessoa (y) tambm foi registrado, usando-se o ndice de pupila sem descanso (IPSD). As
estatsticas resumo so:
Resoluo
a) Neste exerccio, j temos as informaes necessrias para substituirmos na frmula do
coeficiente de correlao linear:
182 captulo 5
r=
( x y ) ( x ) ( y )
n
n
i =1 i i
n
i =1 i
n
i =1 i
n ( x ) ( x ) n ( y ) ( y )
n n 2 n n 2
2 2
i =1 i i =1 i i =1 i i =1 i
1.230, 5 1363, 2
r=
52, 66 50, 41 52.350 36.864
132, 7 132, 7 132, 7
r= = = = 0, 7109
2, 25 15.486 15 , 124, 44 186, 66
b) Estabelecendo as hipteses:
A estatstica de teste :
captulo 5 183
De acordo com a estatstica de teste e os valores crticos, temos que | 4,848| >
2,069. Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre a oscila-
o no tamanho da pupila e IPSD.
b1 =
n ( n
) ( x ) ( y )
x
i =1 i
yi
n
i =1 i
n
i =1 i
n ( x ) ( x )
n n 2
2
i =1 i i =1 i
132, 7
b1 = = 58, 9778
2, 25
b0 = y b1 x
b0 = 7, 68 ( 58, 9778 ) ( 0, 284 )
b0 = 7, 68 + 16, 7497 = 24, 4297
i =1x i
n
i =1y i
n
7,1 192
pois, x = = = 0, 284 e y = = = 7, 68 .
n 25 n 25
184 captulo 5
y = 24, 4297 58, 9778 ( 0, 3)
y = 24, 4297 17, 69334 = 6, 7364
R 2 = ( 0, 7109 ) = 0, 5054
2
Isto significa que 50,54% da variao do IPSD se explica pela oscilao no tamanho da pupila.
captulo 5 185
2 Passo: Neste passo, selecionamos os dados (podemos selecionar com os
ttulos das colunas). Aps a seleo, clicar na aba Inserir e depois selecionar o
tipo de grfico a ser elaborado. Vamos escolher a primeira opo para o grfico
de Disperso. Clicar sobre a figura.
186 captulo 5
teclado do computador para excluir. Para as linhas de grade, basta clicar sobre
qualquer uma delas e utilizar o boto direito do mouse para excluir.
5 Passo: Agora, vamos colocar nome nos eixos: clicamos sobre o grfico e
aparecer Ferramentas de Grfico com algumas opes de escolha. Clicar em
Layout e logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma
para colocar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo ver-
tical. A Figura 5.8 ilustra a escolha para o Ttulo do Eixo Horizontal Principal,
com a opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, segui-
mos o mesmo procedimento para o eixo vertical.
captulo 5 187
6 Passo: A Figura 5.9 apresenta o diagrama de disperso finalizado.
Figura 5.9 Diagrama de disperso da altura e peso de pessoas adultas, do sexo feminino.
188 captulo 5
2 Passo: Para obtermos o coeficiente de correlao, clicamos na aba
Frmulas e, em seguida, clicamos em Mais Funes. Selecionando a primeira
opo, Estatstica, aparecer uma lista de funes. Escolher a opo CORREL.
captulo 5 189
4 Passo: Agora, clicamos em OK e obtemos o coeficiente de correlao.
R2 = ( 0, 9038887 ) = 0, 8170
2
Isto significa que 81,70% da variao do peso se explica pela variao na al-
tura das pessoas adultas, do sexo feminino.
E, para finalizar, vamos obter a equao de regresso.
190 captulo 5
Figura 5.14 Valores da altura e peso de pessoas adultas, do sexo feminino.
captulo 5 191
Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em
Anlise de dados. Escolhemos a Ferramenta de Anlise Regresso e clicamos
em OK.
192 captulo 5
4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.
Vamos entender as informaes que esto grifadas:
captulo 5 193
Figura 5.18 Adicionar linha de tendncia no diagrama de disperso.
194 captulo 5
Figura 5.20 Reta de regresso: peso (kg) em funo da altura (cm).
REFLEXO
Chegamos ao final deste captulo. Nele, exploramos as tcnicas de correlao e regresso
linear simples. Com larga aplicao, o contedo apresentado nos permite obter, por exem-
plo, funes matemticas relacionando o preo com a demanda, a nmero de anos que um
paciente fumou e a capacidade pulmonar, nveis de colesterol e triglicerdeos antes de uma
dieta, peso da me e do beb ao nascer, taxa de mortalidade infantil e expectativa de vida
em uma amostra de pases, entre tantas outras aplicaes. Aprendemos que, quando temos
informaes, em pares, de duas variveis quantitativas, podemos estudar mais profundamen-
te um possvel relacionamento entre essas variveis, em particular, o relacionamento linear.
Havendo um relacionamento linear, estimamos os coeficientes da equao de regresso
pelo mtodo de mnimos quadrados. Um dos maiores interesses conseguir fazer previses
da varivel dependente a partir, valores atribudos para a varivel independente. Mas, sa-
bemos que para fazermos previses, precisamos testar a adequabilidade de modelo! Alm
disto, temos que, tomar cuidado em no fazer extrapolaes, pois no podemos garantir que
a mesma relao seja vlida para valores da varivel independente muito distantes daqueles
utilizados para encontrar a equao de regresso.
Com o uso cuidadoso destas tcnicas, obtemos informaes estatsticas importantes no
auxlio tomada de decises, em vrias reas do conhecimento.
captulo 5 195
LEITURA
Um vdeo muito interessante, que aborda o conceito de correlao e correlaes esprias,
encontrado no endereo http://m3.ime.unicamp.br/recursos/1084. Vale a pena assistir!
REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
KOKOSKA, Stephen. Introduo Estatstica Uma Abordagem por Resoluo de Problemas.
Rio de Janeiro: LTC, 2013.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MOORE, David S.; McCABE, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prtica da
Estatstica Empresarial Como Usar Dados para Tomar Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura R. Ramos; ANNUNCIATO, Angela; SANTOS, Jos P. de Oliveira. Disponvel em: < http://
m3.ime.unicamp.br/recursos/1084 >. Acesso em: 03 maio 2015.
196 captulo 5
ANOTAES
captulo 5 197
ANOTAES
198 captulo 5
ANOTAES
captulo 5 199
ANOTAES
200 captulo 5