You are on page 1of 42

Estatística

Professor conteudista: Maurício Martins do Fanno


Sumário
Estatística
Unidade I
1 COLETA DE DADOS .............................................................................................................................................7
1.1 Dados e variáveis estatísticas .............................................................................................................7
1.2 Classificações das variáveis .............................................................................................................. 10
1.3 Amostragem ............................................................................................................................................11
1.4 Processos estatísticos ......................................................................................................................... 15
1.5 Coletas de dados................................................................................................................................... 16
2 REPRESENTAÇÃO DOS DADOS COLETADOS ......................................................................................... 19
2.1 Conceito de frequência ...................................................................................................................... 19
2.2 Distribuições ou tabelas de frequências ..................................................................................... 20
2.2.1 Dados isolados ou dados não agrupados em classes ............................................................. 20
2.2.2 Dados agrupados em classes ............................................................................................................ 21
2.3 Frequências acumuladas ................................................................................................................... 26
2.4 Representações gráficas .................................................................................................................... 28
2.4.1 Histogramas .............................................................................................................................................. 28
2.4.2 Gráfico de colunas ................................................................................................................................. 30
2.4.3 Gráfico de barras ..................................................................................................................................... 31
2.4.4 Diagrama de ogiva ................................................................................................................................. 32
2.4.5 Setorgrama ................................................................................................................................................ 34
2.4.6 Gráficos de dispersão ............................................................................................................................ 36
Unidade II
3 MEDIDAS OU PARÂMETROS ESTATÍSTICOS .......................................................................................... 39
3.1 Média......................................................................................................................................................... 40
3.2 Mediana ................................................................................................................................................... 43
3.3 Moda ......................................................................................................................................................... 49
4 MEDIDAS DE DISPERSÃO ............................................................................................................................. 55
4.1 Medidas de dispersão absolutas ..................................................................................................... 55
4.1.1 Amplitude total ....................................................................................................................................... 55
4.1.2 Desvio médio ............................................................................................................................................ 56
4.1.3 Variância ..................................................................................................................................................... 59
4.1.4 Desvio padrão........................................................................................................................................... 60
4.2 Medidas de dispersão relativas ....................................................................................................... 66
4.3 Relações gráficas entre as medidas estatísticas ...................................................................... 68
4.3.1 Assimetria .................................................................................................................................................. 70
4.3.2 Curtose ........................................................................................................................................................ 71
ESTATÍSTICA

Unidade I
Apresentação da disciplina

Prezado aluno,

Este texto foi produzido para apresentar os principais


conceitos de estatística da maneira mais aproximada da prática
administrativa possível, evitando-se, portanto, aprofundamento
5 desnecessário na área de cálculo. É necessária, no entanto, uma
base matemática já adquirida em disciplinas anteriores. Na
medida do possível, procurou-se rever os conceitos matemáticos
necessários.

O estudo da estatística, como de todas as ciências exatas,


10 obriga à repetição, o maior número de vezes possível, de exercícios
de fixação. No presente material, os cálculos definidos são
mostrados uma única vez, como exemplo, mas o aluno deve se
lembrar de que terá à disposição nos materiais complementares
uma grande quantidade de exercícios e problemas e que o
15 aprendizado somente será garantido caso eles sejam feitos em
sua totalidade.

Objetivamente, o primeiro passo do nosso caminhar é


entender o que é, como se divide e são quais os objetivos da
estatística, algo que faremos imediatamente.

20 Define-se estatística como o conjunto de métodos e


processos destinados a permitir o entendimento de um universo
submetido a certas condições de incerteza, ou seja, de não
determinismo matemático. Por exemplo, o dimensionamento do
diâmetro das hastes do amortecedor de um automóvel é feito

1
Unidade I

por meio de cálculos matemáticos de elevada precisão estudados


num capítulo da física chamado de resistência de materiais.

No entanto, a vida útil deste mesmo amortecedor


depende não só de seu dimensionamento, mas também de
5 uma série de condições em que impera a incerteza que pode,
resumidamente, ser chamada de condições de uso. Neste
último caso, entraríamos no campo da estatística. De modo
mais sintético, poderíamos dizer que a estatística é a ciência
que se ocupa de descrever, analisar e interpretar dados
10 experimentais.

Para entendermos melhor o processo estatístico, é


necessário definir dois conceitos básicos: população e
amostra. Considera-se população o conjunto formado por
todos os elementos que têm em comum a característica que
15 estamos estudando. Por exemplo, se estamos pesquisando
sobre o aprendizado de música, a população é formada por
todas as pessoas que aprendem ou aprenderam música em
algum momento.

Deve-se notar que a população estatística normalmente é


20 muito numerosa, às vezes infinita, e eventualmente formada
por elementos ainda não existentes. Assim, quando queremos
saber qual é a expectativa de vida de um brasileiro, estamos
diante de uma população muito extensa (todos os brasileiros)
e formada por elementos prováveis, visto que as pessoas que
25 estão sendo estudadas ainda não morreram.

Em razão dessas características da população, o processo


estatístico começa pelo estudo de uma amostra, que é um
pedaço da população. Mas um pedaço coerente com a população,
ou seja, que siga todas as características da população. Assim,
30 por exemplo, se determinada população tem 62% de mulheres,
as amostras tiradas dela terão que ter 62% de mulheres se o
sexo for fator importante no comportamento da característica
estudada.

2
ESTATÍSTICA

Uma amostra é finita e tem relativamente poucos elementos,


de valores definidos. Deste modo, se quisermos definir a
expectativa de vida de todos os brasileiros, pegaríamos uma
amostra finita de poucos brasileiros já mortos. Assim, haveria
5 poucos elementos a se estudar e de valor definido (a idade em que
morreram). Deve-se ressaltar que essa amostra retirada deveria
reproduzir todas as condições importantes para a duração da
vida da população, tais como sexo, posição socioeconômica,
educação, etc.

10 Tanto os elementos das populações quanto os elementos das


amostras assumem valores para a característica que estamos
estudando; por exemplo, a população formada pelos seguidores
religiosos pode apresentar católicos, evangélicos, espíritas, etc.
Esses são alguns dos valores que a variável religião pode assumir.
15 Assim, a característica da população ou da amostra que estamos
estudando pode ser expressa em termos de uma variável, que
pode assumir diferentes valores. Podemos distinguir as variáveis
em dois grupos:

• variáveis qualitativas: apresentam atributos como valor,


20 por exemplo, cor de cabelos, opções sexuais, times de
futebol etc.;

• variáveis quantitativas: apresentam valores numéricos,


tais como peso de pessoas, idade, número de defeitos na
produção de uma peça, etc. Também podem ser divididas
25 em duas categorias:

- discretas: são variáveis que podem apresentar apenas


valores predeterminados dentro de um conjunto, ou
seja, não existirão valores intermediários. Exemplo:
números de filhos de um casal; número de defeitos
30 numa linha de produção; quantidade de ações em
alta numa bolsa de valores, etc. Essas variáveis estão
ligadas às contagens;

3
Unidade I

- contínuas: apresentam teoricamente qualquer valor


dentro de um faixa possível. Por exemplo: pesos dos
estudantes desta faculdade, diâmetros dos eixos
produzidos por certa máquina; índices de inflação em
5 vários períodos, etc. Essas variáveis estão ligadas às
medições.

Deve-se notar que essa diferenciação entre variáveis


discretas e contínuas pode ser tênue, em função da quantidade
de elementos envolvidos e da precisão de medida. Por exemplo:
10 se medirmos o diâmetro de uma peça com paquímetro, iremos
obter medidas em centésimos de milímetro, quer dizer, a medida
18,56 mm na verdade é um valor entre 18,555 e 18,564; não é
possível saber, a menos que troquemos o paquímetro por um
micrômetro. Assim sendo, a variável contínua diâmetro da peça
15 se comporta como discreta após a precisão de centésimos de
milímetro.

A existência dos conceitos de população e de amostra nos


conduz à diferenciação entre dois campos da estatística: a
estatística descritiva e a estatística indutiva.

20 A estatística descritiva cuida da coleta, da organização, do


resumo e da apresentação dos dados de um conjunto (no fundo,
é um tratamento das variáveis estatísticas). Evidentemente,
esse conjunto tem que ser finito e com elementos com valores
definidos e determináveis, ou seja, uma amostra.

25 Já a estatística indutiva procura inferir conclusões e respaldar


decisões coerentes acerca de uma população, normalmente
respaldadas em dados obtidos pela estatística descritiva de uma
amostra.

Vamos supor que queiramos determinar a expectativa de


30 vida dos brasileiros. A população, evidentemente, é todos os
brasileiros vivos. O que nos conduz a dois entraves: a quantidade
de elementos da população é muito grande e os valores da

4
ESTATÍSTICA

variável, idade de morte, são prováveis, não reais. A maneira


de se contornar isso é através de amostragem: pegamos
uma amostra (segundo regras estatísticas que veremos) que
represente a população brasileira, ou seja, mesma divisão por
5 sexos, classes sociais, regiões geográficas etc., e cujos elementos,
já tendo morrido, permitam a coleta das idades de morte. Essa
coleta, bem como todo o tratamento posterior da amostra, é
feita através da estatística descritiva, e os resultados deste
tratamento estatístico da amostra são estendidos à população
10 toda, através de ferramentas da estatística indutiva.

Desta forma, podemos determinar a expectativa de vida de


todos os brasileiros, com algumas ressalvas:

• a indução vale para a população como um todo


homogêneo; não é possível aplicá-la para um indivíduo
15 específico;
• a previsão é de um valor provável, portanto, sujeito a
um erro estatístico, ou seja, a uma faixa de incerteza,
determinada estatisticamente, em torno do resultado
esperado. Esse erro depende das condições da população
20 e da amostra.

Note que quando falamos de um resultado obtido para uma


população, falamos em valor provável, e não num valor exato.
Isso nos remete ao campo da matemática que estuda a teoria
das probabilidades.

25 O estudo da teoria das probabilidades com os estudos da


estatística descritiva e da amostragem são as ferramentas
necessárias para a utilização da estatística indutiva.

Neste curso de estatística, trataremos da estatística descritiva,


ficando para o curso de estatística para administradores o estudo
30 de probabilidades e da estatística indutiva.

5
Unidade I

O curso de estatística foi dividido em duas unidades,


totalizando quatro módulos. No módulo I, trataremos dos
assuntos referentes à seleção e à coleta de dados, ponto de
partida para qualquer estudo estatístico.

5 No módulo II, iremos verificar como esses dados coletados


são inicialmente tratados através da tabulação, do resumo e
da representação dessas informações, tanto do ponto de vista
gráfico quanto analítico.

Os módulos III e IV (unidade II) tratam dos parâmetros ou


10 das medidas estatísticas. O primeiro, das medidas de posição, e
o segundo, das medidas de dispersão.

Terminados esses assuntos, estaremos aptos a entender o


comportamento estatístico de amostras e iniciarmos os estudos
da indução estatística, predizendo características de populações
15 estatísticas.

Esperamos que, com esse material, você tenha a oportunidade


de aprender os conceitos básicos de estatística e esteja apto para
continuar os estudos nessa área quando necessário for.

Bons estudos!

20 Prof. Maurício Martins do Fanno

6
ESTATÍSTICA

ANÁLISE EXPLORATÓRIA DE DADOS

1 COLETA DE DADOS

Objetivos

Entende-se por estatística o conjunto de conceitos,


técnicas e ferramentas destinados a organizar, descrever,
analisar e interpretar dados. Dados são valores apresentados
5 por um determinado fenômeno ou observação, como, por
exemplo, as alturas dos alunos de uma classe, o salário dos
funcionários de um departamento, o volume de vendas de
uma empresa ou a cor dos olhos das modelos de uma agência.
Esses dados são coletados em estado bruto e submetidos a
10 sucessivos tratamentos no sentido de organizá-los, resumi-los
e analisá-los. Neste primeiro momento, iremos nos ater à
coleta e à organização dos dados.

1.1 Dados e variáveis estatísticas

Entendemos como conjunto de dados o objeto de trabalho


da estatística. Esses dados são valores assumidos pelos
15 elementos de um conjunto de indivíduos que apresentam em
comum uma característica estudada. Caso você olhe à sua volta
na empresa em que trabalha, verá uma grande quantidade
de indivíduos, todos eles dotados de infinitas características,
tais como cor dos olhos e cabelos, altura e peso, salário e
20 idade, time de futebol do coração ou religião. Dessas infinitas
características, estaremos atentos a uma delas, objeto do nosso
estudo estatístico.

Digamos que estamos, no momento, desejando entender


como se comporta a remuneração dos funcionários dessa
25 sua empresa. Iremos então coletar dados relativos a essa
remuneração, ou seja, os salários. Salário, portanto, será a
característica que estamos estudando e que poderá assumir um
determinado valor dentro de uma faixa lógica.

7
Unidade I

Dizemos, assim, que nesse referido estudo salário é a


variável estudada. Perceba que todos os funcionários da
empresa têm uma série de outras características, mas a
característica que nos interessa é o salário. As outras poderão
5 ter importância para nós, mas não será nossa variável de
estudo. Coletar dados é obter os diversos valores que a variável
estudada assume.

Outro fator importante de ser observado é a quantidade


de elementos com que temos condição de trabalhar e a
10 possibilidade ou não de se medir seu valor. Dependendo dessas
duas observações, deveremos utilizar ferramentas diferentes de
organização e análise dos dados. Observe os seguintes exemplos,
para tornarmos mais claro o raciocínio:

a. desejamos saber se os chefes de família das casas da


15 rua em que moramos são mais ou menos altos em
relação ao conjunto de brasileiros de modo geral. A
primeira providência a se tomar seria medir todos os
chefes de família, para obter os valores da variável
estudada (altura). Perceba que, a não ser que moremos
20 numa rua muito extensa, o processo de coleta de
dados não será tão trabalhoso assim, principalmente
pelo fato de que todos saberão responder a altura que
têm. No entanto, caso,
b. desejarmos saber se os chefes de família de todas as
25 casas de nossa cidade são mais ou menos altos em
relação aos brasileiros, passaremos a ter um primeiro
inconveniente: a quantidade de elementos que deverão
ser medidos. Mesmo que moremos numa cidade
pequena, a quantidade de dados a serem coletados
30 pode atingir facilmente a casa dos milhares. Perceba
que o trabalho que teremos em levantar esses dados
possivelmente não será compensado pela informação
obtida. Por outro lado, imagine a seguinte situação, em
que

8
ESTATÍSTICA

c. desejamos saber se as crianças da nossa rua serão


mais ou menos altas em relação aos brasileiros quando
crescerem. Nesse caso, a quantidade de crianças não
deve ser tão grande, mas, em compensação, não teremos
5 como medi-las no dia de hoje; elas ainda estão crescendo,
portanto, a altura delas quando adultas não é um valor
definido, e sim provável.

Perceba, pelos exemplos acima, que, dependendo da situação,


teremos dificuldades (ou facilidades) diferentes. Em estatística,
10 costuma-se dividir as situações descritas em dois grandes
campos: amostra e população.

Amostra é um conjunto que tem relativamente poucos


elementos, e o valor da variável estudada para esses elementos
é real e verificável. É o caso do item a acima. População é o
15 conjunto que tem relativamente muitos elementos e/ou cujos
valores da variável estudada não são reais e verificáveis, casos
dos itens b e c acima.

Observe que, para configurarmos uma amostra, é necessário


que a quantidade de elementos seja pequena e o valor seja real;
20 em casos contrários, estaremos configurando uma população.
Note também que é evidente o fato de que situações envolvendo
amostras terão tratamentos diferentes daquelas envolvendo
populações.

É importante também notar que, quando falamos em


25 quantidades grandes ou pequenas, estamos relativizando-as,
ou seja, trabalhar com mil elementos pode ser uma grande
quantidade ou uma pequena quantidade, depende dos recursos
(monetários, de tempo, de espaço etc.) disponíveis.

Exemplificando: suponha que queiramos levantar as


30 idades de todos os alunos que estão cursando estatística
neste semestre. Caso nós tenhamos ao nosso dispor os
cadastros dos alunos no sistema de informação da instituição,

9
Unidade I

a quantidade de alunos será relativamente pequena, pois


temos recursos suficientes, mas, se tivermos que consultar
um por um dos alunos, a quantidade será relativamente
grande, pois não teremos recursos para tanto.

5 De modo geral, podemos dizer que informações


envolvendo amostras são obtidas através da estatística
descritiva, enquanto aquelas envolvendo populações,
através da estatística indutiva, e que, para conhecermos o
comportamento estatístico das populações, retiramos delas
10 amostras para estudo.

1.2 Classificações das variáveis

Vimos anteriormente que entendemos por variável a


característica envolvida em nosso estudo estatístico. Essa
variável pode se apresentar de vários tipos diferentes, os quais
determinarão os estudos estatísticos possíveis.

15 Algumas variáveis expressam atributos ou qualidades dos


indivíduos como, por exemplo, religião, sexo, estado civil etc.
São as chamadas variáveis qualitativas. Outras variáveis
apresentam como resultados possíveis valores numéricos; por
exemplo, o número de filhos, a altura, salário, idade etc. São as
20 chamadas variáveis quantitativas.

As variáveis qualitativas podem ser divididas, por sua


vez, em duas categorias: variáveis qualitativas nominais,
quando não é possível fazer qualquer tipo de ordenação, e
variáveis qualitativas ordinais, quando alguma ordenação
25 é possível. Podemos citar como exemplo a pergunta: “Você
pratica esportes?”. Há duas respostas possíveis: sim e não.
Trata-se, portanto, de uma variável qualitativa nominal.
Caso a pergunta fosse: “Com que intensidade você pratica
esportes?”, a resposta poderia ser: nenhuma, pequena, média
30 ou grande. Estaríamos tratando de uma variável qualitativa
ordinal.

10
ESTATÍSTICA

As variáveis quantitativas, por seu lado, também podem


apresentar duas categorias: as variáveis quantitativas
discretas são aquelas em que os resultados formam um
conjunto finito e previsível de números, enquanto que
5 as variáveis quantitativas contínuas apresentam como
resultados todos os valores numéricos dentro de um
intervalo de números reais. A pergunta “Quantos irmãos
você tem?” produz uma variável quantitativa discreta
(0,1,2,3,... irmãos). Já a pergunta “Quanto você pesa?” gera
10 uma variável quantitativa contínua (qualquer valor dentro
de uma faixa lógica para um ser humano). Para simplificar,
costumamos dizer que, quando contamos, estamos diante
de uma variável quantitativa discreta e, quando medimos,
estamos diante de uma variável quantitativa contínua.
15 Perceba que eu conto o número de irmãos que tenho e
meço o meu peso numa balança.

É importante observar que os estudos estatísticos


apresentam quantidade de informação diferente para cada
tipo de variável na seguinte sequência crescente: variáveis
20 qualitativas nominais; variáveis qualitativas ordinais;
variáveis quantitativas discretas e variáveis quantitativas
contínuas.

1.3 Amostragem

Falamos anteriormente que amostra e populações são


tratadas de maneira diversa na estatística e também que
25 os elementos de um conjunto de indivíduos têm inúmeras
características, uma das quais está sendo estudada e é
chamada de variável. Falta falarmos das demais características
desses elementos e de algumas relações entre as populações
e amostras.

30 Frequentemente, quando desejamos saber algo a respeito


de uma população, utilizamos uma amostra como campo
de estudo do fenômeno e expandimos (extrapolamos) as

11
Unidade I

conclusões para a população. A situação mais conhecida e


mais didática que podemos usar são as pesquisas eleitorais.
Meses ou dias antes de uma eleição, desejamos saber (antever
ou prever ou predizer) o resultado dessa eleição. Isso é possível
5 com certa margem de erro através de um processo conhecido
como amostragem.

Esse processo de amostragem inicia-se a partir do


planejamento da amostra, que deve reproduzir em pequena
escala todas as características da população. A ideia é a mesma
10 do enólogo (aquele que prova vinhos): ele não precisa beber
uma garrafa inteira de vinho (ou um tonel) para dizer se o vinho
é bom ou ruim; basta uma pequena dose, a amostra. Ocorre
que o vinho é uma substância totalmente homogênea, todas as
partes dele são idênticas. Já se fosse uma feijoada, não teríamos
15 a mesma homogeneidade. A feijoada é heterogênea.

Isso significa que não podemos usar o mesmo princípio


de amostragem do vinho para a feijoada? Não. Podemos
usar sim, mas com alguns cuidados! Na amostra de
feijoada que iremos provar, é necessário que todas as suas
20 partes sejam representadas, ou seja, precisamos pegar um
prato em que estejam representados todos os pertences
da feijoada (linguiças, paio, toucinho etc.). Note que é
mais fácil definir a qualidade do vinho do que de uma
feijoada, ou seja, termos maior margem de erro no teste
25 da feijoada que do vinho. Por quê? Justamente devido à
heterogeneidade da feijoada. Anote isso; voltaremos a
esse assunto oportunamente.

No caso da pesquisa eleitoral, a situação é a mesma da


feijoada. A população eleitoral (todos os eleitores inscritos em
determinada região eleitoral) é heterogênea, logo, a amostra
retirada deverá representar essa heterogeneidade naquilo que
30 é importante para a definição do voto. Vamos exemplificar
numericamente. Suponha que os dados do quadro a seguir
representam algumas das características da população de

12
ESTATÍSTICA

eleitores de uma determinada cidade na qual o próximo prefeito


será eleito em novembro.

Homens 48,2% A 8%
Sexo
Mulheres 51,8% Classe B 22%
16 a 20 anos 12,3% econômica C 43%
20 a 30 anos 24,6% D 27%
30 a 40 anos 26,9% Time Arranca Toco FC 45%
Idade preferido
40 a 50 anos 15,8% Se Deixa que xuto 32%
de
50 a 60 anos 14,6% futebol CA Avezesobrio 23%
acima de 60 anos 5,8% Dados fictícios

Perceba que, quando fazemos uma pesquisa eleitoral,


queremos saber em quem o leitor irá votar, ou seja, a
5 característica que nos interessa é a intenção de voto.
Portanto, a variável de uma pesquisa eleitoral é a intenção de
voto. Mas essa não é a única característica com a qual iremos
nos preocupar.

Sabemos por experiência anterior que, por exemplo, homens


10 e mulheres têm comportamentos diferentes na hora de votar,
quer dizer, utilizam critérios diferentes para escolher suas
preferências. Desta forma, quando tomarmos uma amostra, nós
precisaremos tomar cuidado com a quantidade de homens e
mulheres que farão parte da amostra. Não podemos pegar uma
15 amostra na qual só temos homens ou mulheres. Digamos que
na cidade vamos fazer uma pesquisa eleitoral a partir de uma
amostra de 1.000 eleitores. Essa amostra deverá ser formada por
482 homens (48,2% de 1.000) e por 518 mulheres (51,8% de
1.000).

20 Do mesmo modo, nós deveríamos nos comportar com


relação às outras características que têm importância na
definição dos votos. Isso quer dizer que deveríamos manter a
proporcionalidade de eleitores com relação à idade e à classe
econômica, características que sabidamente influem na

13
Unidade I

definição de voto. Caso não fosse feito assim, introduziríamos


uma falha no nosso processo estatístico, introduziríamos um
viés estatístico.

E a característica “time de futebol preferido”? Precisamos


5 nos preocupar com ela? Evidentemente que não. A
preferência por um time de futebol não interfere na opção
de voto (a não ser em casos muito especiais, dos quais a
estatística não consegue se encarregar).

Note que nós podemos, portanto, dividir as características


10 dos elementos de uma população ou de uma amostra em
três categorias: a(s) características(s) estudada(s), chamada(s)
variável(eis) estatística(s); características principais, que
definem a proporcionalidade das populações e suas amostras e
as características secundárias, que não interferem nos nossos
15 estudos estatísticos.

Assim sendo, é possível assumir que, a partir de uma amostra


corretamente estabelecida, é possível conhecer uma população,
por maior que seja ou menos real que sejam seus elementos. O
princípio é o mesmo do enólogo. Conhecermos o todo por uma
20 pequena parte dele.

É claro que esse conhecimento não será composto de


certezas absolutas; deverá haver alguma incerteza, em
outras palavras, certa tolerância com as nossas conclusões.
Assim, se numa amostra colhida para uma pesquisa eleitoral
25 for revelada a preferência de 46% para o candidato A,
poderemos afirmar que a população provavelmente
também terá 46% de eleitores para esse candidato. Mas isso
não é uma certeza, pode haver alguma variação, para mais
ou para menos.

30 Essa tolerância é chamada de margem de erro e depende


basicamente de três fatores:

14
ESTATÍSTICA

1. O grau de homogeneidade da população. Quer dizer,


quanto mais homogênea for uma população, menor será
a margem de erro.

2. O tamanho da amostra tomada. Tamanho da amostra é


5 a quantidade de elementos pela qual é composta. Desta
forma, uma pesquisa com 1.000 eleitores tem maior
margem de erro do que uma feita com 5.000 eleitores.

3. O grau de confiabilidade com o qual queremos trabalhar.


Podemos optar por ter maior ou menor confiança nas
10 respostas obtidas. Quanto maior confiança quiser ter,
maior será a margem de erro.

1.4 Processos estatísticos

Utilizando os conceitos dos itens anteriores, podemos definir


os passos do processo estatístico:

1. Definir o objeto do estudo, as populações e as amostras


15 envolvidas. Planejar amostras de modo que representem
corretamente, sem vieses, as populações de que foram
retiradas.

2. Coletar os dados amostrais, ou seja, medir a variável


estatística de cada um dos elementos da amostra.

3. Tabular e representar os dados colhidos na forma de


20 tabelas e gráficos, que permitam visualizar de modo
amigável as informações disponíveis.

4. Cálculo dos parâmetros estatísticos. Esses parâmetros


são medidas que “resumem” as informações coletadas de
modo mais imediato.

25 5. Indução de parâmetros amostrais em parâmetros


populacionais ou vice-versa. Consiste em fazer a relação
entre populações e amostras, conforme descrito acima.

15
Unidade I

Os passos de um a cinco acima constituem o campos da


estatística descritiva, objeto de estudo desta apostila. O passo
cinco é o campo da estatística indutiva, assunto que veremos
na disciplina Estatística para Administradores.

5 Passaremos, então, a nos preocupar com cada um dos


passos acima visando percorrer todo o processo estatístico.

1.5 Coletas de dados

A coleta de dados é uma operação típica de campo na


qual identificamos os valores da variável estatística para
todos os elementos de uma amostra previamente definida.
10 Frequentemente, essa amostra tem seus elementos
definidos por escolha aleatória, ou seja, sorteamos um
elemento da população para fazer parte da amostra. Como
exemplo, imagine que eu, pesquisador de campo, precise
entrevistar um eleitor com as seguintes características:
15 mulher; classe econômica B; grau de instrução superior;
idade entre 30 e 35 anos; moradora da zona leste.

Para cumprir minha tarefa, irei a um local em que mais


provavelmente encontrarei alguém nessas condições e, após
algumas pré-entrevistas, determinarei um elemento com
20 exatamente essas características. Esse elemento fará parte da
minha amostra e para ele irei fazer as perguntas desejadas; por
exemplo, em quem ele pretende votar.

As respostas dos elementos escolhidos para a amostra


constituirão os dados brutos ou rol do meu estudo, ou seja,
25 uma relação de respostas às minhas questões sem nenhum tipo
de ordenação, classificação ou elaboração. A tabela 1 exemplifica
os dados brutos de uma pesquisa feita entre 42 alunos de uma
universidade a respeito de vários assuntos:

16
ESTATÍSTICA

Tabela 1 - Dados brutos de uma amostra de alunos de uma universidade


Qualidade
Nome do Curso Idade em Renda
Ordem Estado civíl atribuída à Sexo nº de DPs.
Aluno matriculado anos familiar
instituição
1 Daiane solteiro Jornalismo Ótima F 19 R$ 3.220,00 2
2 Alberto solteiro Administração Boa M 20 R$ 4.050,00 0
3 Rui casado Direito Regular M 25 R$ 1.950,00 4
4 Carolina casado Engenharia Ruim F 21 R$ 1.682,00 6
5 Joaquim divorciado Marketing Péssima M 28 R$ 7.850,00 8
6 Rubens solteiro Engenharia Ótima M 23 R$ 4.567,00 0
7 Jéssica solteiro Administração Boa F 20 R$ 10.567,00 0
8 Luis Carlos solteiro Engenharia Regular M 20 R$ 2.687,00 2
9 Fernando casado Direito Ótima M 27 R$ 3.654,00 1
10 Mayra solteiro Marketing Ruim F 19 R$ 956,00 1
11 Cristina solteiro Administração Boa F 18 R$ 1.350,00 0
12 Walter casado Direito Péssima M 30 R$ 4.560,00 2
13 Leonardo solteiro Jornalismo Boa M 34 R$ 5.892,00 3
14 Guilherme divorciado Engenharia Regular M 29 R$ 7.652,00 5
15 Paula solteiro Administração Ruim F 20 R$ 1.950,00 5
16 Danilo solteiro Marketing Boa M 20 R$ 1.386,00 2
17 Camila solteiro Administração Ótima F 20 R$ 9.560,00 2
18 Pedro solteiro Direito Regular M 18 R$ 4.325,00 2
19 Vinicius casado Administração Péssima M 26 R$ 1.956,00 1
20 José solteiro Engenharia Boa M 24 R$ 2.654,00 3
21 Carlos solteiro Administração Ótima M 23 R$ 1.965,00 0
22 Vanessa solteiro Administração Ruim F 22 R$ 3.645,00 0
23 Samantha casado Jornalismo Boa F 21 R$ 2.987,00 0
24 Mauro casado Administração Regular M 29 R$ 3.652,00 0
25 Mariana solteiro Engenharia Ruim F 23 R$ 1.978,00 0
26 Juliana casado Administração Boa F 24 R$ 5.478,00 1
27 Arnaldo solteiro Marketing Regular M 26 R$ 6.352,00 4
28 Marília solteiro Administração Péssima F 24 R$ 4.231,00 2
29 Neiva solteiro Administração Boa F 27 R$ 1.289,00 3
30 Roberto solteiro Direito Regular M 23 R$ 2.987,00 4
31 Wilson divorciado Administração Ótima M 28 R$ 3.645,00 5
32 Manoel casado Direito Regular M 22 R$ 9.564,00 3

17
Unidade I

33 Marina solteiro Engenharia Boa F 21 R$ 6.523,00 4


34 Gustavo solteiro Direito Ruim M 19 R$ 4.235,00 1
35 Maicon solteiro Administração Ótima M 18 R$ 5.634,00 0
36 Ladyjane casado Administração Péssima F 34 R$ 1.965,00 0
37 Maria solteiro Direito Boa F 36 R$ 1.932,00 1
38 Gabriel solteiro Administração Regular M 27 R$ 1.002,00 0
39 Karina solteiro Jornalismo Ótima F 20 R$ 2.342,00 1
40 Diego solteiro Direito Ruim M 21 R$ 2.569,00 2
41 Marcos solteiro Engenharia Boa M 21 R$ 3.789,00 2
42 Valquiria casado Administração Ruim F 29 R$ 4.675,00 3

Observe que as características arroladas no quadro são


variáveis de diferentes tipos, como mostrado abaixo:

Variável Significado Tipo de variável


É a ordem com que Variável qualitativa nominal.
coletamos os dados.
Ordem É apenas um atributo
Relaciona a entrevista à qualitativo.
sequência utilizada.
Variável qualitativa nominal.
O primeiro nome de cada
Nome do aluno É apenas um atributo
um dos entrevistados. qualitativo.
Variável qualitativa nominal.
Estado civil Estado civil do aluno. É apenas um atributo
qualitativo.
Variável qualitativa nominal.
Curso Curso ao qual o aluno É apenas um atributo
matriculado pertence. qualitativo.
Qualidade Variável qualitativa ordinal. É
Qual é a qualidade do curso apenas
atribuída à um atributo qualitativo
percebida pelo aluno.
instituição que mostra intensidade.
Variável qualitativa nominal.
M significa Masculino; F
Sexo É apenas um atributo
significa Feminino. qualitativo.
Variável quantitativa contínua.
Apesar de ser dada em anos,
Quantos anos cada aluno
Idade permitiria que fosse medida
tem. em valores fracionários (meses,
dias, até horas).
Variável quantitativa
Qual é a renda da família
Renda familiar continua. É medida em valores
nuclear do aluno. fracionários.
Variável quantitativa
Número de Quantas dependências o discreta. Os valores são
DPs aluno tem para cursar. obrigatoriamente inteiros. Não
existe “meia DP”.

18
ESTATÍSTICA

A tabela 1 relaciona uma grande quantidade de dados que


dificilmente poderão ser entendidos se não forem agrupados,
organizados, resumidos e apresentados de modo minimamente
atraente.

5 As maneiras mais comuns de trabalharmos esses dados é o


assunto do nosso próximo módulo.

2 REPRESENTAÇÃO DOS DADOS COLETADOS

Objetivos

Os dados brutos trazem toda informação necessária para


se entender estatisticamente determinado assunto, mas como
10 o próprio nome indica, a ausência de algum refinamento faz
com que não seja possível chegar-se a conclusões de qualidade.
Para permitir essas conclusões e mesmo o entendimento das
informações, devemos representar esses dados de uma forma
mais imediata, seja analiticamente, através de quadros e tabelas,
15 seja graficamente, aproveitando-se do impacto visual que
os gráficos nos trazem. Faremos isso com uma sequência de
definições e procedimentos objetos deste módulo.

2.1 Conceito de frequência

É o número de vezes que determinado valor (ou faixa de


valores) se repete dentro da amostra. Inicialmente, podemos
20 citar:

• Frequência simples (fi): é o número de vezes em que


determinado valor aparece, contado diretamente. O
símbolo mencionado significa a frequência do iésimo valor,
ou seja, de um determinado valor que será numerado em
25 sequência. Deste modo, o primeiro valor terá a frequência f1,
o segundo, a frequência f2 e assim por diante. Essa notação
do iésimo termo será utilizada em todas as definições
posteriores. A somatória de todas as frequências gerará

19
Unidade I

a frequência total (ft), que corresponderá, evidentemente,


ao número total de elementos da amostra (N). A fórmula
matemática envolvendo essas definições é:
n n
ft = ∑ fi ou N = ∑ fi
i=1 i=1

5 • Frequência relativa (fri): é a frequência simples dividida pela


frequência total, ou seja, é o “peso” que cada valor tem na
amostra total. Pode ser apresentada em valor decimal ou
em valor percentual. Evidentemente que a somatória das
frequências relativas de todos os valores é igual a 1 ou 100%.

fi fi
10 fri = ou fri % = x 100
∑ n
i=1fi ∑ n
i=1fi

Com essa duas definições, podemos começar a agrupar os


dados coletados em tabelas mais resumidas; são as chamadas
tabelas ou distribuições de frequências.

2.2 Distribuições ou tabelas de frequências

É o quadro que resume os valores da variável estudada na


15 amostra, através do relacionamento do valor com sua frequência.
Pode assumir dois formatos diferentes:

2.2.1 Dados isolados ou dados não agrupados em classes

Neste caso, os valores dos dados são tomados como foram


colhidos, sem nenhum tipo de agrupamento, relacionados à
sua frequência. Como os valores são exatamente como foram
20 colhidos, não há perda de precisão. O inconveniente é que
pode-se gerar uma tabela de frequências com muitos dados, o
que dificulta o tratamento estatístico. Normalmente, é utilizado
este formato quando trabalhamos com variáveis qualitativas
ou variáveis quantitativas discretas. A tabela 2 mostra alguns

20
ESTATÍSTICA

exemplos de distribuições de frequências deste tipo produzidas


a partir dos dados brutos constantes da tabela 1 (página 17).
Perceba que ela foi construída unicamente pela contagem e
pelo relacionamento dos dados coletados.

Tabela 2 - Distribuições de Frequências - dados não agrupados

Distribuição de frequências Distribuição de frequências


Estados civis Cursos matriculados
Estado Frequência Frequências relativas Curso Frequência Frequências relativas
Civil simples Decimal Percentual Matriculado simples Decimal Percentual
xi fi fri fri% xi fi fri fri%
Casados 11 0,262 26,2% Administração 17 0,405 40,5%
Divorciados 3 0,071 7,1% Direito 9 0,214 21,4%
Solteiros 28 0,667 66,7% Engenharia 8 0,190 19,0%
Total 42 1,000 100,0% Jornalismo 4 0,095 9,5%
Marketing 4 0,095 9,5%
Distribuição de frequências Total ft 42 1,000 100,0%
Número de dependências
Número de Frequência Frequências relativas Distribuição de frequências
dependências simples Decimal Percentual Sexo
xi fi fri fri% Frequência Frequências relativas
Sexo
0 12 0,286 28,6% simples Decimal Percentual
1 7 0,167 16,7% xi fi fri fri%
2 9 0,214 21,4% Masculino 24 0,571 57,1%
3 5 0,119 11,9% Feminino 18 0,429 42,9%
4 4 0,095 9,5% Total ft 42 1,000 100,0%
5 3 0,071 7,1%
6 1 0,024 2,4% Agrupamento de dados brutos
8 1 0,024 2,4% relacionados na tabela 1
Total ft 42 1,000 100,0%

2.2.2 Dados agrupados em classes

5 Neste caso, os valores são agrupados por classes, o que


reduz a quantidade de informações trabalhadas, mas provoca,

21
Unidade I

consequentemente, uma perda de precisão. Esse formato é o


indicado quando trabalhamos com variáveis quantitativas
contínuas.

A construção dessa tabela é mais trabalhosa que a


5 anterior e se justifica pelo fato de que apresenta os dados
de modo mais resumido. Caso não a utilizássemos, iríamos
produzir uma tabela de frequências muito extensa, com
excesso de valores diferentes, cada um deles com baixa
frequência. Para construí-la, necessitamos definir alguns
10 conceitos e tomar algumas decisões.

A primeira providência que devemos tomar é escolher


o número de classes (n) em que iremos agrupar os dados.
Deve-se notar que, se utilizarmos muitas classes, estaremos
aumentando o trabalho no tratamento dos dados, e se
15 utilizarmos poucas, estaremos prejudicando a precisão das
conclusões. Existem muitas recomendações diferentes para
a adoção do número de classes; iremos adotar a relação de
Sturges:

n = 1+1,44 lnN

20 Onde n é o número de classe recomendado e N é o número


de total de elementos da nossa amostra. Lembre-se de que:

N = ft

Na tabela 1, nós temos uma amostra de 42 alunos, portanto,


caso queiramos montar a tabela de frequências das rendas
25 familiares deles (que é uma variável quantitativa contínua),
deveremos usar 7 classes:

n = 1+1,44 ln42 => n = 1+1,44 x 3,74 => n = 6,4

Obs.: evidentemente, não podemos usar 6,4 classes.


Optamos então pelo valor inteiro mais próximo acima ou

22
ESTATÍSTICA

abaixo. Optamos por usar 7 classes porque assim teremos mais


precisão do que com 6.

Essas sete classes devem abranger todos os valores do rol


que está sendo estudado, desde o menor até o maior; deste
5 modo, devemos determinar estes valores, que são chamados,
respectivamente, de limite mínimo da distribuição (Lmin) e limite
máximo da distribuição (Lmax).

Em tese, o valor do limite inferior da distribuição coincide


com o valor inicial da primeira classe da tabela (esses valores
10 iniciais de cada classe são chamados de limites inferiores de
classe (lii)), e o limite superior da distribuição coincide com o
valor final da última classe da distribuição (esses valores finais
de cada classe são chamados de limites superiores de classe (lsi)).
Na prática, pode ser necessário algum ajuste desses últimos dois
15 valores para podermos trabalhar com dados arredondados.

Entre o limite superior e o limite inferior de cada classe,


existe um intervalo chamado de intervalo de classe (h), e ele
deve ser determinado a partir da amplitude total (At), que é a
diferença entre o maior e o menor valor do rol e do número de
20 classes, utilizando as seguintes fórmulas:
At
h=
n
A t = Lmax − Lmin

Deste modo, o limite superior de cada classe será o valor


inferior dela mesma mais a amplitude de classe, ou seja:

25 lsi = lii+h

Observemos os 42 valores relacionados na tabela 1 na coluna


“Renda familiar”. Iremos agrupá-los em 7 classes conforme os
passos a seguir.

23
Unidade I

Podemos determinar o intervalo (ou a amplitude) de classes,


desde que tenhamos a amplitude total, e para tanto precisamos
determinar os valores máximos e mínimos da distribuição, que,
no nosso exemplo, são, respectivamente:

5 Lmax = R$ 10.567,00
Lmin = R$ 956,00

Logo, a amplitude total será:

At = Lmax - Lmin => At =10.567 - 956 => At = R$ 9.611,00

Consequentemente, a amplitude de cada classe1 será:

10 At 9611
h= => h = => h = R$1.373, 00
n 7

Definidos o número de classes e a amplitude de classe,


podemos montar a tabela de frequências. O limite inferior da
primeira classe coincide com o limite inferior da distribuição, e o
limite da oitava (e última classe) coincide com o limite superior
15 da distribuição (ressalvando o exposto no rodapé).

Os demais limites superiores de classe são obtidos somando-


se o limite inferior da classe com a amplitude da classe. O limite
inferior de uma classe tem o mesmo valor do limite superior da
classe inferior. Assim, o limite superior da primeira classe é dado
20 por:

ls1 = 956 + 1373 = > ls1 = 2329

E o limite inferior da segunda classe é dado por:

li2 = ls1 = > li2 = 2329

1
Neste exemplo, a amplitude de classe é um valor exato dentro
da quantidade de casas decimais utilizadas; se isso não ocorresse, seria
necessário ajustar a amplitude total de modo que a amplitude de classe
assumisse um valor exato. Assim sendo, o limite superior da distribuição ou
o limite inferior ou ambos deveriam ser alterados para corresponderem à
nova amplitude total, quando da montagem da tabela de frequências.

24
ESTATÍSTICA

Devemos definir também qual dos limites será aberto e qual


será fechado de modo que não haja possibilidade de algum valor
ficar sem sua classe perfeitamente definida.

Entende-se por limite fechado aquele que inclui o valor


5 nominal, e por limite aberto, aquele que não inclui. Uma barra
vertical indica o limite fechado, e sua ausência, o limite aberto.
A simbologia para um e para outro é a seguinte:

|------- Limite fechado (obviamente à esquerda)


------- Limite aberto (tanto à direita quanto à esquerda)

10 Note, na tabela 3, que a primeira classe é limitada pelos


valores 956 e 2329, sendo o valor 956 um limite fechado e 2329,
aberto. Isso quer dizer que o valor 956 está incluído nesta classe,
e o 2329, na classe seguinte.

Pode-se fixar de modo arbitrário os limites aberto ou


15 fechado, desde que para cada valor exista uma e apenas uma
classe possível.

Definidas as classes, procedemos à contagem dos elementos


abrangidos por cada uma delas. O número de elementos
encontrados em cada uma delas é a já definida frequência
20 simples.

Tabela 3 - Distribuições de frequências - dados agrupados


Renda familiar
Frequência Frequências relativas
Classe Limites de classes em R$ Contagem simples Decimal Percentual
número
li ls
1 956 |----- 2329 IIIII IIIII III 13 0,310 31,0%
2 2329 |----- 3702 IIIII IIIII I 11 0,262 26,2%
3 3702 |----- 5075 IIIII III 8 0,190 19,0%
4 5075 |----- 6448 IIII 4 0,095 9,5%
5 6448 |----- 7821 II 2 0,048 4,8%
6 7821 |----- 9194 I 1 0,024 2,4%
7 9194 |----- 10567 III 3 0,071 7,1%
Total ft 42 1,000 100,0%

25
Unidade I

Perceba que transformamos 42 informações em 7, o que nos


poupará muito tempo e custo nos estudos estatísticos, além de
nos permitir uma melhor visualização dos dados.

2.3 Frequências acumuladas

Voltando aos dados da tabela 1, poderiam surgir questões do


5 tipo: quantos alunos têm idade superior a 23 anos? Ou então,
quantos alunos têm renda familiar acima de R$ 5.000,00? Ou
ainda, quantos alunos acham que a faculdade é acima de regular?
Essas questões são respondidas com as chamadas frequências
acumuladas, que podem ser crescentes e decrescentes.

10 Assim, podemos conceituar e calcular as frequências


acumuladas acima de (ou decrescentes), e as frequências
acumuladas, abaixo de (ou crescentes), respectivamente.

As frequências acumuladas acima de (ou decrescentes)


correspondem à quantidade total de elementos que existem
15 na amostra acima de dado valor. No caso de dados agrupados,
a frequência acumulada acima de determinada classe é a
somatória das frequências posteriores, incluindo a da própria
classe. Deste modo, a frequência acumulada acima da primeira
classe é a frequência total, e a da segunda classe é a frequência
20 total menos a frequência da primeira classe e assim por diante.
Notar que a frequência acumulada acima da última classe é a
frequência simples da própria classe.

Raciocínio oposto se faz para a frequência acumulada


abaixo de (ou frequência crescente). Nesse caso, a frequência
25 acumulada abaixo de uma classe (ou valor) é a somatória da
quantidade de elementos de menor valor, incluída a frequência
da própria classe. Assim sendo, a frequência acumulada abaixo
da primeira classe é a frequência dela mesma, a da segunda é
a soma das frequências da primeira e segunda classe e assim
30 por diante. Notar que a frequência acumulada abaixo da última
classe é a frequência total.

26
ESTATÍSTICA

A tabela 4 apresenta os cálculos feitos para a variável


“quantidade de dependências”, e a tabela 5, para a variável
“Idades”, sempre a partir dos dados da tabela 1.

Tabela 4 - Distribuições de frequências - dados não agrupados


Número de dependências
Frequências relativas Frequências acumuladas
Número de Frequência Abaixo de Acima de
dependências simples Decimal Percentual ou ou
crescente decrescente
xi fi fri fri% fac↓ fac↑
0 12 0,286 28,6% 12 42
1 7 0,167 16,7% 19 30
2 9 0,214 21,4% 28 23
3 5 0,119 11,9% 33 14
4 4 0,095 9,5% 37 9
5 3 0,071 7,1% 40 5
6 1 0,024 2,4% 41 2
8 1 0,024 2,4% 42 1
Total ft 42 1,000 100,0%

Tabela 5 - Distribuições de frequências - dados agrupados


Idades
Frequências
Frequências relativas
Limites de acumuladas
Classe Frequência
classes em Abaixo Acima de
número simples
anos Decimal Percentual de ou ou
crescente decrescente
li ls fi fri fri% fac↓ fac↑
1 18 |--- 21 13 0,310 31,0% 13 42
2 21 |--- 24 11 0,262 26,2% 24 29
3 24 |--- 27 6 0,143 14,3% 30 18
4 27 |--- 30 8 0,190 19,0% 38 12
5 30 |--- 33 1 0,024 2,4% 39 4
6 33 |--- 36 3 0,071 7,1% 42 3
Total 42 1,000 100,0%

27
Unidade I

2.4 Representações gráficas

Os dados agrupados em tabelas de frequências mantêm


basicamente a mesmas informações do rol, com a diferença
de que são mais resumidos, fáceis de entender e mais
impactantes. Mais impactantes ainda são os dados organizados
5 e apresentados na forma de gráficos. A visualização da
informação é normalmente um meio de comunicação mais
eficaz dos que as tabelas e os quadros analíticos, apesar de
que haverá sempre uma perda parcial das informações, que
será largamente compensada pela concisão e pela facilidade
10 de interpretação dos gráficos.

Existe uma infinidade de gráficos diferentes, cada um


deles adequando-se a determinadas finalidades. Os recursos
eletrônicos, em especial planilhas como o Excel, tornaram mais
simples a elaboração e mais atrativo o uso de informações
15 gráficas. Essa enorme variedade pode, no entanto, ser agrupada
em alguns tipos principais dos quais os outros são variações
estéticas e artísticas. A seguir, mostraremos os tipos mais comuns
e usados de gráficos

2.4.1 Histogramas

São dos mais simples e utilizados gráficos na estatística.


20 Representam, normalmente, a frequência simples através de
linhas verticais ou colunas cuja altura é proporcional à frequência
do valor na qual está centrada.

Para dados quantitativos não agrupados, utilizam-se linhas


verticais posicionadas no valor correspondente e desenhadas
25 sobre um plano cartesiano.

A tabela 6 e o gráfico 1 mostram o histograma do número


de dependências entre os alunos da tabela 1.

28
ESTATÍSTICA

Tabela 6 - Distribuição de frequência


Número de dependências
Número de dependências Frequência simples
0 12
1 7
2 9
3 5
4 4
5 3
6 1
8 1
Total 42

Gráfico 1
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7 8 9
Número de dependências por aluno

Para dados agrupados em classes, as linhas verticais


transformam-se em colunas cuja largura da base é proporcional
ao intervalo de classe. A tabela 7 e o gráfico 2 referem-se à
renda familiar dos alunos da amostra relacionada na tabela 1.
Tabela 7 - Distribuições de frequências - dados agrupados
Renda familiar
Classe Frequência
Limites de classes em R$
número simples
li ls fi
1 956 |----- 2329 13
2 2329 |----- 3702 11
3 3702 |----- 5075 8
4 5075 |----- 6448 4
5 6448 |----- 7821 2
6 7821 |----- 9194 1
7 9194 |----- 10567 3
Total ft 42

29
Unidade I

Gráfico 2 - Renda familiar


14
12
Frequência simples

10
8
6
4
2
0
956 2329 3702 5075 6448 7821 9194 10567
Renda mensal

2.4.2 Gráfico de colunas

É muito semelhante ao histograma, mas, normalmente, é


utilizado para representar variáveis qualitativas, nominais ou ordinais.
A frequência continua sendo colocada no eixo vertical, mas, no eixo
horizontal, são colocados os atributos. Além disso, como regra, as
5 colunas são desenhadas separadas umas das outras. A tabela 8 e
o gráfico 3 são exemplos do gráfico de colunas, representando os
cursos em que os alunos da tabela 1 estão matriculados.

Tabela 8 - Distribuição de frequência


Cursos matriculados
Curso matriculado Frequência simples
xi fi
Administração 17
Direito 9
Engenharia 8
Jornalismo 4
Marketing 4
Total ft 42

Gráfico 3 - Cursos matriculados


18
16
Frequência simples

14
12
10
8
6
4
2
0
Administração Direito Engenharia Jornalismo Marketing

Cursos

30
ESTATÍSTICA

2.4.3 Gráfico de barras

Este gráfico é uma variação dos gráficos de colunas e


dos histogramas. Nele, as frequências são representadas no
eixo horizontal, e os atributos ou valores das variáveis são
representados no eixo vertical. Os gráficos 4 e 5 e as tabelas 9 e
5 10 representam, respectivamente, as variáveis sexo e idade dos
alunos relacionados na tabela 1.

Tabela 9 - Distribuição de frequência


Sexos
Sexo Frequência simples
xi fi
Masculino 24
Feminino 18
Total ft 42

Gráfico 4 - Sexos

Feminino
Sexos

Masculino

0 5 10 15 20 25 30
Quantidade de aluno

Tabela 10 - Distribuições de frequências - dados agrupados


Idades
Classe Frequência
Limites de classes em R$
número simples
li ls fi
1 18 |----- 21 13
2 21 |----- 24 11
3 24 |----- 27 6
4 27 |----- 30 8
5 30 |----- 33 1
6 33 |----- 36 3
Total ft 42

31
Unidade I

Gráfico 5 - Idades
33|----36
30|----33
27|----30
Idades

24|----27
21|----24
18|----21
0 2 4 6 8 10 12 14
Número de alunos

2.4.4 Diagrama de ogiva

São gráficos frequentemente destinados a representar


as frequências acumuladas, apesar de que nada impede que
representem frequências simples ou frequências relativas.
Quando representam frequências acumuladas, recebem o nome
5 de ogivas de Galton.

A ogiva é formada pela sucessão de segmento de retas que


unem os pontos coordenados formados por (valor; frequência),
como no caso representado na tabela 11 e no gráfico 6, que
informam o comportamento acumulado da variável quantidade
10 de dependências dos nossos já conhecidos alunos da tabela 1.

Tabela 11 - Distribuição de frequência - dados não agrupados


Número de dependências
Frequências acumuladas
Número de dependências Abaixo de ou crescente
Valor Frequência
0 12
1 19
2 28
3 33
4 37
5 40
6 41
7 41
8 42

32
ESTATÍSTICA

Gráfico 6 - Quantidade de dependências


45
Qtde. Acumulada de DPs

40
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7 8
Quantidade de alunos

Percebam que, no gráfico anterior, por ser uma variável


quantitativa discreta, cada ponto é facilmente determinado
pela sua coordenada y (quantidade de Dps) e pela coordenada
x (quantidade de alunos com Dps). Mas se nós formos trabalhar
5 com variáveis quantitativas contínuas, teremos dificuldades em
identificar a variável x porque ela não é mais um valor, mas uma
faixa de valores.

Para resolver esse impasse, introduziremos um novo


conceito que nos será importante sempre que estivermos
10 trabalhando com variáveis contínuas: o ponto médio de
classe.

O ponto médio de classe é o valor intermediário aos limites


superior e inferior de classe, ou seja:
lsi + lii
pmi =
2

15 Onde o índice i corresponde ao número da classe.

Na tabela 12, estão calculados os pontos médios para as


classes de rendas familiares dos nossos conhecidos alunos, e o
gráfico 7 representa as frequências acumuladas acima de (ou
decrescentes) da referida distribuição.

33
Unidade I

Tabela 12 - Distribuições de frequências - dados agrupados


Renda familiar
Classe Limites de classes Pontos médios Frequências acumuladas
número em R$ de classe Abaixo de ou crescente
li ls pmi fac↑
1 956 |---- 2329 1642,5 13
2 2329 |---- 3702 3015,5 24
3 3702 |---- 5075 4388,5 32
4 5075 |---- 6448 5761,5 36
5 6448 |---- 7821 7134,5 38
6 7821 |---- 9124 8507,5 39
7 9124 10567 9880,5 42

Gráfico 7 - Rendas familiares


45
Freq. acumulada de alunos

40
35
30
25
20
15
10
5
0
1642,5 3015,5 4388,5 5761,5 7134,5 8507,5
Renda em R$

2.4.5 Setorgrama

É também chamado de gráfico de setores ou, mais


vulgarmente, de gráfico de pizza. É a representação típica das
frequências relativas, pois é como essas mostram a participação
da parte no todo. O todo, no caso, é representado pelo círculo
5 (a pizza), e cada valor ou classe de valores, por um setor circular
(a fatia da pizza) de ângulo proporcional à participação deste
valor ou classe de valores. O cálculo do setor circular é feito por
regra de três, ou seja, 100% está para 360º assim como x% está
para yº.

34
ESTATÍSTICA

Os gráficos 8 e 9 são os setorgramas das distribuições


de cursos matriculados e de idade, respectivamente, dos
nossos tradicionais alunos da tabela 1. As tabelas 13 e 14
apresentam os valores dos ângulos calculados, para efeito
5 de demonstração; atualmente, este cálculo não é mais
necessário porque usaremos sempre recursos computacionais
para gerar os gráficos.

Tabela 13 - Distribuição de frequências


Cursos matriculados
Curso Frequência Ângulo do setor
Frequências relativas
matriculado simples circular
Decimal Percentual
αº
Administração 17 0,405 40,5% 146
Direito 9 0,214 21,4% 77
Engenharia 8 0,190 19,0% 69
Jornalismo 4 0,095 9,5% 34
Marketing 4 0,095 9,5% 34
Total 42 1,000 100,0% 360

Gráfico 8 - Cursos matriculados


10%

10%
Administração
Direito
40%
Engenharia
19%
Jornalismo
Marketing

21%

35
Unidade I

Tabela 14 - Distribuições de frequências - dados agrupados


Idades

Limites de Ângulo do
Classe Frequência Frequências relativas Setor
classes em
número simples
anos Decimal Percentual Circular
li ls αº
1 18 |---- 21 13 0,310 31,0% 111
2 21 |---- 24 11 0,262 26,2% 94
3 24 |---- 27 6 0,143 14,3% 51
4 27 |---- 30 8 0,190 19,0% 69
5 30 |---- 33 1 0,024 2,4% 9
6 33 |---- 36 3 0,071 7,1% 26
Total 42 1,000 100,0% 360

Gráfico 9 - Idades dos alunos


7%
3%
18 |---- 21

19% 21 |---- 24
24 |---- 27
31% 27 |---- 30
30 |---- 33
14%
33 |---- 36

26%

2.4.6 Gráfico de dispersão

É o gráfico que relaciona duas variáveis numéricas


diferentes, como, por exemplo, salários e idades. Utilizaremos
esse gráfico principalmente quando discutirmos regressão e
correlação. Neste momento, daremos apenas um exemplo
5 dele utilizando os dados da tabela 15 e mostrando-o no
gráfico 10.

36
ESTATÍSTICA

Tabela 15
Saláríos e tempos na função de gerente
de 1ª linha
Tempo de exercício na Ganho médio
função (em anos)
2 R$ 2.650
3 R$ 3.350
4 R$ 4.100
5 R$ 4.321
6 R$ 4.600
7 R$ 5.725
8 R$ 6.240
9 R$ 7.450
10 R$ 7.500
11 R$ 7.900
12 R$ 8.200

Gráfico 10 - Salários x tempo


R$ 9.000
R$ 8.000
R$ 7.000
Ganhos médios

R$ 6.000
R$ 5.000
R$ 4.000
R$ 3.000
R$ 2.000
R$ 1.000
R$ 0
0 2 4 6 8 10 12 14
Tempo em anos na função

Como falado anteriormente, os gráficos têm uma grande


aplicação porque apresentam os dados estatísticos de maneira
agradável e impactante, permitindo que o leitor ou o assistente
de uma apresentação compreenda com facilidade e rapidez as
5 informações apresentadas. Deve-se, no entanto, tomar cuidado
para que essas informações sejam mostradas com qualidade, em
especial evitando-se os seguintes vícios:

1. Gráficos atulhados com muitas figuras e informações pobres.

37
Unidade I

2. Ausência de escala correta, que induza o leitor a dar maior


ou menor importância a determinado elemento do gráfico
do que o real.
3. Eixos comprimidos, de modo que muitas informações
5 fiquem concentradas em pequeno espaço do gráfico.
4. Ausência da origem, ou seja, do ponto zero, que pode
induzir o leitor a erro.

38

You might also like