You are on page 1of 29

UNIVERSIDADE FEDERAL

DE

SO CARLOS

CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA


DEPARTAMENTO DE ESTATSTICA

INTRODUO AO PLANEJAMENTO
ANLISE ESTATSTICA DE
EXPERIMENTOS - C

CAPTULO 2
ANLISE DESCRITIVA E EXPLORATRIA DE DADOS

ELABORADO POR: PROF. PEDRO FERREIRA FILHO

1 SEMESTRE DE 2009

Captulo 2 Anlise Descritiva e Exploratria de Dados

2. ANLISE
DADOS:

DESCRITIVA

EXPLORATRIA

DE

Um estudo, ou investigao de uma determinada hiptese, deve do ponto de


vista estatstico, contemplar as etapas de planejamento, coleta, organizao, anlise
descritiva e exploratria dos dados, inferncia estatstica e a tomada de decises
(concluses).
O papel da estatstica pode ser considerado como a de uma minerao de
dados. Os dados devem ser cuidadosamente coletados (observados), devidamente
conhecidos e utilizados para analisar e interpretar a sua variabilidade de forma a
possibilitar uma correta resposta hiptese em estudo.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

12

Captulo 2 Anlise Descritiva e Exploratria de Dados

2.1. CONCEITOS BSICOS EM ESTATSTICA:

INFORMAO NUMRICA:
Um conjunto de dados estatsticos consiste de uma ou mais medidas, escores

ou valores observados (coletados) de certo nmero de indivduos, objetos, ensaios,


experimentos, etc.

ASPECTO BSICO DA INFORMAO:


A anlise estatstica de um conjunto de dados s faz sentido quando existir

variabilidade nos valores observados, ou seja, os valores devem apresentar


diferenas nas diferentes unidades de observao utilizadas. A no existncia de
variabilidade entre os valores observados torna desnecessria a utilizao de
qualquer mtodo estatstico.

POPULAO:
Conjunto de indivduos ou objetos os quais o pesquisador tem interesse, que

apresentam relevncia para a investigao de hiptese em estudo. Podemos ainda


dizer que a populao formada por todos os valores possveis de serem observados
numa dada situao. No caso de estudos experimentais, o alvo sempre uma dada
populao. A resposta para a hiptese de interesse dada por uma concluso a
respeito da populao em estudo.
Nesse sentido fundamental, m qualquer situao, definir claramente qual a
populao que se tem interesse. Muitas vezes, por incrvel que parea, isso no est
suficientemente

claro

para

os

responsveis

pelo

estudo

(experimento).

Conseqentemente, corre-se o risco de estender concluses a situaes mais amplas


do que aquelas realmente possveis a partir do estudo realizado.
Uma populao pode ser classificada em duas diferentes situaes:

Populao Finita: Todos os elementos da populao so


conhecidos e possveis de serem identificados;

Populao Infinita: No possvel uma enumerao de todos


os elementos da populao;

Uma populao pode ser investigada a partir da observao de seus


elementos atravs de duas diferentes formas: Censo ou Amostra.
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

13

Captulo 2 Anlise Descritiva e Exploratria de Dados

CENSO:
Denominamos de censo aquelas situaes onde a investigao realizada a

partir da observao de todos os elementos de uma populao. Esse tipo de


observao somente possvel em populaes finitas.

AMOSTRA:
Na grande maioria das vezes (quase sempre!) no possvel observar todos

os elementos de uma populao, porm possvel observar-se uma parte desta


populao. O conjunto de elementos efetivamente observado denominado
amostra. Podemos ento dizer que uma amostra todo e qualquer subconjunto
necessariamente finito da populao.
Para que a amostra seja uma representao realista, no tendenciosa, da
populao, necessrio que seus elementos sejam escolhidos de forma
rigorosamente aleatria. Esta condio fundamental na prtica, porque as
inferncias estatsticas sempre supem que as amostras so representativas da
populao. Por isso ao realizar um experimento, devemos sempre tomar o cuidado
para coletar os dados de modo que a hiptese de aleatoriedade, seja se no,
rigorosamente, pelo menos aproximadamente obedecida.

Amostra Aleatria:
Amostra de N valores ou indivduos (unidades experimentais) obtidos de tal
forma que todos os possveis elementos da populao tenham a mesma chance de
participar na amostra.

OBTENO DE UMA AMOSTRA EM PESQUISAS CIENTFICAS:


Nas pesquisas cientficas as amostras, em geral so obtidas de duas diferentes
formas: Estudos observacionais e experimentos planejados.
Nos estudos observacionais os dados so obtidos medida que se tornam
disponveis. Por exemplo, suponha que um pesquisador esteja avaliando o
desempenho de um processo de fabricao de componentes plsticos atravs da
injeo em molde. Pode-se observar o processo, selecionar componentes medida
que so fabricados e medir importantes caractersticas de interesse, tais como a
espessura da parede, o encolhimento ou a resistncia da pea. O pesquisador pode
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

14

Captulo 2 Anlise Descritiva e Exploratria de Dados

medir tambm e registrar as variveis de processo potencialmente importantes, tais


como a temperatura do molde, o contedo de umidade da matria-prima e o tempo
do ciclo. Freqentemente, em um estudo observador, o pesquisador est interessado
em usar os dados para construir um modelo do sistema ou processo. Esses modelos
so freqentemente chamados de modelos empricos. Uma outra maneira e que os
dados observados so obtidos atravs da anlise de dados histricos do sistema ou
processo. Por exemplo, na fabricao de semicondutores, e razoavelmente comum
manter registros extensos de cada batelada ou lote de pastilhas que foi produzido.
Esses registros incluiriam dados de teste de caractersticas fsicas e eltricas das
pastilhas, assim como as condies de processamento sob as quais cada batelada de
pastilhas foi produzida. Se aparecerem questes relativas a uma mudana em uma
importante caracterstica eltrica, a histria do processo pode ser estudada em um
esforo para determinar o ponto no tempo onde a mudana ocorreu e para ganhar
algum discernimento em relao as variveis do processo que devem ser
responsveis pela mudana. Freqentemente, esses estudos envolvem um conjunto
muito grande de dados e requerem um firme domnio dos princpios estatsticos, se o
pesquisador quiser alcanar o sucesso.
Nos experimentos planejados, o engenheiro (ou pesquisador) faz
variaes propositais nas variveis controlveis de alguns sistemas ou processos,
observa os dados de sada do sistema resultante e, ento, faz uma inferncia ou
deciso sobre as variveis que so responsveis pelas mudanas observadas no
desempenho de sada. O planejamento de experimentos tem um papel muito
importante no projeto e desenvolvimento de engenharia e na melhoria dos processos
de fabricao. Geralmente, quando produtos e processos so planejados e
desenvolvidos com experimentos planejados, eles tm melhor desempenho, mais
alta confiabilidade e menores custos globais. Experimentos planejados tambm
desempenham um papel crucial na reduo do tempo de conduo de um projeto de
engenharia e do desenvolvimento de atividades.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

15

Captulo 2 Anlise Descritiva e Exploratria de Dados

INFERNCIA ESTATSTICA:
Embora seja observada apenas uma amostra, o objetivo de qualquer estudo

estabelecer concluses com respeito populao de interesse. A metodologia


utilizada para se fazer a passagem dos resultados obtidos na amostra para
concluses populacionais chamada inferncia estatstica.

A inferncia estatstica pode ser definida em duas etapas:




Estimao: Obter informao sobre uma caracterstica populacional;

Teste de Hipteses: Utilizao da informao amostral para responder as


hipteses de interesse no estudo.

ANLISE ESTATSTICA:
O processo de organizao, processamento, sumarizao e retirada de

concluses sobre um determinado conjunto de dados (amostra) chamado de


anlise estatstica. As hipteses (questes de interesse) daqueles que realizam o
estudo indicam o tipo de dado que precisa der obtido e conseqentemente a
inferncia a ser realizada.
O quadro abaixo resume uma anlise estatstica de dados.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

16

Captulo 2 Anlise Descritiva e Exploratria de Dados


Figura 2.1. Anlise Estatstica.

2.2. ORGANIZAO, SUMARIZAO E


REPRESENTAO DE DADOS:
A organizao, sumarizao e apresentao dos dados observados so
essenciais para um bom julgamento estatstico, dado que permitem que sejam
identificadas caractersticas importantes da amostra e ainda mais, indicar modelos
que podem ser mais adequados para verificao da hiptese em estudo.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

17

Captulo 2 Anlise Descritiva e Exploratria de Dados

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

18

Captulo 2 Anlise Descritiva e Exploratria de Dados

2.2.1. TIPOS DE VARIVEIS:


As informaes obtidas em uma amostra so denominadas, usualmente, de
variveis em estudo. Em cada estudo pode-se observar uma ou mais variveis em
funo das necessidades e objetivos a serem investigados. Assim, por exemplo,
pode-se observar uma nica medida num dado experimento, como possvel
observar uma srie de caractersticas de interesse na aplicao de um questionrio.
As variveis observadas em uma amostra podem ser classificadas em dois
tipos:

Variveis

Categricas

(Qualitativas)

ou

Variveis

Contnuas

(Quantitativas).

Variveis Categricas: Denominamos variveis categricas aquelas medidas


(caractersticas) observadas na amostra que apenas identificam a unidade de
observao. Em outras palavras, uma varivel categrica identifica um atributo,
classe, qualidade,..., da unidade de observao.
Exemplo: Sexo, Grau de escolaridade, tipo de solo, fornecedor, etc.
As variveis qualitativas podem ainda ser classificadas como qualitativas
nominais e qualitativas ordinais. As nominais apenas identificam um atributo
unidade experimental sem qualquer outra propriedade (sexo, por exemplo),
enquanto que as ordinais identificam um atributo que estabelece uma estrutura de
ordem nas unidades de observao (grau de escolaridade, por exemplo).

Variveis Quantitativas: Denominamos de variveis quantitativas aquelas medidas


(caractersticas) observadas na amostra que estabelecem uma informao resultante
de uma contagem ou de uma mensurao feita na unidade experimental.
As variveis quantitativas podem tambm ser classificadas em dois grupos:
Quantitativas discretas ou quantitativas contnuas. As quantitativas discretas podem
assumir um conjunto finito ou enumervel de valores (nmero de acidentes em uma
determinada regio da cidade, por exemplo), por outro lado, as quantitativas
contnuas podem assumir valores num intervalo de nmeros reais.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

19

Captulo 2 Anlise Descritiva e Exploratria de Dados

Observao:
Uma varivel quantitativa pode ser categorizada, porm a recproca no possvel.
importante, porm considerar a PERDA DE INFORMAO que ocorre nesses casos.

Figura 2.2. Classificao das Variveis.

Para cada tipo de varivel existem tcnicas apropriadas para organizar e


resumir a informao, embora em muitos casos se verifique as tcnicas usadas em
um caso podem ser adaptadas para outros.

2.2.2. APRESENTAO DOS DADOS:


A apresentao de informaes contidas num conjunto de dados pode ser
feita de vrias formas. Para cada tipo de varivel existe formas mais adequadas e
corretas de apresent-las. O objetivo de uma apresentao dos dados organizar os
valores observados de forma a obter o mximo de informao. Os procedimentos
usuais de apresentao de dados so tabelas e grficos.
Consideremos o seguinte experimento: Uma indstria qumica formula um
experimento para verificar se um novo mtodo de fabricao de um produto qumico
superior a um mtodo tradicional de fabricao. Um experimento foi realizado
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

20

Captulo 2 Anlise Descritiva e Exploratria de Dados

obtendo-se dados de produo industrial dos mtodos A (Tradicional) e B (Novo


Mtodo), cujos resultados esto apresentados na Tabela 2.1:
TABELA 2.1. Dados de Produo Industrial.
Lote

Mtodo

Produo

Lote

Mtodo

Produo

89.7

11

84.7

81.4

12

86.1

84.5

13

83.2

84.8

15

91.9

87.3

15

86.3

79.7

16

79.3

85.1

17

82.6

81.7

18

89.1

83.7

19

83.7

10

84.5

20

88.5

O problema apresenta duas variveis: Mtodo de Produo e Produo


Observada. A varivel mtodo de produo categrica nominal e a varivel
produo quantitativa contnua.
A apresentao usual dos dados observados feita atravs de uma tabela
denominada distribuio de freqncias. Nesta forma so apresentados os
valores observados, a freqncia com que cada valor foi observado, o percentual que
este nmero de freqncia representa em relao ao total de observao, bem como
os respectivos valores acumulados.
Para tabela acima as distribuies de freqncias so dadas por:
TABELA 2.2. Distribuio de Freqncia da Varivel Mtodo de Produo Industrial.
Mtodo
Freqncia
Absoluta

Freqncia
Percentual

Freqncia
Acumulada

Percentual
Acumulada

10

50.00

10

50.00

10

50.00

20

100.00

Mtodo

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

21

Captulo 2 Anlise Descritiva e Exploratria de Dados

TABELA 2.3. Distribuio de Freqncia da Varivel Produo Industrial


Produo

Produo

Freqncia
Absoluta

Freqncia
Percentual

Freqncia
Acumulada

Percentual
Acumulada

79.3

5.00

5.00

79.7

5.00

10.00

81.4

5.00

15.00

81.7

5.00

20.00

82.6

5.00

25.00

83.2

5.00

30.00

83.7

10.00

40.00

84.5

10.00

10

50.00

84.7

5.00

11

55.00

84.8

5.00

12

60.00

85.1

5.00

13

65.00

86.1

5.00

14

70.00

86.3

5.00

15

75.00

87.3

5.00

16

80.00

88.5

5.00

17

85.00

89.1

5.00

18

90.00

89.7

5.00

19

95.00

91.9

5.00

20

100.00

Notao:
fi = freqncia do i-simo valor
pi = freqncia percentual do i-simo valor pi = fi / n
n = tamanho da amostra (nmero de unidades observadas)

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

22

Captulo 2 Anlise Descritiva e Exploratria de Dados

Fi = freqncia acumulada at o i-simo valor, ou seja, nmero de observaes at o


i

i-simo valor

Fi = f a
a =1

Pi = freqncia percentual acumulada at o i-simo valor, ou seja, percentual de


i

Pi = p a

observaes at o i-simo valor

a =1

Observao:
Nos casos de variveis qualitativas nominais a freqncia acumulada e
percentual acumulada no tem sentido de interpretao.

Problema:
No caso das variveis quantitativas, como no exemplo acima, podemos ter
que a varivel assume um grande nmero de valores todos (ou a grande maioria)
com baixas freqncias, logo a distribuio de freqncias se torna grande sem uma
maior contribuio para a interpretao dos dados.
Nessas situaes, recomenda-se a categorizao da varivel atravs do
estabelecimento de intervalos de acordo com os objetivos do estudo. No exemplo:

TABELA 2.4. Distribuio de Freqncia da Varivel Produo Industrial Categorizada.


Produo Categorizada
Produo
Categorizada

Freqncia
Absoluta

Freqncia
Percentual

Freqncia
Acumulada

Percentual
Acumulada

Menor que 80

10.00

10.00

[80,85)

10

50.00

12

60.00

[85,90)

35.00

19

95.00

90 ou mais

5.00

20

100.00

Sugesto Usual:
Os intervalos gerados pela categorizao devem ter o mesmo comprimento
e/ou aproximadamente mesmas freqncias.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

23

Captulo 2 Anlise Descritiva e Exploratria de Dados

Uma segunda forma de apresentao dos dados atravs de uma


representao grfica dos mesmos. Usualmente representa-se graficamente a
distribuio de freqncias. O tipo de grfico a ser utilizado est associado ao tipo de
varivel em estudo.
Variveis qualitativas podem ser representadas por:

Grfico em Barras

Grfico de Setores (Grfico de Pizza)

Grfico em Retngulo

Variveis quantitativas podem ser representadas por:

Diagrama de Pontos

Histogramas

Polgono de Freqncias

Ramos e Folhas

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

24

Captulo 2 Anlise Descritiva e Exploratria de Dados

REPRESENTAO GRFICA DADOS CATEGRICOS


Sexo

Sexo

Sexo

100
80

Feminino
42%

58.06

60

41.94

58.06

41.94

40
Masculin
o
58%

20
0
Masculino

Feminino

Sexo

Masculino

Feminino

Bom
32%

9.68

32.26

Bom
0

20

40

60

40%

60%

Masculino

80%

100%

Feminino

100%

9.68

80%

58.06

Algum

20%

Dominio de Computador

Nenhum
10%

Nenhum

0%

80

100

Computador

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

Algum
58%Bom

Algum

Nenhum

60%

58.06

40%
20%
0%

32.26

Bom

Algun

Nenhum

25

Captulo 2 Anlise Descritiva e Exploratria de Dados

REPRESENTAO GRFICA DADOS QUANTITATIVOS


Ramo e Folhas
5
10
14
(8)
9
6
4
2
1

Diagrama de Pontos
.
.
:
:
: :. .. :. . : .. . . . .. . . . .
.
-----+---------+---------+---------+---------+---------+Peso
56.0
63.0
70.0
77.0
84.0
91.0

5 22222
5 55689
6 0014
6 55555789
7 124
7 57
8 01
85
90

Peso dos Alunos


33

14

87.1%

12

27

11
29.0%

21
No of obs

9
8
7
6

6.5%

3.2% 3.2%
3.2% 3.2%

3.2%

3.2%
3.2%
3.2% 3.2%
3.2% 3.2%
3.2% 3.2%

3.2%
3.2%

3.2%

3.2%

61.3%

18
15
12

5
6.5%

74.2%

24

32.3%

10

16.1%

100.0%
93.5%

30

13

No of obs

15
14
13
12
11
10
9
8
7
6 16.1%
5
4
3
2
1
0

Peso dos Alunos

15

12.9%

29.0%

12.9%

6.5%

6.5%

<= 53
(53;54]
(54;55]
(55;56]
(56;57]
(57;58]
(58;59]
(59;60]
(60;61]
(61;62]
(62;63]
(63;64]
(64;65]
(65;66]
(66;67]
(67;68]
(68;69]
(69;70]
(70;71]
(71;72]
(72;73]
(73;74]
(74;75]
(75;76]
(76;77]
(77;78]
(78;79]
(79;80]
(80;81]
(81;82]
(82;83]
(83;84]
(84;85]
(85;86]
(86;87]
(87;88]
(88;89]
> 89

No of obs

Peso dos Alunos

0
0

PESO

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

PESON

PESON

26

Captulo 2 Anlise Descritiva e Exploratria de Dados

2.2.3. SUMARIZAO DOS DADOS:


A distribuio de freqncias alm de apresentar os dados observados,
tambm pode ser considerada uma sumarizao de dados. Porm, na maioria dos
casos, desejado obter valores que possam representar cada uma das variveis em
estudo. Esses valores devem ser medidas que, sob algum ponto de vista sejam
representativos dos dados observados. As medidas usualmente utilizadas se referem
a locao e disperso dos dados.

2.2.3.1. MEDIDAS

DE LOCAO OU

TENDNCIA CENTRAL:

Medidas relacionadas posio dos dados, ou ainda a valores em torno dos


quais os valores observados tendem a se agrupar. As principais medidas de posio
so:

Moda

Mediana

Quartis, Decis, Percentis.

Mdia

MODA:

Definio: Valor (Classe, intervalo..) que ocorre com maior freqncia.


Vantagem: Pode ser obtida para qualquer tipo de varivel, porm, mais
apropriada para dados qualitativos nominais.
Observaes:
1) Podemos encontrar variveis em um conjunto de dados com mais de uma
moda (bimodal, tri-modal.);
2) Podemos ter variveis em um conjunto de dados onde a moda no existe.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

27

Captulo 2 Anlise Descritiva e Exploratria de Dados

MEDIANA:

Definio: Valor que ocupa a posio central num conjunto de dados ordenados,
ou seja, valor para o qual 50% dos valores observados so inferiores e 50% dos
valores observados so superiores a ele.
Condio: Para obteno da mediana a varivel em estudo deve ser pelo menos
qualitativa ordinal.
Clculo da Mediana:
1) Dados devem ser ordenados
2) Se o nmero de observaes :
2.1) mpar: Mediana o valor que est no centro da srie, ou seja o valor que
ocupa a posio (n+1)/2.
2.2) Par: Mediana qualquer valor entre aqueles dois valores que esto no
centro da srie, ou seja, qualquer valor entre aqueles que ocupam as posies
n/2 e (n/2)+1. Valor usual: Mdia dos valores que ocupam a posio (n/2) e
(n/2)+1.

QUARTIS, DECIS, PERCENTIS:

Definio: A mediana divide o conjunto de dados em duas partes. Quartis decis


e percentis seguem o mesmo princpio, porm dividem os dados observados em
4, 10 e 100 partes respectivamente.
Desta forma temos que:


percentil (50) = mediana ou segundo quartil (Md)

percentil (25) = primeiro quartil (Q1)

percentil (75) = terceiro quartil (Q3)

percentil (10) = primeiro decil

Observao: Mediana, Quartis, Decis, Percentiis tambm so chamados de


separatrizes.

MDIA ARITIMTICA:

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

28

Captulo 2 Anlise Descritiva e Exploratria de Dados

Definio: A mdia aritmtica simples de um conjunto de dados observados o


quociente da diviso por n da soma dos valores destas observaes.
Seja x1, x2, x3, .....xn os valores de uma varivel observada na amostra. A
mdia x (l-se x barra) dada por:

x + x 2 + x3 + ... + x n
x= 1
=
n

i =1

Onde xi o smbolo que indica a observao de ordem i = 1,2,....n

Condio: Possvel de obteno apenas para dados quantitativos.

Propriedades: A mdia aritmtica possui propriedades interessantes que podem ser


teis em determinadas situaes:
1) Se x1=x2=x3=......=xn= a ento
n

x ==

a
i =1

=a

a mdia de uma constante a prpria constante;

2) Se a todo valor observado adicionado uma constante a, ento:

y i = xi + a y ==

y
i =1

+a

i =1

= x+a

se adicionamos uma mesma constante a toda observao, a mdia tambm


fica adicionada deste valor.

3) Se a todo valor observado multiplicado por uma constante a, ento:


Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

29

Captulo 2 Anlise Descritiva e Exploratria de Dados

y i = axi y ==

i =1

ax
i =1

= ax

se multiplicamos toda observao por uma mesma constante, a mdia


tambm fica multiplicada deste valor.

4) A soma dos desvios em torno da mdia zero:


n

(x

x) = 0

i =1

Observao: Outros tipos de mdias so conhecidos tais como: mdia ponderada,


mdia harmnica, mdia geomtrica, mdia aparada. Cada uma destas mdias tem
sua utilizada e aplicaes especficas e podem ser encontradas na grande maioria de
textos de Estatstica Bsica.

2.2.3.2. COMPARANDO
CENTRAL:

MEDIDAS

DE

LOCAO

OU

TENDNCIA

Uma comparao da mdia, mediana e moda, nas situaes onde possvel


calcular todos estes valores, podem nos revelar uma informao sobre o
comportamento dos dados, denominada assimetria.
Definio: Uma varivel dita ter comportamento (ou distribuio) assimtrica
quando os seus valores esto mais concentrados em um dos seus extremos (valores
altos ou baixos). As possveis situaes de assimetria e simetria so derivadas do
comportamento dos valores da mdia, mediana e moda e podem ser representadas
da seguinte forma:

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

30

Captulo 2 Anlise Descritiva e Exploratria de Dados

Figura 2.3. Assimetria de Uma Varivel

2.2.3.3. MEDIDAS

DE

DISPERSO:

Na anlise de uma varivel de interesse em qualquer estudo, quase nunca


suficiente para descrever de modo satisfatrio, observar apenas uma nica medida
de posio. Podemos facilmente encontrar variveis que apresentam o mesmo valor
para uma medida de locao (mdia, por exemplo), porm com dados apresentando
comportamentos completamente diferentes. Esses diferentes comportamentos so
conseqncia de dados com diferentes graus de disperso.

Objetivo: Verificar o quanto os valores observados esto dispersos, ou ainda o


quanto variam os dados.
Apresentamos a seguir algumas medidas de disperso.

AMPLITUDE:
Definio: Diferena entre o maior e o menor valor observado na amostra.
Notao:
Seja X(n) = maior valor observado para a varivel na amostra;
Seja X(1) = menor valor observado para a varivel na amostra;
Amplitude = A = X(n) X(1)

Observaes:
1) Medida sujeita a influencia da presena de valores extremos.
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

31

Captulo 2 Anlise Descritiva e Exploratria de Dados

2) O aumento do nmero de observaes na amostra no produz qualquer


mudana no valor dado pela amplitude.

DIFERENA DE QUARTIS:
Definio: Valor dado pela diferena entre os valores que delfinem os 50%
dos valores centrais observados.
Notao:
Seja Q(1) = 1 quartil dos dados observados (25% das observaes na
amostra);
Seja Q(3) = 3 quartil dos dados observados (75% das observaes na
amostra);
Logo Q(3) Q1) contm 50% das observaes e, consequentemente
Diferena de Quartis = DQ = Q(3) Q(1)

VARINCIA DESVIO PADRO:

Definio: A VARINCIA uma medida de variabilidade dos dados em torno


da mdia, ou seja, ela quantifica a variabilidade ou o espalhamento ao redor da
mdia.
natural procurar uma medida de disperso que dependa dos desvios de
cada observao em relao mdia (xi x ), e razovel considerar a soma de
todos estes desvios. Quanto maior forem os desvios, maior ser a variabilidade
presente nos dados. Entretanto, pela definio de mdia, (xi x ) = 0 para
qualquer conjunto de dados.
Uma alternativa, para se obter uma medida de disperso, elevar os desvios
de cada observao em relao mdia ao quadrado, isto ,

di= (xi - x )2
Assim,

(xi x )2
a soma dos quadrados dos desvios em relao mdia. Desta forma somamos
somente valores positivos. Torna-se necessrio considerar o n de observaes,
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

32

Captulo 2 Anlise Descritiva e Exploratria de Dados

pois quanto maior o n de observaes maior ser o valor deste somatrio. Assim,
a varincia amostral definida por:
n

S2 =

(xi x )

i =1

n 1

Por que (n-1)?


Quando dividimos por n-1 temos que S2 um estimador no viciado, importante
propriedade da inferncia estatstica:
Se a amostra grande, os valores obtidos dividindo por n ou n-1 so praticamente
iguais.

Propriedades da Varincia
1) A varincia de uma constante zero, isto , xi = a, para todo i= 1, 2,..,n
ento S2 = 0

2) Se multiplicarmos cada valor da varivel por uma constante a, a varincia ser


a varincia da varivel original multiplicada por a2.
y = a X, ento Var(y) = Var (a x)= a2 Var(x).

3) Se somarmos ou subtrairmos de cada valor da varivel uma constante a, a


varincia no se altera.
Seja y = X + a, ento Var(y) = Var (x + a)= Var(x).

4) Se dividirmos cada valor da varivel por uma constante a, a varincia ser a


varincia da varivel original dividida por a2.
Seja y =

1
1
1
x ento Var(y) = Var ( x )= 2 Var(x).
a
a
a

Note que a unidade de medida de S2 a unidade de medida das


observaes elevada ao quadrado. Ento, para obter uma medida de
variabilidade com a mesma unidade de medida das observaes extra-se a raiz
quadrada. Esta medida denominada DESVIO PADRO e definida por:
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

33

Captulo 2 Anlise Descritiva e Exploratria de Dados

S=

(xi x )

i =1

n 1

Observaes:
1) S mede a disperso em torno da mdia e s deve ser calculado quando a
mdia tomada como medida de locao.
2) S 0. Logo, quanto maior a disperso em torno da mdia, maior o valor do
desvio padro, ou maior valor de S.

Alm das medidas de disperso aqui apresentadas, algumas outras so


encontradas na literatura, como por exemplo, as medidas de simetria e de
achatamento (tambm ditas de curtose). Para as aplicaes que sero feitas ao
longo desse curso, as medidas aqui apresentadas so suficientes, outras medidas
podem ser encontradas em livros de Estatstica Bsica.

2.2.3.4. MEDIDAS

DE

DISPERSO RELATIVA:

Em muitos casos, em particular em situaes que desejamos comparar a


disperso de variveis com diferentes unidades de medida, conveniente expressar
a disperso em termos relativos, ou seja, expressar a variabilidade dos dados tirando
a influncia da ordem de grandeza da varivel.

COEFICIENTE DE VARIAO:

Definio: O desvio padro descreve o desvio padro relativo mdia.


expresso em termos de valores percentuais.
Notao:
O coeficiente de variao, que definido por:

CV = Sx *100
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

34

Captulo 2 Anlise Descritiva e Exploratria de Dados

O coeficiente de variao (CV) adimensional, isto , um nmero puro e


usualmente expresso em porcentagem. Sua utilidade fornecer uma medida para a
homogeneidade do conjunto de dados. Quanto menor o CV mais homogneo o
conjunto de dados.
Pelo fato do CV ser adimensional, possvel comparar a variabilidade de dois
conjuntos de dados muitos distintos. O CV muito til na comparao de duas
variveis ou dois grupos que a princpio no so comparveis (por exemplo, com
ordens de grandeza das variveis muito diferentes).
Um valor de CV maior que 50% indica um alto grau de disperso e
conseqentemente uma baixa representatividade da mdia. Um valor de CV menor
ou igual a 25% geralmente indicar que o conjunto de dados razoavelmente
homogneo. Entretanto, esse padro varia de acordo com a aplicao. Uma possvel
classificao a seguinte:
CV:


Baixo - (inferior a 0,10);

Mdio - (de 0,10 a 0,25);

Alto

Muito Alto - (0,35).

- (0,25 a 0,35);

2.2.3.5. UMA REPRESENTAO GRFICA CONJUNTA


DE LOCAO E DE DISPERSO:

DE

MEDIDAS

Como apresentado anteriormente, uma anlise de dados deve, minimamente


considerar conjuntamente uma medida de locao e uma medida de disperso.
Nesse sentido importante tambm estabelecer uma representao grfica conjunta
de medidas de locao e disperso atravs da qual seja possvel verificar o
comportamento da varivel em ambos os aspectos.

ESQUEMA DE CINCO NMEROS:


Proposta: Identificar 5 valores dentre o conjunto de n observados que possa

dar condies de se ter uma idia geral do comportamento geral das observaes.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

35

Captulo 2 Anlise Descritiva e Exploratria de Dados

Condio: Possvel para variveis quantitativas;


Valores Propostos (Tukey):

Mediana

Valor Maximo (X(n)) e Valor Mnimo (X(1))

1 e 3 Quartis

Observao:
Alguns outros autores e softwares propem o uso de mdia e desvio padro
no lugar de mediana e quartis. Tukey justifica o uso de mediana e quartis dado eu as
mesmas so medidas de locao e disperso que no so influenciadas pela
presena de valores extremos no conjunto de dados e que, portanto permitem uma
mais fcil identificao de presena dos mesmos dentre os valores observados.

DESENHO ESQUEMATICO BOX PLOT:


Proposta: Representao grfica do esquema de 5 nmeros.

O Box-plot obtido seguindo-se os passos:


1. Numa reta so marcados o 1 quartil (Q1), a mediana (Q2 ) e o 3 quartil (Q3).
2. Acima dessa reta constri-se um retngulo com limites iguais s posies do
1 e 3 quartis, cortado por um segmento de reta na posio relativa
mediana.
3. A partir dos limites do retngulo, traam-se linhas at:
a. Encontrar um extremo (valor mximo ou mnimo) ou
b. Um valor correspondente a 1,5 DQ, se o extremo correspondente
estiver a mais de 1,5 DQ do quartil respectivo.
Os pontos que esto a mais de 1,5 DQ do quartil correspondente at 3DQ so
chamados pontos externos (* ) e os que esto a mais de 3DQ, pontos soltos (o).

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

36

Captulo 2 Anlise Descritiva e Exploratria de Dados

BoxBox-Plot
linha
auxiliar

_Q3+1,5d
altura

_Q3

_Q1

*
*

_Q3+1,5d

_Q3

_Q3

_Q3

_md

_md

_md

_Q1

_Q1

_Q1

_Q1-1,5d

_Q1-1,5d

*
Q1 = 1 quartil

md = mediana

Q3 = 3 quartil

*
*

d = diferena interquartil

Figura 2.4. Construdo o Box - Plot

Construo

LS=Q3+1,5(Q3-Q1)

Mximo

Q3
Mediana

Q1

75%
50%

25%

Mnimo
LI=Q1-1,5(Q3-Q1)
Mximo o maior valor menor que LS;
Mnimo o menor valor maior que LI.

Figura 2.5. Forma Final do Box - Blot

O Box Plot um procedimento que permite iidentificar em um conjunto de


dados:


Simetria

Disperso

Valores Discrepantes

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

37

Captulo 2 Anlise Descritiva e Exploratria de Dados

IMPORTANTE:
O BoxPlot, alm das aplicaes apresentadas, um procedimento
extremamente importante na comparao de diferentes grupos (tratamentos) que
so observados e, por exemplo, dentre os quais, deseja-se identificar aquele com
melhor desempenho.

Exemplo:
Comparando o total de pontos obtidos pelos alunos ingressos no
processo seletivo 2005 nos diferentes cursos da UFSCar.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

38

Captulo 2 Anlise Descritiva e Exploratria de Dados

2.3. REFERNCIAS BIBLIOGRFICAS:

Barros Neto, B., Scarminio, I. S., Bruns, R. E. (2001) Como Fazer


Experimentos: Pesquisa e desenvolvimento na cincia e na indstria.
Editora da Unicamp, Campinas, SP.

Montgomery, D. C., Runger, G. C. (2003) Estatstica APlicada e


Probabilidade para Engenheiros, LTC Editora, 2a Edio, Rio Janeiro, RJ.

Triola, M. F. (2005) Introduo a Estatstica, LTC Editora, 9 Edio, Rio


Janeiro.

Anderson, T.W., Sclove, S. L. (1974) Introductory Statistical Analysis,


Houghton Miflin, Boston.

Vieira, S. (1999) Princpios de Estatstica, Pioneira, So Paulo, SP.

Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009

39

You might also like