Professional Documents
Culture Documents
DE
SO CARLOS
INTRODUO AO PLANEJAMENTO
ANLISE ESTATSTICA DE
EXPERIMENTOS - C
CAPTULO 2
ANLISE DESCRITIVA E EXPLORATRIA DE DADOS
1 SEMESTRE DE 2009
2. ANLISE
DADOS:
DESCRITIVA
EXPLORATRIA
DE
12
INFORMAO NUMRICA:
Um conjunto de dados estatsticos consiste de uma ou mais medidas, escores
POPULAO:
Conjunto de indivduos ou objetos os quais o pesquisador tem interesse, que
claro
para
os
responsveis
pelo
estudo
(experimento).
13
CENSO:
Denominamos de censo aquelas situaes onde a investigao realizada a
AMOSTRA:
Na grande maioria das vezes (quase sempre!) no possvel observar todos
Amostra Aleatria:
Amostra de N valores ou indivduos (unidades experimentais) obtidos de tal
forma que todos os possveis elementos da populao tenham a mesma chance de
participar na amostra.
14
15
INFERNCIA ESTATSTICA:
Embora seja observada apenas uma amostra, o objetivo de qualquer estudo
ANLISE ESTATSTICA:
O processo de organizao, processamento, sumarizao e retirada de
16
17
18
Variveis
Categricas
(Qualitativas)
ou
Variveis
Contnuas
(Quantitativas).
19
Observao:
Uma varivel quantitativa pode ser categorizada, porm a recproca no possvel.
importante, porm considerar a PERDA DE INFORMAO que ocorre nesses casos.
20
Mtodo
Produo
Lote
Mtodo
Produo
89.7
11
84.7
81.4
12
86.1
84.5
13
83.2
84.8
15
91.9
87.3
15
86.3
79.7
16
79.3
85.1
17
82.6
81.7
18
89.1
83.7
19
83.7
10
84.5
20
88.5
Freqncia
Percentual
Freqncia
Acumulada
Percentual
Acumulada
10
50.00
10
50.00
10
50.00
20
100.00
Mtodo
21
Produo
Freqncia
Absoluta
Freqncia
Percentual
Freqncia
Acumulada
Percentual
Acumulada
79.3
5.00
5.00
79.7
5.00
10.00
81.4
5.00
15.00
81.7
5.00
20.00
82.6
5.00
25.00
83.2
5.00
30.00
83.7
10.00
40.00
84.5
10.00
10
50.00
84.7
5.00
11
55.00
84.8
5.00
12
60.00
85.1
5.00
13
65.00
86.1
5.00
14
70.00
86.3
5.00
15
75.00
87.3
5.00
16
80.00
88.5
5.00
17
85.00
89.1
5.00
18
90.00
89.7
5.00
19
95.00
91.9
5.00
20
100.00
Notao:
fi = freqncia do i-simo valor
pi = freqncia percentual do i-simo valor pi = fi / n
n = tamanho da amostra (nmero de unidades observadas)
22
i-simo valor
Fi = f a
a =1
Pi = p a
a =1
Observao:
Nos casos de variveis qualitativas nominais a freqncia acumulada e
percentual acumulada no tem sentido de interpretao.
Problema:
No caso das variveis quantitativas, como no exemplo acima, podemos ter
que a varivel assume um grande nmero de valores todos (ou a grande maioria)
com baixas freqncias, logo a distribuio de freqncias se torna grande sem uma
maior contribuio para a interpretao dos dados.
Nessas situaes, recomenda-se a categorizao da varivel atravs do
estabelecimento de intervalos de acordo com os objetivos do estudo. No exemplo:
Freqncia
Absoluta
Freqncia
Percentual
Freqncia
Acumulada
Percentual
Acumulada
Menor que 80
10.00
10.00
[80,85)
10
50.00
12
60.00
[85,90)
35.00
19
95.00
90 ou mais
5.00
20
100.00
Sugesto Usual:
Os intervalos gerados pela categorizao devem ter o mesmo comprimento
e/ou aproximadamente mesmas freqncias.
23
Grfico em Barras
Grfico em Retngulo
Diagrama de Pontos
Histogramas
Polgono de Freqncias
Ramos e Folhas
24
Sexo
Sexo
100
80
Feminino
42%
58.06
60
41.94
58.06
41.94
40
Masculin
o
58%
20
0
Masculino
Feminino
Sexo
Masculino
Feminino
Bom
32%
9.68
32.26
Bom
0
20
40
60
40%
60%
Masculino
80%
100%
Feminino
100%
9.68
80%
58.06
Algum
20%
Dominio de Computador
Nenhum
10%
Nenhum
0%
80
100
Computador
Algum
58%Bom
Algum
Nenhum
60%
58.06
40%
20%
0%
32.26
Bom
Algun
Nenhum
25
Diagrama de Pontos
.
.
:
:
: :. .. :. . : .. . . . .. . . . .
.
-----+---------+---------+---------+---------+---------+Peso
56.0
63.0
70.0
77.0
84.0
91.0
5 22222
5 55689
6 0014
6 55555789
7 124
7 57
8 01
85
90
14
87.1%
12
27
11
29.0%
21
No of obs
9
8
7
6
6.5%
3.2% 3.2%
3.2% 3.2%
3.2%
3.2%
3.2%
3.2% 3.2%
3.2% 3.2%
3.2% 3.2%
3.2%
3.2%
3.2%
3.2%
61.3%
18
15
12
5
6.5%
74.2%
24
32.3%
10
16.1%
100.0%
93.5%
30
13
No of obs
15
14
13
12
11
10
9
8
7
6 16.1%
5
4
3
2
1
0
15
12.9%
29.0%
12.9%
6.5%
6.5%
<= 53
(53;54]
(54;55]
(55;56]
(56;57]
(57;58]
(58;59]
(59;60]
(60;61]
(61;62]
(62;63]
(63;64]
(64;65]
(65;66]
(66;67]
(67;68]
(68;69]
(69;70]
(70;71]
(71;72]
(72;73]
(73;74]
(74;75]
(75;76]
(76;77]
(77;78]
(78;79]
(79;80]
(80;81]
(81;82]
(82;83]
(83;84]
(84;85]
(85;86]
(86;87]
(87;88]
(88;89]
> 89
No of obs
0
0
PESO
PESON
PESON
26
2.2.3.1. MEDIDAS
DE LOCAO OU
TENDNCIA CENTRAL:
Moda
Mediana
Mdia
MODA:
27
MEDIANA:
Definio: Valor que ocupa a posio central num conjunto de dados ordenados,
ou seja, valor para o qual 50% dos valores observados so inferiores e 50% dos
valores observados so superiores a ele.
Condio: Para obteno da mediana a varivel em estudo deve ser pelo menos
qualitativa ordinal.
Clculo da Mediana:
1) Dados devem ser ordenados
2) Se o nmero de observaes :
2.1) mpar: Mediana o valor que est no centro da srie, ou seja o valor que
ocupa a posio (n+1)/2.
2.2) Par: Mediana qualquer valor entre aqueles dois valores que esto no
centro da srie, ou seja, qualquer valor entre aqueles que ocupam as posies
n/2 e (n/2)+1. Valor usual: Mdia dos valores que ocupam a posio (n/2) e
(n/2)+1.
MDIA ARITIMTICA:
28
x + x 2 + x3 + ... + x n
x= 1
=
n
i =1
x ==
a
i =1
=a
y i = xi + a y ==
y
i =1
+a
i =1
= x+a
29
y i = axi y ==
i =1
ax
i =1
= ax
(x
x) = 0
i =1
2.2.3.2. COMPARANDO
CENTRAL:
MEDIDAS
DE
LOCAO
OU
TENDNCIA
30
2.2.3.3. MEDIDAS
DE
DISPERSO:
AMPLITUDE:
Definio: Diferena entre o maior e o menor valor observado na amostra.
Notao:
Seja X(n) = maior valor observado para a varivel na amostra;
Seja X(1) = menor valor observado para a varivel na amostra;
Amplitude = A = X(n) X(1)
Observaes:
1) Medida sujeita a influencia da presena de valores extremos.
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009
31
DIFERENA DE QUARTIS:
Definio: Valor dado pela diferena entre os valores que delfinem os 50%
dos valores centrais observados.
Notao:
Seja Q(1) = 1 quartil dos dados observados (25% das observaes na
amostra);
Seja Q(3) = 3 quartil dos dados observados (75% das observaes na
amostra);
Logo Q(3) Q1) contm 50% das observaes e, consequentemente
Diferena de Quartis = DQ = Q(3) Q(1)
di= (xi - x )2
Assim,
(xi x )2
a soma dos quadrados dos desvios em relao mdia. Desta forma somamos
somente valores positivos. Torna-se necessrio considerar o n de observaes,
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009
32
pois quanto maior o n de observaes maior ser o valor deste somatrio. Assim,
a varincia amostral definida por:
n
S2 =
(xi x )
i =1
n 1
Propriedades da Varincia
1) A varincia de uma constante zero, isto , xi = a, para todo i= 1, 2,..,n
ento S2 = 0
1
1
1
x ento Var(y) = Var ( x )= 2 Var(x).
a
a
a
33
S=
(xi x )
i =1
n 1
Observaes:
1) S mede a disperso em torno da mdia e s deve ser calculado quando a
mdia tomada como medida de locao.
2) S 0. Logo, quanto maior a disperso em torno da mdia, maior o valor do
desvio padro, ou maior valor de S.
2.2.3.4. MEDIDAS
DE
DISPERSO RELATIVA:
COEFICIENTE DE VARIAO:
CV = Sx *100
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009
34
Alto
- (0,25 a 0,35);
DE
MEDIDAS
dar condies de se ter uma idia geral do comportamento geral das observaes.
35
Mediana
1 e 3 Quartis
Observao:
Alguns outros autores e softwares propem o uso de mdia e desvio padro
no lugar de mediana e quartis. Tukey justifica o uso de mediana e quartis dado eu as
mesmas so medidas de locao e disperso que no so influenciadas pela
presena de valores extremos no conjunto de dados e que, portanto permitem uma
mais fcil identificao de presena dos mesmos dentre os valores observados.
36
BoxBox-Plot
linha
auxiliar
_Q3+1,5d
altura
_Q3
_Q1
*
*
_Q3+1,5d
_Q3
_Q3
_Q3
_md
_md
_md
_Q1
_Q1
_Q1
_Q1-1,5d
_Q1-1,5d
*
Q1 = 1 quartil
md = mediana
Q3 = 3 quartil
*
*
d = diferena interquartil
Construo
LS=Q3+1,5(Q3-Q1)
Mximo
Q3
Mediana
Q1
75%
50%
25%
Mnimo
LI=Q1-1,5(Q3-Q1)
Mximo o maior valor menor que LS;
Mnimo o menor valor maior que LI.
Simetria
Disperso
Valores Discrepantes
37
IMPORTANTE:
O BoxPlot, alm das aplicaes apresentadas, um procedimento
extremamente importante na comparao de diferentes grupos (tratamentos) que
so observados e, por exemplo, dentre os quais, deseja-se identificar aquele com
melhor desempenho.
Exemplo:
Comparando o total de pontos obtidos pelos alunos ingressos no
processo seletivo 2005 nos diferentes cursos da UFSCar.
38
39