Professional Documents
Culture Documents
Exploratria de
Dados - 2006
R - LIG-06
Objetivos da aula
Apresentar um mtodo para a determinao
aproximada de quantis para dados noagrupados e usar a funo quantile do R;
definir o esquema dos cinco nmeros e
apresentar e construir um boxplot (grficocaixa) de um conjunto de dados.
Exemplo 1: Emisso de
Dixido de Carbono
Exemplo 1: Emisso de
Dixido de Carbono (cont.)
Exemplo 1: Emisso de
Dixido de Carbono (cont.)
dados<read.table(http://www.im.ufrj.br/~flavia/aed06/dados13bm.txt",header=T)
names(dados)
"pais"
"emissao"
quantile(dados$emissao,c(0.25,0.5,0.75))
25%
50%
75%
0.0675 0.4150 1.4725
quantile(dados$emissao,c(.1,.2,.3,.4,.5,.6,.7,.8,.9))
x(1) x( 2 ) ... x( n )
Considere os pontos da forma:
i 0.5
( x(i ) , pi ), com pi
, i 1,..., n
n
pi
0.025
0.075
0.125
0.175
0.225
0.275
0.325
0.375
0.425
10
0.475
11
0.525
12
0.575
13
0.625
14
0.675
15
0.725
16
0.775
17
0.825
18
0.875
19
0.925
20
0.975
Dados no-agrupados
(cont.)
Passo 2: Determine i tal que:
pi p pi 1
( x(i ) , pi ) e ( x(i 1) , pi 1 )
Passo 4: Calcule a abscissa do ponto pertencente reta
obtida no passo 2, cuja ordenada p.
q ( p ) x(i )
x(i 1) x(i )
pi 1 pi
( p pi )
Exemplo
54 0.5
55 0.5
0,743
0.75
0,757 tal que i 54.
72
72
Logo, consideramos os pontos (1,45 , 53,5/72) e
(1,54 , 54,5/72).
x(55)
x(54)
(1,54 1,45)
q (0,75) 1,45
(0,75 53,5 / 72) 1,495
54,5 / 72 53,5 / 72
Histograma alisado
de uma distribuio
simtrica unimodal
mnimo
Q1
Q2
Q3
mximo
summary(dados$emissao)
Min.
Boxplot
O retngulo no boxplot traado de tal
maneira que suas bases tm alturas
correspondentes aos primeiro e terceiro
quartis da distribuio.
O retngulo cortado por um segmento
paralelo s bases, na altura
correspondente ao segundo quartil.
Assim, o retngulo do boxplot correponde
aos 50% valores centrais da distribuio.
Cosntruindo o boxplot
Depois de desenhado o retngulo, traa-se
um segmento paralelo ao eixo, partindo do
ponto mdio da base superior do retngulo
at o maior valor observado que NO
supera o valor de Q3+(1,5)DEQ.
O mesmo feito a partir do ponto mdio
da base inferior do retngulo, at o menor
valor que NO menor do que Q1-(1,5)DEQ.
Fechando o boxplot
As observaes que estiverem acima de
Q3+(1,5)DEQ ou abaixo de Q1-(1,5)DEQ
so chamadas pontos exteriores e
representadas por asteriscos.
Essa observaes destoantes das demais
podem ser o que chamamos de outliers ou
valores atpicos.
Observaes
No necessariamente
haver a presena de
pontos exteriores num
boxplot.
Quando for este o
caso, o esquema ter
a seguinte aparncia:
A funo boxplot no R
Alguns argumentos da
funo boxplot
Exemplo 2
Vamos
dados<-read.table(http://www.im.ufrj.br/~flavia/aed06/dados6bm.txt,header=T)
boxplot(dados[,2],dados[,3],dados[,4],dados[,5], names=c(nivel
medio,mecanico,administrador,eng.eletrico))
1 nvel mdio
2 mecnico
3 administrador
4 Eng. Eltrico
Cores
col - cor de preenchimento dos retngulos
Boxplots horizontais
horizontal - valor
lgico, se T o boxplot
fica na posio
horizontal. Se F
(default) fica na
posio vertical.
Outros argumentos
ylim: controla a escala de valores
main: ttulo
sub: sub-ttulo
names: vetor com os rtulos dos
conjuntos de dados, quando so pedidos
mais de um boxplot.
pch: especfica o caracter a ser usado nos
pontos exteriores. Ex.: pch=*.
Exemplo 3:
No domingo, dia 4 de abril de 2004, o
jornal O Globo publicou uma reportagem
sobre o dinheiro da Unio disponvel para
investimentos nas prefeituras em 2004.
Nesta reportagem, foram publicados os
dados sobre 25 capitais, os partidos dos
prefeitos destas capitais, o nmero de
habitantes e o total em reais disponvel.
Exemplo 3 (cont.)
Estes dados foram armazenados no
arquivo dadosaula6.txt com o nmero de
habitantes em milhares e o investimento
em milhares de reais.
Os nomes atribudos s variveis foram:
cidade, partido, hab1000 e invest1000.
Exemplo 3 (cont.)
dados<read.table(http://www.im.ufrj.br/~flavia/aed06/dadosaula6.txt",header=T)
dadosord<-dados[indice,]
# dadosord receber toda a informao de dados, s que agora
# suas linhas esto ordenadas por partido
Resultado
parcial
[1] 0.4077745 0.5922255