Professional Documents
Culture Documents
Augusto Sousa da Silva Filho Faculdade Anhanguera de Belo Horizonte - unidade Centro
PALAVRAS-CHAVE:
Reamostragem. Intervalo de
Confiana. Erro Padro.
KEYWORDS:
Resampling. Confidence Interval.
Standard Errors.
ABSTRACT: The original sample represents the population from which it was extracted.
Thus, the resampling obtained from this sample represent what we would have to take
out several samples of the population. The Bootstrap distribution of a statistic, based
on a large number of resampling, represents the distribution of statistics based on a
large number of sample. The importance of its use and the techniques used to find its
parameters is described in this article.
Informe Tcnico
Recebido em: 27/11/2009
Avaliado em: 15/07/2010
Publicado em: 24/02/2014
Publicao
Anhanguera Educacional Ltda.
Coordenao
Instituto de Pesquisas Aplicadas e
Desenvolvimento Educacional - IPADE
Correspondncia
Sistema Anhanguera de Revistas
Eletronicas - SARE
rc.ipade@anhanguera.com
v.5 n.5 2010 p.115 - 126
1. INTRODUO
Existem mtodos de estimao e testes de significncia que produzem estimadores e testes
estatsticos com propriedades desejveis em amostras grandes. Em amostras pequenas
interessante o estudo do desempenho dos estimadores ou dos testes estatsticos para
determinar quo confivel a inferncia assinttica obtida.
Neste artigo, ser visto alternativas de reamostragem mtodos baseados em retirar
sucessivamente amostras repetidas e sua anlise atravs do mtodo Bootstrap.
Os mtodos de reamostragem permitem quantificar incertezas calculando erros padres
e intervalos de confiana, bem como realizar testes de significncia. Eles requerem menos
suposies e geralmente fornecem respostas mais precisas do que os mtodos tradicionais
(MOORE, McCABE, DUCKWORTH, SCLOVE, 1996).
Segundo (MADDALA, 2003), os testes de Razo de Verossimilhana, Wald e o
Multiplicador Lagrangeano tm distribuies assintticas normal ou x2. Na prtica, porm,
no se sabe como a performance desses testes em amostras pequenas. Ainda segundo
(MADDALA, 2003), muitos apresentam distores de tamanho substanciais, isto , podese testar ao nvel de 5% de significncia usando-se as distribuies assintticas normal ou
x2 , sendo que o verdadeiro nvel de significncia 25%. Alm disso, as performances de
dois estimadores que tm a mesma distribuio assinttica normal podem ser diferentes em
amostras pequenas.
Para examinar esses problemas, discute-se o mtodo de reamostragem, ou mtodos
que dependem da retirada de amostras repetidas. Para isso, ser apresentado o Mtodos
Bootstrap que resolve diferentes aspectos de inferncia em amostras pequenas. Para (SEBER,
2004), a sua utilizao visa reduzir desvios e prover desvios padres mais confiveis.
2. VANTAGEM DA REAMOSTRAGEM
Segundo Moore, McCabe, Duckworth e Sclove (2006), os mtodos de reamostragem (mtodo
Bootstrap, Monte Carlo, etc), permite quantificar a incerteza calculando os erros padres e
intervalos de confiana, bem como realizar testes de significncia. A sua utilizao exige
menos suposies e geralmente fornecem respostas mais precisas do que os mtodos
tradicionais. A reamostragem possui diversas vantagens, entre elas
Menos suposies: os mtodos de reamostragem no requerem que as distribuies
sejam normais, nem que as amostras sejam grandes;
Maior preciso: so mais precisos, na prtica, que os mtodos clssicos;
Generalidade: os mtodos de reamostragem so bastante similares para um grande
nmero de estatsticas e no exigem novas formulas para cada estatstica;
Funo pedaggica: os procedimentos Bootstrap aprimoram nossa intuio,
fornecendo-nos analogias concretas com os conceitos tericos;
116
se dessa amostra uma amostra de tamanho n com reposio. Chama-se essa amostra de
B j = y1* , y2* ,, yn* . Essa amostra Bootstrap. Cada yi* uma escolha aleatria de ( y1 , y2 ,, yn )
E faz-se isso para j = 1,2,, m e calcula-se
agora que:
1) Calcula-se um erro padro utilizando a reamostragem, em vez da frmula.
s
117
A idia do Bootstrap tambm vlida para outras estatsticas alm das mdias
amostrais. Para utilizar o Bootstrap de maneira mais geral, utiliza-se o Princpio do Plug-In.
Este principio consiste em estimar um parmetro, uma quantidade que descreve a populao,
utilizando a estatstica que a quantidade correspondente para a amostra.
Para Seber e Wild (2004), o principio do plug-in sugere que a mdia populacional seja
estimada por meio da mdia amostral x , e que naturalmente o desvio padro populacional
seja estimado pelo desvio padro amostral s. Conseqentemente, pode-se estimar a
mediana populacional pela mediana amostral. Para estimar o desvio padro
n da mdia
amostral para uma amostra aleatria simples, aplica-se o principio do plug-in, empregando s
na frmula para obter s
118
t1s( ) t2 s( )
s
Pode-se obter um intervalo de confiana para resolvendo em t a equao quantlica:
x
PF n
t =
s
sendo (0,1) O Teorema Central do Limite produz a soluo aproximada t = z onde:
P{N (0,1) z } =
Desta forma, obtm-se o intervalo:
s
s
, x z 2
x z1 2
n
n
ao nvel 100(1 )%
na substituio de z
(1)
()
, x t(2 2)
x t11 2
n
n
119
Para Souza (1998), os intervalos de confiana obtidos via o mtodo percentil aparecem
em trs tipos. Percentil simples, percentil vis corrigido e percentil vis corrigido acelerado.
Desta forma, tem-se o intervalo de confiana percentil simples para
(H ( / 2), H (1 / 2))
1
[H ((2 z
1
z 2 )), H 1 ( (2 z0 + z 2 ))
com (z 2 ) = 1 2
O intervalo percentil vis corrigido acelerado para ao nvel de 100(1 )% dado a
[H
seguir:
sendo z ( ) = z0 +
z0 + z
1 a (z0 + z )
( ( ))
e z0 = 1 H , (z ) =
* = (1 B )i =1i
B
(
B
s =
i =1
*
i
B 1
120
trocado por B. No entanto, para valores grandes geralmente empregados para , h pouca
diferena na estimativa produzida para s .
6. APLICAO
A utilizao dos mtodos Bootstrap ser apresentada via exemplos prticos. Para isso,
usou-se o programa R ou Minitab. A base de dados utilizada neste exemplo faz parte do
programa S-Plus e est disponvel em www.insightful.com/Hesterberg/bootstrap. A
Verizon uma empresa telefnica responsvel por uma grande rea da regio leste dos
Estados Unidos. Como tal, cabe a ela fazer o servio de reparos para os clientes das demais
companhias telefnicas dessa regio. A Verizon estar sujeita a multas caso os tempos de
reparo (tempo para resolver problemas nas linhas telefnicas) para os clientes das empresas
concorrentes forem substancialmente maiores que os tempos para os seus prprios clientes.
Isso determinado por meio de testes de hipteses, negociados junto Comisso de Servios
Pblicos. Comea-se a anlise observando a estatstica descritiva dos clientes da Verizon.
De acordo com os dados observados, o tempo mdio de reparo foi de 8,41 horas com
um desvio padro de 14,69 horas. Estas estatsticas foram extradas de uma nica amostra
aleatria. Muito embora a amostra seja de 1664 observaes, sendo por isso considerada
grande, a amostra no se comportou seguindo uma distribuio Normal de Probabilidade.
As figuras a seguir ajudam a entender esta afirmao.
121
grfico a seguir mostra a distribuio de 1000 mdias de reamostras para os dados dos
tempos de reparo da Verizon, utilizando um histograma e uma curva de densidade.
122
como se espera que a distribuio amostral se comporte (a partir da populao). Encontrouse tambm o intervalo de confiana para a mdia e para a mediana para as 1000 mdia
reamostradas.
Para encontrar tal intervalo, utiliza-se uma macro que necessita de trs informaes:
(b, est, alfa). Supondo que o conjunto de valores de interesse se encontra na clula C1 do
aplicativo, temos que entrar com as seguintes informaes: (b= nmero de interaes).
Bootstrap Confidence Interval
The 95% Bootstrap Confidence Interval (Percentile Method)
Mean
8,41480
7,73949
9,13879
Neste exemplo utilizou-se um total de 1000 interaes. A seguir, temos (est). O valor
(1) representa que foi solicitado um intervalo de confiana para a mdia e o valor (2) indica
a solicitao de um intervalo de confiana para a mediana. E o ltimo valor de entrada o
nvel de significncia do teste. Neste exemplo, procurou-se um intervalo ao nvel de 95%
de confiana. A macro para Minitab for Windows 15 (Confidence Intervals for the Mean
or Median using Bootstrap Methods Code), encontra-se disponvel na web em: http://
www.minitab.com/en-US/support/macros/default.aspx?action=code&id=108. A seguir,
encontra-se o intervalo de confiana Bootstrap para a mediana pelo mtodo dos percentis.
Bootstrap Confidence Interval
The 95% Bootstrap Confidence Interval (Percentile Method
Median Lower Bound
3,6
3,22
Upper Bound
3,82
O intervalo de confiana para o valor mediano de 3,22 a 3,82. Foi utilizado o mtodo
dos percentis, com um nvel de confiana de 95%.
123
media_o
9,2980
9,3938
11,3871
9,4259
10,8253
124
media_o
9,2980
9,90392
reamostra media_r
11,3871
9,9908
media
9,85763
9,3938
9,3925
10,0543
11,3871
11,3871
9,6418
9,4259
9,2980
10,1064
10,8253
9,3938
9,9578
Logo, tem-se a mdia da amostra original =9,903293 e a mdia das mdias das
reamostras 9,85763.
7. CONCLUSO
Neste trabalho verificou-se que para se fazer o Bootstrap para uma estatstica (por exemplo
a mdia amostral), deve-se retirar centenas de reamostras com reposio a partir da amostra
original e calcular a estatstica em questo para cada reamostra e inspecionar a distribuio
Bootstrap das estatsticas dessas reamostras.
Procurou-se aplicar a metodologia Bootstrap a exemplos prticos e observou-se que a
distribuio Bootstrap aproxima-se da distribuio amostral da estatstica. Isso um exemplo
do princpio do plug-in. Em geral, as distribuies Bootstrap possuem aproximadamente
a mesma forma e disperso da distribuio amostral, porm est centrada na estatstica
(dos dados originais), ao passo que a distribuio amostral est centrada no parmetro da
populao.
Na anlise do exemplo Verizon, constatou-se que o Bootstrap no um substituto para
o acrscimo de dados com vistas ao aumento da preciso. Em vez disso, a idia do Bootstrap
a de se empregar as mdias das reamostras para se estimar como a mdia amostral de
uma amostral de tamanho 1664, extrada dessa populao, varia em decorrncia da amostra
aleatria.
A tcnica de Bootstrap tenta realizar o que seria desejvel realizar na prtica, se tal
fosse possvel: repetir a experincia. As observaes so escolhidas de forma aleatria e as
estimativas re-calculadas.
125
REFERNCIAS
BOOTH, J.G.; HALL, P.; WOOD, A.T.A. Balanced importance resampling for the
bootstrap. Annals of Statistics, 21, 286298, 1993.
DAVISON, A.C.; HINKLEY, D.V. Bootstrap Methods and Their Application. Cambridge
University Press, 1997.
DAVISON, A.C.; HINKLEY, D.V.; SCHECHTMAN, E. Efficient Bootstrap Simulation.
Biometrika, 73, 555566, 1996.
EFRON, B.; TIBSHIRANI, R. Bootstrap Methods for Standard Errors, Confidence
Intervals and Other measures of Statistician Acuracy, Statitical Science, Vol. 1, 1986, pp.
54-77.
EFRON, B., Bootstrap methods: another look at the jackknife Ann. Stat., Beachood, v.7,
p. 1-26, 1979.
HALL, P. The Bootstrap and edgeworth expansion. New York: Springer-Verlang, 1992.
HINES, W.W.; MONTGOMERY, D.C.; GOLDSMAN, D.M.; BORROR, C.M. Probabilidade
e Estatstica na Engenharia. Editora LTC: Rio de Janeiro, p. 227, 2006.
HOEL, P.G. Introduction to Mathematical Statistics. John Wiley & Sons. New York, 1971.
MOORE, D. S.; McCABE, G.P.; DUCKWORTH, W.M.; SCLOVE, S.L. The Practice of
Business Statistics: Using data for decisions. 1a. ed. LTC: Rio de Janeiro, p. 785, 1996.
MONTGOMERY, D. C.; RUNGER, G. C. Estatstica aplicada e probabilidade para
engenheiros, Editora LTC: Rio de Janeiro, p. 155, 1993.
MADDALA, G.S. Introduo Econometria. 3. ed., Editora LTC: Rio de Janeiro, p. 318,
2003.
Minitab 15 for Statistical Program. Version 15.
SOUZA, G.S. Introduo aos Modelos de Regresso Linear e No Linear. Editora
Embrapa: Brasilia, 1998.
SEBER, G.A.F.; WILD, C.J. Encontros com o acaso Um Primeiro Curso de Anlise de
Dados e Inferncia. Editora LTC: Rio de Janeiro, 2004.
Program R for Statistical. Version 2.11.1. The R Foundation for Statistical Computing.
126