Analise Politicas Sociais PDF

ANALISE DE INDICADORES
SOCIAIS UTILIZANDO O STATA
Henrique Dantas Neder
Professor Associado Instituto de Economia Universidade Federal de

Uberlndia
1
Contedo
1. Introduo................................................................................................................ 4
2. Construo e Interpretao de Indicadores Sociais ......................................... 4
2.1 O ndice de Desenvolvimento Humano (IDH) ...................................................... 4
2.2 ndices de pobreza ................................................................................................ 20
2.3 Linhas de Pobreza ................................................................................................. 21
2.4 Indices de distribuio de renda........................................................................... 31
2.5 Decomposio de ndices de Pobreza e ndices de Distribuio de Renda ......... 41
2.6 Clculo dos coeficientes de elasticidade-Gini e elasticidade-renda da pobreza ... 45
2.6 Clculo dos coeficientes de elasticidade-Gini e elasticidade-renda da pobreza ... 45
3. Avaliao de polticas sociais ............................................................................ 52
3.1 Mtodos Quantitativos de Avaliao de Programas Sociais................................. 53
3.2 Introduo a Inferncia Causal ............................................................................. 59
3.3 Estimao pela Dupla Diferena........................................................................... 60
3.4 O Modelo de Regresso Logstica ........................................................................ 62
3.5 Mtodo do Propensity Score Matching ................................................................ 64
3.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching ............. 69
3.7 Modelo de Heckman ............................................................................................. 71
4. Introduo aos Mtodos de Amostragem e Interpretao de dados amostrais
........................................................................................................................................ 74
4.1 Introduo ............................................................................................................. 74
4.2 Termos e Definies de Amostragem ................................................................... 76
4.3 Mtodos de Seleo de Amostras ......................................................................... 77
4.4 Delineamentos de Amostras ................................................................................ 80
4.5 Variveis Aleatrias e Distribuies Amostrais ................................................... 86
4.6 Estimao .............................................................................................................. 90
4.7 Amostragem Aleatria Simples ............................................................................ 91
4.8 Dimensionamento de Amostras .......................................................................... 108
Tamanho amostral para Amostra Aleatria Simples (AAS)..................................... 108
Tamanho Amostral com Correo de Populao Finita ........................................... 112
4.9 Amostragem Aleatria Estratificada ................................................................... 113
Escolha das variveis de estratificao ..................................................................... 114
Distribuio da Amostra por Estratos ....................................................................... 118
a) Repartio Proporcional ............................................................................... 118
b) Repartio tima de Neyman ....................................................................... 119
4.9 Ponderao da Amostra ..................................................................................... 120
4.10 Ps-estratificao ou Estratificao aps a Amostragem ................................. 121
4.11 Amostragem com Probabilidade Desigual........................................................ 123
4.12 Amostragem por conglomerados ...................................................................... 125
4.13 Procedimentos de Campo para Seleo de Amostras Domiciliares ................ 132
Mtodo da Segmentao ........................................................................................... 132
Mtodo do Passeio Aleatrio Verso 1.................................................................. 134
Mtodo do Passeio Aleatrio Verso 2.................................................................. 135
Amostragem por rea ................................................................................................ 136
4.14 Amostragem utilizando recursos de informtica .............................................. 137
Utilizao do Excel ................................................................................................... 137
Utilizao do SPSS ................................................................................................... 138
Utilizao do STATA ............................................................................................... 139
Utilizao do SAS ..................................................................................................... 141
2
4.15 Bootstrapping .................................................................................................... 142
4.16 Exerccios......................................................................................................... 144
Referencias Bibliogrficas ........................................................................................ 150
ANEXOS ...................................................................................................................... 152
Quadro 1 Sistema de ponderao do IDH e do ICV municipal ........................... 6

Quadro 2 Todas as amostras de 2 elementos de uma populao de 5
elementos (amostragem com reposio) ................................................................. 87
Quadro 3 Valores das mdias amostrais X de amostras de 2 elementos
selecionados de uma populao de 5 elementos (amostragem com reposio)
........................................................................................................................................ 88
Quadro 4 Simulao de uma amostragem com reposio de uma populao
hipottica de 5 elementos ........................................................................................... 92
Quadro 5 Memria de clculo das mdias e varincias de uma amostra
selecionada de uma populao hipottica de 5 elementos .................................. 94
Quadro 6 Simulao de uma amostragem sem reposio de uma populao
hipottica de 5 elementos ........................................................................................... 96
Quadro 7 Principais Estimadores utilizados em amostragem ....................... 97
Quadro 8 Valores hipotticos de uma amostra aleatria estratificada .......... 117
Quadro 9 Ps-estratificao da amostra ............................................................ 122
Figura 1- Clculo do IDH municipal de acordo com um exemplo .......................... 8

Figura 2 Editor de dados do STATA com os dados do IDH para os municipios
do Estado de Minas Gerais ........................................................................................ 10
Figura 3 Matriz de correlao entre os valores do IDH e de seus
componentes para os municpios do Estado de Minas Gerais ............................ 11
Figura 4 Coeficientes de correlao de Spearman entre os diversos
componentes do IDH e para os municpios do Estado de Minas Gerais............ 12
Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os
municpios de Minas Gerais ....................................................................................... 16
Figura 6 Seleao de um numero aleatorio em um intervalo de dois numeros
inteiros atravs do Excel. ............................................................................................ 79
Figura 7 Seleao de 10 numeros aleatorios entre 1 e 100 atravs do Excel . 81
Figura 8 Seleao de numeros aleatorios em um intervalo entre dois numeros
inteiros no Stata............................................................................................................ 82
Figura 9 Seleao de uma amostra com probabilidade proporcional ao
tamanho atravs do Stata. .......................................................................................... 84
Figura 10 Ilustrao do Teorema do Limite Central para uma distribuio log-
normal ............................................................................................................................ 90
Figura 11 Ilustrao do Mtodo da Segmentao ............................................ 134
Figura 12 Mapa de um Hipottico Setor Amostral mostrando Possveis
Pontos de Partida Mtodo do passeio aleatrio ................................................ 135
Figura 13 Amostragem por rea .......................................................................... 136
Grfico 1 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000
dos municpios do Estado de Minas Gerais ............................................................ 13
3
dos municpios do Estado de Minas Gerais ............................................................ 14
Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais
........................................................................................................................................ 17
Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e

ajustadas a cada ano pela variao dos INPC regionais em nvel de grupos de
produtos ............................................................................................................ 24
1. Introduo
Os princpios gerais para a estimativa e anlise de indicadores sociais
baseiam-se em diversas teorias e neste trabalho no vamos nos concentrar
detalhadamente nas mesmas. O que pretendemos enumerar e descrever
algumas metodologias que se relacionam ao clculo, estimativa e analise
destes indicadores. O objetivo geral do trabalho est circunscrito a analise de
dados que se relacionam a pesquisas socioeconmicas e relativas a polticas
publicas.
2. Construo e Interpretao de Indicadores Sociais
2.1 O ndice de Desenvolvimento Humano (IDH)

O primeiro indicador a ser tratado e o que mais consagrado, devido ao
seu uso disseminado, o IDH. Este ndice um indicador sinttico de
desenvolvimento calculado em termos agregados e tem sido utilizado para
medir comparativamente o nvel de desenvolvimento de pases e regies. De
imediato este indicador ganhou grande amplitude e aceitao universal devido
a sua simplicidade de calculo e facilidade de obteno mesmo para pases com
sistemas estatsticos no desenvolvidos. Trata-se de uma media ponderada de
trs variveis que representam trs dimenses bsicas de desenvolvimento: a
renda, a educao e a sade.
Para o Brasil, a Fundao Joo Pinheiro em conjunto com o IPEA

desenvolveu uma metodologia de calculo do IDH municipal (ndice de
Desenvolvimento Humano Municipal) e do ICV (ndice de Condies de Vida
4
Municipal) baseados em 5 dimenses bsicas: renda, educao, infncia,
habitao e longevidade. Cada uma destas dimenses representada por um
conjunto de indicadores.
A dimenso Renda formada pelos indicadores renda familiar per capita,
ndice de Theil, proporo de pobres (P0), hiato de pobreza (P1) e hiato de
renda quadrtico mdio (P2). A dimenso Educao representada pelas
variveis numero mdio de anos de estudo, Porcentagem da populao com
menos de quatro anos de estudo, Porcentagem da populao com menos de
oito anos de estudo, Porcentagem da populao com mais de 11 anos de
estudo e Taxa de analfabetismo.
A dimenso Infncia formada pelos seguintes indicadores: Defasagem
escolar mdia, Porcentagem de crianas com mais de um ano de defasagem
escolar, Porcentagem de crianas que no freqentam a escola e Porcentagem
de crianas que trabalham. A dimenso Habitao composta pelas variveis:
Porcentagem da populao que vive em domiclios com densidade acima de
duas pessoas por dormitrio, Porcentagem da populao que vive em
domiclios durveis, Porcentagem da populao urbana que vive em domiclios
com abastecimento adequado de gua, Porcentagem da populao urbana que
vive em domiclios com instalaes adequadas de esgoto.
Finalmente a dimenso Longevidade composta pelos indicadores
Esperana de vida ao nascer e a Taxa de mortalidade infantil.
Mostramos a seguir o sistema de ponderao destes dois ndices1:
1
Esta tabela foi diretamente reproduzida da DEFINIO E METODOLOGIADE CLCULO DOS INDICADORES
E NDICES DE DESENVOVIMENTO HUMANO E CONDIES DE VIDA - Fundao Joo Pinheiro (FJP) e do
Instituto de Pesquisas Econmicas Aplicadas (IPEA.)
5
Quadro 1 Sistema de ponderao do IDH e do ICV municipal
6
Como se observa da tabela acima, cada ndice constitui-se de uma media
ponderada obtida a partir de algumas variveis. No caso do IDH municipal,
calculado como uma media ponderada das dimenses Renda, Educao e
Longevidade, com pesos iguais a 1/3 para cada destas dimenses.
Conseqentemente o IDH municipal simplesmente uma media ponderada
dos trs subndices que o compem. Para a dimenso Renda temos que no
caso do IDH municipal, esta apenas composta pela renda familiar per capita
media ajustada.
O mesmo se d para a dimenso de Longevidade que representada

apenas pelo indicador Esperana de Vida ao Nascer (anos). No entanto, para a
dimenso Educao, o IDH municipal utiliza em seu calculo duas variveis:
taxa de analfabetismo (%) com peso 2/9 e numero mdio de anos de estudo
(anos) com peso 1/9. Estes pesos se referem ao ndice final.
Por exemplo, suponhamos que um determinado municpio tenha uma

renda media per capita familiar ajustada igual a 0,950 salrios mnimos de
setembro de 19912, uma taxa de analfabetismo de 40 %, um numero mdio de
anos de estudo de 5,3 anos e uma esperana de vida ao nascer de 61 anos.
O valor de seu IDH ser dado pela expresso:
IDH = 1/3 x ndice de Renda + 1/3 x ndice de Habitao + 1/3 x ndice de

Longevidade = 1/3 x renda familiar per capita media ajustada + 2/9 x Taxa de
analfabetismo (%) + 1/9 x numero mdio de anos de estudo padronizado + 1/3
x Esperana de Vida ao Nascer padronizada =
1/3 x (0,950 0,050)/ (1,364 0,050) + 2/9 x 0,40 + 1/9 x (5,3 0)/(15 0) +
1/3 x (61 25) / (85 25) = 0,556
No Stata este calculo pode ser realizado atravs do comando (ver tela abaixo):
disp 1/3*(0.950-0.050)/(1.364-0.050)+2/9*0.40+1/9*(5.3-0)/(15-0)+1/3*(61-
25)/(85-25)
2
Os valores da renda familiar per capita esto expressos em salrios mnimos de
setembro de 1991, sendo de Cr$ 36.161,60 o valor do salrio mnimo nesta data.
7
Esta expresso deve ser escrita na linha de comando e em seguida ativar a
tecla enter.
Figura 1- Clculo do IDH municipal de acordo com um exemplo
A Fundao Joo Pinheiro e o IPEA na divulgao da metodologia de

calculo adotam um procedimento de padronizao dos ndices utilizando a
expresso a seguir:
ndice padronizado = (valor observado para o indicador - pior valor) / (melhor

valor - pior valor)
Esta expresso foi empregada no calculo anterior para a padronizao da

renda familiar per capita media em salrios mnimos, do numero mdio de anos
de estudo e da esperana de vida ao nascer. No caso da taxa de analfabetismo
no necessria padronizao pois a mesma varia de 0 (0%) a 1 (100%). Esta
8
operao de padronizao previa dos indicadores necessria para que a
escala original de variao e as unidades de medida dos mesmos no
distoram o calculo final do IDH favorecendo o efeito de alguns ndices no
calculo da media ponderada.
Suponhamos outro exemplo em que se deseja calcular o ICV para um

determinado municpio. Com mostrado no Quadro 1, este ndice calculado
com base em um numero maior de indicadores e dimenses bsicas.
A renda familiar per capita definida a soma da renda pessoal de todas

as pessoas da famlia excludos os pensionistas e os empregados domsticos
e seus parentes (so tambm excludas as famlias que no pertencem a
domiclios particulares por exemplo, famlias ou indivduos que fazem parte
de domiclios coletivos que so hotis, penses, alojamentos).
Para obter os indicadores utilizados no calculo do ndice de

Desenvolvimento Humano Municipal, faa o download do Atlas de
Desenvolvimento Humano no site
http://www.fjp.gov.br/produtos/cees/idh/atlas_idh.php e o instale no seu
computador.
Vamos fazer um pequeno exerccio analtico utilizando os valores do IDH

(e de seus componentes) para todos os municpios de Minas Gerais. Depois de
exportar estes valores para uma planilha Excel (existe uma opo para isto no
Atlas de Desenvolvimento Humano), copiamos e colamos estes valores para o
editor de dados do STATA. Mas antes disto necessrio alterar o separado de
decimal de vrgula para ponto no Excel.
Isto necessrio porque o STATA reconhece o separador de decimal

como ponto. importante antes de copiar os dados do Excel para o STATA,
colocar na primeira linha os nomes abreviados das variveis. Quando for feita a
copia para o editor de dados, o STATA automaticamente ir reconhecer os
valores da primeira linha como sendo os nomes das variveis.
9
Figura 2 Editor de dados do STATA com os dados do IDH para os municipios
do Estado de Minas Gerais
Podemos iniciar a nossa analise calculando a matriz de correlao entre

os valores dos diversos componentes do IDH para 853 municpios de Minas
Gerais. Para isto, na janela de comandos do STATA digite correlate e passe os
nomes das variveis que esto na janela de variveis para a janela de
comandos (basta clicar nas variveis que seus nomes vo se transferindo para
a janela de comandos em seguida a palavra chave correlate. Aperte a tecla
enter e surgir na janela de resultados a matriz de correlao.
10
Figura 3 Matriz de correlao entre os valores do IDH e de seus
componentes para os municpios do Estado de Minas Gerais
Observe que o IDH1991 e o IDH2000 tem uma elevada correlao

(0,9618) o que indica que praticamente os municpios conservaram as mesmas
colocaes durante o perodo. Para confirmar isto execute o comando
spearman idh1991 idh2000. O resultado para o coeficiente de correlao de
Sperman (correlao de ordem) de 0,9623 confirmando que os municpios de
Minas Gerais no alteraram substancialmente as suas posies no ranking do
IDH global. Faamos esta verificao para os componentes individuais do IDH.
spearman idhedu1991 idhedu2000 <enter>

spearman idhlong1991 idhlong2000 <enter>
spearman idhrend1991 idhrend2000 <enter>
11
Pode-se observar que o componente do IDH que mais alterou o seu
ranking entre os municpios do Estado de Minas Gerais no perodo 1991-2000
foi o de longevidade.
Figura 4 Coeficientes de correlao de Spearman entre os diversos

componentes do IDH e para os municpios do Estado de Minas Gerais
Um grfico muito interessante para a anlise comparativa das

distribuies estatsticas do IDH1991 e IDH2000 pode ser obtido atravs do
comando:
graph box idh1991 idh2000, marker(1,mlabel(municipio))
Este grfico tambm poderia ser obtido atravs do menu Graphics => Box
plot No entanto, preferimos utilizar diretamente o comando dada a maior
flexibilidade de recursos (por exemplo, incluir a possibilidade de marcar os
municpios com baixo valor do IDH 1991 que aparecem no grfico). Pelo
12
pode-se observar que a distribuio do IDH desloca-se para valores mais
elevados: a mediana (que a linha intermediaria no meio da caixa) vai para
cima de 1991 para 2000, assim como tambm o primeiro quartil (face inferior
da caixa) e o terceiro quartil (face superior da caixa).
O valor mnimo do IDH em 1991 que correspondia ao municpio de Santo
Antonio do Retiro era igual a 0,42 e passa a ser 0,57 (correspondente a
ordenada da extremidade inferior da linha vertical que sai da caixa) em 2000.
Ao mesmo tempo o valor mximo passa de 0,79 em 1991 para 0,84 em 2000
(que corresponde a extremidade superior da linha vertical que sai da caixa
central do diagrama).
.8
.7
.6
.5
Setubinha (MG)
Santo Antnio do Retiro (MG)
.4
IDH1991 IDH2000
dos municpios do Estado de Minas Gerais
Para a comparao entre os dois ndices correspondentes a longevidade

tentamos o seguinte comando:
13
graph box idhlong1991 idhlong2000, marker(1, mlabel(municipio)
msize(tiny) mlabsize(municipio)) marker(2, mlabel(municipio) msize(tiny)
mlabsize(tiny))
Este ltimo comando especifica nas opes msize e mlabsize os

tamanhos dos labels ds municpios que aparecem no grfico como dados
discrepantes (outliers). Mas infelizmente este comando no apropriado pois
ocorre muita sobreposio de nomes de municpios como outliers no grfico.
Estes outliers so observaes cujo valor da varivel inferior (superior) a 1,5
vezes a distancia entre as duas faces da caixa (desvio interquartlico) contada
a partir da ordenada correspondente a face inferior (superior).
A ltima observao encontrada acima (abaixo) deste limite

denominada valor extremo e as observaes inferiores (superiores) so
outliers. Para maior visibilidade e evitando a sobreposio de labels vamos
executar o comando:
.9
.8
.7
.6
.5
IDHLONG1991 IDHLONG2000
dos municpios do Estado de Minas Gerais
14
Vemos que para o ano 1991 temos diversos outliers inferiores que
correspondem a municpios com valores do IDH longevidade inferiores de
forma discrepante em relao ao conjunto da distribuio desta varivel. Outra
importante considerao pode ser obtida atravs da analise de um simples
calculo de estatsticas descritivas para os indicadores:
summa idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991 idhlong2000

idhrend1991 idhrend2000
Para todos os indicadores observa-se uma elevao dos valores mnimos,
valores mximos e medias das distribuies. Ocorre tambm uma reduo do
desvio padro do idh e idhedu. Uma tabulao mais detalhada de estatsticas
descritivas (e com melhor disposio tabular mais apropriada para a copia
em um documento de texto) pode ser obtida atravs do comando:
tabstat idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991 idhlong2000

idhrend1991 idhrend2000, s(min max mean sd cv sk) c(s)
Este comando tambem pode ser ativado via menu atraves da sequencia
Statistics => Summaries, tables and tests => Tables => Table of Summary
Statistics (tabstat). Deve-se ento incluir as variveis na janela Variables
localizada na aba Main, colocar as estatsticas na janela Statistics to display e
na aba options colocar Statistics na janela Use as columns.
15
Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os
municpios de Minas Gerais
Pela Figura 5 interessante observar duas caractersticas importantes

das distribuies do IDH municipal e de seus componentes: a disperso
relativa medida pelo coeficiente de variao (cv) e a assimetria medida pelo
coeficiente de assimetria de Pearson (skewness). Verifica-se que todas as
variveis tm sua disperso relativa reduzida no perodo 1991-2000 e com
exceo do ndice de renda, todos os demais tem sua assimetria (em termos
de valor absoluto) reduzida no mesmo perodo.
As distribuies tornam-se menos dispersas em relao as suas

respectivas medias e com assimetria menos acentuada em direo a valores
mais elevados (assimetrias menos negativas). Vamos analisar o que
efetivamente ocorre com a distribuio do IDH educao que tem o seu
coeficiente de variao reduzido de 0,1369 para 0,0764 e seu coeficiente de
assimetria reduzido em termos absolutos de 0,6905 para 0,4166. Uma
analise grfica pode ser obtida atravs dos seguintes comandos:
16
histogram idhedu1991, name(idh1991educ, replace)
histogram idhedu2000, name(idh2000educ, replace)
graph combine idh1991educ idh2000educ
15
6
10
4
Density
Density
5
2
0
.4 .6 .8 1 .6 .7 .8 .9
IDHEDU1991 IDHEDU2000
Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais

A reduo do coeficiente de variao pode ser em grande parte explicada
pelo aumento do IDH educao dos municpios com pior situao em termos
deste indicador em 1991 e que tinha um valor de 0,4 a 0,57 que tiveram seus
valores elevados a valores superiores a este ultimo limite. Portanto os
municpios que anteriormente tinham valores muito distanciados da media
estadual passaram a ter valores mais prximos da mesma. As redues do
coeficiente de variao e do valor absoluto do coeficiente de assimetria indicam
que ocorreu um processo de uniformizao dos valores do IDH educao para
os municpios. O grande salto do limite inferior para este indicador de 0,35 em
1991 para 0,57 em 2000 comprova esta uniformizao.
Outro ndice que foi desenvolvido recentemente em trabalhos de pesquisa

o ndice de Desenvolvimento Rural (IDR). Este indicador guarda
semelhanas de metodologia com o IDH e o ICV municipal, dentro de uma
17
concepo de simplicidade. No entanto ele foi proposto para medir
especificamente o nvel de desenvolvimento rural, concentrando-se em
indicadores bsicos mais apropriados a esta realidade. A definio destes
indicadores bsicos e como o clculo do IDR encontra-se na tabela a seguir:
18
O IDR baseia-se em 4 dimenses bsicas (populao, bem estar social,
econmica e ambiental) sendo cada uma destas calculada com base em
alguns indicadores. Cada uma destas dimenses uma media aritmtica das
variveis que a compem e o IDR por sua vez uma media aritmtica dos
indicadores compostos que representam as 4 dimenses. O mesmo
procedimento de padronizao empregado no calculo do IDH e ICV municipal
tambm adotado para algumas variveis que requerem esta transformao. A
fundamentao terica para a utilizao de cada varivel pode ser encontrada
em Silva (2006) e em Kageyama (2004).
19
2.2 ndices de pobreza
Os ndices de pobreza mais utilizados na literatura so: o Poverty
Headcount (proporo de pobres P0), o Poverty Gap (Gap de Pobreza P1) e
o Squared Poverty Gap (Gap de Pobreza elevado ao quadrado P2), todos
fazendo parte da classe de ndices FGT (Foster, Greer e Thorbecke, 1984).
Estes ndices so calculados com base nas seguintes expresses:
q
P0 =
n
1 q z yi
P1 =
n i =1 z
2
1 q z yi
P2 =
n i =1 z
onde:
q o nmero de pobres (pessoas cuja renda per capita domiciliar menor que
a linha de pobreza).
n o tamanho da populao
z a linha de pobreza
yi a renda per capita domiciliar da i-sima pessoa
O primeiro ndice (Poverty Headcount) mede a proporo de pessoas

pobres, ou seja, a proporo de pessoas que tm renda per capita domiciliar
inferior linha de pobreza. Tal indicador utilizado como ponto de partida
para estudos sobre pobreza, mas insuficiente para analis-la dado que viola
dois importantes axiomas. Em primeiro lugar, o indicador no se altera ao se
reduzir a renda de uma pessoa situada abaixo da linha de pobreza ou o
inverso, isto , quando a renda eleva-se sem alcanar a linha de pobreza o
indicador permanece o mesmo.
Em segundo lugar, a proporo tambm insensvel distribuio de

renda entre os pobres, no se alterando quando se transfere renda de um
indivduo mais pobre para outro menos pobre. Sendo assim, a proporo de
20
pobres deve ser utilizada em conjunto com outros dois indicadores, que se
complementam mutuamente.
O segundo ndice (poverty gap) mede a intensidade de pobreza para o

conjunto da populao pobre atravs do clculo do desvio mdio entre a renda
dos pobres e o valor da linha de pobreza e pode ser interpretado como um
indicador do dficit de pobreza, ou seja, os recursos necessrios para elevar a
renda de todos os pobres ao nvel da linha de pobreza, atravs de uma perfeita
focalizao das transferncias de renda. O terceiro ndice (Squared Poverty
Gap) geralmente descrito como um indicador de severidade da pobreza.
Na construo deste ndice utiliza-se um peso maior para as pessoas

mais pobres (o gap de pobreza ponderado por si mesmo) e leva-se em
conta a desigualdade de renda entre os pobres. Considerando-se a utilizao
destes ndices para os propsitos de polticas pblicas de combate pobreza a
proporo de pobres (P0) atribui maior efetividade polticas que elevam a
renda dos menos pobres (aqueles cuja renda mais prxima de z). J o gap
de pobreza (P1) e o gap de pobreza ao quadrado (P2) colocam nfase naqueles
que esto muito abaixo de z, ou seja, os mais pobres dos pobres.
2.3 Linhas de Pobreza

Existe uma imensa discusso sobre mtodos de obteno de linhas de
pobreza. Os mtodos baseiam-se invariavelmente em procedimentos de
obteno de um valor monetrio mnimo necessrio para uma famlia (em
termos per capita) conseguir manter-se em termos de necessidades
nutricionais, habitacionais, sade, educao, etc. Parte-se da obteno de uma
linha de indigncia e sobre o valor desta acrescenta-se um fator que
representar os gastos no alimentares.
A linha de indigncia normalmente baseada em termos normativos, ou

seja, os valores de um conjunto de bens alimentares necessrios para a
manuteno de uma famlia. O fator que multiplica este valor igual ao inverso
do coeficiente de Engel que por sua vez igual a relao media, vigente entre
as famlias pobres, entre os gastos com consumo alimentar sobre o total dos
21
gastos. Este ultimo indicador obtido atravs das Pesquisas de Oramento
Familiares que so realizadas periodicamente pelo IBGE.
Como exemplo apresenta-se na
22
Tabela 1 a seguir, as linhas de pobreza, para os anos da dcada atual.
23
Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e ajustadas a cada ano pela variao dos INPC regionais
em nvel de grupos de produtos
Regies e set. / 01 set. / 02 set. / 03 set. / 04 set. / 05 set. / 06
Estratos
em R$ em em R$ em em R$ em em R$ em em R$ em em R$ em
S.M. S.M. S.M. S.M. S.M. S.M.
Norte
Belm 103.65 0.58 114.76 0.57 134.57 0.56 142.86 0.55 151.37 0.50 155.04 0.44
Urbano 90.35 0.50 100.04 0.50 117.30 0.49 124.53 0.48 131.95 0.44 135.15 0.39
Rural 66.19 0.22 67.80 0.19
Nordeste
100.60 0.56 112.41 0.56 132.29 0.55 140.35 0.54 146.61 0.49 150.79 0.43
Fortaleza
Recife 146.12 0.81 159.12 0.80 192.03 0.80 199.81 0.77 212.02 0.71 222.75 0.64
132.95 0.74 146.73 0.73 174.64 0.73 181.19 0.70 187.58 0.63 195.44 0.56
Salvador
Urbano 89.30 0.50 98.37 0.49 117.35 0.49 122.62 0.47 128.47 0.43 133.82 0.38
Rural 53.86 0.30 59.34 0.30 70.79 0.29 73.96 0.28 77.49 0.26 80.72 0.23
Minas
24
G./Esp.S.
Belo 126.10 0.70 137.20 0.69 163.45 0.68 175.24 0.67 186.35 0.62 195.82 0.56
Horizonte
Urbano 84.78 0.47 92.24 0.46 109.89 0.46 117.82 0.45 125.29 0.42 131.65 0.38
Rural 50.19 0.28 54.61 0.27 65.05 0.27 69.75 0.27 74.17 0.25 77.94 0.22
Rio de
Janeiro
150.80 0.84 165.71 0.83 196.69 0.82 209.78 0.81 218.44 0.73 227.37 0.65
Metrpole
Urbano 93.82 0.52 103.10 0.52 122.38 0.51 130.52 0.50 135.91 0.45 141.47 0.40
Rural 68.49 0.38 75.26 0.38 89.34 0.37 95.28 0.37 99.21 0.33 103.27 0.30
So
Paulo
188.04 1.04 205.85 1.03 238.20 0.99 250.79 0.96 261.60 0.87 266.15 0.76
Metrpole
Urbano 120.16 0.67 131.54 0.66 152.21 0.63 160.25 0.62 167.16 0.56 170.07 0.49
Rural 75.59 0.42 82.75 0.41 95.76 0.40 100.82 0.39 105.16 0.35 106.99 0.31
Sul
Curitiba 124.13 0.69 134.60 0.67 156.08 0.65 168.54 0.65 173.59 0.58 175.73 0.50
25
P.Alegre 96.20 0.53 105.72 0.53 124.12 0.52 132.28 0.51 138.38 0.46 141.57 0.40
Urbano 82.73 0.46 90.24 0.45 105.22 0.44 112.96 0.43 117.15 0.39 119.14 0.34
Rural 55.78 0.31 60.84 0.30 70.93 0.30 76.15 0.29 78.98 0.26 80.32 0.23
Centro-
Oeste
Braslia 171.44 0.95 187.16 0.94 225.83 0.94 240.15 0.92 251.57 0.84 265.42 0.76
Goinia 159.64 0.89 175.96 0.88 207.33 0.86 222.86 0.86 234.81 0.78 243.30 0.70
Urbano 121.55 0.68 133.98 0.67 157.86 0.66 169.69 0.65 178.79 0.60 185.25 0.53
Rural 69.81 0.39 76.95 0.38 90.66 0.38 97.46 0.37 102.68 0.34 106.39 0.30
26
Para utilizar estas linhas de pobreza em clculos de ndices de pobreza
procede-se da seguinte forma. A partir do CD de micro-dados de uma PNAD
(por exemplo, a PNAD 2006), utiliza-se o comando infix do STATA para
importar os dados em formato txt. Para a utilizao correta deste comando
deve-se levar em conta o lay-out do arquivo de micro-dados.
Este arquivo que fornecido dentro do CD de micro-dados pelo IBGE

apresenta o formato de disposio dos dados. As variveis so organizadas
em um formato fixo, de forma que todas ocupam a mesma posio nas linhas
de registro do arquivo. Um exemplo tpico deste comando mostrado a seguir:
*/////////////////////////////////////////////////////////////////////
* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE PESSOAS
*/////////////////////////////////////////////////////////////////////
infix ano 1-4 uf 5-6 controle 5-12 serie 13-15 ordem 16-17 sexo 18-18 idade 27-29 ///
conddom 30-30 condfam 31-31 numfam 32-32 cor 33-33 sabeler 61-61 freqescol 62-62 ///
sitescol 78-78 trabinfano 90-90 trabinfsem 93-93 trabalha 147-147 afastado 148-148 ///
subsist 149-149 construcao 150-150 numtrab 151-152 rend_apos 534-545 ///
rend_pens 548-559 rend_oapo 562-573 rend_open 576-587 rend_abon 590-601 ///
rend_alug 604-615 rend_doac 618-629 rend_jur 632-643 anosest 681-682 ///
condativ 683-683 condocu 684-684 posocup 685-686 horastrab 687-687 ///
ativprin 688-688 ramos 689-690 grupoocup 691-692 contrib 693-693 rend_tra1 703-714 ///
rend_tra2 715-726 rend_toda 727-738 rend_dom 739-750 rend_fa1 751-762 ///
tipofam 763-764 numfam1 765-766 numfam2 767-768 rend_fa2 769-780 ///
areacen 781-781 sitcen 782-782 pesopes 783-787 pesofam 788-792 ///
numcri 796-797 numdom1 798-799 rend_dom1 800-811 ///
using "D:\PNAD\PNAD2004\Dados\pes2004.txt"
Este comando le para o STATA um arquivo txt contendo os microdados

do CD da PNAD. Aps a leitura executamos os comandos para a definio da
situao de pobreza de cada pessoa na amostra. Em primeiro lugar geramos
uma varivel (LP) que conter os valores das linhas de pobreza de acordo com
a localizao da pessoa da amostra (Unidade da Federao, situao
censitria e rea censitria).
27
*//////////////////////////////////////////////////////////////////////////////////////////////
* COLOCACAO DAS LINHAS DE POBREZA NO ARQUIVO
*//////////////////////////////////////////////////////////////////////////////////////////////
gene lp = .
replace lp = 142.86 if uf == 15 & areacen == 1
replace lp = 124.53 if uf >= 11 & uf <= 17 & sitcen <= 3 & areacen != 1
replace lp = 62.47 if uf >= 11 & uf <= 17 & sitcen > 3 & areacen != 1






Se a renda familiar per capita correspondente a esta pessoa for inferior a

linha de pobreza ela ser considera pobre. Desta forma, criamos uma varivel
28
categrica (dummy) que ser igual a 1 em caso de pobreza e igual a 0 em caso
contrario.
gen rendapc = rend_fa1 / numfam1

gen pobre = 1 if rendapc < lp
Para fazer as analises de pobreza necessrio instalar alguns programas

no corpo bsico do STATA. Para fazer isto digite na linha de comando findit
poverty. Procure a referencia ao programa apoverty e o instale. Este programa
calcula ndices de pobreza baseado em uma distribuio de renda descrita por
uma varivel.
apoverty rendapc [fw=pesopes], varpl(lp)
Outro comando que detalhar o resultado ser:
apoverty rendapc [fw=pesopes], varpl(lp) all
Este comando ir gerar uma multiplicidade de indicadores de pobreza3:
Poverty measures of
rendapc rendapc
Headcount ratio % 32.34

Extreme Poverty Headcount
ratio % 12.721
Aggregate poverty gap 3.92E+09
Per capita poverty gap 21.579
Poverty gap ratio % 14.354
Income gap ratio % 44.386
3
Uma boa forma de recuperar uma tabela resultados do STATA e export-los para um arquivo de texto
selecionar esta tabela na janela de resultados, copiar como HTML (Copy Table as HTML) e colar em um
arquivo Excel para posteriormente copiar esta tabela para o processador de texto. Esta forma um
pouco complicada, mas a que surte melhores efeitos. Iremos adiante tratar de formas mais
automatizadas de recuperar resultados do STATA.
29
Watts index 19.281
Index FGT(0.5) *100 20.198
Index FGT(1.5) *100 11.011
Index FGT(2.0) *100 8.903
Index FGT(2.5) *100 7.485
Index FGT(3.0) *100 6.484
Index FGT(3.5) *100 5.751
Index FGT(4.0) *100 5.197
Index FGT(4.5) *100 4.769
Index FGT(5.0) *100 4.431
Clark et al. index (0.10) *100 40.717
Clark et al. index (0.25) *100 25.808
Clark et al. index (0.50) *100 19.388
Clark et al. index (0.75) *100 16.356
Clark et al. index (0.90) *100 15.076
Thon index *100 27.892
Sen index *100 17.988
Takayama index *100 19.156
A Tabela acima lista diversos indicadores de pobreza para o Brasil em

2004. Em primeiro lugar, o Poverty ratio de 32,34 % que a proporo de
pobres tambm conhecido como ndice FGT(0). Temos tambm o Poverty Gap
ratio % com um valor de 14,354 % que tambm conhecido como FGT(1)
.Este valor que significa que em media os pobres tem uma renda que inferior
em 14, 35 % a renda correspondente a linha de pobreza.
Este ndice mede a intensidade da pobreza entre os pobres. O agregate

poverty gap corresponde ao valor da renda necessria para ser transferida aos
pobres em termos agregados para que todos as famlias pobres tivessem uma
renda per capita familiar elevada ao valor da linha de pobreza. Neste caso, o
valor da tabela de 3,92 x 109, ou seja, R$ 3,920,000,000 (praticamente 4
bilhes de reais mensais ou 47 bilhes de reais anuais) que seria o montante
de transferncia de renda necessrio para eliminar a pobreza no Pais, de
30
acordo com este critrio. Naturalmente, estamos admitindo aqui que todas as
pessoas pobres receberiam o montante exatamente igual ao gap de pobreza
de sua famlia (a diferena entre a linha de pobreza e a correspondente renda
familiar per capita).
O comando help apoverty permitir a visualizao dos recursos contidos

no programa apoverty. Um dos mais interessantes a possibilidade de
recuperar os seus resultados em localizaes de memria no formato r(). Logo
aps a execuo do comando apoverty podemos executar o comando return
list. Este ultimo comando permitir visualizar as localizaes de memria que o
STATA reserva em sua rea de memria para as variveis calculadas pelo
ultimo comando (neste caso o apoverty).
Este recurso ser til quando estivermos trabalhando com um grande

volume e diversidade de estimativas de ndices de pobreza e quisermos
recuperar os resultados destes clculos e export-los para um arquivo exterior
(a simples visualizao dos resultados na janela de resultados do STATA no
muito apropriada para este tipo de operao pois no permite a exportao de
dados de uma forma automtica como veremos em uma aplicao futura).
Cada localizao de memria passa a ter um nome especifico. Por

exemplo, o numero total de observaes na amostra utilizado para a estimao
dos ndices de pobreza fica armazenado em r(nobs), o ndice FGT(0) ou
headcount ratio fica armazenado em r(head_1). Observe tambm que o STATA
gera uma matriz r(b) com os valores de todos os indicadores.
2.4 Indices de distribuio de renda

O ndice de distribuio de renda mais conhecido e de maior aplicao
o ndice de Gini. Mas alem deste, existe uma infinidade de indicadores cada um
deles com uma propriedade especifica. Alguns satisfazem a determinados
axiomas. Outros tm a propriedade de serem decompostos em uma
determinada populao. Atravs do STATA e utilizando o mesmo do file
anterior para a leitura dos dados do arquivo de pessoas da PNAD 2004, vamos
calcular o ndice de Gini e outros ndices de distribuio de renda. Para
31
explorar a potencialidade deste software na estimativa de indicadores de
desigualdade executemos o comando:
findit inequality
Este comando ir fazer uma busca na web de todos os comandos do

STATA disponveis que se refiram ao tema da desigualdade. Dentre os vrios
comandos disponveis existe o inequal que um dos mais simples e que
realiza estimativas de indicadores de desigualdade. Busque no visor que surge
aps a execuo do comando findit e encontre a referencia sg30 que se refere
a uma localizao a partir da qual poderemos instalar o comando inequal. Aps
isto ative o link <click here to install>. Para uma viso das capacidades deste
comando execute:
help inequal
A estrutura da sintaxe do comando :
inequal varname [if exp] [in range] [fweights]
Nesta sintaxe est sendo indicado que devemos digitar uma palavra
obrigatria que o nome do comando (inequal) seguindo-se o nome da
varivel referente a qual estamos calcular o indicador de desigualdade, neste
caso a renda per capita familiar. Podemos introduzir no comando
condicionantes do tipo if ou do tipo in, para restringir o calculo do indicador a
uma sub-amostra.
A opo [fweights], indica que este comando somente permite

ponderao utilizando um tipo de peso chamado frequency weights (pesos de
freqncia). Este peso deve ter obrigatoriamente valores inteiros e so pesos
de expanso da amostra para o universo. No caso da PNAD temos justamente
disponveis este tipo de peso e por este motivo no teremos problemas de
estimar os indicadores atravs do comando inequal. Comecemos com um
exemplo:
32
inequal rendapc [fw=pesopes]
O STATA calcular os mais importantes indicadores de desigualdade:
------------------------------------------------------------------------------
relative mean deviation .97740744
coefficient of variation 7.3766286
standard deviation of logs 3.3225246
Gini coefficient .98273896
Mehran measure .99964841
Piesch measure .97428421
Kakwani measure .96195237
Theil entropy measure 3.8930422
Theil mean log deviation measure 16.396564
------------------------------------------------------------------------------
Ficamos desconfiados do valor elevadssimo do ndice de Gini, revelando

uma desigualdade praticamente perfeita, o que indicaria que praticamente
poucos indivduos acumulariam a quase totalidade da renda enquanto que a
maioria ficaria com uma baixssima parcela (quando o Indice de Gini igual a
1, significa que um nico individuo recebe toda a renda da sociedade).
No entanto apesar de infelizmente o Brasil ser um dos recordistas a este

respeito, isto no seria possvel. Para corrigir isto, lembremos que o IBGE
codifica os rendimentos no declarados no arquivo de microdados com o
cdigo 999999999999. Ento antes de calcular o ndice executamos os
comandos:
drop rendapc
replace rend_fa1 = . if rend_fa1 > 1000000000
inequal rendapc [fw=pesopes]
33
Podemos tambm calcular ndices de distribuio de renda para diversos
cortes da amostra PNAD, correspondendo estes ndices a estimativas para os
cortes correspondentes do universo de pessoas da populao brasileira de
2004.
inequal rendapc [fw=pesopes] if uf == 31

gen urb = 1 if sitcen <= 3
replace urb = 2 if sitcen > 3
label define urb 1 "urbano"
label define urb 2 "rural", add
label values urb urb
inequal rendapc [fw=pesopes] if urb == 1
inequal rendapc [fw=pesopes] if urb == 2
inequal rendapc [fw=pesopes] if areacen == 1
Observa-se pela execuo dos comandos acima que o Indice de Gini

mais elevado para as reas urbanas do que para as reas rurais. Quando
estimamos os indicadores de desigualdade para diversos cortes de amostra
considerando a varivel areacen (rea censitria) verificamos que o Gini para
as reas metropolitanas o mais elevado sendo o mais reduzido para os
municpios no auto-representativos (municpios pequenos). Isto j seria
esperado dado que a desigualdade de renda reflete a maior ou menor
estratificao social que torna a renda mais heterognea.
Apesar de que desigualdade de renda e variabilidade de renda so dois

conceitos marcantemente distintos, podemos dizer com certa cautela que
universos com maior heterogeneidade de renda so tambm universos com
maior concentrao de renda (podem ocorrer contra-exemplos hipotticos).
Observa-se que um dos indicadores de desigualdade que o STATA estima o
coeficiente de variao que nada mais do que um indicador de variabilidade
relativa (o resultado da diviso do desvio padro da renda per capita familiar
pela media da renda per capita familiar).
Seria a diferena to pequena entre o indice de Gini para as rea

metropolitanas (.57836556) e os municpios auto-representativos (.56434655)
que na populao no poderamos rejeitar a hiptese nula entre os ndices?
34
Em outras palavras, ser que esta diferena nas amostras to pequena que
poderia ser explicada apelas pela aleatoriedade das amostras extradas de
duas populaes com ndices de Gini (paramtricos) exatamente iguais? Para
responder a esta importante pergunta temos que considerar o delineamento da
amostra PNAD.
Para fazer isto iremos executar uma rotina (do file) que preparar os
microdados para realizar uma estimativa mais detalhada. O objetivo
fundamental desta rotina agregar estratos com unidades primarias de
amostragem (psu) nicas em outros estratos da mesma unidade da federao
que tenham maior numero de observaes (o detalhamento explicativo deste
procedimento poder ser encontrado em um dos textos da bibliografia). Para
que estas modificaes no arquivo sejam feitas necessrio que seja
executada a seguinte seqncia de comandos a partir do editor de do files do
STATA. Esta seqncia de comandos uma rotina que realiza a operao
para todos as Unidades da Federao.
* ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS COM

* MAIOR NUMERO DE OBSERVACOES UTILIZANDO O DO.FILE idonepsu rendapc - PARA
* A VARIAVEL RENDPC - ANO DE 2004
*/////////////////////////////////////////////////////////////////////
* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE DOMICILIOS
*/////////////////////////////////////////////////////////////////////
set more off

infix uf 5-6 controle 5-12 serie 13-15 tipoentrev 16-17 strat 219-225 psu 226-232 ///
if tipoentrev == 1 using "D:\PNAD\PNAD2004\Dados\dom2004.txt", clear
sort uf controle serie

save "D:\CURSO POLITICAS SOCIAIS\dom2004", replace
use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear
sort uf controle serie
merge uf controle serie using "D:\CURSO POLITICAS SOCIAIS\dom2004.dta", uniqusing
tab _merge
drop _merge
save "D:\CURSO POLITICAS SOCIAIS\pes2004", replace
35
keep if uf < 11
gene novo_str = .
gene novo_psu = .
save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace
capture program drop prog1
program define prog1
keep if uf == estado
gene novo_str = strat
gene novo_psu = psu
quietly {
save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace
use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear
append using "D:\CURSO POLITICAS SOCIAIS\transf.dta"
}
end
capture program drop prog2

program define prog2
keep if uf == estado
idonepsu rendapc , generate(novo_) strata(strat) psu(psu)
quietly {
save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace
use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear
append using "D:\CURSO POLITICAS SOCIAIS\transf.dta"
}
end
scalar estado = .
foreach i in 53 {
scalar estado = `i'
prog1
}
foreach i in 11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50 51 52 {
36
scalar estado = `i'
prog2
}
drop strat psu

rename novo_str strat
rename novo_psu psu
svyset [pw=pesopes], strata(strat) psu(psu)

save "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", replace
Aps a execuo desta rotina que demanda um considervel intervalo

de tempo (a depender da velocidade do seu microprocessador e de sua
disponibilidade de memria RAM) podemos definir as variveis de
delineamento da amostra PNAD:
svyset psu, strata(psu) vce(linearized) singleunit(missing)

findit svylorenz
help svylorenz
svylorenz rendapc
Observe que a sada deste comando ir mostrar nao apenas uma

estimativa por intervalo para o ndice de Gini como tambm o percentual de
renda acumulado para cada quantil. O numero de quantis default 10, o que
significa que o comando subdivide a distribuio em parcelas correspondentes
a 10, 20, 30, ..., 100 % dos indivduos em ordem crescente de renda e calcula a
o percentual de renda acumulada em cada um destes quantis. Por exemplo, os
10 % mais pobres da distribuio de renda no Brasil em 2004 acumulavam
0,6898 % da renda total.
Seguem- se os 10 % seguintes mais pobres que acrescentam uma

parcela 1,8376 % o que acumula 2,5274 % da renda total. Vemos que a
metade mais pobre da populao brasileira cumula apenas 13,47 % da renda
total enquanto a metade mais rica acumula o restante (86,53 %). Para cada
um destes valores de quantis (tanto o valor para a faixa de percentual da
populao como o quantil correspondente ao percentual da populao
37
acumulado) o comando fornece tambm estimativas por intervalo, o que
permite aferir a preciso das mesmas.
Para a estimativa global do ndice de Gini para toda a populao

brasileira podemos ver uma preciso elevada a partir da amostra de
microdados da PNAD as extremidades do intervalo de confiana de 95 % de
probabilidade so respectivamente,.5720261 e .5831693. Disto se verifica que
o erro de amostragem de (.5831693 - .5720261)/2 = 0.005. O erro relativo
100*(.5831693 - .5720261)/(2*0.5783651) = 0.96 % !!!
No podemos garantir a mesma preciso de estimativa para cortes da

amostra mais reduzidos. Vejamos por exemplo o valor do ndice de Gini para o
estado do Acre:
svylorenz rendapc if uf == 11
Temos aqui uma variabilidade no intervalo de.4847863 a .5640556 que

corresponde a um erro relativo de 7,55 %. Este comando , desta forma, muito
til para irmos controlando os erros de amostragem de acordo com os cortes
amostrais (e populacionais correspondentes). Isto importante para nos
permitir uma analise mais detalhada do comportamento espacial deste
indicador.
Um importante ponto a ser observado que na sintaxe do comando

svylorenz no exigida a especificao do peso da pessoa na amostra. Esta
especificao atravs do comando svyset (que j est incorporado a rotina de
eliminao de estrato com psu nico). O comando svylorenz busca
automaticamente esta especificao de peso e de delineamento da amostra
que j est incorporado ao arquivo de dados.
use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_1.dta", clear

svylorenz rendapc if areacen == 1
use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_2.dta", clear
svylorenz rendapc if areacen == 2
Ao executar o conjunto de 4 comandos acima verificamos que os

intervalos de confiana para os ndices de Gini e paras as reas censitrias
regio metropolitana e municpios auto-representativos tem uma sobreposio
38
(overlap). Isto uma indicao de que as estimativas no tm diferena
significativa. Mas para sermos mais rigorosos em termos de inferncia vamos
executar o comando ereturn list para verificar quais so os valores que o
comando svylorenz armazena em localizaes especificas de memria.
Uma das alternativas seria executar o comando svylorenz

simultabeamente atravs do mesmo comando para as duas subamostras e
imediatamente (como uma operao de pos-estimaao) fazer um teste de
diferenas atravs de um comando denominado lincom. Mas este
procedimento no possvel porque o comando svylorenz no admite uma
operao de estimativa de diversos indices de Gini (um para cada sub-
amostra).
A alternativa mais pratica (e acessvel) para resolver este problema

ser a utilizao da tcnica (j popularizada) denominada bootstrapping. Esta
tcnica consiste em estimar a varincia de um indicador com base na
realizao de diversas replicaes amostrais. Estas replicaes amostrais so
selees de amostras com reposio de mesmo tamanho a partir da mesma
amostra.
Por exemplo, se quisermos realizar uma estimativa por bootstrapping a

partir da amostra total da PNAD 2004 para todo o Brasil, um comando
apropriado ir realizar uma seleo aleatria com reposio de, por exemplo,
200 amostras aleatrias a partir da mesma amostra da PNAD. , portanto, uma
operao repetitiva de amostragem (com mesmo tamanho e com reposio) a
partir de uma mesma amostra.
Como curiosidade este nome originou-se de um conto do celebre

contador de mentiras alemo que inventou as Aventuras do Baro de
Munchausen. Em um destes contos o Baro viu-se em um lago afundando e
com duas longas botas caladas em suas pernas. Depois de afundar
inteiramente no lago e como ele tinha dificuldade para nadar, para salvar-se
teve que utilizar o seguinte fantstico expediente: puxava as abas superiores
de suas duas botas para cima e desta forma foi fazendo o seu corpo subir at
atingir a superfcie. Esta uma analogia muito interessante com o
bootstrapping.
39
Neste fazemos com que a partir da prpria amostra construamos a
distribuio amostral do estimador. Na estatstica clssica, as distribuies
amostrais dos estimadores so obtidas teoricamente a partir da realizao
repetida de diversas selees de amostras com mesmo tamanho a partir de
uma mesma populao. Para cada uma destas amostras calcula-se o valor da
estimativa e quando tem-se todas as estimativas constri-se a distribuio do
estimador. J no bootstrapping a diferena que no se dispondo da
populao (e apenas dos valores de uma nica amostra) selecionam-se
amostras replicadas (de mesmo tamanho e segundo as mesmas regras de
seleo) a partir da prpria amostra.
Mas para fazer isto necessrio que as operaes de replicao das

diversas amostras siga o mesmo procedimento de amostragem que foi utilizado
na seleo da amostra original. Se a amostra selecionada da populao foi por
AAS ento as replicaes amostrais devero ser realizadas atravs de AAS
tambm. No caso da PNAD, como a amostra complexa (amostragem em
estgios), as replicaes amostrais (amostras com reposio e de mesmo
tamanho feitas a partir da prpria amostra da PNAD) devero seguir o mesmo
padro de delineamento da amostra original.
bootstrap r(gini), reps(200) strata(strat) cluster(psu) force nowarn: inequalr rendapc

[fw=pesopes] if uf == 11
Compare os resultados do intervalo de confiana para este ultimo

comando com o que vem a seguir:
svylorenz rendapc if uf == 11
O primeiro estima a varincia do Gini atravs do bootstrapping e o
segundo estima atravs do mtodo da linearizao de Taylor. Os resultados
so muito prximos.
Outro comando que pode ser utilizado para a estimativa de ndices de

desigualdade estimados a partir de amostras complexas o svygei. Este
comando calcula ndices de entropia generalizada.
version 8
svyset [pweight=pesopes], psu(psu) strata(strat)
40
svygei rendapc
Os ndices de desigualdade no precisam ser aplicados

necessariamente a renda. Podem tambm ser aplicados a outros indicadores
como veremos em outra seo adiante.
2.5 Decomposio de ndices de Pobreza e ndices de

Distribuio de Renda
A anlise dos valores dos ndices de pobreza e de distribuio de

renda para o conjunto da populao tem validade, mas fica limitada quando
desejamos aprofundar o comportamento destes indicadores para grupos
sociais mais detalhados. Uma boa maneira de superar esta limitao estimar
estes indicadores para cortes da amostra e controlar a preciso das
estimativas, como foi visto anteriormente.
Mas existem diversos mtodos que permitem decompor alguns ndices.

Comecemos com os ndices de pobreza. Vamos incorporar o comando
povdeco ao corpo de cdigos do STATA:
findit povdeco
Suponhamos que desejamos decompor a pobreza nas 5 grande

regies do pais:
gen regiao = 1 if uf >= 11 & uf<= 17

replace regiao = 2 if uf >= 21 & uf <= 29
povdeco rendapc [fw=pesopes], varpline(lp) bygroup(regiao)
Warning: rendapc has 9563 values = 0. Used in calculations
Foster-Greer-Thorbecke poverty indices, FGT(a)
All obs a=0 a=1 a=2
0.33087 0.14686 0.09109
41
FGT(0): headcount ratio (proportion poor)
FGT(1): average normalised poverty gap
FGT(2): average squared normalised poverty gap
Decompositions by subgroup
Summary statistics for subgroup k = 1,...,K
regiao Pop. share Mean Meanpoor Meangappoor

1 0.08021 266.34681 64.12627 50.40413
2 0.27875 224.14068 62.58088 58.47654
3 0.42128 478.81786 108.50162 80.84997
4 0.14836 487.51399 71.46834 48.35557
5 0.07140 449.94617 100.77148 76.88272
Subgroup FGT index estimates, FGT(a)
regiao a=0 a=1 a=2

1 0.34227 0.14968 0.09224
2 0.48521 0.23156 0.14693
3 0.28934 0.12129 0.07384
4 0.14838 0.06015 0.03692
5 0.33981 0.14411 0.08609
Subgroup poverty 'share', S_k = v_k.FGT_k(a)/FGT(a)
regiao a=0 a=1 a=2

1 0.08297 0.08175 0.08123
2 0.40877 0.43950 0.44963
3 0.36840 0.34792 0.34152
4 0.06653 0.06076 0.06013
5 0.07333 0.07007 0.06749
Subgroup poverty 'risk' = FGT_k(a)/FGT(a) = S_k/v_k
regiao a=0 a=1 a=2

1 1.03444 1.01921 1.01267
2 1.46646 1.57672 1.61305
42
3 0.87446 0.82585 0.81068
4 0.44844 0.40957 0.40529
5 1.02700 0.98126 0.94517
Na primeira tabela so apresentados os valores dos ndices FGT para

o conjunto da populao (sem decomposio). Assim temos uma proporo de
pobres de 33,09 % e um Gap de pobreza de 14,68 %. NA segunda tabela so
apresentadas algumas estatsticas descritivas para os grupos populacionais. A
regio 1 (Norte) representa 8,02 % da populao, com renda media R$ 266,34,
com renda media dos pobres R$ 64,12 e com gap mdio de pobreza
correspondente a 50,40.
Na terceira tabela so apresentados os ndices de pobreza (FGT(0),

FGT(1) e FGT(2)) para as 5 regies. Na quarta tabela so apresentadas as
participaes relativas da pobreza em cada regio. Por exemplo, a regio 2
(Nordeste) representa uma parcela de 40,87 % da pobreza medida em termos
do ndice FGT(0) e 43,95 % da pobreza medida em termos do ndice FGT(1)
que mede a intensidade da pobreza.
Na ultima tabela so apresentados os riscos de pobreza das sub-

populaoes. A regio 5 (Centro-Oeste) apesar de representar apenas 7,33 %
dos pobres medidos em termos do ndice FGT(0) tem um risco elevado de
1,027. Podemos fazer a mesma decomposio considerando a varivel tipo de
famlia, atravs da execuo em um do file dos seguintes comandos:
label define tipofam 1 "Casal sem filhos"

label define tipofam 2 "Casal com todos os filhos menores de 14 anos",
add
label define tipofam 3 "Casal com todos os filhos de 14 anos ou mais", add
label define tipofam 4 "Casal com filhos menores de 14 anos e de 14 anos
ou mais", add
label define tipofam 5 "Casal com filhos sem declarao de idade dos
filhos", add
label define tipofam 6 "Me com todos os filhos menores de 14 anos", add
label define tipofam 7 "Me com todos os filhos de 14 anos ou mais", add
label define tipofam 8 "Me com filhos menores de 14 anos e de 14 anos
ou mais", add
43
label define tipofam 9 "Me com filhos sem declarao de idade dos
filhos", add
label define tipofam 10 "Outros tipos de famlia", add
label values tipofam tipofam
povdeco rendapc [fw=pesopes], varpline(lp) bygroup(tipofam)
Os resultados mostram que:
1) O grupo com maior participao relativa mais elevada corresponde a

pessoas em famlia de casal com todos os filhos menores de 14 anos (30,1 %).
2) O grupo com maior renda media corresponde as pessoas pertencentes a

famlia de casal sem filhos (R$ 647.39).
3) O grupo com mais elevado ndice de pobreza FGT (0) poverty ratio
corresponde as pessoas pertencentes a famlias mono parentais de mes com
todos os filhos menores de 14 anos (66,43 %).
4) O grupo com maior participao relativa (share) na pobreza total refere-se

as famlias de casal com todos os filhos menores de 14 anos (38,78%).
5) O grupo com maior risco de pobreza corresponde as famlias de mes com

todos os filhos menores de 14 anos.
44
2.6 Clculo dos coeficientes de elasticidade-Gini e elasticidade-renda da
pobreza
Para o clculo da elasticidade da pobreza ser utilizada a metodologia
proposta por Datt (1998). Esta uma proposio para clculo dos valores das
elasticidades a partir de dados de distribuio de renda agrupados. Para isto foi
desenvolvido um programa em Stata adaptando a metodologia para a estrutura
dos micro-dados das PNADs. No artigo de Datt (1998) so apresentadas duas
especificaes para a curva de Lorenz, mas optamos por simplicidade apenas
para a Quadrtica Geral.4 Sejam as seguintes funes:
Curva de Lorenz: L = L ( p; )
Medida de pobreza: P = P ( / z; )
onde L a participao dos p por cento inferiores da populao na renda per

capita domiciliar, um vetor de parmetros estimveis da curva de Lorenz, P
a medida de pobreza escrita como uma funo da relao da renda per
capita domiciliar mdia linha de pobreza z e os parmetros da curva de
Lorenz. A especificao Quadrtica Geral da curva de Lorenz dada pelas
seguintes funes:
L (1 L) = a ( p 2 L ) + bL( p 1) + c( p L)
ou
1
L ( p ) = [bp + e + (mp 2 + np + e2 )1/ 2 ]
2
As funes que representam as medidas de pobreza dadas a partir desta

especificao da curva de Lorenz so:
4
Pretende-se em um prximo trabalho estimar os parmetros da curva de Lorenz utilizando tambm a
especificao Beta (mostrada em Datt, 1998) e verificar qual das duas (para cada conjunto de dados
amostrais) cumpre mais adequadamente as condies de fronteira e de monotonicidade. Existem
tambm mtodos de estimativa e de anlise diversos para a elasticidade da pobreza em relao ao
crescimento, apresentados em Heltberg (2002).
45
1
H = [n + r (b + 2 z / ){(b + 2 z / ) 2 m}1/ 2 ]
2m
PG = H ( / z ) L ( H )
r 1 H / s1
2
P2 = 2( PG ) H aH + bL( H ) ln
z 16 1 H / s2
onde H, PG e P2 so respectivamente a proporo de pobres, o gap de

pobreza e a severidade da pobreza da classe dos ndices FGT de pobreza e os
parmetros:
e = (a + b + c + 1)
m = b 2 4a
n = 2be 4c
r = (n 2 4me 2 )1/ 2
s1 = (r n) /(2m)
s2 = (r + n) /(2m)
O procedimento para estimar a os parmetros da curva de Lorenz utilizou uma

regresso linear por mnimos quadrados ordinrios de L(1-L) em (p2 L), L(p
1) e (p-L) para a obteno dos parmetros a, b e c
Os valores das elasticidades da pobreza so calculados a partir das frmulas

na Tabela, a seguir:
Tabela
Elasticidade da Mdia ( ) ndice de Gini
H z /( HL ''( H )) (1 z / ) /( HL ''( H ))
PG 1 H / PG 1 + ( / z 1) H / PG
SPG 2(1 PG / P2 ) 2 [1 + ( / z 1) PG / P2 ]
Fonte: Frmulas obtidas de Datt (1998) e derivadas de Kakwani(1990). O valor

de L(H) o valor da segunda derivada da curva de Lorenz e igual a
r 2 (mH 2 + np + e 2 )3/ 2
8
46
Execute inicialmente o comando:
ssc install glcurve, replace
Posteriormente, execute o seguinte do file:
* programa de clculo da elasticidade-pobreza do crescimento
set more off

postfile saidaelast codigo neta1 neta2 neta3 neta4 neta5 neta6 p0 p1 p2 gini using "d:\CURSO
POLITICAS SOCIAIS\saidaelast", replace
global i = 0
****************************************************************
* rotina de calculo de elasticidades da pobreza
capture program drop elast

program define elast
summarize rendapc [fw=pesopes]

scalar mu = r(mean)
summarize lp
scalar z = r(mean)
glcurve rendapc [fw=pesopes], gl(L1)p(p) nograph
generate L = L1/mu
* Especificao da Curva de Lorenz: Quadrtica Geral
generate y1 = L*(1-L)
generate x1 = p^2 - L
generate x2 = L*(p-1)
generate x3 = p-L
regress y x1 x2 x3
* verificar se o intercepto no significativo
regress y x1 x2 x3, noconstant

matrix b1 = e(b)
scalar a1 = b1[1,1]
scalar b = b1[1,2]
scalar c = b1[1,3]
scalar e = -(a1 + b + c + 1)
scalar m = b^2 - 4*a1
scalar n = 2*b*e - 4*c
scalar r1 = (n^2 - 4*m*(e^2))^(1/2)
scalar s1 = (r1 - n)/(2*m)
scalar s2 = -(r1 + n)/(2*m)
display a1
display b
display c
display e
47
display m
display n
display r1
display s1
display s2
scalar H = -(1 / (2*m))*(n + r1*(b+2*z/mu)*((b+2*z/mu)^2-m)^(-1/2))

scalar LH = -(1/2)*(b*H + e + (m*H^2 + n*H + e^2)^(1/2))
scalar PG = H - (mu/z)*LH
scalar P2 = 2*PG - H - ((mu/z)^2)*(a1*H + b*LH - (r1/16)*ln((1-H/s1)/(1-H/s2)))
display "H = " H

display "PG = " PG
display "P2 = " P2
* calculo da segunda derivada da curva de Lorenz
scalar L2H = (r1^2*(m*H^2 + n*H + e^2)^(-3/2))/8
* calculo do indice de Gini
if m < 0 {
scalar gini = e/2 - n*(b + 2)/(4*m) + r1^2 / (8*m*sqrt(-m))*(asin((2*m + n)/r1) - asin(n/r1))
}
else {
scalar gini = e/2 - n*(b + 2)/(4*m) + r1^2 / (8*m*sqrt(m))*ln(abs((2*m + n + 2*sqrt(m)*(a1 + c -
1))/(n - 2* e * sqrt(m))))
}
display "Gini = " gini
* calculo das elasticidades da pobreza
* com relao mdia mu
scalar neta1 = - z/(mu*H*L2H)

scalar neta2 = 1 - H/PG
scalar neta3 = 2*(1-PG / P2)
* com relao ao indice de Gini
scalar neta4 = (1 - z / mu) / (H*L2H)

scalar neta5 = 1 + (mu/z - 1)*H/PG
scalar neta6 = 2*(1 + (mu/z - 1)*PG /P2)
display "Elasticidades da pobreza com relacao a renda media"

display "H : " neta1
display "PG : " neta2
display "SPG : " neta3
display "Elasticidades da pobreza com relacao ao indice de Gini"

display "H : " neta4
display "PG : " neta5
display "SPG : " neta6
global i = $i + 1
display $i
post saidaelast ($i) (neta1) (neta2) (neta3) (neta4) (neta5) (neta6) (H) (PG) (P2) (gini)
48
end
use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear

keep if uf == 17
keep rendapc pesopes lp strat psu
elast

keep if uf >= 21 & uf <= 29
elast

keep if uf >= 21
elast

keep if uf >= 22
elast

keep if uf >= 23
elast

keep if uf >= 24
elast

keep if uf >= 25
elast

keep if uf >= 26
elast

keep if uf >= 27
elast

keep if uf >= 28
elast

keep if uf >= 29
elast

keep if uf >= 31
49
elast

keep if uf >= 32
elast

keep if uf >= 33
elast

keep if uf >= 35
elast

keep if uf >= 40 & uf <= 43
elast

keep if uf >= 40
elast

keep if uf >= 41
elast

keep if uf >= 42
elast

keep if uf >= 50 & uf <= 53
elast

keep if uf >= 50
elast

keep if uf >= 51
elast

keep if uf >= 52
elast

keep if uf >= 53
50
elast
postclose saidaelast
* coloca codigos no arquivo de saida
use "D:\CURSO POLITICAS SOCIAIS\saidaelast",clear
#delimit ;
label define codlabel
1 "TO"
2 "NE"
3 "MA"
4 "PI"
5 "CE"
6 "RN"
7 "PB"
8 "PE"
9 "AL"
10 "SE"
11 "BA"
12 "MG"
13 "ES"
14 "RJ"
15 "SP"
16 "SU"
17 "PR"
18 "SC"
19 "RS"
20 "CO"
21 "MS"
22 "MT"
23 "GO"
24 "DF"
;
#delimit cr
label values codigo codlabel
save "D:\CURSO POLITICAS SOCIAIS\saidaelast",replace
51
3. Avaliao de polticas sociais
Neste tpico sero apresentados e discutidos os resultados das
estimaes de impactos de programas sociais (ou polticas sociais). So
discutidos em linhas gerais os principais mtodos quantitativos de avaliao.
Na seo 2.2 aborda-se de uma forma sucinta e introdutria o tema da
inferncia causal que se refere ao desafio economtrico voltado para a
mensurao de impactos baseado em dados de pesquisas em nvel de
registros unitrios (micro-dados). Como isolar os efeitos de uma determinada
poltica sobre um indicador de resultados? Que parcela da melhoria do bem-
estar dos beneficirios pode ser atribuda nica e exclusivamente a influencia
da poltica, desconsiderando-se os fatores exgenos (aqueles que atuariam
mesmo sem a ocorrncia da poltica)? Na seo 2.3 aborda-se o mtodo da
dupla diferena. Neste mtodo considera-se a diferena da variao do valor
do indicador de bem estar entre o grupo de beneficirios e o grupo de controle.
Este mtodo, que muito utilizado na literatura de avaliao, apresenta a
virtude de eliminar parcialmente vieses na avaliao de impactos que advm
da influencia de variveis no observveis, alm de controlar os efeitos de
variveis exgenas a atuao do programa ou poltica (como por exemplo,
determinadas medidas macroeconmicas ou outras polticas que afetam de
forma generalizada os beneficirios e no beneficirios).
Os mtodos de pareamento baseiam-se na probabilidade de seleo

aos programas. Para isto, devido importncia de entenderem-se como tais
probabilidades so calculadas, a seo 2.4 trata do modelo de regresso
logstica, que nesta avaliao utilizado para as estimativas dos propensities
scores (probabilidades de seleo). A estimativa destes modelos crucial para
a determinao do impacto no mtodo adotado a seguir (propensity score
matching). Na seo 2.5 feita uma apresentao dos principais aspectos do
mtodo propensity score matching que em termos sucintos, utiliza a
informao proveniente dos modelos de regresso (probabilidade de seleo
ao programa ou poltica). Na seo 2.6 introduz-se uma explanao sobre a
analise de sensibilidade das estimativas baseadas nos mtodos de
pareamento. Como os resultados das estimativas de impacto baseadas nestes
52
mtodos so muito sensveis a influencia de fatores no observveis (assim
como a especificao dos modelos logit), importante avaliar como estas
estimativas podem ser afetadas por estes fatores. Na subseo 2.7 feita uma
reviso do modelo de Heckman. Este modelo, tambm muito utilizado na
literatura de avaliao, estaria longe de ser suficientemente discutido tal como
feito aqui. A idia foi somente a de apresentar as suas principais
caractersticas e que permitissem a compreenso e interpretao dos
elementos apresentados na seo de resultados.
3.1 Mtodos Quantitativos de Avaliao de Programas Sociais

Avaliao de Programas pode ser entendida como um exame
sistemtico da importncia, operao e resultados de programas e polticas
pblicas, no sentido de torn-los mais efetivos. O objetivo especfico detectar
to claramente quanto possvel se e como um dado programa est tendo
efeitos sobre os indivduos, famlias ou instituies, e em que extenso estes
efeitos so atribuveis interveno do respectivo programa.
Com as avaliaes, geralmente pretende-se determinar mais

amplamente se um programa tem efeitos sobre os indivduos, domiclios e
instituies e em que medida estes efeitos so atribuveis interveno do
programa. Algumas das questes colocadas em uma avaliao de impactos
podem ser: Como o projeto afeta os beneficirios? Pode o desenho do
programa ser modificado para melhorar os impactos? Tais questes no
podem, no entanto, ser simplesmente avaliadas pelo resultado ex-post do
projeto. Existem outros fatores ou eventos que so correlacionados com os
resultados, mas no so causados pelo projeto. Para garantir rigor
metodolgico uma avaliao precisa estimar o counterfactual, ou seja, o que
teria ocorrido com os beneficirios se o projeto no tivesse sido implementado.
Em uma linguagem tcnica, qual deveria ser a esperana matemtica da
varivel monitorada (por exemplo, um indicador de bem-estar) no grupo
submetido ao tratamento e condicionada a no ocorrncia do tratamento. Para
determinar o counterfactual, necessrio descontar do efeito das intervenes
o efeito dos outros fatores o que , sem dvida, uma tarefa complexa.
53
A determinao do counterfactual o ponto fundamental de um desenho
de avaliao e pode ser obtido atravs de metodologias que podem ser
classificadas em duas grandes categorias: desenhos experimentais (aleatrios)
e desenhos quase-experimentais (no aleatrios). Mas tambm devem ser
consideradas metodologias qualitativas e participativas que fornecem
freqentemente insights crticos na perspectiva dos beneficirios, como os
mesmos avaliam subjetivamente os impactos do programa e que podem
contribuir para uma interpretao mais aprofundada dos resultados obtidos na
anlise quantitativa.
O desenho experimental costuma ser considerado como a mais robusta

dentre as metodologias de avaliao de impacto. Os beneficirios devem ser
eleitos a partir de um processo aleatrio, permitindo que se crie, por meio do
prprio mecanismo de focalizao, grupos perfeitamente comparveis de
beneficirios e no beneficirios, ou seja, dois grupos estatisticamente
equivalentes, dado o tamanho das amostras. Nesse caso, o grupo de controle
opera como um perfeito counterfactual, livre de problemas relacionados ao vis
de seleo. A seleo aleatria no remove inteiramente o vis de seleo,
mas equilibra o vis entre as amostras de participantes e no participantes. O
principal benefcio dessa tcnica a simplicidade com que os resultados
podem ser interpretados.
Os mtodos quase-experimentais podem ser usados para empreender

uma avaliao quando no possvel construir grupos de tratamento e de
comparao atravs de procedimentos aleatrios. Estas tcnicas quase-
experimentais geram grupos de comparao que se assemelham ao grupo de
tratamento, pelo menos nas suas caractersticas observadas, fazendo uso de
mtodos economtricos. So utilizados controles estatsticos para identificar
diferenas entre os grupos de tratamento e de comparao e tcnicas
sofisticadas de matching so usadas para construir um grupo de comparao
to similar quanto possvel ao grupo de tratamento. Um grupo de controle (ou
de comparao) deve ser necessariamente selecionado aleatoriamente da
mesma populao em que se encontra o grupo de beneficirios e deve ser o
mais semelhante possvel ao grupo de beneficirios em todos os aspectos,
exceto o fato de participarem ou no do programa.
54
O problema do vis de seleo na avaliao de impacto causado pelo
fato de que os participantes no projeto diferem dos no participantes em
caractersticas que afetam tanto a probabilidade de participar do projeto como
seus resultados. Normalmente, procede-se em uma avaliao comparando-se
os resultados mdios do grupo sob o tratamento (participantes do projeto)
com o grupo de controle (no participantes do projeto). No entanto, essa
simples comparao (por exemplo, entre mdias de resultados alcanados
pelos programas para os membros dos dois grupos) resulta em vis. Este
ocorre j que o efetivo impacto do projeto a diferena entre a mdia (valor
esperado) do resultado entre os participantes do projeto e a mdia para os
mesmos participantes caso estes no tivessem recebido o tratamento. Se
chamarmos E[Y1/D=1], o valor esperado do efeito sobre os beneficiados (Y1)
quando submetidos a tratamento (D=1), E[Y1/D=0], valor esperado do efeito
sobre os beneficiados (Y1) caso estes no recebam o tratamento (D=0), o
verdadeiro impacto do projeto sobre a varivel resultado :
I = E[Y1 /D = 1] - E[Y1 /D = 0] (1)
Infelizmente, E[Y1/D=0] no observada (latente) e a sua substituio

indevida por E[Y0/D=0], o resultado mdio dos no participantes (Y0) que
efetivamente no recebem o tratamento, conduz ao vis de seleo. A forma
ideal de eliminar o vis de seleo selecionar aleatoriamente os participantes
do projeto. Dessa forma, participantes e no participantes do projeto tero o
mesmo valor esperado da varivel resultado (no caso, bem-estar) na hiptese
de no receberem o tratamento, ou seja, E[Y1/D=0] = E[Y0/D=0] e I pode ser
calculado sem vis pela diferena I = E[Y1/D=1] - E[Y0/D=0] que so dois
valores observveis.
O vis de seleo pode ser decorrncia de dois conjuntos de variveis:

aquelas que estabelecem diferenas observveis (observables) no conjunto de
dados disponveis e aquelas devido a diferenas no observveis ou latentes.
Um vis observvel poderia ser em decorrncia de um critrio de seleo por
meio do qual uma comunidade torna-se eleita em funo de uma caracterstica
55
que esteja relacionada explicitamente a um critrio de elegibilidade (por
exemplo, consideram-se como municpios prioritrios aqueles cujo IDH
menor do que um dado valor). Em modelos de auto-seleo as condies
sociais e econmicas iniciais (grau de organizao, capital fsico e social inicial)
tambm estabeleceriam um vis de seleo observvel por meio de dados
(indicadores ou proxies) que podem ser facilmente coletados. Dentre as
variveis no observveis que podem criar um vis esto aquelas no
reveladas diretamente pelos dados, como capacidade individual, conexes
familiares e processos subjetivos de seleo (politicamente dirigidos pelas
elites). Ambos os tipos de vieses podem levar a concluses imprecisas,
incluindo a sub ou superestimao dos impactos, impactos negativos quando
de fato so positivos (e vice-versa), e impactos estatisticamente significantes
quando verdadeiramente seriam insignificantes (e vice-versa). possvel
controlar esses vieses por meio de tcnicas estatsticas, como pareamento,
fixed-effects e variveis instrumentais. Entretanto, extremamente difcil
remove-los, sendo esse o maior desafio dos pesquisadores que trabalham com
anlise de impacto.
Em desenhos quase-experimentais, com o uso de modelos estatsticos e

economtricos busca-se tratar o problema modelando o processo de seleo
com o objetivo de obter estimativas no viesados a partir dados no-
experimentais. A idia comparar os participantes do programa com os no
participantes, mantendo o processo de seleo constante.
Entre as tcnicas de desenho quase-experimental, as tcnicas de

comparao-pareada so geralmente consideradas boas alternativas aos
desenhos experimentais. A literatura sobre metodologias de avaliao tem
dado muita ateno a essas tcnicas, refletindo no apenas a freqncia com
que tm sido utilizadas como tambm os desafios enfrentados para se obter
bons grupos de comparao. Algumas tcnicas tm sido apontadas com
grande interesse, como a propensity score matching. Contudo, podem ser
exigentes quanto qualidade, quantidade e disponibilidade de dados. Em
especial, dependem de um processo de dupla amostragem em que, a partir de
uma primeira grande amostragem, ser obtida uma segunda amostra de
grupos pareados. Por exemplo, a partir de dados coletados por meio de uma
56
pesquisa de dimenso nacional, ou regional, seriam construdas sub-amostras
de beneficirios e de controle, pareadas segundo variveis observadas. Essas
duas sub-amostras seriam ento objeto de nova coleta de dados, necessrias
para a avaliao, mas no coletados na pesquisa mais ampla.
Modelos economtricos so utilizados para controlar o efeito de

variveis exgenas que impedem um perfeito pareamento. Estas variveis so
introduzidas para isolar o efeito do programa, controlando o conjunto de
caractersticas que diferenciam as comunidades e os domiclios. Certas
variveis so tambm introduzidas para controlar os problemas do vis de
seleo. Por exemplo, um modelo simples de avaliao de impactos pode ser
dado por:
Yiv = a + bX i + cC v + dPv + iv (2)
Onde Yiv pode ser qualquer dos indicadores de bem-estar para o

domiclio i localizado na comunidade v; Xi o conjunto de caractersticas dos
domiclios consideradas importantes na determinao dos indicadores; Cv o
conjunto de caractersticas das comunidades consideradas importantes na
determinao dos indicadores; Pv um indicador binrio igual a 1 quando
existe o programa na comunidade v e 0 quando no; iv o erro aleatrio; a, b,
c e d so os parmetros. O impacto do programa, desconsiderando o vis de
seleo dado por:
E [Yiv / X i , C v , Pv = 1] E [Yiv / X i , C v , Pv = 0] =
(3)
a + bX i + cC v + d ( a + bX i + cC v ) = d
As variveis do lado direito da equao devem ser determinadas

independentemente do indicador de bem-estar, no podendo estar
correlacionadas com o termo de erro da regresso. Como existe o problema da
auto-seleo, a participao no programa no exgena e isso pode afetar o
57
clculo do impacto do programa. Essa situao pode ser explicitada com uma
equao explcita para P,
Pv = d + eZ v + v (4)
onde Z o vetor de variveis que incluem todas as proxies observadas que

determinam o foco, ou a participao no programa. Existiro ainda algumas
influncias aleatrias e erros que sero capturadas no termo de erro i. Como
P binrio, um modelo probit melhor indicado para estimar os parmetros.
Alm do mtodo das variveis instrumentais, outro mtodo amplamente
utilizado para eliminao do vis devido as no observveis a correo de
Heckman (conhecido na literatura como procedimento Heckit).
Um mtodo amplamente utilizado consiste na construo de modelos de

seleo (tratados atravs de modelos de regresso logstica) que sero
posteriormente utilizados no emprego de mtodos de pareamento, em
particular o mtodo denominado propensity score matching. Este consiste em
encontrar uma amostra de no beneficirios o mais semelhante possvel da
amostra de beneficirios, sendo que esta semelhana medida em termos de
diversas caractersticas observveis. A seguir estimam-se modelos de
regresso logstica, tendo a participao no programa como varivel
dependente binria e como variveis explicativas da seleo todas as variveis
nos dados que determinam provavelmente a participao. Em uma terceira
etapa criam-se valores de probabilidade de participao a partir dos modelos
de regresso para todos os indivduos da amostra de beneficirios e no
beneficirios, sendo estes valores denominados propensity scores. Com
estes valores, escolhem para cada participante do programa alguns vizinhos
prximos e calcula-se a mdia da varivel de avaliao para estes e a
diferena dessa mdia em relao ao valor da varivel para o participante.
Finalmente, calculam-se as mdias das diferenas, sendo esta uma verso
mais simples do mtodo.
58
3.2 Introduo a Inferncia Causal
Para iniciar a discusso de inferncia causal, suponhamos um exemplo.5
Um grupo de indivduos foi treinado para preparao no mercado de trabalho.
Seis meses depois de completado o programa de treinamento, verificamos a
sua situao de emprego e encontramos que 40 % do grupo esto trabalhando.
Podemos concluir que estes 40 % que estavam desempregados antes do
treinamento, encontraram emprego devido ao programa. Como podemos saber
se estes indivduos encontrariam emprego mesmo que no tivessem feito o
treinamento? Ou seja, como podemos isolar do efeito (estarem empregados 40
% dos indivduos investigados) a parcela que pode ser atribuda somente ao
tratamento (treinamento)?
Suponhamos que desejamos encontrar a relao entre interveno de uma

poltica (causa X) e o impacto (efeito Y). Temos que examinar se uma
mudana ou variao na varivel X (a causa potencial) causou de fato uma
mudana em Y (a varivel de impacto). O modelo de regresso normalmente
utilizado :
Yi = 0 + 1 * TREATi + 2 X 2 + 3 X 3 + ... + i (5)
onde Yi o indicador de efeito, TREAT igual a 1 se a unidade (por exemplo, o

domicilio) exposta ao tratamento (poltica) e 0 se no, Xi um conjunto de
variveis de controle e i o termo estocstico com distribuio normal, media
zero e varincia constante. A estimativa de 1 da varivel de tratamento

(TREAT) a estimativa do efeito mdio causal ajustado aos efeitos das
variveis de controle Xi.
A varivel TREAT pode ser uma varivel binria (dummy) tomando dois
valores (1 e 0) como indicado acima. Mas tambm pode ser uma varivel
contnua, caso desejssemos medir, de acordo com este exemplo, o efeito do
numero de dias (ou semanas) de treinamento.
5
A apresentao desta seo baseia-se no trabalho de Vanetoklis (2002).
59
Aqui estamos empregando a noo de ceteris paribus, to conhecida na
cincia econmica. Estamos estimando o valor esperado de Y condicionado a
(ou dado o) varivel TREAT e o vetor de varivel de controle Xi, ou
seja, E [Y | TREAT , X ] . Na abordagem de regresso consideramos que o
parmetro 1 estimado pode ser interpretado como o efeito do tratamento

considerados fixos os valores das variveis de controle.
Se a varivel TREAT binria estamos interessados em estimar a

diferena mdia no resultado Y, entre a condio de tratamento e de no
tratamento, ou seja, E [Y | TREAT = 1, X ] E [Y | TREAT = 0, X ] . Se a varivel
TREAT continua, o foco muda para o efeito parcial de uma mudana unitria
em TREAT no valor mdio de Y, dados os valores do vetor de controle Xi. A
deciso a respeito do conjunto de variveis de controle que devem ser
consideradas no modelo no trivial. justamente neste ponto que a analise
de causalidade se torna ambgua, ficando a critrio do avaliador a deciso de
quais fatores devem ser levados em conta. E utilizar distintos conjuntos de
controle nas equaes conduzem a distintas concluses a respeito da relao
causal entre Y e TREAT. Alem disso, em analise de efeitos de polticas, muitas
variveis de controle importantes no so sempre observveis e muitas no
so nunca observveis.
No entanto, a teoria na maior parte das aplicaes deve ter uma

importante funo na seleo das variveis de controle. Por exemplo, na
aplicao presente tratada neste estudo, capital social dever ser considerado
como uma importante varivel de controle, dado que em verificaes anteriores
surgem algumas evidencias de sua importante funo na reduo do nvel de
pobreza das comunidades rurais.
3.3 Estimao pela Dupla Diferena

No caso de uma aplicao de avaliao podemos ter um conjunto de dados
em painel com uma observao para o ano 2000 e outra observao para o
ano 2006. Esta uma vantagem do ponto de vista da estimao dos impactos
do programa pelas razoes expostas a seguir.
60
Sabemos que impossvel conhecer todos os fatores exgenos do lado
direito da equao (1) e que influenciam o impacto do programa. Desta forma
nossas estimativas sero viesadas devido existncia de variveis omitidas.
Podemos classificar estes fatores no observveis em dois tipos: aqueles que
permanecem fixos no decorrer da atuao do programa e aqueles que variam
neste perodo. De um ponto de vista economtrico, muito pouco podemos fazer
para evitar que a omisso destes fatores no observveis e variveis no tempo
possam causar vieses em nossas estimativas de impacto. Mas podemos
eliminar as variveis no observveis constantes no tempo. De uma forma
temporal podemos re-escrever a equao (1) como:
Yit = 0t + 1t * TREATit + 2t X 2t + 3t X 3t + ... + it com t = 1,2 (6)
O termo erro pode ser decomposto em duas parcelas: as variveis no

observveis fixas ( ) e as variveis no observveis que variam no tempo (u)
de forma que it = it + u it . A expresso dois pode ser expressa em duas
equaes:
Yi1 = 01 + 1 * TREATi1 + 2 X i 2 + 3 X i 3 + i1 + u i1 (7)
Yi 2 = 02 + 1 * TREATi 2 + 2 X i 2 + 3 X i 3 + i 2 + u i 2
Mas como constante no tempo quando subtramos a primeira

equao da segunda teremos:
Yi 2 Yi1 = ( 02 01 ) + 1 * (TREATi 2 TREATi1 ) + (u i 2 u i1 ) ou
Yi = 0 + 1 * TREATi + u i
61
3.4 O Modelo de Regresso Logstica
A influncia das caractersticas dos agricultores sobre o processo de seleo

nos programas ser avaliada atravs de modelos de regresso com variveis
dependentes binrias (modelos logit binrio). Apesar da utilizao deste tipo de
modelos ser bastante conhecida na literatura de anlise de bem-estar,
iniciaremos com uma apresentao sucinta da sua especificao geral,
caractersticas, alcances e limitaes. A regresso logstica um modelo de
regresso no linear onde a varivel resposta (varivel dependente) a
probabilidade de ter um resultado ou outra baseada em uma funo no linear
da melhor combinao linear das variveis independentes. Seja Yi o valor da
varivel dependente para o i-simo caso . Pode-se definir Yi como:
e 0 + 1X1 + 2 X 2 +...+ k X k
Yi = (8)
1 + e 0 + 1X1 + 2 X 2 +...+ k X k
e
Y
ln = 0 + 1 X 1 + 2 X 2 + ... + k X k (9)
1 Y
Ou seja, a varivel dependente no modelo o logaritmo natural da

probabilidade de estar em um grupo dividida pela probabilidade de estar no
outro grupo. O procedimento para estimar os coeficientes o mtodo da
mxima verossimilhana e o objetivo o de encontrar a melhor combinao de
variveis independentes que maximizam a verossimilhana de obter as
freqncias observadas nos grupos. Ao contrrio da anlise discriminante, a
regresso logstica no se fundamenta em hipteses a respeito da distribuio
das variveis independentes: estas variveis no precisam ser normalmente
distribudas e o modelo comporta (como no caso da regresso linear mltipla) o
uso conjunto de variveis quantitativas mtricas (denominadas co-variates) e
variveis qualitativas (tratadas como dummies).
62
A significncia estatstica de cada um dos coeficientes (parmetros estimados)
do modelo avaliada utilizando-se o teste de Wald (que semelhante ao teste
t de Student) onde o coeficiente dividido pelo seu erro padro:
W j = j s (10)
j
O ajuste dos modelos logit avaliado calculando-se a estatstica log-likelihood

(logaritmo da verossimilhana), baseado na soma das probabilidades
associadas aos valores previstos e observados para cada caso:
n
log-likelihood = Y ln(Y )+(1-Y )ln(1-Y )
i=1
i i i i (11)
A comparao da adequao do ajuste de dois modelos feita atravs da

diferena de seus log-likelihoods que uma distribuio qui-quadrado:
2 =2[(log-likelihood 2 )-(log-likelihood1 ) (12)
Os coeficientes estimados ( i , i = 1,2, ...,k) do modelo logit devem ser
interpretados como a variao do logaritmo natural da relao das

probabilidades de sucesso e fracasso, esta relao sendo conhecida na
literatura como odd ratio. Portanto se um coeficiente possui um valor i este
o valor da variao no logaritmo natural do odd ratio (tambm chamado este

logaritmo de logit) causado pela elevao unitria da varivel Xi , supondo-se
fixos os valores de todas as outras variveis. mais direta a interpretao da
funo exp( i ) pois esta o valor da variao no prprio odd ratio. Desta

forma, se 100(ei 1) for igual a 10 %, isto significa que um aumento unitrio em
Xi causa uma elevao de 10 % na relao de probabilidade (aumentando
portanto a probabilidade do caso pertencer ao grupo cujo valor da dummy
varivel dependente foi definido como igual a 1).
Para o melhor entendimento dos resultados dos modelos suponhamos que

tenhamos a seguinte equao com apenas uma varivel independente:
63
P (Y = 1)
ln(odds ) = ln = 0, 0812 X 1 + 2, 6836
1 P (Y = 0)
para x = 50 temos: log(odds ) = 1, 3764 odds = 0, 2525
para x = 51 temos: log(odds ) = 1, 4576 odds = 0, 2328
e e 1 = e 0,0812 = 0,9220
Portanto a relao de odd ratios ser:
odds2 0, 2328
= = 0,9220 = e 1
odds1 0, 2525
Ou seja, a relao de odd ratios para dois valores com variao unitria
para a varivel independente ser igual a e 1 . Esta relao constante para
qualquer valor de X1. Por exemplo:
para x = 60 temos: log(odds ) = 2,1884 odds = 0,1121
para x = 61 temos: log(odds ) = 2, 2696 odds = 0,1033
e e 1 = e 0,0812 = 0,9220
odds2 0,1033
= = 0, 9220 = e 1
odds1 0,1121
Desta forma, o valor de e indica a variao no odd ratio (relao de

probabilidade) e independe do valor da varivel independente. No caso deste
exemplo, uma variao unitria em X1 acarreta uma reduo de 7,8 % no odd
ratio. Para a aplicao que ser aqui realizada isto significa reduzir a
probabilidade de ser selecionado para um programa em relao
probabilidade de no ser selecionado.
3.5 Mtodo do Propensity Score Matching
O mtodo do pareamento (matching) por propensity score amplamente

utilizado na literatura de avaliao de impactos. Este mtodo fundamenta-se na
64
construo de sub-amostras contrafactuais para o grupo de controle e ento
comparar os resultados entre os tratados e contrafactuais. No presente
trabalho o mtodo ser utilizado para avaliar os efeitos do Programa Cdula da
Terra (PCT) sobre diversas variveis (indicadores) que caracterizam a
evoluo do bem-estar (renda domiciliar, segurana alimentar, acesso sade)
e caractersticas econmicas e de desenvolvimento (patrimnio e capital
social).
O propensity score definido por Rosembaum e Rubin(1983) como a

probabilidade condicional de receber o tratamento dado diversas
caractersticas pr-tratamento.
p( X ) = P( D = 1 | X ) = E ( D | X ) (13)
onde D = {0,1} um indicador de exposio ao tratamento e X um vetor

multidimensional de caractersticas pr-tratamento. possvel demonstrar que
se a exposio ao tratamento aleatria dentro de clulas definidas por X, ela
tambm aleatria dentro das clulas definidas pelos valores de uma varivel
unidimensional p(X).
Yi ( Di ) so os resultados potenciais nas duas situaes de tratamento ( Yi (1) o
valor da varivel resultado para o individuo i sujeito ao tratamento e Yi (0) o
valor da varivel resultado para o indivduo i no sujeito ao tratamento). Uma

expresso geral para a varivel resultado pode ser expressa como:
Yi = Di Yi (1) + (1 Di )Yi (0) (14)
O efeito causal do tratamento para o indivduo i pode ser escrito como:
i = Y i (1 ) Y i ( 0 ) (15)
65
O segundo valor do lado direito da expresso (16) no pode ser calculado
porque no observado ( o valor da varivel resultado para o individuo i caso
ele no tivesse sido submetido ao tratamento). Se o propensity score p(X)
conhecido ento o efeito mdio do tratamento sobre os tratados (ATT) pode ser
estimado de acordo com a seguinte expresso:
= E[ i | Di = 1] = E[Yi (1) Yi (0) | Di = 1] (16)
A expresso acima representa o valor esperado (mdia) da diferena da

varivel resultado referente situao de cada individuo receber o tratamento e
no receber o tratamento para o grupo de indivduos tratados. De acordo com
Ichino (2006), o no conhecimento do valor da varivel de resultado para a
situao de tratamento contra factual, pode ser interpretado como um problema
de missing data e os mtodos de pareamento so uma forma de imputar
valores aos resultados contra factuais ( Yi (0) | Di = 1 ). Desta forma a validade
destes mtodos baseia-se na hiptese de que as observaes contra factuais

so missing aleatoriamente (missing at random). A equao (16) pode ser
transformada, considerando-se os valores de p(X),como:
= E[Yi (1) Yi (0) | Di = 1] = E[ E{Yi (1) Yi (0) | Di = 1, p ( X i )}] =

(17)
E[ E{Yi (1) | Di = 1, p ( X i )} E{Yi (0) | Di = 0, p ( X i )} | Di = 1]
Conhecidos os valores dos propensity scores (de acordo com a expresso de

todas as observaes duas hipteses devem ser satisfeitas para que
possamos derivar a expresso do ATT (equao 17) a partir dos valores de
p( X i ) , dados pela expresso 13. A primeira hiptese a do balanceamento
das variveis pr-tratamento dados os valores do propensity score. Se p(X) o

propensity score ento:
66
D X | p(X) (18)
De acordo com esta hiptese, dados os valores dos propensity scores, os

valores das caractersticas observveis pr tratamento (X) independem do
tratamento. A segunda hiptese (unconfoundedness dado o propensity
score) supe que se:
Y(1), Y(0) D | X Y(1), Y(0) D | p(X) (19)
De acordo com primeira hiptese (expresso 18), ou hiptese de

balanceamento, observaes com o mesmo propensity score precisam ter a
mesma distribuio das caractersticas observveis (e no observveis)
independentemente de serem tratadas ou no. Para um dado propensity score
a exposio ao tratamento aleatria e desta forma as unidades tratadas e de
controle devem ter medias iguais para todas as caractersticas. Veremos
adiante que esta hiptese dever ser testada atravs do comando Stata pstest.
A segunda hiptese (expresso 19) exige somente que se o valor da varivel
de resposta independente do status de tratamento dadas as caractersticas X
ento estes valores tambm sero independentes dados os valores dos
propensity scores. Esta hiptese conhecida na literatura sobre propensity
score matching como hiptese da independncia condicional.
Para a implementao computacional do mtodo do propensity score so

necessrias as seguintes etapas:
1) Estimao do propensity score. Atravs de um modelo de regresso

logstica ou modelo probit estima-se a probabilidade de cada observao
(individuo) pertencer ao grupo de beneficirios do programa (grupo de
tratados).
2) Estimao do efeito mdio do tratamento, dado o propensity score.
Nesta etapa, idealmente queremos:
67
- emparelhar observaes tratadas e controle com exatamente o mesmo
valor estimado para o propensity score;
- calcular o efeito do tratamento para cada valor do propensity score

estimado;
- obter a mdia destes efeitos condicionais.
impraticvel realizar o mtodo da forma indicada acima, pois muito difcil

encontrar duas unidades com exatamente o mesmo valor do propensity score.
Existem, no entanto, diversos mtodos alternativos e viveis
computacionalmente:
- Estratificao no escore;
- Mtodo do vizinho mais prximo;
- Pareamento radial no escore;
- Pareamento de Kernel no escore;
- Pareamento pela distancia de Mahalanobis.
Na literatura sugerido que se faam estimativas por mais de um mtodo para

verificar a robustez dos resultados.
68
SEQNCIA DE PROCEDIMENTOS PARA ESTIMAO DOS IMPACTOS
Estimao do Escolha do Verificao

propensity algoritmo de do Common
score pareamento support
Verificao Estimao
da qualidade dos ATTs e
do anlise de
pareamento sensibilidade
69
3.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching
De acordo com Becker e Caliendo (2007), a hiptese de independncia

condicional estabelece que o pesquisador observaria todas as variveis
simultaneamente influenciando a deciso de participao e as variveis de
resultado. De acordo com isto pode-se avaliar a sensibilidade dos impactos
estimados com relao aos desvios desta hiptese de identificao. Se existem
variveis no observveis que simultaneamente afetam a participao no
programa e a varivel de resultado, um vis oculto pode surgir para o qual os
estimadores de pareamento no so robustos. Este mtodo baseia-se no
modelo descrito a seguir.
Vamos assumir que a probabilidade de seleo ao programa dada por

Pi = P ( xi , u i ) = P ( Di = 1 | xi , u i ) = F ( xi + u i ) onde xi so as caractersticas
observveis para o individuo i, ui a varivel no observvel e o efeito de ui

na deciso de participao. Se existe um vis oculto devido a influencia de
variveis no observveis, dois indivduos com as mesmas variveis x
observadas tem diferentes chances de receber o tratamento. Consideremos
uma dupla pareada de indivduos e seja F a distribuio logstica. As
probabilidades relativas para os indivduos i e j desta dupla receberem versus
no receberem o tratamento so dadas por Pi /(1-Pi) e Pj /(1-Pj) e a razo
destas probabilidades relativas (conhecidas como vimos na seo 1.5 como
odds ratios) dada por:
Pi
1 Pi Pi (1 Pj ) exp(xi + u i )
= = (20)
Pj Pj (1 Pi ) exp(x j + u j )
1 Pj
Se ambos os indivduos tm variveis x idnticas, tal como supe o

procedimento de pareamento, o vetor x cancela implicando que:
70
exp( xi + u i )
= exp( (u i u j )) (21)
exp( x j + u j )
Ento, se no h diferenas nas variveis no observadas (ui = uj) ou se estas

variveis no influenciam a probabilidade de participar no programa, o odd ratio
igual a 1 implicando na no existncia de vis de seleo no observado. A
analise de sensibilidade avalia o quanto a mudana nos valores de e em ui -
uj altera a inferncia acerca do efeito do programa.
Segundo Becker e Caliendo (2007), a expresso (20) implica que
1 Pi (1 Pj )

e (22)
e Pj (1 Pi )
Esta ultima expresso indica que e uma medida do grau de afastamento que
uma estimativa por pareamento est livre de vis oculto. No caso de ser igual a
1 os dois indivduos, com valores iguais para as caractersticas x, tem a mesma
probabilidade de participarem do programa e neste caso o vis oculto no
existe.
3.7 Modelo de Heckman

Consideremos o seguinte modelo de duas equaes:
f i ( D, X i ) = a + bD + Xi c + i (23)
D = 1 + Zi + i > 0 (24)
O modelo consiste de uma equao de resultados (23) e de uma funo de

seleo (24). O exemplo clssico refere-se ao mercado de trabalho onde se
busca estimar os determinantes da renda de mulheres. A equao (23) refere-
71
se determinao da renda das mulheres e a varivel D uma dummy que
especifica se a mulher est ou no ocupada. A idia consiste em que se a
mulher est desocupada e tem renda zero pode ser porque assim decidiu por
no achar compensador o salrio oferecido no mercado. Se for estimada a
equao (23) apenas com a amostra de mulheres ocupadas, a estimativa do
vetor de parmetros c seria viesada. As variveis observadas no vetor Xi so
caractersticas fixas de cada observao (individuo). Este modelo pode ser
empregado na avaliao de impactos de uma determinada poltica se
considerarmos que a varivel D uma dummy de seleo e f i ( D, Xi ) um
indicador de resultado. O modelo de Heckman (formado pelas equaes (23) e

(24)) requer as seguintes hipteses:
i) ( i , i ) so iid com distribuio normal padronizada;
ii) {Xi: i = 1,..,N} independente de { i : i = 1,..,N};
iii) {Zi: i = 1,..,N} independente de { i : i = 1,..,N}
No existem restries impostas relao entre i e i e, portanto a varivel
D pode ser correlacionada com o termo de erro i . Esta relao representada
pelo parmetro que o coeficiente de correlao entre os dois termos de

erro e pode assumir qualquer valor no intervalo [-1,1]. Se 0, a varivel D
ser endgena e o parmetro b (que representa o impacto da poltica) ter um
vis de seleo.6 Se i e i no forem correlacionados no haver problema
de vis de seleo e apenas a equao (23) poder ser utilizada para estimar o
efeito no viesado da poltica. Ocorre um valor de 0 se uma varivel no
observada que um fator explicativo da seleo na poltica est correlacionado
com um fator no observado de determinao do indicador de resultado. Se
6
Existe uma distino conceitual entre vis de seleo e endogeneidade. Aqui utilizaremos as duas
expresses como se fossem equivalentes mas uma rpida distino pode ser encontrada em ....
72
0, a varivel D endgena e E[ i | Di , X i ] 0 . A estratgia do modelo de
Heckman obter uma estimativa para este ltimo termo e trata-lo como se
fosse uma varivel de controle na equao (23). Se i = E[ i | Di , Xi ]
conhecida para a observao i, ento regredindo Yi com uma constante, D, Xi e

i produzir estimativas no viesadas para a, b, c e h, onde h o coeficiente
de regresso associado com i . Com este procedimento, E[ i i | Di , X i ] = 0 e
considerando-se as hipteses i-iii, o vis de seleo eliminado da estimativa
do parmetro b.
Se considerarmos que a equao de seleo um modelo Probit, podemos

represent-la por:
P ( D = 1| Z i ) = P ( + Z i + i > 0 | Z i )
(25)
= P ( i < + Z i | Z i ) = ( + Z i )
onde a funo de distribuio cumulativa da normal padronizada.
Obtem-se a estimativa do termo de vis i = E[ i | Di , Xi ] atravs do valor
esperado de uma varivel aleatria normal truncada, sendo esta estimativa

conhecida na literatura como inversa de Mills, que pode ser expressa como:
(t )
(t ) = (26)
1 (t )
onde t o ponto onde a distribuio truncada e a funo densidade da
distribuio normal padro.
A estimativa para o termo de vis E[ i | Di , Xi ] para a observao i pode ser
decomposta em E[ i | Di = 1, Xi = xi ] e E[ i | Di = 0, Xi = xi ] . Seja i uma
varivel aleatria igual a ( i i ) / 1 2 . De acordo com esta definio i
tem mdia zero e independente de i . O termo de erro i pode ser
relacionado i e i atravs da seguinte expresso:
73
i = i + 1 2 i (27)
Seja si = + Z i .Segue-se que:
E[ i | X i = xi , D = 1] = E[ i | X i = xi , si + i > 0] =
( si ) (28)
E[ i | si + i > 0] = E[ i | i > si ] =
1 ( s i )
Da mesma forma:
( si )
E[ i | X i = x i , D = 0] = (29)
( si )
O efeito da regresso de Y em uma constante, Di e Xi sem a correo de

Heckman pode ser decomposto como a combinao de dois termos: o efeito
principal e o efeito de interao devido inversa de Mills. Se a estimativa de
positiva, isto sugere que o efeito da poltica estimado sem a correo de
Heckman seria viesado para cima. De outra forma, se a estimativa de
negativa, isto sugere que o efeito da poltica estimado sem a correo de
Heckman seria viesado para baixo.
4. Introduo aos Mtodos de Amostragem e Interpretao de

dados amostrais
4.1 Introduo
Este texto tem como objetivo apresentar alguns pontos essenciais para
conduzir convenientemente uma operao de amostragem em uma pesquisa
de campo, visando coleta de dados scio-econmicos. Ele principalmente
dirigido a aplicaes referentes a pesquisas scio-econmicas e foi concebido
74
basicamente para orientar pesquisadores na rea de cincias sociais. No se
tem a pretenso de que o texto contemple todos os aspectos que se refiram
aos problemas de amostragem, tanto no sentido terico como das inmeras
tcnicas disponveis. Pretende-se minimamente com ele colocar pontos
fundamentais que sero necessrios para a definio dos planos amostrais que
sero utilizados nos estudos de caso.
Em minha experincia no campo de amostragem em pesquisas scio-
econmicas pude observar que a maior parte dos pesquisadores no possuem
conhecimentos profundos de estatstica e so justamente aqueles que mais
necessitam destes recursos. Por outro lado os profissionais da rea de
Estatstica costumam produzir textos sobre amostragem que so inacessveis a
estes pesquisadores, principalmente devido ao uso intensivo de uma
linguagem tcnica e sem muito apelo para uma compreenso mais intuitiva das
tcnicas de amostragem. Tento neste trabalho preencher um pouco esta
lacuna aceitando o imenso desafio que o de tratar de um tema onde
certamente impossvel abdicar de uma apresentao lgica e minimamente
formal.
Na Seo 2 so apresentados os principais termos e definies de
amostragem, assim como um sistema de classificao das amostras de acordo
com o mtodo de seleo empregado, o desenho (ou delineamento) e outras
caractersticas dos procedimentos de amostragem. Na Seo 3 feita uma
reviso sucinta de alguns importantes conceitos, importantes para a
compreenso da Teoria da Amostragem: variveis aleatrias e distribuies de
amostragem. Na Seo 4 o tema da Estimao tratado como antecipao
terica. Na Seo 5 passa-se ao conceito de Amostra Aleatria Simples. Na
Seo 6 abordado o importante problema prtico de dimensionamento de
uma amostra. Na Seo 7 discutido o mtodo da Amostragem Aleatria
Estratificada que tem uso generalizado na prtica estatstica. Segue-se na
Seo 8 discusso da Ponderao da Amostra, outro tema de relevncia
prtica. Nela abordado o problema de campo muito comum: o que fazer
quando nossa amostra no representativa (com relao a determinados
estratos da populao) e como corrigirmos eventuais distores (advindas de
problemas de campo e de falhas de planejamento) no sentido de tornar a
amostra uma representao mais fiel da populao desconhecida. Na Seo 9
75
vista a tcnica de ps-estratificao de uma amostra: temos uma amostra
aleatria simples e desejamos utilizar, aps a pesquisa, informaes sobre a
populao, referentes a estratos desta. Este procedimento muitas vezes
vantajoso na medida em que aumenta a preciso das estimativas alcanadas.
Na seo 10 apresentado o mtodo de seleo das unidades amostrais com
probabilidade desigual e particularmente com probabilidade proporcional ao
tamanho (PPT). Na seao 11 descrita a amostragem por conglomerados,
mtodo que vem se tornando de frequente utilizaao na prtica de pesquisa em
ciencias sociais aplicadas. Na Seo 12 so descritos alguns procedimentos de
campo para a seleo de amostras domiciliares. Estes procedimentos so
comumente utilizados quando no se dispe de um cadastro referente s
unidades da populao. Na Seo 13 so descritas as utilizaes de alguns
softwares tanto nos procedimentos de seleo de amostras como na anlise de
dados de amostras. Na Seo 14 discutido o uso do bootstrapping, uma
importante ferramenta que revolucionou recentemente os mtodos de anlise
de dados de amostragem. Finalmente no Anexo so apresentados alguns
estudos de caso, basedos na experiencia do autor neste campo de pesquisa.
Esperamos com isto contribuir com a divulgao dos diversos mtodos
enfrentando o desafio de coadunar a teoria estatstica com a necessidade de
sua operacionalizao em problemas que freqentemente so encontrados no
cotidiano de um pesquisador da rea de cincias sociais.
4.2 Termos e Definies de Amostragem

Uma populao (universo ou populao objetivo) o conjunto integral de
indivduos acerca dos quais a inferncia ser feita. Um elemento ou unidade
elementar um objeto ou indivduo da populao para o qual uma medida
tomada. A populao o conjunto de todos os elementos. Uma unidade de
amostragem ou unidade de enumerao a unidade que ser efetivamente
amostrada. Em geral a unidade de amostragem e o elemento so equivalentes,
mas ocorrem casos como em desenhos amostrais de mltiplos estgios em
que existem distintos nveis ou tamanhos de unidades amostrais e a unidade
de enumerao ser a unidade amostragem de nvel mais baixo. Este o caso
da PNAD, cujo desenho da amostra se d em trs nveis ou estgios.
76
Existem inmeros mtodos de seleo de amostras e planos de amostragem.
Enumeraremos, no prximo tpico, alguns dos mais importantes:
4.3 Mtodos de Seleo de Amostras
1) Amostragem Aleatria ou probabilstica todo elemento na populao tem

uma probabilidade conhecida e distinta de zero de pertencer a amostra. Este
mtodo de seleo permite o uso da teoria da probabilidade para o clculo do
nvel de confiana das estimativas obtidas a partir da amostra.
2) Amostragem por quotas envolve uma escolha no aleatria dos elementos

da populao. Este o mtodo de seleo empregado comumente em
pesquisas de opinio pblica (que muitas vezes apresentam suas metodologias
de amostragem como sendo aleatrias, mas que na realidade no so
precisamente). O principal objetivo deste mtodo garantir a
representatividade da amostra em relao populao. As quotas representam
os percentuais de categorias dos indivduos que so preenchidos na operao
de seleo da amostra garantindo que estas propores sejam as mesmas da
populao. Assim, por exemplo, em uma pesquisa de opinio objetiva-se que a
amostra seja representativa quanto ao sexo, faixa etria e renda. Os
entrevistadores iro preencher cotas amostrais de tal forma que na finalizao
da amostra, esta apresente propores de indivduos referentes essas 3
variveis que sejam aproximadamente iguais s propores encontradas no
conjunto da populao para as mesmas variveis. Se, por exemplo, na
populao existir uma proporo de 10 % de pessoas com sexo feminino, faixa
etria de 20 a 29 anos e faixa de renda de 0 a 3 salrios mnimos, na amostra
dever ser preenchida a cota de pessoas neste estrato com a mesma
proporo de 10 %.
3) Amostragem Sistemtica As unidades amostrais so escolhidas em

intervalos fixos a partir do cadastro. Este mtodo de seleo comumente
utilizado quando no se dispe de um cadastro de boa qualidade e vai-se a
77
campo sem muitos conhecimentos das unidades populacionais. Um exemplo
de aplicao desta tcnica foi uma pesquisa sobre as condies scio-
econmicas da populao urbana de Uberlndia MG. Neste caso conhecia-
se somente o nmero de domiclios em cada bairro da cidade e a partir dessa
informao foram calculados intervalos sistemticos para cada bairro e rotas da
companhia de abastecimento de gua. O cadastro foi utilizado somente como
uma estrutura de orientao para a varredura completa dos domiclios.
Detalhadamente, o procedimento empregado neste mtodo de seleo
constitui-se das seguintes etapas:
1a. Calcula-se o tamanho do intervalo sistemtico. Este igual a:
N
I = Int ( ) onde Int uma funo que aplicada ao argumento produz o maior
n
inteiro menor do que este argumento. Por exemplo, se N = 1000 e n = 90
1000
I = Int ( ) = Int (11,11) = 11 .
90
2a. Escolhe-se um nmero aleatrio entre 1 e I, no caso do exemplo entre 1 e

11. Digamos que seja escolhido o nmero 9.
3a. Os elementos escolhidos na populao para entrar na amostra so:
primeiro nmero aleatrio = A; A + I; A +2I; A + 3I; ....
No caso do exemplo: 9;9 + 11;9 + 2 11;9 + 3 11;...
O que d a seguinte seqncia: 9o.; 20o. ; 31o. ;42o.;.....
A escolha do nmero aleatrio pode ser feita empregando-se uma tabela de

nmeros aleatrios. Mas um procedimento mais fcil utilizar no Excel a
funo ALEATORIO (escreva em qualquer clula da planilha a frmula
=INT(ALEATORIO()*1+(11-1). Quando apertar a tecla <ENTER> o programa
retorna um nmero aleatrio dentro do intervalo fechado [1,11]. Este resultado
mostrado na Figura 6, a seguir.
78
Figura 6 Seleao de um numero aleatorio em um intervalo de dois
numeros inteiros atravs do Excel.
79
4) Amostragem por Julgamento Um especialista seleciona as unidades
amostrais de acordo com seus propsitos especficos. Muitas vezes julga-se
que este procedimento pode selecionar uma amostra mais representativa e
conduzir a estimativas mais precisas que as obtidas por qualquer outro mtodo.
Infelizmente, no existe, de uma forma objetiva, uma maneira de avaliar a
confiabilidade das estimativas feitas a partir da amostra assim obtida.
4.4 Delineamentos de Amostras
Podemos classificar os mtodos de amostragem considerando-se o mtodo de

seleo das unidades amostrais como visto no tpico anterior. Mas os mtodos
de amostragem tambm podem ser classificados de acordo com o
delineamento (desenho) da amostra, ou seja, a forma como as unidades da
amostra so distribudas no conjunto da populao. Existem basicamente os
seguintes tipos de delineamento de amostras:
1) Amostragem Aleatria Simples Seleciona-se uma amostra de n unidades

amostrais de forma que cada amostra de tamanho n tem a mesma
probabilidade de ser selecionada. Se tivermos, por exemplo, uma populao de
tamanho N = 100 e selecionarmos n = 10, teremos
100 100!
= = 17310309456440 (17 trilhes, trezentos e dez bilhes,
10 10!(100 90)!
trezentos e nove milhes, quatrocentos e cinqenta e seis mil e quatrocentos e
quarenta) amostras distintas com a mesma probabilidade de serem
selecionadas. Em termos prticos pode-se utilizar a funo
ALEATORIOENTRE do Excel para selecionar a amostra, desde que todos os
elementos da populao estejam rotulados com nmeros na seqncia 1 a N.
Se tivermos n = 10 e N = 100 devemos ativar 10 vezes a funo
=ALEATORIOENTRE(1,100). Isto mostrado na Figura 7, a seguir.
80
Figura 7 Seleao de 10 numeros aleatorios entre 1 e 100 atravs do
Excel
No Stata esta funao pode ser realizada atraves do comando <disp

uniform()*(100-1)+1>, conforme mostrado na Figura 8. Este comando pode ser
executado tantas vezes quantos forem os numeros aleatorios que desejamos
obter no mesmo intervalo.7
7
No Stata, podemos repetir o mesmo comando ativando a tecla PgUp e a tecla Enter, no modo iterativo.
Esta repetiao de comandos tambem pode ser realizada atraves da execuao de um arquivo do-file com
os comandos repetidos escritos neste arquivo ou atravs de programaao mais avanada utilizando
loops.
81
Figura 8 Seleao de numeros aleatorios em um intervalo entre dois
numeros inteiros no Stata
2) Amostragem com probabilidade desigual Seleciona-se uma amostra de n

unidades amostrais com probabilidades iguais a certos valores pr-
estabelecidos, embora no necessariamente iguais. Um exemplo a seleo
das unidades amostrais de empresas com probabilidade proporcional ao
tamanho. Suponhamos que a populao de empresas tenha tamanho N = 1000
e seja composta da distribuio de nmero de empregados dada pela Tabela 2
abaixo.
Tabela 2 Amostragem com Probabilidade Proporcional ao Tamanho
Empresa Nmero de Nmero de empregados Intervalo
empregados acumulado
1 100 100 1-100
2 200 300 101-300
3 50 350 301-350
4 500 850 351-850
82
... ... ... ...
999 100 130680 ...
1000 70 130750 130681-130750
Se quisermos escolher 50 empresas com probabilidade proporcional ao

tamanho, escolhemos 50 nmeros aleatrios no intervalo (1,130750). As
empresas so selecionadas de acordo com a posio dos nmeros aleatrios
nos intervalos da quarta coluna da Tabela 2. Uma vantagem desse mtodo que
pode ser percebida intuitivamente que ele tende a garantir que a amostra
seja representativa quanto a varivel tamanho das empresas.8
No software Stata este mtodo de seleao facilmente executavel atravs do
comando gsample. Este comando no faz parte do corpo principal do software
e precisa ser instalado via Internet. Para isto basta digitar na janela de
comandos <findit gsample> e instala-lo. Aps a instalaao do comando
gsample abrimos o arquivo referente a populaao de empresas contendo a
variavel numero de empregados (que representar o tamanho das empresas) e
posteriormente executamos o comando <gsample 50 [aw=empregados]>. A
informaao entre colchetes representa o tipo de ponderaao que est sendo
empregada. No caso aw refere-se a analitic weights, opao que deve ser
utilizada para selecionar uma amostra com probabilidade proporcional ao
tamanho. Depois de executado o comando o Stata mantem apenas as 50
observaoes selecionadas, deletando as demais (ver Figura 9).
8
Esta representatividade pode ser alcanada atravs de uma amostra estratificada por tamanho. Mas
esta representatividade ser em termos de estratos de tamanho ao passo que no caso de amostragem
com probabilidade proporcional ao tamanho a representatividade mais fina em toda a escala da
varivel tamanho.
83
Figura 9 Seleao de uma amostra com probabilidade proporcional ao
tamanho atravs do Stata.
3) Amostra Aleatria Estratificada Divide-se os elementos da populao em

grupos chamados estratos baseados em caractersticas associadas a cada
elemento e toma-se amostras aleatrias simples dentro de cada estrato. A
vantagem desse mtodo com relao ao mtodo da amostra aleatria simples
(sem estratificao) o de obter estimativas com maior preciso, com mesmo
tamanho amostral.
4) Amostragem por Conglomerados Divide-se os elementos da populao em

grupos chamados conglomerados e toma-se uma amostra aleatria simples
desses conglomerados. Um exemplo ocorre freqentemente em pesquisa na
rea de ensino: as escolas podem ser os conglomerados (unidades amostrais
primrias) e os alunos so os elementos amostrais (unidades amostrais
secundrias). Seleciona-se aleatoriamente as escolas (com igual probabilidade
84
ou com probabilidade proporcional ao nmero de alunos) e todos os alunos das
escolas escolhidas entram na amostra.
5) Amostragem por Conglomerados em Mltiplos Estgios Divide-se a

populao em conglomerados e escolhe-se aleatoriamente alguns
conglomerados e dentro destes escolhidos, selecionam-se aleatoriamente as
unidades amostrais. A distino com relao ao mtodo anterior que naquele
todos os elementos dos conglomerados escolhidos so pesquisados e neste
apenas uma amostra. Um exemplo de aplicao desse mtodo o caso de
algumas pesquisas do IBGE como a PNAD, a PME e a PPV. Na PNAD,
subdivide-se as unidades da federao em diversos estratos (geogrficos). Em
cada estrato escolhe-se aleatoriamente 2 municpios (com probabilidade
proporcional ao tamanho). Estes municpios escolhidos so os conglomerados
ou tambm chamados de unidades amostrais primrias. Em cada municpio
so escolhidos aleatoriamente alguns setores que so as unidades amostrais
secundrias. E finalmente, em cada setor escolhido, so selecionados alguns
domiclios que so as unidades amostrais tercirias
Uma classificao interessante de amostras probabilsticas dada por
Bolfarine e Bussab (2000) de acordo com os seguintes critrios:
A. Quanto probabilidade de seleo da unidade amostral

probabilidade igual ou diferente para cada unidade
B. Quanto unidade amostral
uma unidade de resposta (elementar) ou um grupo de elementos
(conglomerado)
C. Quanto ao nmero de estgios
em um ou mais de um estgio
D. Quanto seleo das unidades
aleatria ou sistemtica
Assim poderamos ter as mais diversas combinaes de alternativas referentes

aos quatro critrios acima listados. Por exemplo, poderamos ter:
85
1) Amostra com probabilidade igual para cada unidade, com unidade amostral
conglomerado, em mais de um estgio e aleatria;
2) Amostra com probabilidade desigual para cada unidade, com unidade
amostral conglomerado, em mais de um estgio e sistemtica;
3) Amostra com probabilidade desigual para cada unidade, com uma unidade
de resposta (elementar), em um estgio e sistemtica;
e outras combinaes de alternativas dos critrios.
4.5 Variveis Aleatrias e Distribuies Amostrais

Para entendermos os conceitos relacionados aos estimadores e suas
propriedades, devemos revisar alguns tpicos importantes da teoria estatstica.
Em primeiro lugar, devemos ver o que uma distribuio amostral de uma
varivel aleatria. Esta a distribuio de freqncia relativa de uma estatstica
amostral, tal como a mdia amostral, considerando-se os valores das mdias
amostrais para todas as amostras possveis de mesmo tamanho. O conceito de
distribuio amostral importante para permitir operaes de inferncia a partir
de estatsticas amostrais.
Consideremos a mdia amostral9 X . A mdia amostral tem uma

distribuio amostral com mdia igual a (a mdia populacional) e varincia
igual a 2 / n , onde 2 a varincia populacional da varivel estudada. Por

exemplo, se estivermos interessados em estimar o consumo mdio de famlias
de uma determinada regio do pas, podemos dizer que a mdia amostral
uma varivel aleatria que tem distribuio amostral com mdia igual ao
consumo mdio populacional e varincia igual varincia populacional do
consumo dividido pelo tamanho da amostra n. Para cada amostra de tamanho
n teremos um valor distinto da mdia amostral X .
Para ilustrar este ponto vamos imaginar uma populao que tem apenas
5 elementos com os seguintes valores: X1 = 1, X2 = 3, X3 = 5, X4= 7 e X5 = 9. A
n
x1 + x2 + ... + xn
9
X = ( X i ) / n = ser utilizada como notao simplificada para a mdia amostral
i =1 n
sendo a soma de todos os valores observados na amostra para determinada varivel (por exemplo, a
renda familiar) dividida pelo nmero de observaes n.
86
N
1+ 3 + 5 + 7 + 9
mdia populacional ser = X i = =5 e o desvio-padro
i =1 5
populacional ser:
1
N 2
(1 5)2 + (3 5)2 + (5 5) 2 + (7 5) 2 + (9 5) 2
= ( X i )2 / N = = 2,8284
i =1 5
O Quadro 2 apresenta todas as amostras de tamanho n = 2 dessa

populao de 5 elementos.
Quadro 2 Todas as amostras de 2 elementos de uma populao de 5

elementos (amostragem com reposio)
(1,1) (1,3) (1,5) (1,7) (1,9)
(3,1) (3,3) (3,5) (3,7) (3,9)
(5,1) (5,3) (5,5) (5,7) (5,9)
(7,1) (7,3) (7,5) (7,7) (7,9)
(9,1) (9,3) (9,5) (9,7) (9,9)
Se calcularmos a mdia de todas as mdias amostrais do Quadro 2

acima chegaremos ao resultado igual a 5. Ou seja, a mdia de todas as
amostras (com reposio) de 2 elementos ser igual mdia populacional. As
medias amostrais de todas as amostras do Quadro 2 so apresentadas no
Quadro 3. Podemos mostrar de forma semelhante que a varincia das mdias
amostrais do Quadro 3 ser igual varincia da populaao 2 = 8 dividida por n
= 2 (o tamanho das amostras), ou seja, 4. Estas duas propriedades (1 - a
media das medias de todas as amostras igual a media da populaao e 2 a
variancia das medias de todas as amostras igual a variancia da populaao
dividida pelo tamanho da amostra) vlida para qualquer tamanho de amostra,
87
mesmo que seja pequeno (n menor que 30). Veremos a seguir que a forma da
distribuio amostral das medias amostrais ir depender do tamanho da
amostra.
Quadro 3 Valores das mdias amostrais X de amostras de 2 elementos

selecionados de uma populao de 5 elementos (amostragem com reposio)
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
5 6 7 8 9
O Teorema do Limite Central nos diz que se tivermos uma varivel aleatria X
com distribuio qualquer (no necessariamente normal), a distribuio da
X2
varivel aleatria X ser normal com mdia X = X e varincia X2 = ,
n
quando o tamanho da amostra n tende ao infinito. Um exemplo, bastante
peculiar na rea econmica refere-se distribuio da varivel renda.
Suponhamos a varivel renda familiar per capita das famlias brasileiras. Se
construirmos um histograma para esta varivel este ter um formato bastante
assimtrico com concentrao das observaes (freqncias) nas faixas de
renda mais reduzidas. A varivel renda no normal e tem uma distribuio
prxima da distribuio terica denominada log-normal. Uma varivel X
normal se a varivel Y = ln X tem distribuio normal. No entanto se
selecionarmos um nmero bastante grande de amostras de tamanho 50
famlias e para cada uma destas amostras calcularmos o valor da renda mdia
X e construirmos um histograma para esta varivel X , este histograma ter
um formato semelhante ao da figura 1abaixo. No grfico superior da Figura 1
88
est um histograma de 10000 unidades amostrais selecionadas de uma
populao com distribuio log-normal. As amostras neste caso tem tamanho n
= 1 e o formato da distribuio semelhante ao formato da distribuio terica
log-normal, com uma assimetria acentuadamente positiva. No grfico inferior
da Figura 10 desenhado o histograma das mdias amostrais X de 10000
amostras de tamanho n = 50 selecionadas aleatoriamente de uma populao
log-normal (representada pelo grfico superior). Sobrepe-se a funo
densidade da distribuio normal para indicar a vigncia do Teorema do Limite
Central em termos aproximados. A unidade de mensurao dos grficos
fictcia e os mesmos foram construdos atravs de um programa simulador de
distribuies do software Stata.
Amostras=10000, Populacao=LogNormal, n=1
.4192
Frequencia
0
.01 40.5365
Media Amostral
Amostras=10000, Populacao=LogNormal, n=50
.0849
Frequencia
89
0
.906 3.79912
Media Amostral
Figura 10 Ilustrao do Teorema do Limite Central para uma distribuio log-
normal
4.6 Estimao
Em geral, o objetivo de uma amostragem o de estimar um parmetro

da populao. Este parmetro pode ser uma mdia populacional (por exemplo,
a renda mdia familiar em uma regio) ou uma proporo populacional (por
exemplo, a proporo de famlias rurais que exercem atividades pluriativas).
Um parmetro pode ser ainda o nmero total de famlias que exercem
atividades conta prpria em uma regio. Parmetros so medidas descritivas
numricas referentes a uma populao.
Para se estimar um valor de um parmetro populacional utiliza-se uma
frmula estatstica (que uma funo de variveis aleatrias) denominada
estimador. Por exemplo, um estimador para a mdia populacional a mdia
amostral e um estimador para a proporo populacional a proporo
amostral. Basicamente duas propriedades so desejveis para um estimador:
1) Deve ser um estimador no viesado. No caso da mdia populacional, isto

significa que se pudssemos escolher todas as amostras de mesmo tamanho n
da populao e calculssemos a mdia das rendas mdias amostrais, esta
mdia das mdias seria igual a renda mdia da populao. Isto o mesmo que
dizer que o estimador mdia amostral um estimador no viesado do
parmetro mdia populacional, o que representado por: E ( X ) = onde X
a mdia amostral e a mdia populacional, sendo E o operador esperana
matemtica.10 Em termos gerais, um estimador de um parmetro no
()
viesado se E = .
10
Esperana matemtica a mdia de uma distribuio estatstica. No exemplo, a esperana da varivel
aleatria X a mdia populacional , j que a mdia das mdias amostrais de todas as possveis
amostras de mesmo tamanho a mdia populacional (resultado que pode ser compreendido de forma
bastante intuitiva).
90
2) Deve ter uma varincia que mnima em relao varincia de todos os
outros estimadores no viesados (ENV) de .
3) O erro quadrtico mdio (EQM) do estimador dado por:
EQM () = E[ ]2 (4.1)
Pode-se demonstrar que o erro quadrtico mdio de um estimador igual a:
EQM () = VAR[] + (VIES[]) 2 (4.2)
ou seja, igual a soma da varincia do estimador e o seu vis ao quadrado.

muito difcil ocorrer na prtica uma situao em que tenhamos de escolher
entre dois estimadores viesados para um mesmo parmetro, mas neste caso
teramos que optar por aquele que apresentasse um menor valor de EQM.
4.7 Amostragem Aleatria Simples

Suponhamos que uma populao seja definida pelos valores X1,X2, ...,
XN onde Xi um atributo ou varivel para cada um dos elementos na
populao. Por exemplo, se estamos interessados em estimar o nmero total
de famlias que exercem atividades pluriativas, Xi=1 se a i-sima famlia da
populao exerce atividade plutiativa e Xi = 0 se a i-sima famlia no exerce
atividades pluriativas. Este o caso em que estamos considerando uma
varivel binria, que est representando a ocorrncia ou no de um
determinado atributo qualitativo correspondente ao elemento da populao.
Neste caso, o total populacional de famlias que exercem atividades pluriativas
N
ser igual a = X i . Se estivermos interessados em estimar o consumo
i =1
mdio de toda a populao investigada, Xi ser o consumo da i-sima famlia,

N N
= X i / N ser o consumo mdio populacional e T = X i ser o consumo
i =1 i =1
total populacional. Para estimarmos estes valores iremos selecionar, do

conjunto da populao de agricultores, uma amostra aleatria simples (AAS)
baseada no seguinte princpio: todo elemento da populao de tamanho N tem
igual probabilidade (igual a 1/N) de entrar na amostra de n elementos.
91
Existem dois mtodos bsicos de seleo de uma amostra aleatria simples: a
amostragem com reposio e a amostragem sem reposio. No primeiro caso,
as probabilidades condicionais de um determinado indivduo entrar na amostra
so iguais s probabilidades no condicionais, ou seja:
P( xi x j ) = P( xi )i, j {1, 2,.., N } (5.1)
A probabilidade de um determinado elemento xi ser selecionado na
amostra condicionada ao evento de que o elemento x j foi tambm selecionado
na amostra igual simplesmente probabilidade de xi ter entrado na amostra
(desconsiderando o fato de x j ter ou no sido selecionado). Quando
selecionamos um elemento e a partir disso o recolocamos na populao (com

reposio), fazendo isto estamos permitindo que este mesmo elemento possa
ser novamente selecionado. Se selecionarmos xj inicialmente e o
recolocarmos na populao, a probabilidade de selecionarmos xi ser a
mesma que no caso em que no foi selecionado inicialmente x j .
Vejamos um exemplo simples para que isto seja compreendido:

suponhamos que uma populao tenha apenas 5 famlias, apresentado as
seguintes rendas: X 1 = 400, X 2 = 600, X 3 = 800, X 4 = 1000, X 5 = 1200 . Suponha
que selecionarmos uma amostra aleatria simples de n = 2 famlias com

reposio.
O Quadro 4 abaixo apresenta todas as amostras dessa populao

hipottica, assim como os clculos das mdias e varincias amostrais e
populacionais.
Quadro 4 Simulao de uma amostragem com reposio de uma

populao hipottica de 5 elementos
(400;400) (400;600) (400;800) (400;1000) (400;1200)
X 11 = 400 X 12 = 500 X 13 = 600 X 14 = 700 X 15 = 800
(600;400) (600;600) (600;800) (600;1000) (600;1200)
92
X 21 = 500 X 22 = 600 X 23 = 700 X 24 = 800 X 25 = 900
(800;400) (800;600) (800;800) (800;1000) (800;1200)

X 31 = 600 X 32 = 700 X 33 = 800 X 34 = 900 X 35 = 1000
(1000;400) (1000;600) (1000;800) (1000;1000) (1000;1200)

X 41 = 700 X 42 = 800 X 43 = 900 X 44 = 1000 X 45 = 1100
(1200;400) (1200;600) (1200;800) (1200;1000) (1200;1200)

X 51 = 800 X 52 = 900 X 53 = 1000 X 54 = 1100 X 55 = 1200
No Quadro 4 so apresentadas todas as amostras possveis de tamanho

n = 2 selecionadas com reposio de uma populao de 5 famlias de
agricultores, assim como os valores das mdias amostrais X ij . Observe que a
ordem de seleo das famlias levada em considerao, o que significa que a

amostra ( X 1 X 3 ) distinta da amostra ( X 3 X 1 ) . Na primeira a famlia 1
selecionada inicialmente e na segunda a famlia 3 selecionada inicialmente,

apesar das duas amostras conterem as mesmas famlias (mas neste caso so
consideradas duas amostras distintas, de acordo com duas possibilidades
distintas de seleo). Na linguagem matemtica e probabilstica, isto o
mesmo que dizer que ( X 1 X 3 ) e ( X 3 X 1 ) so dois eventos distintos. Se
calcularmos a mdia das mdias amostrais do Quadro 4 verificaremos que esta

idntica a mdia populacional, ou seja X = X = 800 (deixamos para o leitor
fazer esta verificao). Tambm solicitamos que o leitor calcule a varincia

populacional da varivel X e faa o mesmo clculo para a varincia das mdias
amostrais, utilizando as seguintes frmulas:
N
1
X2 =
N
(X
i =1
i X )2
2
(5.2)
1 N
2
X
= ( Xi X )
N i =1
93
O leitor dever encontrar os seguintes valores:
X = 800 X2 = 80000
X = 800 = X X2 = 40000
Estes resultados mostram (no demonstram) que para uma amostra

aleatria simples com reposio a mdia das mdias amostrais igual a mdia
populacional (este resultado vlido para qualquer mtodo amostral que
conduza a uma estimativa no viciada de X ) e a varincia das mdias
amostrais igual a varincia populacional (calculada para a varivel X) dividida
pelo tamanho da amostra, ou seja, X2 = X2 / n . Em termos numricos, isto
significa que (ver Quadro 5 abaixo para o clculo a seguir da mdia das mdias
amostrais X e varincia das mdias amostrais X2 ) :
N
400 + 600 + 800 + 1000 + 1200
X = Xi = = 800
i =1 5
N
400 + 500 + 600 + ... + 1200 20000
X = Xi = = = 800 onde N o nmero
i =1 25 25
de amostras com reposio e com tamanho n = 2
(X i )2
(400 800) 2 + (600 800) 2 + ... + (1200 800) 2
X2 = i =1
= = 80000
N 5
(X i )2
(400 800) 2 + (500 800) 2 + ... + (1200 800) 2 1000000
X2 = i =1
= = = 40000
N 25 25
Quadro 5 Memria de clculo das

mdias e varincias de uma amostra
selecionada de uma populao
hipottica de 5 elementos
Amostra X ( X 800) ( X 800) 2
94
(400;400) 400 -400 160000
(400;600) 500 -300 90000
(400;800) 600 -200 40000
(400;1000) 700 -100 10000
(400;1200) 800 0 0
(600;400) 500 -300 90000
(600;600) 600 -200 40000
(600;800) 700 -100 10000
(600;1000) 800 0 0
(600;1200) 900 100 10000
(800;400) 600 -200 40000
(800;600) 700 -100 10000
(800;800) 800 0 0
(800;1000) 900 100 10000
(800;1200) 1000 200 40000
(1000;400) 700 -100 10000
(1000;600) 800 0 0
(1000;800) 900 100 10000
(1000;1000) 1000 200 40000
(1000;1200) 1100 300 90000
(1200;400) 800 0 0
95
(1200;600) 900 100 10000
(1200;800) 1000 200 40000
(1200;1000) 1100 300 90000
(1200;1200) 1200 400 160000
Soma 20000 0 1000000
Quadro 6 Simulao de uma amostragem sem reposio de uma

populao hipottica de 5 elementos
(400;600) (400;800) (400;1000) (400;1200)
X 12 = 500 X 13 = 600 X 14 = 700 X 15 = 800 )
(600;400) (600;800) (600;1000) (600;1200)

X 21 = 500 X 23 = 700 X 24 = 800 X 25 = 900
(800;400) (800;600) (800;1000) (800;1200)

X 31 = 600 X 32 = 700 X 34 = 900 X 35 = 1000
(1000;400) (1000;600) (1000;800) (1000;1200)

X 41 = 700 X 42 = 800 X 43 = 900 X 45 = 1100
(1200;400) (1200;600) (1200;800) (1200;1000)

X 51 = 800 ) X 52 = 900 X 53 = 1000 X 54 = 1100
No Quadro 6 so mostradas todas as amostras possveis selecionadas

sem reposio da populao de 5 famlias agrcolas. Pode-se observar que a
diferena do Quadro 4 em relao ao Quadro 6 que neste ltimo no existem
amostras na diagonal principal da matriz. Isto ocorre porque a diagonal da
matriz representa as amostras com repetio dos elementos da populao e
tais amostras so eventos que no se verificam em amostragem sem
96
reposio. Realizando os mesmos clculos de mdia e de varincia que foram
feitos para a amostragem com reposio chegamos aos seguintes resultados:
X = 800 X2 = 80000
Xsr = 800 = X X2 sr = 30000
A varincia das mdias amostrais X2 sr para amostragem sem reposio
distinta da varincia das mdias amostrais X2 para a amostragem com
reposio. Podemos dizer que:
N n
X2 sr = X2 (5.3)
N 1
N n
O fator denominado fator de correo de populao finita
N 1
(FCPF) e o significado deste nome ser esclarecido mais adiante neste
trabalho. Por enquanto, importante verificar que o FCPF sempre menor ou
igual a unidade e faz com que a amostragem sem reposio sempre apresente
uma varincia das mdias amostrais mais reduzida do que a varincia das
mdias amostrais para a amostragem com reposio.
O Quadro 7 abaixo um resumo dos principais resultados obtidos da

teoria estatstica referentes aos estimadores mais utilizados em amostragem.
Quadro 7 Principais Estimadores utilizados em amostragem

PARMETRO REPRESENTA ESTIMADO REPRESENTA VARINCIA DO
O DO R O ESTIMADOR
PARMETRO
DO ESTIMADOR
Mdia N
Mdia N
X2
Xi Xi X2 =
n
populacional = i =1 amostral X = i =1
N n
97
Total N Total N n
N 2 X2
populacional
T= Xi
i =1 amostral
T =
n
Xii =1
T2 =
n
expandido
Proporo N
Proporo n
p (1 p )
Xi X i
2p =
n
populacional p= i =1 amostral p = i =1
N n
onde Xi = 0,1 onde Xi = 0,1
Total de N Total N n
N2
= Xi = X i 2 = p (1 p )
indivduos na i =1 amostral n i =1 n
populao expandido
onde Xi = 0,1 onde Xi = 0,1
com
determinada
caracterstica
Exemplos de aplicao:
Exemplo 1) Suponhamos que atravs de uma determinada amostra

constatou-se que a mdia amostral X = 50 (renda mdia de n = 30 pessoas). A
partir da mesma amostra foi possvel calcular o desvio padro amostral s X = 10.
A varincia amostral calculada utilizando-se a seguinte frmula:
(X i X )2
s X2 = i =1
e o desvio padro amostral igual a raiz quadrada
n 1
dessa frmula.
O procedimento de clculo do desvio padro amostral abrange, como

indicado na frmula acima, inicialmente o clculo da mdia amostral e a seguir
o clculo dos desvios elevados ao quadrado dos valores de cada observao
em relao mdia amostral. O somatrio para todos os valores amostrais
desses desvios ao quadrado ento dividido pelo nmero de observaes
amostrais subtraido de uma unidade.
98
Esta frmula permite calcular uma estimativa no viciada do parmetro
X2 . O que torna o estimador no viciado o numerador da frmula ser n-1 e
no n; o estimador ser viciado significa que se escolhssemos aleatoriamente
todas as amostras possveis de tamanho n = 30 e calculssemos para cada
uma delas, utilizando a frmula acima, a varincia amostral, a mdia de todos
estas varincias amostrais seria igual varincia populacional ( parmetro)
X2 . Empregando-se um conceito muito utilizado na teoria estatstica isto o
mesmo que dizer que a esperana matemtica do estimador igual ao
parmetro. A mesma idia pode ser aplicada para a mdia amostral: a mdia
das mdias amostrais sempre igual a mdia populacional, e portanto, a
mdia amostral um estimador no viciado da mdia populacional. Em termos
matemticos, isto significa dizer que E X = X e no caso anterior,
E s X2 = X2 .
Como vimos, a partir dos dados da amostra, foi possvel calcular a

mdia amostral e a varincia amostral. A partir disso, possvel construir uma
estimativa por intervalo. Vamos supor que estamos interessados em calcular
um intervalo de confiana de 95 % de probabilidade para a mdia
populacional. Este ser:
sX s
X + z0,025 X X + z0,975 X
n n
10 10
50 1, 96 X 50 1,96
30 30
46,4215 X 53,5784
z0,025 o valor da varivel aleatria normal padro para o qual o valor da
funo de distribuio acumulada igual a 0,025 (2,5%). De uma forma geral

quando quisermos calcular um intervalo de confiana de ( 1 )x100 % de
probabilidade, este ser dado por:
99
X X
X z / 2 X X z1 / 2 (5.4)
n n
Os valores da distribuio normal padro z no apresentados em tabelas

na maioria dos livros de estatstica bsica mas tambm podem ser obtidos
atravs de diversos softwares. Um desses softwares o Excel que tem uma
funo estatstica apropriada para isto: ativar o boto f X da barra de
ferramentas do Excel, escolher na categoria de funo Estatstica e escolha
como nome da funo INV.NORMP. Esta a funo inversa da funo de
distribuio normal padro acumulada (ou simplesmente designada funo
distribuio normal padro), sendo que o argumento da funo a
probabilidade e o valor da funo o valor de z correspondente a esta
probabilidade. Por exemplo, se quisermos calcular a funo inversa da funo
distribuio normal padro para uma probabilidade (acumulada) de 0,025 (2,5
%) digitamos em qualquer clula do Excel +INV.NORMP(0,025) e o valor que
sai na clula do Excel 1,95996. Este o valor da varivel aleatria z que
deixa uma probabilidade acumulada esquerda igual a 0,025 (ver primeira
figura abaixo). Da mesma forma, +INV.NORMP (0,975) produz o valor +
1,95996, que o valor de z com probabilidade acumulada (rea a esquerda da
funo densidade z) igual a 0,975 (ver segunda figura abaixo).
z = -1.959964
0
-4 -3 -2 -1 0 1 2 3 4
x
100
z = 1.959964
0
-4 -3 -2 -1 0 1 2 3 4
x
Outro programa que pode ser utilizado para o clculo de intervalos de

confiana o Stata. Suponhamos que os seguintes dados sejam provenientes
de uma amostra de tamanho n = 30
55 70 46
60 80 67
75 35 35
60 40 45
30 44 65
35 56 50
40 38 41
45 47 51
50 68 50
60 25 40
101
Copie estes dados para o editor do Stata (basta seguir o procedimento usual
do Windows de cpia para a rea de transferncia e desta copia-se para o
Stata). Aps isto utiliza-se o comando:
ci var1
A sada no Stata :
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
var1 | 30 50.1 2.505328 44.97603 55.22397
Podemos alterar o nvel de confiana do intervalo para outro valor: Assim, o

comando:
ci var1, level(90)
gera o seguinte resultado:
-------------+-------------------------------------------------------------
var1 | 30 50.1 2.505328 45.84313 54.35687
102
Exemplo 2) fcil perceber que de acordo com os dados do exemplo anterior
n
a soma dos valores amostrais tenha sido X
i =1
i = nX = 30 50,1 = 1503 . Portanto,
se o tamanho da populao N = 1000, o estimador da renda total

populacional ser dado por (ver Quadro 4, segunda linha):
n
N 1000
T =
n
X
i =1
i =
30
1503 = 50100
Este tambm um estimador no viciado da renda total populacional (

possvel, de forma no muito rdua, demonstrar isto matematicamente) e a sua
varincia, de acordo com o Quadro 7, segunda linha, dada por:
N 2 X2 1000 2 188, 3
T2 = = = 6276666,7
n 30
e o seu desvio padro : sT = 6276666,7 = 2505.3277 . Observe, que no lugar
de X , que um parmetro desconhecido, utilizamos o valor s X que um

dado amostral e calculado, como vimos, a partir de uma frmula que se
refere a um estimador no viciado para X .
Um intervalo de confiana de 95 % de probabilidade para a renda total da

populao pode ser calculada como:
N n N n

n i =1
X i + z0,025 sT T X i + z0,975 sT
n i =1
50100 1, 96 2505,3277 T 50100 1, 96 2505,3277
44976,03 T 55223,97
interessante observar que os valores limites deste ltimo intervalo de

confiana correspondem aos valores limites para o intervalo de confiana para
a mdia populacional multiplicados por 1000. No poderia ser de outra forma,
103
j que o total populacional a mdia populacional multiplicado por N = 1000,
N
ou seja, T = X i = N X
i =1
Exemplo 3) Suponhamos que uma amostra de famlias de agricultores de

tamanho n = 50, extrada aleatoriamente de uma populao de tamanho N =
1000, tenha resultado em 20 famlias que exercem atividades pluriativas. Se
quisermos estimar a proporo de famlias na populao que exercem famlias
1 n
pluriativas, podemos afirmar que o estimador p = Xi
n i =1
(Xi=1 se a famlia
pluriativa e Xi=0, em caso contrrio) um estimador no viciado da proporo

N
1 20
populacional p =
N
X
i =1
i . No caso desse exemplo, p =
50
= 0, 4 e o desvio
padro deste estimador, de acordo com o Quadro 7, linha 3, dado por:
p(1 p ) 0, 4 (1 0, 4)
p = = = 0, 069282 (observe, que rigorosamente,
n 50
deveramos ter utilizado nesta ltima frmula, o valor desconhecido de p, mas
como p um estimador no viciado de p, no estamos cometendo nenhum
atentado estatstico, ao utilizar p ). Um intervalo de confiana para a proporo
populacional de agricultores que exercem atividades pluriativas, pode ser
calculado como:
p + z0,025 s p p p + z0,975 s p
0, 4 1,96 0, 0692 p 0, 4 1, 96 0, 0692
0,2644 p 0,5356
importante notar que no clculo do intervalo de confiana para qualquer

parmetro, ao determinar os limites do intervalo, sempre subtramos e
104
somamos ao valor da estimativa de ponto o produto de z pelo desvio padro do
estimador. Aqui tambm importante uma nota terica: no Quadro 4, linha 3
p (1 p )
fornecido o valor da varincia do estimador p que dada por 2p = .O

n
n
X i
estimador p = i =1
onde Xi uma varivel binria e como Xi pode ser
n
interpretada como sendo uma varivel aleatria Bernoulli (assumindo valor Xi =
1 quando o elemento i da amostra no pertence a uma de duas categorias em
que subdividida a populao e Xi = 0 quando no pertence)11, p uma
varivel binomial12 dividida por uma constante n. Como a varincia de uma
distribuio binomial com parmetros n e p igual n.p.(1-p),
2
1 p (1 p)
p2 = np (1 p ) = . Acontece que ao multiplicarmos o desvio-padro
n n
de p pelo valor de z para construirmos o intervalo de confiana para p estamos
fazendo uma aproximao de uma distribuio binomial pela distribuio
normal. Um mtodo mais exato o de calcular intervalos de confiana para a
distribuio binomial. A forma imediata do comando ci (cii) do Stata permite
fazer isto. Utilizando o seguinte comando:
cii 50 20 (o primeiro valor o nmero de observaes e o segundo valor o

nmero de sucessos)
gera a sada:
-- Binomial Exact --
11
Uma varivel aleatria Bernoulli uma varivel aleatria discreta que assume apenas dois valores 1 e
0 com P(Xi = 1) = p e P(Xi = 0) = 1-p. Quando selecionamos uma amostra aleatria de uma populao
subdividida de forma dicotmica em dois grupos, podemos considerar que cada elemento da amostra
est sujeito a uma lei de Bernoulli, com probabilidade p de pertencer ao grupo de referncia e 1-p ao
outro grupo.
n
12
Se Xi uma varivel Bernoulii com parmetro p, X
i =1
i uma varivel Binomial com parmetros n e
p.
105
-------------+-------------------------------------------------------------
| 50 .4 .069282 .2640869 .5482056
Exemplo 4) Utilizando os mesmos dados do exemplo anterior vamos estimar o

total populacional de famlias pluriativas. Este parmetro, de acordo com o
N
Quadro 7 representado como = Xi , pode ser estimado por
i =1
n
N 1000
=
n
X
i =1
i =
50
20 = 400 . O desvio padro deste estimador, de acordo com
o mesmo Quadro 7, linha 4, igual a
N2 10002
= p (1 p ) = 0, 4 0, 6 = 69, 28 . O intervalo de confiana de 95 %
n 50
de probabilidade para o total populacional de agricultores que exercem
atividades pluriativas :
+ z0,025 s + z0,975 s
400 1, 96 69, 28 400 1,96 69, 28
264, 21 535, 79
Certamente, esta amostra de tamanho n = 50, est sub-dimensionada para a

estimativa do total de famlias pluriativas, j o intervalo refere-se a um erro
535, 79 400
relativo igual a 100 = 33,94 % (para calcularmos o erro relativo
400
correspondente a um intervalo de confiana basta dividirmos a semi-amplitude
desse intervalo pelo valor da estimativa de ponto).
Para finalizar essa seo um rpido comentrio terico sobre o clculo da

varincia dos estimadores apresentados no Quadro 7. A varincia do estimador
106
X2
da mdia populacional (que a mdia amostral) igual a X2 = . Como
n
1 n 1
X=
n i =1
X i = ( X 1 + X 2 + ... + X n ) ,
n
consideramos duas propriedades da
varincia:
A varincia da soma de variveis aleatrias independentes igual a soma das

varincias de cada varivel aleatria. Se X1, X2,..., Xn so variveis aleatrias
independentes, ento V[X1+ X2+...+ Xn]=V[X1]+ V[X1]+...+ V[Xn]
A varincia do produto de uma constante por uma varivel aleatria igual ao

produto dessa constante elevada ao quadrado pela varincia da varivel
aleatria. Se Y = kX e k uma constante, ento V[Y] = k2 V[X]
Considerando estas duas propriedades, temos que:
1 n 1 X2
X2 = V [ i n2 X n
n i =1
X ] = n 2
=
A varincia do estimador do total populacional pode ser deduzida de forma

semelhante:
2
N n
N n
T2 = V [T ] = V
n

i =1
X i = V X i =
n i =1
2
N N2 2
n 2
X = X
n n
De forma anloga, podem ser deduzidas as frmulas das varincias dos

estimadores da proporo populacional e do total de indivduos na populao
com determinada caracterstica.
107
4.8 Dimensionamento de Amostras
Uma das mais freqentes questes feitas em amostragem refere-se ao
tamanho amostral adequado aos objetivos da pesquisa. A resposta a esta
questo ir depender de dois aspectos a serem definidos pelo pesquisador: o
nvel de confiana alcanado pela amostragem e a preciso requerida das
estimativas amostrais. Alm disso, o tamanho da amostra ir depender do
mtodo de delineamento amostral adotado.
Tamanho amostral para Amostra Aleatria Simples (AAS)
Se for adotada uma Amostra Aleatria Simples, suponhamos que desejamos

estimar a mdia populacional e para isto utilizaremos o estimador X . Para
uma amostra qualquer de tamanho n, um intervalo de confiana de (1- ) % de
probabilidade ser dado por:
X z X X + z X
Por exemplo, se tivermos uma amostra para estimar a renda mdia familiar de
uma populao de agricultores com n = 50 e X = R$ 300 e X = 40 (que o
13
desvio-padro da populao para a varivel renda familiar) um intervalo de
confiana de 95 % de probabilidade ser dado por:
13
Geralmente no se conhece X (o desvio-padro populacional para a varivel X) mas pode-se usar no
2
n
seu lugar o desvio-padro amostral s X = ( X i X ) /( n 1) que um estimador no viesado
i =1
de X .
108
40 40
300 1,96 300 1,96
50 50
288, 91 311, 09
Isto significa que teremos 95 % de chance de que a renda mdia populacional

esteja contida no intervalo acima.
Para calcularmos o tamanho amostral necessrio para um dado erro e para um

dado nvel de confiana, consideremos a semi-amplitude do intervalo acima
X
que o erro amostral da estimativa. Este valor igual a z . Portanto,
n
temos:
X
d = z
n
2
(6.1)
z X
n =
d
onde:
n o tamanho amostral;
z o valor da varivel aleatria normal padro z que deixa uma rea de
cauda a direita com valor , ou seja, P( z z ) = / 2 . Para = 0,95 z =

2
1,96;
X o desvio padro populacional da varivel X;
d o erro amostral absoluto admitido.
A Tabela 3 abaixo fornece os valores de n para diversos valores de e erro d.

109
Tabela 3 Tamanho amostral para uma
Amostra Aleatria Simples (AAS) com
objetivo de estimar para um dado desvio-
padro da populao X = 30 e X = 50
(populao infinita)
X = 30 X = 50
z erro (d) n erro (d) n
0,99 2,576 1 5971 1 16587
0,95 1,960 1 3457 1 9604
0,80 1,282 1 1478 1 4106
0,99 2,576 5 239 5 663
0,95 1,960 5 138 5 384
0,80 1,282 5 59 5 164
0,99 2,576 10 60 10 166
0,95 1,960 10 35 10 96
0,80 1,282 10 15 10 41
0,99 2,576 30 7 30 18
0,95 1,960 30 4 30 11
0,80 1,282 30 2 30 5
Pelos dados da Tabela 4, uma amostra aleatria simples (AAS) com tamanho n
= 60, nvel de confiana = 99 %, para uma populao com desvio-padro
X =30, resulta em um erro absoluto d = 10 (e um erro relativo de 33,3 %). Isto
110
significa que se estimarmos com esta amostra com base em X , podemos
construir um intervalo de confiana de 99% de probabilidade da seguinte forma:
X 10 X + 10
Para uma populao com X = 50, se quisermos estimar a mdia populacional

com um erro absoluto d = 5 e nvel de confiana = 95 % necessitaremos
de um tamanho amostral n = 384. Com esta amostra podemos construir um
intervalo de confiana de 95 % de probabilidade para estimar da seguinte
forma:
X 5 X +5
No caso de estarmos estimando uma proporo populacional p utilizando uma

proporo amostral p , a frmula utilizada (ver explicao da mesma no Anexo)
:
z2 p (1 p )
n= (6.2)
e2
A Tabela 4 abaixo fornece os valores de n para diversos valores de , erro e

p.
Tabela 4 Tamanho amostral para uma Amostra Aleatria Simples com

objetivo de estimar uma proporo populacional p para diversos valores
de , p e erro (populao infinita)
Erro (%) z p n p n p n
0,99 1 2,5758 0,1 5971 0,3 13933 0,5 16587
111
0,95 1 1,9600 0,1 3457 0,3 8067 0,5 9603
0,80 1 1,2815 0,1 1478 0,3 3448 0,5 4105
0,99 5 2,5758 0,1 238 0,3 557 0,5 663
0,95 5 1,9600 0,1 138 0,3 322 0,5 384
0,80 5 1,2815 0,1 59 0,3 137 0,5 164
0,99 10 2,5758 0,1 59 0,3 139 0,5 165
0,95 10 1,9600 0,1 34 0,3 80 0,5 96
0,80 10 1,2815 0,1 14 0,3 34 0,5 41
Se utilizarmos uma amostra de tamanho n = 384 para estimarmos a proporo

p com nvel de confiana = 95 %, supondo-se14 que o valor de p igual a
0,5, o erro amostral ser igual a 5 % (ver Tabela 5).
Tamanho Amostral com Correo de Populao Finita
Quando o tamanho amostral supera 5 % do tamanho da populao, pela

teoria da amostragem a populao finita. Neste caso, todas as frmulas de
dimensionamento apresentadas anteriormente devem considerar correes.
Quando o objetivo estimar a mdia populacional o tamanho amostral
requerido dado por:
1
n= 2
(6.3)
d 1
+
z2 2 N
14
Geralmente dimensiona-se a amostra supondo-se p = 0,5 que o valor que torna mximo o tamanho
amostral necessrio. Estamos, ao fazer essa suposio, trabalhando com maior segurana.
112
Observa-se que neste caso o tamanho N da populao influi no tamanho da
amostra. Existem casos nem sempre freqentes em que o tamanho da
populao to pequeno que por menor que seja a amostra, esta torna-se
suficientemente grande em relao populao que torna-se necessrio
utilizar a correo.
Se o objetivo for estimar o total populacional (por exemplo, a renda total da
populao), a relao a ser adotada (considerando-se correo de populao
finita) :
1
n= 2
(6.4)
d 1
+
N 2 z2 X2 N
No caso do objetivo ser a estimativa da proporo populacional, a frmula de

dimensionamento :
Np (1 p )
n= (6.5)
d2
( N 1) 2 + p (1 p)
z
4.9 Amostragem Aleatria Estratificada
Temos freqentemente diversos grupos na populao que podem ter

valores distintos para a(s) varivel (eis) estudada(s). Suponhamos por exemplo
que queiramos estimar a proporo populacional de eleitores que iro votar em
um determinado candidato. J sabemos que as propores vigentes nas
distintas sub-populaes que se definem por estratos de renda familiar diferem
113
substancialmente. Neste caso, uma amostra aleatria simples no muito
eficiente e podemos utilizar uma amostra aleatria estratificada. Caso no
disponhamos de um cadastro muito confivel e sejamos obrigados a escolher
as unidades amostrais em campo, podemos utilizar uma amostra sistemtica e
estratificada. Nesta ltima situao, o esquema amostral no difere
substancialmente da amostra aleatria estratificada.
Escolha das variveis de estratificao
Normalmente escolhem-se variveis que permitem subdividir a populao em

subconjuntos nos quais o comportamento mdio da varivel em estudo se
diferencie substancialmente. Isto o mesmo que dizer que estamos
interessados em obter estratos nos quais a caracterstica a ser investigada seja
a mais homognea possvel. Em diversas situaes tambm importante obter
estimativas no apenas para o conjunto da populao, mas tambm para
alguns estratos definidos previamente. Desta forma, a estratificao no
apenas um mtodo para melhorar a eficincia da amostra15.
A varincia total dentro de uma populao pode ser subdividida em
duas; a varincia entre os estratos e a varincia dentro dos estratos. A
estratificao remove a segunda fonte de variabilidade e esta a explicao
para o aumento de eficincia de uma amostra estratificada.
No caso de uma pesquisa no meio rural que objetive estimar a renda
das famlias de agricultores, alm de estimar percentuais16 de famlias
enquadradas em determinadas situaes (por exemplo, percentuais de famlias
que exeram atividades pluriativas, percentuais de famlias conta-prpria), a
estratificao pode ser feita considerando-se variveis que objetivem estratos
homogneos quanto as caractersticas a serem investigadas. Uma destas
15
Eficincia da amostra significa um aumento da preciso das estimativas, sendo dado o seu tamanho
amostral.
16
As estimativas de percentuais populacionais podem ser consideradas como equivalentes a estimativas
de propores, j que um percentual nada mais que uma proporo multiplicada por 100 (ver
discusso sobre o Quadro 1 na seo 4 desse trabalho.
114
variveis seria aquela definidora do prprio tipo de agricultor, j que esta se
supe estar intimamente relacionada com as variveis estudadas (renda, auto-
consumo, etc). No entanto, o tipo de agricultor uma informao a ser obtida a
partir da prpria pesquisa e dessa forma no pode ser utilizada como varivel
de estratificao, a no ser que no cadastro conste alguma informao que
permita a classificao da unidade populacional, o que muito improvvel.17
No caso de no podermos contar com um cadastro de elementos da
populao que nos permita obter uma boa varivel de estratificao, temos
duas opes. Em primeiro lugar, podemos adotar a seleo por quotas,
baseando-se em propores obtidas de outra fonte independente (por exemplo,
a PNAD). Neste caso no teremos nenhuma garantia quanto
representatividade da amostra relativa s caractersticas da populao que
julgamos relevantes para a estimativa das variveis estudadas, alm do fato da
amostra no ser probabilstica o que impede procedimentos de inferncia e a
decorrente impossibilidade de controle dos erros probabilsticos de
amostragem. possvel que os erros de amostragem sejam bem menores que
outros erros e vieses decorrentes do processo de levantamento, mas de
qualquer forma em geral no somos capazes de controlar esses erros.
Em segundo lugar, abandonamos qualquer tentativa de estratificao e

procedemos a uma amostra aleatria simples ou sistemtica. Mesmo neste
caso teremos que tomar alguns cuidados quanto representatividade da
amostra, devido a falhas de cadastro e problemas de no-resposta.
No que se segue vamos considerar uma populao de N elementos

subdividida em L estratos e utilizar a seguinte notao matemtica:
N h = nmero de unidades da amostra na populao que fazem parte do
estrato h
L = nmero de estratos em que a populao foi dividida
17
possvel que para os dois estudos de caso planejados para o Estado do Paran seja possvel tal
estratificao j que este Estado conta com um bom cadastro da Secretaria de Sade.
115
L
N = nmero total de unidades da amostra na populao ( N = N h )
i =1
Nh
Wh = peso do estrato h (h = 1,2,..,L)
N
nh = tamanho da amostra no estrato h (nmero de unidades da amostra
alocadas para o estrato h)
O estimador da mdia populacional ( X ) dado por (ver seo 7

Ponderao da amostra):
L
X est = Wh X h (6.1)
i =1
onde X h mdia da amostra do estrato h.
A varincia estimada de X est dada por (ver propriedades do operador
varincia discutidas na Seo 4, Exemplo 4):
L L
s2
VX est = Wh2V ( X h ) = Wh2 h (6.2)
i =1 i =1 nh
onde sh2 a varincia da amostra do estrato h definida como:
1 nh
sh2 =
nh 1 i =1
( X i X h ) 2 (6.3)
N
O estimador no viciado para o total populacional T = X i calculado como
i =1
T = NX est e sua varincia estimada V (T ) = N 2V ( X est ) .
Aplicao:
116
Suponhamos que em uma pesquisa socioeconmica, objetivando estudar o
comportamento da renda familiar em determinada comunidade, foi empregado
o mtodo da amostragem aleatria sistemtica. O Quadro 8 a seguir apresenta
o nmero de unidades amostrais em cada estrato da populao e o tamanho
da amostra alocado em cada estrato assim como os valores da renda de cada
unidade da amostra selecionada.
Quadro 8 Valores hipotticos de uma amostra aleatria estratificada

Estrato Nh nh X Xh sh2
1 50 4 X11=500 X 1 = 625 s12 = 22500
X12=700
X13=800
X14=500
2 40 3 X21=700 X 2 = 466, 67 s22 = 43333, 33
X22=300
X23=400
3 70 7 X21=300 X 3 = 428, 57 sh2 =22380,95
X22=400
X23=300
X21=500
X22=700
X23=500
X23=300
117
O estimador da mdia populacional X :
L
50 40 70
X est = Wh X h = W1 X 1 + W2 X 2 + W3 X 3 = 625 + 466, 67 + 428,57 = 499, 48
i =1 160 160 160
A varincia estimada de X est :
2 2 2
L
s 2 50 22500 40 43333,33 70 22380,95
VX est = Wh2 h = + + = 2064, 073
i =1 nh 160 50 160 40 160 50
De forma que um intervalo de confiana de 95 % para a mdia populacional X

:
499, 48 1,96 2064, 073 X 499, 48 + 1, 96 2064, 073

410, 43 X 588,53
Distribuio da Amostra por Estratos
a) Repartio Proporcional
Definidos os estratos populacionais, temos basicamente dois mtodos

de repartio dos elementos amostrais nestes estratos. O primeiro mtodo o
da repartio proporcional. Suponhamos que o cadastro disponvel possibilite a
subdiviso da populao em trs estratos: agricultores pequenos, mdios e
grandes. Seja Ni o nmero de agricultores no estrato i contidos na populao,
ni o nmero de agricultores do mesmo estrato a ser alocado na amostra, N o
tamanho total da populao e n o tamanho da amostra. A repartio
proporcional da amostra ser dada por:
Ni
ni = n , i = 1,2,3.(6.4)
N
118
Utilizando-se este mtodo de repartio amostral garante-se que a
amostra seja auto-ponderada, o que significa que as propores amostrais so
estimativas no viesadas das propores populacionais. Em outras palavras,
no precisamos utilizar pesos que multiplicam os valores das variveis de cada
unidade amostral, o que simplifica o trabalho de preparao dos dados para
anlise. Percebe-se tambm que com este mtodo de repartio amostral, as
fraes amostrais em cada estrato so idnticas.18 E como vimos
anteriormente, este mtodo, como o seguinte mtodo de estratificao,
aumenta a eficincia da amostra em comparao amostra aleatria simples
de mesmo tamanho amostral.
b) Repartio tima de Neyman
A repartio de Neyman em uma amostra aleatria estratificada

considera que as varincias podem diferir em cada estrato (e supe-se que as
mesmas so conhecidas). A distribuio da amostra nos estratos ser dada
por:
N h sh
nh = n L
(6.5)
N
j =1
s
J J
onde:
nh o tamanho amostral alocado para o estrato h
n o tamanho amostral total
N h o tamanho populacional do estrato h
sh o desvio-padro (da varivel de interesse) no estrato h
n
18
A frao amostral igual relao f = . Na repartio proporcional,
N
n1 n n n
f1 = = f 2 = 2 = f3 = 3 = f =
N1 N2 N3 N
119
Observa-se que esta forma de repartio leva em conta
concomitantemente a distribuio da populao segundo os estratos e as
respectivas varincias de cada estrato populacional. Ou seja, estratos com
maiores tamanhos e maiores varincias tendem a receber maior quantidade de
elementos amostrais. Ele baseia-se na idia de que nos estratos mais
heterogneos (de maior varincia) necessita-se de maior quantidade de
informao e nos estratos mais homogneos (de menor varincia) necessita-se
menor quantidade de informao. Dessa forma, um mtodo racional distribuir
a amostra alocando maior quantidade de elementos amostrais nos estratos
mais heterogneos e menor quantidade nos estratos mais homogneos. A
alocao de Neyman gera uma eficincia da amostra mais elevada que e a
repartio proporcional e esta por sua vez mais eficiente que a AAS.
4.9 Ponderao da Amostra
Quando uma amostragem conduzida em campo verifica-se que muitas vezes

devido a um conjunto de problemas operacionais e prticos o resultado final da
amostra distancia-se consideravelmente do planejado. Alguns exemplos
desses problemas so: ocorrncia de no resposta ou recusa da entrevista,
no localizao de domiclios do cadastro, identificao em campo de
domiclios que no constam do cadastro, cadastro que abrange unidades que
no deveriam estar na populao, mudana de atividade do elemento da
populao.
Quando ocorrem estes problemas na amostragem necessrio ter o
cuidado de trabalhar com pesos adequados para as unidades amostrais. Em
uma amostra aleatria simples, os pesos para todas as unidades amostrais so
idnticos e iguais a19:
19
Observa-se que os pesos wi so iguais (para todas as unidades amostrais) ao inverso da frao
1 N
amostral, ou seja wi = =
f n
120
N
wi =
n
Mas quando ocorrem problemas de no-resposta (e os outros problemas
listados acima), o que muito freqente em levantamentos de campo, em
diferentes reas da regio investigada (ou em diferentes categorias de
agricultores) as unidades amostrais passam a ter pesos distintos. Isto o
mesmo que dizer que nas diversas reas as unidades amostrais passam a
representar um nmero distinto de elementos da populao. Suponhamos o
caso de que na categoria dos agricultores conta-prpria ocorra uma frao
amostral efetiva de uma unidade domiciliar pesquisada para cada 50 na
populao e nas outras categorias a frao amostral efetiva seja de 1 para 40.
Ento o peso da primeira categoria ser 50 e o peso da segunda categoria ser
40. A utilizao de pesos em amostras no auto-ponderadas garante que os
estimadores sejam no viesados. Alguns programas de computador para a
anlise de dados (como o caso do SPSS e do Stata) podem utilizar
automaticamente os pesos amostrais e calcular mdias e totais populacionais
expandidos.
Em muitos casos podemos antecipar problemas em campo e alocar
elementos amostrais de forma diferenciada a distintos grupos da populao de
acordo com nossa previso de recusa s entrevistas. Por exemplo, na frica do
Sul, por razes de ordem poltica, a populao branca tende a recusar-se mais
a responder entrevistas comparando-se a um menor ndice de recusa na
populao negra. Em funo disso, em alguns delineamentos amostrais,
emprega-se uma frao amostral planejada menor na populao branca do que
na negra, visando a que haja um equilbrio nas fraes amostrais efetivas
(aquelas obtidas aps a realizao da pesquisa, com os questionrios
respondidos).
4.10 Ps-estratificao ou Estratificao aps a Amostragem
No caso do delineamento preliminar ser amostra aleatria simples,

podemos ps-estratific-la. Assim podemos ter alguns ganhos de preciso
como se a amostra fosse amostra aleatria estratificada. A ps-estratificao
121
empregada quando no possvel estratificar a populao antes de selecionar
a amostra, devido, por exemplo, a deficincias ou inexistncia de cadastro.
Suponhamos um exemplo dado pelo Quadro 9 abaixo.
Quadro 9 Ps-estratificao da amostra

Estrato Famlias Famlias Agricultores Outros Total
Conta-prpria Conta-prpria Empregadores Sem terra
Pluriativas Monoativas
Tamanho da N1=200 N2=400 N3=50 N4=50 N=700
Populao
Tamanho n1= 40 n2 = 60 n3 = 15 n4 = 5 n = 120
efetivo da
amostra
Renda mdia Y1 =R$1000 Y2 =500 Y3 =4000 Y4 =200 Y =1091,67
amostral
Renda Total Y1 n1 =40000 Y2 n2 =30000 Y3 n3 =60000 Y4 n4 = Y n =13100
amostral 1000 0
Renda mdia 1 2 3 4
populacional
Renda Total 1 N1 2 N 2 3 N 3 4 N 4 N
populacional
Temos aqui duas alternativas para a estimativa da renda mdia das famlias:
1) Consideramos apenas a estimativa obtida pela amostra aleatria
simples Y que igual a:
n
Y Y1 n1 + Y2 n2 + Y3 n3 + Y4 n4
i
YAAS = i =1
= =
n n
1000 40 + 500 60 + 4000 15 + 200 5
= 1091, 67
120
2) Estimamos a renda mdia populacional expandindo os resultados das
rendas totais amostrais para cada estrato:
122
N1 N N N
Y1 n1 + Y2 n2 2 + Y3 n3 3 + Y4 n4 4
n1 n2 n3 n4 Y1 N1 + Y2 N 2 + Y3 N 3 + Y4 N 4
Yposest = =
N N
1000 200 + 500 400 + 4000 50 + 200 50
= = 871, 42
700
Este resultado distinto do anterior, como podemos observar ao comparar
as duas frmulas. Se os valores de Ni so conhecidos e se ni 20 para

N
cada estrato, a ps-estratificao da amostra quase to precisa quanto a
amostragem aleatria estratificada com repartio proporcional.
4.11 Amostragem com Probabilidade Desigual
Em muitas situaes, as unidades amostrais podem no ter a mesma

probabilidade de serem selecionadas na amostra. Um caso comumente
encontrado na prtica ocorre quando desejamos fazer uma amostragem de
empresas ou estabelecimentos agrcolas e queremos que os maiores
estabelecimentos entrem na amostra com maiores chances que os pequenos.
Podemos estabelecer o critrio de seleo de que as unidades amostrais
sejam selecionadas com probabilidade proporcional ao tamanho (PPS), tal
como o exemplo da Tabela 2, seo 2.2. O estimador de Hansen-Hurwitz
utilizado na amostragem com reposio. Neste caso isto significa que uma
dada unidade amostral pode aparecer na amostra mais de uma vez, apesar de
naturalmente ser necessrio medi-la (ou responder ao questionrio) apenas
uma vez. Seja pi a probabilidade de que a i-sima unidade selecionada na
amostra (esta probabilidade constante para uma dada unidade, pois a
amostragem com reposio). Um estimador no viesado para o total
populacional :
1 n yi
= (10.1)
n i =1 pi
com varincia:
123
1 N Y
Var () =
n i =1
pi ( i ) 2 (10.2)
pi
e esta varincia com um estimador no viesado igual a:
1 n
y
var() = ( i ) 2 (10.3)
n( n 1) i =1 pi
Um estimador no viesado para a mdia populacional dado por:
1 1 n yi
=
N
= (10.4)
nN i =1 pi
com varincia:
1
Var ( ) = Var () (10.5)
N2
e esta varincia com um estimador no viesado igual a:
1
Var ( ) = var() (10.6)
N2
Exemplo 1: Suponhamos que se deseja selecionar uma amostra de tamanho n

= 50 com probabilidade proporcional ao tamanho (PPS) de uma populao de
1000 empresas. Iremos considerar como indicador de tamanho das empresas
o nmero de empregados. Suponha que desejamos estimar o faturamento total
destas 1000 empresas. Como as empresas no so homogneas quanto ao
tamanho, adotar o procedimento de seleo de amostragem aleatria simples
com probabilidade igual para todas as empresas certamente produziria uma
estimativa viesada para o total populacional. Reproduzimos a seguir a Tabela 2
da seo 2.2 e vamos imaginar que so escolhidos 50 nmeros aleatrios no
intervalo 1 a 130750. Os intervalos onde caem estes nmeros aleatrios
correspondero s empresas selecionadas. Os pis das empresas selecionadas
sero iguais ao quociente entre o tamanho de cada empresa e o valor 130750.
Empresa Nmero de Nmero de empregados Intervalo

empregados acumulado
124
1 100 100 1-100
2 200 300 101-300
3 50 350 301-350
4 500 850 351-850
... ... ... ...
999 100 130680 ...
1000 70 130750 130681-130750
Exemplo 2: Uma rea de estudo de 100 km2 particionada em faixas de 1 km

de largura e de comprimento varivel. De acordo com um sistema de eixos
cartesianos so selecionados pares de nmeros aleatrios e as coordenadas
correspondentes a estes pares serviro para selecionar, com probabilidade
proporcional ao tamanho, 4 faixas. Nestas sero contados o nmero de
macacos de uma dada espcie. Suponhamos que a primeira faixa selecionada
tem 5 km de comprimento, sendo a mesma selecionada 2 vezes (amostragem
com reposio) e contados 60 macacos. Em outra faixa selecionada de 2 km
foram contados 14 macacos e em outra de 1 km contado 1 macaco. Uma
estimativa no viesada para o total de macacos para toda a rea de 100 km2
seria:
1 n yi 1 60 60 14 1
= = ( + + +
n i =1 pi 4 0,05 0,05 0,02 0,01
) = 800 macacos
com varincia:
1 n
y 1
var() = ( i ) 2 =
n(n 1) i =1 pi 4(3)
[(1200 800) 2 + ... + (100 800) 2 ] = 68333
4.12 Amostragem por conglomerados
125
Em muitos casos de pesquisas scio-econmicas domiciliares emprega-
se um desenho de amostra denominado Amostragem por Conglomerados e
particularmente a tcnica conhecida como amostragem por etapas. Neste
desenho, subdivide-se inicialmente a populao em setores, sorteia-se um
nmero mais reduzido de setores ou unidades primrias de amostragem (por
exemplo, com probabilidade proporcional ao tamanho de cada setor, sendo o
tamanho dado pelo nmero de domiclios do setor) e em uma segunda etapa,
listam-se os domiclios dos setores sorteados. Neste caso temos uma amostra
por conglomerados em dois estgios. Mas existe tambm o caso mais simples
de amostragem por conglomerados em estgio nico em que so sorteadas as
unidades primrias de amostragem e em seguida selecionam-se todos os
componentes destas unidades previamente escolhidas. Um exemplo uma
pesquisa sobre alunos do sistema educacional pblico de uma certa cidade.
Selecionam-se as escolas (que so as unidades primrias de amostragem) e
em seguida entrevistam-se todos os alunos destas escolas selecionadas.
A listagem dos setores pode ser feita na ordem dos setores de mais
elevada renda mdia para os setores de menos elevada renda mdia. A seguir
escolhe-se um nmero m de setores a serem sorteados. Se tivermos, por
exemplo, 160.000 domiclios e m = 100 (em um total M = 800 setores na
populao), sorteamos um nmero aleatrio no intervalo entre 1 e 160.000 /
100 = 16.000. A partir de uma tabela de setores com a ordenao por renda
mdia acima descrita, calculamos o nmero acumulado de domiclios em cada
setor.
Digamos que o nmero aleatrio escolhido seja 11.235. Determinamos

o setor que tenha nmero de domiclios acumulado imediatamente superior ao
valor 11.235. Este ser o primeiro setor a ser pesquisado. A seguir
acrescentamos sucessivamente ao valor 11.235 a quantidade 16.000 (que o
intervalo sistemtico de escolha dos setores de amostragem).
Neste caso descrito acima temos uma seleo de setores feita de forma
sistemtica e com estratificao implcita por renda, j que antes de fazermos a
seleo sistemtica fizemos um ordenamento dos setores por renda mdia de
cada um. Poderamos tambm selecionar os setores aleatoriamente com
126
probabilidade proporcional ao seu tamanho e este j seria um outro mtodo de
seleo.
Aps a listagem de todos os setores escolhidos para a amostragem

procede-se escolha dos domiclios a serem pesquisados em cada setor.
Nesta que a segunda etapa da amostragem utiliza-se um procedimento
semelhante ao realizado na escolha dos setores. Digamos que o nmero de
domiclios a serem pesquisados em um setor seja 20 e o tamanho deste setor
seja igual a 200. Escolhe-se um nmero aleatrio localizado no intervalo entre
1 e 200/20 = 10. Digamos que este nmero aleatrio seja 7. A seqncia (na
listagem de domiclios do setor) dos domiclios a serem pesquisados
7,17,27,37, ...
O produto das duas fraes amostrais f1 e f2 deve ser constante e igual a

frao de amostragem total f, ou seja f = f1x f2, de forma que no exemplo f1 =
m/M= 100/800 e se adotarmos f = 1/10000, f2 dever ser igual a
(1 / 100) = 0,08 , ou seja, nos setores escolhidos a frao de
(100 / 800)
amostragem dever ser de tal forma que de cada 100 domiclios na populao
escolhemos 8 na amostra. Isto significa que deveremos utilizar um intervalo
sistemtico de 100/8 que aproximadamente igual a 12.
Quando utilizamos amostragem por conglomerados (ou amostragem por

etapas), para um mesmo tamanho de amostra n (digamos, por exemplo, n =
1500), a preciso da amostra consideravelmente mais reduzida em relao
quela obtida atravs do mesmo tamanho de amostra para uma amostra
aleatria simples. Neste ltimo desenho a amostra bem mais espalhada na
populao e sua execuo implica em maiores custos apesar de sua maior
preciso (menor varincia) relativa. Portanto, a definio de qual desenho
adotar e quantos setores sortear uma questo que envolve um trade-off entre
custos e preciso da amostra. Portanto, teremos que adotar um nmero m de
setores amostrais que no implique em elevados custos de levantamento e
simultaneamente no resulte em valores muitos elevados para as varincias
dos estimadores.
127
Na Tabela 5 abaixo so apresentados os valores do tamanho de
amostra (n) para a estimativa de uma proporo de amostra (p) igual 0 0,10.
Na tabela, o valor um parmetro que indica o efeito de correlao
existente entre os domiclios. Este efeito indica a perda de preciso da amostra
quando utilizamos um desenho por etapas em relao amostragem aleatria
simples. Representa o fato de que em uma amostragem por etapas perde-se
preciso devido elevada correlao (homogeneidade) existe dentro de um
mesmo setor.
Como os domiclios localizados em um mesmo setor possuem

geralmente caractersticas socioeconmicas muito semelhantes, neste
desenho amostral perde-se preciso, devido ao desperdcio de informao,
quando comparada distribuio mais espalhada da amostragem aleatria
simples. Quanto maior o valor de da Tabela 5 maior este efeito de
homogeneidade intra-setorial. Existem regies urbanas em que a situao
socioeconmica mais discriminada espacialmente e isto indica valores de
mais elevados. Em regies urbanas onde convivem espacialmente diversos
estratos sociais podemos ter um valor de o mais reduzido.20
Em geral, o valor deste parmetro situa-se entre 0,15 e 0,20. Na Tabela

A.1, o coeficiente b indica o nmero de domiclios a serem pesquisados por
setor. A coluna b = 1 indica o desenho de amostra aleatria simples, pois este
pode ser interpretado como um caso especial de amostragem por
conglomerados quando b = 1 e n = m (ou seja, o nmero de domiclios
amostrados igual ao nmero de setores).
A coluna % (p) indica o erro amostral para cada valor de e de b. Por

exemplo, para = 0,15 e b = 8 temos um erro amostral de 0,22 % para 1484
domiclios. Isto significa que para uma amostra de tal tamanho (e com tal
20
Na amostragem por conglomerados desejvel que os conglomerados tenham o mximo de
heterogeneidade possvel (mxima varincia) ao passo que na amostragem estratificada busca-se uma
classificao de estratos com a maior homogeneidade possvel (mnima varincia). No entanto, como
muitas vezes, na prtica, os conglomerados so definidos espacialmente (e no de acordo com as
caractersticas das unidades populacionais) este critrio de mxima heterogeneidade no alcanado
e ir depender, sobretudo das caractersticas do comportamento espacial da varivel que est sendo
estimada.
128
distribuio de domiclios por setor) se estivermos estimando uma proporo
com estimativa pontual de 0,10, o valor populacional dessa taxa (parmetro)
estar situado, com probabilidade de 95 %, dentro dos seguintes limites de
intervalo de confiana:
0,10 0,022 < p < 0,10 + 0,022
ou
0,078 < p < 0,122
ou seja, estaramos cometendo um erro mximo relativo (para mais ou para

menos) de 22 % sobre a proporo estimada de 10 %.
Tabela 5 - Tamanho da Amostra para Variveis Qualitativas onde p = 0,10
= 0,10 = 0,15
%(p)
b=1 b=5 b=8 b=10 b=15 b=1 b=5 b=8 b=10 b=15
0,01 345.74 484.04 587.76 866.91 829.78 345.74 563.19 708.77 812.49 1.071.80
4 2 5 4 0 4 0 5 8 8
0,02 86.436 121.01 146.94 164.22 207.44 80.438 138.29 177.19 203.12 287.952
0 1 8 8 8 4 5
0,03 38.416 53.782 65.307 72.290 92.198 38.418 61.488 78.753 90.278 119.090
0,04 21.809 30.253 36.735 41.057 51.862 21.609 34.574 44.298 50.781 80.988
0,05 13.830 10.382 23.511 26.277 33.191 13.830 22.128 28.351 32500 42.872
0,06 9.004 13.446 18.327 18.248 23.050 9.004 15.386 19.688 22.569 29.772
0,07 7.068 9.878 11.995 13.400 10.934 7.050 11.290 14.465 16.582 21.874
0,08 5.402 7.503 9.194 10.264 12.905 5.402 8.644 11.075 12.095 10.747
0,09 4.268 5.976 7.256 8.110 10.244 4.268 8.830 8.750 10.031 13.232
129
0,10 3.457 4.840 5.878 6.589 8.298 3.457 5.532 7.088 6.125 10718
0,11 2.857 4.000 4.868 5.429 0.858 2.657 4.572 5.858 8.715 8.858
0,12 2.401 3.381 4.082 4.582 5.702 2.401 3.842 4.922 5.842 7.443
0,13 2.046 2.864 3.478 3.887 4.910 2.040 3.273 4.194 4.808 6.342
0,14 1.784 2.470 2.990 3.352 4.234 1.784 2.822 3.018 4.145 5.408
0,15 1.537 2.151 2.012 2.920 3.688 1.537 2.459 3.150 3.011 4.764
0,16 1.351 1.891 2.298 2.568 3.241 1.351 2.101 2.769 3.174 4.187
0,17 1.196 1.875 2.034 2.273 2.871 1.196 1.914 2.453 2.811 3.709
0,18 1.057 1.494 1.814 2.028 2.501 1.067 1.707 2.188 2.508 3.308
0,19 958 1.341 1.828 1.820 2.299 958 1.532 1.963 2.251 2.909
0,20 864 1.210 1.489 1.642 2.074 884 1.383 1.772 2.031 2.680
0,21 784 1.098 1333 1.400 1.882 784 1.254 1.007 1.842 2.430
0,22 714 1.000 1.214 1.357 1.714 714 1.143 1.404 1.679 2.214
0,23 854 915 1.111 1.242 1.569 654 1.048 1.340 1.536 2.026
0,24 600 840 1.020 1.140 1.441 600 900 1.231 1.411 1.801
0,25 553 774 640 1.051 1.328 553 885 1.134 1.300 1.715
= 0,20 = 0,30
%(p) b=1 b=5 b=8 b=10 b=15 b=1 b=5 b=8 b=10 b=15
0,01 345.744 622.33 829.78 968.08 1.313.8 345.74 780.03 1.071.8 1.279.2 1.797.8
9 6 3 27 4 7 06 53 89
0,02 86.436 155.58 207.44 242.02 328.45 88.436 190.15 267.95 319.81 440.48
130
5 8 1 7 9 2 3 7
0,03 38.416 89.149 92.198 107.56 145.98 38.418 84.515 110.09 142.13 199.78
5 1 0 9 3
0,04 21.609 38.396 51182 80.505 82.114 21.609 47.540 66.988 79.953 112.38
7
0,05 13.830 24.894 33.191 38.723 52.553 13.830 30.425 42.872 51.170 71.915
0,06 9.804 17.287 23.050 28.891 38.495 9.604 21.129 29.772 35.535 49.941
0,07 7.058 12.701 10.934 19.757 26.813 7.058 15.523 21.874 20.107 36.091
0,08 5.402 9.724 12.985 15.128 20.529 5.402 11.885 16.747 19.988 28.092
0,09 4.288 7.083 10.244 11.952 16.220 4.288 9.391 13.232 15.793 22.196
0,10 3.457 6.223 8.298 9.681 13.138 3.457 7.608 10.718 12.793 17.979
0,11 2.657 6.143 8.858 8.001 10.858 2.857 6.280 8.858 10.572 14.858
0,12 2.401 4.322 5.762 8.723 9.124 2.401 5.282 7.443 8.884 12.485
0,13 2.046 3.082 4.910 5.728 7.774 2.046 4.501 6.342 7.570 10.638
0,14 1.784 3.175 4.234 4.939 0.703 1.784 3.881 6.488 0.527 9.173
0,15 1.537 2.766 3.688 4.303 5.839 1.537 3.381 4.764 5.686 7.991
0,16 1.351 2.431 3.241 3782 5.132 1.351 2.971 4.187 4.997 7.023
0,17 1.196 2 153 2.871 3.350 4.546 1.198 2.632 3.709 4.426 6.221
0,18 1.087 1.921 2.581 2.988 4.055 1.067 2.348 3.308 3.948 5.549
0,19 958 1.124 2.299 2.882 3.839 958 2.107 2.989 3.544 4.980
0,20 884 1.558 2.074 2.420 3.285 864 1.902 2.680 3.198 4.495
0,21 784 1.411 1.882 2.195 2.979 784 1.725 2.430 2.901 4.077
0,22 714 1.286 1.714 2.000 2.715 714 1.572 2.214 2.843 3.715
0,23 854 1.176 1.569 1.830 2.484 854 1.438 2.020 2.418 3.399
131
0,24 800 1.080 1.441 1.681 2.281 600 1.321 1.801 2.221 3.121
0,25 553 996 1.328 1.549 2.102 553 1.217 1.715 2.047 2.877
4.13 Procedimentos de Campo para Seleo de Amostras

Domiciliares
De uma forma ideal as unidades amostrais so selecionadas a partir de

listas cadastrais de todos os domiclios que fazem parte da populao. No
mtodo de seleo amostral em dois estgios pode-se, por exemplo, selecionar
as unidades amostrais primrias (UPAs) e submeter estas unidades a uma
operao de cadastramento, para depois selecionar as unidades amostrais
secundrias. Mas nem sempre este o delineamento amostral seguido e
mesmo assim este procedimento pode implicar em elevados custos de
levantamento de informaes. Neste tpico, apresentamos duas alternativas
simplificadas que podem ser adotadas em levantamentos domiciliares, quando
no se dispe de recursos para a construo prvia de um cadastro referente
populao a ser pesquisada.
Todas as indicaes feitas a seguir supem que a regio estudada est
dividida em setores de amostragem e que est se adotando um desenho de
amostragem em duas etapas. Desta forma, dentro da regio foram escolhidos
aleatoriamente alguns setores amostrais.
Mtodo da Segmentao
Este mtodo consiste em subdividir o mapa do setor em um determinado

nmero de segmentos com igual quantidade de domiclios, escolher
aleatoriamente um destes segmentos e levantar todos os domiclios contidos
nos segmentos escolhidos.
Este mtodo muito apropriado porque evita qualquer deciso por parte
da equipe de campo em termos de convenincia e que incorpore vis. No
132
entanto exige um mapa detalhado do setor, o que exigiria um levantamento
prvio. Se for possvel executar este levantamento prvio do setor por uma
equipe de coordenao, deveria ser feita uma listagem de todos os domiclios,
com respectivos endereos, para posterior amostragem sistemtica.
Uma seqncia de etapas para a realizao deste mtodo :
1) Calcule o nmero de segmentos a ser criado. Pode ser adotado um nmero

mdio de domiclios por segmento.
2) Com base em um mapa atualizado do setor conte o nmero de domiclios e

indique a localizao de cada um (talvez, a realizao desta etapa somente
seja possvel se estiver disponvel um levantamento aerofotogramtrico do
setor).
3) Baseado no mapa do setor divida-o em segmentos de acordo com o nmero
obtido na etapa 1 e sendo que cada segmento deve conter igual nmero de
domiclios aproximadamente.
4) Escolha aleatoriamente um nmero entre 1 e o nmero de segmentos no

setor (sugere-se utilizar a funo randmica do Excel Aleatrioentre no menu
de funes matemticas).
5) Entreviste todos os domiclios localizados nos limites deste segmento

escolhido.
133
1
3
5
Figura 11 Ilustrao do Mtodo da Segmentao
Mtodo do Passeio Aleatrio Verso 1

Este mtodo consiste em (1) escolher aleatoriamente um ponto de
partida e uma direo de trajeto dentro do setor, (2) entrevistar o domiclio mais
prximo deste ponto de partida e (3) escolher os seguintes mais prximos
domiclios na direo adotada at completar a quota de domiclios no setor. A
seleo do ponto de partida e da direo aleatria neste caso pode ser feita
atravs do mapa do setor. A equipe de superviso e coordenao da pesquisa
enumera diversos pontos de referncia nos limites do mapa e sorteia um deles
juntamente com uma direo de percurso. A vantagem desta verso que os
supervisores podem escolher estas referncias antes que a equipe saia para
campo, diminuindo o risco de vis.
134
5
3
7
Figura 12 Mapa de um Hipottico Setor Amostral mostrando

Possveis Pontos de Partida Mtodo do passeio aleatrio
Mtodo do Passeio Aleatrio Verso 2
Para este mtodo supe-se que no se dispe de um mapa detalhado

do setor. A equipe de campo desloca-se para o centro do setor. Escolhe
aleatoriamente uma direo (pode, por exemplo, girar uma garrafa). Segue
nesta direo contando todos os domiclios at alcanar o limite (fronteira) do
setor. Escolhe um nmero aleatrio entre 1 e o nmero de domiclios
encontrados. Inicia a partir do domiclio correspondente na seqncia ao
nmero aleatrio escolhido e entrevista continuamente todos os seguintes
domiclios na seqncia.
135
Amostragem por rea
Podemos considerar um mtodo de amostragem em que se respeita um

processo aleatrio em relao a pontos predefinidos no espao (ver Grfico 1).
Escolhemos aleatoriamente alguns desses pontos e, aps a localizao do
entrevistador neste ponto escolhido, entrevista-se a unidade mais prxima.
Uma variante dividir a rea em parcelas de terra, considerando limites
naturais para estas parcelas.
Figura 13 Amostragem por rea
136
4.14 Amostragem utilizando recursos de informtica
Diversos softwares de estatstica podem ser utilizados em amostragem. Entre

eles, os principais so o Excel, o SPSS, o STATA e o SAS. Comentaremos
nesta seo algumas aplicaes de amostragem utilizando estes softwares. No
Apndice tambm so relatadas outras aplicaes.
Utilizao do Excel
O Excel um software que possui alguns recursos de estatstica, permitindo

especificamente o trabalho com amostragem, mas apenas com as operaes
mais simples. No entanto, para clculos de dimensionamento e mesmo no
desenho amostral ele pode ser um instrumento muito til, utilizando os seus
recursos de frmula. O dimensionamento de uma amostra utilizando diversas
opes de erro e nveis de confiana pode ser feito no Excel utilizando as
funes estatsticas tal como a INVNORMP que permite o clculo do valor de z
para um dado nvel de confiana da amostra. Os resultados da Tabela 6
abaixo, que uma reproduo da Erro! Fonte de referncia no encontrada.
do Anexo, foram gerados a partir das frmulas apresentadas na Seao 6,
particularmente a expressao (6.5). A Tabela 7 mostra as formulas Excel
utilizadas para construir a Tabela 6.
Tabela 6 - Dimensionamento de uma

amostra aleatria simples pelas propores
sem reposio e admitindo-se populao
finita
N E 1- z p n
160473 0.05 0.95 1.9599 0.5 383
160473 0.04 0.95 1.9599 0.5 597
137
160473 0.03 0.95 1.9599 0.5 1060
160473 0.1 0.95 1.9599 0.5 95
Tabela 7 Frmulas do Excel utilizadas para gerar diversas

alternativas de dimensionamento de uma amostra aleatria
simples pelas propores sem reposio e admitindo-se
populao finita
A B C D E F
1 160473 0,05 0,95 =INV.NORMP(C1+(1- 0,5 =+A1*E1*(1-E1)/((A1-

C1)/2) 1)*(B1/D1)^2+E1*(1-E1))
2 160473 0,04 0,95 =INV.NORMP(C2+(1- 0,5 =+A2*E2*(1-E2)/((A2-

C2)/2) 1)*(B2/D2)^2+E2*(1-E2))
3 160473 0,03 0,95 =INV.NORMP(C3+(1- 0,5 =+A3*E3*(1-E3)/((A3-

C3)/2) 1)*(B3/D3)^2+E3*(1-E3))
4 160473 0,10 0,95 =INV.NORMP(C4+(1- 0,5 =+A4*E4*(1-E4)/((A4-

C4)/2) 1)*(B4/D4)^2+E4*(1-E4))
Utilizao do SPSS
O SPSS possui no seu menu Data Select Cases ativando a opo Rando
Sample of Cases uma possibilidade para selecionar uma amostra aleatria
simples sem reposio com um percentual de casos ou alternativamente com
um tamanho amostral definido. No entanto, este software limita-se (pelo
menos no uso de seus recursos de menu) a amostra aleatria simples no
permitindo outros procedimentos de seleo
138
Utilizao do STATA
O STATA apresenta os mesmos recursos de seleo do SPSS mas com a

vantagem de outros recursos para a anlise de dados amostrais. Ele tem os
seguintes comandos relacionados com amostragem:
1) O comando sample permite selecionar uma amostra aleatria simples sem

reposio de um arquivo na memria (o comando bsample permite
amostragem com reposio). Utilizando os sub-comandos by ou if possvel a
seleo de uma amostra aleatria estratificada.
2) O comando ci permite o clculo de intervalos de confiana para mdias,

propores e totais, considerando amostra aleatria simples.
3) O STATA possui um conjunto de comandos denominado comandos svy

para anlise de dados de amostras complexas (amostras por conglomerados
em mltiplos estgios). Para a execuo destes comandos necessria a
especificao das variveis definidoras do desenho da amostra que so as
variveis que definem o estrato e a unidade primria amostral.
No caso da Pesquisa Nacional de Amostra Domiciliar, o IBGE j fornece estas

variveis no arquivo de micro-dados, permitindo a utilizao destes comandos
no STATA. A seqncia de comandos abaixo permite estimar intervalos de
confiana para uma varivel denominada pob que uma varivel binria para
um arquivo de pessoas que tem valor 1 quando a renda per capita familiar da
pessoa menor do que a linha de pobreza e igual a 0 em caso contrrio. A
mdia desta varivel binria a proporo de pobres. O comando svyset
define as variveis que designaro o estrato (strata), a unidade primria
amostral (psu) e o peso da pessoa na amostra (pweight). O comando svymean
estima intervalo de confiana para a mdia populacional e o comando svytotal
estima intervalo de confiana para o total populacional. A seguir
apresentado um exemplo de listagem de comandos visando realizar
estimativas de pobreza para uma amostra em mltiplos estgios (no caso, a
amostra da PNAD).
139
svyset strata strat
svyset psu psu
svyset pweight v4729
svymean pob
svytotal pob
A sada de execuo destes comandos para os dados da PNAD para o ano de

1999 :
Tabela 8 Listagem para comandos svymean e svytotal (Stata) para

estimativa de intervalos de confiana para uma amostra em trs estgios
(PNAD)
Survey mean estimation
pweight: v4729Number of obs = 343582
Strata: stratNumber of strata = 519
PSU: psuNumber of PSUs = 4509
Population size = 1.569e+08
Mean EstimateStd. Err.[95% Conf.Interval] Deff
pob .3637505.0032347.3574087.3700924 15.5336
140
Survey total estimation
pweight: v4729Number of obs = 343582
Strata: stratNumber of strata = 519
PSU: psuNumber of PSUs = 4509
Population size = 1.569e+08
Total EstimateStd. Err.[95% Conf.Interval] Deff
pob 57065657663269.35.58e+075.84e+07 26.536
Na primeira sada verificamos que a estimativa ponderada para a proporo de

pobres no Brasil em 1999 0,3637 com erro padro 0,003234 e limites de
intervalo de confiana de 95 % de probabilidade [0,3574; 0,3701], com fator de
desenho de amostragem (deff) igual a 15,53. Isto significa que a varincia da
amostra por conglomerado em estgio mltiplo mais de 15 vezes maior do
que a varincia da amostra aleatria simples (AAS) de mesmo tamanho
(343582 observaes). Na segunda sada observamos os intervalos de
confiana para a estimativa do total de pessoas pobres no Brasil em 1999.
Utilizao do SAS
O SAS um programa bem mais verstil e poderoso para a seleo e anlise

de dados de amostras. Alm de permitir, como o STATA, a anlise de dados de
amostras complexas, ele possibilita seleo e anlise referente a outros
procedimentos de seleo e desenho tais como amostra estratificada, amostra
sistemtica, amostra com probabilidade desigual, etc. O comando para a
141
seleo de amostras o SURVEYSELECT e o comando para a anlise de
dados das amostras o SURVEYMEANS. Um exemplo de utilizao deste
ltimo comando do feito no Estudo de Caso 3 do Apndice (seo A.4) onde
so estimados os erros de amostragem para uma amostra no auto-
ponderada.
4.15 Bootstrapping
Em muitas situaes de anlise de dados de amostras, no possvel fazer

estimativas porque as frmulas das varincias dos estimadores simplesmente
no existem ou porque analiticamente podem ser obtidas atravs de mtodos
muito exaustivos. Nestes casos uma soluo prtica para obtermos intervalos
de confiana o uso da tcnica estatstica conhecida na literatura como
bootstrapping. Nesta tcnica obtem-se a partir de uma nica amostra um
nmero grande de replicaes que so amostras de mesmo tamanho com
reposio selecionadas da amostra original. A lgica por trs do bootstrapping
a seguinte: em alguns casos a distribuio amostral pode ser derivada
analiticamente. Por exemplo, se a populao distribuda normalmente e
desejamos estimar mdias, a distribuio amostral para a mdia uma t de
Student com n-1 graus de liberdade. Em outros casos, derivar a distribuio
amostral muito difcil, como no caso de mdias estimadas de populaes no
normais (e com tamanhos de amostras pequenos, sem possibilidade de
aplicao do Teorema do Limite Central) (Stata Reference Manual, 2001). Se
conhecermos a distribuio da populao, podemos obter a distribuio
amostral por simulao: podemos selecionar aleatoriamente amostras de
tamanho n, de cada uma calcular o valor da estatstica e desta forma construir
uma distribuio para esta estatstica. A tcnica do bootstrapping faz
precisamente isto, mas ela usa a distribuio observada na amostra no lugar
da distribuio verdadeira da populao. Portanto, esta tcnica se baseia na
hiptese de que a distribuio observada uma boa estimativa da distribuio
da populao subjacente.
142
Para exemplificar suponhamos que desejamos estimar um intervalo de
confiana para a mediana da varivel mpg atravs de uma amostra de 74
observaes. No Stata podemos utilizar o seguinte comando:
bs "summarize mpg,detail" "r(p50)", reps(100)
O primeiro termo entre aspas do comando representa a operao de obter

estatsticas sumrias de cada replicao e armazena o valor da mediana na
varivel r(p50). Depois de realizadas 100 replicaes amostrais (com reposio
e de tamanho n = 74), o comando bs calcula o desvio-padro e o intervalo de
confiana para a mediana. A sada do comando :
(obs=74)
Bootstrap statistics
Variable | Reps Observed Bias Std. Err. [95% Conf. Interval]

---------+---------------------------------------------------------
bs1 | 100 20 -.05 .8947095 18.2247 21.7753 (N)
| 19 21.5 (P)
| 19 22 (BC)
-------------------------------------------------------------------
N = normal, P = percentile, BC = bias-corrected
Nesta tabela so apresentados na seqncia o nmero de replicaes, o valor

observado da estatstica, o valor do vis da estatstica (a ser explicado a
seguir), o desvio-padro estimado e trs intervalos de confiana.
O desvio-padro estimado como:
1/ 2
1 k *
s =
k 1 i =1
( i * ) 2

sendo:
143
1 k *
*= i
k i =1
O vis estimado como:
vies = * obs
s o desvio-padro estimado da estatstica (por bootstrapping)

k o nmero de replicaes
i* o valor da estatstica para a i-sima replicao
* a mdia da estatstica calculada nas k replicaes
obs o valor da estatstica na amostra original
O primeiro intervalo de confiana (designado por (N)) o obtido pela

aproximao pela normal:
[ obs t1 / 2, k 1s, obs + t1 / 2,k 1s]
O segundo intervalo de confiana, denominado mtodo do percentil (e

designado por (P) obtido como:
* / 2 ,1* / 2
onde *p o p-simo percentil da distribuio bootstrapp ( 1* , 2* ,..., k* )
4.16 Exerccios
1) No arquivo denominado amostragem1.xls( Excel) fornecido uma relao

de 5000 empresas identificadas pelo seu nmero de seqncia com o
respectivo nmero de empregados. A primeira coluna de nmero de
empregados foi gerada (simulada) atravs de um gerador de distribuio
normal com mdia = 200 e desvio-padro = 50 (utilizando o programa
Statdisk) e a segunda coluna de nmero de empregados foi gerada (simulada)
144
utilizando a funo aleatrio entre do Excel no intervalo 1-500 (simulando
portanto uma distribuio uniforme de parmetros a = 1 e b = 500). O mais
prximo do ideal seria talvez simular uma distribuio 2 (qui quadrado) j
que esta, dada sua assimetria positiva, aproxima-se de forma mais realista de
uma distribuio de nmero de empregados de firmas.
a) Selecionar uma amostra aleatria simples (AAS) de tamanho n = 100 desta

populao e estimar um intervalo de confiana para a mdia da varivel X e
com nvel de confiana de 90%. Obs. Para a seleo aleatria utilize sempre
que possvel a funo aleatrio do Excel. Para selecionar um nmero aleatrio
dentro de m intervalo (a,b) utilize a funo +inteiro(aleatorio()*(b-a)+a)
b) Selecionar aleatoriamente uma amostra de tamanho n = 100 com

probabilidade proporcional ao tamanho das empresas, considerando como
proxy de tamanho, a varivel nmero de empregados (considerar as duas
colunas de nmero de empregos). Estimar um intervalo de confiana para a
mdia da varivel X e com nvel de confiana de 90%. Comparar os resultados
de a e b em termos de erros de amostragem.
c) Se fosse feita uma amostragem aleatria estratificada com repartio

proporcional ao tamanho os resultados em termos de preciso seriam prximos
aos obtidos em b. Faa se possvel uma simulao subdividindo a populao
em estratos de acordo cm faixas de tamanho (nmero de empregados)
2) Suponhamos que atravs de uma determinada amostra aleatria simples

constatou-se que a mdia amostral X = 100 (renda mdia de n = 50 pessoas).
A partir da mesma amostra foi possvel calcular o desvio padro amostral s X =
20. a) Estime um intervalo de confiana de 90 % de probabilidade para a mdia
populao b) Estime um intervalo de confiana para o total populacional T.
3) Suponhamos que uma amostra aleatria simples de pessoas extrada de

uma populao (considerada infinita) e de tamanho n = 800 apresente uma
estimativa de proporo amostral p = 0,30. a) Estime um intervalo de confiana
145
de 90 % de probabilidade para o verdadeiro valor do parmetro p (proporo
populacional). b) Estime um intervalo de confiana para o total de pessoas que
apresentam a caracterstica investigada (simbolizado pelo termo )
4) Os dados do arquivo arquivo2.xls (Excel) mostram os valores referentes a

uma populao para a qual ser selecionada uma amostra aleatria
estratificada com 6 estratos. a) selecione da populao uma amostra aleatria
estratificada de acordo com o esquema de repartio dado pela tabela
seguinte.
Estrato Nh nh Estrato Nh nh
1 200 8 4 500 10
2 200 7 5 300 12
3 400 15 6 200 8
b) Estime a mdia populacional construindo um intervalo de confiana de 95 %

de probabilidade. Faa o mesmo (com o mesmo nvel de confiana) para o total
populacional.
c) Selecione uma amostra aleatria estratificada de mesmo tamanho com

repartio proporcional e construa os mesmos intervalos do item b
d) Selecione uma amostra aleatria estratificada de mesmo tamanho com

repartio de Neyman e construa os mesmos intervalos do item b
e) Compare e comente os respectivos erros de amostragem nos trs esquemas

de repartio.
5) Utilizando os mesmos dados do exerccio anterior selecione uma amostra

aleatria simples de mesmo tamanho e faa uma estimativa de um intervalo de
146
confiana para a mdia e para o total populacional com 95 % de probabilidade.
De acordo com a subdiviso dos estratos dada em arquivo2.xls, faa uma ps-
estratificao da amostra e compare os resultados das estimativas fazendo
consideraes sobre os erros de amostragem.
6) Um plano de amostragem aleatria simples sem reposio foi realizado com

tamanho n = 50 em uma rea urbana de 37488 domiclios. O nmero de
pessoas obtido em cada domiclio da amostra dado na tabela abaixo:
2 2 4 2 3 4 3 4 6 4
5 3 4 4 3 2 2 4 6 4
3 4 4 5 3 2 2 4 4 5
4 4 3 6 2 4 5 7 3 5
2 6 3 5 2 2 7 4 3 3
4 3 1 3 2 1 5 2 3 2
a) Obtenha uma estimativa do nmero mdio de pessoas por domiclio

nesta rea urbana assim como uma estimativa para o total de pessoas.
b) Construa intervalos de confiana de 95 % de probabilidade para estas
estimativas
c) Qual dever ser o tamanho da amostra se quisermos aumentar 50 % a
preciso da mesma com relao estimativa do nmero mdio de
pessoas por domiclio? Este ser tambm o tamanho necessrio para
aumentar 50 % a preciso da estimativa do nmero total de pessoas?
147
7) Suponha que os dividendos anuais de quatro aes sejam respectivamente
$ 2.00, $ 4.00, $ 6.00 e $ 8.00. Deduza a distribuio amostral de X
considerando as seguintes hipteses :
1. tamanho amostral n = 2.
2. mtodo de amostragem: amostragem aleatria simples com reposio
Para a distribuio amostral deduzida de X , verifique por demonstrao que
a. E( X ) =
b. V( X ) = 2 /n
c. Se a amostragem for sem reposio deduza a distribuio de X e
demonstre que E( X ) = e V( X ) =

[
( N n) /( N 1)

n
]
d. Se a amostragem fosse realizada sem reposio, qual o valor de V( X )?
Qual a relao
8) Uma amostra aleatria simples de 40 domiclios foi selecionada em uma

rea residencial que contm 17745 domiclios. O nmero de pessoas que
vivem em cada um dos domiclios da amostra o seguinte:
4,2,4,3,4,2,1,4,3,2,7,4,3,5,6,3,3,2,3,3,3,4,4,3,3,4,3,2,3,4,2,5,5,4,3,5,3,4,3,2
Estime o nmero total de pessoas e o nmero mdio de pessoas por domiclio

que vivem na rea e calcule a probabilidade de que estas estimativas estejam
dentro de um limite de 5 % dos valores dos parmetros a serem estimados.
148
9) Um dentista fez um levantamento da situao dos dentes de 300 crianas de
uma vila. Para isto selecionou uma amostra aleatria simples de 40 crianas e
contou o nmero de dentes cariados de cada criana, com o seguinte
resultado:
No. de dentes No. de crianas

cariados de cada
criana
0 16
1 8
2 4
3 4
4 2
5 2
6 0
7 0
8 0
9 2
10 2
Estime o nmero total de dentes cariados de toda a populao de crianas da

vila e o nmero mdio de dentes cariados por criana. Obtenha dois intervalos
de confiana de 95 % de probabilidade para as duas estimativas.
149
10) Escolheu-se uma amostra aleatria simples de 300 domiclios, de uma rea
urbana que contm 17835 domiclios. A cada famlia perguntou-se se era
proprietria do domiclio ou se o alugava, respondendo 189 que residiam em
casas prprias e os restantes 111 que as alugavam. Estime a porcentagem em
toda a rea das famlias que alugam seus domiclios e determine o desvio-
padro (erro-padro) da estimativa. Com base neste erro-padro determine um
intervalo de confiana com erro de amostragem de 5 % e calcule a
probabilidade de que verdadeiro valor do parmetro (proporo de domiclios
alugados na populao de 17835 domiclios) esteja contido dentro dos limites
deste intervalo.
Referencias Bibliogrficas
Briggs, D.C. (2004). Causal Inference and the Heckman Model. Journal of
Educational and Behavorial Statistics. Winter 2004, Vol. 29, No. 4, pp. 397-420.
Resende, A.C.R. (2006). Avaliando Resultados de um Programa de

Transferncia de Renda: o Impacto do Bolsa-Escola sobre os Gastos das
Famlias Brasileiras. Dissertao de Mestrado. UFMG, CEDEPLAR.
Baum, C. F. (2006). An Introduction to Modern Econometrics Using Stata. Stata

Press. College Station, TX: StataCorp LP.
Becker, S.O. e Ichino, A. (2002) Estimation of Average Treatment Effects

based on Propensity Scores. The Stata Journal 2, Number 4, pp. 358377.
Becker, S.O. e Caliendo, M. (2007) Sensitivity Analysis for Average Treatment

Effects. The Stata Journal 7, Number 1, pp. 7183.
Ichino, A. Methods for the evaluation of labor market policies. University of

Bologna and Cepr.
Mohr, L.B. (1995) Impact Analysis for Program Evaluation. Sage Publications,
London.
Mooney, C.Z. e Duval, R.D. (1993) Bootstrapping: a nonparametric Approach
150
to Statistical Inference. Sage Publications, London.
Rosenbaum, P. R. and D. B. Rubin. (1983) The central role of the propensity

score in observational studies for causal effects. Biometrika 70(1): 4155.
StataCorp. (2005). Stata Statistical Software: Release 9. College Station, TX:

StataCorp LP.
Resende, A.C.C. e Oliveira, A.M.H.C. (2006). Avaliando Resultados de um

Programa de Transferncias de Renda: o Impacto do Bolsa-Familia sobre os
Gastos das Famlias Brasileiras. Anais do XXXIV Encontro Nacional de
Economia. Salvador.
Sianesi, B. (2001) Implementing Propensity Score Matching Estimators with

STATA. UK Stata Users Group, VII Meeting London.
Vanetoklis, T. (2002). Public Policy Evaluation: Introduction to Quantitative

Methodologies. VATT-Research Reports. Government Institute for Economic
Research. Helsinki.
151
ANEXOS
Regies e set. / 1985 out. / set. / ago. / set. / 1992 set. / set. / set. / set. / set. / set. / jul./0
Estratos 1987 1990 1991 1993 1995 1996 1997 1998 1999
(base)
em Cr$ em Cz$ em Cr$ em Cr$ em Cr$ em CR$ em R$ em R$ em R$ em R$ em R$ e
Norte
Belm 137,979.32 1915.85 5,400.05 21,848.14 311,019.22 6,186.68 72.24 80.54 81.04 83.14 87.73 9
Urbano 120,276.57 1705.11 4,707.22 19,483.03 271,115.45 5,392.93 62.97 70.21 70.64 72.47 76.48 8
Rural
Nordeste
Fortaleza 149,883.53 1983.54 5,457.84 23,078.95 330,337.47 6,507.79 72.14 79.78 81.70 84.69 88.58 9
Recife 183,081.61 2463.55 7,679.54 34,530.36 461,350.31 8,967.79 98.72 111.97 114.46 121.15 128.78 1
Salvador 186,976.49 2529.12 7,200.02 28,690.26 408,973.02 8,400.93 92.37 102.94 106.07 109.32 114.93 1
Urbano 122,290.27 1627.78 4,783.36 20,297.85 282,395.42 5,615.76 61.91 69.31 71.08 74.13 78.15 8
Rural 73,762.39 976.67 2,885.20 12,253.07 170,333.75 3,387.28 37.34 41.81 42.88 44.71 47.14 4
152
Minas G./Esp.S.
Belo Horizonte 169,480.89 2241.32 6,493.80 25,440.75 373,016.86 7,394.21 82.11 95.16 99.82 103.37 109.78 1
Urbano 113,942.00 1501.68 4,365.78 17,104.38 250,779.23 4,971.13 55.20 63.98 67.11 69.50 73.81 7
Rural 67,453.40 874.11 2,584.53 10,125.89 148,460.71 2,942.89 32.68 37.87 39.73 41.14 43.69 4
Rio de Janeiro
Metrpole 187,367.85 2530.89 7,466.55 30,487.01 449,740.34 9,134.81 99.21 113.34 119.78 125.85 130.74 1
Urbano 116,580.28 1569.15 4,645.69 18,969.62 279,828.44 5,683.68 61.73 70.52 74.53 78.31 81.35 8
Rural 85,102.48 1138.90 3,391.31 13,847.80 204,272.06 4,149.03 45.06 51.48 54.40 57.16 59.38 6
So Paulo
Metrpole 200,952.71 2856.15 8,368.78 36,531.08 519,964.61 10,369.32 119.55 141.95 152.51 156.02 167.97 1
Urbano 128,408.78 1799.37 5,347.65 23,343.12 332,257.39 6,626.00 76.39 90.71 97.46 99.70 107.33 1
Rural 80,782.99 1142.46 3,364.25 14,684.69 209,025.77 4,168.47 48.06 57.06 61.31 62.72 67.52 7
Sul
Curitiba 165,639.41 2201.92 6,538.40 25,449.52 364,165.55 7,437.07 80.69 90.85 95.04 98.81 106.55 1
P.Alegre 126,046.20 1689.78 5,005.30 19,890.63 294,534.41 5,966.84 62.28 69.60 73.02 76.75 83.51 8
Urbano 109,527.94 1459.39 4,334.66 17,024.86 247,341.84 5,033.17 53.68 60.25 63.11 65.92 71.37 7
Rural 73,840.21 972.93 2,922.29 11,478.88 166,749.90 3,393.20 36.19 40.62 42.55 44.44 48.11 5
153
Centro-Oeste
Braslia 210,744.95 2876.10 9,194.94 38,592.68 514,524.21 10,356.13 113.82 129.98 135.14 139.05 148.81 1
Goinia 204,735.01 2751.56 9,467.42 36,012.98 484,635.37 9,854.47 106.88 120.34 124.93 129.85 138.25 1
Urbano 155,885.23 2091.19 7,208.50 27,421.40 369,001.37 7,503.19 81.38 91.63 95.12 98.87 105.26 1
Rural 89,530.62 1183.17 4,140.10 15,748.55 211,931.05 4,309.36 46.74 52.62 54.63 56.78 60.46 6
Fonte: Elaborao de Sonia Rocha com base na POF ("Do Consumop Observado Linha de Pobreza", in Pesquisa e Planejamento Econmico,
(2), agosto de 1997.
154

Analise Politicas Sociais PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analise Politicas Sociais PDF

Uploaded by

Copyright:

Available Formats

ANALISE DE INDICADORES

SOCIAIS UTILIZANDO O STATA

Henrique Dantas Neder

Professor Associado Instituto de Economia Universidade Federal de

Quadro 1 Sistema de ponderao do IDH e do ICV municipal ........................... 6

Figura 1- Clculo do IDH municipal de acordo com um exemplo .......................... 8

Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e

2. Construo e Interpretao de Indicadores Sociais

2.1 O ndice de Desenvolvimento Humano (IDH)

Para o Brasil, a Fundao Joo Pinheiro em conjunto com o IPEA

O mesmo se d para a dimenso de Longevidade que representada

Por exemplo, suponhamos que um determinado municpio tenha uma

O valor de seu IDH ser dado pela expresso:

IDH = 1/3 x ndice de Renda + 1/3 x ndice de Habitao + 1/3 x ndice de

Figura 1- Clculo do IDH municipal de acordo com um exemplo

A Fundao Joo Pinheiro e o IPEA na divulgao da metodologia de

ndice padronizado = (valor observado para o indicador - pior valor) / (melhor

Esta expresso foi empregada no calculo anterior para a padronizao da

Suponhamos outro exemplo em que se deseja calcular o ICV para um

A renda familiar per capita definida a soma da renda pessoal de todas

Para obter os indicadores utilizados no calculo do ndice de

Vamos fazer um pequeno exerccio analtico utilizando os valores do IDH

Isto necessrio porque o STATA reconhece o separador de decimal

Podemos iniciar a nossa analise calculando a matriz de correlao entre

Observe que o IDH1991 e o IDH2000 tem uma elevada correlao

spearman idhedu1991 idhedu2000 <enter>

Figura 4 Coeficientes de correlao de Spearman entre os diversos

Um grfico muito interessante para a anlise comparativa das

graph box idh1991 idh2000, marker(1,mlabel(municipio))

Para a comparao entre os dois ndices correspondentes a longevidade

Este ltimo comando especifica nas opes msize e mlabsize os

A ltima observao encontrada acima (abaixo) deste limite

summa idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991 idhlong2000

tabstat idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991 idhlong2000

Pela Figura 5 interessante observar duas caractersticas importantes

As distribuies tornam-se menos dispersas em relao as suas

Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais

Outro ndice que foi desenvolvido recentemente em trabalhos de pesquisa

yi a renda per capita domiciliar da i-sima pessoa

O primeiro ndice (Poverty Headcount) mede a proporo de pessoas

Em segundo lugar, a proporo tambm insensvel distribuio de

O segundo ndice (poverty gap) mede a intensidade de pobreza para o

Na construo deste ndice utiliza-se um peso maior para as pessoas

2.3 Linhas de Pobreza

A linha de indigncia normalmente baseada em termos normativos, ou

Como exemplo apresenta-se na

Este arquivo que fornecido dentro do CD de micro-dados pelo IBGE

Este comando le para o STATA um arquivo txt contendo os microdados

replace lp = 140.35 if uf == 23 & areacen == 1

replace lp = 175.24 if uf == 31 & areacen == 1

replace lp = 209.78 if uf == 33 & areacen == 1

replace lp = 250.79 if uf == 35 & areacen == 1

replace lp = 168.54 if uf == 41 & areacen == 1

replace lp = 240.15 if uf == 53 & areacen == 1

Se a renda familiar per capita correspondente a esta pessoa for inferior a

gen rendapc = rend_fa1 / numfam1

Para fazer as analises de pobreza necessrio instalar alguns programas

apoverty rendapc [fw=pesopes], varpl(lp)

Outro comando que detalhar o resultado ser:

apoverty rendapc [fw=pesopes], varpl(lp) all

Este comando ir gerar uma multiplicidade de indicadores de pobreza3:

Headcount ratio % 32.34

A Tabela acima lista diversos indicadores de pobreza para o Brasil em