Professional Documents
Culture Documents
AMAZONAS
CURSO DE QUALIFICAÇÃO
PROFISSIONAL
ECONOMETRIA
CETAM SEPLAN
Centro de Educação Tecnológica do Secretaria de Estado de Planejamento e
Amazonas Desenvolvimento Econômico
APOSTILA DE ECONOMETRIA
ÍNDICE
1 - INTRODUÇÃO A ESTATÍSTICA
O que é estatística?
Por que estudar estatística?
O que a estatística tem haver com a formação profissional que estou
almejando?
Quando se deve usar a estatística?
Como se deve usar a estatística?
Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o
leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para
5
todas as outras disciplinas. Desta forma será possível fazer um link entre as
disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística
para o curso. Contudo, podemos evidenciar o seguinte:
Esperamos que estas razões possam dar uma idéia do que o estudante de
Administração Pública pode esperar do seu estudo de estatística.
Por fim, temos um terceiro ramo da estatística que está interessado na análise
e interpretação de dados amostrais: a inferência. Basicamente a amostragem aborda
uma fração, o mais fidedigna possível, de determinada população e utiliza as
informações extraídas deste pequeno grupo para fazer inferência sobre a população
toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através
de certos procedimentos. Como exemplos, temos: assistir por alguns instantes
determinado programa da TV para avaliar se vale a pena continuar assistindo; comer
um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos
da classe para determinar o que a maioria pensa a respeito de determinado assunto.
Deve ficar claro ao estudante de estatística que essas três áreas não são
separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar.
Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É
preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de
probabilidade.
É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer
cálculos!”. Hoje um curso de estatística para Administração Pública exige
7
Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida em
metros), peso (medido em quilogramas), estado civil, renda (medida em reais), zona
da cidade em que mora, naturalidade (somente o estado de nascimento), time que
torce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso de
econometria do CETAM, Manaus – 09/2010.
Renda Pret. Sal.
Idade Altura Peso Estado Zona Naturalidade Tipo
Gênero individual Time ao se
(anos) (m) (kg) civil residencial (estado) Sanguíneo
(R$) formar
F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O+
M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O+
F 19 1,62 48 solt leste pará Flamengo 5.000,00 A+
M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A-
M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O+
M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 A
F 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 -
M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O+
M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O+
M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A+
F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A+
F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O+
F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O+
M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A+
F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O+
F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O+
F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 -
F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A+
M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O+
F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+
F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A+
M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O+
F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A-
F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O+
M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB +
F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O+
F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A+
F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A+
F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B+
F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A+
F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A+
F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A+
M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O+
M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 -
F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O+
M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O+
M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O+
F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+
F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A+
F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O+
F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O+
F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O+
F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O+
F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B+
F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A+
FONTE: PESQUISA DE CAMPO
11
A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável
quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis
usadas para construir as tabelas 2.1 e 2.2 (sexo e idade).
Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de
econometria do CETAM – setembro de 2010.
Sexo
Idade (anos) Total
Feminino Masculino
18├─ 24 10 5 15
24├─ 30 4 4 8
30├─ 40 10 4 14
40├─ 50 3 2 5
50├─ 60 3 0 3
Total 30 15 45
FONTE: DADOS HIPOTÉTICOS.
Esse tipo de tabela nos trás boas informações. Podemos observar, por
exemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e
40 anos (exclusive). Observamos ainda que, independente da idade, existem 30
alunos do sexo feminino e 15 do sexo masculino.
Perceba que os totais marginais para a variável sexo são iguais às freqüências
simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são
iguais às freqüências simples dispostas na tabela 2.2.
Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dos
alunos do curso de econometria do CETAM – setembro de 2010.
Sexo
Idade (anos) Total
Feminino Masculino
18├─ 24 22,22 % 11,11 % 33,33 %
24├─ 30 08,89 % 08,89 % 17,78 %
30├─ 40 22,22 % 08,89 % 31,11 %
40├─ 50 06,67 % 04,44 % 11,11 %
50├─ 60 06,67 % 00,00 % 06,67 %
Total 66,67 % 33,33 % 100,00 %
FONTE: DADOS HIPOTÉTICOS.
16
Observe que não existem alunos do sexo masculino com idade superior a 50
anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades
no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que,
independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e
apenas 6,67% de alunos com idade superior ou igual a 50 anos.
Perceba que os totais marginais para a variável sexo são iguais às freqüências
relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são
iguais às freqüências relativas dispostas na tabela 2.2.
Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveis
sexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010
Sexo
Idade (anos) Total
Feminino Masculino
10 5 15
18├─ 24
22,22 % 11,11 % 33,33 %
4 4 8
24├─ 30
8,89 % 8,89 % 17,78 %
10 4 14
30├─ 40
22,22 % 8,89 % 31,11 %
3 2 5
40├─ 50
6,67 % 4,44 % 11,11 %
3 0 3
50├─ 60
6,67 % 0,0 % 6,67 %
30 15 45
Total
66,67 % 33,33 % 100,00 %
FONTE: DADOS HIPOTÉTICOS.
EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA.
Assim podemos observar que existem dez alunos do sexo feminino com idade
entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam
22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30
alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino.
17
Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em
setores circular e gráfico em barras para a variável idade. As observações usadas
para a elaboração desses gráficos foram retiradas do quadro 2.1.
2.3 - MEDIDAS
2.3.1.1. Média
Do ponto de vista teórico, vários tipos de média podem ser calculados para
uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto
a mais comum. Apresentaremos ainda as médias geométricas e harmônicas.
X =
∑x i
n
23
definida por:
Xp =
∑x p i i
∑p i
X g = n x1 x 2 x3 ...x n
X gp = ∑ i x1 1 x 2 2 x 3 3 ... x n
p p p p pn
n n
Xh = ou Xh =
1 1 1 1 1
+ +
x1 x 2 x3
+ ... +
xn
∑x
i
Note que a média harmônica é o inverso da média aritmética dos inversos dos
elementos.
X hp =
∑p i
ou X hp =
∑p i
p1 p 2 p3 p p
+ +
x1 x 2 x3
+ ... + n
xn
∑x i
Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir
o desenvolvimento de médias ao caso de média aritmética, que é a média mais
utilizada nas aplicações.
X =
∑x i
n
Dados tabelados
Se os dados estão apresentados na forma de uma tabela, utilizaremos a média
aritmética ponderada, considerando as freqüências simples fi como sendo as
ponderações dos elementos xi correspondentes.
como:
X =
∑x f i i
∑f i
2.3.1.3. Mediana
É um valor real que separa o rol em duas partes deixando à sua esquerda o
mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que
ocupa a posição central em um conjunto de dados. A mediana será denotada por
md.
n
− Fant
m d = l md + 2 h
f md
em que:
1md = limite inferior da classe mediana.
n = número de elementos do conjunto de dados.
Fant = freqüência acumulada da classe anterior à classe mediana.
fmd = freqüência simples da classe mediana.
h = amplitude do intervalo de classe.
2.3.1.5. Moda
Moda de Pearson:
Segundo PEARSON, a moda de uma variável contínua pode ser obtida através
do valor da média e da mediana:
m o = 3m d − 2 X
Moda de King
KING levou em consideração, em sua fórmula, a freqüência simples da classe
anterior e a freqüência simples da classe posterior à classe modal.
f post
mo = l mo + h
f ant + f post
em que:
lmo = limite inferior da classe modal
fpost = freqüência simples da classe posterior à classe modal
fant = freqüência simples da classe anterior à classe modal
h = amplitude do intervalo de classe
Moda de CZUBER
CZUBER levou em consideração, em sua fórmula a freqüência simples da
classe anterior, a freqüência simples da classe posterior, além da freqüência simples
da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King.
f mo − f ant
mo = l mo + h
2 f mo − ( f ant + f post )
em que:
lmo = limite inferior da classe modal
fmo = freqüência simples da classe modal.
28
A medida ideal em cada caso é aquela que melhor representa a maioria dos
dados da série. Quando todos os dados de uma série estatística são iguais, a média,
a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas
representará bem a série. No entanto, este caso dificilmente ocorrerá na prática.
Desta forma, se uma série apresenta forte concentração de dados em sua área
central, a média, a mediana e a moda ficam também situadas em sua área central
representando bem a série. Como a mais conhecida é a média, optamos por esta
medida de tendência central. Concluindo, devemos optar pela média, quando houver
forte concentração de dados na área central da série.
A moda deve ser a opção como medida de tendência central apenas em séries
que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior
à freqüência dos outros elementos da série.
O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta
o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a
cada disciplina.
A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram
somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados
estão apresentados no Quadro 2.4.
Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa
Número do
aluno Português Matemática História Geografia
1 7,7 3,5 3,3 8,3
2 6,7 7,4 5,8 7,1
3 8,7 5,7 9,6 8,7
4 9,2 4,3 6,9 7,4
5 4,3 5,3 7,2 5,2
6 6,3 3,9 8,5 7,9
7 7,5 5,3 6,6 5,2
8 6,9 4,0 9,9 9,4
9 4,7 5,6 8,2 8,0
10 8,7 7,1 9,1 6,1
11 8,3 4,2 7,6 9,8
12 8,4 5,6 7,7 8,1
13 7,5 9,4 9,0 8,7
14 9,1 5,0 7,9 7,3
15 5,4 9,9 9,0 5,4
16 9,0 6,9 6,8 7,1
17 9,3 7,0 6,9 5,9
18 7,2 5,1 7,1 8,7
19 8,8 4,5 6,9 7,5
20 4,1 7,2 6,8 3,0
Média 7,4 5,8 7,5 7,2
cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos
apresentavam média abaixo de 6.
Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB
f post 5
mo = l mo + h = 4,5 + 1,5 = 5,25
f ant + f post 5+5
34
O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à
média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada
valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em
seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a
soma dos desvios positivos e negativos a contar da média será sempre (por
definição) igual a zero. A conversão das diferenças a valores absolutos (todos os
valores são considerados como desvios positivos) antes de se proceder à soma
resolve o problema. Calcula-se então o desvio médio absoluto pela seguinte
equação:
DMA =
∑x i −X
n
Em que n é o número de observações no conjunto de dados.
Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito
utilizado por haver outras medidas que apresentam propriedades matemáticas mais
interessantes. O DMA possui algumas aplicações no controle de inventários.
∑ (x
2
2 i − X)
σ (X ) =
n
Conseqüentemente, o desvio-padrão será dado por:
∑ (x
2
2 i − X)
σ (X ) = σ (X ) =
n
Se o conjunto de dados representa uma amostra, a variância é calculada pela
equação:
∑ (x
2
2 i − X)
S (X ) =
n −1
Conseqüentemente, o desvio-padrão será dado por:
∑ (x
2
i − X)
S(X ) = S 2 (X ) =
n −1
∑ (x − X )
2
2 i fi
σ (X ) =
∑f i
36
∑ (x − X )
2
2 i fi
σ (X ) = σ (X ) =
∑f i
∑ (x − X )
2
2 i fi
S (X ) =
∑ f −1i
∑ (x − X )
2
i fi
S(X ) = S 2 (X ) =
∑ f −1 i
∑ (x − X )
2
2 i fi
σ (X ) = onde xi é o ponto médio da classe i.
∑f i
∑ (x − X )
2
2 i fi
S (X ) = onde xi é o ponto médio da classe i.
∑ f −1i
σ (X )
CV ( X ) =
X
Variância
∑ (x
2
2 i − X) (3,5 − 5,8) 2 + (3,9 − 5,8) 2 + ... + (9,9 − 5,8) 2
σ (X ) = = = 2,94199
n 20
Desvio-padrão
σ ( X ) = σ 2 ( X ) = 1,7
Coeficiente de variação
σ (X ) 1,7
CV ( X ) = = = 0,2931 ou 29,31%
X 5,8
38
∑ (x − X ) f
2
2 i i (3,75 − 5,8) 2 5 + (5,25 − 5,8) 2 8 + ... + (9,5 − 5,8) 2 2
σ (X) = = = 2,76625
∑f i 20
Desvio-padrão
σ ( X ) = σ 2 ( X ) = 1,6632
Coeficiente de variação
σ (X ) 1,6632
CV ( X ) = = = 0,2868 ou 28,68%
X 5,8
freq
Média Moda
Mediana
Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda)
freq.
Moda Média
Mediana
Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita)
40
freq.
Além das medidas de posição podemos utilizar as separatrizes para avaliar não
só a simetria, mas também a dispersão de um conjunto de dados. O procedimento
para verificar a existência de assimetria consiste em avaliar a diferença existente
entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma
distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A
avaliação da dispersão depende da existência de um padrão para comparação, seja
um outro conjunto de dados ou alguma especificação. Um conjunto de dados
apresentará maior dispersão do que outro se os seus quartis estiverem mais
distantes da mediana. Observe as figuras a seguir.
O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez
com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e
ficasse mais distante da mediana do que o inferior, significando assimetria para a
direita (ou positiva).
Na figura 27 novamente as
Qi Md Qs diferenças são claramente
Assimétrico para desiguais: há assimetria. E
a esquerda como Md - Qi é maior do que
25% 25%
25% 25% Qs - Md é para a esquerda.
Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda
Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais
baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais
distante da mediana do que o superior, significando assimetria para a esquerda (ou
negativa).
Qi - 1,5x(Qs - Qi)
* Valores discrepantes inferiores
*
1
O valor Qs - Qi é chamado de desvio interquartílico.
44
3) Identificar extremos
O maior valor do conjunto (extremo superior) Es = 205
O menor valor do conjunto (extremo inferior) Ei = 142
4) “Retângulos”
Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais:
distribuição
Md - Qi = 172 - 166 = 6 pode ser considerada simétrica)
Todos os passos anteriores são feitos internamente pelo computador quando se usa
um programa estatístico para construir um Diagrama em Caixas, resultando no
gráfico a seguir2:
2
O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultados
ligeiramente diferentes dos cálculos manuais devido aos arredondamentos.
46
200
190
180
170
160
150
140
130
ALTURA
O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser
alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete
pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais
aprofundados para ser interpretado.
9.6
8.4
7.2
6.0
NOTAS
4.8
3.6
2.4
1.2
0.0
-1.2
Ciências Biológicas Engenharia Mecânica Engenharia de Produção
TURMAS
Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5
e 6,75.
48
Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas
são maiores (Quartis mais distantes da Mediana).
Crescimento demográfico
Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de
cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos
de zero.
Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados
simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o
Oriente Médio é assimétrico.
Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos
são a Europa Oriental e OECD (demonstrando uma certa homogeneidade
demográfica nestas duas regiões).
Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD
tem um superior, e as demais regiões não apresentam valores discrepantes.
Média de calorias
Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500
calorias diárias, enquanto que a África têm o menor valor, por volta de 2200.
Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e
Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor
assimetria.
Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores),
enquanto Pacífico/Ásia apresenta a maior.
3 - ANÁLISE BIDIMENSIONAL
4
Se mais de duas variáveis estiverem envolvidas será necessário empregar técnicas de análise multidimensional,
ou ANÁLISE MULTIVARIADA.
5
No Capítulo 6 iremos estudar o teste de independência do Qui-Quadrado, uma outra forma de avaliar a
associação entre duas variáveis qualitativas.
51
Função
Função
Sexo Escritório Serviços gerais Gerência Total
Masculino 43,25% 100% 88,10% 54%
Feminino 56,75% 0% 11,90% 46%
Total 100% 100% 100% 100%
L C (O ij − E ij )2
χ = ∑∑
2
i =1 j=1
E ij
negativas as diferenças são elevadas ao quadrado. E para evitar que uma diferença
grande em termos absolutos, mas pequena em termos relativos, "inflacione" a
estatística, ou que uma diferença pequena em termos absolutos, mas grande em
termos relativos, tenha sua influência reduzida, divide-se o quadrado da diferença
pela freqüência esperada. Somam-se os valores de todas as células e obtêm-se o
valor da estatística.
Função
Sexo Escritório Serviços gerais Gerência Total
Masculino 157 27 74 258
Feminino 206 0 10 216
Total 363 27 84 474
O–E Função
Sexo Escritório Serviços gerais Gerência
Masculino 157 - 197,58 27 - 14,70 74 - 45,72
Feminino 206 - 165,42 0 - 12,30 10 - 38,28
55
(O-E)2 Função
Sexo Escritório Serviços gerais Gerência
Masculino 1646,921 151,383 799,672
Feminino 1646,921 151,383 799,672
Finalmente:
(O-E)2/E Função
Sexo Escritório Serviços gerais Gerência
Masculino 8,336 10,301 17,490
Feminino 9,956 12,304 20,891
χ2 k
C* = 2
×
χ +N k −1
Onde:
- χ2 é a estatística Qui-Quadrado, calculada a partir das freqüências observadas e
esperadas (sob a condição de independência) a partir da tabela de contingências.
- N é o número total de observações da tabela de contingências.
- k é o menor número entre o número de linhas e colunas da tabela de
contingências.
56
χ2 k 79,227 2
C* = 2
× = × ≅ 0,54
χ +N k −1 79,227 + 474 2 −1
6
Há possibilidade de avaliar o relacionamento entre duas variáveis qualitativas nominais (através do Coeficiente
de Contingência Modificado, que foi visto anteriormente) e entre duas variáveis qualitativas ordinais (através dos
coeficientes de correlação por postos, que não serão abordados nesta disciplina).
57
7
Na Análise de Regressão Múltipla podem haver várias variáveis independentes mas apenas UMA dependente.
8
Veja as definições de variáveis na seção 2.1.
58
Para que seja possível realizar uma Análise de Correlação e/ou Regressão os
dados devem provir de observações emparelhadas e em condições semelhantes. Se
estamos avaliando a correlação existente entre a altura e o peso de um determinado
grupo de crianças, por exemplo, o peso de uma determinada criança deve ser
medido e registrado no mesmo instante em que é medida e registrada a sua altura.
Renda e área da residência da mesma família, no mesmo momento. Se houver mais
de duas variáveis todas devem ser medidas no mesmo instante.
9
Ou linearizável, que através de transformações apropriadas transforme-se em uma reta.
59
- seria perfeitamente possível ajustar uma reta decrescente que passasse por entre
os pontos.
Concluímos então que há correlação linear (porque é possível ajustar uma reta aos
dados) negativa (porque quando uma das variáveis aumenta seus valores e a outra
diminui).
No caso do diagrama ao lado é óbvio temos uma situação totalmente diversa dos
casos anteriores. NÃO HÁ padrão nos pontos, linear ou não linear, os pontos
parecem distribuir-se de forma aleatória. Então, conclui-se que NÃO HÁ
CORRELAÇÃO entre as duas variáveis.
61
∑ (x
i =1
i − x ) × (y i − y )
Cov(X, Y) n −1
r= = (1)
sX × sY sX × sY
( )
n × ∑ x i − ∑ x i
2
× ( )
n × ∑ y i − ∑ y i
2
i =1 i=1 i =1 i=1
10
Sem unidade.
63
15 15 15 15
15
∑ (x
i =1
i × y i ) = 3400 ,5
i =1 i =1 i =1 i =1
r = 0,9
11
Na prática não devemos utilizar uma quantidade de dados tão pequena.
66
pareamento dos dados, a quantidade suficiente de dados, etc. Além desses, para
realizar a Análise de Regressão, seja linear (reta), exponencial, logarítmica,
polinomial, etc., alguns pressupostos básicos são necessários:
- supõe-se que há uma função que justifica em média, a variação de uma variável
em função da variação da outra;
- os pontos experimentais (os pares x,y) terão uma variação em torno da linha
representativa desta função, devido a uma variação aleatória adicional, chamada de
variância residual ou resíduo;
- a variável X (variável INDEPENDENTE) é suposta sem erro.
- a variável Y (variável DEPENDENTE) terá uma variação nos seus valores
“dependente12” de X se houver regressão.
- a função de regressão será: Y = ϕ (X) + Ψ onde ϕ (X) é a função de regressão
propriamente dita e Ψ é a componente aleatória de Y, devida ao acaso (e que
SEMPRE existirá).
- a variação residual de Y em torno da linha teórica de regressão segue uma
distribuição normal com média zero e desvio padrão constante (independente dos
valores de X).
12
Foi colocado entre aspas porque a existência de regressão NÃO IMPLICA necessariamente em que Y
depende de X, apenas que elas têm uma variação relacionada, que pode ser causada por uma outra variável.
67
A “melhor reta” será encontrada pelo método dos mínimos quadrados: são
encontrados os coeficientes a e b que minimizam os quadrados dos desvios de cada
ponto do diagrama de dispersão em relação a uma reta teórica. Temos os seguintes
valores de a e b:
n n n n n
n × ∑ (x i × y i ) − ∑ x i × ∑ y i ∑y i − b × ∑ xi
b= i =1 i =1 i =1
2 a= i =1 i =1
n
n
n
( )
n × ∑ xi − ∑ xi
2
i=1 i=1
15 15
∑x
i =1
i = 1335,0 ∑y
i =1
i = 37,5
15 15
∑ (x ) = 119165,0 ∑ (x × y ) = 3400,5
2
i i i
i =1 i =1
n = 15
i =1 i=1
n n
∑y i − b × ∑ xi
37,5 − 0,18 × 1335
a= i =1 i =1
= = −13,52
n 15
Y = -13.520 + (.180 * X)
4.10
3.78
3.46
3.14
2.50
2.18
1.86
1.54
1.22
0.90
80 82 84 86 88 90 92 94 96 98 100
Imagine agora uma situação em que fosse possível coletar uma grande
quantidade de dados, para as mesmas duas variáveis, e um diagrama de dispersão
fosse construído, tal como o da figura 3.10.
71
E: ∑ ( Y − Y)
2
= $ − Y)2 + ∑ ( Y − Y
∑ (Y $ )2 (a soma da variação
explicada com a
variação residual resulta na variação total).
∑ (ŷ
2
i − y)
variância explicada
r2 = i =1
n
=
var iância total
∑ (y
i =1
i − y)
2
Para fazer a análise de resíduos precisamos construir pelo menos dois diagramas de
dispersão:
- um que relacione os resíduos padronizados com os próprios valores preditos da
variável independente;
- outro que relacione os resíduos padronizados com os valores da variável
independente13.
Resíduos padronizados
Valores
preditos
ou X
Figura 3.1219 - Formato esperado dos resíduos se modelo é apropriado
2000
1500
1000
500
0
25 27 29 31 33 35 37 39
Temperatura
porém, conseguem "explicar" grande parte da variação média das vendas, pois seus
coeficientes de determinação são substancialmente maiores do que 0,5.
4
3
Res íduos padronizados
2
1
0
-1 25 30 35 40
-2
-3
-4
Temperatura
4
3
Resíduos padronizados
2
1
0
-500 -1 0 500 1000 1500 2000 2500 3000
-2
-3
-4
Valores preditos
4
3
Resíduos padronizados
2
1
0
-1 25 30 35 40
-2
-3
-4
Temperatura
4
3
Res íduos padroniz ados
2
1
0
-1500 1000 1500 2000 2500 3000
-2
-3
-4
Valores preditos
e) O modelo de parábola estimado pelo Microsoft Excel é (ver figura 3.13, sendo Y =
Vendas e X = Temperatura):
79
2.4
1.8
1.2
Resíduos Padronizados
0.6
0.0
-0.6
-1.2
-1.8
-2.4
-3.0
0.700 1.050 1.400 1.750 2.100 2.450 2.800 3.150 3.500 3.850
Valores preditos
Este exemplo contém apenas 15 dados, o que torna a análise dos seus resíduos
menos conclusiva que a do Exemplo 3.8.
- Número de resíduos positivos e negativos. Há 5 resíduos positivos e 10 negativos.
- Grandeza dos resíduos. Excetuando um único ponto discrepante positivo todos os
resíduos encontram-se a 1,2 desvios padrões de zero.
- Existência de padrões. Aparentemente não há padrões nos pontos, mas torna-se
difícil uma conclusão final devido à pequena quantidade de dados.
80
O modelo da reta pode ser considerado adequado, não obstante a diferença entre o
número de resíduos positivos e negativos, devido à pequena quantidade de pontos,
e o fato de que apesar de tudo não há um padrão nos pontos.
81
600 600
500 500
Número de passageiros
400 400
300 300
200 200
100 100
0 0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Meses
.040157
.017467
0.00000
1 5 10 15 20 25
Amostras
14
Alguns autores não incluem as variações cíclicas no modelo clássico da série temporal.
84
1400
1200
1000
800
Vendas
Tendência
600
400
200
0
janeiro-65 janeiro-70 janeiro-75 janeiro-80 janeiro-85 janeiro-90 janeiro-95 janeiro-00
Na figura 4.3 podemos observar uma série temporal de vendas (em milhões
de dólares), e a componente tendência, no caso uma reta (tendência linear), que
mostra um crescimento no longo prazo.
1.6
1.5
1.4
1.3
1.2 Ciclos
1.1 Sazonais
1 Irregulares
0.9
0.8
0.7
0.6
janeiro-65 janeiro-70 janeiro-75 janeiro-80 janeiro-85 janeiro-90 janeiro-95 janeiro-00
Na prática não temos como incluir a componente irregular no modelo, pois ela é
resultado de fatos fortuitos.
n n n n n
n × ∑ (t i × y i ) − ∑ t i × ∑ y i ∑y i − b × ∑ ti
b= i =1 i =1 i =1
2 a= i =1 i =1
n
n
n
( )
n × ∑ ti − ∑ ti
2
i =1 i=1
Onde yi é um valor qualquer da variável registrada na série temporal, ti é o
período associado a yi, e n é o número de períodos da série. Para encontrar os
coeficientes basta calcular os somatórios (tal como em análise de regressão linear
simples).
trabalhar com períodos, sendo 1985 o período 1, 1986 o 2 e assim por diante. A
tabela ficaria então (já incluindo as colunas t × y e t2):
Ano Patrimônio (Y) Tempo (t) t.Y t2
(R$1.000.000)
1985 30 1 30 1
1986 32 2 64 4
1987 32 3 96 9
1988 35 4 140 16
1989 37 5 185 25
1990 38 6 228 36
1991 42 7 294 49
1992 41 8 328 64
1993 44 9 396 81
1994 46 10 460 100
1995 47 11 517 121
Soma 424 66 2768 506
Substituindo os valores nas equações:
n n n
n × ∑ (t i × y i ) − ∑ t i × ∑ y i
11× 2768 − 66 × 424
b= i =1 i =1 i =1
2
= = 1,76
n
n 11× 506 − (66) 2
n × ∑ ti ( )
2
− ∑ ti
i =1 i=1
n n
∑y i − b × ∑ ti
424 − (1,76 × 66)
a= i =1 i =1
= = 27,96
n 11
Então a equação de tendência é: T = 27,96 + 1,76 × t
O ano de 1996 corresponderá ao período 12, e 1997 ao período 13 da série
temporal. Substituindo estes valores na equação acima:
T1996 = 27,96 + (1,76 × 12) = 49,08
T1997 = 27,96 + (1,76 × 13) = 50,84
Podemos então apresentar um gráfico (feito no Microsoft Excel) da série original, a
reta de tendência e a projeção para os anos de 1996 e 1997.
89
55
50
patrimônio (US$1.000.000,00)
45
40
série
35 projeção
tendência
30
25
85 86 87 88 89 90 91 92 93 94 95 96 97
ano
Quando a tendência de uma série é não linear15 podemos obtê-la por médias
móveis. Calcula-se a média dos primeiros n períodos da série, colocando o resultado
no período exatamente no centro deles. Progressivamente, vamos acrescentando
um período seguinte e desprezando o primeiro da média imediatamente anterior, e
calculando novas médias, que vão se movendo até o fim da série. O número de
períodos (n) é chamado de ordem da série.
15
Não é possível ajustar uma reta, ou outra curva que possa ser linearizada (como logarítmica, exponencial, etc.).
90
1986 32 94 31,33
1987 32 99 33
1990 38 117 39
1995 47 - -
Trimestre
Ano I II III IV
1993 24 21 11 9
1994 20 20 7 6
1995 15 14 5 6
Como a série é registrada trimestralmente, e a tendência deve ser obtida por médias
móveis, é preciso calcular médias móveis de 4 períodos, pois há 4 trimestres no ano.
Contudo, como este número de períodos é par, médias móveis de 2 períodos,
calculadas a partir daquelas de 4 períodos, precisam ser obtidas para obter
resultados centrados.
92
Total Móvel 2
No. de Total Móvel Média Móvel 2
Trimestre períodos
Contratos 4 períodos períodos (centrada)
(centrado)
1993 I 24
1993 II 21
65
1993 III 11 126 15,75
61
1993 IV 9 121 15,125
60
1994 I 20 116 14,5
56
1994 II 20 109 13,625
53
1994 III 7 101 12,625
48
1994 IV 6 90 11,25
42
1995 I 15 82 10,25
40
1995 II 14 80 10
40
1995 III 5
1995 IV 6
- os primeiros 4 períodos são os 4 trimestres de 1993: 1993 I, 1993 II, 1993 III, 1993
IV; o total móvel deles (igual a 65) deve ficar no centro destes períodos, ou seja
entre 1993 II e 1993 III, que é um período inexistente na série original;
- em seguida desprezamos 1993 I e incluímos 1994 I: 1993 II, 1993 III, 1993 IV,
1994 I; o total móvel (igual a 61) deve ficar entre 1993 III e 1993 IV, novamente
inexistente na série original;
- prosseguimos até os 4 últimos períodos: 1995 I, 1995 II, 1995 III, 1995 IV; o total
móvel (igual a 40) deve ficar entre 1995 II e 1995 III.
25
15
10
0
93 94 95
ano
Uma vez identificada a tendência, seja por equações ou por médias móveis,
ela pode ser removida da série, para facilitar a visualização das outras componentes
(supondo um modelo multiplicativo):
Y
= C ×S× I
T
Figura 4.731 - Série temporal de vendas (figura 4.3) com tendência removida
Há vários métodos para a obtenção dos índices sazonais, entre eles o método
da razão para a média móvel (ou método da média móvel percentual). Ele consiste
em:
1) obter médias móveis de ordem igual ao número de períodos sazonais (4 se a
série é trimestral, 12 se é mensal);
2) obter médias móveis de 2 períodos, centradas, a partir das médias móveis
calculadas no passo 1;
3) obter os índices sazonais para cada período, dividindo os valores originais da
série pelas médias móveis centradas calculadas no passo 2;
4) obter as medianas dos índices sazonais de cada período (por exemplo, a
mediana dos índices sazonais de todos os janeiros existentes na série).
Os passos 1 e 2 são virtualmente idênticos ao procedimento para obtenção de
tendência por médias móveis visto na seção 4.2.2 (quando o número de períodos é
par).
1993 II 21
65
1993 III 11 126 15,75 0,698
61
1993 IV 9 121 15,125 0,595
60
1994 I 20 116 14,5 1,379
56
1994 II 20 109 13,625 1,468
53
1994 III 7 101 12,625 0,554
48
1994 IV 6 90 11,25 0,533
42
1995 I 15 82 10,25 1,463
40
1995 II 14 80 10 1,400
40
1995 III 5
1995 IV 6
97
Trimestre Y S T x C x I = Y/ S
1993 I 24 1,421 16,890
1993 II 21 1,434 14,644
1993 III 11 0,626 17,572
1993 IV 9 0,564 15,957
1994 I 20 1,421 14,074
1994 II 20 1,434 13,947
1994 III 7 0,626 11,182
1994 IV 6 0,564 10,638
1995 I 15 1,421 10,556
1995 II 14 1,434 9,763
1995 III 5 0,626 7,987
1995 IV 6 0,564 10,638
16
Embora todos os autores concordem com a presença das componentes irregulares no modelo clássico das
séries temporais, não há unanimidade sobre as componentes cíclicas. Assim, o leitor pode encontrar referências
sobre séries temporais que desconsideram por completo os ciclos.
100
17
Usamos a mediana ao invés da média para evitar que valores discrepantes, causados por variações irregulares,
distorçam os resultados.
101
1.5
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
jan/65 jan/69 jan/73 jan/77 jan/81 jan/85 jan/89 jan/93 jan/97
1.3
1.25
1.2
1.15
1.1
1.05
1
0.95
0.9
0.85
0.8
jan/65 jan/69 jan/73 jan/77 jan/81 jan/85 jan/89 jan/93 jan/97
Como há variações cíclicas na série elas devem ser levadas em conta na previsão
que será feita. Observando o gráfico das variações CI acima, o ano de 2000 parece
ser o último de um ciclo de alta. É razoável imaginar que os anos de 2001 a 2005
serão anos de baixa: a tendência precisará ser multiplicada pelos índices de ciclos
de baixa. Mas quais índices de ciclos de baixa escolher? Observe que tanto nos
ciclos de alta quanto nos de baixa NÃO HÁ grande variação entre os valores de CI:
se calcularmos a mediana dos valores de CI para um grupo de cinco anos (referente
a um ciclo de baixa) teremos uma boa estimativa da componente CI para utilizar na
previsão. Devemos utilizar o último ciclo de baixa disponível, que vai de 1991 a
1995, com os seguintes valores: 0,8915; 0,8643; 0,8100; 0,8268; 0,9028. Ordenando
104
4.5 - RECOMPOSIÇÃO
Exemplo 4.7 Os dados abaixo contém os valores trimestrais de vendas (em milhões
de reais) de um fabricante de eletrodomésticos. Usando o modelo multiplicativo
obtenha os componentes da série, interprete os resultados e faça a previsão de
vendas para os quatro trimestres seguintes.
Período Trimestre Vendas Período Trimestre Vendas
1 I 20 13 I 32
2 II 18 14 II 29
3 III 22 15 III 35
4 IV 24 16 IV 38
5 I 24 17 I 36
6 II 22 18 II 32
7 III 26 19 III 40
8 IV 29 20 IV 43
9 I 28 21 I 40
10 II 25 22 II 36
11 III 31 23 III 44
12 IV 34 24 IV 48
50
45
40
35
30
25
20
15
I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV
É plenamente viável pensar em ajustar uma reta aos dados. Então podemos
obter os coeficientes da reta de mínimos quadrados: T = a + b× t.
Sabemos que n = 24 (há 24 períodos na série).
Os somatórios necessários:
24 24 24 24
∑t
i =1
i = 300 ∑y
i =1
i = 756 ∑ (t )
i =1
i
2
= 4900 ∑ (t
i =1
i × y i ) = 10694
n n
∑y i − b × ∑ ti
756 − (1,082 × 300)
a= i =1 i =1
= = 17,978
n 24
107
Agora iremos obter os índices sazonais. Como a série é trimestral teremos que
calcular médias móveis de 4 períodos, e depois centrá-las. Vamos apresentar
apenas os totais móveis de 4 períodos, os totais móveis de 2 períodos (calculados a
108
Trimestre II => 0,862 0,866 0,870 0,879 0,893 e sua mediana será igual a 0,870.
Trimestre III => 1,010 1,023 1,029 1,033 1,046 e sua mediana será igual a 1,029.
Trimestre IV => 1,067 1,089 1,090 1,096 1,097 e sua mediana será igual a 1,090.
Como alguns dos índices distanciam-se substancialmente de 1, HÁ influência da
sazonalidade.
Interpretando os índices sazonais: no trimestre I as vendas aumentam cerca de
0,3% em relação à média anual, no trimestre II as vendas caem 13%, no trimestre III
as vendas aumentam 2,9%, e no trimestre IV as vendas aumentam 9% em relação à
média anual.
1.050
1.040
1.030
1.020
1.010
1.000
0.990
0.980
0.970
I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV
5 - NÚMEROS ÍNDICES
pt qt pt × q t
p0, t = × 100 q0, t = × 100 v0, t = × 100
p0 q0 p0 × q 0
113
Exemplo 5.1 - Uma siderúrgica produz chapas de aço. No ano de 1998 a chapa
custava R$ 45, e em 1999 R$ 47,5. Em 1998 a empresa produziu 1500 toneladas, e
em 1999 1567 toneladas. Calcular os números índices de preço, quantidade e valor
para a chapa de aço tomando o ano de 1998 como base.
qt
q0,t =
× 100 Houve um aumento de 4,47% (104,47 - 100) nas
q0 quantidades de chapas produzidas de 1998 para
q 1567 1999.
q98,99 = 99 × 100 = × 100 = 104,47
q98 1500
18
Também podemos calculá-los para os Números Índices Compostos.
114
19
Ou no máximo compara-se com o índice do mesmo mês no ano anterior.
115
∑ (p
i =1
t ,i × q 0 ,i )
Índice de preços L 0,t p = n
× 100
∑ (p
i =1
0 ,i × q 0 ,i )
∑ (q
i =1
t ,i × p 0 ,i )
Índice de quantidades L 0, t q = n
× 100
∑ (q
i =1
0 ,i × p 0 ,i )
116
Exemplo 5.3 - Com os dados da tabela a seguir, e usando 1996 como base, obter
índices de Laspeyres de preço e quantidade.
Artigos 1996 1997 1998
Preço Quantidade Preço Quantidade Preço Quantidade
1 2 4 2 5 3 6
2 3 3 4 2 6 3
3 5 2 6 5 8 6
∑ (p
i =1
98 ,i × q 96 ,i )
(3 × 4) + (6 × 3) + (8 × 2)
L 96 ,98p = 3
× 100 = × 100 = 170,37
(2 × 4 ) + (3 × 3) + (5 × 2)
∑ (p
i =1
96 ,i × q 96 ,i )
3
∑ (q97,i × p96,i ) (5 × 2) + (2 × 3) + (5 × 5 )
L96,97 q = i =1 × 100 = × 100 = 151,85
3 (4 × 2) + (3 × 3) + (2 × 5 )
∑ (q96,i × p96,i )
i =1
As quantidades dos artigos aumentaram 51,85% (151,85 - 100) de 1996 a 1997.
117
3
∑ (q98,i × p96,i ) (6 × 2) + (3 × 3) + (6 × 5 )
L96,98 q = i =1 × 100 = × 100 = 188,89
3 (4 × 2) + (3 × 3) + (2 × 5 )
∑ (q96,i × p96,i )
i =1
As quantidades dos artigos aumentaram 88,89% (188,89 - 100) de 1996 a 1998.
∑ (p t ,i × q t ,i ) ∑ (qi =1
t ,i × p t ,i )
Índice P0 , t p = i =1
n
Índice de P0 , t q = n
de
∑ (p 0 ,i × q t ,i ) quantidade ∑ (q
i =1
0 ,i × p t ,i )
preços i =1 s
Exemplo 5.4 - Utilizando os dados do Exemplo 5.3, e usando 1996 como base,
obtenha os índices de Paasche de preços e quantidades.
1996 1997 1998
Artigos
Preço Quantidade Preço Quantidade Preço Quantidade
1 2 4 2 5 3 6
2 3 3 4 2 6 3
3 5 2 6 5 8 6
118
3
∑ (p98,i × q98,i ) (3 × 6) + (6 × 3) + (8 × 6)
P96,98p = i =1 × 100 = × 100 = 164 ,71
3 (2 × 6) + (3 × 3) + (5 × 6)
∑ (p98,i × q98,i )
i =1
Os preços dos artigos aumentaram 64,71% de 1996 a 1997.
3
∑ (q97,i × p97,i ) (5 × 2) + (2 × 4) + (5 × 6)
P96,97 q = i =1 × 100 = × 100 = 150,00
3 (4 × 2) + (3 × 4) + (2 × 6)
∑ (q96,i × p97,i )
i =1
As quantidades dos artigos aumentaram 50% de 1996 a 1997.
3
∑ (q98,i × p98,i ) (6 × 3) + (3 × 6) + (6 × 8)
P96,98 q = i =1 × 100 = × 100 = 182,61
3 (4 × 3) + (3 × 6) + (2 × 8)
∑ (q96,i × p98,i )
i =1
As quantidades dos artigos aumentaram 82,61% de 1996 a 1997.
Exemplo 5.5 - Mudar a base da série de números índices abaixo para 1997.
Ano 1995 1996 1997 1998 1999 2000
Índice 100 109,12 113,86 116,69 126,53 133,20
Exemplo 5.6 - A tabela abaixo contém os gastos médios com alimentação (em
dólares) de famílias, e os Índices de Preços ao Consumidor, nos EUA (Fonte: U.S.
121
1973
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
1995
período.
Alimentação Alimentação Deflacionada
Figura 5.140 - Gastos com alimentação nos EUA: dados originais e deflacionados
Vamos abordar onze índices: INPC e IPCA do IBGE, IPC da FIPE, IGP-M e
IGP-DI da Fundação Getúlio Vargas, ICV do DIEESE, CUB, IPC do ITAG,
IBOVESPA, média industrial Dow Jones, e índice Nasdaq composto. Serão
apresentados também gráficos mostrando a flutuação destes índices nos últimos
anos.
a) Definição
Medida síntese do movimento de preços de um conjunto de mercadorias, chamado "Cesta
de Mercadorias", representativo de um determinado grupo populacional, em um certo
período de tempo. Mede a variação do custo de vida das famílias com rendimento
assalariado mensal de 1 a 8 salários mínimos, que residem na área urbana das
regiões pesquisadas. Dados disponíveis (índice nacional) desde 1981.
123
b) Instituição responsável
Fundação Instituto Brasileiro de Geografia e Estatística – IBGE.
c) Abrangência geográfica: regiões metropolitanas do Rio de Janeiro, Porto Alegre,
Belo Horizonte, Recife, São Paulo, Belém, Fortaleza, Salvador e Curitiba, além do
Distrito Federal e do município de Goiânia.
d) Metodologia
Os índices são calculados para cada região. Os preços obtidos são os efetivamente
cobrados ao consumidor, para pagamento à vista. A Pesquisa é realizada em
estabelecimentos comerciais, prestadores de serviços, domicílios e concessionárias
de serviços públicos. A partir dos preços coletados mensalmente, obtém-se, na
primeira etapa de síntese, as estimativas dos movimentos de preços referentes a
cada produto pesquisado. Tais estimativas são obtidas através do cálculo da média
aritmética simples de preços dos locais da amostra do produto que, comparadas em
dois meses consecutivos, resultam no relativo das médias. Agregando-se os
relativos dos produtos através da média geométrica é calculada a variação de
preços de cada subitem, que se constitui na menor agregação do índice que possui
ponderação explícita. Os itens integrantes:
e) Atualidade da pesquisa
Pesquisa de Orçamentos Familiares – POF: Realizada no período compreendido
entre 01 de outubro de 1995 a 30 de setembro de 1996. Forneceu as estruturas de
ponderação das populações-objetivo. Atualmente está em curso uma nova Pesquisa
de Orçamentos Familiares, prevista para ser finalizada em 2003.
Pesquisa de Locais de Compra – PLC: realizada no período de maio a junho de
1988. Forneceu o cadastro de informantes da pesquisa, cuja manutenção é
contínua.
Pesquisa de Especificação de Produtos e Serviços – PEPS: realizada na época de
implantação de cada uma das regiões para todos os produtos e serviços constantes
da estrutura de ponderações. Forneceu o cadastro de produtos e serviços
pesquisado, que é permanentemente atualizado com o objetivo de acompanhar a
dinâmica de mercado.
f) Período de coleta: mês calendário.
a) Definição
Medida síntese do movimento de preços de um conjunto de mercadorias, chamado "Cesta
de Mercadorias", representativo de um determinado grupo populacional, em um certo
período de tempo. Reflete a variação dos preços das cestas de consumo das famílias com
recebimento mensal de 1 a 40 salários mínimos, qualquer que seja a fonte. É utilizado pelo
Banco Central do Brasil para o acompanhamento dos objetivos estabelecidos no sistema
de metas de inflação, adotado a partir de julho de 1999, para o balizamento da política
monetária.
b) Instituição responsável
Fundação Instituto Brasileiro de Geografia e Estatística – IBGE.
c) Abrangência geográfica: regiões metropolitanas do Rio de Janeiro, Porto Alegre,
Belo Horizonte, Recife, São Paulo, Belém, Fortaleza, Salvador e Curitiba, além do
Distrito Federal e do município de Goiânia.
d) Metodologia
Os índices são calculados para cada região. Os preços obtidos são os efetivamente
cobrados ao consumidor, para pagamento à vista. A Pesquisa é realizada em
estabelecimentos comerciais, prestadores de serviços, domicílios e concessionárias
de serviços públicos. A partir dos preços coletados mensalmente, obtém-se, na
125
Para a obtenção dos índices dos itens, exceto para os sazonais alimentícios (para os
quais é usada a fórmula de Paasche), emprega-se a fórmula de Laspeyres. O índice
de Laspeyres, para medida do movimento de preços entre dois momentos t (período
de referência) e o (período base), tal como no INPC.
Os índices nacionais - IPCA são calculados a partir dos resultados dos índices
regionais, utilizando-se a média aritmética ponderada. Para o IPCA, até maio de
1989, os pesos basearam-se nos dados de despesa total corrente da pesquisa
ENDEF. Após a redefinição da estrutura de ponderações, em junho de 1989, os
pesos basearam-se na variável rendimento total urbano de cada área, obtida através
da PNAD/87. A partir de janeiro de 1994, os pesos utilizados tiveram como base os
dados obtidos através da PNAD/90. O critério utilizado para definição da
abrangência geográfica dos pesos é o mesmo adotado para o INPC.
e) Atualidade da pesquisa
Pesquisa de Orçamentos Familiares – POF: Realizada no período compreendido
entre 01 de outubro de 1995 a 30 de setembro de 1996. Forneceu as estruturas de
126
a) Definição
Mede a variação do custo de vida das famílias com renda de 1 a 20 salários mínimos
do município de São Paulo.
b) Instituição responsável
FIPE - Fundação Instituto de Pesquisas Econômicas
c) Abrangência geográfica: apenas o município de São Paulo.
d) Metodologia
Para o cálculo das variações quadrissemanais, leva-se em consideração a amostra
total do IPC mensal de aproximadamente 110.000 tomadas de preços, que é
subdividida em quatro subamostras, cada uma delas pesquisadas em um período de
no mínimo 07 e no máximo 08 dias, que constituem a SEMANA de coleta. O sistema
de cálculo sempre abrange um período total de 08 SEMANAS e as variações são
obtidas fazendo-se a divisão dos preços médios das 4 SEMANAS de referência
pelos preços médios das 4 SEMANAS anteriores (base). Desta forma, para se obter
uma série sequencial de índices quadrissemanais, considera-se sempre 8
SEMANAS incluindo-se no cálculo as informações sobre os preços coletados na
última SEMANA automaticamente, eliminando-se da operação os dados referentes à
SEMANA mais antiga. São apresentadas, portanto, 3 prévias durante o mês, sendo
a 4ª quadrissemana o resultado definitivo do mês.
127
a) Definição
Foi criado com o objetivo de ser um indicador confiável para as operações
financeiras, especialmente as de longo prazo, sendo utilizado para correções de
Notas do Tesouro Nacional (NTN) dos tipos B e C e para os CDB pós-fixados com
prazos acima de um ano. Mede a variação de preços no mercado de atacado, de
consumo e construção civil. Este índice é formado pela soma ponderada de outros
três índices: IPA-M (índice de preços ao atacado) com peso de 60 por cento; IPC-M
(índice de preços ao consumidor) com peso de 30 por cento; e INCC-M (índice
nacional de construção civil) com peso de 10 por cento. O IGP-M considera todos os
produtos disponíveis no mercado, inclusive o que é importado. Difere do IGP-DI pelo
período de coleta.
b) Instituição
Fundação Getúlio Vargas.
d) Metodologia
Os preços pesquisados pertencem a uma cesta de consumo de famílias com renda
de até trinta e três salários mínimos. Para elaboração do IGP-M, a coleta de preços
é realizada entre o dia 21 do mês anterior e o dia 20 do mês de referência. A
apuração do índice é efetuada em três etapas: 1º decêndio, 2º decêndio e 3º
decêndio. O 1o decêndio compara os preços dos primeiros 10 dias do período e os
preços dos 30 dias do período anterior. O 2o decêndio compara os preços dos
primeiros 20 dias do período e os 30 dias do período anterior. O 3o decêndio
compara os preços dos 30 dias do período e os 30 dias do período anterior.
Portanto, os dois primeiros decêndios são considerados resultados parciais, e o 3o é
o resultado definitivo do índice do mês. Maiores detalhes da metodologia somente
são disponíveis mediante pagamento.
128
a) Definição
O IGP-DI/FGV foi instituído em 1.944 com a finalidade de medir o comportamento de
preços em geral da economia brasileira. É a média ponderada de seus três índices
componentes (IPA-DI, IPC e INCC, com pesos de 60%, 30% e 10%,
respectivamente). Difere do IGP-M especialmente pela periodicidade de coleta, que
aqui coincide com o mês calendário.
b) Instituição
Fundação Getúlio Vargas
d) Metodologia
DI ou Disponibilidade Interna é a consideração das variações de preços que afetam
diretamente as atividades econômicas localizadas no território brasileiro. Não se
considera a variação de preços dos produtos exportada que é considerado somente
no caso da variação no aspecto de Oferta Global. O chamado IGP-10, mede a
variação entre os dias 11 de um mês ao dia 10 (inclusive) do mês subseqüente. Mas
não é válido como índice mensal por englobar cálculos de dois meses. É mais
utilizado para estudos econômicos e outras atividades correlatas. O IGP-DI mede a
variação dos preços conforme acima descrito no período do primeiro ao último dia de
cada mês de referência. Portanto este índice mede a variação de preços de um
determinado mês por completo. O IGP-DI/FGV é calculado mensalmente pela FGV.
Maiores detalhes da metodologia somente são disponíveis mediante pagamento.
a) Definição
É um número índice que tem como objetivo medir o movimento dos preços de um
conjunto de bens e serviços que formam uma cesta de consumo fixa, com itens e
quantidades apurada através de uma pesquisa de orçamento familiar – POF, nos
seus segmentos finais de comercialização, entre um mês civil e o seu anterior. Sua
132
principal utilidade é medir é apurar o poder de compra destes bens e serviços pelos
trabalhadores (levando-se em consideração diferentes faixas salariais) e servir de
base para negociações de melhores salários, ou ainda para o cálculo da inflação. A
população objetivo é composta por famílias com renda entre 1 e 30 salários
mínimos.
b) Instituição
Departamento Intersindical de Estatística e Estudos Sócio-Econômicos, DIEESE,
mantido por cerca de 1000 participantes, incluindo as três grandes centrais sindicais.
d) Metodologia
Utiliza a fórmula de Laspeyres, supondo que não há substituição de bens. As
quantidades apuradas, quando da realização da POF, são mantidas constantes. A
cesta de consumo fixa obtida na POF mantém-se, portanto, inalterada, até que nova
pesquisa domiciliar seja realizada. Supõe-se rigidez nos hábitos de consumo. A atual
composição dos grupos de despesas para o cálculo do índice é o seguinte:
alimentação (27,44%), habitação (23,52%), equipamentos domésticos (6,13%),
transporte (13,62%), vestuário (7,87%), educação e leitura (6,91%), saúde (8,18%),
recreação (2,08%), despesas pessoais (3,96%) e despesas diversas (0,28%).
e) Atualidade da pesquisa
A última pesquisa de orçamentos familiares foi realizada em 1994/1995.
a) Definição
Determina o custo global da obra para fins de cumprimento do estabelecido na lei de
incorporação de edificações habitacionais em condomínio, assegurando aos
compradores em potencial um parâmetro comparativo à realidade dos custos.
Atualmente, a variação percentual mensal do CUB tem servido como mecanismo de
reajuste de preços em contratos de compra de apartamentos em construção e até
mesmo como índice setorial.
b) Instituição
133
a) Definição
O índice de Preços ao Consumidor produzido pelo ITAG, constitui uma estimativa da
evolução média dos preços de 319 bens e serviços, componentes da cesta de
consumo típica das famílias residentes no município de Florianópolis e pertencentes
à faixa de renda de 1 a (+) de 20 salários mínimos.
b) Instituição
ITAG – Instituto Técnico de Administração e Gerência, vinculado ao Centro de
Ciências da Administração da UDESC. O ITAG iniciou a publicação de sua
estimativa do IPC-Fpolis, em JULHO de 1968.
c) Abrangência geográfica: município de Florianópolis.
d) Metodologia
134
a) Definição
O Índice Bovespa é o valor atual, em moeda corrente, de uma carteira teórica de
ações, constituída em 02/01/1968, a partir de uma aplicação hipotética. Supõe-se
não ter sido efetuado nenhum investimento adicional, considerando-se somente a
reinversão dos dividendos recebidos e do total apurado com a venda dos direitos de
subscrição, além da manutenção , em carteira, das ações recebidas a título de
135
a) Definição
Objetiva representar ações de empresas sediadas nos EUA, empresas sólidas e
rentáveis, excluindo os setores de transportes e serviços públicos. Série iniciada em
1896.
b) Instituição
Dow Jones Indexes, empresa responsável pelo cálculo e divulgação do índice.
c) Abrangência geográfica: EUA, mas seu valor afeta os negócios ao redor do
mundo.
d) Metodologia
137
a) Definição
Não há apenas um único índice Nasdaq, mas vários, dependendo do setor
envolvido: composto, Índice 100, Índice 100 para bancos, financeiro, industrial,
biotecnologia, informática, seguros, entre outros, Alguns começaram a ser
138
3.50
3.00
2.50
2.00
1.50
1.00
0.50
0.00
ago/94
dez/94
abr/95
ago/95
dez/95
abr/96
ago/96
dez/96
abr/97
ago/97
dez/97
abr/98
ago/98
dez/98
abr/99
ago/99
dez/99
abr/00
ago/00
dez/00
abr/01
ago/01
dez/01
-0.50
-1.00
-1.50
0
ago/94
dez/94
abr/95
ago/95
dez/95
abr/96
ago/96
dez/96
abr/97
ago/97
dez/97
abr/98
ago/98
dez/98
abr/99
ago/99
dez/99
abr/00
ago/00
dez/00
abr/01
ago/01
dez/01
-1
-2
0
2000
4000
6000
8000
10000
12000
14000
jan/81
set/81
mai/82
jan/83
set/83
mai/84
jan/85
set/85
mai/86
jan/87
set/87
mai/88
jan/89
set/89
mai/90
jan/91
set/91
mai/92
jan/93
Meses
set/93
mai/94
jan/95
set/95
mai/96
jan/97
set/97
mai/98
Média Industrial Dow Jones - 1981-2003
jan/99
set/99
mai/00
jan/01
REFERÊNCIAS
DONAIRE, Denis e MARTINS, Gilberto de Andrade. Princípios de Estatística.
4ª Edição. Ed. Atlas. São Paulo, 1998.
HOFFMANN, Ronaldo e VIEIRA, Sonia. Elementos de estatística. 4ª Edição.
Ed. Atlas. São Paulo, 2003.
MARTINS, Gilberto de Andrade. Estatística geral e aplicada. 3ª Edição. Ed.
Atlas. São Paulo, 2005.
MARTINS, Gilberto de Andrade e FONSECA, Jairo Simon. Curso de
Estatística. 6ª Edição. Ed. Atlas. São Paulo,1996.
Morettin, Pedro e Bussab, Wilton. Estatística Básica. 5ª Edição. Ed Saraiva.
São Paulo, 2002.
SILVA, Ermes Medeiros; SILVA, Elio Medeiros; GONÇALVES, Valter; MUROLO,
Afrânio Carlos. Estatística para os cursos de Economia, Administração e
Ciências Contábeis. 3ª Edição. Ed. Atlas. São Paulo, 1999.
SILVER, Mick. Estatística para administração. 1ª Edição. Ed. Atlas. São Paulo,
2000.
SMAILES, Joanne e MCGRANE, Ângela. Estatística aplicada à administração
com Excel. 1ª Edição. Ed. Atlas. São Paulo, 2002.
TOLEDO, Geraldo Luciano e OVALLE, Ivo Izidoro. Estatística Básica. 2ª
Edição. Ed. Atlas. São Paulo.
Páginas na Internet:
Indicadores econômicos: http://www.indicadores.hpg.com.br/
Índices financeiros brasileiros: http://www.portalbrasil.eti.br/indices.htm/
FIPE – Fundação Instituto de Pesquisas Econômicas: http://www.fipe.com/
FGV – Fundação Getúlio Vargas: http://www.fgv.br/ibre/CEP/index.cfm
IBOVESPA – Índice da Bolsa de Valores de São Paulo:
http://www.bovespa.com.br/
IBGE – Instituto Brasileiro de Geografia e Estatística:
http://www.sidra.ibge.gov.br/
ITAG – Instituto Técnico de Administração e Gerência:
http://www.esag.udesc.br/itag/itag.htm
SINDUSCON – PR: http://www2.visywork.com.br/empresas/sinduscon/
Bolsa NASDAQ: http://www.nasdaq.com/
142