You are on page 1of 28

1

Captulo 3 - Correlao
Robert Wayne Samohyl, Ph.D.
Preliminar

Sumrio
1. Decomposio Clssica 2. Mtodos Exponenciais 3. Correlao
3.1 Introduo e Problemtica 3.2 O Coeficiente de Correlao 3.2.1 Fmulas e Grficos 3.2.2 Exemplo 3.2.3 Intervalo de Confiana 3.2.4 Teste de hiptese 3.3 As Suposies 3.3.1 Linearidade 3.3.2 Estacionaridade na mdia e na varincia 3.3.3 Normalidade 3.4 Autocorrelao 3.4.1 Autocorrelao e estacionaridade 3.4.2 Autocorrelao e sazonalidade 3.5 Coeficiente cruzado de correlao 3.6 Concluses 3.7 Apndice sobre Intervalo de Confiana e Teste de Hiptese 3.8 Referncias

4. ARIMA 5. Regresso Simples (o caso mais simples da mdia) 6. Regresso Mltipla 7. Regresso Dinmica 8. Regresso Logstica

Captulo 3 - Correlao
3.1 Introduo e Problemtica

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

muito comum em qualquer pesquisa baseada em variveis essencialmente quantitativas tentar medir o grau de relacionamento entre essas variveis. No caso da relao ser linear, isto pode ser feito atravs do coeficiente de correlao linear. o caso, por exemplo, quando a pesquisadora prope uma teoria ou hiptese que interliga dois fenmenos, e ento comprova estatisticamente a existncia da relao, utilizando-se de amostras de variveis relevantes no mbito da teoria proposta. Isso no significa necessariamente que existe uma relao de causa e efeito entre as variveis, mas to somente, sugere a existncia de um relacionamento entre duas variveis. O relacionamento entre variveis necessrio para comprovar causa e efeito, mas no suficiente para ser prova definitiva. Quando cresce uma planta, varias caractersticas da planta alteram seu tamanho, peso e altura, por exemplo. A estatstica pode comprovar isso, mas no significa que peso causa altura ou vice versa. A comprovao do fenmeno de causa e efeito nesse caso uma concluso muito forte luz de uma nica experincia, mas com mais experincias e mais prtica, assim como teorias mais realistas, ento causalidade pode ser evidenciada ou no. Nesse caso das caractersticas da planta, a pesquisadora vai certamente encontrar outras variveis que causam o crescimento, como por exemplo, insolao, precipitao e condio do solo onde existe realmente o fenmeno de causa e efeito. Lembrese sempre que a utilizao de ferramentas em Estatstica apenas desvenda relaes entre variveis, e, por outro lado, o conhecimento do processo sob estudo confirma ou no as causalidades inerentes. No caso industrial, por exemplo, imprescindvel analisar como os insumos em um processo produtivo relacionam com caractersticas de qualidade dos produtos e processos. Encontrando as relaes existentes no processo, o engenheiro pode melhorar o resultado, economizar recursos materiais e humanas, e oferecer em geral um processo otimizado. O engenheiro encontra algumas relaes entre variveis as quais ele selecionou na base de conhecimento terico e prtico que ele possui sobre o processo sob estudo. Ele combina corretamente as ferramentas de Estatstica e a sua prpria experincia para conhecer e em seguida melhorar seu resultado. No decorrer do captulo, vrios exemplos sero ilustrados. O coeficiente de autocorrelao, apresentado na seo 3.4, mede a correlao entre defasagens de uma nica varivel no tempo. Por exemplo, em perodos de altas taxas de inflao, a taxa de um ms correlacionada com a taxa do ms seguinte. a famosa inflao inercial. Encontra-se esse tipo de correlao em muitas caractersticas de fabricao, como o desgaste de bitolas atravs do tempo e a temperatura de bateladas, entre outras. A autocorrelao um conceito central para a anlise de sries temporais, para os famosos modelos ARIMA que sero vistos no prximo captulo, e para desvendar a natureza de sazonalidade. Em determinadas pesquisas, interessante colocar uma defasagem no tempo entre duas variveis distintas. Talvez no exista correlao entre duas variveis contemporneas, mas com uma das variveis defasadas ento aparece a desejada correlao. Portanto, quando uma varivel est no perodo t, a outra est em perodo t - 1. O coeficiente assim estimado chamado de coeficiente de correlao cruzada e ser apresentado na seo 3.5. No mundo real, esse fenmeno muito comum. Por exemplo, o treinamento de um operador na fbrica pode eventualmente melhorar a qualidade do produto, mas somente depois de certo perodo de aplicao das novas tcnicas aprendidas.
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

Nesse captulo, vamos discutir esses trs coeficientes de correlao. Antes, porm, gostaramos de ressaltar que, sempre que falarmos em coeficiente de correlao estar falando de um coeficiente que mede a relao linear entre variveis. Na seo 3.3 vamos ver como manipular os dados para transformar uma relao no linear em linear. Nessa seo, vamos discutir tambm outras suposies que devem ser respeitadas para produzir estimativas do coeficiente de correlao adequadas. Os conceitos de teste de hiptese e intervalo de confiana daro uma justificativa para aceitar ou no certo grau de correlao entre as variveis em questo. Em cada instncia, quando for necessrio para a compreenso da teoria, ser apresentado um exemplo com dados tirados de situaes do mundo real do engenheiro e do administrador. 3.2 O Coeficiente de Correlao O coeficiente de correlao uma ferramenta bsica, simples, porm muito eficiente para estimar o grau de relacionamento linear entre variveis, e sua base terica ser explicada nesta seo. 3.2.1 Frmulas e Grficos Atrs desse coeficiente de correlao est outro conceito estatstico, denominado por covarincia. A covarincia e varincia so na teoria conceitos muito prximos. A diferena que a covarincia mede a relao entre duas variveis distintas enquanto a varincia depende de uma nica varivel. Por definio, a covarincia populacional entre duas variveis dada pela seguinte expresso:

XY =

(X t - X ) ( Yt - Y )
T

(3.1)

onde X e Y so as mdias populacionais de Xt e Yt, e T o nmero de elementos da populao. A varincia populacional uma expresso similar, mas com apenas uma nica varivel envolvida fazendo com que a expresso possa ser escrita da seguinte forma:
X =
2

(X t - X ) ( X t - X )
T

(X t - X )2
T

(3.2)

O desvio padro de Xt a raiz quadrada da sua varincia. Em termos de uma amostra (por sinal, sempre muito menor que a populao), a covarincia modificada para levar em conta um menor nmero de graus de liberdade, onde na frmula seguinte, T o tamanho da amostra e os graus de liberdade so dados por (T -1). Alm disso, na maioria das vezes, ns jamais vamos saber quais so os verdadeiros valores das mdias populacionais das variveis de X t e Yt . Por isto, elas so substitudas pelas mdias amostrais, e nesse caso temos a seguinte expresso para a covarincia amostral:

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

SXY =

(X t -X)(Yt -Y)
T-1

(3.3)

Infelizmente, a covarincia no palpvel como estimador de relacionamento, no sentido de que assume valores de menos a mais infinito, sem ter um ponto de referncia que delimita um grau forte de relacionamento de um grau fraco. Portanto, a covarincia no consegue revelar o que seria uma relao forte nem fraca. Para resolver esse problema, a covarincia dividida pelo produto dos desvios padro das amostras das duas variveis Xt e Yt (SX e SY), e conseqentemente essa nova expresso fica padronizada. Essa nova medida de relacionamento chamada justamente de coeficiente de correlao (r). Os valores do coeficiente de correlao esto sempre contidos no intervalo [1, + 1] , ou seja, 1 rXY 1 . Este um resultado muito importante, por que pelo fato de ser padronizado, o coeficiente de correlao no depende da escala nem da locao das variveis Xt e Yt, e o leitor mais interessado pode conferir sua demonstrao que se encontra no apndice A. O coeficiente de correlao pode ser escrito de diversas maneiras. Neste livro, daremos duas formas de se escrever este coeficiente, as quais so: r= SXY SXY = rXYSXSY SXSY (3.4)

r=

(X t -X)(Yt - Y) (X t -X) (Yt - Y)

(3.5)

Quando o coeficiente de correlao for igual a menos um (r = 1) a relao entre as variveis perfeitamente negativa e quando for unitria positiva, a relao perfeitamente positiva. Na prtica, esses valores extremos no so encontrados em pesquisas no mundo real, mas servem de pontos de referncia. Claro, um valor igual a zero significa ausncia de relacionamento linear. Obviamente so os valores intermedirios que vo ocupar nossas preocupaes em situaes reais, e, mais tarde, vamos falar do coeficiente de correlao em termos de testes de hiptese para, assim, resolver as ambigidades. Graficamente, podemos ver mais claramente o que significa a presena ou a ausncia de correlao entre duas variveis. Na figura 1, apresentamos dois grficos com correlaes fracas entre variveis Y e X. No primeiro grfico, a relao ligeiramente positiva e no segundo grfico ligeiramente negativa. No entanto, os dados formam uma nuvem de dados quase circular, e isso significa que para um determinado valor de X vrios valores de Y so possveis. Isso pode ser dito tambm para determinados valores de Y. O valor do coeficiente de correlao na figura - 0,03 e + 0,03 ou em outras palavras praticamente zero. Na figura 1, no h nenhuma segurana de que as variveis realmente tm relacionamento. O pouco de relacionamento que tem provavelmente em funo do acaso no momento que a amostra foi selecionada. uma exigncia da metodologia de que o valor do coeficiente tem que ser longe de zero para validar que duas variveis tm realmente relacionamento. Em outras palavras, se rejeitar a hiptese nula de nenhuma relao (Ho: = 0, onde o coeficiente de correlao da populao desconhecido) com dados que formam nuvens mal definidas como essas na figura 1, ento h uma grande probabilidade de
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

errar, cometendo erro tipo I, rejeitando a hiptese nula quando ela verdadeira. Temos mais para falar sobre testes de hipteses em varias sees neste captulo e no seu apndice. Figura 1 Nuvens de dados com relao entre variveis fraca e mal definida.

Y
Nuvem de dados, maldefinida.

Y
Nuvem de dados, maldefinida.

r = + 0,03

r = - 0,03

Na prxima figura, as relaes entre as variveis so basicamente perfeitas e seguem linhas retas. Um valor de Xt corresponde diretamente a um valor de Yt. O relacionamento perfeito nesse caso significa valores do coeficiente de correlao prximos a um (+1), ou menos um (-1). importante notar que os valores da inclinao das retas so diferentes, mas, de qualquer maneira, o valor do coeficiente de correlao sempre prximo a um ou menos um. apenas o sinal de r que recorda se a relao direta ou inversa. Como pode ver, a inclinao da reta no afeta o valor numrico de r reforando a idia de que o r no uma medida de inclinao, mas sim uma medida de adeso e representao de correlao sobre os pares de dados da amostra, e por inferncia da populao. Figura 2 Nuvens de dados com relao perfeita entre variveis, r igual a 1,0 ou -1,0
Y

X
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

3.2.2 Exemplo No exemplo ilustrado na tabela 1, calculamos o coeficiente de correlao entre a dureza de um plstico medida em unidades de Brinell e o tempo de secagem. O tamanho da amostra 16 peas que vem de um lote de 2000. Seguindo as equaes em cima, o coeficiente pode ser calculado com a soma da ltima coluna (2604) dividida pela raiz quadrada da soma da penltima coluna (1280) e pela raiz quadrada da soma da quinta coluna (5443,9). Tambm, pode ser calculado com a covarincia (173,6) dividido pelo produto dos dois desvios padro (19,05; 9,24). O resultado do clculo 0,986, e significa uma fortssima relao entre a dureza e tempo de secagem1. Tabela 1 Clculos necessrios para o coeficiente de correlao entre dureza e minutos de secagem.
OBSER.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 SOMA = MDIA = 226 28

Yt Dureza em Brinell 199


205 196 200 218 220 215 223 237 234 235 230 250 248 253 246

Xt minutos de secagem 16
16 16 16 24 24 24 24 32 32 32 32 40 40 40 40

(Yt -Y)
-26,6 -20,6 -29,6 -25,6 -7,6 -5,6 -10,6 -2,6 11,4 8,4 9,4 4,4 24,4 22,4 27,4 20,4 0,0

(Yt -Y) 2
705,6 422,8 873,9 653,4 57,2 30,9 111,6 6,6 130,8 71,2 89,1 19,7 597,2 503,4 752,8 417,7 5443,9

(X t -X)
-12 -12 -12 -12 -4 -4 -4 -4 4 4 4 4 12 12 12 12 0,0

(X t -X) 2
144,0 144,0 144,0 144,0 16,0 16,0 16,0 16,0 16,0 16,0 16,0 16,0 144,0 144,0 144,0 144,0 1280,0

(Yt -Y)(X t -X)


318,75 246,75 354,75 306,75 30,25 22,25 42,25 10,25 45,75 33,75 37,75 17,75 293,25 269,25 329,25 245,25 2604,0

DESVIO PADRO Y = 19,05 DESVIO PADRO X = 9,24 COVARIANCIA = 173,6 COEFICIENTE DE CORRELAO = 0,986

3.2.3 Intervalo de Confiana2 importante para algumas pesquisas calcular o intervalo de confiana para valores do coeficiente de correlao. Como pode ser visto no apndice, o intervalo de confiana mede um intervalo onde deve ficar o parmetro da populao, neste caso o coeficiente de correlao, com certo nvel de confiana, por exemplo, 95% ou 99%. Uma vez definido o
1 2

No BER, este tipo de clculo feito no menu anlise de relaes. Veja o apndice deste captulo para relembrar alguns conceitos introdutrios em estatstica. _______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

nvel de confiana desejado (1 ), os elementos do clculo do intervalo o coeficiente estimado da amostra r e o desvio padro da estimativa sr e o valor de z que corresponde ao nvel de confiana exigido pelo pesquisador.

IC(,1-) = rXY z(1-)sr

(3.6)

O problema que o desvio padro um termo extremamente complexo para calcular e uma metodologia mais tratvel ser apresentada nesta seo. Essencialmente o problema que o coeficiente de correlao no segue a distribuio normal, pois assimtrica. No entanto, foi desenvolvida uma expresso pelo famoso Estatstico Fisher que transforma o coeficiente r em varivel aleatria que segue a normalidade, z de Fisher.

z = 0,5ln

(1+r) (1-r )

(3.7)

A estatstica z de Fisher distribuda normalmente e tem desvio padro igual a

z =

1 n-3

(3.8)

Assim, um intervalo de confiana pode ser calculado para a nova varivel z, e z ento pode ser retransformada em r.

IC(z,1-) = 0,5ln

1+r z1- 1-r

1 n-3

(3.11)

Substituindo os dados do exemplo acima sobre a dureza de Brinell, o intervalo de confiana para z que desejamos calcular :
IC ( z ,1 0, 05) = 0,5ln

1 + 0,986 1 1,96 = 2, 477 0,543 = (3, 02;1,934) 1 0,986 16 3

O intervalo de confiana em termos da transformao z de Fisher tem limite superior de 3,02 e inferior de 1,934. O valor z = 3,02 significa que r = 0,995. Este resultado vem diretamente da equao 3.9 encontrando o valor de r na expresso 0,5*ln[(1+r)/(1-r)] = 3,02. O limite inferior do intervalo de confiana para r do valor z = 1,934 transformado para r = 0,959 da expresso 0,5*ln[(1+r)/(1-r)] = 1,934. IC(, 1- 0,05) = (0,995; 0,959) Este resultado confirma sem dvida de que dureza e tempo de secagem so altamente relacionados. Com estes clculos ento os engenheiros podem monitorar melhor o processo para garantir certo nvel de dureza do produto dependendo do custo de esperar o produto secar.
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

3.2.4 Teste de hiptese3 Dado o fato de que o coeficiente de correlao (r) vem, na prtica, de uma amostra, seu valor no perfeitamente igual ao valor do parmetro da populao (), a representatividade entre amostra e populao no garantida. J vimos esta constatao na seo anterior sobre o intervalo de confiana. Sempre existe a possibilidade de erro amostral. comum ento montar um teste de hiptese, supondo portanto que as duas variveis (X, Y) so distribudas normalmente, onde a hiptese nula (Ho) = 0. O coeficiente de correlao leva o smbolo quando se refere ao parmetro da populao. A hiptese alternativa (Ha) 0. possvel mostrar que a seguinte expresso:

r T2 =t cal 2 1 r

(3.9)

onde r igual ao coeficiente de correlao calculado da amostra de tamanho T, distribuda como uma estatstica t-Gosset (o estudante) com T - 2 graus de liberdade e significncia (dividido pela metade /2 em cada cauda da distribuio quando a hiptese alternativa desigualdade). Tabela 2 Valores de t de Gosset (o estudante) que rejeitam Ho: = 0 para = 0,01 (rea sombreada) e para diferentes valores de r e T. Veja equao 3.6. r= tcal T=12 tcal T=52 tcal T=102 tcal T=152 tcal T=202 0,05 0,10 0,15 0,20 2,87 0,25 3,14 3,63 0,30 3,11 3,83 4,43 0,35 3,70 4,55 5,26 0,40 3,02 4,32 5,31 6,14 0,45 3,49 4,99 6,13 7,09 0,50 4,00 5,72 7,02 8,12 0,55 4,56 6,52 8,01 9,27 0,60 5,20 7,42 9,12 10,55 0,65 5,93 8,47 10,41 12,04 0,70 6,79 9,70 11,92 13,79 0,75 3,21 7,86 11,22 13,79 15,96 0,80 3,77 9,24 13,20 16,22 18,76
3

Para entender esta seo, o leitor deve compreender a teoria de teste de hiptese. Para relembrar os conceitos bsicos, veja o apndice deste captulo. _______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

0,85 0,90 0,95

4,56 5,84 8,61

11,18 14,30 21,08

15,97 20,44 30,12

19,63 25,12 37,01

22,70 29,05 42,81

Para valores grandes dos graus de liberdade T - 2 aproximando 150, se a equao acima for maior que 1,96, ento a hiptese nula de nenhuma relao rejeitada e considerado diferente de zero com probabilidade de cometer erro tipo I igual a 5%, o nvel de significncia . Se tCal for maior que 2,58, a hiptese nula rejeitada com 1% de chance de cometer o erro tipo I. Substituindo 2,58 na equao e utilizando T=152 significa:

r 152 2= 2,58 2 1 r
e isso tem como soluo r = 0,206. Por sinal, h uma relao negativa entre T e r para um determinado valor de . Quando existem valores maiores para o tamanho da amostra T, so permitidos valores para r menores para rejeitar a hiptese nula de no correlao. Isso fica muito aparente na tabela 2. Com o tamanho da amostra T pequeno com valor 12 (a primeira coluna da tabela 2), necessita-se de um valor do coeficiente de correlao no mnimo igual a 0,75 para rejeitar a hiptese nula de ausncia de correlao. Por outro lado, quando T maior, 202, por exemplo, um valor de r no mnimo tem que ser somente 0,20 para rejeitar a hiptese nula. E quando a pesquisadora permite um nvel de risco maior com alfa maior, ento o coeficiente de correlao tambm pode ser menor para rejeitar a hiptese nula de no correlao. Aumentando permite-se um valor menor para o coeficiente. Aumentando o tamanho da amostra, tambm se permite um valor menor. Esse resultado funo do principio de maior representatividade que vem de amostras grandes as quais refletem melhores as caractersticas da populao e do mais segurana para o pesquisador no momento de rejeitar a hiptese nula de nenhuma relao. Voltando para o exemplo do plstico, para calcular o valor de t de Gosset utilizamos os nmeros, T = 16, r = 0,986, o que produziu um valor t = 5,91. Isto que dizer que existe uma forte significncia para = 0,01, e portanto rejeita a hiptese nula de correlao zero basicamente com pouco risco de errar. Pela tabela 2, no tem coluna para T = 16, mas na coluna T = 12 o primeiro valor de t de Gosset que significante (3,21) corresponde ao r = 0,75. No nosso exemplo, o valor de Gosset muito maior (5,91), portanto a rejeio da hiptese nula muito segura.

3.3 As Suposies Na seo anterior vimos como calcular o coeficiente de correlao e isso ja algo til no dia a dia no seu trabalho. No entanto, nesta seo vamos ver que no qualquer dado que serve para o clculo do coeficiente de correlao. Se os dados no so bem comportados, ento existe uma grande possibilidade de que os resultados no so confiveis. Relaes fracas podem aparecer enganosamente fortes e vice-versa. Dados mal-comportados tem que ser
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

10

tratados com vrios tipos de transformaes antes de entrar nas frmulas. Os dados devem seguir fielmente pelo menos trs caractersticas: linearidade, normalidade, e estacionaridade. 3.3.1 Linearidade O coeficiente de correlao uma medida de relacionamento entre duas variveis, sempre supondo que a relao entre elas linear: no grfico de disperso de XY, a relao linear representada por uma linha reta. Em outras palavras, uma relao forte e bem definida entre duas variveis, mas em forma no-linear, por exemplo, quadrtica, vai produzir um r prximo zero, e levar o pesquisador a decises erradas. Por isso a relao das variveis deve ser linearizada antes de entrar no clculo do coeficiente, para isto basta transformar uma ou as duas variveis numa maneira apropriada e o coeficiente de correlao resultante aumentar em valor, assim como o valor de t. Em outras palavras, com uma transformao das variveis pode-se tornar uma relao aparentemente fraca em surpreendentemente forte. Para ilustrar a necessidade de buscar transformaes adequadas antes de calcular o coeficiente, vamos utilizar os dados do famoso experimento do Robert Boyle do sculo 17 onde ele encontra a famosa lei de correlao linear entre presso (P) e a inversa de volume (!/V). No o caso de explicar aqui em detalhes deste experimento, como foi feito e como foram mensuradas as unidades. Os dados esto na tabela 3. Tabela 3 Dados de volume e presso do experimento de Boyle
VOLUME 48 46 44 42 40 38 36 34 32 30 28 26 24 23 22 21 20 19 18 17 16 15 14 13 12 PRESSO 29,125 30,5625 31,9375 33,5 35,3125 36,78947 39,3125 41,11765 44,1875 46,6 50,3125 54,3125 58,25 61,3125 63,54545 66,57143 70 74,25 77,666 82,75 87,875 93,0625 100,4375 107,8125 117,5625

O que no fica muito claro na tabela 3, mas por outro lado fica muito claro na figura 2, que a relao entre presso e volume intrinsecamente no-linear nas duas variveis originais sem transformao. A questo agora qual transformao de qual varivel tornariam a relao linear? Tradicionalmente nesta rea de pesquisa quantitativa, as transformaes sequem as
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

11

exponenciais, quer dizer, X transformado em W utilizando as transformaes X-2, X-1, X-1/2, X1, X2. claro que X-1 a inversa de X, e X1/2 a raiz quadrada de X (X).

48,4 43,4 38,4 33,4 28,4 23,4 18,4 13,4 8,4 20,28

VOLUME

40,28

60,28

80,28 PRESSO

100,28

120,28

Figura 2 A relao no-linear entre volume e presso Vamos transformar a varivel volume na sua inversa e mostrar a figura resultante, figura 3.
0,09 0,08 0,07 1/VOLUME 0,06 0,05 0,04 0,03 0,02 0,01 20,28 40,28 60,28 80,28 PRESSO 100,28 120,28

Figura 3 A relao no-linear entre a inversa de volume e presso A relao foi linearizada com a transformao da varivel volume. As outras transformaes sugeridas tambm foram feitas e todos os possveis coeficientes de correlao foram calculados. Os resultados seguem na tabela 4. Todos os coeficientes tm valores altos, inclusive o coeficiente entre presso e volume sem transformao (veja o valor de -0,9348), e desde que o coeficiente negativo a teoria de Boyle parcialmente comprovada. Analisando melhor a tabela, comprovado que o melhor coeficiente aquele mais perto de 1,0, justamente o coeficiente entre presso e a inversa de volume com valor 0,99, comprovando fortemente a teoria de Boyle. Este valor do coeficiente corresponde ao valor de t de Gosset praticamente igual ao infinito pela equao 3.6. O analista mais experiente j vai suspeitar correlao muito forte entre as duas variveis pelo resultado mostrado na figura 3.

Tabela 4 Coeficientes de correlao entre variveis transformadas

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

12

Tabela de Correlao
Variveis N obs. VOLUME PRESSO VOLUME_^-1 VOLUME_^-2 VOLUME_^2 25 VOLUME 1,0000 -0,9348 -0,9354 -0,8623 0,9877 25 PRESSO -0,9348 1,0000 0,9999 0,9848 -0,8718 25 VOLUME_^-1 -0,9354 0,9999 1,0000 0,9844 -0,8724 25 VOLUME_^-2 -0,8623 0,9848 0,9844 1,0000 -0,7815 25 VOLUME_^2 0,9877 -0,8718 -0,8724 -0,7815 1,0000

Com este exemplo, ns procuramos mostrar que muito importante transformar as relaes numa relao linear, antes de se fazer o clculo do coeficiente de correlao. 3.3.2 Estacionaridade na mdia e na varincia Quando o caso de anlise de series temporais, dados coletados ao longo do tempo em intervalos aproximadamente regulares, a estacionaridade dos dados uma condio importante na anlise estatstica. importante mencionar esta importante caracterstica dos dados, mas ns no vamos nos deter muito agora no assunto o qual ser amplamente abordado no prximo captulo, no captulo 7 sobre regresso dinmica e neste captulo na seo 3.4.1 sobre o coeficiente de autocorrelao. suficiente dizer que o problema que sries temporais tm a tendncia de subir ou descer durante longos perodos de tempo, e se forem comparadas duas sries deste tipo certamente o coeficiente de correlao ter um valor significante. Mas nesse caso a significncia no revela um fato novo, que uma varivel necessariamente relaciona-se com outra, apenas que as duas sries sobem e descem durante longos perodos e o coeficiente de correlao est registrando o fato. Isso pode ocorrer em funo de vrias razes, mas a mais comum quando alguma terceira varivel escondida da viso do pesquisador afeta simultaneamente as duas variveis sob investigao. Na figura 4, tem-se duas variveis no-estacionrias pelo fato de que elas sobem e descem lentamente. Esses dados representam os preos de duas aes na bolsa de valores de So Paulo. Observase que dos valores das duas sries comeando ao redor da observao 25 at o final das sries, h uma correlao positiva com as duas subindo, claro um muito mais rpido do outro. O fato que as duas aes so independentes uma da outra, pois so de empresas diferentes em setores e ramos diferentes, mas so condicionadas pelas mesmas variveis macroeconmicas. Figure 4 Duas variveis no estacionrias, preos de aes

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

13

100

80

60

valores

40 Yt Xt 20

-20

tempo
-40

No-estacionaridade pode ser resolvida muitas vezes com uma primeira diferena da srie. Quer dizer, em vez de trabalhar com o valor da varivel original, utiliza-se na frmula do coeficiente a primeira diferena. O grfico destes valores transformados pela primeira diferena est na figura 5. Figure 5 variveis no-estacionrias transformadas pela primeira diferena
20

15

10

valores

Yt - Yt-1 Xt - Xt-1

-5

-10

-15

-20

tempo
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

14

Agora mais fcil ver que no h mais nenhuma tendncia nos dados; os dois dados so estacionrios. Na tabela 5, estimada dentro do Software BER, o coeficiente de correlao entre Yt e Xt altamente significante com valor de 60%, mas como j foi alertado acima, muitas vezes variveis no-estacionrias mostram uma correlao enganosa. Analisando o coeficiente entre a primeira diferena das duas variveis a histria outra: o coeficiente igual a 11,13% insignificante. Devemos concluir ento que no h relao entre as duas variveis. Tabela 5 Coeficientes de correlao entre variveis no estacionrias e transformadas para torna-las estacionrias Tabela de Correlao
Variveis Yt Xt Yt - YtXt - Xt-1 N obs. 99 99 99 99 Yt Xt Yt - Yt-1 0,1096 -0,0671 1,0000 0,1113 Xt - Xt-1 0,0930 0,2399 0,1113 1,0000 1,0000 0,5956 0,5956 1,0000 0,1096 -0,0671 0,0930 0,2399

No final, a boa aplicao do coeficiente de correlao exige que todos os momentos das variveis aleatrias sejam constantes, a mdia, a varincia, as autocovarincias (discutida neste captulo na seo sobre autocorrelao, seo 3.4), e outros momentos todos tm que ser constantes no tempo. Veja mais detalhes nos captulos 4 e 7. 3.3.3 Normalidade Dependemos de um teste de hiptese para decidir se a correlao existe ou no. Nesta deciso necessrio calcular o valor da estatstica t de Gosset da equao 3.6 e utilizar os valores mnimos significantes da tabela 2. s vezes, quem utiliza a ferramenta no preocupa com a pressuposio bsica de normalidade das duas variveis. Se os dados no so distribudos normalmente, ento o teste de hiptese com o t de Gosset no perfeitamente confivel. A pesquisadora pode sofrer o engano de aceitar a existncia de correlao quando no existe ou vice versa. Conseqentemente, devemos ver dois conceitos aqui: um teste para verificar se a varivel tem ou no normalidade, e se no tiver, tem que procurar alguma transformao da varivel para resolver o problema e trazer a varivel para normalidade. A distribuio normal considerada a mais comum encontrada em problemas do mundo real para variveis mensuradas como peso, comprimento e volumes. Mas pode ocorrer com determinados tipos de dados que a no-normalidade o caso, especialmente com dados cujos valores so truncados, quer dizer, cujos valores tm limites mximos ou mnimos. Valores truncados uma violao de uma das suposies tericas bsicas da distribuio normal, ou seja, teoricamente os dados variam entre infinito negativo e positivo. Tipos de dados que no so distribudos normalmente so: tempo entre eventos como a espera pelo nibus ou o tempo necessrio para completar a tarefa (tem limite zero), probabilidades (limites zero e 100%), valores monetrios gastos em mercadoria (gasto negativo no existe), entre outros. Em seguida vamos definir caractersticas que medem distores que representam no normalidade, a assimetria e a curtose, e como combinar esses dois conceitos para testar se os dados so realmente distribudos normalmente.
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

15

Testando para normalidade Existem vrios testes de normalidade, mas um dos mais simples o teste chamado de BeraJarque. Em primeiro lugar vamos mostrar as equaes e posteriormente desenvolver um exemplo. A fundamentao estatstica utilizada como base do teste de Bera-Jarque dada pelas equaes 3.12:
ass 2 (curt -3) 2 2 T + 2 > 6,0 24 6 ass =

(x i - )3 /T
(x i - ) /T
2

(3.10)

curt =

(x i - )4 /T
(x i - ) /T
2

onde T o tamanho da amostra, os xi so os valores observados dos dados e a mdia dos dados. O coeficiente de assimetria (ass na frmula) baseado no terceiro momento da distribuio, M3: M3 =

(x t -)3
T

(3.11)

Nota-se que a frmula quase a mesma da varincia, tambm chamada de segundo momento, com uma notvel diferena, o desvio leva o expoente 3. Com essa expresso ento construdo o coeficiente de assimetria (ass). Para normalizar o coeficiente de assimetria M3, basta divid-lo pelo desvio padro elevado ao cubo, isto

ass =

M3 3

(3.12)

A normalizao necessria para evitar o aparecimento de nmeros grandes demais e, portanto incompreensveis. A assimetria toma duas formas distintas, a positiva e a negativa. A positive com a cauda comprida no lado direito da curva e na direo positiva representada na figura 3. Se a cauda for do lado esq2uerdo da curva na direo negativa ento a assimetria seria negativa.

Figura 3 Distribuio com Assimetria Positiva

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

16

0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8

A presena de assimetria forte (ass diferente de zero) obriga a reconsiderao da suposio de normalidade, pois a normalidade exige uma distribuio de freqncias simtrica sem nenhuma cauda mais comprida que a outra. A curtose outra estatstica que faz parte do teste de Bera-Jarque, e est baseada no quarto momento da distribuio, M4: M4

(x -)4 =
T

(3.13)

E seguindo o mesmo procedimento utilizado para o coeficiente de assimetria, pode-se construir o coeficiente de curtose, dividindo o quarto momento pelo desvio padro elevado a quarta potncia, isto :
curt = M4 4

(3.14)

Este coeficiente igual a trs quando a distribuio dos dados for normal. Existe tambm o coeficiente com excesso de curtose, o qual dado por:
excesso de curtose = M4 -3 4

(3.15)

Obviamente, o coeficiente com excesso de curtose ser igual ao zero no caso de distribuies normais. Quando as caudas da distribuio tm tamanho distorcido e no-normal, mas a distribuio continua simtrica, ento temos o problema de curtose. Quando as caudas so finas demais e a distribuio se estica para cima, exibindo a propriedade de leptocurtose, o coeficiente de curtose excessivo ter um valor maior que zero. Quando as caudas so grandes demais o coeficiente menor que zero exibindo a chamada platicurtose. A qualidade de mesocurtose a caracterstica que define a distribuio normal.
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

17

Figura 4 Curtose

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

leptocurtose

platicurtose

A questo central : quanta curtose e quanta assimetria so suficientes para violar a suposio de normalidade nos dados? No mundo real, quando so calculados os dois coeficientes, nunca vo aparecer valores iguais a zero, sempre vai ter um pouco de distoro na distribuio. Existem literalmente centenas de maneiras diferentes para verificar a presena de normalidade, mas a simplicidade do teste de Bera-Jarque, construdo com as expresses de assimetria e curtose, um grande benefcio. Basta dizer que a estatstica de Bera-Jarque, que segue a distribuio chi-quadrado, rejeita normalidade a favor de no normalidade quando a estatstica de Bera-Jarque for maior que 6,0 (com nvel alfa significncia igual a 5%). Quando assimetria (ass) e curtose (curt) so grandes, a curva em forma de sino que caracteriza a distribuio normal fica muito irregular e a expresso de Bera-Jarque ter um valor maior que 6,0. Isso ento indica a presena de no-normalidade na distribuio dos dados4. Portanto, dados no-normais utilizados para calcular o coeficiente de correlao no permitem o teste t de Gosset baseado na normalidade, e sem o teste t no h como comprovar se um determinado valor do coeficiente diferente de zero na realidade. No exemplo dos dados de Boyle, a varivel presso tem valor de Bera-Jarque igual a 1,94 e a varivel volume 2,04, ambos os valores bem menores que 6,0 indicando ento a presena de normalidade. Vamos ver agora um exemplo de no-normalidade que facilmente ocorre na vida real. Nos dados da tabela 5 constam o tempo ativo e inativo de uma mquina injetora numa fbrica de telefones celulares. Tabela 5 Tempo ativo e inativo de uma mquina injetora de plstico e a quantidade de pedidos no incio de cada tempo ativo
4

No BER, o teste de Bera-Jarque calculado automaticamente no menu de Estatstica Descritiva. _______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

18

N obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

TEMPO TEMPO ATIVO INATIVO 17 16,5 16,5 4,29 17,25 8,39 16 12,62 16 4,91 16 8 13,92 4,09 16,42 14,97 14,75 4,83 14,75 15,9 14,5 6,6 21 8 16 8 15,25 5,12 13 9,66 22 1,32 16 10,12 16 9,31 11 6,34 16,75 1,74 17 0,12 15,5 3,1 15,25 13,23 13 9 21 9,62 16 13,12 15 1,87 16 5,27 16 15,7 15 11,44 15 6,44 14 0,1 15 3,91 16,83 14,9 15,75 4,22 17,5 11,53 16,25 7,02 14 9,78 13,5 7,35 15 6,59 13 5 16,83 7,14 14 8 18,75 16,21 17,75 7,2 13,5 8 14,87 3 14 0,9 18,08 8,25 15,33 11,18 17,33 1,68

SOMA 33,5 20,79 25,64 28,62 20,91 24 18,01 31,39 19,58 30,65 21,1 29 24 20,37 22,66 23,32 26,12 25,31 17,34 18,49 17,12 18,6 28,48 22 30,62 29,12 16,87 21,27 31,7 26,44 21,44 14,1 18,91 31,73 19,97 29,03 23,27 23,78 20,85 21,59 18 23,97 37,76 34,96 24,95 37,52 17,87 14,9 26,33 26,51 19,01

QUANTIA PEDIDA 86,55 60,76 71,29 53,53 58,48 60,47 55,17 52,21 48,44 50,41 61,50 70,79 55,92 57,02 52,67 60 70,10 62,69 49,18 70,20 46,76 59,24 66,13 68,35 60 62,43 55,74 58,74 58,15 54,29 63,61 49,42 57,26 66,06 71,02 63,67 55,14 46,18 50,32 60,23 40,14 58,68 39,77 59,57 65,92 58,74 56,56 58,00 59,71 63,64 59,29

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

19

52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 BeraJarque

17,83 21 15,53 14,12 16,82 14,6 18,25 12,75 13 15,5 14,37 16,97 15,32 15,13 16,33 11,75 14 14,75 15,33 15 21 16 21,75 11,08 15,83 14,5 15,5 19 16 16 12 13 16,42 15,25 15,17 16,58 15,25 15,25 12,5 15,75 14,87 17,12 15 14,5 14 14,5 14,75 12 19,5

9,87 3,32 2,27 17,16 4,44 8 19,43 8 0,29 6,55 8 8,64 7,44 2,11 15,09 9,56 2,3 3,29 2,26 4,27 13,86 19,57 9,15 13 7,3 2,67 2,29 14,49 8 16,84 8,87 11,41 1,29 5,21 0,61 6,36 4,42 4,62 8,08 1,58 7,71 1,33 1,99 7,57 8,33 5,53 18,53 16 5,8

27,7 24,32 17,8 31,28 21,26 39,03 37,68 20,75 13,29 22,05 22,37 25,61 22,76 17,24 31,42 21,31 16,3 18,04 17,59 19,27 34,86 35,57 30,9 24,08 23,13 17,17 17,79 33,49 24 32,84 20,87 24,41 17,71 20,46 15,78 22,94 19,67 19,87 20,58 17,33 22,58 18,45 16,99 22,07 22,33 20,03 33,28 28 7,4

59,38 58,39 32,58 50,90 65,22 59,52 72,54 40,41 63,71 60,59 63,92 60,28 69,46 74,66 50,83 48,60 57,11 53,73 53,82 48,94 74,34 60,37 87,86 36,69 60,04 55,25 45,91 66,42 69,37 58,20 47,26 44,10 59,59 55,90 59,64 70,00 62,94 58,69 40,54 58,83 38,37 59,19 59,32 61,65 49,53 54,61 66,85 41,13 4,3

Na primeira coluna da tabela tem o numero da observao. O primeiro nmero na coluna chamada tempo ativa significa que a mquina funcionou sem parar durante 17 horas, e depois
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

20

disso ficou parada durante 16,5 horas (coluna tempo inativo) para conserto ou manuteno. Quando voltou a funcionar, ficou 16,5 horas antes de parar (segundo nmero da coluna tempo ativo), e ento parou durante 4,29 horas (segundo nmero da coluna tempo inativo). Na quarta coluna tem a soma dos dois tempos e na quinta coluna a quantidade de unidades pedidas na fila da linha de produo no incio do tempo ativo. A estatstica de Bera-Jarque foi calculada para as quatro variveis e os resultados, na ltima linha da tabela, so 19,5 para tempo ativo e 5,8 para o tempo inativo, a soma dos dois tempos tem valor 7,4 e pedidos 4,3. Consequentemente duas variveis so no-normais indicado pelos valores altos da estatstica Bera-Jarque, o tempo ativo e a soma dos dois tempos. Antes de entrar na equao do coeficiente de correlao, as duas variveis no-normais tero que ser transformados em normais. Por exemplo, quando a varivel no normal, o pesquisador pode buscar uma transformao como o logaritmo ou a inversa ou outra, e a varivel transformada talvez seja distribuda normalmente. Um mtodo para transformar dados apresentado na prxima seo. Transformando variveis no-normais As transformaes so calculadas quase automaticamente no BER na parte de transformao de dados. Vrias transformaes so oferecidas, a chamada , a transformao Box-Cox, entre outras. Por ser mais simples vamos falar primeiro sobre a transformao generalizada por expoente. Cada dado da varivel transformada com a seguinte equao com expoente :

Xi() = Xi

(3.16)

A idia muito simples: deve existir algum valor de ( comum ficar entre 3 e -3) que transforma a varivel de no-normal em normal. Para a varivel tempo ativo, foi calculado em -0,37, e a varivel transformada tem estatstica de Bera-Jarque igual a 3,56, bem menor que 6 e portanto pode ser considerada como normal. Nota-se que Xi-0,37 praticamente equivalente a ( 3 X i )-1. A varivel soma ficou com = -0,58, representando uma transformao praticamente igual a (1/Xi), e Bera-Jarque igual a 0,78. Veja todos os resultados na tabela 6. A outra transformao que nos vamos comentar aqui a Box-Cox: Xi () = Xi - 1 (3.17)

Quando no muito prximo ao zero, as duas transformaes so essencialmente iguais e isso significa que a primeira transformao, por ser mais simples, deve ser a preferida. No entanto, quando se aproxima a zero, a transformao mais complexa (3.19) preferida, pois esse valor de zero significa que a transformao correta seria do logaritmo neperiano (ln(Xi)), o que na prtica muito comum. Em sries temporais, a primeira diferena do logaritmo neperiano de uma varivel uma aproximao ao crescimento percentual:
ln(X t ) - ln(X t-1 ) @ X t - X t-1 , X t-1

(3.18)

e esta transformao muito utilizada nas reas de economia e finanas.


_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

21

Tambm na tabela 6 a ltima coluna traz os resultados da Bera-Jarque da transformao pelo log neperiano. interessante notar que para as duas variveis problemticas a transformao pelo log tambm consegue normalizar a varivel. verdade que a transformao Box-Cox produz valores menores para a estatstica Jarque-Bera, no entanto a simplicidade e intuio da transformao pelo log ou pela transformao generalizada por expoente so caractersticas atraentes para qualquer manipulao algbrica e, portanto a transformao mais simples prefervel, se no tiver outras razes. Tabela 6 Transformaes e normalidade
Varivel Jarque-Bera Lambda Jarque-Bera Jarque-Bera sem transformao com com transformao simples transformao transformao simples log neperiano 19,52 5,76 7,39 4,29 -0,37 0,58 -0,58 0,79 3,56 1,27 0,78 3,66 4,67 129,63 1,87 12,02

TEMPO ATIVO (TA) TEMPO INATIVO SOMA QUANTIA PED

Tabela 7 Coeficientes de correlao entre variveis originais e transformadas5


Tabela de Correlao
Variveis TEMPO ATIVO 1,00 -0,45 0,56 ---0,43 0,44 TEMPO INATIVO SOMA QUANTIA PED TEMPO ln_TEMPO ATIVO ATIVO L1(-0,37) SOMA L1(-0,58) ln_SOMA

TEMPO ATIVO TEMPO INATIVO SOMA QUANTIA PED TEMPO ATIVO L1(-0,37) ln_TEMPO ATIVO SOMA_L1(-0,58) ln_SOMA

1,00 0,92 ----0,91 0,92

1,00 0,32 -0,43 0,44 ---

1,00 -0,57 0,57 -0,30 1,00 -1,00 0,41 -0,42 1,00 -0,42 0,43 1,00 --

1,00

Tem algumas caractersticas da tabela 7 que devem ser destacadas, considerando que a tabela muito comum para anlises deste tipo. A correlao entre uma varivel e ela mesma perfeita e, portanto o diagonal s tem valores unitrios para estes coeficientes. O coeficiente entre tempo ativo transformada com expoente -0,37 e o logaritmo de tempo ativo igual a -1,00 e isso significa que as duas transformaes so na prtica iguais, claro com a nica diferena sendo o sinal. Em todos os casos da tabela, no ha grande diferena entre os coeficientes estimados com as variveis originais ou com as transformadas. Consequentemente podemos dizer que o coeficiente de correlao um estimador robusto no sentido que violaes da suposio de normalidade parece no incapacitar a estatstica. No
5

Alguns valores foram excludos da tabela 7 porque so insignificantes ou irrelevantes. _______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

22

entanto, esta ltima concluso depende muito do caso sob investigao e se tiver tempo e recursos disponveis sempre melhor a transformao para normalidade. O coeficiente de correlao entre tempo ativo da mquina (em logaritmos) e quantia de pedidos na fila tem valor alto (0,57) e significante. Notam-se nos dados que a fila sempre existe; no h nenhum momento quando os pedidos caem ao zero. Consequentemente est havendo um mau gerenciamento da mquina; no h razo para forar a mquina funcionar mais tempo sem uma parada para manuteno preventiva em funo do nmero de pedidos em fila. Assim, seria melhor para a fbrica se a injetora funcionar regular e continuamente em 16 horas (ou um pouco mais pagando hora extra) no ambiente de um programa de manuteno preventiva em vez de funcionar irregularmente sem um programa de manuteno, como o caso hoje. 3.4 Autocorrelao O coeficiente de correlao j foi definido na seo 3.2 e utilizada para medir o relacionamento entre duas variveis. O coeficiente de autocorrelao tem uma forma quase igual, mas para uma nica varivel em defasagem. O ndice no r significa o

rj =

(X -X)(X -X) (X -X) (X -X)


t t-j t t-j

tamanho da defasagem em nmero de perodos . O rj uitilizado para analisar a presena de padres temporais nos dados, e nesse sentido pode encontrar sazonalidade e ademais pode ser utilizado para detectar se a varivel estacionria. 3.4.1 Autocorrelao e estacionaridade Como ja foi definido na seo 3.3.2, variveis no estacionrias tendem a subir ou descer durante longos perodos de tempo. Na figura 4, os dois preos de aes comportam assim. Para um nico preo um valor alto (baixo) tende a reproduzir outro valor alto (baixo) no prximo perodo. Este tipo de comportamento deve continuar para dados separados por mais que um perodo, por exemplo, dois periodos, mas sem a mesma fora, e com trs ou mais perodos sempre com fora menor, enquanto a defasagem cresce. Em termos do coeficiente de autocorrelao, isso significa que deve haver um coeficiente grande para dados separados por uma defasagem, e grande mas um pouco menor para duas defasagens, e assim por diante. Vinte e seis coeficientes de correlao foram calculados da varivel Yt da figura 4 para um total de 26 defasagens. Os resultados esto na tabela 7 e graficamente na figura 5 como correlograma, a representao mais comun e no final mais prtica. No correlagrama fica muito claro que as correlaes so grandes mas deterioram lentamente com tempo, indicando que a varivel realmente no estacionria. Quando a equao do coeficiente de correlao e as suas estimativas so colocados para todas as defasagens ento a equao se chama de funo de autocorrelao (FAC). Tabela 7 Coeficientes de autocorrelao

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

23

Tamanho da Coef. de defasagem autocorr. 1 0,98 2 0,95 3 0,92 4 0,89 5 0,86 6 0,82 7 0,78 8 0,74 9 0,70 10 0,67 11 0,64 12 0,61 13 0,58 14 0,55 15 0,52 16 0,50 17 0,47 18 0,45 19 0,42 20 0,39 21 0,36 22 0,32 23 0,29 24 0,25 25 0,22 26 0,18

FAC - Yt
1,20 1,00 0,80 0,60 FAC 0,40 0,20 0,00 -0,20 -0,40
1 3 5 7 9 11 13 15 17 19 21 23 25

Figura 5 Correlograma dos coeficientes de autocorrelao da tabela 7 3.4.2 Autocorrelao e sazonalidade

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

24

Uma outra utilizao do coeficiente de correlao e do correlograma para analisar sazonalidade. A figura 6 representa o correlograma para os dados de consumo de energia eltrica em S. Catarina de janeiro de 1986 at dezembro de 2003 (216 verificaes). Os maiores coeficientes esto nas defasagens 12, 24, 36, 48 e se tivesse mais espao na pgina iriam continuar nas defasagens 60, 72, e assim por diante. De antemo podemos nos desconfiar que o padro do grfico deve exibir o comportamento sazonal do consumo de energia eltrica. A relao entre o consumo do mesmo ms em dois anos diferentes deve ser muito parecido, talvez com uma pequena diferena em funo de crescimento ou decrescimento da economia do pas. De um ano para o outro a relao relativamente mais forte, quase 50% no grfico da figura 6 na defasagem 12, um pouco mais fraca para a defasagem 24 (42%) e sempre caindo para as defasagens maiores. O coeficiente de autocorrelao tem uma expresso muito simples para seu desvio padro, 1/t, onde t o tamanho da amostra. No exemplo sobre o consumo de energia eletrica, o desvio padro 1/216 ou 0,07. Desde que aproximadamente 5% das frequncias ficam fora dos limites de 2 desvio padro, esses limites servem de valores crticos para o teste de hiptese que Ho: = 0 com alternativa Ha: 0, e os limites so facilmente visualizados no correlograma. Veja as linhas vermelhas na figura 6 nos valores 0,14 e - 0,14. O correlograma de figura 6 foi calculado utilizando a primeira diferena do consumo absoluto mensal por causa da presena de no-estacionaridade dos dados originais. O correlograma dos dados originais se encontra na figura 7. Pode-se notar que o correlograma melhor descrito como cheio indicando no-estacionaridade como explicado na seo anterior, exigindo entao a utilizao de uma primeira diferena para estacionar a srie. Figura 6 - Correlograma dos coeficientes de autocorrelao de consumo residencial mensal de energia eltrica em S. Catarina de janeiro de 1986 at dezembro de 2003 (dados em primeira diferena)

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

25

FAC - DifCR
0,6 0,5 0,4 0,3 0,2 FAC 0,1 0 -0,1 -0,2 -0,3 -0,4
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47

Figura 7 Correlograma de dados originais de consumo residencial de energia eltrica

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

26

FAC - Consumo Residencial


1,2 1 0,8 0,6 FAC 0,4 0,2 0 -0,2
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47

3.5 Coeficiente cruzado de correlao Relao entre duas variveis no necessriamente contempornea, ou seja, dada a variao em uma varivel a outra somente vai se modificar certo perodo mais tarde. Em outras palavras h uma defasagem de tempo entre as alteraes dos dados. O coeficiente de correlao entre variveis em defasagem chamado cruzado. Voltando para o exemplo da mquina com utilizao e manuteno irregular da seo sobre no-normalidade, seria interessante tentar discobrir se a atividade da mquina antecede a sua inatividade. Se tiver longos perodos de inatividade depois de longos perodos de atividade, isso indica um problema em termos de poltica de manuteno. Na tabela 8, que mostra as estimativas para o Tabela 8 Coeficientes cruzados de correlao entre tempo ativo e inativo
Variveis TEMPO INATIVO TEMPO INATIVO-1 TEMPO INATIVO-2 TEMPO INATIVO-3 ln_TEMPO ATIVO (TA) ln_TEMPO ATIVO (TA)-1 ln_TEMPO ATIVO (TA)-2 ln_TEMPO ATIVO (TA)-3 TEMPO INATIVO ln_TEMPO ATIVO (TA) .. .. .. .. -0,022 0,240 0,072 0,018 -0,022 -0,019 -0,139 -0,088 .. .. .. ..

coeficiente cruzado entre tempo inativo e ativo para vrias defasagens, tem somente uma defasagem significante. a defasagem de um perodo com tempo ativo antecepando tempo inativo, 0,24. O valor do coeficiente no suficiente para garantir nvel desejado de
_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

27

significncia de 1% (veja a tabela 2), mas passa no nvel de 5% e considerando a importncia da mquina no processo de produo, uma investigao do fenmeno talvez renderia concluses interessantes. A relao positiva entre as variveis em defasagem indica que quando tempo ativo realtivamente grande, ento em seguida tempo inativo tambem o , ou seja, pressionando a mquina demais causa estresse nela e as paradas so de difceis consertos, levando relativamente mais tempo. O resultado mquina inativa durante longos perodos de manuteno corretiva. Os estatsticos chamam este tipo de relao de causalidade estatstica de Granger, o estatstico que formalizou este fenmeno na literatura especializada. No entanto, este tipo de causalidade no tem nada a ver com a causalidade do filsofo ou fsico; apenas uma maneira de dizer que um fenmeno parece antecipar outro. No final, se um evento ocorre primeiro como a compra de presentes de Natal em novembro antecipando o prprio Natal em dezembro no quer dizer que as compras esto causando Natal. O fato que o Natal o qual o evento posterior est causando as compras vindo anteriormente. Como foi enfatizado no incio deste captulo, o estudo de correlao pode comprovar causalidade sugerida por pensamento ou teoria j bem elaborados numa primeira fase de pesquisa, e posteriormente a anlise estatstica utilizada em uma segunda fase de verificao. 3.6 Concluses do captulo Vimos neste captulo que a aplicao correta do coeficiente de correlao deve levar em conta vrias suposies que vem diretamente da teoria estatstica e de senso comun. Para comprovar relacionamento entre duas variveis, suas distribuies tem que ser normais, a relao procurada linear, e as sries so estacionrias. Seguindo estas normas, estimativas do coeficiente so confiveis, e intervalos de confiana e testes de hiptese podem revelar a fora da relao estimada. Sem as sujposies respeitadas, nada comprovada. Nos prximos captulos, vamos elaborar mtodos estatsticos cada vez mais apurados para identificar melhor as relaes entre variveis e o controle e previso de uma varivel pela manipulao e articulao de outras. 3.7 Apndice sobre intervalo de confiana e teste de hiptese 3.8 Referncias Granger causality Fisher, R. A. (1925), Applications of Students Distribution, Metron, 5, 90, 104. Student (1908), On the Probable Error of the Mean, Biometrika 6, 1, 25.

renumber sees, equaes, sumrio

(Demonstrao para o Apndice A). Sendo X e Y duas variveis aleatrias com varincias finitas e positivas, ento 1 rXY 1 .

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

28

Prova: A demonstrao da desigualdade acima, pode ser feita em duas partes: na primeira parte mostraremos que rXY 1 , e na segunda parte, mostraremos que rXY 1 .
X X Y Y Como 0 , temos ento que SX SY
2

X X Y Y XX Y Y 2 0 E E[( X X )(Y Y )] = = E + E SY SX SX SY S X SY Var ( X ) Var (Y ) 2Cov( X , Y ) = + = 2 2rXY . 2 2 S X SY SX SY

Assim, para termos 0 2 2rXY , devemos ter rXY 1 . Isto demonstra a primeira parte. Agora, substituindo o sinal - por + na expresso acima, temos 0 2 + 2rXY , isto , rXY 1 . Isto demonstra a segunda parte, e o resultado est provado. 1. todas renumeraes

_______________________________________________________________________________ Introduo Estatstica e Mtodos de Previso em Sries Temporais: Teoria Aprofundada e Prtica Simplificada

You might also like