You are on page 1of 33

35

3
Mtodos de Previso de Sries Temporais

3.1
Sries Temporais
Pode-se definir uma srie temporal como sendo um conjunto de dados observados
e ordenados segundo parmetro de tempo e com dependncia serial, sendo esse espao
de tempo entre os dados disponveis equidistantes (horrios, dirio, semanal, mensal,
trimestral, anual, etc.) (Souza & Camargo, 2004).

PUC-Rio - Certificao Digital N 0821481/CA

Para que uma determinada srie seja classificada como uma srie temporal, necessrio que ela preencha outro pr-requisito: os dados tambm devem apresentar uma
dependncia serial entre eles. Por exemplo: os dados de uma varivel aleatria
sumo de energia) no instante

t , com t

(con-

variando de 1 at N, possa, de certa maneira,

conter informaes necessrias para que seja determinado o valor dessa varivel no instante t +1. Cabe mencionar que, N representa o nmero de observaes da srie temporal em questo. As sries temporais podem ser classificadas como discretas, contnuas,
determinsticas, estocsticas, multivariadas e multidimensionais.
Segundo a abordagem de componentes no observveis, as sries temporais podem ser representadas como a combinao de quatro componentes (Mendenhall, 1993):
Tendncia;
Cclica;
Sazonal;
Erro.
As componentes de tendncia so frequentemente, aquelas que produzem mudanas graduais em longo prazo. So normalmente provocadas, por exemplo, pelo crescimento constante na populao, no produto interno bruto, no efeito da
competio, ou por outros fatores que falham na tentativa de produzir mudanas
repentinas, mas produzem variaes graduais e regulares ao longo do tempo.
As componentes cclicas so aquelas que provocam oscilaes de subida e de
queda nas sries, de forma suave e repetitiva, ao longo da componente de tendncia.

36

Geralmente os efeitos cclicos em uma srie so causados por mudanas na demanda do


produto, por ciclos de negcios e, em particular, pela inabilidade de se suprir as necessidades do consumidor.
As componentes sazonais em uma srie so aquelas oscilaes de subida e de
queda que sempre ocorrem em um determinado perodo do ano, do ms, da semana, do
dia ou horrio. A diferena essencial entre as componentes sazonais e cclicas que a
primeira possui movimentos facilmente previsveis, ocorrendo em intervalos regulares
de tempo, por exemplo, ano a ano, ms a ms, semana a semana, ou mesmo dia a dia. J
os movimentos cclicos tendem a ser irregulares, ocorrendo sobre um perodo de muitos
anos.
A quarta componente da srie, chamada de componente de erro, apresenta
movimentos ascendentes e descendentes da srie aps a ocorrncia de um efeito
PUC-Rio - Certificao Digital N 0821481/CA

de tendncia, um efeito cclico, ou de um efeito sazonal. Nas componentes de erro aparecem flutuaes de perodo curto, com deslocamento inexplicvel e geralmente so
causadas, entre outros motivos, por eventos polticos e oscilaes climticas imprevisveis.
Quanto variabilidade das observaes, podem-se classificar as sries temporais
em estacionrias, quando as suas estatsticas no so afetadas por variaes no tempo,
e ergdigas, se apenas uma realizao do processo estocstico suficiente para se obter todas as estatsticas do mesmo (Moretin & Toloi, 2006).
A maioria dos mtodos de previso baseia-se na idia de que as observaes passadas contm informaes sobre o padro de comportamento da srie temporal. O propsito dos mtodos distinguir o padro de qualquer rudo que possa estar contido nas
observaes e ento usar esse padro para prever valores futuros da srie. Uma grande
classe de modelos de previso, tenta tratar ambas as causas de flutuaes em sries de
tempo e a das suavizaes (mdia mvel e amortecimento exponencial). Tcnicas especficas desse tipo assumem que os valores extremos da srie representam a aleatoriedade e assim, por meio da suavizao desses extremos, pode-se identificar o padro bsico (Morettin e Toloi, 2006).
Os modelos de previso podem ser classificados em univariados, os quais tm a
previso dos valores futuros explicados somente pelos valores passados da prpria srie
ou causais, os que levam em conta outras informaes relevantes como influentes para a
previso de uma varivel

37

3.2
Persistncia
Um dos modelos mais utilizados na previso de curto-prazo da velocidade do vento o mtodo da persistncia. Este mtodo corresponde ao mtodo da mdia mvel
simples em que a previso a mdia das N observaes mais recentes da srie X como
pode ser observado na equao (3.1):

Xt

1 N X
t 1
N
i 1

(3.1)

O mtodo de persistncia considerado o mtodo de previso mais simples, visto


que realiza a previso com base nos ltimos valores da srie. Esse mtodo muito utilizado no caso de insuficincia de dados relacionados a velocidade de ventos e deve ser
PUC-Rio - Certificao Digital N 0821481/CA

utilizado apenas para previso de curto-prazo (at poucas horas frente). No caso particular em que N igual 1, o mtodo da persistncia corresponde ao mtodo de previso ingnuo (naive).
A seguir so apresentados os modelos de Box& Jenkins, regresso harmnica,
redes neurais artificiais e o sistema de infererncia neuro-fuzzy adaptativo (ANFIS)
3.3
Modelos de Box & Jenkins
Uma metodologia bastante utilizada na anlise de modelos paramtricos conhecida como abordagem de Box & Jenkins (1970). Tal metodologia consiste em ajustar
modelos Auto-Regressivos integrados de mdias mveis, ARIMA (p, d, q), a um conjunto de dados. A estratgia para construo deste modelo baseada em um ciclo interativo, no qual a escolha da estrutura do modelo baseia-se nos prprios dados (Morettin e
Toloi, 2004).
A estratgia para a construo do modelo ser baseada em um ciclo interativo, na
qual a escolha da estrutura do modelo baseada nos prprios dados.
As etapas do ciclo interativo so:
Especificao: uma classe geral do modelo considerada para anlise ;
Identificao de um modelo, com base na anlise de autocorrelaes, autocorrelaes parciais e outros critrios;

38

Fase de estimao, na qual os parmetros de modelo identificado so estimados;

Fase de verificao ou diagnstico do modelo ajustado, atravs de uma


anlise de resduos, para se saber se este adequado para fins em vista
(previso, por exemplo).
Um processo estocstico pode ser entendido como um modelo que descreve a estrutura de probabilidade de uma seqncia de observaes ao longo do tempo.
Considere um processo estocstico como sendo uma famlia Z={Zt , t} tal que
para cada t, Zt uma varivel aleatria. Suponha que Zt tenha origem em um experimento que pode ser repetido sob condies idnticas, a cada experimento obtm-se um
registro dos valores de Zt ao longo do tempo. Cada registro particular uma realizao
do processo estocstico e uma srie temporal uma realizao amostral do processo
PUC-Rio - Certificao Digital N 0821481/CA

estocstico, i.e., uma amostra finita do conjunto de todas as trajetrias possveis que
podem ser geradas pelo processo estocstico. Por exemplo, uma srie temporal com m
observaes sucessivas pode ser considerada como uma realizao amostral entre todas
as seqncias de tamanho m que poderiam ser geradas por um mesmo processo gerador
dos dados ou processo estocstico.
Um processo estocstico est determinado quando so conhecidas suas funes de
distribuio de probabilidade conjuntas, porm, como estas no so conhecidas e dispe-se de apenas uma amostra do processo (a srie temporal observada) assumem-se os
pressupostos de estacionariedade e ergodicidade do processo estocstico.
A estacionariedade significa que as caractersticas do processo estocstico permanecem invariantes ao longo do tempo. Em um sentido estrito, a estacionariedade implica
que as variveis aleatrias Zt e Zt+k tm idnticas distribuies de probabilidade qualquer que seja k. Uma condio menos restritiva a estacionariedade em sentido lato ou
de segunda ordem na qual considera-se como sendo estacionrio um processo com valor
mdio, E(Zt), e varincia, E[(Zt - )2] constantes e autocovarincias, Cov(Zt,Zt+k), dependentes apenas do intervalo de tempo (lag) k entre as observaes, ou seja:
E(Zt) = E(Zt+k) = t

(3.2)

E[(Zt- )2] = 2 t

(3.3)

39

Cov(Zt,Zt+k) = Cov(Zt+m,Zt+m+k) m

(3.4)

Se o processo estocstico for Gaussiano (Zt segue uma distribuio normal) e estacionrio em sentido lato, ele ser estritamente estacionrio, pois a distribuio normal
determinada unicamente em termos do primeiro e do segundo momento.
Quando se trabalha com uma srie temporal extrada de um processo estocstico
estacionrio est-se diante de uma realizao amostral que apresenta uma forma geral
similar outras amostras que poderiam ter sido extradas o que torna possvel estimar as
caractersticas do processo e fazer previses.
O pressuposto da ergodicidade de um processo estocstico significa que apenas
uma realizao do processo estocstico suficiente para se obter todas as estatsticas do
mesmo. Todo o processo ergdico tambm estacionrio, pois uma realizao de um
PUC-Rio - Certificao Digital N 0821481/CA

processo no estacionrio no poder conter todas as informaes necessrias para a


especificao do processo.
Assim, tendo-se como base uma determinada srie temporal, gerada por um processo estocstico estacionrio, onde o valor atual dado por Zt, Box & Jenkins propem
o seguinte modelo para descrever o processo estocstico gerador da srie:

Z t yt 1 ... p yt p t 1 t 1 ... q t q

(3.5)

que pode ser reescrita pela seguinte equao obtida com o auxlio do operador defasagem (BdZt = Zt-d) em termos de dois polinmios:

1 B ... Z 1 B ... B
p

(3.6)

onde, e denotam os parmetros do modelo e t um rudo branco, um processo estocstico Gaussiano com mdia nula, varincia constante e no autocorrelacionado:
E(t)=E(t+k) = 0 t
E[t2] = 2 t
Cov(t, t+k) = Cov(t+m, t+m+k) = 0 m

(3.7)

(3.8)
(3.9)

40

Conforme indicado na equao 3.5, o modelo univariado de Box & Jenkins consiste em explicar uma varivel aleatrio Z por meio de seus valores passados, bem como de choques aleatrios, no havendo outras variveis explicativas.
Na equao 3.5, as defasagens da varivel Zt no polinmio do lado esquerdo representam a parte autoregressiva do modelo (AR), enquanto as defasagens dos choques
aleatrios t no polinmio do lado direito representam a parte mdia mvel (MA). A
equao representa uma ampla classe de modelos denominados ARMA(p,q), onde p
representa a ordem de defasagem do termo autoregressivo e q a ordem de defasagem do
termo de mdia mvel.
Por exemplo, para p 1 e q 0 tem-se o modelo autoregressivo de primeira ordem ou AR(1), no qual o valor da srie no instante t depende somente do valor da srie

PUC-Rio - Certificao Digital N 0821481/CA

no instante t-1:
Zt = 1yt-1 + t

(3.10)

Lembrando que BZt =Zt-1, a equao acima pode ser escrita como:
(1-1B)Zt = t.

(3.11)

Em um caso mais geral tem-se o modelo auto-regressivo de ordem p AR(p) ou


ARMA(p,0) , no qual a observao corrente Z t , depende de realizaes anteriores como

Zt 1 , Zt 2, ...Zt p da mesma srie temporal (Moretin & Toloi, 2006).


p

jZt j
t
j1

(3.12)

Para se aplicar a metodologia de Box & Jenkins, a srie em estudo deve ser pelo
menos estacionria de segunda ordem, ou seja, a srie tem que ter mdia, varincia e
covarincia finitas e constantes. O exame de estacionaridade pode ser realizado observando-se a Funo de Autocorrelao (k) ou FAC da srie temporal investigada. Em
funo das correlaes entre os valores de uma srie temporal (Hippert, 2005), o valor
de Z t depende probabilisticamente do valor de Z t 1 . Dessa forma, a previso se torna
possvel por causa dessa dependncia entre os valores, sendo possvel fazer estimativas
dos valores futuros da srie. Tal correlao entre os valores da srie chamada de autocorrelao.
A funo de autocorrelao (FAC) mostra a dependncia entre os diversos termos
da srie. Seu grfico chamado de correlograma e mostra a autocorrelao de lag k,

41

entre Zt e Zt-k, para diferentes valores da defasagem k no tempo. Matematicamente, a de


defasagem k pode ser definida como:

k
Zt , Zt k
Cov
0
Var Zt Var Zt K

(3.13)

Um decaimento lento da FAC indica que a srie no estacionria na mdia e


precisa passar por uma ou mais diferenciaes, se necessrio.
Alm da FAC tambm til analisar o comportamento da Funo de Autocorrelao Parcial (FACP), onde na medio da correlao entre duas observaes seriais Z t +

PUC-Rio - Certificao Digital N 0821481/CA

e Z t + k elimina-se a dependncia dos termos intermedirios Z t + 1, Z t + 2, Z t + k 1,:

KK=Cov (Z t, Z t + k | Z t + 1, ..., Z t + k 1)

(3.14)

A anlise da FAC e da FACP de fundamental importncia para o procedimento


de previso de sries temporais, pois com ela que so identifica das ordem p e q de
um modelo ARMA.
No processo auto-regressivo AR, a FAC ter um decaimento exponencial ou em
senoidal amortecida, se

< 0, os sinais sero alternados. A FACP ter picos signifi-

cativos nos lags 1 at p, depois cai a zero. Para um AR de ordem 1 AR(1) o pico da
FACP ser no lag 1 depois cai a zero. O pico ser positivo se 1 > 0 e negativo se 1
< 0. No caso de um processo de mdias mveis MA(q) a FAC ter picos nos lags 1
at q e depois cair a zero. Em se tratando de um MA(1), o pico ser no lag 1, caindo
depois a zero. Caso 1 < 0 ser positivo o pico e se 1 > 0 ser negativo. Na FACP h
a presena de um decaimento exponencial ou senoidal amortecida. Para recapitular,
tem-se um resumo abaixo na Tabela 6:

42

Tabela 6-Caractersticas principais dos modelos AR(p), MA(q) e ARMA (p,q).


Caractersticas
Estrutura do
Modelo
Funo de Auto-

AR(p)

MA(q)

ARMA(p,q)

(B). Zt = at

Zt = (B) . at

(B) . Zt = (B)at

Infinita (Exponen-

correlao

ciais/ e/ou Senides

k(FAC)

Amortecidas)

Funo de Autocorrelao Parcial


kk (FACP)

Finita (corte aps


lag p)

Finita (corte

Infinita (Exponen-

aps

ciais e /ou Seni-

lag q)

des Amortecidas)

Infinita (Exponen-

Infinita (Exponen-

ciais/ e/ou Senides

ciais e/ou Senides

Amortecidas)

Amortecidas)

Fonte: adaptado de Souza & Camargo (1996)

PUC-Rio - Certificao Digital N 0821481/CA

Para Souza & Camargo (1996), uma das caractersticas fundamentais da metodologia de Box e Jenkins interpretar uma dada srie temporal como sendo uma realizao de um vetor aleatrio multivariado, cuja dimenso a da srie temporal disponvel.
A partir de uma nica realizao do processo e, com os argumentos de estacionaridade e
ergodicidade do processo subjacente, procura-se detectar o sistema gerador da srie,
atravs de informaes contidas na mesma. A filosofia da modelagem de Box & Jenkins
se utiliza de duas idias: o princpio da parcimnia e a construo de modelos por meio
de um ciclo iterativo. O princpio da parcimnia estabelece que deve-se escolher um
modelo com o menor nmero possvel de parmetros, para uma adequada representao
matemtica. Um ciclo iterativo uma estratgia de seleo de modelos a ser empreendida at que tenha-se um modelo satisfatrio.
Se a srie temporal em estudo apresentar uma componente de tendncia, ento o
processo estocstico gerador da srie no estacionrio. Neste caso a srie deve passar
por d diferenas simples para tornar-se estacionria, condio bsica para a aplicao da
metodologia Box & Jenkins. Por exemplo, para remover uma tendncia linear basta
tomar a primeira diferena da srie (d=1):

y = Zt -Zt-1
(3.15)

43

Caso a primeira diferena no seja estacionria, o operador diferena dever ser


aplicado na srie obtidas pelas diferenas simples e uma segunda filtragem efetuada,
a qual poder ser repetida quantas vezes necessrias, at tornar a srie estacionria.
O processo de diferenciao Z consecutiva de d vezes realizado conforme apresentao na expresso 3.15, at que se obtenha uma srie d Z estacionria e que
possa ser modelada por um modelo ARMA (p,q), que ser descrita a seguir.

Z t Z t Z t 1
2 Z t d1Z t Z t 1

(3.16)

.
.

PUC-Rio - Certificao Digital N 0821481/CA

d Zt d 1Z d 1Zt 1
Neste caso, a metodologia Box & Jenkins aplicada na srie resultante das diferenciaes e o modelo denominado autoregressivo mdia mvel integrado ou ARIMA (p,d,q), onde d representa a ordem das diferenas simples:

1 B ... 1 B y 1 B ... B
d

(3.17)

Como antes, a identificao das ordens dos termos auto-regressivos p e de mdias


mveis q baseia-se na anlise do perfil das Funes de Autocorrelao (FAC) e Autocorrelao Parcial (FACP), porm da srie obtida aps as d diferenciaes.
O modelo ainda pode ser adaptado para ser aplicvel em sries sazonais. No caso
geral, as sries temporais podem apresentar componentes sazonais e no sazonais. Neste
caso, o processo estocas

tico

pode

ser

descrito

pelo

modelo

MA(p,d,q)(P,D,Q)s expresso pela seguinte equao:

1 B ... B 1 B ... B 1 B 1 B y 1 B ... B 1 B ... B(3.18)

onde,

PS

S D

QS

SARI-

44

p e q so, respectivamente, os graus dos polinmios das partes autoregressiva e de


mdia mvel da componente no sazonal;
P e Q so, respectivamente, os graus dos polinmios das partes autoregressiva e de
mdia mvel da componente sazonal;
d a ordem das diferenas simples para remover a tendncia da srie
D a ordem das diferenas sazonais para remover a sazonalidade.
S o perodo sazonal, por exemplo, para sries discretizadas mensalmente S=12.
e so, respectivamente, os coeficientes das partes autoregressiva e de mdia mvel
da componente no sazonal;
e so, respectivamente, os coeficientes das partes autoregressiva e de mdia mvel da componente sazonal.

PUC-Rio - Certificao Digital N 0821481/CA

A diferenciao sazonal visa remover a sazonalidade da srie. Dado o perodo sazonal S, a diferenciao sazonal :

SDyt = yt - yt-S
(3.19)
Cabe ressaltar que o processo de obteno desse modelo segue os mesmos passos
empregados para achar o modelo ARIMA no sazonal (Zanini, 2007). No modelo ARIMA(p,d,q)(P,D,Q)s, a metodologia Box & Jenkins aplicada na srie supostamente
estacionria e sem sazonalidade resultante das diferenciaes simples e sazonais.
Em qualquer modelo da famlia Box & Jenkins, a identificao das ordens dos
termos auto-regressivos (p e P) e de mdias mveis (q e Q) baseia-se na anlise do perfil
da FAC e da FACP. A FAC tambm mostrar se h componente sazonal, o que pode ser
observado quando esta segue um padro peridico de picos e depresses.
A FAC e a FACP tem comportamentos tericos conhecidos, entretanto na prtica,
como estas funes so estimadas, a anlise dos grficos da FAC e da FACP amostrais
pode ser uma tarefa difcil, o que compromete a identificao precisa da ordem do modelo. A incorporao de coeficientes adicionais (modelos de maior ordem) melhora o
grau de ajustamento, reduzindo a soma dos quadrados dos resduos, no entanto, ressaltase que modelos mais parcimoniosos produzem melhores previses (maior capacidade de
generalizao) que os modelos sobreparametrizados.

45

Existem vrios critrios de seleo de modelos que permitem encontrar um ponto


de equilbrio entre a reduo na soma do quadrado dos resduos e a parcimnia do modelo. Os critrios mais usados so o AIC (Akaike Information Criterion) e o BIC (Bayesian Information Criterion), cujas frmulas so dadas por:
AIC = T ln (2,ML) + 2n
BIC = T ln (2,ML ) + n ln(T)

(3.20)
(3.21)

onde, n o nmero de parmetros estimados, T o nmero de observaes da srie


temporal e 2, ML a estimativa de mxima verossimilhana de t (Morettin & Toloi,
2006).
Comparando-se os valores de AIC e BIC de modelos com diferentes ordens, o
melhor modelo o que apresenta os menores valores nestas duas estatsticas.
No entanto, a seleo do melhor modelo no deve se basear apenas nos critrios
PUC-Rio - Certificao Digital N 0821481/CA

AIC e BIC, a anlise dos resduos de modelos alternativos (concorrentes) ajustados de


extrema importncia na escolha final do modelo que melhor explica a dinmica da srie
temporal em estudo.
Se os resduos so autocorrelacionados, ento a dinmica da srie em estudo no
completamente explicada pelos coeficientes do modelo ajustado. Deve-se excluir do
processo de escolha modelos com esta caracterstica. Uma anlise da existncia (ou no)
da autocorrelao serial de resduos feita com base na estatstica Q de Box-PierceLjung, (Souza e Camargo, 1996), representada formalmente como:

rj2

Q BPL T (T 2)
j1

T j

(3.22)

onde, rj a autocorrelao de ordem j dos resduos do modelo estimado et:


T

rj

e e

t j 1
T

t t j

e
t 1

2
t

(3.23)

A estatstica QBPL utilizada para testar se um conjunto de autocorrelaes dos resduos at a ordem K (ou no) estatisticamente diferente de zero. Se os dados da srie
estudada so gerados por um processo estacionrio, ento a estatstica Q BPL tem distri-

46

buio qui-quadrado com K graus de liberdade. Observa-se que valores altos das autocorrelaes dos resduos implicam em valores altos de Q BPL. Por outro lado, em um rudo branco todas as autocorrelaes so nulas e QBPL nulo. As consideraes acima
permitem testar as seguintes hipteses com base na estatstica QBPL:
H0: as K primeiras autocorrelaes so nulas.
H1: de que pelo menos uma autocorrelao, rj, estatisticamente diferente de zero.
Um procedimento recomendado para identificar a melhor ordem de um modelo
ARIMA em obter um modelo inicial a partir da anlise das estimativas da FAC e da
FACP e em seguida fazer o teste da sobrefixao (Souza & Camargo, 1996), onde so
realizadas vrias anlises para diferentes valores de p, d, q, P, D, Q a partir do modelo
inicial, em especial o teste t-student para verificar a significncia do coeficiente de cada

PUC-Rio - Certificao Digital N 0821481/CA

termo adicional na ordem do modelo.


Alm das especificaes acima, o modelo ARIMA pode ser adaptado para outras
situaes especficos e desta forma aumentar a sua aplicabilidade. Por exemplo, Chen et
al.(2010) propem um modelo estocstico para previso da produo de energia elica
com base no modelo auto-regressivo mdia mvel integrado (ARIMA), que leva em
conta a no estacionariedade da srie temporal e limites fsicos da gerao estocstica
de energia elica. Os autores propem a introduo de um limitador no modelo ARIMA
para representar o limite superior e inferior da gerao de energia elica, o modelo proposto denominado por LARIMA foi ajustado a uma srie histrica com medies durante um ano realizadas no parque elico offshore Nysted na Dinamarca.
3.4
Regresso Harmnica
Na anlise de srie temporal, a regresso harmnica faz a aproximao de uma
funo do tempo por meio da combinao linear de harmnicos (componentes senoidais), cujos coeficientes so as transformadas de Fourier discretas da srie (Morettin &
Toloi, 2006). A anlise harmnica uma das ferramentas para anlise de sries temporais no domnio da frequncia. Como a srie da velocidade de vento apresenta um comportamento sazonal, a anlise harmnica por meio da combinao de funes trigonomtricas uma das tcnicas indicadas para a modelagem da sazonalidade.

47

Na regresso harmnica a varivel aleatria Zt expressa como sendo uma combinao de funes trigonomtricos mais um rudo :
Zt Hn 1 (A

cos n(w t ) B senn(w t )) ,


n
1
n
t

(3.24)

onde, a mdia da de Zt;


n = 1, 2, 3 ... H identifica o nmero de harmnicos includos no modelo; An e Bn
so os respectivos coeficientes das funes trigonomtricas cosseno e seno para o harmnico n das sries de Fourier;
2n

a frequncia do n-simo harmnico.


wn
N
N o perodo, ou seja o nmero de dados observados.

PUC-Rio - Certificao Digital N 0821481/CA

ti - ordenao numrica das horas do vento correspondentes da srie (i = 0, 1, ...)


Os coeficientes, , e so obtidos, respectivamente, pelas seguintes expresses
(Morettin & Toloi, 2006):

1 N
Z
N i 1 i

2 N

Z cos w t
n N i
i
i 1

2 N

Z sen w t e 0 para w=
i N i
n
i
i 1

(3.25)

(3.26)

(3.27)

A especificao do nmero de harmnicos no lado direito da equao de regresso


harmnica baseia-se na anlise do periodograma para a determinao da freqncia w .
Os estimadores , e dependero de w e, portanto, sero denotados respectivamen-

(w) e
(w) .
te por (w),
As frequncias w devem minimizar a soma de quadrados residual, SQR, dada
pela expresso 3.28:

~
SQR SQT N R 2 ,
2
ou equivalentemente, maximizar a quantidade

(3.28)

48

~
~
~
R 2 (w) 2 (w) 2 (w),

(3.29)

com (w) e (w) dadas pelas expresses 3.30 e 3.31

~ 2 N
(Zt Z ) cos(wt)
N i 1

(3.30)

~ 2 N
(Z Z )sen ( wt)
N i 1 t

(3.31)

O que, equivalente a maximizar a quantidade:

PUC-Rio - Certificao Digital N 0821481/CA

~
I (w) N R 2 (w)
8

(3.32)

2
2

1
(w)
Z Z cos wt Z t Z senwt ,

2N t

t 1

t 1

(3.33)

denominada periodograma.

Assim, estima-se w maximizando R 2 (w) na expresso 3.29 ou, equivalentemente, maximizando o periodograma da equao obtemos os demais estimadores do modelo
utilizando as expresses abaixo:

t 1
N

Zt

Z,

N
2

Z cos(wt ), w ,
N t 1 t
N
2 Zt (1)t e
0, se w ,

N t 1

(3.34)

(3.35)
(3.36)

Para mais detalhes sobre regresso harmnica consulte Morettin (2006) e Toloi
(2006). A anlise harmnica pode ser combinada com a abordagem de Box& Jenkins na
modelagem de sries temporais com mltiplos ciclos de sazonalidade, como o caso
das sries horrias de velocidade de vento analisadas nesta dissertao, onde o ajuste de
um modelo auto-regressivo mdia mvel (ARMA) precedido pela anlise harmnica
com a finalidade de remover os mltiplos ciclos sazonais. O mtodo ARMA aplicado

49

na modelagem da srie dos resduos resultantes da diferena entre a srie da velocidade


do vento e a srie estimada pela regresso harmnica.

3.5
Rede Neural Artificial
Uma rede neural artificial (RNA) um sistema de computao composto de elementos processadores (EPs) altamente interligados, trabalhando em paralelo para desempenhar uma determinada tarefa. Estes elementos processadores, linspirados nos neurnios biolgicos, so organizados de tal forma que podem, em alguns casos, lembrar a
anatomia do crebro. Contudo, os EPs so bem mais simples que suas inspiraes naturais e contm basicamente apenas um algoritmo matemtico que executa o processamento da informao em resposta a estmulos procedentes de outros EPs (Haykin,
PUC-Rio - Certificao Digital N 0821481/CA

2001).
O crebro humano composto por cerca de 100 bilhes de clulas nervosas, conhecidas por neurnios, que se conectam massivamente umas as outras atravs de ligaes eletroqumicas, denominadas sinapses, formando uma grande rede de processamento. Cada neurnio recebe estmulos atravs dos dendritos, os processa em seu corpo
celular e, dependendo do seu estado de ativao, gera e transmite um estmulo pelo seu
axnio para que atinja outros neurnios. A estrutura e o funcionamento do neurnio
biolgico podem ser modeladas pelo neurnio artificial ilustrado na Figura 6.
X1
w1
X2

w2

X3

w3

wX

net

Y
net

wN
XN

w0 = Vis
1

Figura 6-Neurnio artificial de McCulloch & Pitts

No neurnio artificial os N terminais de entrada representam os dendritos e o nico terminal de sada representa o axnio. A intensidade das sinapses representada pelos pesos (w) nos terminais de entrada, cujos valores podem ser negativos ou positivos,

50

definindo sinapses inibidoras ou excitadoras respectivamente. De forma anloga ao que


acontece no crebro humano, onde as sinapses so reforadas ou enfraquecidas, os pesos so ajustados durante a evoluo do processo de aprendizagem da rede.
O comportamento do corpo celular emulado por um mecanismo que faz a soma
ponderada dos valores recebidos (clculo do net). No modelo mais simples, esta soma
ponderada comparada com um limiar . Neste modelo, a funo de ativao que relaciona a resposta do neurnio com a soma ponderada dos valores recebidos uma funo
degrau: se x1 w1 x2 w2 ... x N wN o neurnio ativado e produz uma sada igual a
1, caso contrrio o neurnio no dispara e a sada zero. Enfim, o corpo celular responsvel pelo mapeamento dos sinais de entrada em um nico sinal de sada. No lugar
da funo degrau, a funo de ativao pode assumir diferentes formas, em geralmente
no-lineares, o que transformam as redes neurais em sistemas computacionais capazes
PUC-Rio - Certificao Digital N 0821481/CA

de resolver problemas complexos. Assim, destacam-se as seguintes funes de ativao:


Funo linear: os neurnios com esta funo de ativao podem ser utilizados como aproximadores lineares;
Funo Logstica sigmoidal: mapeia os sinais de entrada dos neurnios
no intervalo [0,1]. a funo geralmente adotada, por ser contnua monotnica, no linear e facilmente diferencivel em qualquer ponto;
Funo tangente hiperblica: mapeia os sinais de entrada dos neurnios
no intervalo [-1,+1]. Possui as mesmas caractersticas e emprego da funo logstica sigmoidal, possibilitando que as sadas sejam simtricas.
As RNA so sistemas paralelos distribudos, compostos por unidades de processamento simples (neurnios) dispostas em uma ou mais camadas que so interligadas
por um grande nmero de conexes geralmente unidirecionais e com pesos para ponderar a entrada recebida por cada neurnio. Atravs de uma analogia com o crebro humano, pode-se afirmar que os pesos das conexes armazenam o conhecimento ou a
memria da rede neural.
A organizao dos vrios neurnios artificiais em uma estrutura e a forma de como eles se interligam define a arquitetura de uma RNA. A arquitetura mais usual a
rede perceptron de mltiplas camadas ou Multilayer Perceptron (MLP) com trs camadas, conforme mostra a Figura 7.

51

c amada de
entrada

c amada
es c ondida

c amada de
s ada

Figura 7-Rede neural com trs camadas

PUC-Rio - Certificao Digital N 0821481/CA

A primeira camada da rede a camada de entrada, sendo a nica camada exposta


s variveis de entrada. Esta camada transmite os valores das variveis de entrada para
os neurnios da camada escondida, para que estes extraiam as caractersticas relevantes
ou padres dos sinais de entrada. Por sua vez a camada intermediria transmites os resultados para a camada de sada, a ltima camada da rede.
A construo de um modelo baseado em RNA envolve a busca da melhor configurao para a rede, i.e., a definio do nmero adequado de camadas escondidas e a
definio da quantidade ideal de processadores nestas camadas. A inexistncia de regras
que definam claramente a configurao adequada faz desta busca um processo emprico
e que depende da distribuio dos padres de entrada, da quantidade de rudo presente
nos exemplos de treinamento e da complexidade da funo a ser aprendida (Haykin,
2001). Diferentes configuraes devem ser avaliadas, entretanto, deve-se sempre empregar o princpio da parcimnia, e saber que uma rede com apenas uma camada oculta
capaz de aproximar qualquer tipo de funo contnua (Haykin, 2001), embora em algumas situaes especficas sejam usadas duas camadas.
Uma RNA possui duas fases de processamento: aprendizado e utilizao.
No processo de aprendizado, os pesos de conexo so ajustados em resposta ao
estmulo apresentado rede neural, ou seja, a rede se modifica em funo da necessidade de aprender a informao que lhe foi apresentada. O processo de utilizao a maneira pelo qual a rede responde a um estmulo de entrada sem que ocorram modificaes na sua estrutura (Caldeira et al, 2007). Segundo Treleaven (1989), o processo de

52

aprendizagem ocorre atravs de um processo interativo de ajuste dos parmetros livres,


pesos sinpticos e por estimulao do ambiente.
Os paradigmas de aprendizado so: aprendizado supervisionado e aprendizado
no supervisionado descritos resumidamente a seguir.

Aprendizado Supervisionado: Esta forma de aprendizado se baseia em um


conjunto de exemplos de entrada-sada que apresentada a rede. A partir da entrada, a rede realiza seu processamento e a sada obtida comparada com a sada
esperada. Caso no sejam iguais, um processo de ajuste de pesos aplicado buscando-se um erro mnimo ou aceitvel. O algoritmo de aprendizado supervisionado mais comum o backpropagation (Haykin, 2001).

Aprendizado no supervisionado: caracterizado pela ausncia de algum elemento externo supervisor, ou seja, um padro de entrada fornecido permite que

PUC-Rio - Certificao Digital N 0821481/CA

a rede livremente escolha o padro de sada a partir das regras de aprendizado


adotadas. Possui duas divises: aprendizado por reforo, que consiste no mapeamento entrada-sada atravs da interao com o ambiente, e aprendizagem nosupervisionada ou auto-organizada onde, a partir de mtricas de qualidade do aprendizado ocorre a otimizao dos parmetros livres da rede. Pode, por exemplo, ser utilizada a regra de aprendizagem competitiva. Os algoritmos de aprendizado no supervisionado mais importantes so: Algoritmo de Hopfield e Mapas de Kohonen (Haykin, 2001).

A aprendizagem supervisionada comumente aplicada na previso de sries temporais, enquanto a aprendizagem no supervisionada usual na anlise de agrupamentos
(cluster analysis).
A previso de valores futuros de uma srie temporal, por meio de uma RNA
(Werbos, 1990), inicia-se com a montagem do conjunto de treinamento, que depende da
definio do tamanho da janela de tempo para os valores passados das variveis explicativas e da prpria varivel que se deseja prever, bem como do horizonte de previso.
O padro de entrada formado pelos valores passados das variveis explicativas
que podem incluir os valores passados da prpria srie que se deseja prever (modelo
auto-regressivo) e a sada desejada o valor da srie temporal no horizonte de previso.
A Figura 8 ilustra como deve ser construdo o conjunto de treinamento no caso da previso basear-se nos quatro ltimos valores passados. A construo dos padres de trei-

53

namento da rede consiste em mover as janelas de entrada e sada ao longo de toda srie
temporal:

Figura 8- Montagem do conjunto de treinamento

PUC-Rio - Certificao Digital N 0821481/CA

Cada par de janelas entrada/sada funciona como um padro de treinamento e deve ser apresentado repetidas vezes at que o algoritmo de aprendizado alcance a convergncia.
A arquitetura da RNA exerce grande influncia sobre o desempenho do processo
de aprendizagem. Em uma rede neural pequena h dificuldade de armazenar todos os
padres necessrios e por isso a convergncia do algoritmo de treinamento mais lenta.
Em uma rede pequena os processadores ficam sobrecarregados e lidam com muitas restries na tentativa de encontrar uma representao tima. Porm, deve-se ter o cuidado
de no utilizar processadores demais, pois a rede pode memorizar os padres de treinamento, ao invs de extrair as caractersticas gerais que permitiro o reconhecimento de
padres no vistos durante o treinamento.
Com relao s redes com mais de uma camada escondida importante observar
que cada vez que o erro propagado para a camada anterior, ele se torna menos til e
preciso. Apenas a camada imediatamente anterior camada de sada tem uma noo
precisa do erro, todas as camadas escondidas anteriores recebem uma estimativa do erro. Por esta razo a convergncia dos pesos destas camadas mais lenta.
O processo de treinamento de uma rede neural nada mais que o ajuste de parmetros, guiado pelo processo de minimizao da funo do erro entre as sadas desejadas e as apresentadas pela rede. Durante o processo, vrios padres de entrada e as
respectivas sadas desejadas so apresentados rede neural, de tal forma que os pesos

54

das sinapses sejam corrigidos iterativamente pelo algoritmo do gradiente decrescente


com o objetivo de minimizar a soma dos quadrados dos erros:

n
1
(d jp y jp ) 2 ,

2 p j 1

(3.37)

onde, p - o nmero de padres de treinamento (padres de entrada e sada);


n - o nmero de neurnios da camada de sada;

d j - a sada desejada para o j-simo neurnio da camada de sada;

y j - a sada gerada pelo j-simo neurnio da camada de sada.


O principal algoritmo de treinamento o backpropagation, onde o ajuste dos pesos se d pela execuo de um processo de otimizao realizado em duas fases: for-

PUC-Rio - Certificao Digital N 0821481/CA

ward e backward, conforme mostra a Figura 9,

padro de
entrada

FASE FORWARD

pesos
ajustados

FASE BACKWARD

clculo da
sada

erro

Figura 9-Rede neural com trs camadas

Na fase forward os dados de entrada alimentam a rede e so propagados para frente at que as sadas dos ns da ltima camada sejam obtidas, considerando-se fixos todos os parmetros da rede.
J na fase backward, o desvio (erro) entre a resposta desejada (alvo) e a resposta
efetivamente fornecida pela rede utilizado para ajustar os pesos das conexes da rede.
O sinal de erro propagado na direo da camada de entrada e o gradiente decrescente
usado para ajustar os parmetros da rede.

55

Para minimizar a soma dos quadrados do erro o algoritmo backpropagation se baseia no mtodo gradiente descendente, por isso, afim de que esse mtodo seja utilizado a
funo de ativao precisa ser contnua, diferencivel e de preferncia no decrescente,
por exemplo, a funo logstica. O algoritmo backpropagation pode ser resumido nas
seguintes operaes (Haykin, 2001):
1 Passo - Inicialize aleatoriamente os pesos da rede e faa o contador de pocas
(t) igual a zero.
2 Passo - Apresente uma poca de exemplos de treinamento rede. Uma poca
indica o nmero de vezes que o conjunto de treinamento, ou melhor, os padres de entrada (x) e o respectivo padro de sada (yd) so apresentados rede. Para cada exemplo
de treinamento realizar os passos 3 e 4 a seguir.
3 Passo Fase forward: Propague o padro de entrada (Xp) para frente, camada
PUC-Rio - Certificao Digital N 0821481/CA

por camada, at chegar na camada de sada. Para cada neurnio calcular a combinao
dos sinais recebidos da camada anterior:
m

net Ij t w Ij ,i t yiI 1 t
i 0

(3.38)

onde, yiI 1 t a sada produzida pelo neurnio i da camada anterior I-1 e w Ij,i t o
peso sinptico da conexo do neurnio j na camada I com o neurnio i da camada anterior I-1.
Para i=0 tem-se o vis aplicado ao neurnio j na camada I: y0I 1 t 1 e

w Ij ,0 t b Ij t

Se o neurnio j est na primeira camada oculta, i.e., I=1 y i0 t = x j ( t ) .


Denotando por fj a funo de ativao do neurnio j, o sinal produzido por ele :

yiI t f j net j t

(3.39)

No final calcule o erro, ou seja, a diferena entre a resposta desejada e a resposta


fornecida pela rede:

e j t y dj y j

(3.40)

56

4 Passo Fase backward: Propague o erro calculado no passo 2 para trs, comeando na camada de sada e terminando na camada de entrada. Neste processo ajuste os
pesos conforme a expresso :

w Ij ,i t 1 w Ij ,i t jI t yiI 1 t

(3.41)

onde, a taxa de aprendizagem, yiI 1 t a resposta do neurnio i situado na camada


anterior I-1 e jI t o gradiente local do neurnio j da camada I, definido de acordo
com a localizao do neurnio na rede.

PUC-Rio - Certificao Digital N 0821481/CA

Se a camada I onde est o neurnio uma camada de sada tem-se:

jI t e j t

df j net j t
dnet j

(3.42)

Porm, se a camada I onde o neurnio estiver uma camada escondida, o gradiente local :

jI t

df j net j t
dnet j

kI 1 t wkjI 1 t
k 1

(3.43)

onde, m nmero de neurnios da camada I+1, kI 1 t o gradiente local do neurnio


k situado na camada I+1 e wkjI 1 t o peso sinptico da conexo entre o neurnio j na
camada I e o neurnio k na camada I+1
5 Passo Aps terminar uma poca de exemplos faa t=t+1 e itere para frente e
para trs os passos 3 e 4 e pare apenas quando o critrio de parada1 for satisfeito.

O backpropagation usa o algoritmo do gradiente descendente durante na otimizao dos pesos das sinapses. Um aprimoramento do gradiente descendente o algoritmo

o erro.

Usualmente o critrio de parada fixa um determinado nmero de iteraes ou estabelece uma tolerncia para

57

de Levenberg-Marquardt o qual prope uma soluo de compromisso entre o algoritmo


do gradiente decrescente e o mtodo iterativo de Gauss-Newton. Sua regra de atualizao dos pesos :
x i 1 x1 (H I)1 f(x i )

(3.44)

onde, x - representa o vetor de pesos;


f - representa gradiente de erro mdio quadrtico;

H - representa a matriz Hessian;

- um fator de ajuste.
Assim, a regra de atualizao leva em considerao tanto a inclinao da superfcie do erro (mtodo do gradiente decrescente) quanto curvatura desta superfcie (mtodo de Gauss-Newton). O fator de ajuste indica qual dos dois mtodos ser predominante: para fatores de ajuste grandes, o mtodo do gradiente decrescente predomina e a
PUC-Rio - Certificao Digital N 0821481/CA

atualizao dos pesos ocorre fortemente na direo de inclinao da superfcie do erro;


caso contrrio, o mtodo de Gauss- Newton predomina e a atualizao ocorre mais no
sentido da curvatura da funo.
Finalmente, bom ressaltar que o problema encarado pelo algoritmo LM exatamente o que ocorre no treinamento backpropagation, onde a funo erro a ser minimizada no linear.
Para mais informaes sobre mtodo de redes neurais podem ser consultados em
Klir (1995) e Haykin (2001).
3.6
Redes Neuro-Fuzzy
Trata-se da fuso de duas ferramentas j conhecidas: redes neurais artificiais e a
lgica fuzzy, no qual agregam-se as caractersticas de transparncia de raciocnio da
lgica fuzzy juntamente com a capacidade de aprendizado e generalizao das redes
neurais.
Assim uma rede Neuro-Fuzzy pode ser definida como um sistema fuzzy que treinado como uma rede neural. Tendo em vista esta analogia, a unio da rede neural com a
lgica fuzzy vem com o intuito de amenizar a deficincia de cada um destes sistemas
fazendo com que tenhamos um sistema mais eficiente, robusto e de fcil entendimento.

58

O problema das redes neurais est basicamente relacionado falta de poder explicativo do sistema. Como forma de tentar solucionar estes problemas, foi criado os sistemas Neuro-Fuzzy. A principal vantagem deste sistema associar a capacidade de
aprendizado das Redes neurais e sua tolerncia a falhas interpretabilidade dos sistemas
fuzzy.

Existem vrios sistemas Neuro-Fuzzy, das quais podemos citar:


ANFIS- Adaptative Network Fuzzy Inference System (JANG 1993);
NEFCLASS Neuro-Fuzzy Classification (NAUCK 1994);
FSOM- Fuzzy- Self organized Map (VUORIMAA 1996);

PUC-Rio - Certificao Digital N 0821481/CA

NFH- Neuro-Fuzzy Hierrquico (SOUZA 1997).


Para esse trabalho foi aplicado o Adaptative Network Fuzzy Inference System
(ANFIS), uma vez que estamos tratando de dados de sries temporais. A seguir, tem-se
uma breve descrio do sistema de inferncia fuzzy j que o sistema em estudo
fundametado no sistema fuzzy.
3.6.1
Sistema de Inferncia Fuzzy
Na lgica fuzzy o grau de verdade de uma declarao representado por um nmero real no intervalo [0,1], ao contrrio do que ocorre na lgica clssica em que o grau
de verdade assume apenas dois valores: 0 (declarao falsa) e 1 (declarao verdadeira).
Esta caracterstica da lgica fuzzy til em muitas situaes prticas onde o grau de
intensidade de um fenmeno descrito de maneira imprecisa por meio de variveis lingsticas: baixo, moderado baixo, mdio, moderado alto ou alto. Exemplos desta situao so as sentenas temperatura baixa, temperatura normal e temperatura alta, onde a
separao entre os conjuntos, por exemplo, normal e alta no precisa. A principal contribuio da lgica fuzzy reside no tratamento destas questes lingsticas por meio de
funes de pertinncia aos conjuntos fuzzy, conforme ilustrado a seguir na Figura 10
para a varivel temperatura.

59

Figura 10-Conjuntos fuzzy e funes de pertinncia para a varivel temperatura

Na Figura 10 a varivel temperatura foi modelada por trs conjuntos fuzzy que representam as situaes de temperatura baixa, normal e alta. Estes trs conceitos lingsticos no so delimitados de forma precisa, pois esto associados com a sensao trmica. Esta caracterstica representada pela sobreposio entre os conjuntos fuzzy para

PUC-Rio - Certificao Digital N 0821481/CA

determinadas temperaturas. Por exemplo, uma temperatura de 18C baixa ou normal?


A lgica fuzzy responde esta questo atribuindo um grau de pertinncia de 0,6 ao conjunto fuzzy temperatura normal e 0,4 ao conjunto fuzzy temperatura baixa e desta forma
consegue tratar um conceito definido de forma imprecisa.
A teoria dos conjuntos fuzzy e os conceitos de lgica fuzzy podem ser utilizados
para traduzir em termos matemticos a informao imprecisa expressa por um conjunto
de regras lingsticas, sentenas fornecidas por um especialista e expressas atravs de
implicaes lgicas da forma SE antecedente ENTO conseqente (Pacheco & Vellasco, 2007).
O processo de inferncia fuzzy avalia os nveis de compatibilidade das variveis
de entradas com os antecedentes das vrias regras, ativando os conseqentes com intensidades proporcionais aos mesmos. O resultado desta operao um conjunto fuzzy que
convertido em um nmero, a resposta do sistema de inferncia fuzzy.
A estrutura de um sistema de inferncia fuzzy ilustrada na Figura 11 e na sequncia so descritas as funes de cada um dos seus elementos

60

Figura 11-Sistema de inferncia fuzzy ou FIS (Pacheco &Vellasco, 2007)

PUC-Rio - Certificao Digital N 0821481/CA

Fuzzificador: Mapeia os valores das variveis de entrada (valores crisp) nos conjuntos fuzzy dos antecedentes das regras fuzzy. Isso se faz necessrio de forma a ativar
regras que esto no formato de variveis lingsticas, as quais possuem conjuntos fuzzy
associados com elas (Klin & George, 1995).

Base de regras: As regras so fornecidas em geral por especialistas ou extradas a


partir dos dados, na forma de sentenas lingsticas se-ento ( Caldeira, 2007).

Inferncia: Realiza as operaes lgicas com conjuntos fuzzy, combinao dos antecedentes das regras, implicao e modus pons generalizado.

Defuzzificador: Transforma um conjunto fuzzy de sada em um elemento do universo de discurso (em geral, um nmero real), ou seja, o inverso da fuzzificao. Entre
as tcnicas utilizadas para tal processo, a mais usual o do centride (Caldeira et al.
2007).
A seguir, a Figura 12 ilustra o princpio de raciocnio da lgica fuzzy em um sistema de inferncia fuzzy tipo Mandani com duas regras, cujos antecedentes so definidos pela composio de dois conjuntos fuzzy A e B e que representam o comportamento
das variveis de entrada x e y respectivamente. Cada regra oferece como resposta um
conjunto fuzzy de sada C:

61

Se x A1 e y B1 ento z C1
Se x A 2 e y B2 ento z C 2

(3.45)

Figura 12-Modelo Mandani


PUC-Rio - Certificao Digital N 0821481/CA

Fonte: Jang, 1997

No modelo Mandami o processamento denominado inferncia Max-Min e corresponde s operaes de unio e interseo fuzzy (operadores mximo e mnimo). Os
antecedentes de cada regra so processados por meio da interseo fuzzy, gerando um
grau de disparo que limitar os valores mximos dos conjuntos de sada. Por exemplo,
na Figura 12 o valor preciso da varivel X tem pertinncia A1 no conjunto fuzzy A1 e
o valor da varivel Y tem pertinncia B1 no conjunto fuzzy B1. Logo, pela inferncia
Max-Min o grau de ativao da regra min(A1, B1) que neste caso A1.
A composio de todas as regras disparadas (ou ativadas) realizada atravs da
operao de unio fuzzy que gera o conjunto fuzzy de sada. Para obter uma sada precisa
deve-se proceder defuzzyficao do conjunto de sada. H diversos mtodos para realizar a transformao dos conjuntos fuzzy de sada em valores numricos, tais como a
Mdia dos Mximos e o Centro de Massa (tambm denominado Centro de Gravidade
ou Centride).
Uma alternativa ao modelo Mandani o modelo Takagi-Sugeno-Kang ou TSK
(Jang,1993 e Sun 1995) ilustrado na Figura 13, no qual cada regra oferece como resposta uma combinao linear das variveis de entrada, sendo que a sada do sistema de inferncia fuzzy a mdia ponderada das respostas parciais, onde os pesos so os graus de
ativao das regras w e que expressam a compatibilidade das variveis de entrada x e
y com os antecedentes das regras. O modelo TSK pode ser visto como uma combinao

62

entre conhecimento lingstico (parte antecedente) e regresso estatstica (parte conseqente), de tal forma que os antecedentes descrevem regies nebulosas no espao de
entrada nas quais as funes conseqentes so vlidas. Uma regra tpica de um sistema
com duas variveis de entrada utilizando o sistema TSK tem a forma:

Se x A e y B ento z px qy r

(3.46)

No caso em p = q = 0 , temos z = r , chamado modelo TSK de ordem zero, que


pode ser visto como um caso especial de um modelo de Mandani no qual o conseqente
especificado por um conjunto unitrio (singleton).
Como cada regra possui uma sada convencional, a sada global obtida atravs
da mdia ponderada de todos os resultados de sada, considerando-se os graus de pertinncia de cada regra ativada:

PUC-Rio - Certificao Digital N 0821481/CA

.y
i 1
N

i 1

(3.47)
i

onde, y a sada final, N representa o total de regras ativadas, e i o grau de pertinncia em relao contribuio de cada regra ativada.

Figura 13-Modelo Takagi-Sugeno-Kang


Fonte: Jang et al, 1997

63

3.6.2
Sistema Neuro-Fuzzy Adaptativo (ANFIS)
O ANFIS uma rede neural proposta por Jang (1993) cuja idia bsica de implementar um sistema de inferncia fuzzy atravs de uma arquitetura paralela distribuda, neste caso, a de uma RNA, de tal forma que os algoritmos de aprendizado possam
ser usados para ajustar este sistema de inferncia fuzzy.
Os parmetros associados com as funes de pertinncia so ajustados via um algoritmo de aprendizado. O ajuste destes parmetros efetuado utilizando o algoritmo de
backpropagation ou uma combinao deste com um algoritmo do tipo: mnimos quadrados (Least Squares). Esta estrutura implementa sistemas do tipo Takagi-Sugeno (Takagi-Sugeno, 1985), com funes lineares ou constantes nos consequentes das regras
que formam o sistema, tendo estas regras pesos unitrios.
PUC-Rio - Certificao Digital N 0821481/CA

A rede adaptativa uma espcie de grafo com ns interconectada por ramos direcionados. Alguns dos ns apresentam comportamento adaptativo, ou seja, sofrem alterao paramtrica no decorrer do treinamento, enquanto outros mantm seu comportamento dinmico inalterado (Caldeira, 2007).
O mtodo une as vrias partes de um sistema de inferncia fuzzy em uma rede adaptativa feedforward com cinco camadas (Figura 14) e treinada de modo supervisionado.

Figura 14-Arquitetura da ANFIS.


Fonte: Jang, 1993

A ttulo de ilustrao considere duas entradas x e y e uma sada z. No contexto da


previso de sries temporais, as variveis x e y correspondem aos valores passados da
varivel que se deseja prever z(t), z(t-1),... ou valores passados de variveis explicativas.
Suponha que a base de regras contenha duas regras fuzzy se-ento:

64

Regra 1: Se x A1 e y B1 ento f1=p1x + q1y +r1

(3.48)

Regra 2: Se x A2 e y B2 ento f2=p2x + q2 y +r2


onde , A1 e A2 so os conjuntos fuzzy da varivel x e B1 e B2 os conjuntos fuzzy da varivel y. Destaca-se que o conseqente de cada regra uma combinao linear das variveis de entrada (x e y) e corresponde a uma previso para o valor da varivel de sada z,
portanto, cada regra fornece uma previso para a varivel de sada.
Na camada 1, cada n representa um conjunto fuzzy de uma varivel de entrada (x
ou y) e como resultado fornece o grau de pertinncia do valor de entrada no conjunto
fuzzy:
Sadai1 Ai x , grau de pertinncia do valor da varivel x no conjunto fuzzy Ai,

PUC-Rio - Certificao Digital N 0821481/CA

i=1,2
Sadai1 Bi y , grau de pertinncia do valor da varivel y no conjunto fuzzy Bi,

i=1,2
O grau de pertinncia da entrada nos conjuntos fuzzy A e B pode ser definido
por funes triangulares, trapezoidais, gaussianas, mas usualmente descrito pela funo sino generalizada:

x bi
Ai x 1

ai

2 ci

, i 1,2

x ei
Bi x 1

di

2 fi

, i 1,2

(3.49)

Onde, (ai.bi.ci) e (di.ei.fi) so conjuntos de parmetros (premise parameters) ajustados


durante o treinamento da rede.
Na camada 2 cada n calcula o grau de ativao de uma regra fuzzy, definido
pelo produto entre os graus de pertinncia das variveis de entrada nos conjuntos fuzzy
que formam os antecedentes das regras:
Sadai2 wi Ai x Bi y = grau de ativao da i-sima regra fuzzy i=1.2,

(3.50)

65

A camada 2 no tem pesos a serem ajustados, uma camada com elementos estticos.
Na camada 3, cada n N normaliza o grau de ativao de uma regra fuzzy dividindo o grau de ativao da i-sima regra pela soma dos graus de ativao de todas as regras:

Sadai3 wi

i=1,2

w1
w1 w2

(3.51)

O valor normalizado do grau de ativao fornece uma medida da importncia de


cada regra fuzzy, quanto maior o valor normalizado, maior a importncia da respectiva
PUC-Rio - Certificao Digital N 0821481/CA

regra. A camada 3 tambm esttica.


Na camada 4, cada n calcula a resposta de uma regra fuzzy, ou seja, uma previso
para o valor da varivel z, definida por uma combinao linear das variveis de entrada:

Sadai4 wi pi x qi y ri

i=1,2
(3.52)

onde, (pi,qi,ri) so parmetros (consequent parameters) a serem ajustados durante


o treinamento.
Por fim, na camada 5, uma camada fixa, o nico neurnio calcula a mdia
ponderada das previses parciais para a varivel de sada, onde cada previso parcial
ponderada pelo grau de ativao da respectiva regra fuzzy:

w p x q y r
w p x q y r
w
j

Sada

5
i

(3.53)

No ajuste dos premise e consequent parameters a ANFIS usa o mtodo dos mnimos quadrados para determinar os consequent parameters e a retropropagao do erro

66

(mtodo do gradiente descendente) para aprender os premise parameters (Jang et al,


1997).
A rede adaptativa tem um funcionamento equivalente ao modelo de TSK.
O procedimento de previso da ANFIS similar da rede neural. Tem-se duas
formas de previso:
Previses multi-step
Previses single-step

As previses multi-step so aquelas que se caracterizam por possuir realimentao


das sadas das RNAs para as entradas das mesmas. Neste tipo de previso, o sistema
neural usa um conjunto de valores correntes da srie para prever os valores futuros desta
PUC-Rio - Certificao Digital N 0821481/CA

srie por um perodo fixo. Em seguida, esta previso realimentada na entrada do sistema para prever o prximo perodo. Estas previses so muito usadas para identificar
tendncias e pontos de mudanas preponderantes nas sries. Devido ao erro que inserido a cada nova previso, o horizonte de previses "multi-step" depende das caractersticas da srie e do limite do erro estabelecido.
Nas previses "single-step" no existe realimentao. As RNAs utilizam apenas
os valores anteriores da srie para prever um passo frente. Todavia, este passo tanto
pode ser para previses de curto prazo como para previses de mdio e longo prazo,
bastando que se tenha dados suficientes para treinar a rede. A previso "single-step"
tambm serve para avaliar a adaptabilidade e a robustez do sistema, mostrando que
mesmo quando as RNAs fazem previses erradas, elas so capazes de se auto corrigirem e fazer as prximas previses corretamente.
3.7
Diagnostico do Modelo
Dada uma srie histrica com n observaes, a qualidade do ajuste e o
desempenho de um modelo de previso podem ser avaliados

pelas seguintes

estatsticas, onde Ot o valor observado e Et o valor estimado/previsto, ambos para o


instante t. O desvio entre estes dois valores o erro de previso em t.

67

Erro mdio absoluto percentual (MAPE): MAPE =

Erro mdio absoluto (MAD):

100 n O t E t

n t 1 O t
n

Ot E t

t 1

MAD =

Raiz do erro quadrtico mdio (RMSE) : RMSE =

O t E t 2

t 1

Ot E t

t 2 O t 1
n

U de Theil:

U - Theil =

O t O t 1

O t 1
t 2
n

A estatstica U de Theil compara a previso obtida pelo modelo de previso com a

PUC-Rio - Certificao Digital N 0821481/CA

obtida pelo mtodo de previso ingnuo (naive), no qual a previso para o instante seguinte o valor imediatamente anterior.

You might also like