You are on page 1of 12

universidade estadual do oeste do paran

unioeste - campus de foz do iguau


centro de engenharias e cincias exatas
curso de cincia da computao
tcc - trabalho de concluso de curso

Proposta de Trabalho de Concluso de Curso


Aplicao de um modelo hbrido utilizando Redes Neurais
Artificiais e ARIMA para Predio de Sries Temporais

Gabriel Custdio Martins


Orientadora: Teresinha Arnauts Hachisuca
Co-orientadora: Eliete Nascimento Pereira

Foz do Iguau, 23 de julho de 2015

Identificao

1.1

rea e Linha de Pesquisa

Grande rea: Cincia da Computao


Cdigo: 1.03.00.00-7

Linha de Pesquisa: Matemtica da Computao


Cdigo: 1.03.02.00-0

Especialidade: Modelos Analticos e de Simulao


Cdigo: 1.03.02.02-6

1.2

Palavras-chave

1. Redes Neurais Artificiais


2. Modelagem ARIMA
3. Sries Temporais
4. Modelo Hbrido

Introduo e Justificativa

A rea de estudo responsvel pela predio de dados de srie temporais encontrase em uma fase de grande desenvolvimento, isto devido a necessidade de se obter
modelos confiveis e com grande preciso. Muitos estudos e pesquisas vm sendo
realizados na rea de Redes Neurais Artificiais, visando a criao de novas tcnicas,
mtodos e produtos que proporcionem praticidade e agilidade na previso das sries
temporais (ZHANG, 2003).
De acordo com Babu e Reddy (2014) a predio de dados de sries temporais
atualmente uma importante rea de pesquisa, sendo utilizada para previso em
vrias aplicaes. A predio de trfego na rede Internet auxilia aos provedores
na melhora da disponibilizao de seus servios. Predio de mudanas climticas
auxiliam no setor de agricultura. Predio de desastres ajudam na tomada das
precaues necessrias. A previso de dados financeiros ajudam os investidores a
realizar investimentos mais seguros e rentveis no mercado. Contudo, os dados de
sries temporais nem sempre possuem as mesmas caractersticas. Por exemplo, os
dados podem ser sazonais como no caso de variaes climticas repetidas de acordo
2

com a estao do ano, ou no sazonais como em dados financeiros e da bolsa de


valores. Alguns sries so altamente volteis, como velocidade do vento, e outras
menos volteis, como temperatura global e chuvas anuais. Alguns dados so quase
naturalmente lineares, como o crescimento anual de um animal ou planta, porm,
muitos outros conjuntos de dados so naturalmente no lineares. Para isso so
utilizados modelos distintos que melhor se adequam as caractersticas da srie.
Segundo Zhang (2003), a predio de sries temporais consiste da coleta e
anlise de observao passadas de uma mesma varivel, ao longo do tempo, onde
os padres encontrados so utilizados para gerar um modelo que descrever o seu
relacionamento subjacente.
O modelo chamado de Autoregressive Integrated Moving Average (ARIMA), tambm conhecido como modelo de Box-Jenkins, amplamente considerado como a
tcnica mais efetiva de predio na cincia social e extensivamente utilizada para
sries temporais. O uso do modelo ARIMA para predio de sries temporais essencialmente incerto, uma vez que este no assume conhecimento prvio sobre modelo
ou relacionamentos como em outros mtodos. Este modelo confia essencialmente
nos valores passados da srie, assim como nos erros, para predio. Contudo relativamente mais robusto e eficiente que modelos estruturalmente mais complexos
em relao a previses de curto prazo (ADEBIYI; ADEWUMI; AYO, 2014).
Embora seja bastante flexvel na representao de diversos tipos de sries temporais, i.e., puramente Autoregressive (AR), puramente Moving Average (MA) e AR
e MA combinadas (ARMA), sua maior limitao a hiptese de que a srie temporal possui dependncia linear alm da necessidade de estacionariedade(ZHANG,
2003).
Redes Neurais Artificiais (RNA) uma das tcnicas de soft computing mais
precisas e amplamente utilizadas para predio de sries temporais em diferentes
reas, incluindo problemas sociais, de engenharia, economia, negcios, finanas,
cotaes, e aes (ADEBIYI; ADEWUMI; AYO, 2014). Para Zhang (2003), a
maior vantagem do uso de Redes Neurais Artificiais na predio de sries temporais
est relacionada a sua flexibilidade na modelagem de sries no lineares. Uma
das principais caractersticas das RNAs a de que o modelo adaptativamente
formado baseando-se nas caractersticas apresentadas pelos dados, desta forma
adequado para conjuntos de dados empricos, onde nenhuma orientao terica
est disponvel para sugerir um processo apropriado de gerao de dados (ZHANG,
2003).
Na prtica, difcil determinar se a srie sob estudo gerada por um processo
linear ou no linear ou se um mtodo particular mais efetivo que outro numa
predio de dados fora da amostra. Tipicamente inmeros modelos so testados e o
que obtiver um resultado mais preciso selecionado. Contudo o modelo selecionado
no necessariamente o melhor para futuras predies, devido a muitos fatores que

podem influenciar, como: variao da amostra, incerteza do modelo e mudana


na estrutura (ZHANG, 2003). Sries temporais, no mundo real, raramente so
puramente lineares ou no lineares, neste caso, nem ARIMA ou RNA podem ser
adequadas para modelagem e predio, uma vez que o modelo ARIMA no pode
lidar com relacionamentos no lineares, enquanto RNA sozinho no capaz de
manusear ambas adequadamente.
Uma abordagem mais abrangente, que visa aumentar a preciso dos modelos de
predio, vem sendo sugerida. Segundo Clemen (1989), modelos tem sido desenvolvidos para encontrar a combinao tima para predio. Os resultados tm
sido praticamente unnimes: combinar diferentes modelos de predio conduzem
ao aumento da preciso.
Conforme mostra Silva (2012), uma ideia interessante seria tentar unir as vantagens que cada tcnica possui, RNA e ARIMA, de forma a obter um modelo mais
robusto que proporcione previses mais precisas, sendo conhecido como modelo
hbrido.
Um modelo hbrido bastante sugerido na literatura, e que ser utilizado durante
o desenvolvimento deste projeto, consiste da combinao do modelo ARIMA e RNA,
assim como sugerido por Silva (2012), onde a srie temporal utilizada como dado
de entrada para o modelo ARIMA, o qual ser responsvel pela retirada dos padres
lineares da srie. O resduo gerado nesta etapa ser aplicado a Rede Neural, uma
vez que o resduo gerado na etapa anterior no linear, para a captao dos
padres no lineares da srie. Desta forma, deve-se realizar uma combinao entre
os valores gerados pelo modelo ARIMA e a RNA. O modelo sugerido tambm pode
ser visto nos trabalhos apresentados por Zhang (2003), Valenzuela et al. (2008) e
Babu e Reddy (2014), entre outros.
A proposta deste trabalho utilizar o modelo gerado pela combinao dos
modelos ARIMA e RNA em sries temporais e comparar os resultados obtidos com
o resultado de modelos convencionais de predio de dados, afim de atestar a
superioridade do modelo.

3
3.1

Objetivos
Objetivo Geral

Realizar um estudo comparativo de qualidade e desempenho entre um modelo


de predio de sries temporais hbrido, mais robusto e preciso, obtido atravs da
unio das caractersticas estatsticas do modelo ARIMA e computacionais das Redes
Neurais Artificiais, com relao aos modelos convencionais.

3.2

Objetivos Especficos

Dentre os principais objetivos especficos destacam-se:


Realizar a combinao dos modelos ARIMA e Redes Neurais Artificiais;
Realizar a comparao do modelo hibrido contra modelos convencionais.
Adquirir conhecimento do modelo estatstico ARIMA;
Adquirir conhecimento do modelo computacional de Redes Neurais;
Comparao entre os dados previstos e reais;

Plano de Trabalho e Cronograma de Execuo


1. Estudo das propriedades de sries de dados temporais: estudar a definio
e as caracterstica das sries de dados temporais, mtodos de decomposio,
modelos de suavizao e modelos de predio existentes.
2. Estudos do modelo ARIMA: estudo das propriedades estatstica do modelo
autorregressivos integrados de mdias mveis, assim como modelos AR, MA e
ARMA, seu funcionamento, implementao e aplicao.
3. Estudo das Redes Neurais Artificiais: estudo terico sobre as RNAs, sua motivao, implementao e algoritmos utilizados.
4. Estudo dos trabalhos j realizados: pesquisas a serem realizadas na literatura com intuito de levantar informaes a respeito do contedo cientifico j
existente para o tema que ser abordado.
5. Pesquisa de ferramentas de auxilio: estudar ferramentas que so utilizadas
no estado atual da arte, tanto para aplicao do modelo ARIMA quanto para
construo da Rede Neural, e selecionar as quais sero utilizadas no projeto.
6. Levantamento de requisitos: levantar os requisitos necessrio para a elaborao do modelo de previso, descrevendo como o modelo deve funcionar.
7. Comparao dos mtodos: realizar uma comparao de carter estatstica,
entre o modelo hbrido com modelos de predio de dados que utilizam puramente o mtodo ARIMA ou RNAs, levando em considerao, para apresentao
de qualidade, a preciso do modelo gerado e a confiabilidade.
5

8. Desenvolver e submeter artigo: elaborar e submeter um artigo sobre o tema


do projeto.
9. Elaborar monografia: realizar uma monografia sobre o projeto.
10. Reunio com orientadora e co-orientadora: realizar reunies peridicas com
a orientado e co-orientado do projeto, afim de sanar dvidas, apresentar
resultados e discutir solues para problemas encontrados.
11. Apresentar TCC: apresentar para a banca de professores os resultado obtidos
durante o perodo de produo do projeto, juntamente com todo contedo
gerado.
Na Tabela 1 apresentado o cronograma das atividades descritas.
Atividades
1 - Estudo de sries temporais
2 - Estudo do modelo ARIMA
3 - Estudo das Redes Neurais Artificiais
4 - Estudo dos trabalhos j realizados
5 - Pesquisa de ferramentas de auxilio
6 - Levantamento de requisitos
7 - Comparao dos mtodos abordados
8 - Desenvolver e submeter artigo
9 - Elaborar Monografia
10 - Reunies com a orientadora e co-orientadora
11 - Apresentar TCC

Jul

Ago

Set

Perodo
Out Nov

Dez

Jan

Fev

Tabela 1: Cronograma das Atividades

5
5.1

Material e Mtodo
Materiais

De modo a auxiliar no desenvolvimento do projeto, tanto prtico como terico, sero utilizados livros, artigos, teste e trabalhos de concluso de curso. Os materiais
esto disponveis para a consulta atravs da biblioteca da Unioeste, da Fundao
PTI, Unila e repositrios virtuais.
A srie temporal a ser utilizada, de maneira a aferir a qualidade do mtodo gerado, pode ser encontrada atravs do endereo <http://www.sidc.be/silso/
datafiles> e corresponde a dados de observaes de manchas solares. A srie de
manchas solares de Wolf considerada no linear e no Gaussiana, utilizada para
a verificao de modelos no lineares mas estudada tanto em modelagens lineares
e no lineares. Ela composta de 315 observaes do nmero de manchas solares
anuais de 1700 2014 (SILSO World Data Center, 1750-2014). O conjunto utilizado neste projeto ser composto do dados correspondentes ao intervalo do ano de
1700 1987. O conjunto de testes, 221 observaes (1700 1920), ser utilizado
para formular o modelo para ento a amostra de teste, ltimas 67 observaes
(1921 1987), ser aplicada para avaliar a performance do modelo estabelecido.
Para a gerao do modelo de predio, assim como das representaes visuais dos dados e dos modelos obtidos, sero utilizadas linguagens de programao
amplamente utilizadas para a analise de dados, como R, Python e MATLAB. As
ferramentas citadas possuem, de forma integrada ou por meio de pacotes de terceiros, algoritmos estatsticos e computacionais para predio de sries temporais
e provm modos de visualizar dados atravs da gerao de grficos.

5.2

Mtodos

A reviso bibliogrfica ser utilizada para obteno de todo o conhecimento terico


necessrio para a realizao do Trabalho de Concluso de Curso. O contedo a
ser estudado deve abranger todo o conhecimento necessrio sobre as tecnologias,
algoritmos e mtodos que podero ser utilizados no desenvolvimento do trabalho.
Aps a concluso da reviso bibliogrfica ter inicio o desenvolvimento prtico
do projeto, e envolve a seleo dos dados a serem processados, a separao dos
dados em treinamento e teste, aplicao dos dados de treinamento ao mtodo
ARIMA e o uso do resduo gerado no mtodo anterior para treinamento da Rede
Neural, definido o modelo pelo treinamento, aplica-se o conjunto de teste. No final
do processo, o modelo obtido pela ARIMA e pela Rede Neural devem ser combinados.
Todo o desenvolvimento do projeto ser acompanhado pela orientadora e pela
coorientadora.

Critrios de Avaliao

De modo a realizar o teste de validao de performance do modelo hbrido com


relao aos outros modelos individuais, dois indicadores de performance sero aplicados, sendo estes SSE (Sum Squared Error), que consiste da soma dos quadrados
dos erros de cada observao da srie em seu tempo t, e MSE (Mean Squared Error),
obtido atravs da mdia do quadrado dos erros, ou seja, o valor da resultante de
(2) dividido pela quantidade total de observaes.
Se a observao atual para um perodo de tempo e ^ a predio para
o mesmo perodo, ento o erro definido por:

= ^

(1)

A soma do erro quadrtico ou SSE pode ser calculada da seguinte forma:

(2)

=1

O erro quadrtico mdio ou MSE:

1
2
=1

(3)

Onde quantidade total de observaes da srie.


Afim de avaliar o ajuste do modelo gerado com relao aos dados da srie sero
utilizadas tcnicas chamadas dependente de escala e independente de escala ou
de porcentagem. A primeira tcnica a ser utilizada chamada de RMSE (Root
Mean Squared Error) e dita dependente de escala, ou seja, o erro est na mesma
escala dos dados ( = ^ ) e no pode ser utilizada para comparar sries que
esto em escalas diferentes. A segunda tcnica chamada MAPE (Mean Absolute
Percentage Error) e considerada independente de escala, utilizada frequentemente
para comparar a performance entre diferentes conjuntos de dados.
A Raiz do Erro Quadrtico Mdio ou RMSE obtido atravs da formula:

2
=1

RSME =

(4)

O Erro Percentual Mdio Absoluto ou MAPE resultante da equao:

* 100
=1

(5)

Referncias

ADEBIYI, A. A.; ADEWUMI, A. O.; AYO, C. K. Comparison of arima and


artificial neural networks models for stock price prediction. Journal of Applied
Mathematics, Hindawi Publishing Corporation, v. 2014, 2014. Citado na pgina
3.
BABU, C. N.; REDDY, B. E. A moving-average filter based hybrid arimaann
model for forecasting time series data. Applied Soft Computing, Elsevier, v. 23, p.
2738, 2014. Citado 2 vezes nas pginas 2 e 4.
CLEMEN, R. T. Combining forecasts: A review and annotated bibliography.
International journal of forecasting, Elsevier, v. 5, n. 4, p. 559583, 1989. Citado
na pgina 4.
SILSO World Data Center. The international sunspot number. International
Sunspot Number Monthly Bulletin and online catalogue, Royal Observatory of
Belgium, avenue Circulaire 3, 1180 Brussels, Belgium, 17502014. Citado na
pgina 7.
SILVA, T. A. d. A. Previso de cargas eltricas atravs de um modelo hbrido
de regresso com redes neurais. Universidade Estadual Paulista (UNESP), 2012.
Citado na pgina 4.
VALENZUELA, O. et al. Hybridization of intelligent techniques and arima
models for time series prediction. Fuzzy Sets and Systems, Elsevier, v. 159, n. 7,
p. 821845, 2008. Citado na pgina 4.
ZHANG, G. P. Time series forecasting using a hybrid arima and neural network
model. Neurocomputing, Elsevier, v. 50, p. 159175, 2003. Citado 3 vezes nas
pginas 2, 3 e 4.

Sntese Bibliogrfica

ABREU, T. et al. Metodologia hbrida utilizando os modelos arima e redes neurais


artificiais para previso de cargas eltricas. In: ANAIS DO XIX CONGRESSO
BRASILEIRO DE AUTOMTICA. [S.l.], 2012. Nenhuma citao no texto.
ADEBIYI, A. A.; ADEWUMI, A. O.; AYO, C. K. Comparison of arima and
artificial neural networks models for stock price prediction. Journal of Applied
Mathematics, Hindawi Publishing Corporation, v. 2014, 2014. Citado na pgina
3.
10

BABU, C. N.; REDDY, B. E. A moving-average filter based hybrid arimaann


model for forecasting time series data. Applied Soft Computing, Elsevier, v. 23, p.
2738, 2014. Citado 2 vezes nas pginas 2 e 4.
BEZERRA, M. I. S. Apostila de anlise de sries temporais. Curso de Estatstica,
available in http://people. ufpr. br/lucambio/CE017/1S2010/5515941-ApostilaSeries-Temporais. pdf, 2006. Nenhuma citao no texto.
CADENAS, E.; RIVERA, W. Wind speed forecasting in three different regions
of mexico, using a hybrid arimaann model. Renewable Energy, Elsevier, v. 35,
n. 12, p. 27322738, 2010. Nenhuma citao no texto.
CHATFIELD, C. Time-series forecasting. [S.l.]: CRC Press, 2000. Nenhuma
citao no texto.
CLEMEN, R. T. Combining forecasts: A review and annotated bibliography.
International journal of forecasting, Elsevier, v. 5, n. 4, p. 559583, 1989. Citado
na pgina 4.
DU, J.-X. et al. A novel full structure optimization algorithm for radial basis
probabilistic neural networks. Neurocomputing, Elsevier, v. 70, n. 1, p. 592596,
2006. Nenhuma citao no texto.
EHLERS, R. S. Anlise de sries temporais. Laboratrio de Estatstica e
Geoinformao. Universidade Federal do Paran, 2007. Nenhuma citao no
texto.
ERDAL, H. I.; EKINCI, A. A comparison of various artificial intelligence methods
in the prediction of bank failures. Computational Economics, Springer, v. 42,
n. 2, p. 199215, 2013. Nenhuma citao no texto.
GAN, M.; PENG, H.; DONG, X.-p. A hybrid algorithm to optimize rbf
network architecture and parameters for nonlinear time series prediction. Applied
Mathematical Modelling, Elsevier, v. 36, n. 7, p. 29112919, 2012. Nenhuma
citao no texto.
HAYKIN, S. Redes Neurais - 2ed. [S.l.]: BOOKMAN COMPANHIA ED, 2001.
ISBN 9788573077186. Nenhuma citao no texto.
HE, J.; SI, B. The application of arima-rbf model in urban rail traffic volume
forecast. In: ATLANTIS PRESS. Proceedings of the 2nd International Conference
on Computer Science and Electronics Engineering. [S.l.], 2013. Nenhuma citao
no texto.

11

KHASHEI, M.; BIJARI, M. A novel hybridization of artificial neural networks


and arima models for time series forecasting. Applied Soft Computing, Elsevier,
v. 11, n. 2, p. 26642675, 2011. Nenhuma citao no texto.
KIA, A. N.; FATHIAN, M.; GHOLAMIAN, M. Using mlp and rbf neural
networks to improve the prediction of exchange rate time series with arima.
International Journal of Information and Electronics Engineering, v. 2, n. 4, p.
543546, 2012. Nenhuma citao no texto.
LALLAHEM, S. et al. On the use of neural networks to evaluate groundwater
levels in fractured media. Journal of hydrology, Elsevier, v. 307, n. 1, p. 92111,
2005. Nenhuma citao no texto.
MORETTIN, P.; TOLOI, C. de C. Anlise de sries temporais. Edgard Blucher,
2006. ISBN 9788521203896. Disponvel em: <https://books.google.com.br/
books?id=Q7bJAAAACAAJ>. Nenhuma citao no texto.
PALM, F. C.; ZELLNER, A. To combine or not to combine? issues of combining
forecasts. Journal of Forecasting, Wiley Online Library, v. 11, n. 8, p. 687701,
1992. Nenhuma citao no texto.
SILSO World Data Center. The international sunspot number. International
Sunspot Number Monthly Bulletin and online catalogue, Royal Observatory of
Belgium, avenue Circulaire 3, 1180 Brussels, Belgium, 17502014. Citado na
pgina 7.
SILVA, T. A. d. A. Previso de cargas eltricas atravs de um modelo hbrido
de regresso com redes neurais. Universidade Estadual Paulista (UNESP), 2012.
Citado na pgina 4.
VALENZUELA, O. et al. Hybridization of intelligent techniques and arima
models for time series prediction. Fuzzy Sets and Systems, Elsevier, v. 159, n. 7,
p. 821845, 2008. Citado na pgina 4.
ZHANG, G. P. Time series forecasting using a hybrid arima and neural network
model. Neurocomputing, Elsevier, v. 50, p. 159175, 2003. Citado 3 vezes nas
pginas 2, 3 e 4.

12

You might also like