You are on page 1of 116

UMA METODOLOGIA PARA A PREVISO DO NDICE BOVESPA

UTILIZANDO MINERAO DE TEXTOS

Elisangela Lopes de Faria

Dissertao de Mestrado apresentada ao Programa de


Ps-graduao em Engenharia Civil, COPPE, da
Universidade Federal do Rio de Janeiro, como parte
dos requisitos necessrios obteno do ttulo de
Mestre em Engenharia Civil.

Orientador(es): Nelson Francisco Favilla Ebecken

Marcelo Portes de Albuquerque

Rio de Janeiro
Julho de 2012

UMA METODOLOGIA PARA A PREVISO DO NDICE BOVESPA


UTILIZANDO MINERAO DE TEXTOS

Elisangela Lopes de Faria

DISSERTAO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO


LUIZ COIMBRA DE PS-GRADUAO E PESQUISA DE ENGENHARIA
(COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE
DOS REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE MESTRE
EM CINCIAS EM ENGENHARIA CIVIL.

Examinada por:
________________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.

________________________________________________
Prof. Marcelo Portes de Albuquerque, D.Sc.

________________________________________________
Profa. Beatriz de Souza Leite Pires de Lima, D.Sc.

________________________________________________
Profa. Heloisa Mrcia Pires, D.Sc.

RIO DE JANEIRO, RJ BRASIL


JULHO DE 2012

Faria, Elisangela Lopes de


Uma metodologia para previso do ndice BOVESPA
utilizando Minerao de Textos/ Elisangela Lopes de
Faria. Rio de Janeiro: UFRJ/COPPE, 2012.
XI, 105 p.: il.; 29,7 cm.
Orientador: Nelson Francisco Favilla Ebecken
Marcelo Portes de Albuquerque
Dissertao (mestrado) UFRJ/ COPPE/ Programa de
Engenharia Civil, 2012.
Referncias Bibliogrficas: p. 94-103.
1. Previso de sries temporais. 2. Minerao de
Textos . 3. Mercados Financeiros. I. Ebecken, Nelson
Francisco Favilla et al. II. Universidade Federal do Rio
de Janeiro, COPPE, Programa de Engenharia Civil. III.
Ttulo.

iii

minha me Maria e ao meu pai


Jos Lopes (in memorian).

iv

AGRADECIMENTOS

A Deus por ter me iluminado e me dado fora e inspirao para conseguir concluir este
trabalho.

Em especial aos meus pais, que apesar de nunca terem frequentado uma escola sempre
me orientaram e me incentivaram vida acadmica. Agradeo o amor, apoio, carinho e
dedicao de toda uma vida.

Ao meu marido, Jorge Luis pelo carinho, pacincia e apoio ao longo do


desenvolvimento deste trabalho. Suas palavras de incentivo foram fundamentais para a
concluso do mesmo.

minha irm Marlene, minhas sobrinhas Jane e Cyntia e meu cunhado Ronaldo pelo
carinho e torcida em todos os momentos.

Ao meu orientador, prof. Dr. Nelson Francisco Favilla Ebecken, pelo grande apoio e
confiana durante todo o desenvolvimento deste trabalho.

Ao meu co-orientador, prof. Dr. Marcelo Portes de Albuquerque, pelos ensinamentos


transmitidos. Os anos sob sua superviso no Centro Brasileiro de Pesquisas Fsicas tm
contribudo muito para meu crescimento intelectual.

Ao Prof. Dr. Mrcio Portes Albuquerque do CBPF, pela contribuio dada neste
trabalho.

profa. Dra. Valria Bastos por semear os primeiros conhecimentos sobre a rea de
minerao de textos.

A Jos Thadeu Cavalcante, engenheiro do CBPF pelas discusses sobre redes neurais e
linguagens de programao.

Resumo da Dissertao apresentada COPPE/UFRJ como parte dos requisitos


necessrios para a obteno do grau de Mestre em Cincias (M.Sc.)

UMA METODOLOGIA PARA A PREVISO DO NDICE BOVESPA


UTILIZANDO MINERAO DE TEXTOS

Elisangela Lopes de Faria

Julho/2012

Orientadores: Nelson Francisco Favilla Ebecken


Marcelo Portes de Albuquerque

Programa: Engenharia Civil

Nesta dissertao a tcnica de minerao de textos utilizada para prever o


mercado de aes no Brasil, em particular o ndice Bovespa, que representa o principal
indicador do mercado acionrio brasileiro. Para esta finalidade foram processadas
notcias macroeconmicas e financeiras, divulgadas nos principais sites de notcias do
Brasil, juntamente com as sries temporais das cotaes do indicador estudado no
perodo de fevereiro de 2010 a junho de 2011. Diferentes modelos de previso foram
testados com vrias configuraes de parmetros. Os resultados obtidos foram
quantificados atravs das mtricas de avaliao acurcia, preciso, recall e medida-F e
os mesmos demostraram que possvel prever o Ibovespa com uma acurcia de 66%.
Por fim uma estratgia de negociao foi desenvolvida e a mesma reportou uma
lucratividade de 33%.

vi

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the


requirements for the degree of Master of Science (M.Sc.)

A METHODOLOGY FOR BOVESPA INDEX FORECASTING


USING TEXT MINING

Elisangela Lopes de Faria

July/2012

Advisors: Nelson Francisco Favilla Ebecken


Marcelo Portes de Albuquerque

Department: Civil Engineering

In this thesis the technique of text mining is used to predict the stock market in
Brazil, particularly the Bovespa index, which represents the main indicator of the
Brazilian stock market. For this purpose were processed macroeconomic and financial
news, published in major news sites in Brazil, along with time series of quotations from
the indicator studied from February 2010 to June 2011. Different predictive models
were tested with various parameter settings. The results were quantified using the
metrics of evaluation accuracy, precision, recall and F-measure and they demonstrated
that one can predict the Ibovespa with an accuracy of 66%. Finally a trading strategy
was developed and it reported a profit of 33%.

vii

Sumrio

1.

2.

3.

Introduo.................................................................................................................. 1
1.1

Objetivos ............................................................................................................ 3

1.2

Descrio e organizao do trabalho ................................................................. 5

Reviso da Literatura Principais Trabalhos ........................................................... 7


2.1

Arquitetura geral dos modelos de previso do mercado e minerao de textos 7

2.2

Resumos dos principais trabalhos ...................................................................... 9

Mercado de Aes no Brasil ................................................................................... 21


3.1

Caractersticas do Mercado de Aes .............................................................. 22

3.2

Anlises de Investimento ................................................................................. 25

3.2.1

Hiptese do Mercado Eficiente ................................................................ 25

3.2.2

Random Walk............................................................................................ 26

3.2.3

Anlise Fundamentalista .......................................................................... 26

3.2.4

Anlise Tcnica ........................................................................................ 26

3.3
4.

Anlise Tcnica x Anlise Fundamentalista .................................................... 27

Minerao de Textos para Anlise de Notcias ....................................................... 28


4.1.

Classificao de Textos ................................................................................... 29

4.1.1

Aplicaes da Classificao de Textos..................................................... 29

4.1.2

Processo Geral de Classificao Automtica de Textos........................... 30

4.1.2.1 Obteno de Documentos ..................................................................... 32


4.1.2.2 Pr-processamento de Notcias ............................................................. 34
4.1.2.3 Extrao de Conhecimento ................................................................... 43
4.1.2.4 Mtricas de Avaliao .......................................................................... 47
5.

Descrio do Sistema de Previso do Mercado ...................................................... 50


5.1

Coleta de Dados ............................................................................................... 52

5.1.1

Base de dados de Sries Temporais Financeiras ...................................... 52

5.1.2

Base de dados de Notcias Financeiras ..................................................... 54

5.1.3

Atribuio de classes aos Ttulos das Notcias ......................................... 55

5.2

Pr-processamento das Notcias ...................................................................... 59

5.2.1 Pr-processamento no Exp1 ........................................................................... 60


5.2.2 Pr-processamento no Exp2 .......................................................................... 61
viii

5.3

6.

5.3.1

Classificao de documentos no Exp1 ..................................................... 64

5.3.2

Classificao de documentos no Exp2 ..................................................... 65

5.4

Avaliao dos Sistemas ................................................................................... 66

5.5

Estratgia de Negociao ................................................................................. 67

Resultados e Anlises .............................................................................................. 70


6.1

Base de Dados: Sries Temporais Financeiras e Notcias ............................... 70

6.2

Experimento 1. Resultados e Anlise .............................................................. 73

6.2.1

Resultados obtidos Experimento1 ............................................................ 73

6.2.2

Anlise e avaliao do Modelo no Exp1 .................................................. 75

6.3

Experimento 2. Resultados e Anlise .............................................................. 77

6.3.1

Resultados obtidos Experimento2 ............................................................ 77

6.3.2

Anlise e avaliao do Modelo no Exp2 .................................................. 82

6.4

Comparao entre os resultados ...................................................................... 83

6.4.1

Comparao entre os resultados do Exp1 e Exp2..................................... 83

6.4.2

Comparao entre os resultados Exp 2 e (Faria et al., 2009) ................... 85

6.5
7.

Classificao dos documentos ......................................................................... 63

Resultados. Estratgia de Negociao ............................................................. 86

Concluses e Trabalhos Futuros ............................................................................. 89


7.1

Viso Geral do Trabalho .................................................................................. 89

7.2

Concluses gerais ............................................................................................ 90

7.3

Limitaes e problemas do trabalho ................................................................ 92

7.4

Sugestes de Trabalhos Futuros ...................................................................... 92

REFERNCIAS BIBLIOGRFICAS ........................................................................... 94


APNDICE A .............................................................................................................. 104

ix

LISTA DE FIGURAS

Figura 2.1 Arquitetura Geral - Fase de Aprendizagem .................................................... 8


Figura 2.2 Arquitetura Geral Fase Operacional............................................................. 8
Figura 3.1 Mdia diria de Negcios na BmfBovespa ................................................... 22
Figura 3.2 Candlestick e suas representaes ................................................................. 24
Figura 3.3 Grfico de candlestick: Ibovespa (Perodo Agosto a Novembro de 2011) ... 24
Figura 4.1 Arquitetura geral dos processos de Classificao de textos .......................... 31
Figura 4.2 Esquema de abordagem Filter ...................................................................... 36
Figura 4.3 Esquema de abordagem Wrapper ................................................................. 37
Figura 4.4 Representao Bag of Words ........................................................................ 41
Figura 4.5 Arquitetura bsica de uma rede neural e seus principais componentes ........ 46
Figura 5.1 Etapas da Metodologia do sistema proposto ................................................. 50
Figura 5.2 Srie diria do fechamento do Ibovespa (fevereiro de 2010 a junho de 2011)
........................................................................................................................................ 53
Figura 5.3 Exemplo de Ttulos de Notcias .................................................................... 54
Figura 5.4 Grfico comparativo ..................................................................................... 67
Figura 6.1 Cotaes do fechamento do Ibovespa e Variao Relativa do Ibovespa ...... 71
Figura 6.2 Grfico da mdia de notcias dirias no perodo de ...................................... 72
fevereiro de 2010 a junho de 2011 ................................................................................. 72
Figura 6.3 Acurcia dos classificadores para Base1....................................................... 73
Figura 6.4 Acurcia dos classificadores para Base2....................................................... 74
Figura 6.5 Resultados redes MLP para modelo de duas classes. Grfico superior est
relacionado Base1, enquanto grfico inferior est relacionado Base2...................... 78
Figura 6.6 Resultados redes RBF para modelo de duas classes. O grfico superior est
relacionado Base1, enquanto grfico inferior se refere Base2 .................................. 79
Figura 6.7 Lucro acumulado por ao ............................................................................ 86
Figura 6.8 Lucro por dia de negociao ......................................................................... 87

LISTA DE TABELAS

Tabela 4.1 - Matriz Confuso ......................................................................................... 48


Tabela 5.1 - Estatsticas bsicas dos ttulos das notcias no perodo de 23/02/2010 a
30/06/2011 ...................................................................................................................... 55
Tabela 5.2 - Estatsticas bsicas das notcias aps estratgias adotadas ........................ 57
Tabela 5.3 - Distribuio para modelo de trs classes para trs limiares diferentes ...... 58
Tabela 5.4 - Representao final dos documentos aps a converso tabela AtributoValor ............................................................................................................................... 63
Tabela 6.1 - Resultado modelo de previso para Base2 ................................................. 75
Tabela 6.2 - Medidas de Avaliao no Exp1 .................................................................. 76
Tabela 6.3 - Resultado modelo de previso para Base1 ................................................. 82
Tabela 6.4 - Medidas de Avaliao no Exp2 .................................................................. 82
Tabela 6.5 Comparao entre os resultados Exp1 e Exp2 ........................................... 85
Tabela A.1 - Comparao das principais caractersticas dos sistemas propostos na
literatura ........................................................................................................................ 105

xi

1. Introduo
A rea relacionada ao mercado financeiro sempre atraiu e atrai a ateno de
diversos pesquisadores. No cenrio atual de um mundo dinmico e altamente
globalizado o mercado financeiro em geral um importante meio de financiamento
empresarial, assim como tambm um importante meio de investimento individual. Alm
disto, a complexidade intrnseca destes sistemas faz da sua compreenso um desafio ou
teste para todas as ferramentas e tcnicas de anlises de sistemas complexos. Tudo isto
em conjunto, traduz a importncia que dedicada ao estudo dos mercados em vrias
universidades e comunidades cientficas de diferentes pases.
Atualmente a globalizao tem correlacionado todos os mercados mundiais
fazendo com que o comportamento dos mesmos seja complexo e de difcil previso. Por
outro lado, o avano da computao e das comunicaes nos dias atuais aperfeioou os
mercados financeiros tornando-os mais eficientes. Para o investidor bastam agora
poucos comandos para, em tempo real, efetuar operaes financeiras em qualquer parte
do mundo. Sendo assim o capital financeiro se desloca de um lugar para outro com uma
grande velocidade, o que produz uma alta volatilidade nos mercados fazendo com que o
volume negociado seja bem elevado e voltil. Dentre os mercados financeiros que mais
se desenvolvem podemos citar o mercado de aes os quais so uma fonte de captao
de recursos financeiros permanentes para as empresas. Com o crescimento deste
mercado surge cada vez mais a preocupao em se entender o comportamento do
mesmo.
Nos ltimos anos os mercados acionrios do mundo inteiro tm sido
exaustivamente estudados por tcnicas de Minerao de Dados (dados quantitativos ou
informaes numricas geralmente dispostos em tabelas), onde dados histricos das
aes, taxa de juros, indicadores econmicos, dentre outros, foram utilizados para tentar
entender e prever o comportamento futuro dos mesmos em diferentes pases. Muitos
destes trabalhos foram revisados em (Krollner et al., 2010). Porm, amplamente
conhecido que notcias desempenham um papel fundamental nos mercados financeiros.
Estas notcias, nos formatos textuais, geralmente so dados no estruturados e difceis
de quantificar. Ao contrrio da anlise baseada em dados estruturados (minerao de
dados) os dados de notcias textuais contm no s o comportamento do mercado (por
1

exemplo, o preo da ao subiu), mas tambm a possvel causa deste comportamento


(por exemplo, o preo da ao subiu devido diminuio da taxa SELIC- Sistema
Especial de Liquidao e de Custdia).
O advento da internet fez com que o volume de notcias econmicas disponveis
na web tenha crescido vertiginosamente e o surgimento de novas tecnologias tem
aumentado a capacidade de coleta e armazenamento destes dados de notcias.

trabalho do investidor financeiro est cada vez mais difcil uma vez que precisa
processar um grande volume de dados textuais de maneira rpida e eficiente para sua
tomada de deciso. Neste sentido as tcnicas de Minerao de Textos tem sido uma
abordagem muito utilizada para auxiliar os investidores nesta tarefa, uma vez que
permite extrair, agregar e classificar grandes volumes de dados de notcias
eficientemente. A utilizao de tcnicas de Minerao de Textos em estudos envolvendo
os vrios mercados financeiros mundiais vem crescendo muito nos ltimos anos e em
todos estes trabalhos tem-se a confirmao de que o contedo de notcias econmicas
tem um forte impacto sobre o preo das aes (Gidfalvi, 2001).

Nestes estudos

diferentes estratgias tm sido abordadas. Robertson (2009) classifica as estratgias


mais comumente utilizadas em trs grupos:

1 Estudos de eventos: Busca por correlaes entre notcias e comportamento


anormal de negociao depois que certo tipo de notcia se torna disponvel para
o mercado (Kalev et al., 2004). Nesta abordagem os pesquisadores esto apenas
preocupados com o nmero de notcias de um determinado tipo, que ocorre em
um perodo especfico, de modo que o contedo da notcia ignorado.
2 Classificao de Textos: Diferente da estratgia citada acima nesta abordagem
o comportamento anormal de negociao do mercado previsto utilizando o
contedo das notcias (Robertson et al., 2007). Dados reais dos preos dos
ativos so utilizados para classificar as notcias.
3 Anlise de Sentimento: Nesta abordagem palavras ou frases positivas (ex:
melhor que esperado, subiu) e palavras ou frases negativas (menor que
esperado, caiu) so procuradas na notcia a fim de inferir o sentimento do
autor (Tetlock, 2007). A teoria que quando os investidores esto sujeitos a um
grande volume de notcias com sentimento negativo, eles passam a ter uma viso
negativa do ativo e inversamente ocorre o mesmo, ou seja, se houver um excesso
2

de notcias positivas os investidores assumem uma posio mais otimista do


ativo.
Nas abordagens 1 e 2 so utilizados algoritmos de aprendizagem de mquina
para categorizar as notcias. A ideia bsica destas estratgias parte do princpio de que
os investidores de uma maneira geral antes de tomar suas decises leem cuidadosamente
notcias econmicas e financeiras recentes para ter uma viso atualizada do mercado.
Usando seus conhecimentos de como o mercado se comportou no passado em diferentes
situaes, estes investidores vo corresponder implicitamente situao atual como
situaes no passado, semelhantes atual. Sendo assim os algoritmos de aprendizagem
de mquina so treinados para reproduzir este conhecimento humano e prever situaes
em um perodo futuro. Para isto, tcnicas de pr-processamento de textos (como
eliminao de stopwords, algoritmos de stemming e outras) precisam ser utilizadas para
transformar as notcias em dados estruturados que possam ser utilizados por estes
algoritmos. importante ressaltar que todas estas tcnicas citadas sero detalhadas nas
prximas sees deste trabalho.
Apesar deste crescente interesse nos ltimos anos pela aplicao de tcnicas de
Minerao de Textos em notcias para entender o comportamento futuro dos mercados
financeiros, este tipo de estudo ainda uma rea emergente de pesquisa. uma
abordagem pouco utilizada at o momento devido dificuldade de se extrair
informaes relevantes a partir de dados no estruturados. O objetivo desta dissertao
explorar esta rea emergente de pesquisa e estudar o comportamento do mercado de
aes brasileiro. A motivao para estudar este mercado est no fato de que o mesmo
um mercado que mais movimenta recursos financeiros no Brasil. Podemos citar tambm
que o mercado de aes do Brasil considerado um dos mercados de maior liquidez
entre os mercados emergentes e ainda no explorado na literatura. Tudo isto, somado a
expanso da rea de Minerao de Textos, serviu de motivao para o desenvolvimento
deste trabalho. Os objetivos gerais do mesmo so descritos nos pargrafos seguintes.

1.1

Objetivos
O mercado financeiro um sistema altamente complexo, dinmico e no linear.

A rea relacionada previso financeira caracterizada por dados ruidosos, no


estacionrios, no estruturados, com alto grau de incertezas e relacionamentos
3

escondidos. Muitos fatores interagem nos mercados financeiros incluindo eventos


polticos, condies da economia em geral, expectativas dos investidores, entre outros.
Portanto, prever o movimento dos preos nos mercados financeiros uma tarefa muito
difcil. O objetivo principal desta dissertao atravs da abordagem de Minerao de
Textos e de mtodos de anlise estatstica prever a tendncia do comportamento futuro
do ndice (Ibovespa) do mercado acionrio do Brasil (BmfBovespa1 Bolsa de Valores,
Mercadorias e Futuros), utilizando para isto os ttulos (headlines) de notcias financeiras
dos principais sites econmicos em portugus. O uso dos ttulos como entrada para o
modelo proposto est em linha com a abordagem proposta por (Peramunetilleke et al.,
2001), onde os autores afirmam que os ttulos possuem um vocabulrio restrito
contendo somente as informaes relevantes. Cabe tambm destacar que, at o
momento da redao desta dissertao, no foi encontrado na literatura tcnica
cientfica, outro estudo similar que tenha abordado o tema desta dissertao.

Dentre os objetivos secundrios que so abordados neste trabalho citamos:


Criao de uma base de dados de notcias textuais em portugus relacionados ao
mercado de aes brasileiro (esta base de dados textual conhecida na literatura
como corpus) a ser utilizado, uma vez que estes dados no existem ou no esto
disponveis para estudo.
Verificar a influncia das notcias publicadas antes da abertura do prego da
BmfBovespa na volatilidade diria do mercado de aes brasileiro.
Estudo e anlise de diferentes medidas estatsticas na fase de pr-processamento
dos textos.
Verificar a capacidade preditiva dos modelos que fazem uso de palavras chave
obtidas automaticamente por mtodos estatsticos e de modelos que fazem uso
de palavras chave fornecidas por especialista do mercado de aes.
Comparao dos resultados com os obtidos em (Faria et al., 2009) onde o
mesmo mercado foi estudado com dados estruturados e mtodos de Redes
Neurais Artificiais e Alisamento Exponencial Adaptativo.

A BmfBovespa foi criada em 2008 com a integrao entre a Bolsa de Mercadorias e Futuros

(BM&F) e a Bolsa de Valores de So Paulo (BOVESPA).


4

1.2

Descrio e organizao do trabalho


O presente trabalho est dividido em sete captulos, seguindo uma linha em que

primeiramente feito uma reviso terica do trabalho (captulos 2, 3 e 4). E nos ltimos
captulos so apresentados a metodologia proposta (captulo 5), os resultados no
captulo 6 e por fim as concluses no captulo 7.
Mais detalhadamente, os captulos citados podem ser definidos da seguinte
forma. No primeiro captulo feita uma breve introduo dissertao, sua motivao e
seus objetivos.
O segundo captulo fornece uma viso geral da literatura sobre a utilizao de
minerao de textos na previso de diferentes mercados financeiros. Alguns conceitos
bsicos sobre minerao de textos e mercados financeiros so apresentados dentro do
contexto dos trabalhos revisados. Cabe ressaltar que em caso de dvidas sobre as
tcnicas de minerao de textos e ou conceitos envolvendo o mercado financeiro
recomendado a leitura dos captulos 3 e 4 primeiro.
No terceiro captulo so apresentados alguns conceitos do mercado financeiro
brasileiro e as teorias utilizadas na predio dos mesmos (random walk e hiptese do
mercado eficiente), alm de duas filosofias distintas que surgiram a partir destas teorias
(anlise fundamentalista e anlise tcnica). Este captulo introduz ao leitor alguns
detalhes sobre os mtodos de anlise do mercado de aes que permitem uma melhor
compreenso desta dissertao.
No quarto captulo apresentada a minerao de textos para anlise de notcias
financeiras. As principais tarefas de minerao de textos so apresentadas, mas somente
a tarefa de classificao de textos detalhada, uma vez que o principal objetivo desta
dissertao a classificao de notcias financeiras. feito tambm uma breve
descrio dos algoritmos de classificao utilizados neste trabalho, Naive Bayes
(Bayesiano Simples), Support Vector Machine SVM (Mquina de Vetor de Suporte) e
Artificial Neural Network (Rede Neural Artificial - RNA).
No quinto captulo a implementao da metodologia utilizada para alcanar os
objetivos desta dissertao apresentada. Dois experimentos distintos so utilizados na
implementao da metodologia proposta. Todas as tarefas executadas nestes
experimentos so detalhadas, assim como as mtricas de avaliao dos resultados. Por
fim uma estratgia de negociao baseada no sistema de previso proposto
implementada.
5

O sexto captulo apresenta todos os resultados obtidos com os diferentes


parmetros de configurao dos modelos criados e suas anlises. Uma comparao entre
os resultados desta dissertao e os resultados obtidos em (Faria et al., 2009) tambm
faz parte deste captulo, assim como os resultados da estratgia de negociao adotada.
No ltimo captulo as concluses so apresentadas e discutidas e por fim
sugestes de possveis trabalhos futuros so recomendadas.

2. Reviso da Literatura Principais Trabalhos


Existe uma grande quantidade de artigos direcionados s tcnicas de Minerao
de Dados e previso do mercado de aes, entretanto o nmero de artigos relacionados
Minerao de Textos e previso do mercado de aes ainda pequeno. Sendo assim,
neste captulo so apresentados os principais trabalhos de pesquisas existentes nesta
rea e as diferentes tcnicas aplicadas pelos autores nos modelos desenvolvidos.

2.1

Arquitetura geral dos modelos de previso do mercado e


minerao de textos
A maioria dos trabalhos encontrados na literatura segue um padro em comum

apresentando duas fases distintas (uma fase de aprendizagem e uma fase operacional).
Estas fases se referem classificao automtica de textos2 (na qual com certeza, requer
a etapa de pr-processamento de textos como passo preliminar). Durante a fase de
aprendizagem, textos e sries temporais de cotaes histricas do mercado (preo das
aes, valores de ndices, etc.) so coletados para treinar um classificador. Durante o
treinamento os algoritmos de classificao tentam capturar as estruturas inerentes nas
amostras dos documentos pr-classificados. Os resultados desta fase so ento
utilizados para classificar novos documentos na fase operacional, ou seja, nesta fase os
artigos publicados recentemente alimentam o classificador desenvolvido previamente
para prever as tendncias futuras ou outras caractersticas do mercado. Sendo assim a
arquitetura apresentada nas figuras 2.1 e 2.2 refere-se fase de aprendizagem e fase
operacional respetivamente de um modelo de previso da tendncia do mercado de
aes. Esta arquitetura geralmente a base para os modelos encontrados na literatura.

Detalhes sobre a etapa de classificao automtica de textos so apresentados no captulo 4

desta dissertao.
7

INTERNET
Especialista

Downloading
Sries Temporais

Notcias

Extrao de Tendncia

Definio de Caracterstica
Manual

Data e Hora

Tendncias

Tempo

Definio de Caractersticas
Automticas

Vetor de caractersticas

Alinhamento

Aprendizado

Classes - (Notcias classificadas)

Classificador

Figura 2.1 Arquitetura Geral - Fase de Aprendizagem

INTERNET
Downloading

Notcias Recentes

Classificador

Extrao de Caractersticas

Classificao

Vetor de caractersticas

Desempenho do Modelo

Figura 2.2 Arquitetura Geral Fase Operacional

Na figura 2.1 acima textos e sries temporais so recuperados a partir da internet


e pr-processados de forma tal a serem utilizados pelos algoritmos de classificao. O
primeiro passo classificar as notcias de acordo com o efeito que a mesma exerce
sobre o mercado de aes (por exemplo, sobe, cai ou se mantm estvel). Para isto so
utilizadas as tendncias extradas a partir das sries temporais e data e hora das notcias.

O prximo passo est relacionado definio das caractersticas3 que pode ser feita
automaticamente por mtodo de inferncia ou podem ser fornecidas por um especialista.
Uma vez definida, as mesmas so transformadas em um vetor de caractersticas e este
vetor ento utilizado pelo algoritmo de classificao. Este algoritmo conforme citado
anteriormente, atravs de um processo de aprendizado (treinamento) capaz de capturar
as estruturas inerentes nas amostras dos documentos pr-classificados. J na fase
operacional (figura 2.2) o classificador induzido na fase de aprendizagem utilizado
com novas notcias (tambm pr-processadas e transformadas em vetor de
caractersticas) e uma medida de desempenho utilizada para avaliar o modelo de
previso.
Conforme citado anteriormente o modelo citado nas figuras se refere previso
da tendncia do mercado. Esta escolha foi feita primeiramente porque est em linha com
o principal objetivo deste trabalho (que a previso da tendncia do mercado de aes
da BmfBovespa) e tambm porque muitos dos trabalhos encontrados na literatura
afirmam que do ponto de vista dos investidores de Bolsa de Valores as tendncias das
sries temporais financeiras so muito mais informativas do que o preo exato das aes
((Lavrenko et al., 2000); (Gidfalvi, 2001)). Entretanto, conforme poder ser observado
na prxima seo, alguns autores no concordam com esta abordagem e preferem
trabalhar diretamente com o preo das aes (Schumaker et al., 2009). importante
destacar que para estes estudos em especfico o mdulo de extrao de tendncias
apresentado na fase de aprendizagem da figura 2.1 no se faz necessrio no modelo.

2.2

Resumos dos principais trabalhos


O uso de minerao de textos para prever o mercado financeiro teve incio no

final dos anos 90. Um dos primeiros trabalhos envolvendo este tema foi publicado em
(Wuthrich et al., 1998). Neste artigo os autores desenvolveram um sistema online cujo
objetivo foi prever os ndices dirios das principais Bolsas de Valores mundiais (sia,
Estados Unidos e Europa) utilizando para isto notcias publicadas nos jornais
Financial Times, Reuters, e Wall Street Journal. Os autores utilizaram mais de
400 sequncias de palavras chave que foram fornecidas por especialistas do mercado e
3

No ser feita distino entre caractersticas ou palavras chave nesta dissertao, pois ambas

representam o mesmo conceito dentro da rea de minerao de textos.


9

que poderiam ter um impacto sobre o mercado de aes. Diversas tcnicas de


aprendizagem de mquina como redes neurais artificiais, K-Nearest Neighbor (K-NN) e
algoritmos baseado em regras foram utilizados para produzir a previso dos ndices em
estudo. Estas previses estavam disponveis diariamente e em tempo real no site
www.cs.ust.hk/~beat/Predict4 s 07h45min da manh (horrio de Hong Kong).
Consequentemente os mercados de Tquio, Hong Kong, Singapura e principais
mercados Asiticos tinham acesso s previses antes de comearem suas negociaes
em suas respectivas Bolsas de Valores. Por fim os autores concluram que a utilizao
de informao textual juntamente com sries temporais financeiras (valores dirios dos
ndices dos mercados) aumenta a qualidade das variveis de entrada dos modelos.
A partir deste trabalho pioneiro, diversos outros trabalhos foram publicados nos
ltimos anos. Um resumo contendo as principais diferenas (objetivos, tcnicas
adotadas, mercados envolvidos, desempenho, etc.) dos primeiros artigos publicados
sobre previso do mercado de aes e previso da taxa de cmbio pode ser visualizado
na tabela apresentada no Apndice A, que est organizada em quatro sees: objetivo do
sistema (onde fornecida uma ideia do sistema desenvolvido), parmetros de minerao
de textos (onde so apresentados os parmetros da minerao de textos utilizados nos
sistemas desenvolvidos), dados de entrada (so apresentados os dados utilizados) e por
fim na ltima seo, teste (onde apresentado um resumo dos principais desempenhos
reportados pelos autores). Uma descrio mais detalhada sobre os sistemas citados nesta
tabela e suas propriedades apresentada a seguir, assim como outros sistemas citados na
literatura tambm, porm mais recentes.
Lavrenko et al. (2000) e Lavrenko et al. (2000a) so trabalhos publicados pelos
mesmos autores com diferentes ttulos, mas com contedo muito semelhante. Ambos
tiveram a finalidade de prever a tendncia dos preos de diferentes aes dos Estados
Unidos, i.e. o movimento intraday, analisando notcias publicadas no site da Yahoo
(seo de finanas). Um sistema chamado Enalist foi desenvolvido pelos autores para
esta finalidade. O Enalist opera correlacionando o contedo das notcias com tendncias
em sries temporais financeiras. Os autores primeiramente segmentaram as sries
temporais dos preos das aes em pequenas janelas de tendncias utilizando um
algoritmo de regresso linear por etapas (piecewise linear regression). Detalhes deste
algoritmo podem ser encontrados em (Keogh et al., 2001). Em seguida as tendncias
4

No est mais disponvel.


10

foram discretizadas onde labels (ou rtulos) foram atribudas aos segmentos baseados
em suas caractersticas (tamanho, inclinao, intercepto e coeficiente r2) utilizando para
isto um algoritmo de agrupamento aglomerativo (Everetti, 1993). O prximo passo do
trabalho foi alinhar cada tendncia com as notcias. Uma notcia foi associada a uma
tendncia se a hora da publicao da notcia foi h horas antes do comeo de uma janela
de tendncia. Os autores afirmam que o parmetro h que forneceu melhores resultados
variou entre 5 e 10 horas. Diferentemente do sistema desenvolvido por (Wuthrich et al.,
1998), as palavras chave neste trabalho foram determinadas automaticamente atravs da
medida TF-IDF (Term Frequency - Inverse Document Frequency). Um classificador
Naive Bayes foi treinado para identificar padres de comportamento entre as notcias e
suas respectivas tendncias. Por fim os autores fizeram uma simulao do mercado para
avaliar o modelo proposto e concluram que o Enalist quando comparado a um modelo
randmico obteve melhores resultados (ver tabela Apndice A). importante salientar
que neste trabalho os autores afirmam que deve existir um perodo, (chamado pelos
autores de h, e definido como 5 horas) para que o mercado absorva qualquer tipo de
informao publicada. Muitos pesquisadores admitem que o mercado demora um tempo
para digerir tais informaes, entretanto um longo perodo como este citado pelos
autores contradiz muitas teorias econmicas, como, por exemplo, a hiptese do mercado
eficiente.
Thomas et al. (2000) tambm publicou um trabalho no qual duas abordagens
foram utilizadas para prever o mercado financeiro. A primeira abordagem utilizou um
classificador de texto utilizando a tcnica de Mxima Entropia (Nigan et al., 1999) para
determinar o impacto dos comunicados da web sob os preos das aes. Na segunda
abordagem regras de negociao simples foram construdas utilizando algoritmos
genticos e baseados no volume negociados das aes em estudo, no nmero de
comunicados e tambm no nmero total de palavras postado por dia na web. Os autores
afirmaram estarem mais interessados no lucro gerado pelas regras de negociao do que
nas previses propriamente. Sendo assim, os mesmos reportaram que as duas
abordagens produziram lucros, mas que a integrao das duas abordagens aumentou em
30% a lucratividade. Entretanto nenhuma anlise ou avaliao dos modelos propostos
foi apresentada neste trabalho.
Outro trabalho visando previso da tendncia dos preos das aes por meio de
notcias financeiras foi publicado por (Gidfalvi, 2001). Neste artigo os autores
11

inicialmente definiram um intervalo de tempo que foi chamado de janela de


influncia. Esta janela de influncia o perodo de tempo no qual a notcia tem um
efeito nos preos das aes, sendo que a mesma caracterizada por um limite inferior e
um limite superior a partir do momento t da publicao de uma notcia. Neste sentido os
autores afirmaram que aps muitos experimentos um intervalo de 20 minutos foi o
escolhido. Isto significa ento que uma notcia publicada em um perodo t influenciar o
preo das aes 20 minutos antes de sua publicao (t) e 20 minutos aps a sua
publicao (t). Em seguida as notcias foram classificadas em trs categorias, sendo que
a primeira categoria consistiu em notcias que aumentaram os preos das aes em pelo
menos 0,2% durante a janela de influncia, a segunda categoria, em notcias que
diminuram os preos das aes em pelo menos 0,2% e as notcias restantes foram
classificadas na terceira categoria. Assim como em (Lavrenko et al., 2000) as palavras
chave do modelo proposto pelos autores foram definidas automaticamente e um
classificador Naive Bayes foi treinado para prever a qual categoria uma dada notcia
pertence. Os autores concluram que os resultados encontrados no foram satisfatrios
(conforme tabela Apndice A), porm eles afirmaram que encontraram uma forte
correlao entre as notcias e o comportamento do preo das aes durante os 20
minutos que antecedem a publicao da notcia e os 20 minutos seguintes. Este
resultado tambm discorda da hiptese do mercado eficiente e sugere que possvel
obter lucros em um curto intervalo de tempo.
Peramunetilleke et al. (2002) desenvolveu um sistema em colaborao com o
banco UBS (Unio dos Bancos Suos) cujo objetivo foi prever o movimento intraday
das taxas de cmbio entre o Dlar (EUA) e o Yen (Japo) utilizando headlines (ttulos)
ao invs de utilizar todo o contedo da notcia. Assim como em (Wuthrich et al., 1998)
os autores utilizaram um dicionrio de palavras chave fornecidas por especialistas
(traders da UBS), onde mais de 400 palavras chave contendo de duas a cinco palavras
combinadas ou no com o operador and foram fornecidas e tambm utilizaram as
mesmas tcnicas para classificar as notcias. Por fim os autores concluram que os
resultados encontrados foram superiores quando comparados a um trader randmico e
iguais quando comparados a resultados fornecidos pelos traders profissionais da UBS.
Eles reportaram tambm que a contribuio deste trabalho a modelagem inteligente de
um problema de previso permitindo o uso de contedo textual.

12

Fung et al. (2002) introduziu em seu trabalho outra metodologia para prever
tendncias das aes utilizando notcias. O que o distingue dos trabalhos anteriores o
fato dos autores investigarem o impacto imediato das notcias sobre as sries temporais
baseado na hiptese do mercado eficiente. Diferentemente do modelo proposto por
(Lavrenko et al., 2000) onde um intervalo fixo de 5 horas foi utilizado para alinhar as
tendncias e notcias, neste trabalho nenhum perodo fixo necessrio, pois a hiptese
do mercado eficiente afirma que o mercado atual reflete a assimilao imediata de toda
a informao disponvel. Logo um intervalo de tempo longo normalmente impossvel.
Os dados e notcias utilizados neste trabalho se referem a 614 aes listadas na Bolsa de
Valores de Hong Kong durante sete meses consecutivos. Um algoritmo de regresso
linear por etapas (piecewise linear regression) foi utilizado para encontrar as tendncias
nas sries temporais. As tendncias segmentadas foram ento agrupadas em duas
categorias (sobe, desce) de acordo com a inclinao das tendncias e do coeficiente r2.
Em seguida as notcias foram alinhadas com as tendncias utilizando uma extenso do
algoritmo k-Means proposto por (Kaufman et al., 1990). Um esquema diferenciado
para atribuir pesos s palavras mais relevantes das notcias (palavras chave) foi proposto
pelos autores. Neste esquema, as palavras chaves que ocorrem em um determinado
agrupamento e no ocorre ou raramente ocorre no outro agrupamento tem maior
importncia, sendo assim recebe uma pontuao maior. O algoritmo SVM foi utilizado
para aprender os padres encontrados entre as notcias e suas respectivas tendncias.
Para avaliar o sistema proposto, os autores fizeram uma simulao do mercado
utilizando uma estratgia de negociao simples baseada no teste Buy-and-Hold 5.
Apesar de no colocarem os valores dos lucros obtidos com o modelo proposto
conforme os trabalhos citados anteriormente, os autores afirmaram que os lucros
obtidos na abordagem proposta foram rentveis.
Em 2003 Fung et al. props outro modelo muito semelhante ao trabalho anterior,
porm ao invs de utilizar sries temporais simples, os autores utilizaram sries
temporais mltiplas. Eles ressaltaram que muitos dos trabalhos existentes na literatura
esto preocupados somente com sries temporais simples e que o relacionamento e
influncia entre as diferentes aes so ignoradas. A ideia bsica deste trabalho foi
5

Buy and Hold uma estratgia de investimento a longo prazo, baseado no fato de que, a longo

prazo os mercados financeiros apresentam uma boa taxa de retorno mesmo em perodos de alta
volatilidade ou durante colapsos financeiros.
13

explorar as sries temporais mltiplas e prever seus movimentos utilizando somente


informao textual (assim como o trabalho anterior dos prprios autores) baseado na
hiptese do mercado eficiente. A estrutura deste modelo tem um passo adicional quando
comparado ao trabalho anterior que a descoberta do relacionamento entre as sries
temporais e o alinhamento das notcias em mltiplas sries temporais. Detalhes deste
trabalho no esto disponveis aqui, uma vez que o foco desta dissertao est apenas no
estudo de sries temporais simples. Todavia, cabe salientar que os lucros obtidos por
este modelo foram quase que o dobro quando comparado aos lucros obtidos nos
modelos anteriores de outros autores.
Um sistema chamado NewsCATS (News Categorization and Trading System ou
Sistema de Negociao e Classificao de Notcias) foi desenvolvido por (Mittermayer,
2004), cujo o objetivo foi prever a tendncia dos preos das aes no instante imediato
em que a notcia foi publicada. O sistema desenvolvido pelos autores consistiu de trs
componentes. Sendo que o primeiro componente (mecanismo de pr-processamento de
documentos) recupera informaes relevantes nas notcias disponveis na web atravs da
aplicao de tcnicas de pr-processamento de textos. J o segundo componente
(mecanismo de classificao) classifica as notcias em categorias pr-definidas. E por
fim estratgias de negociao so determinadas pelo terceiro componente (mecanismo
de negociao) atravs da classificao anterior. O NewsCATS utiliza um arquivo de
notcias e um arquivo dos preos intraday de todas as aes listadas na S&P500 (Bolsa
de Valores dos Estados Unidos) no perodo de 01-01-2002 a 31-12-2002 a cada 60
minutos. Com estes arquivos o NewsCATS capaz de aprender um conjunto de regras
que permite classificar as notcias automaticamente em um nmero definido de
categorias (ou classes) atravs do mecanismo de classificao Sendo que cada uma
destas categorias est associada a um impacto especfico no preo das aes (por
exemplo, a ao subiu ou caiu). Dependendo do resultado fornecido pelo mecanismo de
classificao, o mecanismo de negociao produz sinais de negociao que podem ser
executados via um broker6 online ou por outros intermedirios. O mecanismo de prprocessamento de documentos inclui extrao de palavras chaves (stem e eliminao de
stop words) e seleo de caractersticas atravs da TF(Term Frequency), IDF(Inverse
Document Frequency) ou TF-IDF(Term Frequency - Inverse Document Frequency)
como medida estatstica. A representao do documento pode ser realizada com uma
6

Broker um sistema de negociao de aes online.


14

medida booleana da frequncia ou com a TF, IDF ou TF-IDF. Vale ressaltar que todas
estas tcnicas de pr-processamento de textos so detalhadas no captulo 4 deste
trabalho. A sada deste pr-processamento encaminhada ao mecanismo de
classificao onde as notcias so classificadas em trs classes (good news, bad news e
no movers). A classificao automtica das notcias foi feita utilizando o algoritmo de
classificao SVM. Finalmente o mecanismo de negociao gera os sinais de
negociao das aes que so as sadas do sistema NewsCATS. Os autores por fim
reportaram que as estratgias de negociao fornecidas pelo modelo proposto superaram
significativamente um trader randmico comprando e vendendo aes randomicamente
imediatamente depois da publicao das notcias.
Yu et al. (2005) estudaram o mercado de commodities, mais precisamente o
preo do petrleo. Tcnicas de minerao de textos juntamente com a teoria rough set
foram utilizadas para prever a tendncia do mercado de petrleo. O sistema
desenvolvido pelos autores foi dividido em dois mdulos. No primeiro mdulo, fatores
(econmicos, polticos, militares, desastres naturais, especulao, entre outros) que
poderiam impactar o preo do petrleo foram buscados na internet a fim de se construir
um repositrio de dados. Estes dados foram ento processados utilizando as tcnicas de
minerao de textos para gerar conhecimento. Este processo de minerao de textos foi
dividido em quatro fases: coleta de documentos relevantes, pr-processamentos dos
documentos, extrao de palavras chaves e por fim minerao de dados e gerao de
conhecimento. No segundo mdulo a teoria rough set proposta por (Pawlak, 1982) foi
utilizada para reduzir inconsistncia nos padres encontrados no mdulo anterior. Os
objetivos principais aqui foram checar dependncias (parciais ou totais) entre atributos,
reduzir os atributos, analisar a significncia dos atributos e gerar regras de deciso.
Combinando estes dois mdulos regras e padres (conhecimento) foram gerados para
prever a tendncia do mercado de petrleo. Para avaliar a habilidade de previso do
modelo proposto, os autores fizeram uma comparao de seus resultados com mtodos
convencionais (modelos estatsticos e modelos de sries temporais) e redes neurais
artificiais, onde ficou comprovado que o modelo proposto apresentou resultados
superiores. Sendo assim os autores concluram que a abordagem proposta por eles
uma alternativa promissora aos mtodos convencionais de previso de tendncia do
petrleo.

15

Em 2006 o NewsCATS proposto por Mittermayer (2004) foi reformulado e um


novo trabalho foi publicado (Mittermayer et al., 2006a). Neste trabalho os autores
tambm utilizaram os mesmos componentes citados no trabalho anterior (mecanismo de
pr-processamento de documentos, mecanismo de classificao e mecanismo de
negociao), porm com algumas modificaes. A fase de seleo de caractersticas
alm do procedimento automatizado, tambm contava com um dicionrio criado pelos
autores contendo palavras simples, frases e sequncias de palavras chaves que poderiam
influenciar o preo das aes. A fim de se reduzir o rudo presente nos dados, o arquivo
de notcias foi modificado com a implementao de uma heurstica para separar as
notcias com tpicos que realmente poderiam afetar o preo das aes. E o arquivo de
sries temporais passou a conter os preos intraday das aes a cada 15 segundos, o que
aumentou a frequncia dos dados permitindo assim uma avaliao de desempenho mais
realista. Diferentes parmetros (tamanho do conjunto de caractersticas, representao
do documento, algoritmos de classificao, entre outros) foram testados e analisados
tornando o NewsCATS mais robusto. Por fim os autores reportaram que os lucros
obtidos foram de 0,29%, o que segundo os mesmos uma melhoria notvel quando
comparado a outros sistemas existentes na literatura (para comparao de alguns destes
trabalhos ver tabela apndice A).
Schumaker et al. (2006) examinou as notcias financeiras sob o ponto de vista de
trs diferentes representaes textuais. Foram utilizadas as representaes Bag of words,
Noun Phrases e Named Entities para prever o preo das aes vinte minutos aps a
publicao de uma notcia. Diferentemente de muitos artigos citados anteriormente, os
autores deste trabalho focalizaram seus objetivos em prever o preo das aes e no a
tendncia dos preos e tambm na utilizao de outras representaes textuais, dado que
a abordagem bag of words a abordagem padro mais utilizada na literatura. Para
atingir seus objetivos os autores desenvolveram um sistema chamado AZFinText
(Arizona Financial Text System ou Sistema de Texto Financeiro do Arizona). Neste
sistema cada notcia foi representada utilizando as trs tcnicas de representao textual
citada anteriormente e um conjunto de palavras chaves por fim foram armazenadas em
um banco de dados. As cotaes das aes tambm so armazenadas de minuto a
minuto. Quando uma notcia publicada o sistema estima qual deve ser o valor da ao
aps 20 minutos. Para isto uma regresso linear utilizando o preo das aes foi
calculada 60 minutos antes da notcia ser publicada e o preo das aes 20 minutos no
16

futuro estimado. O perodo de 20 minutos foi escolhido seguindo o trabalho de


(Gidvalfi, 2001). Por fim notcias e preo das aes foram processados pelo algoritmo
SVR (Support Vector Regression) que derivado do algoritmo SVM, porm sem o
aspecto de classificao, ou seja, o SVR trabalha com anlise de valores discretos. Foi
utilizado um kernel linear e validao cruzada em 10 ciclos. Trs mtricas foram
utilizadas para avaliar o modelo proposto e em todas as avaliaes foi comprovado que
os resultados obtidos com as trs representaes textuais foram superiores quando
comparados ao mtodo de regresso linear. Os autores tambm demostraram que das
trs representaes textuais, Noun Phrases foi a que obteve melhores resultados.
Outra abordagem que tambm vem sendo utilizado na literatura para prever o
mercado de aes a combinao de indicadores tcnicos e notcias financeiras. Em
(Zhai et al., 2007) sete indicadores tcnicos calculados para cada dia de negociao a
partir dos preos histricos dos ltimos cinco dias das aes, juntamente com notcias
relacionadas diretamente com a ao e notcias do mercado em geral (relacionadas
indiretamente com a ao) foram utilizados para prever a tendncia diria dos preos
das aes da BHP Billiton Ltda.7, da Bolsa de Valores da Austrlia no perodo de maro
de 2005 a maio de 2006. Os autores desenvolveram cinco modelos utilizando o
algoritmo SVM e cinco variveis de entrada diferentes. Sendo que no primeiro modelo
foram utilizados como variveis, apenas indicadores tcnicos, no segundo modelo,
notcias diretamente envolvidas com as aes, no terceiro modelo, as notcias do
mercado em geral, no quarto modelo foram utilizados a combinao de notcias (diretas
e indiretas) e por fim a combinao de indicadores tcnicos e notcias no ltimo modelo.
Os autores reportaram que a acurcia do modelo proposto foi comparvel obtida por
(Kim, 2003) onde somente indicadores tcnicos foram utilizados (acurcia de 58,8%),
porm o desempenho do ltimo modelo (combinao de indicadores tcnicos e notcias)
foi muito superior (acurcia de 70,1%). Os autores tambm reportaram uma simulao
do mercado para avaliar a lucratividade do sistema. Para este fim trs conjuntos de
estratgias foram utilizados para os diferentes modelos propostos e os resultados
demostraram que os lucros obtidos pelo ltimo modelo foram superiores quando
comparados aos outros modelos e tambm quando comparados a um sistema de

BHP Billiton se refere a maior empresa de minerao do mundo, criada a partir da fuso da

empresa australiana Broken Hill Proprietary Company (BHP) com a empresa inglesa, Billiton.
17

negociao que emprega uma estratgia randmica, ou seja, compra e vendas de aes
realizadas randomicamente no mesmo perodo estudado.
Em 2009 o sistema AZFinText proposto por (Schumaker et al., 2006)

foi

modificado e um novo trabalho visando outros objetivos foi publicado (Schumaker et


al., 2009). Os objetivos dos autores neste trabalho foi verificar qual o efeito que o
particionamento GICS (Global Industry Classification Standard)8 de notcias poderia
ter sobre a previso do preo das aes. Os autores reportaram que neste sentido esta
pesquisa totalmente nova, dado que a maioria dos trabalhos na literatura utiliza em
seus modelos notcias financeiras universais ou especficas para o objetivo-alvo. O
segundo objetivo foi determinar qual a capacidade preditiva do modelo quando
comparado previso feita por especialistas do mercado e gestores de fundos
quantitativos.
Para testar o efeito do particionamento GICS vrios modelos foram
desenvolvidos para cada classificao GICS (Setor, Grupo de Indstria, Indstria e
Subindstria) e tambm para cada ao especfica. Os mesmos parmetros que
apresentaram os melhores resultados no modelo anterior dos autores foram utilizados,
ou seja, representao textual Proper Nouns, algoritmo SVR, previso 20 minutos
frente, assim como as mesmas mtricas de avaliao. Os resultados demostraram que as
aes do particionamento de Setor foram as que tiveram melhor desempenho. Quanto
comparao entre o modelo proposto e especialistas do mercado, os autores concluram
que os resultados obtidos pelo sistema desenvolvido foram superiores. J em relao
comparao com os fundos quantitativos, os resultados obtidos pelos autores superaram
os resultados obtidos por 6 dos 10 melhores fundos de 2005 e sendo que para fundos
que monitoram os mesmos ttulos o sistema proposto teve um retorno de 2% a mais que
o melhor desempenho dos fundos.
Muitos dos trabalhos citados acima e tambm disponveis na literatura esto
preocupados com a previso da tendncia de mercado a curto prazo ( de hora em hora, a
cada 15 minutos, dirio, etc.). Kiyoshi et al. (2010) diferentemente destes trabalhos
analisou o mercado de ttulos do Japo atravs das tcnicas de minerao de textos,
porm visando a previso da tendncia do mercado a longo prazo (mensalmente).
Segundo os autores dois pontos so importantes quando se est investigando a previso
8

Sistema GICS (Global Industry Classification Standard) do banco Morgan Stanley, que possui

quatro nveis hierrquicos: setor, grupo de indstria, indstria e subindstria.


18

de tendncia do mercado a longo prazo e tcnicas de minerao de textos. O primeiro


a utilizao de dados textuais com contedo e formatos apropriados. Os autores
afirmam que neste sentido foram utilizados relatrios mensais sobre desenvolvimentos
econmicos e financeiros recentes do BOJ (Bank of Japan). Este relatrio analisa a
situao financeira e econmica japonesa de um ponto de vista macro. Trs razes que
tornaram adequadas a utilizao deste relatrio para uma anlise de mercado a longo
prazo foram citadas pelos autores: 1) regularmente lanado podendo portanto ser
rastreado quaisquer mudanas temporais nos dados textuais. 2) Quase todos os traders
institucionais do mercado japons prestam ateno a estes relatrios, tendo seus
comportamentos de negociao muitas das vezes afetados pelos mesmos, porque eles
refletem a deciso inicial tomada pelo BOJ. 3) Tem um formato regular, sendo assim
um documento facilmente comparvel a outro em diferentes pontos ao longo do
tempo.
J o segundo ponto est relacionado ao mtodo para associar dados textuais e
sries temporais. Para esta finalidade foi proposto pelos autores o mtodo CPR que
consiste de trs passos: 1 - Anlise de ocorrncia de palavras chaves, 2 - Anlise de
componentes principais das mudanas temporais nas palavras chaves e 3 - Anlise de
regresso dos dados dos preos utilizando componentes principais.
Para testar o modelo proposto duas regras de simulao foram propostas, uma
para comparar os preos dos ttulos e outra para comparar a tendncia dos mesmos. Por
fim os autores reportaram que os resultados obtidos pelo mtodo proposto foram
superiores quando comparados a outros mtodos de previso disponveis na literatura. E
com isto concluram que dados textuais podem ser utilizados para anlise de mercado,
no s a curto prazo, mas tambm a longo prazo.
De todos estes trabalhos, possvel concluir que este tema est em aberto. O
nmero de modelos propostos para previso do mercado financeiro utilizando dados no
estruturados (dados textuais) no comparvel ao nmero de modelos propostos onde
dados estruturados so utilizados para esta mesma finalidade. Entretanto alguns
pesquisadores tm sido bem sucedidos at certo ponto, na previso do mercado
financeiro utilizando dados no estruturados. A maioria destes pesquisadores tem
comprovado que as regras de negociao geradas por seus modelos so mais rentveis
do que um trader randmico. Vrias tcnicas e abordagens assim como diferentes
atributos, nos quais possvel citar tipos de dados, tcnicas de pr-processamento,
19

algoritmos de classificao, entre outros, tambm esto sendo utilizadas para garantir
uma maior acurcia nos modelos desenvolvidos.
Por tudo o que foi dito anteriormente, alm de outras razes, fazem com que este
tema de pesquisa mostre um grande crescimento na comunidade cientfica mundial
recebendo um nmero cada vez maior de publicaes e congressos.

20

3. Mercado de Aes no Brasil


Mauro, (2001) define Bolsa de Valores como um clube (ou grupo sem fins
lucrativos) de corretores de valores, intermedirios e pessoas interessadas ou ligadas
compra e venda de ativos financeiros. Os negcios e transaes realizadas por estas
pessoas e grupos so pblicas, transparentes e podem ser acompanhadas pelos meios de
difuso em massa. O mercado de aes do Brasil est situado na cidade de So Paulo e
conhecido atualmente pela sigla BmfBovespa formada em 2008, a partir da integrao
das operaes da Bolsa de Valores de So Paulo e da Bolsa de Mercadorias e Futuros.
Como principal instituio brasileira de intermediao para operaes do mercado de
capitais, a companhia desenvolve, implanta e prov sistemas para a negociao de
aes, derivativos de aes, ttulos de renda fixa, ttulos pblicos federais, derivativos
financeiros, moedas vista e commodities agropecurias (BMF, 2012).
O mercado brasileiro ou BmfBovespa um dos mercados de maior liquidez
dentro dos mercados emergentes. Aproximadamente sete bilhes de reais so
movimentados todos os dias na BmfBovespa e a mdia de negcios vem aumentando
consideravelmente a cada ano, conforme pode ser visualizado na figura 3.1. O
crescimento fsico de investidores domsticos tambm outro fator responsvel pela
evoluo dos negcios da bolsa. Nos dias atuais o nmero de investidores que tem CPF
cadastrado como investidor chega perto de 600 mil pessoas. Estima-se que at 2014 este
nmero chegue a 5 milhes de investidores (BMF, 2012).

21

Figura 3.1 Mdia diria de Negcios na BmfBovespa


(2012 compreende aos meses de janeiro e fevereiro 2012) - Fonte: (BMF, 2012).

Na Bolsa de Valores so negociadas as aes de diversas empresas que possuem


capital aberto. Ao uma unidade de ttulos emitidos que representa a menor frao do
Capital Social da empresa. O investidor ao adquirir uma ao na Bolsa de Valores ele se
torna um scio da companhia, mesmo que em proporo pequena em relao ao
controlador (scio majoritrio) e os poderes a ele atribudos so limitados pelo tipo de
ao que comprou e tambm pela quantidade de aes que possui.
Existem dois tipos de aes (ordinrias e preferenciais), que designam direitos e
poderes diferentes a seus titulares. Por exemplo, o acionista tem preferncia no
recebimento de dividendos (percentual sobre o lucro da companhia), porm no tem
direito ao voto nas decises do Conselho Administrativo no caso das aes preferenciais
(PN). J as aes ordinrias (ON) concedem a aqueles que so acionistas o direito a
voto nas decises da empresa, mas no tm preferncia na distribuio de resultados.

3.1 Caractersticas do Mercado de Aes


O preo de uma ao determinado pela compra e venda das mesmas. Desde
que haja procura no mercado, as aes podem ser convertidas em dinheiro a qualquer
momento por intermdio de uma Sociedade Corretora e atravs da negociao na Bolsa
de Valores. O valor do preo das aes das empresas que tem suas aes negociadas na
22

BmfBovespa esto sujeitas lei da oferta e da procura. As aes de uma empresa


podem ser muito negociadas (chamadas de blue chips), ou pouco negociadas (chamadas
de small caps). Para avaliar o sentimento do mercado como um todo necessrio um
indicador que reflita o comportamento geral do mercado. No mercado de aes
brasileiro este indicador (ou ndice) conhecido como Ibovespa e representa o
desempenho mdio dos preos das aes mais negociadas na BmfBovespa ponderado
por um fator proporcional ao volume negociado das mesmas. Vale ressaltar que este o
indicador a ser estudado nesta dissertao.
O Ibovespa conjuntamente com o preo das aes das empresas negociadas na
BmfBovespa oscila durante um dia de negociao. Estas oscilaes dependem de
muitos fatores, como notcias, eventos (polticos, econmicos, etc.) e interesse dos
investidores. Um dia de grande procura por aes leva ao aumento dos preos das
mesmas e consequentemente ao aumento do Ibovespa.
A sequncia diria de preos de qualquer ao pode ser representada atravs de
uma srie temporal. Na srie cada dia pode ser representado pelo desenho de uma
estrutura chamada de candlestick, que representa graficamente a variao de preos de
uma determinada ao em um determinado perodo. Nele est representado o preo de
abertura (ou valor no caso do Ibovespa) que compreende ao preo inicial ou ao primeiro
negcio fechado com as aes de uma determinada empresa na abertura do prego9,
preo de fechamento que compreende ao ltimo negcio (ou call de fechamento)
efetuado no horrio regular do prego e por fim os valores mximos e mnimos que
compreendem aos preos mximos e mnimos respectivamente que uma ao atingiu
em um determinado perodo. Se o preo de fechamento maior que o preo de abertura
o candlestick azul, caso contrrio vermelho. Na figura 3.2 pode ser visualizado um
candlestick e suas representaes (mximo, mnimo, fechamento e abertura).

Prego seo durante a qual so negociadas as aes e ttulos de uma empresa registrados em

uma bolsa de valores. O prego pode ser fsico (diretamente na sala de negociaes) e/ou
eletrnico (pelo sistema de negociao eletrnica da bolsa de valores). Na Bmfovespa o horrio
de funcionamento padro do prego das 10h s 17h. Sendo que no horrio brasileiro de vero,
o prego regular funciona das 11h s 18h.
23

Figura 3.2 Candlestick e suas representaes

A figura 3.3 abaixo representa um grfico de candlestick correspondente srie


temporal dos valores dirios do Ibovespa e um indicador tcnico (mdia mvel)10.

Figura 3.3 Grfico de candlestick: Ibovespa (Perodo Agosto a Novembro de 2011)


importante salientar a importncia do Ibovespa, porque o mesmo reflete de
uma maneira geral o comportamento do mercado como um todo. Logo se a tendncia do
indicador pode ser prevista fica mais fcil prever a tendncia das principais aes do
mercado, ou blue chips. Por isto a escolha do Ibovespa como proposta de estudo nesta
dissertao.

10

Mdia mvel um dos indicadores de tendncia mais simples e popular utilizados na anlise

tcnica. Pode ser considerado na prtica como a mdia das ltimas cotaes do ativo para um
determinado perodo de tempo escolhido para anlise.
24

3.2 Anlises de Investimento


Conforme citado anteriormente o valor de uma ao varia o tempo todo. Isto faz
com que o investimento em aes seja de alto risco. Em investimento de risco, a
liquidez de cada ao no mercado acionrio est intimamente ligada ao momento
presente da companhia e ao cenrio global. As aquisies, vendas e fuses de
companhias so as principais influncias nos preos das aes, sendo tambm comum a
oscilao de preo ser devido a fenmenos climticos ou geopolticos, por exemplo,
empresas petrolferas sofrem certa volatilidade com conflitos geopolticos, etc. Devido a
todos estes fatores citados acima descobrir quais aes comprar ou vender no uma
tarefa trivial. Neste sentido diferentes estudos e teorias foram desenvolvidos para tentar
explicar o comportamento dos mercados de aes auxiliando assim os investidores na
sua tomada de deciso. As duas teorias mais importantes (Hiptese do Mercado
Eficiente e Teoria Random Walk) para previso do mercado financeiro so apresentadas
na prxima seo, assim como as anlises tcnicas e fundamentalistas que so duas
abordagens convencionais que emergiram a partir das duas teorias principais.

3.2.1 Hiptese do Mercado Eficiente


A hiptese do mercado eficiente (EMH) foi introduzida por (Fama, 1964). A
EMH diz que em um mercado eficiente o preo do mercado atual reproduz toda a
informao disponvel, ou seja, que as cotaes dos ativos refletem toda a informao
conhecida. Sendo assim o passado no contm qualquer informao que j no esteja
incorporada no preo atual. Os preos variam com a chegada de novas informaes.
Fama (1970) props trs formas de eficincia de mercado (fraca, semi-forte e
forte). A primeira delas (forma fraca) mostra que somente preos passados e informao
histrica esto incorporados no preo corrente. Na segunda forma (semi-forte) os preos
incorporam o seu comportamento passado e tambm o restante da informao
publicada. Estas informaes podem ser notcias especficas ou anncios sobre
distribuio de lucros e dividendos. Por fim, a forma forte, na qual os preos refletem
no s a informao pblica, mas toda a informao que pode ser obtida, inclusive as
informaes consideradas ocultas ou privilegiadas.

25

3.2.2 Random Walk


A teoria Random Walk (RW) uma perspectiva diferente de previso de preos no
mercado financeiro. Nesta teoria a previso do mercado de aes considerada
impossvel, pois os preos so determinados de forma aleatria e superar o mercado
invivel. A teoria RW possui fundamentos tericos similares forma semi-forte da
hiptese do mercado eficiente, onde toda a informao pblica esta disponvel para
todos. Entretanto a teoria RW afirma que mesmo com tais informaes, a previso
futura ineficiente (Schumarker et al., 2009).

3.2.3 Anlise Fundamentalista


A anlise fundamentalista investiga os fatores que afetam a oferta e a procura
das aes. O objetivo reunir e interpretar estas informaes e agir antes que a
informao seja incorporada no preo das aes. O intervalo de tempo entre um evento
e sua resposta de mercado apresenta uma oportunidade de negociao. A anlise
fundamentalista enfatiza principalmente os indicadores de desempenho de uma
empresa, sua estratgia de negcios, mercado em que se insere a poltica de dividendos,
poltica administrativa, solidez financeira, etc. Pode-se dizer ento que neste tipo de
anlise so levadas em considerao informaes como dados financeiros da empresa,
dados macroeconmicos, planos e as estimativas da empresa para o setor, assim como a
qualidade dos administradores, a situao interna do pas e a sua posio em relao ao
exterior. Neste sentido possvel afirmar que as notcias financeiras tm uma
importncia muito grande para investidores que utilizam anlise fundamentalista, pois
as mesmas descrevem os fatores que podem afetar o preo do ativo.

3.2.4 Anlise Tcnica


A anlise tcnica baseada em dados de sries temporais numricas e tenta
prever o mercado de aes utilizando indicadores de anlise tcnica, construdos a partir
do preo e outros parmetros de negociao como volume, etc. Dentre estes indicadores
possvel citar o ndice de fora relativa (IFR) das variaes do preo das aes, mdias
mveis do preo ou do volume (OnBalance Volume), entre outros. A ideia utilizar
estes indicadores para a tomada de deciso na hora de investir, ou seja, determinar
26

tendncias, pontos de entrada ou sada no mercado (bullish), entre outras. Nesta anlise
padres de comportamento como tringulos retngulos, padres ombro-cabea-ombro e
outros que ajudam a determinar o comportamento futuro da bolsa so identificados. A
principal preocupao na anlise tcnica est relacionada na identificao de tendncias
existentes e assim tentar antecipar as tendncias futuras do mercado acionrio a partir de
grficos. Neste sentido notcias divulgadas no dia a dia no so utilizadas por
especialistas que utilizam esta abordagem de previso. Com base nesta abordagem e
levando em considerao o histrico dos preos das aes diversos mtodos de previso
podem ser implementados, como por exemplo, no trabalho de (Faria et al., 2009), onde
o valor do Ibovespa foi estudado e previsto atravs de mtodos de redes neurais
artificiais e alisamento exponencial adaptativo. Resultados neste trabalho reportaram
que o indicador analisado pde ser previsto com um percentual de acerto de 60%.

3.3 Anlise Tcnica x Anlise Fundamentalista


Depois de tudo o que foi dito fica difcil argumentar por uma abordagem ou
outra. Esta questo divide os investidores. Ao que tudo indica so os fatos associados a
eventos fundamentalistas que conseguem reverter tendncias ou desencadear
movimentos bruscos do mercado. J a anlise tcnica serve como ferramenta importante
capaz de avaliar a fora destes movimentos, e mais importante ainda serve para o
investidor separar ou afastar o lado emocional na hora de tomar decises, ou seja:
substituir ideias como, acho que vai subir por se romper nvel de suporte a ao
sobe. importante salientar que mesmo sem justificativa terica a anlise tcnica deve
ser acompanhada, uma vez que um grande nmero de investidores segue este tipo de
decises. E a auto-organizao destes investidores em torno de um indicador tcnico
pode tornar vlido esta abordagem mesmo sem nenhuma justificativa econmica.

27

4. Minerao de Textos para Anlise de Notcias


O principal objetivo da Minerao de Textos (MT) extrair informaes
relevantes em grande quantidade de dados no estruturados (textos). Weiss et al. (2005)
afirmam que apesar dos dados utilizados na rea de MT (textos) serem diferentes dos
dados utilizados em Minerao de dados (numricos), ambas apresentam caractersticas
semelhantes, ou seja, so baseadas em amostras de exemplos passados e fazem uso dos
mesmos mtodos de aprendizagem. Sendo esta ltima caracterstica justificada pelo fato
dos textos serem processados e transformados em uma representao numrica similar a
utilizada na Minerao de dados (MD). Para (Witten et al., 2011) as reas de MT e MD
podem ser diferenciadas a partir de dois conceitos: A MD pode ser caracterizada como
extrao da informao implcita, anteriormente desconhecida, porm potencialmente
til a partir dos dados, ou seja, a informao est implcita nos dados de entrada e
dificilmente poderia ser extrada sem recorrer s tcnicas automticas de MD. J na MT
a informao a ser extrada clara, est explcita nos textos, no entanto o problema
que a informao no expressa de uma maneira que passvel de processamento
automtico.
O fato que com o crescimento de informao na forma no estruturada
(textos), a MT ganha cada vez mais importncia no s no meio acadmico, mas
tambm no mundo dos negcios.
De uma maneira geral a rea de MT compreende a cinco tarefas: prprocessamento de textos, sumarizao, classificao automtica de textos, agrupamento
de textos e recuperao de informao.
Conforme citado na introduo deste trabalho, quando se est trabalhando com
MT e mercado financeiro existem diferentes estratgias (estudo de eventos,
classificao de textos e anlise de sentimento) para diferentes objetivos. Como o
principal objetivo deste trabalho prever a tendncia diria do comportamento futuro do
ndice do mercado acionrio do Brasil utilizando o ttulo de notcias, pode-se dizer ento
que este objetivo est dentro do contexto da estratgia de classificao de textos. Sendo
assim nfase dada apenas tarefa de classificao automtica de textos e
consequentemente a tarefa de pr-processamento dos textos, uma vez que a mesma o
passo preliminar requerido no s a tarefa de classificao de textos, mas tambm a
28

qualquer uma das tarefas de MT citadas anteriormente. Detalhes sobre as demais tarefas
podem ser encontradas em (EBECKEN et al., 2003).

4.1. Classificao de Textos


A classificao automtica de textos (CT) tem assistido a um crescente interesse
nos ltimos anos devido ao crescimento e a disponibilidade de documentos online. A
abordagem dominante para este problema na comunidade cientfica baseada em
tcnicas de aprendizado de mquina, ou seja, um processo geral indutivo constri
automaticamente um classificador por aprendizado, a partir de um conjunto de
documentos classificados previamente e caractersticas de uma ou mais categorias. A
vantagem desta abordagem sobre a que era utilizada anteriormente (Engenharia do
conhecimento)11 o fato de ter uma melhor eficcia, uma economia considervel em
termos de mo de obra especializada e independncia de domnio (Sebastiani, 2002).
Pode-se dizer ento que a classificao automtica de textos uma tarefa de
aprendizagem de mquina com o problema de atribuir automaticamente categorias prdefinidas a documentos textuais.
Formalmente Sebastiani (2002) afirma que a CT consiste em determinar se um
documento di (de um conjunto de documentos D) pertence ou no a uma categoria cj (de
um conjunto de categorias C), consistentemente com o conhecimento das categorias
corretas para um conjunto de documentos de treinamento.

4.1.1 Aplicaes da Classificao de Textos


A classificao automtica de textos est se tornando cada vez mais importante
devido facilidade de lidar com grandes quantidades de dados em massa tais como
bibliotecas digitais, fontes de notcias e informaes internas das empresas. Com o
advento da internet a classificao de textos tem permitido a organizao de um grande
volume de informaes que so lanadas na web todos os dias. Com isto novos mtodos

11

Na Engenharia do conhecimento regras so definidas manualmente por um engenheiro do

conhecimento com o auxlio de um especialista no domnio da aplicao. Estas regras definem


como classificar documentos a partir de caractersticas dos textos.
29

baseados em teorias estatsticas e aprendizado de mquina tm sido aplicados na


categorizao de textos nos ltimos anos.
Sebastiani (1999) afirma que a classificao de textos atrativa porque liberta as
empresas da necessidade de organizar grandes quantidades de documentos
manualmente, o que pode ser muito caro, ou muitas das vezes um trabalho invivel dada
s limitaes de tempo da aplicao ou mesmo ao nmero de documentos envolvidos.
Nos ltimos anos a classificao de textos vem sendo utilizadas em diferentes
aplicaes como, por exemplo: na organizao de documentos, Filtragem de Textos
(onde um filtro pode, por exemplo, determinar se um e-mail ou no um spam),
Categorizao Hierrquica de Pginas da Web, entre outras. Detalhes sobre estas e
outras aplicaes podem ser encontradas em (Sebastiani, 2002).
Dumais et al. (1998) afirma que a classificao de textos pode desempenhar um
papel importante em uma ampla variedade de tarefas de gesto de informao mais
flexveis e dinmicas tais como: classificao em tempo real de e-mails ou arquivos em
pastas hierrquicas, identificao de tpicos, pesquisa ou navegao estruturada e a
busca por documentos baseados em interesses.

4.1.2 Processo Geral de Classificao Automtica de Textos


A classificao de textos envolve vrios passos e processos. Diferentes trabalhos
existentes na literatura identificam estes processos de vrias maneiras e com diferentes
nomes.
Para (Apte et al., 1994) o processo de classificao de textos envolve quatro
principais

processos:

Pr-processamento:

para

determinar

os

valores

das

caractersticas, atributos ou palavras chaves que sero usados na representao


individual do documento dentro de uma coleo. Este processo essencialmente a
criao do dicionrio. Representao: para mapear cada documento individual em uma
amostra de treinamento usando o dicionrio criado no processo anterior e associando-o
com um rtulo que identifica a sua categoria. Induo: para encontrar padres que
distingue uma categoria das outras. E por fim a Avaliao: para escolher a melhor
soluo com base em minimizar o erro ou custo do classificador.
J para (Debole et al., 2003) o processo de classificao de textos pode ser
resumido em trs fases: Seleo de termos: onde os termos mais relevantes para a
tarefa de classificao so identificados. Ponderao dos termos: onde realizado o
30

clculo dos pesos para os termos selecionados. Aprendizagem do classificador:


gerao de um classificador a partir das representaes ponderadas dos documentos de
treinamento. Podendo os dois primeiros processos (seleo e ponderao dos termos)
serem identificados como uma nica fase chamada de Indexao de documentos, o
que significa a criao de representaes internas dos documentos.
Bastos (2006) declara que o processo de classificao de textos pode ser
implementado em quatro etapas: Obteno de documentos: onde os textos
relacionados aplicao so obtidos. Extrao de caractersticas ou Prprocessamento: preparao dos textos para o processo de minerao. Nesta etapa
podem ser utilizados mtodos para retirada de smbolos, pontuao e eliminao das
stop words (palavras que no agregam valor por no possuir significado especfico);
mtodos para identificao de termos dos textos (processo de stemmning e tcnicas de
n-gramas); mtodos para reduo de termos e mtodos para a definio de pesos para
os termos (frequncia relativa ou frequncia inversa). Extrao de Conhecimento:
utiliza algoritmos de aprendizagem com o objetivo de extrair, a partir dos textos
pr-processados, conhecimento na forma de regras de associao, relaes,
segmentao, classificao de textos, entre outros. E por fim a ltima etapa, que est
associada Avaliao e Interpretao dos resultados: os dados obtidos so
analisados, filtrados e selecionados.
Neste trabalho o processo de CT considerado constitudo de quatro etapas
principais conforme visualizado na figura 4.1 abaixo. Uma explicao detalhada de
todas estas etapas apresentada nas prximas sees.

Obteno de
Pr-processamento

Documentos

Extrao de
Conhecimento

Ps-Processamento

Figura 4.1 Arquitetura geral dos processos de Classificao de textos


31

A primeira etapa a ser realizada a Obteno dos documentos, cujo objetivo a


formao da coleo de documentos que sero utilizados para a tarefa de classificao.
Em seguida, inicia-se a etapa de pr-processamento. Nesta etapa os documentos obtidos
anteriormente so submetidos a vrias operaes, a fim de atingir uma estruturao que
permita a extrao de conhecimento. A extrao de conhecimento a etapa que faz uso
de algoritmos de aprendizagem de mquina para extrair conhecimento a partir dos
textos pr-processados, para a classificao dos textos. E finalizando o processo de CT
temos a etapa de ps-processamento que visa avaliar e interpretar os resultados obtidos.

4.1.2.1

Obteno de Documentos

Este o primeiro processo na classificao de textos. O principal trabalho neste


processo a busca por documentos (textos) que so relevantes para a aplicao. No
caso especfico deste trabalho estamos interessados em notcias financeiras, ou seja,
notcias que podem afetar o comportamento do mercado da bolsa de valores do Brasil.
Sendo assim as fontes destes dados so sites de notcias econmicas e a obteno dos
mesmos feita de forma automtica.
importante salientar que existem diferentes fluxos de informaes e notcias
que podem afetar o comportamento dos mercados financeiros. Neste sentido to
importante quanto obteno dos dados distinguir quais so os tipos de notcias que
so relevantes quando se est tentando entender o comportamento do mercado
financeiro, em especial o mercado de aes. Leinweber (2009) classifica os diferentes
tipos de notcias disponveis na web em quatro categorias:

1 Notcias - Compreende a grandes mdias e notcias produzidas por fontes


confiveis. So geralmente transmitidas atravs de jornais, rdios e televiso.
Elas tambm so distribudas para as mesas dos investidores atravs de agncias
de notcias. A grande maioria possui suas verses online tambm.

32

2 Pr-notcias Fontes de dados que so investigadas antes de serem publicadas.


Geralmente so relatrios da Securities and Exchange Comission12 e
documentos judicias e governamentais. Inclui tambm anncios regulares tais
como notcias macroeconmicas, estatsticas industriais, relatrios e lucros das
empresas e outras notcias corporativas.

3 Boatos Blogs e websites que transmitem notcias e so menos respeitveis do


que fontes de notcias e pr-notcias. A qualidade destas notcias varia
significativamente. Alguns blogs podem estar associados com provedores de
notcias e respeitveis reprteres (por exemplo, o blog de Robert Preston da
BBC). Outros podem ser abastecidos totalmente por boatos.

4 Mdia Social Websites onde no existem impedimentos para publicao de


notcias, ou seja, no h uma fiscalizao adequada que monitore as mensagens
publicadas. Estes podem ser fontes de informaes perigosamente imprecisas.
No entanto se aplicada com muito cuidado pode haver algum valor. No mnimo
pode ser utilizado para ajudar a identificar volatilidade futura.

Alguns estudos vm sugerindo que diferentes tipos de investidores prestam


ateno em diferentes tipos de notcias, como o trabalho de (Dzielinski et al., 2010),
onde os autores concluram que investidores individuais prestam mais ateno nas
fontes 1 e 2, ou seja notcias e pr-notcias respectivamente. J Leinweber (2009) afirma
que mesmo que as notcias disponveis na web sejam menos confiveis, se um grupo
grande de pessoas participa de uma mesma opinio (sem segundas intenes), esta
opinio pode ser til para os investidores.

12

A Securities and Exchange Comission (SEC) uma agncia federal dos Estados Unidos que

detm a responsabilidade primria pela aplicao das leis de ttulos federais e a regulao do
setor de valores mobilirios, as aes da nao e opes de cmbio e outros mercados de valores
eletrnicos nos Estados Unidos. No Brasil a responsabilidade de regular o mercado financeiro
da CVM (Comisso de Valores Imobilirios).
33

4.1.2.2

Pr-processamento de Notcias

O pr-processamento o segundo processo na arquitetura de CT. um dos


principais processos, pois resultados de um pr-processamento feito erroneamente pode
comprometer os prximos processos da CT.
Wang et al. (2005) consideram o pr-processamento como um processo de
tornar claro cada estrutura da linguagem e eliminar, tanto quanto possvel os fatores
dependentes do idioma. Lee e Chen (2006) definem esta tarefa apenas como remoo de
stop-words e stemming. Para (Wei et al., 2001) a fase de pr-processamento consiste em
transformar os dados textuais obtidos na etapa anterior em uma representao adequada
a ser utilizada pelos algoritmos de aprendizagem e compreende a trs atividades,
extrao de caractersticas, seleo de caractersticas e representao do documento.
Devido ao fato desta abordagem ser uma das mais utilizadas na literatura optou-se pela
descrio de pr-processamento dentro do contexto proposto por estes autores. Sendo
assim estas atividades so descritas na prxima seo.

Extrao de Caractersticas
A extrao de caractersticas o primeiro passo no pr-processamento de
documentos. O Objetivo principal gerar uma lista de termos que descreve
suficientemente os documentos. Portanto os documentos de treinamento so analisados
para determinar uma lista de todas as caractersticas (palavras-chave) contidas nos
documentos. Em seguida tcnicas de reduo de caractersticas so aplicadas para
reduzir a dimenso da lista criada (frequentemente indicada como dicionrio). Os
mtodos mais utilizados para esta finalidade so a eliminao de stop words, utilizao
de algoritmos de stemming e utilizao de um dicionrio ou thesaurus.
As stop words conforme citado anteriormente so palavras que podem ser
eliminadas por no constiturem conhecimento nos textos. Geralmente so dadas como
uma stop list (lista com as palavras a serem descartadas). A maioria destas palavras so
preposies, pronomes, artigos e outras classes de palavras auxiliares, que no
contribuem para o processo de classificao e muitas das vezes tm influncia negativa.
O principal objetivo da eliminao das stop words reduzir o rudo presente no
dicionrio criado.

34

O processo de stemming consiste em reduzir cada palavra do texto em sua


provvel palavra raiz. O objetivo remover sufixos e prefixos dos termos que possam
vir a identificar plurais, gnero ou formas verbais, fazendo com que assim termos
equivalentes tenham uma nica representao. Este processo reduz o nmero de termos
diferentes nas representaes dos documentos e impede tambm a repetio de palavras
com mesmo significado conceitual (mesmo radical). Os algoritmos de stemming fazem
uso de regras lingusticas e so dependentes do idioma. Em se tratando da lngua
portuguesa, o algoritmo de stemming mais utilizado nas ferramentas o Portuguese
Stemming proposto por (Orengo et al., 2001). Este algoritmo foi implementado em C e
composto de vrias etapas. Entretanto por no fazer parte do escopo deste trabalho no
daremos nfase a implementao deste algoritmo. Detalhes sobre o mesmo podem ser
encontrados em (Bastos, 2006).
Resultados experimentais publicados em (Baker et al., 1998) demostraram que
em muitos casos o processo de stemming pode ser prejudicial eficcia do classificador
de textos. Entretanto vale ressaltar que apoiadores do mtodo afirmam que o mesmo
importante sim, no s pelo fato de reduzir a dimensionalidade do espao de
caractersticas, mas tambm til para ajudar a promover a eficcia do classificador de
textos.
Um thesaurus ou dicionrio um vocabulrio controlado que representa as
palavras que tem o mesmo valor semntico, ou seja, termos diferentes existentes nos
documentos com o mesmo valor semntico podem ser substitudos por termos-chave
com o auxlio de um dicionrio de sinnimos. O caso mais simples de thesaurus um
par de sinnimos, isto , duas palavras que tem o mesmo significado, como por
exemplo, as palavras carro e automvel, que poderiam estar associadas a uma nica
palavra que carro. A maior dificuldade para a utilizao de um thesaurus a criao
do prprio dicionrio.

Seleo de Caractersticas
O principal objetivo desta fase eliminar aquelas caractersticas que fornecem
pouca ou nenhuma informao importante e assim diminuir a dimensionalidade do
espao de caractersticas. Shang et al. (2006) afirma que o maior problema na tarefa de
classificao de textos a alta dimensionalidade do espao de caractersticas e que para
35

muitos algoritmos de aprendizagem esta alta dimensionalidade no adequada.


Montanes et al. (2003) afirma que uma grande quantidade de caractersticas utilizadas
para representar os documentos na CT irrelevante e as mesmas podem ser eliminadas.
Para (Forman, 2003) uma boa seleo de caractersticas essencial para melhorar o
desempenho do classificador.
Pode-se dizer ento que a seleo de caractersticas uma forma de reduzir a alta
dimensionalidade do espao de caractersticas selecionando apenas as caractersticas
mais importantes dos textos.
Existem duas abordagens para a seleo de caractersticas em CT, a abordagem
Filter e abordagem Wrapper (Sebastiani, 1999). A abordagem Filter opera
independente do algoritmo de classificao considerado e seleciona as caractersticas
antes do processo de classificao e geralmente com base em medidas estatsticas,
enquanto a abordagem Wrapper requer um algoritmo de aprendizado para selecionar as
caractersticas e utiliza o seu desempenho para avaliar e determinar quais caractersticas
devem ser selecionadas, ou seja, para cada subconjunto de caractersticas considerado
avaliado diretamente o desempenho do classificador. As figuras 4.2 e 4.3 apresentam
estas duas abordagens.

Caractersticas

Seleo de
Caractersticas

Algoritmo de
Classificao

Figura 4.2 Esquema de abordagem Filter


Caractersticas selecionadas independente do algoritmo de classificao.
Adaptado de (John et al., 1994).
A utilizao da abordagem Filter pode ser relativamente rpida, porm os
resultados podem no ser satisfatrios quando aplicados ao algoritmo de classificao.
John et al. (1994) afirma que isto ocorre devido ao fato do algoritmo de classificao ser
ignorado no processo de seleo de caractersticas. Chou et al. (2010) declara que a
abordagem Wrapper pode encontrar o melhor subconjunto de caractersticas para um
determinado algoritmo de aprendizagem, entretanto o custo computacional muito
maior e pode tornar impraticvel quando o nmero de caractersticas originais for muito
grande. Segundo (Doan et al., 2004) o mtodo Wrapper relativamente difcil de ser
implementado especialmente quando a quantidade de dados muito elevada. Por outro
36

lado a abordagem Filter facilmente entendida e computacionalmente eficiente, o que


justifica o uso frequente da mesma em aplicaes envolvendo CT. Chou et al. (2010)
tambm afirma que a abordagem Filter mais popular e comumente utilizada.

Subconjunto de caracterstica
Caractersticas

Avaliao do subconjunto

Algoritmo de
Classificao

Algoritmo de Classificao

Figura 4.3 Esquema de abordagem Wrapper


Utilizao do algoritmo de classificao na fase de seleo de caractersticas.
Adaptado de (John et al., 1994).
A abordagem utilizada neste trabalho a mais comumente utilizada que a
abordagem Filter. Conforme citado anteriormente a abordagem Filter faz uso de
mtricas estatsticas para selecionar as caractersticas mais relevantes dos documentos.
Existem na literatura diversas medidas estatsticas para esta finalidade, como por
exemplo, Intensidade do Termo, Coeficiente de Correlao, Frequncia do documento,
Ganho de Informao, Estatstica X2, Informao Mtua, etc., entretanto as mais
comumente utilizadas so:

Frequncia de Documentos Document Frequency (DF): frequncia de


documentos o nmero de documentos no qual um termo aparece. A DF para
cada termo no conjunto de treinamento computada e os termos cuja frequncia
de documentos inferior a um limite predeterminado so removidos do espao
de caractersticas. A ideia bsica desta medida o fato de que se o termo no
aparece em muitos documentos ento ele no pode ser considerado como um
bom indicador das classes e consequentemente o mesmo pode ser removido
reduzindo assim a dimensionalidade do espao de caractersticas. Este mtodo
utilizado em (Apte et al., 1994) e tambm em (Yang et al., 1997) tendo este
ltimo concludo que possvel fazer uma grande reduo de caractersticas sem
perda de eficincia do classificador utilizado.
37

Ganho de Informao Information Gain (IG): Ganho de Informao um


mtodo baseada na entropia. frequentemente empregado como um critrio de
importncia do termo no campo do aprendizado de mquina (Mitchell, 1998).
Ele mede o nmero de partes de informao obtidas para predio da categoria,
conhecendo-se a presena ou ausncia de um termo em um documento. Para
cada termo calculado o ganho de informao e os termos cujos ganhos de
informao forem menores que um limiar determinado podem ser removidos do
espao de caractersticas. Este clculo inclui as estimativas das probabilidades
condicionais de uma categoria dado um termo e o clculo da entropia na
definio. Lewis e Ringuette (1994) utilizaram o Ganho de Informao para a
seleo de caractersticas em um modelo para classificao binria, juntamente
com os algoritmos Naive Bayes e rvore de deciso.

Informao Mtua Mutual Information (MI): A informao mtua um


critrio normalmente utilizado em modelagem estatstica da linguagem em
associaes de palavras e aplicaes correlatas (Church e Hanks, 1990). Dumais
et al. (1998) utilizaram MI para seleo de caractersticas juntamente com
diferentes algoritmos de aprendizagem. Uma deficincia desta mtrica que a
pontuao fortemente influenciada pelas probabilidades marginais dos termos.
Para termos com uma probabilidade igual a Pr (t|c) (probabilidade do termo t
acontecer, dado que a classe c), poucos termos vo ter uma pontuao maior
que termos comuns. Desta forma, no se pode comparar pontuaes entre termos
de frequncia muito diferentes.
Estatstica 2 (CHI) - A estatstica CHI mede a falta de independncia entre cada
termo e as categorias e pode ser comparada a distribuio CHI com um grau de
liberdade para julgar extremos. Quando o valor da estatstica CHI zero
significa que termo e categorias so independentes. Sendo assim apenas aqueles
termos que possui a estatstica CHI maior que um limiar predeterminado so
selecionados e os demais podem ser descartados, pois uma vez que os mesmos
so independentes categoria eles no possuem nenhum significado para a
classificao. A maior diferena entre a estatstica CHI e a informao mtua
que o CHI um valor normalizado e, portanto seu valor comparvel entre os
38

termos de uma mesma categoria. No entanto esta normalizao ruim para


termos de baixa frequncia. Logo a estatstica CHI no considerada muito
confivel para termos de baixa frequncia (Dunning, 1993).

Mais informaes sobre as mtricas citadas, assim como a formulao


matemtica das mesmas podem ser encontradas em (Sebastiani, 2002). E muitos
trabalhos visando o problema de seleo de caractersticas podem ser encontrados na
literatura. Como por exemplo, no trabalho de (Yan et al., 1997) e apoiados por
(Sebastiani, 2002) os autores sugerem que para diferentes classificadores e diferentes
colees de documentos os mtodos CHI e IG tm similar desempenho e podem reduzir
a dimensionalidade do espao de caractersticas (reduo de 98%) sem perder a eficcia
e que os resultados utilizando DF (reduo de 90%) tambm podem ser comparveis
aos desempenhos do CHI e IG. Entretanto os resultados da MI (reduo de 50-60%)
foram inferiores aos mtodos anteriores. Segundo os autores a MI teve resultados
inferiores devido a uma tendncia de favorecer termos raros e uma forte sensibilidade a
erros de estimao das probabilidades.
Cai e Song (2008) introduziram um novo mtodo de seleo de caractersticas
chamado Count Difference que baseado na diferena entre as frequncias relativas
do documento (relao de frequncia do documento de uma caracterstica para uma
classe sobre a frequncia mdia do documento para a mesma classe) de uma
caracterstica para classes relevantes e irrelevantes. Os autores compararam o mtodo
proposto com outros mtodos de seleo de caractersticas (DF, MI, IG, entre outros).
Estes mtodos de seleo de caractersticas foram avaliados em uma base de dados de
classificao de textos (Reuters) com a modelagem da mxima entropia. Por fim os
autores mostraram que a seleo de caracterstica uma forma de reduo do custo
computacional e ao mesmo tempo melhora o desempenho do classificador. Eles
demostraram tambm que o mtodo de seleo proposto (Count difference) promissor
para classificao de textos, no somente por obter melhor desempenho, mas tambm
por trabalhar razoavelmente bem com cortes de caractersticas muito agressivos. E
finalmente quanto ao classificador os autores demostraram que a modelagem de
mxima entropia um mtodo competitivo para classificao de textos quando
comparado a outros algoritmos de classificao (SVM, k - NN e Rocchio).

39

Apesar desta vasta pesquisa em relao a diferentes mtodos de seleo de


caractersticas, possvel concluir que no existe uma clara evidncia da superioridade
de qualquer mtodo em particular para todos os tipos de dados, ou seja, cada mtodo
apresenta suas qualidades e fraquezas. Como os mtodos de seleo de caractersticas
so dependentes dos dados e dos algoritmos de classificao utilizados fica difcil dizer
qual mtodo mais eficiente.

Representao do documento
A representao do documento a tarefa final no pr-processamento do
documento. Os documentos so representados em termos daquelas caractersticas para
os quais o dicionrio foi reduzido nas etapas anteriores. Assim, a representao de um
documento um vetor caracterstica de n elementos, onde n o nmero de
caractersticas remanescente aps o trmino do processo de seleo.
Para (Strzalkowski, 1994) a representao do documento tem a finalidade de
reduzir a complexidade dos documentos textuais e torn-los mais fceis de serem
trabalhados. Os documentos tm que ser transformados a partir de sua verso textual
original para um vetor documento que descreve o seu contedo. Um documento pode
ser representado como uma coleo de caractersticas: palavras, frases, sentenas, entre
outros, derivadas a partir dos documentos textuais. Estas caractersticas so geralmente
ponderadas para indicar sua importncia.
A abordagem universal mais simples para a representao de documentos a
representao saco de palavras (do ingls, bag of words) tambm conhecida como
Modelo de Espao Vetorial. O Modelo de Espao Vetorial segundo (Salton et al., 1975)
um modelo algbrico para representao de documentos textuais como vetores de
caractersticas que identificam cada um dos documentos no modelo. Os documentos so
representados por vetores e cada dimenso no vetor documento corresponde a uma
nica caracterstica, a qual possui um peso associado.
O principal problema da utilizao deste modelo est na alta dimensionalidade
inerente a Minerao de Textos, pois dado um corpus com algumas centenas de
documentos, o nmero de caractersticas facilmente pode ultrapassar centena de
milhares muito facilmente.

40

Nesta representao a ordem e a ligao entre as caractersticas no tem nenhum


valor para o sistema. Pode se dizer ento que esta abordagem visivelmente pobre em
relao a todos os recursos que o vocabulrio de uma lngua pode oferecer,
inviabilizando muitas tcnicas de Processamento de Linguagem Natural. No entanto, a
codificao bag of words tem apresentado bons resultados na literatura, justificando
assim a sua abordagem puramente estatstica. (Boulis et al., 2005) afirma que apesar da
simplicidade da representao bag of words, os mtodos de classificao que fazem uso
da mesma, muitas vezes apresentam um alto desempenho. Na figura 4.4 abaixo pode ser
visualizado a representao de um documento utilizando o modelo bag of words.
bovespa

Nikkei fecha em baixa. Bovespa tem

ceder

maior baixa dos ltimos meses. A

baixa

bolsa est esticada e deve ceder antes

economia

de voltar a subir. Com economia

fecha

norte-americana patinando, a bolsa

europa

ainda tem muito a ceder.

.
.
bolsa

Figura 4.4 Representao Bag of Words


Conforme pode ser observado na figura acima, os termos apresentados esto
associados a seus respectivos pesos. De uma maneira geral a atribuio destes pesos
pode ser feita atravs de vrios mtodos, dentre os quais podemos citar:

Medida Booleana usa representao binria para os termos. Se o termo tj est


presente no documento di o valor do peso aij 1, caso contrrio zero. Por ser
muito simples, esta medida de atribuio de pesos raramente utilizada. Salton e
Buckley (2002) declara que medidas estatsticas levando em considerao a
frequncia dos termos nos documentos geralmente so as mais empregadas.

41

TF (term frequency) cada termo assumido ter importncia proporcional ao


nmero de vezes que ele ocorre no documento. Sendo assim o peso aij de um
termo tj em um documento di pode ser dada pela seguinte frmula:
tf (t j , d i ) = freq (t j , d i )

(4.1)

Onde freq(tj,dj) frequncia do termo tj no documento di. A TF nem sempre


uma boa medida de atribuio de pesos, porque o fato de termos frequentes
aparecerem na maioria dos documentos significa que eles tem pouco poder de
discriminao. Uma boa soluo para este problema a remoo dos termos
com alta frequncia do conjunto de caractersticas. Entretanto encontrar um
limiar ideal o grande problema desta abordagem (Tokunaga et al., 1994).
Peramunetilleke et al., (2001) tambm afirma que o TF sozinho no um bom
indicador para a seleo de caractersticas preditivas, pois o termo que aparece
frequentemente no necessariamente um indicador para avaliar a subida ou
descida do valor de uma ao.

IDF (inverse document frequency) diferentemente da TF (que se preocupa com


a ocorrncia do termo dentro de um texto) a IDF se preocupa com a ocorrncia
do termo em uma coleo de textos. A ideia bsica da IDF que termos que
ocorrem raramente em uma coleo de textos so de grande valor. Assume-se
que a importncia de cada termo inversamente proporcional ao nmero de
textos que contm o termo. A IDF de cada termo tj pode ser calculada por:

idf (t j ) = log

N
d (t j )

(4.2)

Onde N o nmero total de textos na coleo e o denominador o nmero de


textos que contm o termo tj pelo menos uma vez.
TF-IDF (term frequency-inverse document frequecy) - a TF-IDF uma medida
bastante citada na literatura. Proposta por (Salton et al., 1975) a TF-IDF o
produto da combinao da TF e da IDF (ambas citadas anteriormente) para a
ponderao de termos e pode ser calculada pela seguinte frmula:

42

tf idf ( t j , d i ) = freq ( t j , d i ).idf ( t j )

(4.3)

Atravs da medida tf-idf possvel aumentar a importncia dos termos que


aparecem em poucos documentos e diminuir a importncia de termos que
aparecem em muitos documentos. Salton e Buckley (2002) e Sebastiani (2002)
afirmam que esta medida a mais utilizada em aplicaes envolvendo
classificao de textos.

4.1.2.3

Extrao de Conhecimento

Na fase de extrao de conhecimento um classificador construdo a partir das


representaes ponderadas do conjunto de treinamento (previamente classificado)
obtidas aps a fase de representao do documento. Sendo assim o classificador
construdo capaz de aprender os padres necessrios que distinguem uma classe da
outra.
As estratgias de aprendizagem para aprender automaticamente os padres em
classificao de textos podem ser divididas em diferentes tipos: rvores de deciso
(Lewis e Ringuette, 1994), redes neurais artificiais (Chen et al., 1994), (Yang, 1994),
K-nearest neighbor (Kwon e Lee, 2000), Naive Bayes (Lewis e Riguette, 1994),
algoritmo de Rochio (Joachims, 1997), Suport Vector Machines (Joachims, 2003), e
mtodos baseados em regresso (Schutze et al., 1995).
A seguir so apresentados os algoritmos de aprendizagem utilizados neste
trabalho (Naive Bayes, Redes Neurais Artificiais e Support Vector Machines). Para mais
detalhes sobre os mesmos e tambm dos demais mtodos citados acima, ver (Sebastiani,
1999).

Naive Bayes

O classificador Naive Bayes (NB) denominado ingnuo (naive) por assumir


que existe uma independncia entre os termos de um documento, ou seja, a informao
de um evento no informativa sobre nenhum outro. Segundo (Zhang, 2004) apesar de
ser considerado ingnuo e simplista, o classificador um dos mais utilizados em

43

Aprendizado de Mquina e na maioria das vezes apresenta bom desempenho em vrias


tarefas de classificao.
O Naive Bayes baseado no teorema de Bayes cuja ideia principal utilizar a
juno de probabilidades das palavras e classes para estimar as probabilidades das
classes de um novo documento. De um modo geral pode-se dizer ento que o algoritmo
atravs da regra de Bayes calcula a probabilidade a posteriori de um documento
pertencer a classes diferentes e o atribui a classe cuja probabilidade a posteriori a mais
alta. Sendo assim a um novo documento atribudo classe com a mais alta
probabilidade a posteriori.
As principais vantagens do classificador NB a simplicidade do algoritmo, o
que facilita a sua implementao e o fato de no necessitar de um procedimento de
aprendizagem, pois as probabilidades calculadas so estimadas atravs das frequncias
dos termos.
A desvantagem do NB o fato do mesmo assumir que os atributos so
independentes dadas classe, hiptese que raramente pode ser confirmada no mundo
real.

Suport Vector Machines


Suport Vector Machines ((Vapnick, 1995), (Vapinick, 1998)) so um grupo de
mtodos de aprendizagem supervisionado que executa a classificao atravs da
construo de um hiperplano timo N-dimensional que separa os dados em duas
categorias. Nos ltimos anos a SVM tem demonstrado um desempenho muito bom em
uma ampla variedade de aplicaes envolvendo classificao que exigem espao de
entrada em larga escala, tais como reconhecimento de caracteres manuscritos (LeCun et
al.,1995), deteco de face (Osuna et al.,1997) e o mais importante neste caso, a
classificao de textos ((Joachim, 1998); (Dumais et al., 1998)).
A SVM baseada na teoria de aprendizagem estatstica, que faz uso do princpio
da minimizao do risco estrutural (Structural Risk Minimization - SRM) ao invs da
minimizao do risco emprico (Empirical Risk Minimization - ERM) que comumente
utilizado em outros mtodos estatsticos, como o caso das Redes Neurais Artificiais. A
SRM est baseada no fato de que o erro do algoritmo de aprendizagem junto aos dados
de validao (dados que tem a mesma distribuio dos dados de treinamento, porm
ainda no apresentado ao algoritmo), ou seja, o erro de generalizao limitado pelo
44

erro de treinamento mais um termo que depende da dimenso VC (dimenso Vapnik e


Chervonenkis), que uma medida da capacidade de expresso de uma famlia de
funes classificadoras obtidas por meio de um algoritmo de aprendizagem (Vapnick,
1995). O objetivo construir um conjunto de hiperplanos cuja estratgia a variao da
dimenso VC, de forma que o risco emprico (erro de classificao calculada no
conjunto de dados de treinamento) e a dimenso VC sejam minimizados ao mesmo
tempo.
De uma maneira geral pode-se dizer que uma SVM pode ser descrita da seguinte
forma: dadas duas classes e um conjunto de pontos que pertencem a essas classes, uma
SVM determina o hiperplano que separa os pontos de tal forma que o maior nmero de
pontos da mesma classe colocado do mesmo lado, enquanto maximiza a distncia de
cada classe a esse hiperplano. A distncia de uma classe a um hiperplano a menor
distncia entre eles e os pontos dessa classe e chamada de margem de separao. O
hiperplano gerado pela SVM determinado por um subconjunto dos pontos das duas
classes, chamados de vetores de suporte.
Para Joachim (1998) a evidncia terica que torna a utilizao das SVMs to
atrativas em aplicaes envolvendo a classificao de textos o potencial das mesmas
para lidar com uma alta dimensionalidade do espao de caractersticas, como o caso
das aplicaes envolvendo classificao de textos.
Artificial Neural Network

A Rede Neural Artificial (RNA) (do ingls Artificial Neural Network) uma
forma de computao no algortmica e caracterizada por sistemas que, em algum nvel,
relembram a estrutura do crebro humano, sendo assim constitui uma alternativa
computao algortmica convencional (Braga, 2000).
De uma maneira geral uma rede neural pode ser considerada como uma estrutura
de processamento de informao paralelemente distribuda, constituda de duas
estruturas principais: (1) os ns, que correspondem aos neurnios ou unidades de
processamento; (2) os links, que correspondem s conexes sinpticas entre os
neurnios e que esto associadas a um determinado peso. O valor destes pesos
determinado atravs de um processo de treinamento (ou aprendizado) das redes e a
distribuio dos mesmos em essncia armazena o conhecimento e as relaes
determinantes do sistema estudado. Os neurnios de uma rede neural so organizados
45

em camadas e o comportamento de uma camada depende da sua funo de ativao e do


padro de conexo entre os pesos. A figura 4.5 exemplifica uma arquitetura bsica das
Redes Neurais e seus principais componentes.

.
.
.

Camada de entrada

.
.
.

Camada escondida

Camada de sada

Figura 4.5 Arquitetura bsica de uma rede neural e seus principais componentes
Uma das propriedades mais importantes das redes neurais e que capta bem a
caracterstica humana a habilidade de aprender. Isto feito atravs de um processo
iterativo de ajustes aplicados a seus pesos, chamado treinamento. O objetivo do
treinamento de uma rede neural fazer com que a aplicao de um conjunto de entradas
produza um conjunto de sadas desejado ou no mnimo um conjunto que apresente
sadas consistentes, onde o erro seja mnimo.
Os diferentes modelos de RNAs podem ser diferenciados pelo seu tipo de
treinamento que pode ser supervisionado ou no supervisionado e tambm pelo tipo de
arquitetura (Redes Alimentadas Adiante com Camada nica, Redes Alimentadas
Diretamente com Mltiplas Camadas e Redes Recorrentes) (Haykin, 2000).
Dentre os modelos mais citadas na literatura esto os Perceptrons de Mltiplas
Camadas (do ingls Multilayer Perceptron - MLP), as redes de Funo de Base Radial
(do ingls Radial Basis Function - RBF) e as redes de Kohonen. Neste trabalho em
especfico foi abordado o problema de classificao de textos atravs da utilizao das
redes neurais MLP e RBF.
As redes MLPs so redes supervisionadas e consiste de unidades sensoriais que
constituem a camada de entrada, uma ou mais camadas escondidas de ns
computacionais e uma camada de sada de ns computacionais. O sinal de entrada se
propaga para frente atravs da rede camada por camada. Apresenta um processo de
aprendizagem supervisionado, no qual os padres de treinamento so apresentados
46

rede e com base nos erros obtidos so realizados ajustes nos pesos sinpticos, cuja
finalidade diminuir os erros nas prximas iteraes. O principal algoritmo de
treinamento das redes MLPs o algoritmo de retropropagao (back-propagation)
proposto no incio por (Werbos, 1974) e reinventado diversas vezes, at se tornar
popular com Rumelhart em 1986, (Rumelhart, 1986).
As redes RBF so constitudas de uma camada de entrada, apenas uma camada
oculta (diferentemente das MLPs que podem ter uma ou mais camadas ocultas) que
responsvel pela transformao no linear do espao de entrada para o espao oculto,
sendo este ltimo na maioria das vezes um espao de alta dimensionalidade. E por fim a
camada de sada que linear e fornece uma resposta ao estmulo gerado pela aplicao
dos dados de entrada, pela camada de entrada. O aprendizado de uma rede RBF
equivalente a encontrar uma superfcie em um espao multidimensional que melhor se
ajuste ao conjunto de dados de treinamento, sendo o critrio para melhor ajuste
medido por algum critrio estatstico.
Apesar dos modelos de redes MLP e RBF serem utilizados praticamente nas
mesmas aplicaes (aproximao de funes no lineares e classificao de padres),
existem algumas diferenas importantes entre os dois modelos. Fernando (1995) em sua
tese de mestrado fez um comparativo bem detalhado sobre as principais diferenas entre
estes modelos e em (Haykin, 2000) possvel encontrar mais detalhes sobre as redes
MLP e RBF.
Uma das vantagens na utilizao das redes neurais em aplicaes envolvendo a
classificao de textos a redundncia na representao de informaes, o que torna o
sistema tolerante s falhas. Uma desvantagem a dificuldade de se trabalhar com um
grande nmero de variveis, o que pode tornar os algoritmos de treinamento
computacionalmente exaustivos. De fato (Wiener et al., 1995) afirma em seu trabalho
que possvel obter bons resultados em aplicaes envolvendo classificao de textos e
redes neurais, entretanto uma reduo no nmero de caractersticas do modelo se faz
necessrio.

4.1.2.4

Mtricas de Avaliao

Diversas mtricas podem ser utilizadas para realizar a avaliao de um


classificador. (Witten et al., 2011) definem a acurcia e a taxa de erro como medidas
mais comuns para avaliar um modelo de classificao. J (Sebastini, 1999) define que a
47

eficcia de um classificador pode ser avaliada em termos de preciso e recall. Estas


medidas so estimativas dos percentuais de acertos e erros do modelo de predio da
classe na apresentao de novos exemplos e as mesmas podem ser calculadas a partir de
uma estrutura conhecida como matriz de confuso. A matriz confuso apresentada na
forma de tabela e para um problema envolvendo duas classes denominadas classe
positiva e classe negativa, a mesma pode ser apresentada da seguinte forma:
Prevista
Classes

Positiva

Negativa

Positiva

TP (Verdadeiros Positivos) FN (Falsos negativos)

Negativa

FP (Falsos Positivos)

Real
TN (Verdadeiros Negativos)

Tabela 4.1 - Matriz Confuso


A matriz confuso apresentada acima indica quatro variveis, ou seja, quatro
possibilidades de acertos e de erros do classificador: Verdadeiros Positivos (TP)
representa o nmero de registros da classe positiva preditos corretamente pelo modelo,
Verdadeiros Negativos (TN) representa o nmero de registros da classe negativa
preditos corretamente pelo modelo, Falsos Positivos (FP) representa o nmero de
registros da classe negativa preditos como sendo da classe positiva pelo modelo e os
Falsos Negativos (FN) representa o nmero de registros da classe positiva preditos pelo
modelo como sendo da classe negativa. Para o caso de aplicaes envolvendo mais de
duas classes, considera-se cada classe como positiva e as demais como negativas.
A partir dos valores da matriz confuso diversas medidas de erro podem ser
derivadas: acurcia, preciso, recall e a medida F (F-Measure) (Goadrich et al., 2006).
A acurcia a proporo dos documentos classificados corretamente (positivos e
negativos) sobre o nmero total de documentos. De uma maneira geral quanto melhor o
classificador, mais alta deve ser a acurcia. Entretanto deve-se ter cuidado ao utilizar
esta mtrica quando o corpus no possui a mesma quantidade de elementos por classe,
ou seja, quando uma classe ocorre significativamente mais do que a outra, geralmente o
classificador tende a obter uma alta acurcia classificando todos os exemplos na classe
majoritria. Quando isto ocorre importante utilizar outras medidas para avaliar o
sistema (Goadrich et al., 2006).

Acuracia

TP + TN
TP + TN + FP + FN
48

(4.4)

Preciso a proporo dos documentos classificados corretamente como


positivos. Pode-se dizer ento que uma alta preciso significa que a maioria dos
documentos classificados como positivos foram identificados corretamente. Recall
mede a capacidade de reconhecer os documentos positivos, ou seja, pode-se dizer ento
que a maioria dos documentos positivos foram encontrados. A preciso o nmero de
documentos classificados como positivo divididos pelo nmero total dos documentos
classificados como positivos, j recall o nmero documentos corretamente
classificados como positivo divididos pelo nmero total de documentos que realmente
so positivos. As frmulas 4.5 e 4.6 representam estas medidas.

Pr ecisao =
Re call =

TP
TP + FP

TP
TP + FN

(4.5)
(4.6)

Fragos, et al., (2005) afirmam que as medidas preciso e recall podem ser
enganosas quando examinadas separadamente. Uma preciso elevada geralmente
significa sacrificar o recall e vice e versa. Os autores afirmam ainda que quando as
medidas preciso e recall so sintonizadas para obter o mesmo valor, ento este valor
chamado break-even (ponto de equilbrio) do sistema e este break-even vem sendo
muito utilizado em avaliaes de sistemas de classificao de textos.
A F-measure (ou medida F) a mdia harmnica entre a preciso e o recall e
definida pela equao 4.7.

F=

2 * Pr ecisao * Re call
Pr ecisao + Re call

(4.7)

Preciso e recall capturam dois importantes aspectos do desempenho do


classificador e a medida F combina estes dois aspectos em uma nica medida,
atribuindo importncia igual a ambas as medidas. Quanto mais alto o valor da medida F
melhor deve ser a performance do sistema.

49

5. Descrio do Sistema de Previso do Mercado


Conforme citado anteriormente a previso do mercado financeiro ainda uma
tarefa difcil devido presena de dados ruidosos, no estruturados e com alto grau de
incertezas. Diferentes modelos foram propostos nos ltimos anos com diferentes tipos
de dados (numricos e textuais) para tentar entender o comportamento do mesmo. No
existe um consenso sobre quais so as melhores tcnicas ou quais so os melhores
dados a serem utilizados, entretanto conhecido que muitos investidores fazem uso de
notcias (principalmente macroeconmicas) em suas tomadas de deciso. Sendo assim a
abordagem utilizada para a finalidade deste trabalho (previso diria da tendncia do
principal ndice do mercado de aes brasileiro) a classificao de notcias financeiras
atravs de tcnicas de minerao de textos.
Vrios estudos envolvendo este tema foram revisados no captulo 2 deste
trabalho, tendo tambm a apresentao de uma arquitetura geral dos modelos revisados.
O modelo proposto segue a arquitetura geral apresentada no captulo 2, porm com
algumas modificaes, conforme visualizado na figura 5.1 abaixo.
Coleta de Dados
Cotaes Dirias
do Ibovespa

Ttulos de Notcias
Financeiras

Tendncia diria do Ibovespa

Ttulos de Notcias Agrupados

Ttulos de Notcias
Financeiras
classificadas

Pr-processamento

Extrao de
Caractersticas

Seleo de Caractersticas
(Automtica)

Representao do
Documento

Seleo de Caractersticas
(Manual)

Classificao das Notcias


Algoritmos de
Classificao

Avaliao do Sistema
Mtricas de
Desempenho

Figura 5.1 Etapas da Metodologia do sistema proposto


50

Estratgia de
Negociao

De uma maneira geral a metodologia proposta acima constituda de cinco


etapas: coleta de dados, pr-processamento, classificao das notcias, avaliao do
sistema e por fim estratgia de negociao.
Para a implantao de todas as etapas da metodologia proposta foram realizados
dois experimentos. No primeiro experimento (denominado nesta dissertao de
Experimento1 ou Exp1) foi utilizado um software comercial chamado Poly Analyst13
(PA) desenvolvido pela empresa Megaputer Intelligence Inc. um sistema de
minerao de dados e minerao de texto que possibilita ao usurio executar diferentes
tarefas desde as mais simples, como a importao, limpeza e manipulao de dados, a
outras mais complexas como a modelagem de dados, avaliao, visualizao de
resultados e gerao de relatrios. O software composto de vrios programas que do
suporte s tarefas citadas. E estes programas por sua vez possuem diferentes ns que
fazem o tratamento dos dados. Sendo assim as tarefas sugeridas na metodologia
proposta (com exceo das etapas de coleta de dados, avaliao do sistema e estratgia
de negociao) foram executadas em um programa denominado Analytical Client
(programa utilizado para a criao e execuo de projetos de anlises de dados) e no n
Text Analysis (n constitudo de vrios mdulos que do suporte as tarefas de anlise de
dados textuais).
No segundo experimento (denominado Experimento2 ou Exp2) foram utilizados
duas linguagens de programao (Mathematica e Matlab) para implementar todas as
etapas do modelo proposto, ou seja, um programa foi desenvolvido utilizando a
linguagem de programao Mathematica para implementar as duas primeiras etapas do
modelo proposto (coleta de dados e pr-processamento das notcias), enquanto as
demais etapas (construo do classificador, avaliao dos sistema e estratgia de
negociao) foram implementadas no Matlab. Cabe ressaltar que a escolha por estas
ferramentas se deu pela razo de que ambas as ferramentas so linguagens de
programao que suporta a criao de novas funes e procedimentos, abrindo espao
para a completa edio dos mesmos, permitindo assim a implementao de todas as
etapas necessrias para o desenvolvimento deste trabalho. Outra vantagem a ser citada
o fato das mesmas apresentarem caractersticas bem especficas para os propsitos
escolhidos. No caso do Mathematica podemos afirmar que o mesmo um software
eficiente para trabalhar com a manipulao de textos e pginas da web. Enquanto o
13

Poly Analyst Data Analysis, Megaputer Intelligence, Inc. (http://www.megaputer.com).


51

Matlab apresenta vrias toolboxes onde diversos recursos para a utilizao de vrios
algoritmos de classificao se fazem presentes.
importante destacar que a diferena entre os dois experimentos citados se
encontra apenas nas etapas de pr-processamento e classificao das notcias. A ideia
foi justamente avaliar a capacidade preditiva da tendncia do ndice do mercado de
aes brasileiro atravs de duas metodologias de pr-processamento de textos diferentes
e de algoritmos de classificao distintos.
Detalhes destes experimentos assim como uma explicao de todas as etapas da
metodologia proposta so apresentados nas prximas sees.

5.1 Coleta de Dados


Dois tipos de dados so necessrios para a realizao do estudo proposto: (1)
sries temporais contendo as cotaes do fechamento dirio do Ibovespa, (2) notcias
financeiras contendo data e hora da publicao.

5.1.1 Base de dados de Sries Temporais Financeiras


As sries temporais contendo as cotaes dirias do fechamento do Ibovespa
foram adquiridas atravs de uma conceituada empresa de servio de informaes para o
mercado financeiro. A srie consiste no s de cotaes dirias com valores de
fechamento, mas tambm de valores de abertura, mximo, mnimo (para detalhes ver
captulo 3) e volume negociado (que corresponde ao volume financeiro de transaes
feitas em um determinado dia) no perodo de fevereiro de 2010 a junho de 2011. Vale
ressaltar que neste estudo em questo apenas o valor dirio do fechamento do Ibovespa
foi utilizado. Um grfico contendo os valores utilizados apresentado na figura 5.2.

52

Figura 5.2 Srie diria do fechamento do Ibovespa (fevereiro de 2010 a junho de 2011)

Conforme citado anteriormente (seo 2.1) do ponto de vista dos investidores de


Bolsa de Valores as tendncias das sries temporais financeiras so muito mais
informativas do que o valor das aes, ou mesmo do ndice Bovespa. A extrao de
tendncia em uma srie temporal pode ser feita de maneira simples considerando apenas
o valor de fechamento consecutivo das aes ou ndices, ou mesmo atravs de
algoritmos mais sofisticados, como a segmentao linear piecewise (Keog, et al., 2001).
Neste trabalho em especfico optou-se por extrair as tendncias dirias do ndice
considerando o clculo da variao relativa do Ibovespa, conforme a frmula 5.1.

tendencia (t ) =

fechamento (t ) fechamento (t 1)
* 100
fechamento (t 1)

(5.1)

Onde t um dia de negociao do Ibovespa e fechamento est relacionado ao ltimo


valor assumido pelo Ibovespa no horrio regular do prego.

53

5.1.2 Base de dados de Notcias Financeiras


Os outros dados necessrios para o estudo, ou seja, notcias financeiras contendo
data e hora de publicao foram adquiridas atravs dos principais sites de notcias
econmicas (Infomoney, Ig, Exame, Estado, G1, entre outros) do Brasil. Dentro da
classificao dos tipos de notcias proposta por (Leinweber, 2009), as notcias utilizadas
foram classificadas na categoria 1 (para detalhes ver captulo 4), ou seja so notcias
produzidas por grandes mdias e por fontes confiveis e geralmente transmitidas atravs
de jornais, rdios e televiso.
Para a tarefa de baixar estas notcias da internet um programa foi implementado
no Mathematica. Este programa faz o download destas notcias e armazenam em um
arquivo txt apenas os ttulos14, hora e data de publicao e a fonte (ou site) da notcia.
As demais informaes contidas na pgina web so descartadas (como por exemplo,
cdigo html, figuras, entre outros). A figura 5.3 apresenta as informaes armazenadas
pelo programa.
29/10/2010 10:53:00 |UOL
Juros-Dis caem em dia fraco, olhando inflao e poltica monetria.
29/10/2010 10:52:00 |Portal Exame
Cmbio-Dlar recua para perto de 1,70
29/10/2010 10:50:18 |ltimo Segundo
Dvida do setor pblico recua para 41% em setembro
29/10/2010 10:48:51 |AE : Economia
Economia dos Estados Unidos cresce 2% no terceiro trimestre

Figura 5.3 Exemplo de Ttulos de Notcias


Conforme pode ser observado, a figura acima contm as seguintes informaes:
a data, horrio, o site (ou jornal on-line) em que a notcia foi publicada e tambm o
ttulo da notcia contendo as informaes financeiras (estas informaes geralmente

14

Considerando que todo ttulo est associado a uma notcia e que o mesmo representa um

resumo da notcia, no faremos distino entre ttulos de notcias e notcias neste captulo,
entretanto cabe ressaltar que a base de dados utilizadas neste trabalho composta apenas dos
ttulos das notcias.
54

esto relacionadas a indicadores econmicos, situao econmica do Brasil e outros


pases como os Estados Unidos, Europa e sia, informaes sobre mercado de aes
internacionais, informaes sobre taxas de juros, taxas de cmbio, etc.). possvel
visualizar que cada ttulo de notcia est associado com a data e horrio de sua
publicao. Esta informao fundamental na definio do conjunto de dados de textos
(ttulos financeiros) e suas respectivas classes conforme ser explicado na prxima
seo.
A escolha pela utilizao somente dos ttulos das notcias e no de toda a notcia
publicada est fundamentada no fato de que o ttulo da notcia contm um vocabulrio
bem definido contendo apenas a informao relevante. E com isto possvel ter um
conjunto de dados textuais mais relevantes e com menos rudo.
Os ttulos de notcias baixadas da internet compreenderam ao perodo de
23/02/2010 a 30/06/2011 totalizando 174993 ttulos em 337 dias de negociao na
BmfBovespa. Uma tabela com as estatsticas bsicas dirias destes ttulos pode ser
visualizada abaixo.

Total de Notcias (ttulos)

174993

Mdia de Notcias (ttulos) dirias

458

Mximo de Notcias (ttulos) dirias

635

Mnimo de Notcias (ttulos) dirias

19

Tabela 5.1 - Estatsticas bsicas dos ttulos das notcias no perodo de 23/02/2010 a
30/06/2011

5.1.3 Atribuio de classes aos Ttulos das Notcias


Na maioria dos estudos envolvendo classificao de textos o processo de
atribuio de classe geralmente feita por um especialista da rea. Neste estudo este
processo feito automaticamente baseado na hora em que os ttulos das notcias dirias
foram publicados e no valor da tendncia diria do Ibovespa. Baseado neste processo de
atribuio automtica das classes aos ttulos das notcias, o sistema ser capaz de
responder as seguintes questes: (1) Quanto tempo o mercado leva para reagir
publicao de determinadas notcias? (2) possvel prever a tendncia diria utilizando
apenas notcias que foram publicadas at a abertura dos negcios na BmfBovespa ? (3)
Ou o investidor faz uso das notcias at momentos antes do fechamento dos negcios?
55

Para muitos autores na literatura estas questes so muito importantes, porque


determinar o tempo (timing) que o mercado leva para reagir publicao de notcias
financeiras fundamental para obter boas previses. Por exemplo, em (Lavrenko et al.,
2000) os autores contrariam a hiptese do mercado eficiente (teoria que diz que as
notcias (ou informaes) so incorporadas no preo das aes imediatamente aps o
momento em que so divulgadas) e afirmam que este timing de cinco horas, ou seja, o
mercado demora cinco horas para reagir publicao de uma determinada notcia. J
(Gidvalfi, 2001) afirma que este timing muito menor, ou seja, de apenas 20
minutos. Segundo o autor existe uma forte correlao entre as notcias e o
comportamento do preo das aes durante os 20 minutos que antecedem publicao
da notcia e os 20 minutos seguintes.
Buscando responder s questes citadas acima, neste estudo em especfico
optou-se por definir duas estratgias para a definio das bases de dados textuais:
1 Na primeira estratgia todas as notcias publicadas em um determinado dia
de negociao da BmfBovespa e antes de sua abertura so utilizadas para prever a
tendncia de seu fechamento naquele dia. Por exemplo: notcias publicadas no dia
29/10/2010 de 00h00min at 10h00min foram utilizadas para prever a tendncia do
fechamento do Ibovespa do dia 29/10/2010.
2 Na segunda estratgia foram utilizadas todas as notcias de um determinado
dia publicadas at 1 hora antes do fechamento da BmfBovespa naquele dia. Por
exemplo: notcias publicadas no dia 29/10/2010 de 00h00min at 16h00min foram
utilizadas para prever a tendncia do fechamento do Ibovespa do dia 29/10/2010.
Dentro deste contexto duas observaes a serem feitas: A primeira est
relacionada s notcias publicadas em feriados e finais de semana. Para estas notcias
foram atribudas o valor da tendncia do prximo dia de negociao do Ibovespa, ou
seja, se as notcias foram publicadas no dia 02 de um determinado ms e este dia no
um dia de negociao da BmfBovespa, ento estas notcias afetaro o mercado do dia
03. A segunda observao est relacionada s notcias publicadas depois do horrio de
fechamento da BmfBovespa (ou seja, notcias publicadas no intervalo de 17:00 horas
at as 23:59horas). Estas notcias em uma grande maioria apenas repetem o que
aconteceu ao longo do dia de negociao, portanto acredita-se no acrescentar nenhuma
informao nova ou relevante. Sendo assim as mesmas foram excludas do modelo
proposto.
56

Na tabela 5.2 abaixo podem ser visualizadas as estatsticas bsicas das notcias
(ttulos) utilizadas nas estratgias 1 e 2 citadas acima. possvel perceber que com as
estratgias

adotadas

quantidade

de

notcias

(ttulos)

utilizadas

reduziu

significativamente quando comparadas quantidade de notcias baixadas pelo programa


(ver tabela 5.1).

Estratgia 1 Estratgia2
53833

125615

Mdia de Notcias (ttulos) dirias

160

373

Mximo de Notcias (ttulos) dirias

585

823

Mnimo de Notcias (ttulos) dirias

29

72

Total de Notcias (ttulos)

Tabela 5.2 - Estatsticas bsicas das notcias aps estratgias adotadas

A partir das estratgias adotadas acima dois conjuntos de dados de ttulos de


notcias foram criados, um com os ttulos agrupados conforme estratgia 1 (Base1
contendo 337 documentos15) e um segundo conjunto com os ttulos agrupados conforme
estratgia 2 (Base2 tambm contendo 337 documentos).
Outro ponto a ser discutido a quantidade de classes a ser adotada para
classificar os documentos (ou ttulos de notcias). A maioria dos trabalhos envolvendo
previso da tendncia do mercado acionrio citados na literatura fazem uso de modelos
de trs classes (positiva, negativa e neutra), ((Lavrenko et al., 2000), (Gidvalfi, 2001)).
Outros preferem adotar um modelo de apenas duas classes como em (Zhai et al., 2007).
Devido ao fato de no se ter na literatura uma referncia de trabalho envolvendo a
previso do mercado acionrio brasileiro e a metodologia de minerao de textos optouse pela utilizao dos dois modelos citados na literatura, ou seja, o modelo de duas e
tambm de trs classes.
Sendo assim os documentos relacionados s Base1 e Base2 foram primeiramente
classificados em trs classes (positiva, negativa e neutra).
Conforme citado anteriormente estas classes foram atribudas de acordo com a
tendncia do Ibovespa no dia da publicao dos textos. Logo as seguintes regras foram
aplicadas para determinao destas classes:
15

Um documento contm todos os ttulos agrupados conforme as regras propostas nas

estratgias adotadas e o mesmo est relacionado a um dia de negociao da BmfBovespa.


57

Se tendncia do dia de negociao analisado maior que 0,5% significa ento


que os textos daquele determinado dia influenciaram positivamente o valor do
ndice, logo classe definida como positiva.
Se tendncia do dia de negociao analisado menor que 0,5% significa ento
que os textos daquele determinado dia influenciaram negativamente o valor do
ndice, logo classe definida como negativa.
Se a tendncia oscilou entre 0,5% e -0,5% significa ento que os textos daquele
determinado dia no influenciaram o valor do ndice, logo classe definida
como neutra.
No final do processo de classificao dos documentos para o modelo de trs
classes, a distribuio das classes para cada conjunto definido (Base 1 e Base 2) ficaram
da seguinte forma: 101 (29,97%) documentos foram classificados como positivos, 126
(37,39%) como neutros e 110 (32,64%) foram classificados como negativos, totalizando
337 documentos que correspondem a mesma quantidade de dias de negociao do
Ibovespa.
Cabe ressaltar que trs limiares foram testados a fim de se encontrar um melhor
limiar para a atribuio das classes. O valor 0,5% citado anteriormente foi escolhido
porque permitiu a criao de um modelo com classes balanceadas conforme pode ser
observado na tabela 5.3. Segundo (Mittermayer, 2004) este um ponto importante,
porque muitos classificadores tm dificuldades de trabalhar com um conjunto de
treinamento onde as classes so desbalanceadas.

Dias Positivos

Dias Neutros

Dias Negativos

0,3%

136

68

133

0,5%

101

126

110

1%

65

207

65

Tabela 5.3 - Distribuio para modelo de trs classes para trs limiares diferentes
No caso do modelo de apenas duas classes as regras para atribuio destas
classes foram as seguintes:
Se tendncia do dia de negociao analisado maior ou igual a zero significa
ento que os textos daquele determinado dia influenciaram positivamente o
valor do ndice, logo classe definida como positiva.
58

Caso contrrio, ou seja, se tendncia do dia de negociao analisado menor que


zero significa ento que os textos daquele determinado dia influenciaram
negativamente o valor do ndice, logo classe definida como negativa.

Sendo assim a quantidade de documentos por classe ficou da seguinte forma:


179 (53,11%) documentos foram classificados como positivos e 158 (46,89%)
documentos foram classificados como negativos.

5.2 Pr-processamento das Notcias


Conforme citado no captulo 4 deste trabalho quando se est trabalhando com
dados textuais necessria transformao dos mesmos em uma representao
adequada a ser utilizada pelos algoritmos de aprendizagem. A etapa responsvel por
esta transformao denominada pr-processamento e na metodologia proposta nesta
dissertao esta etapa constituda de trs atividades principais16: extrao de
caractersticas, seleo de caractersticas e representao do documento.
Na atividade extrao de caracterstica a preocupao extrair do texto apenas
termos relevantes, ou seja, termos que de uma maneira geral podem descrever
suficientemente os textos. Mtodos como eliminao de stop words, algoritmos de
stemming e outros se fazem necessrios nesta atividade.
Aps a extrao de caractersticas a prxima atividade no pr-processamento a
seleo de caractersticas. Nesta etapa o principal objetivo eliminar aqueles termos
que tem pouca relevncia nos textos e assim poder diminuir a dimensionalidade do
espao de caractersticas melhorando assim a eficincia do classificador.
A seleo de caractersticas pode ser feita automaticamente, neste caso a
utilizao de mtodos estatsticos se fazem necessrio para selecionar aqueles termos
que so relevantes para o estudo. Ou a mesma pode ser feita manualmente, neste caso
um especialista da rea define quais so os termos que so relevantes para o estudo.
A representao do documento a ltima atividade a ser realizada dentro do
pr-processamento. A mais comumente utilizada a representao bag of words (onde
cada documento representado por um vetor de valores numricos e cada valor indica a

16

Todas as trs atividades foram explicadas no captulo 4 desta dissertao.


59

importncia do seu respectivo termo no documento). O valor ou peso destes termos


pode ser calculado atravs de mtodos estatsticos.
Como neste trabalho foram realizados dois experimentos diferentes, Exp1 e
Exp2, optou-se por descrever a etapa de pr-processamento para ambos os experimentos
em sees separadas, sendo assim os passos do pr-processamento para o Exp1
apresentado na seo 5.2.1, enquanto os passos relacionados ao pr-processamento
realizado no Exp2 apresentado na seo 5.2.2.

5.2.1 Pr-processamento no Exp1


Neste experimento o pr-processamento foi realizado dentro do contexto do
mdulo denominado Linear Classification que faz parte do n Text Analysis (conforme
citado na introduo deste captulo) disponvel na ferramenta utilizada (PA). Por se
tratar de uma ferramenta comercial, o Poly Analyst no explicita as tcnicas envolvidas
neste mdulo, entretanto alguns conceitos esto disponveis na documentao da
ferramenta.
O mdulo Linear Classification desenvolve um modelo de classificao
dependente de um atributo estruturado, atravs da utilizao de uma coluna
independente dos textos. Para a etapa de pr-processamento o mdulo disponibiliza dois
parmetros: Use Stop List e Binary Word Count.
O parmetro Use Stop List pode ser utilizado ou no. Uma vez utilizado todas as
palavras contidas em uma stop list so ignoradas durante a execuo do mdulo. Neste
trabalho optou-se pela utilizao do mesmo. Sendo assim uma lista contendo 1570 stop
words (preposies, pronomes, artigos e outras classes de palavras auxiliares que no
contribuem para o processo de classificao conforme citado no captulo 4) em
portugus foi adicionada ferramenta, uma vez que a stop list disponvel especfica
para a lngua inglesa.
O parmetro Binary Word Count tambm pode ser utilizado ou no. Caso seja
selecionado, a ferramenta armazena as palavras chaves de forma booleana em uma
tabela, ou seja, se a palavra existe no documento seu valor um, caso contrrio seu
valor zero. Caso ele no seja selecionado as palavras chave so representadas em uma
tabela por frequncia, ou seja, armazenada na tabela a frequncia de cada palavra
chave de um documento. Optou-se pela utilizao das duas representaes (tabela
60

booleana e tabela por frequncia). A ideia foi verificar se a forma de representao do


documento pode de alguma forma influenciar os resultados do experimento.
Infelizmente a forma como implementado a seleo de caractersticas neste
mdulo no reportado na documentao da ferramenta, apenas possvel afirmar que
estas caractersticas so selecionadas automaticamente atravs da frequncia e da
distribuio dos termos nos textos conforme citado em (Poly Analyst, 2007).

5.2.2 Pr-processamento no Exp2


Em relao ao Exp2 foi desenvolvido um programa usando a linguagem
Mathematica, (conforme citado na introduo deste captulo) para a etapa de prprocessamento. O programa desenvolvido primeiramente fez a leitura dos textos (no
formato txt) a serem processados.
O primeiro passo do pr-processamento est relacionado extrao de
caractersticas. Sendo assim, para esta atividade o programa implementado foi capaz de
executar as seguintes tarefas:
Eliminao da stop words: nesta tarefa foram eliminados os termos que
correspondem a pronomes, conjunes, artigos e preposies.
Stemming: nesta tarefa foram executados duas modificaes nos documentos:
eliminao de formas verbais (substituio dos verbos para sua forma infinitiva:
Por exemplo, sobem, subiu e subiram foram substitudos por subir) e
remoo do plural (por exemplo: altas = alta, estveis = estvel, etc.).
Criao de um pequeno dicionrio: O dicionrio criado consistiu apenas na
substituio de uma pequena lista de termos de mesmo significado pelo seu
sinnimo correspondente. Por exemplo, os verbos alavancar, aumentar e
avanar foram substitudos pelo verbo subir. importante ressaltar que a
escolha dos sinnimos para o dicionrio criado est dentro do contexto de
mercado acionrio, ou seja, em outro contexto estes termos poderiam no ter o
mesmo significado.
Ao final desta atividade os documentos processados so armazenados no
formato txt para processamento posterior.
O prximo passo do pr-processamento a seleo de caractersticas. No
programa implementado no executado esta atividade, pois esta seleo feita
manualmente, ou seja, todas as palavras chave utilizadas neste experimento fazem parte
61

de uma lista de sentenas composta de duas a cinco palavras (total de 90 sentenas)


fornecidas por um especialista que atua no mercado de aes brasileiro. Algumas destas
palavras chave so: inflao alta, dlar comercial abre em alta, juros futuros em queda,
mercado em desacelerao, bolsa em queda, etc. Dentro deste contexto possvel
afirmar ento que a nica tarefa executada no programa desenvolvido foi leitura do
arquivo txt contendo estas palavras chave para processamento posterior.
O ltimo passo do pr-processamento est relacionado representao do
documento. Para esta atividade foi implementado no programa desenvolvido a
representao bag of words, que pode ser facilmente convertida em tabelas. Sendo
assim documentos processados e palavras chave so convertidos em uma tabela
atributo-valor, onde cada documento um registro da tabela e cada palavra chave um
elemento do conjunto de atributos17 e os valores numricos (ou pesos) destes elementos
foram calculados atravs das seguintes medidas estatsticas (ambas implementadas no
programa): frequncia do termo (TF), frequncia TF-IDF (ambas explicadas na seo
4.1.2.2) e por fim a frequncia TF-CDF (Peramunetilleke et al., 2001). A TF-CDF faz
uso da frequncia do termo (TF) e da frequncia de discriminao da classe (CDF) de
um determinado atributo. Sendo esta ltima calculada pela seguinte frmula:

CDF i =

max( CFi ,classe 1 , CFi ,classe 2 , CFi ,classe 3 )


DFi

(5 .2 )

Onde CFi o nmero de textos que contm um determinado atributo em uma


classe em particular e DFi o nmero de documentos contendo o atributo pelo menos
uma vez. Sendo assim a soma das frequncias de todas as classes para cada atributo
igual quantidade de documentos que o atributo aparece. Logo, o peso final do atributo
i, ou seja, a TF-CDFi ento calculada multiplicando-se a frequncia do termo (TFi)
pela frequncia de discriminao CDFi.
O resultado final do programa responsvel pelo pr-processamento so vrias
tabelas, onde cada uma apresentou uma configurao possvel de pr-processamento, ou
seja, tabelas resultantes de documentos processados como os mtodos de eliminao de

17

Por se tratar de uma representao em tabelas, vamos considerar todas as palavras chave que

fazem parte dos resultados do pr-processamento como atributos.


62

stop words, stemming e as trs mtricas de atribuio de pesos (TF, TF-IDF e TF-CDF)
e tabelas resultantes de documentos processados com mtodos de eliminao de stop
words, stemming e criao de dicionrio e as mesmas mtricas citadas anteriormente
(TF, TF-IDF e TF-CDF). possvel perceber que a nica diferena entre as tabelas
geradas a utilizao ou no do dicionrio criado. Cabe ressaltar que esta diferena
pode influenciar muito nos resultados, pois a utilizao do dicionrio implica em uma
diminuio das palavras chave (atributos) e consequentemente em um aumento na
frequncia destes atributos.
Na tabela 5.4 pode ser visualizada uma tabela resultante do pr-processamento e
uma possvel configurao.

Atributo 1 Atributo2

...

Atributo 90

Classe

D1

0.2

0.21

0.24

D2

0.3

0.11

0.67

...

...

...

...

...

0.76

0.12

0.54

D337

Tabela 5.4 - Representao final dos documentos aps a converso tabela AtributoValor
Na tabela cima o nmero de registros igual quantidade de documentos
utilizada (337 documentos), o nmero de atributos igual quantidade de palavras
chave fornecida pelo especialista (90 sentenas), o peso destes atributos o valor
calculado pelas medidas estatsticas utilizadas e a classe de cada registro esta
relacionada classe atribuda a cada documento conforme as estratgias citadas na
seo 5.1.3 (no caso da tabela citada, o modelo utilizado o de apenas duas classes).

5.3 Classificao dos documentos


O relacionamento entre o contedo dos ttulos das notcias e a tendncia do valor
de fechamento do Ibovespa aprendido atravs de diferentes algoritmos de aprendizado
de mquina.
Na abordagem de aprendizado de mquina os documentos j previamente
classificados so divididos em dois subconjuntos distintos, definidos como treinamento
e teste (ou validao). O conjunto de treinamento utilizado para treinar o classificador
63

e encontrar padres nos documentos, enquanto o conjunto de teste (no rotulado)


utilizado para avaliar o desempenho do modelo. Como a base de testes tambm
previamente rotulada possvel ento medir a taxa de acerto do modelo, comparando-se
o resultado obtido com a rotulao disponvel na base de testes. Os subconjuntos so
normalmente disjuntos para assegurar que as medidas obtidas utilizando o conjunto de
teste, sejam de um conjunto diferente daquele utilizado para realizar o aprendizado
tornando a medida estatisticamente vlida.
Rezende (2003) afirma que vrios mtodos como Holdout, Amostragem
Aleatria, Leave One-Out, Bootstrap e K-Fold-Cross Validation podem ser utilizados
para assegurar que as medidas obtidas pelo conjunto de validao sejam
estatisticamente vlidas e avaliar assim o desempenho de um classificador. Neste
trabalho o mtodo utilizado foi o K-Fold Cross Validation (ou validao cruzada de k
parties). Este mtodo consiste em trs passos: inicialmente a base de dados dividida
em k subconjuntos aproximadamente iguais; em seguida K-1 subconjuntos so
utilizados para treinamento (estimar o modelo) e o subconjunto restante utilizado para
testar; estes dois procedimentos so repetidos K vezes (neste trabalho foi definido k
igual a 10) utilizando sempre um subconjunto diferente para testar. A consequncia
disto que todos os documentos esto disponveis para teste. O resultado final obtido
pela mdia dos resultados em cada etapa.
Uma vez definida a tcnica de validao do modelo de classificao, os
conjuntos de treinamento e teste (subconjuntos gerados pela tcnica de validao
cruzada de K parties) so ento utilizados como entradas para os algoritmos de
classificao definidos nos experimentos adotados (Exp1 e Exp2). Cabe ressaltar que a
tcnica utilizada (validao cruzada de k parties) foi implementada no Matlab.

5.3.1 Classificao de documentos no Exp1


No Exp1 a etapa de classificao de documentos tambm executada atravs do
mdulo Linear Classification (mesmo mdulo responsvel pelo pr-processamento no
PA) e do mdulo Score node.
O

mdulo

Linear

Classification

treina

um

modelo

para

classificar

automaticamente os textos atravs de dois algoritmos de aprendizado de mquina


distintos: (1) baseado no algoritmo SVM - algoritmo que demora mais tempo a ser
64

executado, uma vez que o mesmo requer um processamento mais intensivo a nveis
computacionais, entretanto apresenta melhores resultados; (2) baseado no algoritmo
bayesiano Simples algoritmo mais veloz, pois apresenta um tempo computacional
menor, entretanto a acurcia nos resultados pode ser inferior ao SVM. (Poly Analyst,
2007).
Neste sentido optou-se pela criao de vrios modelos variando o conjunto de
dados (Base1 e Base2), os parmetros do pr-processamento citados anteriormente (Use
Stop List e Binary Word Count) e os dois algoritmos disponveis na ferramenta (SVM e
Bayesiano Simples).
Aps o processamento do mdulo, o resultado final um modelo de
classificao de textos que utilizado como entrada para o outro mdulo da ferramenta
o Score node, que responsvel pela avaliao do modelo. Sendo assim modelo de
classificao gerado anteriormente e conjunto de teste foram utilizados como entrada
para a execuo do mdulo Score node.
Ao final da execuo deste mdulo, os resultados finais obtidos foram
apresentados atravs de uma tabela com as seguintes caractersticas: primeira coluna
apresentou o documento propriamente dito, na segunda coluna, a classe correta do
respectivo documento e na terceira coluna a classe sugerida pelo algoritmo de
classificao. A partir destes resultados foi gerada uma matriz confuso contendo as
taxas de erro de cada classe. Matriz esta gerada no Matlab dado que a ferramenta no
disponibiliza esta opo no mdulo Score node.

5.3.2 Classificao de documentos no Exp2


Em relao ao Exp2 os algoritmos de classificao utilizados foram as Redes
Neurais Artificiais MLP e RBF. Sendo assim vrios modelos de redes neurais MLP e
RBF foram implementadas atravs da toolbox de redes neurais do Matlab.
A utilizao de uma rede neural artificial exige a escolha de uma srie de
parmetros, que podem de alguma maneira influenciar diretamente os resultados da
rede. Infelizmente no existe um mtodo que determine de forma direta quais so os
melhores parmetros para cada tipo de aplicao. Na maioria das vezes a busca por
estes parmetros pode ser demorada.
Dentre os parmetros de uma rede neural, um dos mais significativos a
quantidade de neurnios da camada escondida. Neste sentido neste trabalho optou-se
65

pela modelagem de diferentes redes variando este parmetro de forma a verificar qual a
influncia do mesmo na taxa de acertos de cada rede neural modelada.
Dentro deste contexto os modelos de redes (MLP e RBF) executados no
software Matlab foram estruturados em uma camada de entrada onde a quantidade de
neurnios foi definida pela quantidade de caractersticas ou atributos definidos aps o
pr-processamento dos textos, uma camada escondida (cuja quantidade de neurnios
variou entre 5 e 40, mais precisamente foram criadas redes com 5, 10, 25, 30 e 40
neurnios) e uma camada de sada com dois neurnios para o caso do modelo de duas
classes e trs neurnios para o caso do modelo de trs classes. Estes neurnios
representam a tendncia diria do Ibovespa para um determinado dia de negociao.
Foram treinadas diferentes arquiteturas de redes MLP e RBF variando a
quantidade de neurnios da camada escondida. O treinamento para ambas as
arquiteturas foi do tipo supervisionado, onde os dados de entrada (dados textuais
processados em etapas anteriores) e suas respectivas classes que fazem parte do
conjunto de treinamento foram ento apresentados para a rede formando um par,
entrada-sada de treinamento.
Aps o treinamento das redes, o conjunto de teste utilizado para validar o
modelo. Os resultados finais obtidos assim como no Exp1 foram armazenados em uma
matriz contendo as taxas de acerto e erro para cada classe. Esta matriz foi utilizada no
prximo mdulo do programa desenvolvido responsvel pela avaliao do sistema e
apresentado na prxima seo.

5.4 Avaliao dos Sistemas


A eficincia da classificao dos modelos desenvolvidos foi avaliada atravs dos
mtodos discutidos na seo 4.3, ou seja, as seguintes mtricas: acurcia, preciso,
recall e medida F. Todas estas medidas foram implementadas no Matlab e seus clculos
foram efetuados a partir dos resultados obtidos na matriz confuso. Apesar do PA no
ter implementado as mtricas de avaliao citadas nos mdulos utilizados, a ferramenta
permite exportar os resultados em forma de tabela ou em arquivos txt, sendo assim foi
possvel avaliar os resultados gerados no PA com as mtricas sugeridas e
implementadas no Matlab. importante ressaltar que todas estas medidas de avaliao
foram estimativas a partir do mtodo de validao cruzada utilizado.
66

5.5 Estratgia de Negociao


O sistema de negociao proposta nesta dissertao implementa uma estratgia
direta e simples, atravs de um mtodo de deciso de compra e venda de aes.
importante ressaltar que o objetivo principal desta dissertao est relacionado ao
principal ndice do mercado de aes brasileiro (Ibovespa), no entanto para a estratgia
de negociao adotada aqui, optou-se pela negociao de empresas que mantm uma
alta correlao com o Ibovespa18. Estas aes muitas vezes correspondem s principais
blue-chips da bolsa brasileira, como o caso das aes das empresas Petrobrs (petr4),
Vale do Rio Doce (vale5) e Gerdau (GGBR4), entre outras. O fato de existir esta forte
correlao entre as empresas apontadas anteriormente e o Ibovespa significa que em
muitas das vezes basta o Ibovespa subir (ou cair) que as aes destas empresas
respondem similarmente. O grfico apresentado na figura 5.4 mostra a similaridade
entre o Ibovespa e o valor de fechamento das aes da Vale do Rio Doce (representada
no grfico como Vale5) no perodo de 23-02-2010 a 30-06-2011.

Vale5

Ibovespa

Figura 5.4 Grfico comparativo


Cotaes dos fechamentos dirios do Ibovespa e Vale do Rio Doce

18

Vale ressaltar que o Ibovespa tambm pode ser negociado na BmfBovespa atravs da compra

e venda de minicontratos do ndice.


67

Para as recomendaes de compras e vendas de aes foi levado em


considerao classificao final dos documentos obtida pelos classificadores no
conjunto de validao utilizado. Valores como custos de negociao de aes na
BmfBovespa no foram considerados no sistema de negociao proposto, uma vez que
a definio destes custos difcil de ser quantificada, pois os mesmos dependem de
alguns fatores como corretora envolvida, entre outros custos.

O sistema de negociao proposto envolve algumas hipteses, a saber:

1. Na abertura da BmfBovespa possvel comprar aes com o valor em torno


daquele com a qual a ao fechou o ltimo negcio realizado no dia anterior (ou
valor de fechamento da ao).

2. Suponha que o sistema prev que o ndice vai subir no dia em questo ento:
2.1

Se o preo do call de abertura19 apresentar uma variao relativa com


relao ao fechamento anterior menor que o limiar pr-definido, ento
compra-se na abertura e vende-se no fechamento.

2.2

Se o preo do call de abertura apresentar uma variao relativa acima do


limiar pr-definido ento no feito nada.

3. Suponha que o sistema prev que o ndice vai cair no dia em questo ento:
3.1

Se o preo do call de abertura apresentar uma variao relativa menor que


o limiar pr-definido, ento vende-se na abertura (sem ter ainda comprado)
e compra-se no fechamento.

3.2

Se o preo do call de abertura apresentar uma variao relativa acima do


limiar pr-definido ento nada feito.

4. Suponha que o sistema prev que nenhuma alterao vai ocorrer no ndice, ento
nenhuma compra ou venda realizada neste dia.

19

Call de abertura: perodo compreendido aos minutos que antecedem a abertura das

negociaes na BmfBovespa.
68

Em resumo, depois de cada dia todas as posies so fechadas, ou seja, nenhuma


ao armazenada em custdia. O resultado lquido ao final do dia um lucro20 ou
prejuzo financeiro dependendo do caso especfico. Outra vantagem desta estratgia
que a operao em questo identificada como uma operao de day-trade21, nas quais
as taxas de corretagem muitas vezes so menores.
Valores entre 0,1% e 1,0% foram utilizados como limiares para a realizao das
hipteses propostas acima. A ideia foi tentar encontrar um valor timo que pudesse
gerar um maior lucro possvel.

20

importante ressaltar que lucro est relacionado ao valor obtido por uma operao de venda e

compra de aes (ou seja, venda-compra) levando em considerao os custos de transao da


operao realizada. Entretanto nesta dissertao em especfico lucro est sendo considerado
como uma rentabilidade sem considerar os custos de transao.
21

Day-trade: conjuno de operaes iniciadas e encerradas em um mesmo dia de negociao

com o mesmo ativo, cuja quantidade negociada tenha sido liquidada total ou parcialmente.
69

6. Resultados e Anlises
Utilizando a metodologia proposta no captulo 5, diferentes modelos de previso
foram desenvolvidos com a finalidade de prever o ndice (Ibovespa) do mercado
acionrio brasileiro, principal objetivo deste trabalho. A partir da metodologia proposta
dois experimentos (Exp1 e Exp2) foram base para a criao destes modelos de
previso. Os resultados obtidos em ambos os experimentos foram analisados e o
desempenho dos diferentes modelos de previso desenvolvidos foi avaliado utilizando
as medidas de avaliao citadas no captulo 4. Uma estratgia de negociao tambm foi
utilizada para avaliar a lucratividade dos resultados obtidos pela metodologia proposta
nesta dissertao.

6.1 Base de Dados: Sries Temporais Financeiras e Notcias


Os dados utilizados neste trabalho foram os mesmos para ambos os
experimentos, ou seja, sries temporais contendo as cotaes do fechamento dirio do
Ibovespa e ttulos de notcias financeiras baixadas dos principais provedores de notcias
financeiras do Brasil relacionado ao perodo de fevereiro de 2010 a junho de 2011.
Primeiramente as sries temporais foram processadas, ou seja, foi feito o clculo das
variaes relativas do Ibovespa no perodo estudado cuja finalidade foi encontrar a
tendncia diria do Ibovespa. No prximo passo os valores das tendncias encontrados
foram discretizados conforme estratgias adotadas na seo 5.3.1. Um grfico contendo
as cotaes do Ibovespa juntamente com a variao relativa do mesmo no perodo
estudado pode ser visualizado na figura 6.1.

70

2
0
-2

Var. relativa (%)

-4

Ibovespa (pontos)

75000
70000
65000
60000
55000
02/06/2010

13/09/2010

23/12/2010

07/04/2011

Data (dd/mm/aaaa)

Figura 6.1 Cotaes do fechamento do Ibovespa e Variao Relativa do Ibovespa


Atravs do grfico acima possvel visualizar que a srie temporal utilizada
neste estudo (cotaes dos valores de fechamento do Ibovespa) apresentou variaes
bruscas, sem uma tendncia definida ao longo do perodo. Este ponto muito
importante, pois significa que os modelos desenvolvidos foram testados em condies
complexas.
Em relao aos dados textuais utilizados neste trabalho, a base de dados criada
para o perodo estudado consistiu de 174993 ttulos de notcias conforme citado no
captulo 5. Estes ttulos foram recuperados atravs dos principais sites de notcias
econmicas do Brasil. Uma anlise mais detalhada destas notcias demostraram que
existe uma forte sazonalidade na publicao das mesmas principalmente nos diferentes
dias da semana. Um grfico contendo as mdias dirias destas publicaes ao longo do
perodo estudado pode ser visualizado na figura 6.2.

71

500

Mdia de notcias

400

300

200

100

0
Segunda

Tera

Quarta

Quinta

Sexta

Sbado

Domingo

Dias da Semana

Figura 6.2 Grfico da mdia de notcias dirias no perodo de


fevereiro de 2010 a junho de 2011
Como era esperado, possvel visualizar no grfico 6.2 que a quantidade de
notcias publicadas nos dias teis da semana (mdia entre 400 e 500 notcias dirias)
muito superior quantidade de notcias publicadas nos finais de semana (mdia de 50 a
60 notcias). Outra observao a ser feita que o pico de publicaes de notcias ocorre
na quarta e quinta feira e comea a cair a partir de sexta feira.
A partir deste conjunto de ttulos de notcias (174993) foram definidos dois
subconjuntos (Base1 e Base2) conforme estratgias adotadas na seo 5.1.3. Estas
estratgias tiveram como base a hora de publicao da notcia. Cabe ressaltar que a
hora do dia em que a notcia publicada um fato relevante para o entendimento da
conexo entre o mercado de aes e as notcias, por isto a utilizao da mesma para a
definio das bases citadas.
As bases de dados definidas, Base1 e Base2 consistem de 53833 e 125615
ttulos de notcias respectivamente. possvel perceber que o nmero de ttulos de
notcias para as duas bases geradas caiu drasticamente se comparadas quantidade total
de notcias recuperadas na internet (179499), principalmente a Base1, onde somente
notcias publicadas at a abertura do prego da BmfBovespa foram utilizadas.

72

6.2 Experimento 1. Resultados e Anlise


Este experimento investigou a capacidade da metodologia de minerao de
textos implementada na ferramenta PA em prever a tendncia diria do ndice
(Ibovespa) do mercado acionrio brasileiro. Os dados utilizados foram as Base1 e
Base2, ambas citadas anteriormente e explicadas na seo 5.3.1 desta dissertao.
Para a realizao deste experimento foram executados dois mdulos: Linear
Classification, responsvel pelo pr-processamento dos textos e tambm pelo
treinamento do classificador e Score node responsvel pela validao do modelo gerado.
Trs parmetros foram testados e analisados na execuo do mdulo linear
classification: use stop list, binary count e algoritmo de classificao (Naive e SVM).
Logo, vrios modelos foram desenvolvidos onde estes parmetros foram modificados.
Os diferentes modelos obtidos pelo linear classification alimentaram o mdulo score
node juntamente com o conjunto de validao (utilizado para avaliar o modelo gerado e
definido em validao cruzada) e por fim os resultados finais da previso foram obtidos.
Uma anlise sobre todos os resultados obtidos para os diferentes modelos gerados e
validados so apresentados na prxima seo.

6.2.1 Resultados obtidos Experimento1


Seguindo os procedimentos descritos acima foram testados 16 modelos de
previso. Os resultados referentes a todos este modelos podem ser visualizados nas
figuras abaixo, sendo que a figura 6.1est relacionada Base1, enquanto a figura 6.2
est relacionada Base2.

Figura 6.3 Acurcia dos classificadores para Base1


73

Figura 6.4 Acurcia dos classificadores para Base2


Nos grficos das figuras acima, NaiveF e SVMF se referem a acurcia dos
modelos gerados utilizando os algoritmo de classificao Naive e SVM respectivamente
e a representao por frequncia do documento para ambos os classificadores. J
NaiveB e SVMB esto relacionados acurcia dos modelos gerados utilizando os
mesmos algoritmos (Naive e SVM) porm com a representao booleana.
Analisando os grficos anteriores possvel constatar alguns pontos relevantes
que so discutidos a seguir. Todas estas concluses parciais esto baseadas em
correlaes gerais entre os resultados obtidos (avaliada atravs da acurcia) e os
diferentes parmetros utilizados no Exp1.
Os modelos de apenas duas classes apresentaram os melhores resultados tanto
para a Base1 quanto para Base2. Esta concluso pode parecer lgica dado que na
classificao das bases de dados em apenas duas classes, aumentou-se o nmero
de registro por classes e consequentemente os algoritmos de classificao
conseguiram capturar melhor as estruturas inerentes nas amostras dos
documentos pr-classificados.
Em relao s duas bases de dados utilizadas (Base1 e Base2) foi possvel
constatar que os melhores resultados foram obtidos com a Base2. O fato desta
base de dados apresentar um nmero maior de notcias (125647) pode ter
contribudo para a obteno destes resultados.
Em relao representao do documento, os melhores resultados foram obtidos
com a representao por frequncia. Este resultado j era esperado, uma vez que
as bases de dados utilizados apresentaram uma alta frequncia de palavras chave
por documentos e a representao booleana mais adequada apenas para textos
74

onde a frequncia da maioria das palavras chave extremamente baixa por


documento, pois fornece pesos iguais a todas as palavras chave independente da
frequncia. (Poly Analyst, 2007).
O algoritmo de classificao com maior acurcia para ambas as bases de dados
(53,41% para a Base1 e 59,05% para a Base2) foi o SVM. Conforme citado em
(Poly Analyst, 2007), o SVM realmente um algoritmo mais preciso, o que
justifica estes resultados, entretanto cabe ressaltar que apesar da simplicidade do
Naive, os resultados obtidos pelo mesmo (51,34% para a Base1 e 54,30% para a
Base2) no foram to inferiores do que os resultados obtidos pelo SVM,
principalmente se for levado em conta o tempo de execuo do algoritmo onde o
mesmo foi muito mais rpido do que o SVM.

Os resultados obtidos pelo classificador podem ser representados em uma


estrutura conhecida como matriz confuso e a mesma pode ser utilizada para avaliar o
desempenho do classificador conforme citado no captulo 4. Sendo assim a matriz
confuso relacionada ao modelo que obteve a melhor acurcia no Exp1 (Base2, modelo
de duas classes, algoritmo SVM e representao por frequncia) apresentada na tabela
abaixo.

Prevista
Classes

Positiva

Negativa

Positiva

TP = 120

FN = 59

Negativa

FP = 79

TN = 79

Real
Tabela 6.1 - Resultado modelo de previso para Base2

6.2.2 Anlise e avaliao do Modelo no Exp1


Nesta seo foi avaliado o resultado apresentado na tabela 6.1 acima que est
relacionado ao modelo de maior acurcia no Exp1. Os seguintes critrios de avaliao
foram utilizados para esta finalidade: acurcia, preciso, recall e medida F.
De acordo com a matriz confuso (tabela 6.1) dentre os 337 documentos
utilizados, 179 documentos pertencem classe positiva e 158 pertencem classe
negativa. Dos 179 documentos classificados como positivo, o modelo previu 120 deles
75

corretamente como positivo e os demais 59 incorretamente classificados como negativo.


Por outro lado dos 158 documentos classificados como negativo, 79 deles foram
classificados corretamente como negativos e a mesma quantidade (79) classificados
incorretamente como positivos. A partir destes valores foram calculados a acurcia total
do modelo, recall para a classe positiva (true positive rate), recall para a classe negativa
(true negative rate), preciso para classe positiva, preciso para a classe negativa e a
medida F.
Acurcia

(120+79) / 337 = 59,05%

Recall (Positivo)

120/179 = 67,03%

Recall (Negativo)

79/158 = 50%

Preciso (Positivo)

120/199 = 60,30%

Preciso (Negativo)

79/148 = 53,37%

Medida F (Positivo)

(2*67,03*60,30)/67,03+60,30 = 63,48%

Medida F (Negativo)

(2*50*53,37)/53,37+50 = 51,63%

Tabela 6.2 - Medidas de Avaliao no Exp1


Atravs da acurcia do modelo de previso possvel determinar que o modelo
acertou corretamente 59,05% das tendncias positivas e negativas. Analisando o recall
para classe positiva (67,03%) e negativa (50%) possvel verificar que o modelo prev
melhor a tendncia positiva do que a tendncia negativa, uma diferena de 17,03%. O
mesmo acontece com a preciso, ou seja, a preciso para tendncia positiva melhor do
que a preciso para tendncia negativa. Isto que dizer que do nmero total de tendncias
positivas encontradas pelo modelo (120 de 199) a maioria delas realmente so positivas.
J entre o nmero total de tendncias negativas encontradas pelo modelo apenas a
metade delas foram realmente classificadas como negativas.
As medidas de desempenho (preciso e recall) podem ser enganosas quando
examinadas separadamente. Uma preciso elevada geralmente significa sacrificar o
recall e vice e versa. Sendo assim optou-se por utilizar tambm outro critrio de
avaliao que foi a medida F, que combina preciso e recall.
Conforme mencionado acima o recall para a classe positiva foi maior que o
recall para a classe negativa, assim como a preciso que tambm apresentou um valor
mais alto para a classe positiva. Ao examinar a medida F para a classe positiva
76

(63,48%) e para a classe negativa (51,63%) possvel afirmar com certeza que a
capacidade do modelo em prever a classe positiva muito melhor do que a classe
negativa.

6.3 Experimento 2. Resultados e Anlise


No Exp2 foram adotados novos procedimentos para alcanar os objetivos desta
dissertao. Diferentemente do Exp1 quando uma ferramenta comercial foi utilizada,
neste experimento foram desenvolvidos dois programas utilizando as linguagens de
programao Mathematica e Matlab para a finalidade citada.
Neste experimento a associao entre as notcias e as tendncias do Ibovespa foi
construda a partir de dois modelos de Redes Neurais Artificiais, as redes MLP e redes
RBF, ambas introduzidas no captulo 4.
A utilizao de uma rede neural artificial exige a escolha de uma srie de
parmetros, que influenciam diretamente no resultado da rede. Para alcanar o objetivo
desta dissertao foram implementadas no software Matlab vrios modelos de redes
MLP e RBF com diferentes configuraes, buscando sempre um modelo com um
resultado considerado como satisfatrio. Conforme citado no captulo 5 estes modelos
foram estruturados da seguinte forma: uma camada de entrada onde a quantidade de
neurnios foi definida pela quantidade de caractersticas ou atributos definidos aps o
pr-processamento dos textos, ou seja, modelos com 90 e 55 neurnios ( importante
destacar aqui que o valor assumido por estes atributos foram definidos por trs medidas
estatsticas diferentes TF, TF-IDF e TF-CDF, sendo assim cada configurao foi testada
com cada uma destas medidas); uma camada escondida onde a quantidade de neurnios
assumiu os valores 5, 10, 25, 30 e 40 e uma camada de sada (representando a tendncia
diria do Ibovespa em um dia de negociao da BmfBovespa) com dois neurnios para
os modelos de duas classes e trs neurnios para os modelos de trs classes.

6.3.1 Resultados obtidos Experimento2


Foram simuladas e testadas diferentes redes seguindo os procedimentos
descritos anteriormente. De todas estas simulaes com as diferentes configuraes de
RNAs utilizadas, aquelas que apresentaram o melhor desempenho juntamente com seus
parmetros (apenas os parmetros que foram variados) so apresentadas na prxima
77

seo. importante destacar que diferentemente do Exp1 onde todos os resultados


gerados foram apresentados, para o Exp2 devido a grande quantidade de modelos
gerados, apenas aqueles com melhor desempenho so apresentados nas figuras 6.5
(relacionada s redes MLP) e 6.6 (relacionada s redes RBF).

62
TF
TF-IDF
TF-CDF

Acurcia (%)

61
60
59
58
57
56

69

55

67
66

Acurcia (%)

68

65
0

10

20

30

40

Neurnios

Figura 6.5 Resultados redes MLP para modelo de duas classes. Grfico superior est
relacionado Base1, enquanto grfico inferior est relacionado Base2

A figura 6.5 apresenta dois grficos plotados sobre o mesmo eixo de parmetros.
Ambos mostram a mtrica de desempenho (acurcia) em funo da quantidade de
neurnios escondidos. As configuraes dos modelos plotados nos grficos foram a
seguinte: grfico superior (redes MLP; quantidade de neurnios variando entre 5 e 40;
base de dados utilizadas foi a Base1; mtricas estatsticas para atribuio de pesos foram
a TF, TF-IDF e TF-CDF e por fim a quantidade de classes que foram duas) e o grfico
inferior a mesma configurao com exceo da base de dados que est relacionada
Base2.

78

Acurcia (%)

67
TF
TF-IDF
TF-CDF

66
65
64
63

68

66
65
64

Acurcia (%)

67

63
0

10

20

30

40

Neurnios

Figura 6.6 Resultados redes RBF para modelo de duas classes. O grfico superior est
relacionado Base1, enquanto grfico inferior se refere Base2

No grfico 6.6 tm-se as mesmas caractersticas citadas para o grfico 6.5,


porm com uma modificao no tipo de rede, ou seja, neste grfico os resultados esto
relacionados s redes RBF.
Analisando os resultados obtidos com todas as possveis configuraes de rede
proposta neste trabalho e tambm os grficos anteriores possvel constatar alguns
pontos relevantes neste experimento e os mesmos so discutidos a seguir. Cabe ressaltar
que todas estas concluses parciais esto baseadas em correlaes gerais entre os
resultados obtidos (avaliada atravs da acurcia) e os diferentes parmetros utilizados na
modelagem das RNAs.
O primeiro ponto a ser destacado que analisando os grficos acima no
possvel verificar uma correlao entre os melhores resultados obtidos e a
quantidade de neurnios, ou seja, o fato de aumentar a quantidade de neurnios
da camada escondida no necessariamente significa em melhorar a acurcia do
modelo.

79

Quanto s medidas utilizadas para a atribuio de pesos s palavras chave ou


atributos (TF, TF-IDF, TF-CDF) os resultados foram os seguintes: em relao ao
modelo de rede MLP e ambas as bases de dados utilizadas (Base1 e Base2) os
melhores resultados foram obtidos com a TF-IDF (Base1 = 60,83% com 10
neurnios na camada escondida e Base2 = 68,55% com 40 neurnios na camada
escondida). J em relao ao modelo de rede RBF e ambas as bases de dados
utilizadas (Base1 e Base2) os melhores resultados foram obtidos com medidas
diferentes para cada base de dados, ou seja, para RBF e Base1 foi a medida TF
(66,17% com 40 neurnios) e para RBF e Base2 foi a medida TF-CDF (67,36%
com 10 neurnios). Sendo assim no possvel definir exatamente qual medida
de atribuio de pesos melhor para todas as possveis configuraes
analisadas, entretanto cabe ressaltar que assim como Sebastiani (1999), que
mostrou que a TF pode ser muito eficiente, analisando os resultados obtidos
aqui, podemos afirmar que apesar de sua simplicidade a TF apresentou bons
resultados principalmente na comparao da mesma com a medida TF-IDF.
Em relao aos modelos de redes MLP e RBF possvel afirmar que nenhum
dos dois modelos conseguiu obter os melhores resultados para ambas as bases de
dados utilizadas (Base1 e Base2), ou seja, em relao a Base1 o melhor
resultado foi obtido com a rede RBF (66,17%), enquanto que para a Base2 o
melhor resultado foi obtido com a rede MLP (68,55%).
Em relao s bases de textos utilizadas (Base1 e Base2) foi possvel verificar
que a Base2 obteve resultados bem parecidos para ambas s arquiteturas de rede
(MLP e RBF), ou seja, todos os resultados ficaram acima de 64%. J em relao
a Base1 somente os modelos RBF conseguiram resultados iguais ou superiores a
64%.
Quanto quantidade de classes utilizadas nos modelos gerados foi possvel
verificar que assim como no Exp1 os melhores resultados foram obtidos com
duas classes. importante destacar que os resultados obtidos com trs classes
variaram entre 40 e 50% para todas as possveis configuraes utilizadas neste
trabalho. Por isto os mesmos no foram apresentados nesta seo.
Em relao ao pr-processamento dos documentos, optou-se tambm pela
utilizao ou no de um dicionrio conforme citado na seo 5.3.2. Pode-se
afirmar que para modelos que fizeram utilizao do dicionrio no pr80

processamento os resultados obtidos foram inferiores quando comparados aos


modelos que no fizeram uso deste dicionrio. Acredita-se que este resultado
ruim se deu devido ao fato de que mesmo que os termos utilizados tenham sido
substitudos por seus sinnimos correspondentes e tambm dentro do contexto
de mercado acionrio, os mesmos podem ter um peso diferente, ou seja,
tomando como exemplo as frases Bolsa de Tquio subiu e Bolsa de Tquio
disparou podemos afirmar nas duas frases que a Bolsa de Tquio subiu,
entretanto o fato da Bolsa de Tquio ter disparado pode ter mais relevncia do
que dizer simplesmente que a bolsa subiu. Sendo assim possvel concluir que
mesmo que estas sentenas signifiquem a mesma informao, uma pode ter um
peso maior que a outra.

Por fim, assim como no Exp1 o resultado obtido pelo modelo que apresentou a
maior acurcia foi representado por uma matriz confuso. Vale ressaltar que a maior
acurcia obtida foi com o modelo de redes MLP, Base2, 40 neurnios na camada
escondida e medida TF-IDF (acurcia de 68,55%), entretanto optou-se por considerar
como melhor resultado aquele obtido pelo modelo de rede RBF, Base1, 40 neurnios na
camada escondida e medida TF (acurcia de 66,17%). A escolha por este modelo se deu
devido a duas hipteses:
1. Os melhores resultados obtidos tanto para Base1 (66,17%), quanto para Base2
(68,55%) foram bem semelhantes.
2. O fato da Base1 ser constituda de notcias agrupadas e divulgadas antes do
horrio de abertura da BmfBovespa pode ser considerado uma vantagem, ou
seja, na abertura do prego j se sabe qual ser a tendncia de fechamento do
Ibovespa com uma acurcia de 66,17%. Considera-se ento que esta informao
muito mais valiosa do que ter-se um modelo com uma acurcia de 68,55%
apenas s 16 horas (lembrando que a Base2 composta de notcias agrupadas
at s 16 horas, ou seja, apenas h uma hora antes do fechamento da
BmfBovespa).
Logo a matriz confuso apresentada a seguir est relacionado ao modelo de seguinte
configurao: rede RBF, Base1, 40 neurnios na camada escondida e medida TF. Uma
anlise mais detalhada da matriz confuso citada apresentada na prxima seo.

81

Prevista
Classes

Positiva

Negativa

Positiva

TP = 140

FN = 39

Negativa

FP = 75

TN = 83

Real
Tabela 6.3 - Resultado modelo de previso para Base1

6.3.2 Anlise e avaliao do Modelo no Exp2


Nesta seo avalia-se o resultado apresentado na tabela 6.3 acima utilizando-se
as mesmas medidas citadas na avaliao do Exp1, ou seja, acurcia, preciso, recall e
medida F.
Como no Exp1 dentre os 337 documentos utilizados 179 deles pertencem
classe positiva e 158 a classe negativa. Dos 179 documentos pertencentes classe
positiva, o modelo previu 140 deles corretamente como positivo e os demais 39
incorretamente classificados como negativo. Dentre os 158 documentos pertencentes
classe negativa, 83 deles foram classificados corretamente como negativos e 75
classificados incorretamente como positivos. A partir destes valores foram calculados a
acurcia total do modelo, recall para a classe positiva (true positive rate), recall para a
classe negativa (true negative rate), preciso para classe positiva, preciso para a classe
negativa e a medida F.

Acurcia

(140+83) / 337 = 66,17%

Recall (Positivo)

140/179 = 78,21%

Recall (Negativo)

83/158 = 52,53%

Preciso (Positivo)

140/215 = 65,11%

Preciso (Negativo)

83/122 = 68,03%

Medida F (Positivo)

(2*78,21*65,11)/65,11+78,21 = 71,06%

Medida F (Negativo)

(2*52,53*68,03)/68,03+52,53 = 59,28%

Tabela 6.4 - Medidas de Avaliao no Exp2

Atravs da acurcia do modelo de previso possvel determinar que o modelo


acertou corretamente 66,17% das tendncias positivas e negativas. Analisando o recall
82

para classe positiva (78,21%) e negativa (52,53%) possvel verificar que o modelo
prev muito melhor a tendncia positiva do que a tendncia negativa, uma diferena de
25,68%. Por outro lado, analisando os valores da preciso possvel verificar que
inversamente ao recall, a preciso para a classe negativa melhor do que a preciso
para a classe positiva.
Assim como no Exp1 a medida F (medidas da preciso e recall combinadas)
tambm foi utilizada para avaliar o modelo. Como citado anteriormente o recall e a
preciso apresentaram medidas inversas, sendo assim a deciso sobre qual categoria
melhor predita pelo modelo uma deciso difcil. Entretanto analisando a medida F
para a classe positiva (71,06%) e para a classe negativa (59,28%) possvel determinar
com certeza que a capacidade do modelo em prever a classe positiva muito melhor
que a capacidade de prever a classe negativa.

6.4 Comparao entre os resultados


Nesta seo sero consideradas duas comparaes diferentes, ou seja,
primeiramente apresentada uma comparao entre os resultados obtidos nos dois
experimentos propostos nesta dissertao (Exp1 e Exp2). E em seguida outra
comparao apresentada, porm entre os resultados obtidos nesta dissertao
(resultado de maior acurcia) e os resultados obtidos por (Faria et al., 2009), onde o
mesmo indicador foi previsto atravs de tcnicas de redes neurais artificiais e
alisamento exponencial adaptativo.

6.4.1 Comparao entre os resultados do Exp1 e Exp2


Conforme citado anteriormente para prever a tendncia diria do Ibovespa neste
trabalho foram executados dois experimentos denominados neste trabalho de Exp1 e
Exp2. Dentro do contexto da metodologia proposta, a principal diferena entre estes
dois experimentos foi a etapa de pr-processamento dos documentos e a etapa de
classificao de notcias.
Analisando os resultados obtidos nos dois experimentos citados (tabela 6.5) e
analisando as tarefas executadas nas duas etapas que diferenciaram um experimento do
outro possvel destacar alguns pontos relevantes:
83

O primeiro ponto a ser destacado que os resultados obtidos no Exp1 (maior


acurcia = 59,03%) foram inferiores aos resultados obtidos no Exp2 (maior
acurcia considerada = 66,17%).
Em relao ao pr-processamento dos documentos, o Exp1 tem uma vantagem
em relao ao Exp2, pois como a ferramenta utilizada faz uso de medidas
estatsticas para a seleo de caractersticas, a utilizao de um especialista para
fornecer as palavras chaves no se faz necessrio. Entretanto acredita-se que a
qualidade das palavras chaves obtidas pela ferramenta no representaram to
bem os documentos e que a inferioridade nos resultados pode ser consequncia
disto.
Quanto aos algoritmos de classificao utilizados, no possvel fazer uma
comparao direta entre os resultados obtidos pelos mesmos, dado que cada
algoritmo tem a sua metodologia, entretanto possvel destacar dois pontos
fundamentais. O primeiro que o algoritmo SVM composto de vrios
parmetros que podem de alguma maneira influenciar os seus resultados como a
constante de regularizao, tipo de kernel (polinomial ou gaussiano), grau do
polinmio (dependente da escolha do kernel polinomial), entre outros, portanto
o mdulo responsvel pela classificao dos textos no Exp1 no permite a
variao destes parmetros, por isto nenhum configurao diferente da proposta
pela ferramenta (configurao default) foi utilizada. J em relao s redes
neurais utilizadas no Exp2, pode-se afirmar que as mesmas tambm fazem uso
de uma srie de parmetros que de alguma maneira pode influenciar os
resultados dos modelos gerados, sendo assim o fato de poder variar um dos seus
principais parmetros (quantidade de neurnios da camada escondida) pode ser
considerado como um fator relevante na obteno dos melhores resultados. Cabe
destacar que recentemente os sistemas de otimizao de modelos de redes
neurais artificiais determinam automaticamente qual o modelo e mtodo deve
ser utilizado para cada aplicao especfica (Trelea, 2003).

E por fim possvel destacar que analisando a tabela 6.5 referentes s medidas
preciso, recall e medida F possvel afirmar que os resultados obtidos pelo
Exp2 superaram os resultados obtidos no Exp1 em todas as medidas utilizadas, o
que confirma a superioridade da capacidade preditiva do Exp2.

84

Exp1 (%)
Exp2 (%)

Acurcia
59,05
66,17

Recall
(Pos)
67,03

Recall
(Neg)
50,00

Preciso
(Pos)
60,30

Preciso
(Neg)
53,37

Medida F
(Pos)
63,48

Medida F
(Neg)
51,63

78,21

52,53

65,11

68,03

71,06

59,28

Tabela 6.5 Comparao entre os resultados Exp1 e Exp2


Pos = Positivo e Neg = Negativo.

6.4.2 Comparao entre os resultados Exp 2 e (Faria et al., 2009)


Uma das propostas deste trabalho foi a comparao entre os resultados obtidos
nesta dissertao e os resultados obtidos em (Faria et al., 2009) onde o mesmo indicador
foi previsto atravs de tcnicas de minerao de dados.
A ideia principal foi verificar se modelos de previso (neste caso em especfico,
previso do Ibovespa) baseados em notcias financeiras e mtodos de minerao de
textos poderiam apresentar resultados superiores quando comparados a modelos de
previso baseados em minerao de dados (dados numricos, muitas das vezes sries
temporais de indicadores tcnicos), como o caso do modelo proposto por (Faria et al.,
2009) utilizados nesta comparao.
Analisando a acurcia dos dois modelos citados, ou seja, (Faria et al., 2009) com
acurcia de 60% e modelo proposto nesta dissertao com acurcia de 66,17% foi
possvel constatar que a utilizao de informao textual (notcias macroeconmicas)
em modelos de previso do indicador da Bolsa de Valores de So Paulo melhora a
performance dos modelos e consequentemente melhora a acurcia das previses.
Entretanto importante ressaltar alguns pontos relevantes desta comparao:
A previso em ambos os trabalhos foram realizadas de forma diferentes, ou seja,
no trabalho dos autores (Faria et al., 2009) uma janela do tempo (t-1) com
cotaes dirias do fechamento do Ibovespa foram utilizadas para prever a
tendncia do fechamento do Ibovespa no dia t (dia seguinte). Nesta dissertao
ttulos de notcias dirios foram utilizadas para prever a tendncia diria do
Ibovespa no mesmo dia em que os mesmos foram publicados.
Os perodos analisados nos dois trabalhos foram diferentes (setembro de 1998
at abril de 2007) no trabalho dos autores (Faria et al, 2009) e (fevereiro de 2010
a junho de 2011) nesta dissertao. Apesar desta diferena, pode-se afirmar que
ambos os perodos apresentarem uma alta volatilidade.
85

Por fim conclui-se que levando em considerao as observaes citadas


anteriormente possvel afirmar que a utilizao de notcias macroeconmicas como
entradas para modelos de previso do indicador da Bolsa de Valores de So Paulo pode
apresentar resultados superiores, quando comparados a modelos onde somente dados
numricos so utilizados.

6.5 Resultados. Estratgia de Negociao


Conforme citado no captulo anterior uma estratgia de compra e venda de aes
da Vale do Rio Doce (Vale5) foi proposta nesta dissertao. A ideia foi verificar a
lucratividade do modelo de maior performance obtido nos experimentos executados, ou
seja, modelo realizado no Exp2 analisado na seo 6.3.2, cuja acurcia foi igual a
66,17%.
Algumas hipteses foram levadas em considerao nas estratgias adotadas e
diferentes limiares foram testados conforme citado na seo 5.5. Os resultados
referentes a todos estes testes podem ser visualizados no grfico abaixo, assim como
uma anlise dos mesmos.

15.00

Lucro acumulado por ao

13.50
12.00
10.50
9.00
7.50
6.00
4.50
3.00
1.50
0.00
0.0

0.2

0.4

0.6

0.8

Limiar

Figura 6.7 Lucro acumulado por ao

86

1.0

O grfico acima apresenta o lucro (venda compra) acumulativo por ao


(individual) da Vale do Rio Doce para diferentes limiares testados. possvel constatar
que no existe uma correlao entre a lucratividade do sistema analisado e os diferentes
limiares, ou seja, conforme aumenta o limiar no necessariamente aumenta a
lucratividade do sistema. De fato o maior lucro foi obtido com o limiar igual a 0,1%
(R$12,94).
Outro ponto a ser destacado que o nmero de operaes realizadas
(considerando os resultados obtidos com o limiar de maior lucratividade (0,1%)) foi um
nmero bem reduzido (100 operaes de compras e vendas em 337 dias de negociao),
conforme pode ser observado na figura 6.8. Este um fato relevante, pois significa que
a estratgia adotada foi bem criteriosa em escolher o momento certo de entrar e sair do
mercado.

2.5

lucro por dia de negociao

2.0
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
10/02/2010

26/05/2010

08/09/2010

22/12/2010

06/04/2011

20/07/2011

Data (dd/mm/aaaa)

Figura 6.8 Lucro por dia de negociao

Pode-se considerar que resultado obtido (limiar 0,1% e lucro R$12,94) por ao
negociada um resultado satisfatrio, pois compreende a um retorno mdio de 33%.
De fato ao comparar os resultados obtidos com a estratgia Buy and hold
(compra de aes a longo prazo) possvel verificar a eficincia do sistema adotado,
pois para o perodo analisado, o investidor buy and hold comprou a ao da Vale na
abertura do primeiro dia de negociao (23-02-2010) por um valor de R$39,42 e vendeu
no fechamento do ultimo dia do perodo analisado (30-06-2011) pelo valor de R$41,45,
87

o que equivale a um retorno de aproximadamente 5%, retorno bem menor que o obtido
pelo sistema adotado nesta dissertao.
Por fim importante ressaltar que mesmo com uma acurcia de 66,17% (modelo
analisado na estratgia de negociao) foi possvel obter um lucro acumulativo
satisfatrio e maior que o lucro obtido com a estratgia Buy and Hold. Isto demonstra
que o sistema de previso desenvolvido conseguiu capturar o movimento das aes da
Vale nos dias de maior volatilidade do mercado.

88

7. Concluses e Trabalhos Futuros


Neste captulo uma breve discusso sobre os principais aspectos desta
dissertao so apresentados, assim como as principais concluses e as limitaes
associadas implementao do mesmo. Ao final do captulo, recomendaes para
trabalhos futuros so apresentados.

7.1 Viso Geral do Trabalho


Estudos envolvendo os vrios mercados financeiros mundiais vm crescendo
muito nos ltimos anos e atualmente nfase tem sido dada a utilizao de notcias
financeiras como entrada para modelos de previso destes mercados. amplamente
conhecido que notcias podem desempenhar um papel fundamental nos mercados
financeiros, entretanto transformar todas estas notcias em conhecimento e em tempo
hbil para ajudar os investidores na sua tomada de deciso ainda um grande desafio
para a comunidade cientfica.
Dentro deste contexto o objetivo central desta dissertao foi prever a tendncia
diria do principal indicador da Bolsa de Valores de So Paulo (Ibovespa) atravs da
utilizao de notcias macroeconmicas e tcnicas de minerao de textos. Este objetivo
faz parte de uma corrente de trabalhos (muitos deles revisados nesta dissertao) que
visam introduo da metodologia de minerao de textos no estudo dos principais
mercados financeiros mundiais.
A metodologia proposta para alcanar os objetivos desta dissertao consistiu de
cinco passos (coleta de dados, pr-processamento, classificao das notcias, avaliao
dos modelos e estratgia de negociao) que foram implantados atravs de dois
experimentos (Exp1 e Exp2) diferentes. Cada experimento teve seus prprios
parmetros, configuraes, enfim suas prprias caractersticas, mas a principal diferena
entre os mesmos foi a etapa de pr-processamento, onde no Exp1 foi utilizada uma
abordagem estatstica para a seleo de palavras chave dos modelos, enquanto no Exp2
as palavras chave relevantes do modelo foram fornecidas por um especialista da rea do
mercado financeiro. Em ambos os experimentos dois algoritmos de classificao
diferentes foram utilizados para tentar capturar as relaes entre a tendncia do
89

Ibovespa e as notcias utilizadas. Em um passo seguinte diferentes mtricas de avaliao


foram utilizadas para avaliar os modelos desenvolvidos e por fim uma estratgia de
negociao foi proposta para avaliar o modelo de maior acurcia.

7.2 Concluses gerais


As concluses apresentadas a seguir esto relacionadas aos resultados obtidos
em ambos os experimentos (Exp1 e Exp2) definidos no captulo 5 e cujos resultados
foram analisados no captulo 6.
Em relao aos parmetros comuns aos experimentos Exp1 e Exp2 foi possvel
concluir que:
A classificao com modelo de apenas duas classes obteve maior acurcia do
que os modelos classificados com trs classes.
Base de dados com notcias agrupadas at s 16 horas (Base2) apresentou
melhor resultado no Exp1, entretanto para o Exp2 os melhores resultados
obtidos para ambas as bases de dados utilizadas (Base1 com notcias agrupadas
at s 10 horas e Base2) foram bem semelhantes.

Em relao apenas ao Exp1 podem ser consideradas as seguintes concluses:


Utilizando os mdulos responsveis pela atividade de minerao de textos
implementados na ferramenta comercial Poly Analyst possvel prever o
comportamento da tendncia diria do Ibovespa com uma acurcia de 59,05%.
A representao por frequncia do documento mais eficiente que a
representao booleana.
O algoritmo de classificao com maior acurcia para ambas as bases de dados
(53,41% para a Base1 e 59,05% para a Base2) foi o SVM.
As mtricas de avalio utilizadas para avaliar os modelos gerados mostraram
que o modelo de maior acurcia possui uma capacidade muito melhor em prever
a tendncia positiva do que a tendncia negativa.

J em relao ao Exp2 as seguintes concluses podem ser definidas:

90

No foi possvel verificar uma correlao entre os melhores resultados obtidos e


a quantidade de neurnios das redes neurais simuladas.
Nenhuma medida de atribuio de pesos (TF, TF-IDF, TF-CDF) foi eficiente em
todas as possveis configuraes de rede analisadas, ou seja, para o modelo de
rede MLP e ambas as bases de dados utilizadas (Base1 e Base2) os melhores
resultados foram obtidos com a TF-IDF (Base1 = 60,83% e Base2 = 68,55%). J
em relao ao modelo de rede RBF e ambas as bases de dados utilizadas (Base1
e Base2) os melhores resultados foram obtidos com medidas diferentes para
cada base de dados, ou seja, para RBF e Base1 foi a medida TF (66,17%) e para
RBF e Base2 foi a medida TF-CDF (67,36%).
Entre os modelos de redes utilizados (MLP e RBF) possvel concluir que
nenhum dos dois modelos conseguiu obter os melhores resultados para ambas as
bases de dados utilizadas (Base1 e Base2), ou seja, em relao a Base1 o melhor
resultado foi obtido com a rede RBF (66,17%), enquanto que para a Base2 o
melhor resultado foi obtido com a rede MLP (68,55%).
A utilizao do dicionrio de sinnimos criado para este experimento no
reportou ter alguma eficincia, uma vez que os resultados com a utilizao do
mesmo foram inferiores quando comparados aos modelos que no fizeram uso
do mesmo.
Assim como no Exp1, modelo de maior acurcia possui uma capacidade muito
melhor em prever a tendncia positiva do que a tendncia negativa.

Analisando os resultados de uma maneira geral, ou seja, dentro do ponto de vista


dos dois experimentos realizados foi possvel concluir que os modelos construdos no
Exp2 foram muito mais eficientes, de fato o melhor resultado final foi obtido neste
experimento (maior acurcia considerada = 66,17%, capacidade para prever a classe
positiva = 71,06% e capacidade para prever a classe negativa 59,28%).
Por fim possvel concluir tambm que os resultados obtidos contradizem a
hiptese do mercado eficiente e sugestiona que atravs da metodologia proposta nesta
dissertao possvel prever o comportamento futuro do mercado de aes com uma
rentabilidade considerada.

91

7.3 Limitaes e problemas do trabalho


A maior limitao deste trabalho est relacionada ao escopo de notcias restrito
apenas a publicaes recentes dos principais jornais econmicos do Brasil, ou seja, os
principais sites brasileiros de notcias econmicas no disponibilizam em seus sites
arquivos de notcias passadas. Isto no acontece quando se est trabalhando com
minerao de dados, pois a prpria BmfBovespa disponibiliza sries temporais das
cotaes de vrios ativos de mais de 10 anos atrs.
A utilizao de uma ferramenta comercial ajuda a otimizar o tempo de
desenvolvimentos dos modelos, pois todos os mtodos necessrios j esto
implementado na ferramenta, entretanto em se tratando da ferramenta utilizada neste
trabalho (Poly Analyst) a falta de uma documentao mais detalhada sobre a
implementao dos diferentes mtodos foi um ponto negativo. Outra limitao a ser
destacada tambm a falta de opo nos mtodos utilizados para o pr-processamento
dos textos nos mdulos relacionados classificao de textos.
E por fim vale destacar que aplicaes envolvendo a utilizao de RNAs tm
dificuldades em se encontrar uma configurao de parmetros adequados. Apesar de
alguns parmetros terem sido testados exaustivamente nesta dissertao a falta de um
padro para definir o sucesso das RNAs sempre um agravante na obteno de bons
resultados. Por este motivo os otimizadores de redes neurais ganharam grande
popularidade em aplicaes comerciais.

7.4 Sugestes de Trabalhos Futuros


O desenvolvimento de sistemas baseados na anlise de notcias e que auxiliem o
investidor financeiro em suas tomadas de deciso est ganhando progressiva aceitao
dentro da comunidade de investimento (Mitra, 2010), portanto h muitos aspectos que
podem ser investigados. No que diz respeito aos diferentes modelos propostos nesta
dissertao h muitos problemas que podem ser considerados e investigados em
trabalhos futuros.
Uma das questes mais importantes est relacionada aos dados textuais
utilizados nesta dissertao (ttulos de notcias financeiras). O trabalho proposto
confirmou que possvel prever o indicador relacionado Bolsa de valores de So
Paulo com uma acurcia de 66,17% utilizando apenas os ttulos das notcias publicados
92

nos principais jornais de economia do Brasil. Neste sentido um ponto que ficou em
aberto saber se a utilizao do ttulo da notcia juntamente com o contedo da mesma
poderia melhorar a eficincia das classificaes e consequentemente a lucratividade dos
modelos. Sendo assim este ponto o primeiro passo a ser considerado para aprimorar
nossos resultados.
Um segundo ponto a ser considerado em trabalhos futuros a utilizao de um
algoritmo de segmentao para extrair as tendncias das sries temporais, pois esta
estratgia poderia diminuir o rudo presente nas sries, tornando os resultados com a
utilizao das mesmas mais eficientes.
Outra questo muito discutida ao longo desta dissertao foi qual seria o tempo
que o mercado leva para reagir ao contedo de uma determinada notcia? Dentro deste
contexto, uma abordagem onde diferentes janelas de tempos poderiam ser analisadas ao
longo do dia pode ser til e eficiente. Por exemplo, poderia-se trabalhar apenas com
notcias publicadas em um determinado perodo do dia (uma, duas ou trs horas) e fazer
uma previso intraday analisando diferentes perodos de publicao de notcias.
Em resumo muitos aspectos podem ser agregados ao mtodo proposto, mas os
resultados obtidos so encorajadores e apontam para novas investigaes.

93

REFERNCIAS BIBLIOGRFICAS
APTE, C., DAMERAU, R., WEISS, S., M., Automated Learning of Decision Rules for Text
Categorization. Journal ACM Transactions on Information Systems, v. 12, Issue 3, pp.
233-251, New York (NY), USA. Jul 1994.

BAKER, L., D., MCCALLUM, M., K., Distributional clustering of words for text
categorization, In: Proceedings of SIGIR-98 21st ACM International Conference on
Research and Development in Information Retrieval, pp. 96-103, Melbourne, Australia,
1998.

BASTOS, V., M., Ambiente de Descoberta de Conhecimento na Web para a Lngua


Portuguesa. Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil. 2006.

BMF. Bolsa de Valores de So Paulo e da Bolsa de Mercadorias e Futuros, 2012. Disponvel


em: http://www.bovespa.com.br. Acesso em: 20 jan. 2012.

BOULIS, C., OSTENDORF, M., Text Classification by Augmenting the Bag-of-Words


Representation with Redundancy Compensated Bi-grams. In: Proceedings of the
International Workshop in Feature Selection in Data Mining, pp. 9-16, 2005.

BRAGA, A., P., CARVALHO, A., C., P., L., LUDEMIR, T., B., Redes neurais artificiais:
teoria e aplicaes. Rio de Janeiro: LTC, 2000.

CAI, J., SONG, F., Maximum Entropy Modeling with Feature Selection for Text
Categorization, Conference of 4th Asia Information Retrieval Symposium (AIRS). LNCS,
vol. 4993, pp. 549-554, Harbin, China, Jan. 2008.

CASTRO, F., C., C., Reconhecimento e localizao de padres em Imagens utilizando


Redes Neurais Artificiais como Estimador de Correlao Espectral. Dissertao de M.Sc.,
PUCRS, Rio Grande do Sul, RS, Brasil. 1995.

CHEN, C.H., Neural networks for financial market prediction. In: Proceedings of the IEEE
International Conference on Neural Networks, v. 2, pp. 11991202, Jul, 1994.

94

CHEN, H., HSU, P., ORWIG, R., HOOPES, L., NUNAMAKER, J., F., Automatic Concept
Classification of Text from Electronics Meetings. Communications of ACM, v. 37, No. 10,
pp. 56-73, Oct. 1994.

CHOU, C., H., SINHA, A., P., ZHAO, H., A Hybrid Attribute Selection Approach for Text
Categorization, Journal of the Association for Information Systems (JAIS), v. 11, Issue 9,
pp. 491-518, Sep, 2010.

CHURCH, K., HANKS, P., Word association norms, mutual information and lexicography.
Journal Computational Linguistics, v. 16, No. 1, pp. 22-29, Mar, 1990.

DEBOLE, F., SEBASTIANI, F., Supervised Term Weighting for Automated Text
Categorization. In: Proceedings of the 18th ACM Symposium on Applied Computing
(SAC), pp. 784-788, New York (NY), 2003.

DOAN, S., HORIGUCHI, S., An efficient selection using multi-criteria in text categorization.
In: Proceedings of the 4th International Conference on Hybrid Intelligent Systems (HIS),
pp. 86-91, Washington, DC, IEEE Computer Society, 2004.

DUMAIS, S., PLATT, J., HECKERMAN, D., SAHAMI, M., Inductive Learning Algorithms
and Representations for Text Categorization. In: Proceedings of 7th ACM International
Conference of Information and Knowledge Management (CIKM), pp. 148-155, New York
(NY), Nov.1998.

DUNNING, T., Accurate Methods for the Statistics of Surprise and Coincidence, Journal
Computational Linguistics, v. 19, No.1, pp. 61-74, Mar, 1993.

DZIELINSKI, M., RIEGER, M., O., TALPSEPP, T., Volatility, asymmetry, news and private
investors. In: Gautan Mitra & Leela Mitra (eds.) The Handbook of News Analytics for
finance, Chaper 10, New York, USA, John Wiley & Songs, 2010.

EBECKEN, N. F. F., LOPES, M. C. S., COSTA, M. C. A., Minerao de textos. In: Sistemas
Inteligentes: Fundamentos e Aplicaes, 1 ed. , Cap. 13, Barueri, SP, Brasil, Manole, pp. 337370, 2003.
EVERITT, B., S., Cluster Analysis. 3rd ed. London: Heinemann Educational Books, 1993.
95

FAMA, E., F., Efficient Capital Markets: A Review of Theory and Empirical Work. The
Journal of Finance v. 25, n.2, pp. 383-417, May. 1970.

FAMA, E., F., The Distribution of the Daily Differences of the Logarithms of Stock Prices.
Ph.D. Universidade de Chicago. Chicago, 1964.

FARIA, E., L., ALBUQUERQUE, M., P., GONZALEZ, J., L., CAVALCANTI, J., T., P.,
ALBUQUERQUE, M., P., Predicting the Brazilian stock market through neural networks and
adaptive exponential smoothing methods. Expert System with Applications v. 36, pp. 1250612509, May. 2009.

FORMAN, G., An Extensive Empirical Study of Feature Selection Metrics for Text
Classification, Journal of Machine Learning, Journal of Machine Learning Research, v. 3,
pp. 1289-1305, 2003.

FRAGOS, K., MAISTROS, Y., SKOURLAS, C., A weighted Maximum Entropy Language
Model for Text Classification. In: Proceedings of the 2nd International Workshop on
Natural Language Understanding and Cognitive Science (NLUCS), pp. 55-67, Miami FL,
May, 2005.

FUNG, G., P., C., YU, X., J., LAM, W., News Sensitive Stock Trend Prediction. In:
Proceedings 6th Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp.
481-493, Taipei 2002.

FUNG, G., P., C., YU, X., J., LAM, W., Stock Prediction: Integrating Text Mining approach
Using Real-time News. In: Proceedings IEEE Int. Conference on Computational
Intelligence for Financial Engineering, pp. 395-402, Hong Kong 2003.

GIDFALVI, G.: Using News Articles to Predict Stock Price Movements. Project Report,
Department of Computer Science and Engineering, University of California, San Diego, 2001.

GOADRICH, M., OLIPHANT, L., SHAVLIK, J., Gleaner: Creating Ensembles of First-Order
Clauses to Improve Recall-Precision Curves, Journal of Machine Learning, v. 64, Issue: 1-3,
pp. 231-261, Sep. 2006.

96

HAYKIN, S. Redes Neurais, Princpios e Prtica. 2.ed. Porto Alegre: Bookman, 2001.

JOACHIMS, T., A probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text
Categorization. In: Proceedings of the 14th International Conference on Machine Learning
(ICML), pp.143-151, San Francisco, California: Morgan Kaufmann Publishers Inc., 1997.

JOACHIMS, T., Learning to Classify Text Using Support Vector Machines: Methods, Theory,
and Algorithms. Journal Computational Linguistics, v. 29, No. 4, pp. 655-664, Dec, 2003.

JOHN, G., H., KOHAVI, R., PFLEGER, K., Irrelevant Features and the Subset Selection
Problem. In: Proceedings of the 11th International Conference in Machine Learning
(ICML), pp. 121-129, San Francisco, CA: Morgan Kaufmann Publishers, 1994.

KALEV, P., S., LIU, W., PHAM, P., K., JARNECIC, E., Public information arrival and
volatility of intraday stock returns. Journal of Banking & Finance v. 28, pp. 1441-1467,
Mar. 2004.

KAUFMAN, L., ROUSSEEUW, P., J., Finding Groups in Data An Introduction to


Cluster Analysis. John Wiley and Sons Inc. (Series in Applied Probability and Statistics). New
York (NY), 1990.

KEOGH, E., J., CHU, S., HART, D., PAZZANI, M., J., An Online Algorithm for
Segmentation Time Series. In: Proceedings of the 2001 IEEE International Conference on
Data Mining (ICDM). Washington, DC. pp. 289-296, Dec. 2001.

KIM, K., J., Financial Time Series Forecasting Using Support Vector Machines,
Neurocomputing 55, pp. 307-319, Mar 2003.

KIYOSHI I., GOTO, T., MATSUI, T., Trading Tests of Long-Term Market Forecast by Text
Mining, In: 2010 IEEE International Conference on Data Mining Workshops, pp. 935-942,
Dec 2010.

KROLLNER, B., VANSTONE, B., FINNIE, G., Stock index forecasting with machine
learning techniques: A survey. In: Proceedings of the European symposium on artificial
neural networks: Computational Intelligence and machine learning. Bruges, Blgica,
28-30. Apr. 2010.
97

KWON, O. W., LEE, J.H., Web Page Classification Based on K-Nearest Neighbor Approach.
In: Proceedings of the 5th International Workshop on Information Retrieval with Asian
Languages (IRAL), pp. 9-15, New York (NY), Sep. 2000.

LAVRENKO, V., SCHMILL, M., LAWRIE D., OGILVIE, P., JENSEN, D., ALLAN, J.,
Language Models for Financial News Recommendation. In: Proceedings 9th Int. Conference
on Information and Knowledge Management. Washington. pp. 389-396, 2000.

LAVRENKO, V., SCHMILL, M., LAWRIE D., OGILVIE, P., JENSEN, D., ALLAN, J.,
Mining of Concurrent Text and Time Series. In: Proceedings 6th ACM SIGKDD Int.
Conference on Knowledge Discovery and Data Mining. Boston. pp. 37-44, Aug. 2000a.

LECUN, Y., JACKEL, L., D., BOTOU, L., CORTES, C., DENKER, J., S., et al., "Learning
algorithms for classification: A comparison on handwritten digit recognition. Neural
Networks: The Statistical Mechanics Perspective, 261-276, 1995.

LEE, L., W., CHEN, S., M., New Methods for Text Categorization Based on a New Feature
Selection Method and a New Similarity Measure Between Documents, In: Proceedings of the
19th International Conference on Industrial, Engineering and Other Applications of
Applied Intelligent Systems ( IEA/AEI), v. 4031, pp. 1280-1289, Springer-Verlag, Berlin,
2006.

LEINWEBER, D., J., Nerds on Wall Street: Math, Machines and Wired Markets. John
Wiley, & Sons, Inc., Hoboken, New Jersey. 2009.

LEWIS, D., D., RINGUETTE, M., A Comparison of Two Learning Algorithms for Text
Categorization. In: Proceedings of the 3rd Annual Symposium on Document Analysis and
Informational Retrieval (SDAIR), pp. 81-93, Las Vegas, Nevada, Apr. 1994.

MAURO, H., Investimentos: Como administrar melhor seu dinheiro. 1 ed. So Paulo,
Editora Fundamento Educacional, 2001.

MITCHELL, T., M., Machine Learning. Boston, USA: McGraw-Hill, 1998.

98

MITTERMAYER, M., A., Forecasting

Intraday Stock Price Trends with Text Mining

th

Techniques, Proceedings of the 37 Annual Hawaii International Conference on System


Sciences, Big Island, pp. 64, Jan 2004.

MITTERMAYER, M., A., KNOLMAYER, G., Text Mining System for Predicting the Market
Response to News: A Survey, Working Paper No. 184, Institute of Information Systems,
Univ. of Bern, Bern. Aug 2006.

MITTERMAYER, M., A., KNOLMAYER, G., NewsCATS: A News Categorization And


Trading System, Proceedings of the 6th International Conference on Data Mining
(ICDM06), Hong Kong 2006a.

MONTANES, E., FERNANDEZ, J., DIAS, I., COMBARRO, E., F., RANILLA, J., Measures
of Rule Quality for Feature Selection in Text Categorization. In: Proceedings of the 5th
International Symposium on Intelligent Data Analysis (IDA), v. 2810, pp. 589-598,
Heidelberg, Berlin: Springer-Verlag, 2003.

NIGAN, K., LAFFERTY, J., McCALLUM, A., A Using Maximum Entropy for Text
Classification. In: Proceedings of the 16th International Joint Conference on Artificial
Intelligence (IJCAI), Workshop on Machine Learning for Information filtering, pp. 61-67,
Stockholm, Sweden, Aug, 1999.

ORENGO, V., M., HUYCK, C., A Stemming Algorithm for the Portuguese Language. In:
Proceedings Eighth International Symposium on String Processing and Information
Retrieval (SPIRE), pp. 186-193, Nov, 2001.

OSUNA, E., FREUND, R., GIROSI, F., Training support vector machines: An application to
face detection. In: Proceedings of Computer Vision and Pattern Recognition 97, pp. 130136, Jun, 1997.

PAULAK, Z., Rough sets, International Journal of Computing and Information Science,
vol. 11, pp. 341-356, 1982.

PERAMUNETILLEKE, D., WONG, R., K., Currency Exchange Rate Forecasting from News
Headlines. In: Proceedings 13th Australasian Database Conference. Melbourne, Australia.
v. 5, pp. 131-139, 2001.
99

POLY ANALYST, Poly Analyst Help, Poly Analyst 6 Megaputer Intelligence Inc.
Tutorial do Software 2007.

REZENDE, S., O., Sistemas Inteligentes: Fundamentos e Aplicaes, 1 ed. , Barueri, SP,
Brasil, Manole, 2003.

ROBERTSON, C., Enabling Sophisticated Financial Text Mining. In: eResearch


Australasia. Novotel Sydney Manly Pacific, Nov. 2009.

ROBERTSON, C., GEVA, S., WOLFF, R., C., News Aware Volatility Forecasting: Is the
Content of News Important? Proceedings of 6th Australasian Data Mining Conference
(AusDm07). Gold Coast, Australia. v. 70, 2007.

RUMELHART, D. E., HILTON, G., E., WILLIANS, R., J., Learning Internal Representations
by Error Propagation. Parallel Distributed Processing: Exploration in the Microstructure
of Cognition. v.1, MA: MIT Press, Cambridge, 1986. pp. 318-362, 1986.

SALTON, G., BUCKLEY, C., Term-weighting approaches in automatic text retrieval,


Information Processing and Management, v. 24, No. 5, pp. 513-523, Jul, 2002.

SALTON, G., WONG, A., YANG, C., S., A vector space model for automatic indexing,
Communications of the ACM, v. 18, pp. 613 620, New York (NY), Nov. 1975.

SCHUMAKER, R., P., CHEN, H., A quantitative stock prediction system based on financial
news. Information Processing and Management v.45, pp. 571-583, Apr. 2009.

SCHUMAKER, R., P., CHEN, H., Textual analysis of stock market prediction using financial
news articles, In: 12th Americas Conference on Information Systems (AMCIS-2006),
Acapulco, Mxico, 2006.

SCHUTZE. H., HULL, D., A., PEDERSEN, J., O., A comparison of classifiers and document
representations for the routing problem. In: Proceedings of SIGIR-95, 18th ACM
International Conference on Research and Development in Information Retrieval, pp. 229237, Seathe, WA, USA, 1995.

100

SEBASTIANI, F., A Tutorial on Automated Text Categorization. In: Proceedings of the 1st
Argentinian Symposium on Artificial Intelligence (ASAI), pp. 7-35, Buenos Aires,
Argentina, Sep 1999.

SEBASTIANI, F., Machine Learning in Automated Text Categorization, ACM Computing


Surveys, v. 34, No. 1, pp. 1-47, Mar 2002.

SHANG, W., HUANG, H., ZHU, H., et al., A novel feature selection algorithm for text
categorization, Expert Systems with Applications, v. 33, pp. 1-5, 2007.

STRZALKOWSKI, T., Document representation in natural language text retrieval. In:


Proceedings of the Workshop on Human Language Technology (HLT), pp. 364 369,
Stroudsburg, PA, USA, 1994.

TETLOCK, C., S., Giving Content to Investor Sentiment: The role of media in the stock
market. Journal of Finance v. 62, pp. 1139-68, May. 2007.

THOMAS, J., D., SYCARA, K., Integrating Genetic Algorithms and text Learning for
Financial Prediction. In: Proceedings of the Genetic and Evolutionary Computing
Conference (GECCO). Las Vegas, Nevada. pp. 72-75, Jul. 2000.

TOKUNAGA, T., IWAYAMA, M., Text Categorization Based on Weighted Inverse


Document Frequency. Report 94-TR0001. Tokyo, Japan: Department of Computer Science,
Tokyo Institute of Technology, Mar, 1994.

TRELEA, I., C., The Particle Swarm Optimization Algorithm: Convergence analysis and
parameter selection. Information Processing Letters, v. 85, pp. 317-325, Sep, 2003.

WANG, Y., WANG, X., J., A New Approach to Feature selection in Text Classification. In:
Proceedings of the 4th International Conference on Machine Learning and Cybernetics,
v. 6, pp. 3814-3819, Guangzhou, China, Aug, 2005.

WEI, C., P., DONG, Y., X., A Mining-based Category Evolution Approach to Managing
Online Document Categories. In: Proceedings of the 34th Hawaii International Conference
on System Sciences, Jan, 2001.

101

WEISS, S. M., INDURKHYA, N., ZHANG, T., DAMERAU, F., Text Mining - Predictive
Methods for Analysing Unstructured Information, 1 ed. New York, NY, EUA, Springer Science Business Media, 2005.

WERBOS, P., Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences. Ph.D. Thesis, Apllied Mathematics, Horward University, Nov. 1974.

WIENER, E., PEDERSEN, J., O., WEIGEND, A., S., A Neural Network Approach to Topic
Spotting. In: Proceedings of the 4th

Annual Symposium on Document Analysis and

Information Retrieval (SDAIR), pp. 317-332, Las Vegas, Nevada, Apr. 1995.

WITTEN, I., H., FRANK, E., HALL, M., A., Data mining: Practical Machine Learning
Tools and Techniques, 3 ed. San Francisco, Springer - Morgan Kaufmann, 2011.

WUTHRICH, B., CHO, V., S., PERAMUNETILLEKE, D., SANKARAN, K., ZHANG, J.,
LAM, W., Daily Prediction of Major Stock Indices from Textual WWW Data. In:
Proceedings 4th ACM SIGKDD Int. Conference on Knowledge Discovery and Data
Mining. New York. pp. 364-368, 1998.

YAN, Y., Expert Network: Effective and Efficient Learning from Human Decisions in Text
Categorization and Retrieval. In: Proceedings of the 17th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, pp. 13-22, New York
(NY): Springer-Verlag, 1994.

YAN, Y., PEDERSEN, J., O., A Comparative Study on Feature Selection in Text
Categorization, In: Proceedings of the 14th International Conference on Machine Learning
(ICML), pp. 412-420, San Francisco, California: Morgan Kaufmann Publishers., 1997.

YU, L., WANG, S., LAI, K., K., A Rough-Set-Refined Text Mining Approach for Crude Oil
Market Tendency Forecasting, International Journal of Knowledge and Systems Sciences,
v. 2, No.1, Mar 2005.

VAPINICK, V., N., Statistical Learning Theory. New York (NY): Wiley-Inter Science, 1998.

VAPNIK, V., N., The Nature of Statistical Learning Theory. New York: Springer, 1995.

102

ZAI, Y., HSU, A., HALGAMUGE, S., K., Combining News and Technical Indicators in Daily
Stock Price Trends Prediction. In: Proceedings of the 4th International Symposium on
Neural Networks (ISNN), v. 4493, pp. 1087-1096, Nanjing, China, June 2007.

ZHANG, H., The Optimality of nave Bayes. In: Proceedings of the Seventeenth Florida
Artificial Intelligence Research Society Conference, pp. 562-567, 2004.

103

APNDICE A
A tabela apresentada neste apndice um resumo sobre os principais trabalhos
revisados na literatura e est organizada em quatro sees: objetivo do sistema (onde
fornecida uma ideia do sistema desenvolvido), parmetros de minerao de textos (onde
so apresentados os parmetros da minerao de textos utilizados nos sistemas
desenvolvidos), dados de entrada (so apresentados os dados utilizados) e por ltimo
teste (onde apresentado um resumo dos principais desempenhos reportados pelos
autores).
Algumas siglas apresentadas na tabela esto relacionadas aos seguintes
conceitos: MP significa modelo proposto e Randmico um simulador onde compras e
vendas de aes so simuladas aleatoriamente. Os mercados estudados foram: DJIA e
S&P500 (principais ndices do mercado dos EUA), NIKKEI (indicador da bolsa de
Tquio), FTSE (ndice de Londres), Hang Seng (mercado acionrio de Shangai), Straits
Times (Cingapura), e o DAX 100 (mercado acionrio alemo). USD-DEM a taxa de
cmbio entre o dlar americano e marco alemo; USD-JPY a taxa de cmbio entre o
dlar USA e o YEN (moeda do Japo). Roundtrips so transaes de compras e vendas
de aes, enquanto bps so pontos bases utilizados para calcular os lucros obtidos em
uma transao, onde 100 pontos bases significam 1% de lucro.

104

105

Tendncia de
Preos
24 horas

Wuthrich,
1998

Fechamento
Dirio

Frequncia de preos

DJIA, NIKKEI,
HS,ST

Mercados

127 aes (USA)

23 bps (0,23%)

---------

3 / 1.5 meses

1999 - 2000

10 minutos

automtica

Ttulo e corpo

Naive Bayes

---------

automtico

Tendncia de
Preos
1 hora

Lavrenko
2000

1000
Naive Bayes

145
Regras de
Deciso
39

40% vs 33%
10bps (0,10%)
DJIA

---------10 bps (0,10%)


Russel 3000

USD/DEM e
USD/JPY

--------

50% vs 33%

1 ms

5.5 / 2 meses

8 / 5 meses

60 minutos

1993

10 minutos

Fechamento
Dirio

automtica

2001 - 2002

automtica

manual

Ttulo

Regras de
Deciso
3

400

manual

Tendncia de
Preos
3 horas

Peramunetille
2002

2001 - 2002

Ttulo e corpo

Ttulo

automatico

Tendncia de
Preos
1 hora

Gidfalvi 2001

manual

-----

Volatilidade

Thomas
2000

614 aes Hong


Kong

--------

---------

6 / 1 ms

2002 - 2003

intraday

automtica

Ttulo e corpo

5 (treino:3)

SVM Linear

--------

automtico

Tendncia de
Preos
1 hora

Fung
2002

SP&500

29 bps (0,29%)

45% vs 33%

Validao cruzada
(90% - 10%)

2002

15 segundos

automtica

Ttulo e corpo

4 (treino:3)

SVM Polinomial

85

Semi-automtico

15 minutos

Tendncia de Preos

Mittermayer
2006

Tabela A.1 Comparao das principais caractersticas dos Sistemas propostos na literatura. (Adaptado de Mittermayer, 2006)

13 bps (0,13%)

Lucro por roundtrips

44% vs 33%

3 meses

Treinamento/Teste

MP/Randmico

1997 - 1998

Perodo investigado

Teste

automtica

Ttulo e corpo

Naive Bayes

423

manual

Atribuio de classes

Texto Analisado

Dados de Entrada

Nmero de classes

Classificador

Qtd. Palavras Chave

Palavras Chave

Parmetros de Minerao de Textos

Horizonte de previso

Previso

Objetivo do Sistema

Artigos

You might also like