You are on page 1of 3

Anlise de Sentimento: Descrio de uma Ferramenta de Anotao de Textos Opinativos

Marco Nemetz Bochernitsan1, Larissa A. Freitas1, Aline A. Vanin1, Renata Vieira1


1

Faculdade de Informtica Pontifcia Universidade Catlica do Rio Grande do Sul (PUCRS) Caixa Postal 1429 90.619-900 Porto Alegre RS Brazil
{marco.bochernitsan,larissa.freitas}@acad.pucrs.br, aline.vanin@ymail.com, renata.vieira@pucrs.br

1. Introduo
Este trabalho tem por objetivo descrever uma ferramenta criada para ser utilizada por linguistas na anotao de textos opinativos. Textos opinativos so aqueles que contm opinio, as quais podem ser positivas ou negativas. Alm disso, podem se referir a alguma entidade, como por exemplo: filme, produto, hotel, restaurante e outros. No programa criado, h a possibilidade de abrir o texto, selecionar um trecho e marcar a polaridade de suas features e subfeatures selecionadas na sentena escolhida. Features so as caractersticas mais importantes de um determinado contexto e subfeatures so seus detalhamentos. No contexto de filme, a feature pessoa possui como subfeatures ator, diretor e outros. Nas prximas sees deste resumo sero descritos o sistema implementado (Seo 2) e os trabalhos relacionados (Seo 3).

2. Sistema Implementado
O sistema implementado consiste em uma janela grfica contendo uma aba que possui um campo para a visualizao do texto e uma tabela na qual os trechos do texto so anotados (Figura 1). Para auxiliar no desenvolvimento do sistema, foram utilizados o NLTK [Bird 2006] [Bird et al. 2009] e o PyQt [Summerfield 2008]. O primeiro toolkit auxilia na manipulao do texto e o segundo, na criao de janela grfica. Ambas foram desenvolvidas na linguagem de programao python. O menu do sistema apresenta as seguintes opes para a manipulao do texto: abrir, criar, salvar e fechar. Alm disso, possvel verificar o nome de todas janelas abertas do programa utilizando a opo window. A tabela de anotao tem quatro colunas, na primeira deve ser inserido o trecho do texto ou uma sentena inteira que ser anotada. Na segunda, ser inserida a polaridade atribuda ao trecho ou sentena selecionada. Na terceira e na quarta coluna esto as features e subfeatures, respectivamente, que sero escolhidas nos textos anotados. A subfeature dependente da feature escolhida. Por exemplo, ao escolher pessoa, as opes de subfeatures sero ator, diretor entre outros. Na Figura 1, possvel perceber que acima da tabela existem 3 botes, so eles: Add cuja funcionalidade adicionar uma nova linha na tabela; Remove utilizado para remover uma linha selecionada da tabela e Export com a funo de exportar o contedo da tabela. Como possvel em um texto a ocorrncia de mais de uma feature, o boto Add permite que o avaliador possa criar tantas linhas quantas forem necessrias para
16
Anais do III Workshop de Inicia ca o Cient ca em Tecnologia da Informa ca o e da Linguagem Humana, p aginas 1618, Fortaleza, CE, Brasil, Outubro 2123, 2013. c 2013 Sociedade Brasileira de Computa ca o

atribuir as polaridades referentes aos trechos selecionados. J o boto Remove serve para realizar excluses quando necessrias. O terceiro, tem sua exportao no formato XML, uma representao dessa sada apresentada na Figura 2. Uma vez aberto o texto, o linguista realizar sua anotao manual. De acordo com a Figura 2, a sada do sistema composta pelas tags documento, sentena, feature, subfeature e polaridade. O XML foi elaborado desta maneira porque, em geral, textos opinativos analisados no nvel de features so compostos por sentenas ou trechos de texto; e polaridades (positivo, negativo e neutro) so atribudas s features e subfeatures. Nesse programa, para positivo foi utilizado '1', negativo '-1' e neutro '0'. Para anotar textos de domnios especficos duas listas devem ser inseridas pelos usurios, so elas: lista de features e de subfeatures. As Figuras 1 e 2 representam a avaliao realizada de textos referentes ao domnio hotel. Uma das maneiras de se construir estas listas atravs da busca de ontologias de domnio em repositrios especficos, tais como: Watson1, Portal OntoLP2 e Swoogle3. Por exemplo, ao buscar por ontologias de filme, os repositrios retornam a ontologia MovieOntology 4. Classes e subclasses desta ontologia correspondem a features e subfeatures no sistema proposto.

Figura 1. Apresentao da interface da ferramenta

1 2 3 4

http://kmi-web05.open.ac.uk/WatsonWUI/ http://www.inf.pucrs.br/~ontolp/ http://swoogle.umbc.edu/ http://www.movieontology.org/

17

Figura 2. Sada XML da ferramenta

3. Trabalhos Relacionados
Como trabalho relacionado possvel citar o GATE5. Esta ferramenta possui inmeras tarefas voltadas para a anlise de textos. Em comparao com o exemplo citado, nossa ferramenta possui menos funes, porm mostrou-se uma alternativa interessante tendo em vista o pblico-alvo (linguistas). Uma vez que o GATE complexo e de difcil manuseio.

4. Consideraes Finais
A ferramenta para anotar textos opinativos foi utilizada para a avaliao de textos de dois domnios especficos, hotel e filme, os quais so objeto de estudo em uma pesquisa de anlise de sentimento. O uso da ferramenta permitiu uma melhor identificao das features e subfeatures dos textos avaliados e, consequentemente, otimizou o tempo dispendido nas anotaes. Como trabalhos futuros, pretendemos criar um banco de dados para armazenar os XMLs gerados. Alm disso, pretendemos inserir uma nova aba no sistema que permita relacionar algoritmos de aprendizado de mquina (SVM, Mxima Entropia e Nave Bayes) e assim classificar o sentimento de textos (conjunto de teste) a partir de um conjunto de treino (textos anotados manualmente por linguistas).

Referncias
Bird, Steven (2006), NLTK: The Natural Language Toolkit, Proceedings of the COLING/ACL on Interactive presentation sessions, pp. 69-72. Bird, Steven, Klein, Ewan e Loper Edward (2009), Natural Language Processing with Python. O'Reilly Media Inc, USA. Summerfield, Mark (2008), Rapid GUI programming with Python and Qt : the definitive guide to PyQt programming / Mark Summerfield. Pearson Education Inc, USA.

http://gate.ac.uk/overview.html

18

You might also like