You are on page 1of 8

10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil

Brazilian Society on Computational Intelligence (SBIC)



1

TCNICAS BASEADAS EM REDES NEURAIS ARTIFICIAIS E LGICA
DIFUSA PARA MINERAO DE TEXTOS

Jonas Henrique Mendona, Isabela Neves Drummond, Sandra Aparecida Sandri


Instituto Nacional de Pesquisas Espaciais, Universidade Federal de Itajub
jonas.henrique01@gmail.com, isadrummond@unifei.edu.br, sandra.at.lac.inpe.br@gmail.com
Abstract There is currently a considerable amount of information available in text format on the Internet and the networks
of large corporations. This information can be found in an unstructured format, difficult to handle by computer programs. It is
proposed in this work, the study of a neuro-fuzzy system applied to the task of text mining. The models investigated for the
clustering task of texts is a neural network fuzzy-ART and a neural network SOM. To validate this model experiments are
carried out with the bases of texts Reuters Transcribed Subset and SyskillWebert. Finally, the fuzzy-ART network is compared
with the neural network SOM.
Keywords Text mining, fuzzy logic, neural networks, neuro-fuzzy systems, clustering
1 Introduo
Nos ltimos anos, houve um enorme crescimento na quantidade de documentos e textos disponveis em formato digital e a
recente popularidade da Internet tem acelerado o crescimento. A acessibilidade a grandes colees de documentos em formato
eletrnico enfatiza a necessidade de tcnicas de recuperao de informao inteligentes. neste contexto que se insere este
trabalho.
A minerao de textos (MT) um conjunto de mtodos para navegar, organizar, achar e descobrir informaes em bases
textuais. O uso desta tecnologia permite recuperar informaes, extrair dados, resumir documentos, descobrir padres,
associaes e regras e realizar anlises qualitativas e quantitativas em documentos de texto.
Este trabalho tem por objetivo o estudo de modelos baseados em redes neurais artificiais mapas auto-organizveis (SOM) e
fuzzy-ART em problemas de MT. Estes modelos foram implementados e os resultados obtidos foram comparados aos
resultados apontados por um especialista humano.
O presente trabalho est organizado da seguinte maneira: a seo 2 traz uma breve explanao sobre o que minerao de
textos. As tcnicas utilizadas, lgica difusa e redes neurais artificiais, so descritas nas sees 3 e 4 respectivamente. A quinta
seo deste artigo mostra como o sistema de agrupamento de textos foi implementado e como os parmetros iniciais das redes
neurais artificiais foram definidos. Os resultados obtidos foram descritos na seo 6 e, ao final, a seo 7 apresenta as
concluses obtidas a partir dos experimentos realizados.
2 Minerao de Textos
Em um contexto em que grande parte dos dados corporativos encontra-se disponvel em forma textual, o processo de
minerao de textos surge como uma poderosa ferramenta de apoio gesto de conhecimento.
Segundo Zanasi [1], minerao de textos o processo de extrair, dirigido pelos dados, conhecimento no conhecido
previamente atravs de bases de dados textuais. O processo de minerao de textos pode ser dividido em quatro etapas:
identificao do problema, pr-processamento, extrao do conhecimento e ps-processamento.
Este trabalho se concentra na etapa de extrao do conhecimento considerando textos previamente pr-processados.
Suas principais tarefas so a obteno de regras de associao e o agrupamento de documentos. O agrupamento um mtodo
de descoberta de conhecimento, utilizado para identificar relacionamentos entre objetos, facilitando a identificao de classes.
No caso de textos no estruturados, o agrupamento identifica nos textos contedos similares, sendo til quando no se tem um
dos assuntos tratados em cada texto e deseja-se separ-los por assunto [2].
3 Lgica Difusa
Segundo a teoria da lgica difusa [3], um elemento pode pertencer a um conjunto com um grau de pertinncia, diferentemente
da lgica clssica em que um elemento pertence totalmente ou no pertence completamente a um determinado conjunto. Dado
um universo de discurso X, um subconjunto difuso A de X definido por uma funo de pertinncia representada na Expresso
1, que associa a cada elemento x de X o grau A(x), compreendido entre 0 e 1, com o qual x pertence a A.
(1)
Na atividade de MT, usando a teoria dos conjuntos difusos, os conjuntos que representam os documentos so
compostos por duplas {termo, peso}, sendo o peso um valor difuso definido entre zero e um. Este valor indica a importncia
do termo, quanto mais prximo do valor um, mais relevante o termo.
10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

2

A partir da atribuio da relevncia dos termos em relao ao documento, os sistemas difusos baseiam-se na
similaridade, permitindo que os resultados ofeream no apenas classificaes exatas de um documento em relao a uma
classe, mas tambm classificaes parciais.
Baseado nas idias de Oliveira [4], Loh [5] define uma frmula, apresentada na Equao 2, para calcular
similaridade considerando as diferenas e as semelhanas entre os documentos, utilizando operadores difusos adequados s
situaes. Abaixo dada a frmula (Equao 2):
N
b a G
Y X S
k
h
h

=
=
1
) , (
) , ( (2)
onde: S o grau de similaridade entre documentos X e Y; G o grau de igualdade entre pesos do termo h (peso a no documento
X e peso b no documento Y); h um ndice para os termos comuns aos dois documentos; k o nmero total de termos comuns
aos dois documentos e N o nmero total de termos nos dois documentos sem contagem repetida.
A partir da aplicao desta frmula, cada vez que um termo encontrado em ambos os documentos, um valor
acumulado. Esse valor vai definir o grau de similaridade entre os textos. O valor que deve ser acumulado dado pelo grau de
igualdade entre os pesos. Este valor calculado pela Equao 3, apresentada por Wives [2]:
2
)] ( )^ ( ) ( )^ [(
) , (
a b b a a b b a
b a G
+
= (3)
A utilizao do grau de igualdade necessria, pois, mesmo que os termos sejam iguais, eles podem ter pesos
diferentes entre os documentos analisados. Estes pesos podem ser calculados pelas frmulas de frequncia de termo. Sendo
assim, quando um termo aparece em ambos os documentos com pesos muito diferentes, a igualdade diminui, e com pesos
semelhantes, a igualdade aumenta.
O resultado deste processo ser um valor entre 0 e 1, como todo resultado difuso. Quanto mais prximo de 0,
menos similares so os documentos e quanto mais prximo a 1, mais similares.
4 Redes Neurais Artificiais (RNA)
Redes Neurais Artificiais so sistemas distribudos altamente paralelos compostos por simples unidades de processamento que
simulam o comportamento de um neurnio biolgico [6], dispostas em uma ou mais camadas. Cada conexo entre dois
neurnios possui um peso. Estes pesos guardam o conhecimento de uma rede neural e so usados para definir a influncia de
cada entrada recebida por um neurnio na sua respectiva sada. Ajustando-se os seus pesos, a rede neural assimila padres e
capaz de fazer generalizaes, isto , produzir sadas consistentes para entradas no apresentadas anteriormente.
O neurnio o elemento processador da rede neural. Cada neurnio gera uma sada a partir da combinao de sinais
de entrada recebidos de outros neurnios, com os quais est conectado, ou a partir de sinais externos. A sada de um neurnio
, na maioria dos modelos, o resultado de uma funo de ativao aplicada soma ponderada de suas entradas.
A topologia de uma rede descrita por um grafo de nodos (neurnios) e conexes (pesos). Ela descrita pelo nmero
de camadas da rede, o nmero de neurnios em cada camada e o tipo de conexo entre nodos.
4.1 Mapas Auto-Organizveis (SOM)
A rede SOM [7] um modelo de rede neural artificial que segue os paradigmas de aprendizado no supervisionado e
competitivo, sendo capaz de extrair padres de similaridade dos vetores de entrada de forma que as relaes estatsticas no-
lineares entre os padres de entrada multidimensionais so convertidas em simples relaes geomtricas dos respectivos
neurnios, que se encontram dispostos em um arranjo unidimensional, bidimensional ou tridimensional. Desta forma, a rede
SOM compacta a informao preservando as mais importantes relaes topolgicas e/ou mtricas, gerando um padro de
representao dos dados.
A rede SOM formada basicamente por uma camada de entrada e uma de sada. A camada de entrada recebe sinais
que codificam um padro e que so apresentados rede como um vetor. A camada de sada uma camada de neurnios
responsvel pela representao dos padres de entrada.
O processo de treinamento de uma rede SOM composto de 3 etapas:
1. Competio: Para cada padro de entrada, os neurnios competem por mapear o padro de entrada. O neurnio
vencedor aquele com vetor prottipo mais semelhante ao padro de entrada. Uma das formas para determinar esta
semelhana a distncia Euclidiana.
2. Cooperao: O neurnio vencedor localiza o centro de uma vizinhana topolgica de neurnios cooperativos, onde
esta vizinhana estabelecida atravs de uma funo. Geralmente, a funo Gaussiana.
10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

3

3. Adaptao - Os neurnios excitados adaptam os prottipos para se tornarem mais semelhantes ao padro de
entrada, aumentando a densidade de vetores prottipos em torno daquele padro de entrada. O vetor de pesos dos
neurnios so ajustados de acordo com a Equao 5.


Figura 1: Arquitetura da rede neural artificial SOM.

A sada da rede SOM para um dado padro de entrada formada pelo conjunto de sadas apresentadas por todos os
neurnios, isto , pelas distncias entre o padro de entrada e cada um dos vetores prottipos associados aos respectivos
neurnios.
Na camada de sada, os neurnios se encontram organizados regularmente em um arranjo geralmente unidimensional,
bidimensional ou tridimensional. A configurao do arranjo determina o formato para a regio de vizinhana de um
neurnio (estabelecendo o grau do relacionamento de vizinhana entre neurnios) e atribui a cada neurnio da camada de
sada coordenadas fixas no chamado espao de sada. A Figura 1 mostra a arquitetura de uma rede SOM [8].
Durante a criao da rede SOM os neurnios so inicializados com valores aleatrios entre 0 e 1. Cada padro de
entrada apresentado comparado aos neurnios que compem a camada de sada. Aquele que mais se assemelhar ao vetor
apresentado, utilizando distncia euclidiana, dito vencedor e seu vetor de pesos, assim como de seus vizinhos mais
prximos, atualizado de acordo com a Equao 5.
4.2 Redes Fuzzy-ART
A rede neural auto-organizvel ART (Adaptive Resonance Theory Teoria da Ressonncia Adaptativa), para Fausset [9],
apropriada para aplicaes de reconhecimento de padres e classificao de dados, projetada para controlar o grau de
similaridade entre padres que so colocados em um mesmo grupo. Alm disso, foi desenvolvida para solucionar o problema
da estabilidade-plasticidade, ou seja, no preciso recomear o treinamento do ponto inicial a cada novo padro de entrada que
aparecer e ainda preserva o conhecimento adquirido.
A rede ART foi criada por Stephen Grossberg em 1976 [10]. um modelo de arquitetura de rede neural, onde os
algoritmos so implementados em termos de aproximaes de equaes diferenciais, visando uma analogia ao modelo dos
neurnios biolgicos [9].
Apesar de a rede ART ser uma rede no supervisionada, possui um mecanismo de controle do grau de similaridade
que funo do parmetro (limiar de vigilncia), cujo valor especificado pelo usurio. Quando um novo padro no se
enquadra a qualquer grupo j existente, este mecanismo provoca a formao de um novo grupo, determinando se um novo
padro de entrada pode ser includo em um dos agrupamentos.
A arquitetura bsica das redes ART envolve duas camadas de neurnios. Uma para processar os dados de entrada e
outra de sada para agrupar os dados por meio de treinamentos especficos, ligadas por meio de conexes, denominadas
feedforward (W) e feedback (B). A rede tambm possui para cada camada unidades de controle, chamadas de C1, controlando
o fluxo de dados para a camada de entrada e o C2 controlando o fluxo de dados para a camada de sada. As funes das
unidades de controle resumem-se em determinar o fluxo de dados para a camada de sada e habilitar ou desabilitar neurnios
da camada de sada.
A rede ART ainda possui um mecanismo de reset, responsvel pela verificao da semelhana entre um vetor de
entrada e o neurnio vencedor da fase de reconhecimento, utilizando um limiar de vigilncia, determinando se o vetor de
entrada pode ser includo em um dos grupos. A Figura 2 ilustra a arquitetura da rede ART.
10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

4


Figura 2 Arquitetura da rede fuzzy-ART.
O aprendizado na rede ART competitivo. A camada de entrada recebe o padro e calcula sua ativao Tj (Equao 4) para
cada neurnio J da camada de sada. O neurnio J, com maior atividade da camada de sada, torna-se um candidato para
codificar o padro de entrada. Nesse ponto, os outros neurnios tornam-se inativos e a camada de entrada combina a
informao entre o padro de entrada e o neurnio candidato. O neurnio torna-se vencedor e aprende o vetor de entrada
dependendo da similaridade entre o vetor de entrada e o de pesos, conforme mostrado na Equao 5 onde: w
j
n
representa o
novo peso do neurnio, indica a taxa de aprendizado da RNA e w
j
o
o peso atual do neurnio. Essa deciso tomada pela
unidade de reset, que compara sinais provenientes da camada de entrada, verificando a similaridade entre o vetor de entrada e
o de pesos do neurnio candidato. Se a similaridade entre o vetor de entrada e o vetor de pesos for menor que o limiar , o
neurnio candidato marcado como inibido e um novo candidato escolhido. Tal sequncia mantida at encontrar um
neurnio capaz de representar o padro ou at que todos os neurnios da camada de sada estejam inibidos. Nesse caso, a rede
cria um novo neurnio para armazenar o padro ou informa que o padro no pode ser representado.

(4)

(5)
Os neurnios da camada de sada podem estar em trs estados diferentes: ativo, inativo e inibido. O neurnio
encontra-se no estado ativo quando se torna candidato a aprender o padro de entrada; inativo, quando perde a competio para
ser um candidato; e inibido, quando o neurnio foi previamente escolhido como candidato para o padro de entrada, porm no
mostrou similaridade suficiente para aprender o padro. No estado inibido, o neurnio no poder competir novamente para
aprender o padro corrente. A condio de parada a quantidade de ciclos de treinamento para a rede.
O sinal de reset calculado de acordo com a similaridade entre o vetor de entrada e o vetor de pesos do neurnio
candidato. Tal sinal define se o candidato ser aprovado ou no. Se o candidato for aprovado, o vetor de pesos do neurnio
vencedor adaptado, combinando-se ao vetor de entrada para produzir outro vetor de pesos. O treinamento encerrado quando
a condio de parada encontrada, ou seja, at que se atinja o nmero de iteraes de treinamento pr-definido.
As redes Fuzzy-ART so modelos formalmente parecidos com as redes ART, porm realiza duas operaes
adicionais; uma relacionada aprendizagem e outra ao pr-processamento das entradas. Uma rede Fuzzy-ART gera
agrupamentos de vetores de caractersticas difusas. Mais especificamente, segundo Silva [11], cada componente do vetor de
entrada i um valor de pertinncia da funo membro de uma determinada caracterstica difusa, indicando o quanto esta
caracterstica est presente na amostra.
As computaes dos operadores nebulosos E e OU so implementados por meio das funes de mnimo () e mximo
(), respectivamente, conforme demonstrado na Tabela 1.
Tabela 1 - Analogia entre as redes ART e Fuzzy-ART.
ART (BINRIO) FUZZY-ART
Escolha de Categoria
| |
| |
j
j
j
W
W I
T
+

=
o

| |
| |
j
j
j
W
W I
T
+
.
=
o

Critrio de Similaridade
>

| |
| |
I
W I
j
>
.
| |
| |
I
W I
j

onde I so os vetores de entrada, W
j
so os vetores de pesos adaptativos e [0,1] o parmetro de vigilncia.
10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

5

5 Modelo Implementado
Com o objetivo de se obter um enriquecimento prtico acerca da metodologia de minerao de textos estudada, foi
implementado um sistema de agrupamento de textos contendo modelos baseados nas redes neurais fuzzy-ART e SOM.
Ao fim do processo de treinamento exibida para o usurio uma tabela mostrando as categorias criadas e os
documentos que as compem como mostrado na Figura 3.

Figura 3 Modo como os resultados so exibidos ao usurio.
5.1 Treinamento rede SOM
O treinamento da rede SOM emprega vizinhana quadrangular e a funo gaussiana. O nmero de iteraes (quantidade de
vezes que cada documento apresentado RNA) definido pelo usurio. O nmero inicial de neurnios igual ao nmero de
documentos que sero apresentados RNA. Os demais parmetros so gerados aleatoriamente.
Para efetuar o treinamento, documentos so selecionados aleatoriamente e apresentados RNA at que se atinja o
nmero de iteraes escolhido pelo usurio. Assim como o nmero de iteraes, a porcentagem de documentos selecionados
para treinamento e teste so determinados pelo usurio do sistema.
Ao fim da fase de treinamento, os neurnios que compem a rede SOM so rearranjados utilizando-se as mtricas de
similaridade difusa apresentadas nas equaes 2 e 3. Tal procedimento garante que neurnios com caractersticas muito
prximas sejam mantidos como representantes de categorias diferentes.
5.2 Treinamento rede fuzzy-ART
Os documentos selecionados para treinamento so apresentados RNA at que seja atingida a condio de parada. A criao
de novas categorias limitada pelo nmero de documentos que compem a base de dados conforme a Equao 6, onde Cmax
representa o nmero mximo de categorias e ND indica o nmero de documentos que compem a base de textos. Atribuiu-se
este limiar depois da realizao de testes de validao utilizando a ferramenta Weka.
(6)
O limiar de vigilncia presente no mecanismo de reset da RNA escolhido pelo usurio de acordo com sua
necessidade de especializao ou generalizao dos dados apresentados.
Durante a etapa de treinamento da RNA so armazenadas as taxas de similaridade entre os neurnios que formas a
camada de sada da RNA e os documentos apresentados. Ao fim do treinamento, calcula-se a mdia aritmtica e o desvio
padro destas medidas. Calcula-se ento, a similaridade difusa definida pelas equaes 2 e 3 entre todas as categorias criadas.
Aquelas categorias cujos neurnios representantes possuem um grau de similaridade superior similaridade mdia entre
as categorias acrescida do desvio padro so eliminadas. Os neurnios restantes correspondem s categorias que representam a
base de documentos apresentadas RNA.
6 Experimentos e Resultados
Os experimentos foram realizados utilizando-se as bases de textos Reuters Transcribed Subset [15] e Syskill Webert [11] . A
base de textos SyskillWebert formada por pginas Web agrupadas por um especialista humano em 4 classes (Bands,
BioMedical, Goats e Sheep) de acordo com seu contedo. Estas classes so compostas de 61, 136, 74 e 71 textos,
respectivamente, totalizando 342 documentos. A base de textos Reuters Transcribed Subset contm 10 categorias formadas por
20 textos cada. Os textos que compem esta base foram retirados de notcias transmitidas pela agncia de notcias Reuters.
Ambas as bases de textos utilizadas so escritas em lngua inglesa. O critrio para seleo das bases de textos para este
trabalho foi a utilizao destes documentos em outros sistemas de agrupamento possibilitando, portanto, uma avaliao
comparativa.
Os textos foram pr-processados com a ferramenta Pretext e transformados em uma matriz atributo-valor. Um dos
problemas encontrados foi a dimensionalidade dos atributos de um corpus, ou seja, a relao entre o nmero de documentos da
10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

6

coleo, a quantidade de termos que aparece no total da coleo e a quantidade de termos que aparece em cada documento, que
pode resultar numa matriz esparsa. Para resolver este problema, foram aplicados os cortes de Luhn [13] especificando as
freqncias mnimas e mximas dos termos da coleo. Um ponto importante a ser ressaltado a validade do mtodo de
amostragem utilizado. Como o objetivo deste trabalho avaliar o comportamento da implementao e no a qualidade do pr-
processamento de textos, realizou-se um pr-processamento muito simples no utilizando informaes adicionais dos
conjuntos de teste. Para realizar esta etapa da MT utilizou-se a medida tfidf e cortes de Luhn. Para realizar um pr-
processamento mais sofisticado bem como uma reduo mais apurada da dimenso dos atributos, dever-se-ia pr-processar
separadamente a poro da base de dados utilizada pra treinamento e teste das RNAs utilizadas.
Os testes realizados consistem em comparar o nmero de categorias geradas pela RNA e o nmero de categorias
definidas por um especialista humano para cada base de textos variando-se a taxa de aprendizado e o limiar de vigilncia da
RNA. Para todos os testes realizados o nmero de iteraes de treinamento foi fixado em 5. Este valor foi firmado atravs de
experimentos realizados durante a implementao do sistema.
Os experimentos foram realizados variando-se o grau de similaridade utilizado para reagrupar os neurnios ao fim do
treinamento da RNA SOM. Os mesmos valores foram utilizados como limiar de vigilncia da RNA fuzzy-ART. Foram
efetuados 108 experimentos utilizando a RNA fuzzy-ART, 54 utilizando a base de textos Reuters Transcribed Subset e outros
54 experimentos utilizando a base de textos SyskillWebert. Os resultados obtidos so apresentados nas Tabelas 2 e 3.
Tabela 2 Agrupamentos formados para a base de textos Tabela 3 Agrupamentos formados para a base de textos
Reuters Transcribed Subset utilizando a RNA Fuzzy-ART. SyskillWebert utilizando a RNA Fuzzy-ART .
Reset
Porcentagem de documentos para
treinamento

Reset
Porcentagem de documentos para treinamento
30% 40% 50% 60% 70% 80%

30% 40% 50% 60% 70% 80%
0,2 7 10 13 14 10 13

0,2 4 4 6 6 6 5
0,25 13 9 11 14 11 13

0,25 4 3 4 4 4 4
0,3 10 10 9 10 9 15

0,3 5 4 5 6 5 5
0,35 8 11 11 11 10 11

0,35 4 4 4 5 5 4
0,4 9 10 10 10 12 11

0,4 6 4 4 4 4 4
0,45 13 9 11 11 11 12

0,45 5 4 4 4 5 5
0,5 10 12 13 13 12 13

0,5 4 4 48 6 3 3
0,55 13 10 16 10 10 15

0,55 57 4 4 3 5 37
0,6 13 13 10 11 15 12

0,6 51 43 52 5 4 4
Assim como os dados mostrados nas Tabelas 2 e 3, as Tabelas 4 e 5 trazem os resultados obtidos quando as mesmas bases de
dados foram apresentadas rede SOM sendo que, para esta RNA, foram efetuados 36 experimentos para a base de textos
Reuters Transcribed Subset e outros 36 experimentos para a base de textos SyskillWebert, totalizando 72 experimentos.

Tabela 4 N de categorias obtidas pela rede SOM para a base de textos Reuters Transcribed Subset.
Grau de
Similaridade
Difusa
N de categoria / % de documentos utilizados para
treinamento
40% 50% 60% 70%
0,1 12 10 8 10
0,2 8 12 7 9
0,3 9 11 9 9
0,4 8 8 11 9
0,5 9 10 10 11
0,6 10 8 9 7
0,7 9 10 9 10
0,8 9 11 8 9
0,9 11 8 11 11


10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

7



Tabela 5 N de categorias criadas pela rede SOM para a base de textos SyskillWebert.
Grau de
Similaridade
Difusa
N de categoria / % de documentos utilizados para
treinamento
40% 50% 60% 70%
0,1 6 4 2 4
0,2 2 7 1 3
0,3 3 5 3 3
0,4 2 4 5 3
0,5 3 5 4 5
0,6 4 2 3 1
0,7 3 4 3 4
0,8 3 5 2 3
0,9 5 2 5 5
Comparando-se as Tabelas 2, 3, 4 e 5 verifica-se que ambas as redes apresentaram um comportamento semelhante, visto que a
rede fuzzy-ART apresentou uma taxa de acerto igual a 67%, enquanto a rede SOM acertou 70% dos experimentos realizados.
Para as duas bases de textos, a taxa de acerto obtida tendo como base o nmero de categorias apontadas por um especialista
humano, sendo que este valor pode variar em uma unidade para mais ou para menos.
Mas, quando comparamos os resultados obtidos neste trabalho com o nmero de categorias apontado por um
especialista humano (10 categorias para a base de textos Reuters Transcribed Subset e 4 categorias para a base de textos
SyskillWebert), a rede fuzzy-ART obteve sucesso em 42 dos 108 casos de teste realizados (somando as duas bases de textos) e a
rede SOM acertou 14 dos 72 testes realizados, ou seja, 39 e 20% de acerto, respectivamente.
Outro importante fato a ser descrito foi como o uso da similaridade difusa reduziu a vulnerabilidade da rede fuzzy-
ART variao de seus parmetros de entrada. A Tabela 6 mostra a reao desta RNA variao do limiar de vigilncia sem a
etapa de ps-processamento do treinamento proposta.
Tabela 6 Nmero de categorias geradas pela rede fuzzy-ART sem etapa fuzzy de ps-processamento.
Reset
Porcentagem de documentos para treinamento
30% 40% 50% 60% 70% 80%
0,2 5 4 6 5 3 5
0,25 4 3 4 4 4 4
0,3 5 4 5 6 5 5
0,35 4 4 4 6 5 4
0,4 6 4 4 4 4 4
0,45 10 4 11 4 5 5
0,5 4 15 48 6 3 17
0,55 60 20 37 3 5 37
0,6 67 43 52 5 12 91
Observando os resultados exibidos na Tabela 6 e comparando-os aos mostrados na Tabela 3 pode-se observar que a rede
mostrou-se bem menos sensvel as variaes impostas sobre o limiar de vigilncia . Pode-se ver que medida que o limiar de
vigilncia aumenta o nmero de categorias geradas tambm aumenta porm, de maneira menos abrupta.
7 Concluso
Este trabalho apresentou um estudo da utilizao de redes neurais artificiais e lgica difusa visando o agrupamento de textos
baseando-se em seu contedo. Comparando os resultados gerados pela rede fuzzy-ART e os resultados obtidos pelas redes
SOM percebe-se que apesar de a taxa de acerto mdia ser muito prxima, 67% nas redes fuzzy-ART e 70% na rede de SOM,
quando se leva em conta somente os experimentos cujos resultados foram idnticos aos apontados por um especialista humano,
a rede fuzzy-ART mostrou uma taxa de acerto superior a apresentada pela rede SOM.
Os resultados obtidos mostraram a viabilidade de aplicao das tcnicas de redes neurais e lgica difusa na fase de
agrupamento dentro do processo de minerao de texto. Trata-se de uma abordagem promissora.
10th Brazilian Congress on Computational Intelligence (CBIC2011), November 8 to 11, 2011, Fortaleza, Cear Brazil
Brazilian Society on Computational Intelligence (SBIC)

8

Cabe ressaltar que durante o desenvolvimento deste trabalho observou-se que uma das etapas mais complexas do
agrupamento de textos o pr-processamento. Para efetuar esta etapa necessrio um grande conhecimento a respeito da base
de textos, o que torna o agrupamento de textos um sistema semi-supervisionado.
Como trabalho futuro interessante a investigao dos modelos de agrupamento de neurnios aqui propostos aplicados
minerao de dados e agrupamento de dados em geral. Apesar da particularidade do dado aqui tratado, os modelos podem se
adaptar e solucionar outros problemas.
Agradecimentos
Isabela Neves Drummond agradece o apoio financeiro do CNPq (processo 478684/2009-6).
Referncias Bibliogrficas
[1] Zanasi, A. . Discovering Data Mining. Prentice Hall, 1997.
[2] Wives, L. K., Tcnicas de Descoberta de Conhecimento em Textos Aplicada Inteligncia Competitiva. Programa de ps-
graduao em computao (PRGC) Instituto de Informtica, Universidade Federal do Rio Grande do Sul UFRGS, 2002.
[3] Zadeh, L. A. Fuzzy Sets. Information Control, 8:338--353, New York,1965.
[4] Oliveira, H. M. Seleo de Entes Complexos utilizando lgica difusa. Porto Alegre, Pontifcia Universidade Catlica do
Rio Grande do Sul, 1996.
[5] Loh, S. Abordagem Baseada em Conceitos para Descoberta de Conhecimento em textos. PhD thesis, Universidade Federal
do Rio Grande do Sul, Instituto de Informtica, 2001.
[6] Braga, A. P., Ludermir, T. B., Carvalho, A. C. P. L. F. Redes Neurais Artificiais: Teoria e aplicaes. Rio de Janeiro: LTC
- Livros Tcnicos e Cientficos Editora S.A, 2000.
[7] Kohonen, T. Self-Organizing Maps. 3rd extended edition. Berlim, Alemanha: Springer, 2001.
[8] MARTINS, Weber; NALINI, Laura Eugnio Guimares; TSUKAHARA, Fernando Pirkel. Context-sensitive
multidimensional ranking: an alternative technique to data complexity. Rev. Psicol., Organ. Trab., Florianpolis, v. 6, n.
1, jun. 2006 . Disponvel em <http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1984-
66572006000100010&lng=pt&nrm=iso>.
[9] Fausset, L.V. Fundamental of Neural Networks Architectures, Algorithms and Applications. New Jersey: Prentice Hall
International, 1994.
[10] Grossberg, 1976. Adaptive pattern classification and universal recoding, 1: Parallel development and coding of neural
feature detectors. Biological Cybernetics, 23:187-202.
[11] Pazzani, M. J.; Muramatsu, J.; Billsus, D.(1996) Syskill Webert: Identifying Interesting Web Sites. In: AAAI/IAAI, VOL.
1, 1996. Anais. [S.l.: s.n.], p.5461, 1996.
[12] Lewis, D. D. HTTP://www.davidddlewis.com/resources/testcollections/reuters21587, 2006.
[13] Luhn, H. P. The automatic creation of literature abstracts. IBM Journal os Research and Development, 2(2):159165,
1958.
[14] Batista, G.E.A.P.A. Pr-processamento de dados em Aprendizado de Mquina Supervisionado. Tese de Doutorado,
ICMC-USP, 2003.
[15] Silva, N. C. Utilizao de operadores genticos para otimizar classificadores neurais no-supervisionados de imagens.
Braslia. 200p. Tese de Doutorado em Geocincias - Universidade de Braslia, 2002.

You might also like