You are on page 1of 4

Comparison of Different Lemmatization

Approaches through the Means of Information

Retrieval Performance.

Alexon Delgado 1601710.

Pesquisa e Recuperao de Informao

Mestrado em Tecnologias e Sistemas Informticos Web Universidade Aberta

Resumo
A avaliao de desempenho de lematizadores baseado em dados padronizados manualmente trs o
problema de conjuntos de lemmas possivelmente incompatveis em vrios sistemas, no artigo avaliou-
se o desempenho quantitativo de duas abordagens diferentes (manual VS automtico) para a tarefa de
lematizao da lngua Czech, avaliando a Preciso Mdia Generalizada (mGAP) dos documentos
lematizados e consultas no conjunto de experincias de recuperao de informao (RI), sendo que a
lngua flexionada Czech apresenta uma grande variedade de formas de palavras pertencentes a um
nico lemma que complica muitas das tarefas de processamento de linguagem natural, desde a
modelagem de linguagem, onde causa a fragmentao desfavorvel dos dados de treinamento, s
tarefas de manipulao de palavras-chave e recuperao de informaes (RI), onde a
incompatibilidade entre a forma de palavras usada na consulta e que ocorrem na coleo pesquisada
impede que sejam encontradas muitas ocorrncias da palavras-chave e/ou documentos relevantes,
portanto, uma lematizao correta crucial para a efetividade de RI na linguagem flexionada Czech.

A primeira abordagem baseia-se no dicionrio de lemmas preparado manualmente e no conjunto de


regras de derivao, utilizou-se o The Prague Dependency Treebank, que fornece todos os lemmas
possveis para palavra e tambm um conjunto de todas as marcas morfolgicas concebveis e segunda
abordagem baseia-se na inferncia automtica do dicionrio de lemmas e um conjunto regras dos
dados de treinamento. Os dados de treinamento consistem em pares de palavras completas (lemma). A
inferncia das regras de lematizao baseia-se na procura da subcadeia comum mais longa da forma
completa e do lemma. Para o treinamento do lematizador automtico foi utilizada a Prague
Dependency Treebank 2.0 (PDT) com formas de palavras completas e os lemmas correspondentes
obtendo os dados de treinamento simplesmente extraindo estes pares, e foi utilizado o dicionrio
Czech de lemmas e arquivo de regra de derivao do programa de verificao ortogrfica Ispell
obtendo o segundo conjunto de dados de treinamento a partir de arquivos Ispell que contm regras que
permitem gerar todas as formas de palavras completas para cada lemma no dicionrio, usando o
gerador morfolgico.

Training set # pairs # lemmas

PDT 200 431 66 401

Ispell 4 315 161 297 701


Tabela 1 Informaes quantitativas dos conjuntos de dados de treinamento adquiridos (PDT e
Ispell).
Pesquisa e Recuperao de Informao

Lem_PDT Lem_Ispell

# lemmas 66 401 297 701

# rules 2 431 2 683

# P rules 231 55

# S rules 2 218 2 628

# patterms 28 867 34 999

# P + S patterns 26 436 32 3331

# P patterns 213 55

# S patterns 2 218 2 613


Tabela 2 lematizadores criados automaticamente (Lem_PDT e Lem_Ispell).

O lemmatizador manual (Lem_H) e o lematizador treinado nos dados de treinamento PDT


(Lem_PDT) foram comparados diretamente uma vez que compartilham o mesmo conjunto de lemmas
e os resultados esto na Tab. 3.

Test data Palavras fora do


Vocabulrio

R[%] P[%] F R[%] P[%] F

Lem_H 99.38 82.45 0.90 73.41 100.00 0.85

Lem_H_G 99.50 79.71 0.89 93.88 12.90 0.23

Lem_PDT 99.10 73.65 0.85 75.35 96.19 0.85

Lem_PDT_oP 81.77 98.33 0.89 73.26 99.09 0.84

Lem_PDT_min 75.79 98.59 0.86 72.67 99.69 0.84


Tabela 3 Comparao dos lematizadores

Recall (o nmero de palavras corretamente lematizadas para o nmero total de palavras processadas)
(R);

Preciso (a relao do nmero de palavras corretamente lematizadas para o nmero de todos os


lemmas gerados pelo lematizador para todos corretamente lematizados (P) e uma medida F harmnica
((2 R P) / (R + P)) (F) foram avaliados na parte de dados de teste do corpus PDT.

Lem_H_G denota o lematizador manual com o adivinho morfolgico ativado (o adivinhador no tenta
adivinhar o lema correto, mas apenas todas as possveis marcas morfolgicas e, alm disso, produz
todas as formas de palavras presumivelmente vlidas para uma determinada palavra).

Lem_PD_ oP e Lem_PDT_min denotam o lematizador treinado automaticamente usando apenas


padres de palavra fora do vocabulrio para lematizao de todas as palavras dadas e o lematizador
treinado automaticamente usando apenas padres de palavras fora do vocabulrio de prefixo e sufixo,
respetivamente. Nas trs ltimas colunas da tabela esto os resultados para a lematizao de palavras
2
Pesquisa e Recuperao de Informao
de palavras fora do vocabulrio (palavras desconhecidas pelo Lem_H). H apenas uma pequena
diferena entre lematizadores (Lem_H_G e Lem_PDT) (R)(0,4%), enquanto a diferena entre
precises muito mais significativa (6,06%).

O lematizador criado automaticamente apresenta dois conjuntos de resultados - um para cada conjunto
de dados de treinamento da coleo de RI que foi usada na tarefa checa da faixa de recuperao de fala
em vrias lnguas organizada dentro da campanha de avaliao CLEF 2007. A Tabela 4 mostra a
avaliao mGAP para os dois conjuntos de dados de teste (treinamento, avaliao) e os dois conjuntos
de termos (TD consulta a partir dos termos dos campos <title> (T) <desc> (D)) e (TDN consulta de
todos os termos dos campos <title> (T) <desc> (D) <narr> (N)). O parmetro de interpolao foi
ajustado para 0,5. Os resultados de recuperao para os trs lematizadores so significativamente
melhores do que o resultado para dados no-lematizados (palavras) para todos os conjuntos de
consultas e termos.

Test data words Lem_H_G Lem_PDT Lem_Ispell

Train TD 0.0163 0.0270 0.0322 0.0280

Train TDN 0.0164 0.0343 0.0364 0.0362

Eval TD 0.0114 0.0220 0.0250 0.0200

Eval TDN 0.0126 0.0274 0.0307 0.0243


Tabela 4 Comparao dos valores mGAP entre consultas lematizadas e no-lematizadas.

Como pode ser observado na tabela 4, quando se compara os resultados da recuperao do lematizador
Lem_H_G e o lematizador Lem_PDT, este ultimo apresenta resultados melhores para ambos os
conjuntos de consultas e termos. Comparando o Lem Ispell com Lem_H_G os resultados so melhores
para o conjunto de treinamento de consultas e pior para o conjunto de avaliao. Porque o desempenho
de recuperao deste sistema RI pode diferir para vrios nveis de interpolao. Os resultados so
mostrados nas tabelas 5 e 6, curso bastante semelhante para todos os nveis de interpolao pode ser
visto.

Term set TD TDN

Lemma / 0.1 0.25 0.5 0.75 0.9 0.1 0.25 0.5 0.75 0.9

Lem_H_G 0.0306 0.0290 0.0270 0.0261 0.0251 0.0392 0.0376 0.0343 0.0317 0.0295

Lem_PDT 0.0352 0.0343 0.0322 0.0298 0.0278 0.0396 0.0388 0.0364 0.0343 0.0307

Lem_Ispell 0.0328 0.0303 0.0280 0.0268 0.0255 0.0415 0.0397 0.0362 0.0329 0.0306

Lem_PDT_min 0.0326 0.0321 0.0305 0.0277 0.0264 0.0364 0.0345 0.0325 0.0305 0.0269

Lem_Ispell_min 0.0286 0.0274 0.0255 0.0231 0.0221 0.0394 0.0374 0.0347 0.0321 0.0296
Tabela 5 Informaes quantitativas dos conjuntos de dados de treinamento adquiridos (PDT e
Ispell).

3
Pesquisa e Recuperao de Informao

Term set TD TDN

Lemma / 0.1 0.25 0.5 0.75 0.9 0.1 0.25 0.5 0.75 0.9

Lem_H_G 0.0200 0.0212 0.0220 0.0222 0.0215 0.0255 0.0257 0.0274 0.0271 0.0260

Lem_PDT 0.0236 0.0243 0.0250 0.0252 0.0250 0.0281 0.0310 0.0307 0.0287 0.0271

Lem_Ispell 0.0193 0.0200 0.0200 0.0194 0.0198 0.0227 0.0234 0.0243 0.0243 0.0235

Lem_PDT_min 0.0186 0.0193 0.0197 0.0198 0.0195 0.0217 0.0215 0.0219 0.0215 0.0209

Lem_Ispell_min 0.0192 0.0199 0.0205 0.0204 0.0197 0.0178 0.0185 0.0178 0.0181 0.0168
Tabela 5 Informaes quantitativas dos conjuntos de dados de treinamento adquiridos (PDT e
Ispell).

Analisando os resultados verifica-se que os resultados de recuperao para os dados lematizados so


melhores do que os resultados para dados no lematizados, tendo obtido um nvel de significncia de
0,01 para todos os trs lematizadores testados quando testados em todos os conjuntos de consulta e
termos e configuraes diferentes do mtodo de recuperao. Quanto a lematizadores criados
automaticamente versus o criado manualmente, diferena entre Lem_H_G e Lem_PDT foi
estatisticamente significativa com o nvel de significncia de 0,01 e a diferena entre Lem_H_G e
Lem_Ispell no mostrou ser estatisticamente significativa. Avaliando os lematizadores criados
automaticamente atravs de consultas em um conjunto a diferena no mostrou ser estatisticamente
significativa. Devido grande variao da pontuao GAP entre as consultas no conjunto e pequeno
nmero de consultas. As duas ltimas linhas nas tabelas 5 e 6 mostram resultados de recuperao para
lematizadores com configurao mnima (Lem_PDT_min, Lem_Ispell_min). A diferena no recall dos
lematizadores parece afetar a preciso de recuperao, mas o resultado ainda superior em
comparao com o uso de dados no lematizados e especialmente adequado para os sistemas de RI
eficientes em memria.

Quando se utiliza o lematizador para fins de sistema RI, no h diferena substancial no desempenho
de lematizadores criados manualmente e automaticamente. Na verdade, o lematizador criado
automaticamente (Lem_PDT) at melhorou o desempenho de recuperao dentro do cenrio
experimental (como o ganho na pontuao mGAP tem sido demonstrado ser estatisticamente
significativa para o paradigma RI e a coleo de teste).

Este resultado especialmente promissor na perspetiva de desenvolvimento de sistemas RI para outras


lnguas, uma vez que graas existncia dos recursos Ispell para muitas lnguas, um lematizador
aceitvel pode ser facilmente construdo sem a necessidade de um corpus manualmente criado ou um
analisador morfolgico criado manualmente (Lematizador).

Uma Analise mais detalhada das causas e testes mais alargados dos fenmenos utilizando mtodos
mais sofisticados de recuperao de informao permitiriam uma melhor perceo de ganho de
desempenho, pois os experimentos realizados foram bastante simplificados. O uso de ferramentas de
processamento de linguagens natural e mtodos de seleo com suporte vetorial e Naive Bayes
conseguia melhores resultados em termos de preciso. Para todos os dados explorados a preciso
baixa. O ganho de preciso no significativo e no depende da seleo de recursos e mtodo
utilizado. Apesar da morfologia complexa da lngua Czech, os resultados no seriam bastante
superiores para outras linguagens como por exemplo o ingls. Lematizao no desempenha um papel
significativo.

You might also like