Artigo 3 - AlexonDelgado - 1601710

Comparison of Different Lemmatization
Approaches through the Means of Information
Retrieval Performance.
Alexon Delgado 1601710.
Pesquisa e Recuperao de Informao
Mestrado em Tecnologias e Sistemas Informticos Web Universidade Aberta
Resumo
A avaliao de desempenho de lematizadores baseado em dados padronizados manualmente trs o
problema de conjuntos de lemmas possivelmente incompatveis em vrios sistemas, no artigo avaliou-
se o desempenho quantitativo de duas abordagens diferentes (manual VS automtico) para a tarefa de
lematizao da lngua Czech, avaliando a Preciso Mdia Generalizada (mGAP) dos documentos
lematizados e consultas no conjunto de experincias de recuperao de informao (RI), sendo que a
lngua flexionada Czech apresenta uma grande variedade de formas de palavras pertencentes a um
nico lemma que complica muitas das tarefas de processamento de linguagem natural, desde a
modelagem de linguagem, onde causa a fragmentao desfavorvel dos dados de treinamento, s
tarefas de manipulao de palavras-chave e recuperao de informaes (RI), onde a
incompatibilidade entre a forma de palavras usada na consulta e que ocorrem na coleo pesquisada
impede que sejam encontradas muitas ocorrncias da palavras-chave e/ou documentos relevantes,
portanto, uma lematizao correta crucial para a efetividade de RI na linguagem flexionada Czech.
A primeira abordagem baseia-se no dicionrio de lemmas preparado manualmente e no conjunto de

regras de derivao, utilizou-se o The Prague Dependency Treebank, que fornece todos os lemmas
possveis para palavra e tambm um conjunto de todas as marcas morfolgicas concebveis e segunda
abordagem baseia-se na inferncia automtica do dicionrio de lemmas e um conjunto regras dos
dados de treinamento. Os dados de treinamento consistem em pares de palavras completas (lemma). A
inferncia das regras de lematizao baseia-se na procura da subcadeia comum mais longa da forma
completa e do lemma. Para o treinamento do lematizador automtico foi utilizada a Prague
Dependency Treebank 2.0 (PDT) com formas de palavras completas e os lemmas correspondentes
obtendo os dados de treinamento simplesmente extraindo estes pares, e foi utilizado o dicionrio
Czech de lemmas e arquivo de regra de derivao do programa de verificao ortogrfica Ispell
obtendo o segundo conjunto de dados de treinamento a partir de arquivos Ispell que contm regras que
permitem gerar todas as formas de palavras completas para cada lemma no dicionrio, usando o
gerador morfolgico.
Training set # pairs # lemmas
PDT 200 431 66 401
Ispell 4 315 161 297 701

Tabela 1 Informaes quantitativas dos conjuntos de dados de treinamento adquiridos (PDT e
Ispell).
Lem_PDT Lem_Ispell
# lemmas 66 401 297 701
# rules 2 431 2 683
# P rules 231 55
# S rules 2 218 2 628
# patterms 28 867 34 999
# P + S patterns 26 436 32 3331
# P patterns 213 55
# S patterns 2 218 2 613

Tabela 2 lematizadores criados automaticamente (Lem_PDT e Lem_Ispell).
O lemmatizador manual (Lem_H) e o lematizador treinado nos dados de treinamento PDT

(Lem_PDT) foram comparados diretamente uma vez que compartilham o mesmo conjunto de lemmas
e os resultados esto na Tab. 3.
Test data Palavras fora do

Vocabulrio
R[%] P[%] F R[%] P[%] F
Lem_H 99.38 82.45 0.90 73.41 100.00 0.85
Lem_H_G 99.50 79.71 0.89 93.88 12.90 0.23
Lem_PDT 99.10 73.65 0.85 75.35 96.19 0.85
Lem_PDT_oP 81.77 98.33 0.89 73.26 99.09 0.84
Lem_PDT_min 75.79 98.59 0.86 72.67 99.69 0.84

Tabela 3 Comparao dos lematizadores
Recall (o nmero de palavras corretamente lematizadas para o nmero total de palavras processadas)
(R);
Preciso (a relao do nmero de palavras corretamente lematizadas para o nmero de todos os

lemmas gerados pelo lematizador para todos corretamente lematizados (P) e uma medida F harmnica
((2 R P) / (R + P)) (F) foram avaliados na parte de dados de teste do corpus PDT.
Lem_H_G denota o lematizador manual com o adivinho morfolgico ativado (o adivinhador no tenta
adivinhar o lema correto, mas apenas todas as possveis marcas morfolgicas e, alm disso, produz
todas as formas de palavras presumivelmente vlidas para uma determinada palavra).
Lem_PD_ oP e Lem_PDT_min denotam o lematizador treinado automaticamente usando apenas

padres de palavra fora do vocabulrio para lematizao de todas as palavras dadas e o lematizador
treinado automaticamente usando apenas padres de palavras fora do vocabulrio de prefixo e sufixo,
respetivamente. Nas trs ltimas colunas da tabela esto os resultados para a lematizao de palavras
2
de palavras fora do vocabulrio (palavras desconhecidas pelo Lem_H). H apenas uma pequena
diferena entre lematizadores (Lem_H_G e Lem_PDT) (R)(0,4%), enquanto a diferena entre
precises muito mais significativa (6,06%).
O lematizador criado automaticamente apresenta dois conjuntos de resultados - um para cada conjunto
de dados de treinamento da coleo de RI que foi usada na tarefa checa da faixa de recuperao de fala
em vrias lnguas organizada dentro da campanha de avaliao CLEF 2007. A Tabela 4 mostra a
avaliao mGAP para os dois conjuntos de dados de teste (treinamento, avaliao) e os dois conjuntos
de termos (TD consulta a partir dos termos dos campos <title> (T) <desc> (D)) e (TDN consulta de
todos os termos dos campos <title> (T) <desc> (D) <narr> (N)). O parmetro de interpolao foi
ajustado para 0,5. Os resultados de recuperao para os trs lematizadores so significativamente
melhores do que o resultado para dados no-lematizados (palavras) para todos os conjuntos de
consultas e termos.
Test data words Lem_H_G Lem_PDT Lem_Ispell
Train TD 0.0163 0.0270 0.0322 0.0280
Train TDN 0.0164 0.0343 0.0364 0.0362
Eval TD 0.0114 0.0220 0.0250 0.0200
Eval TDN 0.0126 0.0274 0.0307 0.0243

Tabela 4 Comparao dos valores mGAP entre consultas lematizadas e no-lematizadas.
Como pode ser observado na tabela 4, quando se compara os resultados da recuperao do lematizador
Lem_H_G e o lematizador Lem_PDT, este ultimo apresenta resultados melhores para ambos os
conjuntos de consultas e termos. Comparando o Lem Ispell com Lem_H_G os resultados so melhores
para o conjunto de treinamento de consultas e pior para o conjunto de avaliao. Porque o desempenho
de recuperao deste sistema RI pode diferir para vrios nveis de interpolao. Os resultados so
mostrados nas tabelas 5 e 6, curso bastante semelhante para todos os nveis de interpolao pode ser
visto.
Term set TD TDN
Lemma / 0.1 0.25 0.5 0.75 0.9 0.1 0.25 0.5 0.75 0.9
Lem_H_G 0.0306 0.0290 0.0270 0.0261 0.0251 0.0392 0.0376 0.0343 0.0317 0.0295
Lem_PDT 0.0352 0.0343 0.0322 0.0298 0.0278 0.0396 0.0388 0.0364 0.0343 0.0307
Lem_Ispell 0.0328 0.0303 0.0280 0.0268 0.0255 0.0415 0.0397 0.0362 0.0329 0.0306
Lem_PDT_min 0.0326 0.0321 0.0305 0.0277 0.0264 0.0364 0.0345 0.0325 0.0305 0.0269
Lem_Ispell_min 0.0286 0.0274 0.0255 0.0231 0.0221 0.0394 0.0374 0.0347 0.0321 0.0296
Ispell).
3
Term set TD TDN
Lemma / 0.1 0.25 0.5 0.75 0.9 0.1 0.25 0.5 0.75 0.9
Lem_H_G 0.0200 0.0212 0.0220 0.0222 0.0215 0.0255 0.0257 0.0274 0.0271 0.0260
Lem_PDT 0.0236 0.0243 0.0250 0.0252 0.0250 0.0281 0.0310 0.0307 0.0287 0.0271
Lem_Ispell 0.0193 0.0200 0.0200 0.0194 0.0198 0.0227 0.0234 0.0243 0.0243 0.0235
Lem_PDT_min 0.0186 0.0193 0.0197 0.0198 0.0195 0.0217 0.0215 0.0219 0.0215 0.0209
Lem_Ispell_min 0.0192 0.0199 0.0205 0.0204 0.0197 0.0178 0.0185 0.0178 0.0181 0.0168
Ispell).
Analisando os resultados verifica-se que os resultados de recuperao para os dados lematizados so

melhores do que os resultados para dados no lematizados, tendo obtido um nvel de significncia de
0,01 para todos os trs lematizadores testados quando testados em todos os conjuntos de consulta e
termos e configuraes diferentes do mtodo de recuperao. Quanto a lematizadores criados
automaticamente versus o criado manualmente, diferena entre Lem_H_G e Lem_PDT foi
estatisticamente significativa com o nvel de significncia de 0,01 e a diferena entre Lem_H_G e
Lem_Ispell no mostrou ser estatisticamente significativa. Avaliando os lematizadores criados
automaticamente atravs de consultas em um conjunto a diferena no mostrou ser estatisticamente
significativa. Devido grande variao da pontuao GAP entre as consultas no conjunto e pequeno
nmero de consultas. As duas ltimas linhas nas tabelas 5 e 6 mostram resultados de recuperao para
lematizadores com configurao mnima (Lem_PDT_min, Lem_Ispell_min). A diferena no recall dos
lematizadores parece afetar a preciso de recuperao, mas o resultado ainda superior em
comparao com o uso de dados no lematizados e especialmente adequado para os sistemas de RI
eficientes em memria.
Quando se utiliza o lematizador para fins de sistema RI, no h diferena substancial no desempenho
de lematizadores criados manualmente e automaticamente. Na verdade, o lematizador criado
automaticamente (Lem_PDT) at melhorou o desempenho de recuperao dentro do cenrio
experimental (como o ganho na pontuao mGAP tem sido demonstrado ser estatisticamente
significativa para o paradigma RI e a coleo de teste).
Este resultado especialmente promissor na perspetiva de desenvolvimento de sistemas RI para outras

lnguas, uma vez que graas existncia dos recursos Ispell para muitas lnguas, um lematizador
aceitvel pode ser facilmente construdo sem a necessidade de um corpus manualmente criado ou um
analisador morfolgico criado manualmente (Lematizador).
Uma Analise mais detalhada das causas e testes mais alargados dos fenmenos utilizando mtodos
mais sofisticados de recuperao de informao permitiriam uma melhor perceo de ganho de
desempenho, pois os experimentos realizados foram bastante simplificados. O uso de ferramentas de
processamento de linguagens natural e mtodos de seleo com suporte vetorial e Naive Bayes
conseguia melhores resultados em termos de preciso. Para todos os dados explorados a preciso
baixa. O ganho de preciso no significativo e no depende da seleo de recursos e mtodo
utilizado. Apesar da morfologia complexa da lngua Czech, os resultados no seriam bastante
superiores para outras linguagens como por exemplo o ingls. Lematizao no desempenha um papel
significativo.

Artigo 3 - AlexonDelgado - 1601710

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Artigo 3 - AlexonDelgado - 1601710

Uploaded by

Copyright:

Available Formats

Comparison of Different Lemmatization

Approaches through the Means of Information

Alexon Delgado 1601710.

Pesquisa e Recuperao de Informao

Mestrado em Tecnologias e Sistemas Informticos Web Universidade Aberta

A primeira abordagem baseia-se no dicionrio de lemmas preparado manualmente e no conjunto de

Training set # pairs # lemmas

PDT 200 431 66 401

Ispell 4 315 161 297 701

# lemmas 66 401 297 701

# rules 2 431 2 683

# S rules 2 218 2 628

# patterms 28 867 34 999

# P + S patterns 26 436 32 3331

# S patterns 2 218 2 613

O lemmatizador manual (Lem_H) e o lematizador treinado nos dados de treinamento PDT

Test data Palavras fora do

R[%] P[%] F R[%] P[%] F

Lem_H 99.38 82.45 0.90 73.41 100.00 0.85

Lem_H_G 99.50 79.71 0.89 93.88 12.90 0.23

Lem_PDT 99.10 73.65 0.85 75.35 96.19 0.85

Lem_PDT_oP 81.77 98.33 0.89 73.26 99.09 0.84

Lem_PDT_min 75.79 98.59 0.86 72.67 99.69 0.84

Preciso (a relao do nmero de palavras corretamente lematizadas para o nmero de todos os

Lem_PD_ oP e Lem_PDT_min denotam o lematizador treinado automaticamente usando apenas

Test data words Lem_H_G Lem_PDT Lem_Ispell

Train TD 0.0163 0.0270 0.0322 0.0280

Train TDN 0.0164 0.0343 0.0364 0.0362

Eval TD 0.0114 0.0220 0.0250 0.0200

Eval TDN 0.0126 0.0274 0.0307 0.0243

Term set TD TDN

Term set TD TDN

Analisando os resultados verifica-se que os resultados de recuperao para os dados lematizados so

Este resultado especialmente promissor na perspetiva de desenvolvimento de sistemas RI para outras

You might also like