Professional Documents
Culture Documents
Retrieval Performance.
Resumo
A avaliao de desempenho de lematizadores baseado em dados padronizados manualmente trs o
problema de conjuntos de lemmas possivelmente incompatveis em vrios sistemas, no artigo avaliou-
se o desempenho quantitativo de duas abordagens diferentes (manual VS automtico) para a tarefa de
lematizao da lngua Czech, avaliando a Preciso Mdia Generalizada (mGAP) dos documentos
lematizados e consultas no conjunto de experincias de recuperao de informao (RI), sendo que a
lngua flexionada Czech apresenta uma grande variedade de formas de palavras pertencentes a um
nico lemma que complica muitas das tarefas de processamento de linguagem natural, desde a
modelagem de linguagem, onde causa a fragmentao desfavorvel dos dados de treinamento, s
tarefas de manipulao de palavras-chave e recuperao de informaes (RI), onde a
incompatibilidade entre a forma de palavras usada na consulta e que ocorrem na coleo pesquisada
impede que sejam encontradas muitas ocorrncias da palavras-chave e/ou documentos relevantes,
portanto, uma lematizao correta crucial para a efetividade de RI na linguagem flexionada Czech.
Lem_PDT Lem_Ispell
# P rules 231 55
# P patterns 213 55
Recall (o nmero de palavras corretamente lematizadas para o nmero total de palavras processadas)
(R);
Lem_H_G denota o lematizador manual com o adivinho morfolgico ativado (o adivinhador no tenta
adivinhar o lema correto, mas apenas todas as possveis marcas morfolgicas e, alm disso, produz
todas as formas de palavras presumivelmente vlidas para uma determinada palavra).
O lematizador criado automaticamente apresenta dois conjuntos de resultados - um para cada conjunto
de dados de treinamento da coleo de RI que foi usada na tarefa checa da faixa de recuperao de fala
em vrias lnguas organizada dentro da campanha de avaliao CLEF 2007. A Tabela 4 mostra a
avaliao mGAP para os dois conjuntos de dados de teste (treinamento, avaliao) e os dois conjuntos
de termos (TD consulta a partir dos termos dos campos <title> (T) <desc> (D)) e (TDN consulta de
todos os termos dos campos <title> (T) <desc> (D) <narr> (N)). O parmetro de interpolao foi
ajustado para 0,5. Os resultados de recuperao para os trs lematizadores so significativamente
melhores do que o resultado para dados no-lematizados (palavras) para todos os conjuntos de
consultas e termos.
Como pode ser observado na tabela 4, quando se compara os resultados da recuperao do lematizador
Lem_H_G e o lematizador Lem_PDT, este ultimo apresenta resultados melhores para ambos os
conjuntos de consultas e termos. Comparando o Lem Ispell com Lem_H_G os resultados so melhores
para o conjunto de treinamento de consultas e pior para o conjunto de avaliao. Porque o desempenho
de recuperao deste sistema RI pode diferir para vrios nveis de interpolao. Os resultados so
mostrados nas tabelas 5 e 6, curso bastante semelhante para todos os nveis de interpolao pode ser
visto.
Lemma / 0.1 0.25 0.5 0.75 0.9 0.1 0.25 0.5 0.75 0.9
Lem_H_G 0.0306 0.0290 0.0270 0.0261 0.0251 0.0392 0.0376 0.0343 0.0317 0.0295
Lem_PDT 0.0352 0.0343 0.0322 0.0298 0.0278 0.0396 0.0388 0.0364 0.0343 0.0307
Lem_Ispell 0.0328 0.0303 0.0280 0.0268 0.0255 0.0415 0.0397 0.0362 0.0329 0.0306
Lem_PDT_min 0.0326 0.0321 0.0305 0.0277 0.0264 0.0364 0.0345 0.0325 0.0305 0.0269
Lem_Ispell_min 0.0286 0.0274 0.0255 0.0231 0.0221 0.0394 0.0374 0.0347 0.0321 0.0296
Tabela 5 Informaes quantitativas dos conjuntos de dados de treinamento adquiridos (PDT e
Ispell).
3
Pesquisa e Recuperao de Informao
Lemma / 0.1 0.25 0.5 0.75 0.9 0.1 0.25 0.5 0.75 0.9
Lem_H_G 0.0200 0.0212 0.0220 0.0222 0.0215 0.0255 0.0257 0.0274 0.0271 0.0260
Lem_PDT 0.0236 0.0243 0.0250 0.0252 0.0250 0.0281 0.0310 0.0307 0.0287 0.0271
Lem_Ispell 0.0193 0.0200 0.0200 0.0194 0.0198 0.0227 0.0234 0.0243 0.0243 0.0235
Lem_PDT_min 0.0186 0.0193 0.0197 0.0198 0.0195 0.0217 0.0215 0.0219 0.0215 0.0209
Lem_Ispell_min 0.0192 0.0199 0.0205 0.0204 0.0197 0.0178 0.0185 0.0178 0.0181 0.0168
Tabela 5 Informaes quantitativas dos conjuntos de dados de treinamento adquiridos (PDT e
Ispell).
Quando se utiliza o lematizador para fins de sistema RI, no h diferena substancial no desempenho
de lematizadores criados manualmente e automaticamente. Na verdade, o lematizador criado
automaticamente (Lem_PDT) at melhorou o desempenho de recuperao dentro do cenrio
experimental (como o ganho na pontuao mGAP tem sido demonstrado ser estatisticamente
significativa para o paradigma RI e a coleo de teste).
Uma Analise mais detalhada das causas e testes mais alargados dos fenmenos utilizando mtodos
mais sofisticados de recuperao de informao permitiriam uma melhor perceo de ganho de
desempenho, pois os experimentos realizados foram bastante simplificados. O uso de ferramentas de
processamento de linguagens natural e mtodos de seleo com suporte vetorial e Naive Bayes
conseguia melhores resultados em termos de preciso. Para todos os dados explorados a preciso
baixa. O ganho de preciso no significativo e no depende da seleo de recursos e mtodo
utilizado. Apesar da morfologia complexa da lngua Czech, os resultados no seriam bastante
superiores para outras linguagens como por exemplo o ingls. Lematizao no desempenha um papel
significativo.