Professional Documents
Culture Documents
ISSN: 1135-5948 © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Xabier Saralegi y Iñaki Alegria
objetivo final de este servicio es ofrecer al una colección previamente procesada por el
lector una navegación más completa y mismo, y se ha calculado la precisión
organizada. Una navegación similar a la analizando manualmente los cuatro primeros
ofrecida por NewsExplorer (Steinberger, semejantes detectados automáticamente (cutoff
Pouliquen y Ignatet, 2005) pero especializada 4).
en contenidos científico-técnicos.
Con ese objetivo, se ha diseñado y 2 Obtención de documentos
desarrollado un sistema (Fig.1) que abarca las
Nuestro sistema se especializa en la recolección
tareas de recopilación automática de noticias
e interrelación de documentos pertenecientes al
procedentes de distintas fuentes, su
dominio científico-técnico dentro del genero
representación mediante un modelo algebraico,
periodístico o divulgativo. Se ha confeccionado
y el cálculo de las similitudes entre documentos
una lista de sitios web referentes dentro de la
escritos en el mismo o en distintos idiomas.
divulgación científica que sirvan de fuentes de
información.
Para la creación y continua actualización de
la colección de noticias provenientes de las
distintas fuentes, se ha implementado un lector
basado en sindicación RSS. Mediante la
sindicación RSS obtenemos de manera
periódica resúmenes de las noticias que se
publican en un determinado sitio-web. Los
resúmenes suelen contener adicionalmente el
Fig 1. Esquema del flujo de información título y la URL de cada noticia. Esto implica
que, si deseamos acceder al contenido de la
La recopilación automática de noticias noticia, debemos acudir al documento HTML y
-tanto locales como remotas- la realiza un robot extraer su contenido.
basado en agregadores RSS y wrappers HTML. Sin embargo esta última tarea no es trivial,
La posterior representación de los documentos ya que el texto del contenido suele estar
se hace según el modelo de espacio vectorial. mezclado con otros elementos textuales
Para la construcción de los vectores se añadidos -tales como menús de navegación,
seleccionan las palabras clave siguiendo publicidad, información corporativa...-. 1 Para
criterios lingüísticos. Concretamente se escogen realizar esta limpieza se proponen generalmente
nombres comunes, entidades y términos técnicas de carácter automático basadas en
multipalabra, y se calcula su relevancia según la aprendizaje supervisado (Lee, Kan y Lai, 2004),
ecuación tf-idf. La traducción de los vectores pero los resultados no llegan a ser óptimos. Por
generados a partir de documentos escritos en esa razón, y teniendo además en cuenta que la
distintos idiomas se hace hacia el euskera, y se lista de sitos web a tratar no es muy amplia,
utilizan tanto diccionarios técnicos como hemos decidido implementar los wrappers de
diccionarios de carácter general. Para el manera manual. Concretamente se ha analizado
tratamiento de las traducciones ambiguas se ha manualmente la estructura HTML de las
diseñado un sencillo y efectivo método. noticias publicadas en cada sitio web, y se han
Finalmente, el grado de similitud se estima
1
mediante el coseno entre los vectores. Con el objetivo de impulsar trabajos enfocados
a la limpieza de documentos web SIGWAC ha
Con el propósito de evaluar el sistema, se ha
programado para Junio del 2007 una tarea
escogido un grupo de documentos al azar de
(CLEANEVAL) en formato de competición.
72
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
implementado parsers empleando el modelo aportaría más que ruido para el caso que nos
XPath en base a los patrones observados en ocupa: modelar el contenido semántico. Así, se
cada sitio web. han seleccionado nombres comunes, entidades
La obtención de noticias publicadas se lleva y términos multipalabra. El caso de los
a cabo, por tanto, en dos pasos: Primero, adjetivos y verbos no es claro (Chen y Hsi,
mediante el agregador RSS obtenemos los 2002), y en nuestro caso su ausencia se debe
metadatos de las noticias publicadas en unos fundamentalmente a que, al estar poco
sitios web determinados y, a continuación, representados en los diccionarios técnicos
extraemos el contenido textual del documento bilingües, su traducción resultaba limitada. De
HTML señalado en los metadatos mediante el todas formas, realizamos una serie de
wrapper HTML correspondiente al sitio web. experimentos (no concluyentes) que apuntaban
Como paso añadido, debido a que algunos a que la no inclusión de verbos y adjetivos
sitios web publican noticias en varios idiomas, implicaba una casi nula mejora en la detección
detectamos el idioma del documento utilizando de documentos similares.
LangId2. Esta identificación es necesaria para Los términos multipalabra en todos los
poder determinar posteriormente el sentido en idiomas a tratar (euskera, inglés y castellano) se
el que será traducido el vector generado. han identificado a partir de una lista de
términos (Euskalterm3, ZT hiztegia4) sobre el
3 Representación de los documentos texto lematizado. Hemos descartado utilizar
multilingües técnicas de detección automática de
terminología para evitar la generación de ruido
En este trabajo se ha experimentado únicamente
y también simplificar la posterior traducción
con el modelo de espacio vectorial. Pese ha
mediante diccionarios. Para el caso de la
existir modelos más avanzados (Ponte y Croft,
identificación de entidades hemos utilizado un
1998), hemos considerado que trabajar con este
heurístico sencillo pero a la vez eficiente en
modelo nos proporcionará un robusto prototipo
cuanto a la precisión u omisión de ruido.
que podrá ser mejorado en el futuro.
Concretamente se han marcado como entidades
Para la construcción de los vectores, hemos
las series de palabras escritas en mayúscula y
partido de los documentos en formato texto que
que, o son palabras desconocidas, o aparecen en
en el sistema son suministrados según el
un repertorio de entidades monopalabra
método explicado en el punto 2.1. Como
previamente elaborado.
primer paso se ha realizado una selección del
Para calcular la relevancia de cada palabra
léxico representativo según criterios
clave se ha experimentado con distintas
lingüísticos. Para ello, previamente se ha
variantes de tf-idf. Según nuestros
etiquetado automáticamente cada texto. El
experimentos aplicando el logaritmo a tf (1)
etiquetado POS y lematizado se ha llevado a
cabo con las herramientas Eustagger para el tf-idf= log(tf) · idf (1)
caso del euskera, y Freeling para el caso del hemos obtenido mejores resultados, ya que
castellano e inglés. A partir del texto se ha observado que la similitud entre
lematizado se han podido identificar
determinadas unidades léxicas que hemos 3
Diccionario terminológico que contiene al
estimado como más representativas del rededor de 100.000 fichas terminológicas en euskera
contenido, descartando el léxico que no con equivalencias en español, francés, inglés y latín.
4
Diccionario enciclopédico de ciencia y
2
Un identificador de idioma basado en palabras y tecnología que consta aproximadamente de 15.000
frecuencias de trigramas desarrollado por el grupo entradas en euskera con equivalencias en español,
IXA de la UPV/EHU. francés, inglés.
73
Xabier Saralegi y Iñaki Alegria
documentos con muy pocas claves (con valores tratar “query expansión” en un entorno
tf-idf altos) en común obtenía puntuaciones monolingüe, ponderan según una estrategia
demasiado altas, generando en muchos casos prudente las posibles traducciones de cada
similitudes imprecisas (falsos positivos). palabra penalizando el peso tf-idf de todas si el
valor df de alguna de ellas es alto.
4 Similitud multilingüe Un tipo de traducción basada en corpus es la
guiada por modelos estadísticos (Hiemstra,
4.1 Medidas de similitud 2001). La traducción de los vectores se lleva a
Para el cálculo de la similitud entre documentos cabo mediante el uso de un modelo de
representados según el modelo espacio traducción -entrenado a partir de un corpus
vectorial existen distintas métricas. La más bilingüe en los idiomas a tratar-. De esta forma,
extendida es el coseno. Otras métricas también se obtiene la traducción del vector más
utilizadas son Jackar, Dice... En el modelo probable según el modelo de traducción y el
OKAPI se toma en consideración el tamaño del modelo de lenguaje del idioma objetivo.
documento y la colección proporcionando De todas formas, tanto la cobertura como la
mejores resultados. (Robertson et al., 1994) precisión de las técnicas mencionadas no son
Las métricas mencionadas son aplicables óptimas. Esto hace que en el proceso de
directamente a vectores que representan textos traducción se pierda información -o se
de un mismo idioma pero, para el caso de introduzca ruido-, de forma que la
vectores que corresponden a distintos idiomas, representación siempre vaya a ser inferior al
es necesario realizar previamente un proceso de original. Con el objetivo de reforzar la
traducción. Para llevar a cabo esa tarea dos son representación se pueden utilizar técnicas de
las principales estrategias que se proponen en la “query expansion”, de manera que se añadan
literatura: traducción del vector mediante un nuevas palabras clave relacionadas
modelo estadístico entrenado a partir de un semánticamente con el conjunto de términos del
corpus bilingüe (Hiemstra, 2001) (basada en vector.
corpus), o traducción del vector mediante Otras técnicas que no necesitan de
diccionarios bilingües (Pirkola, 1998) (basada traducción por ser independientes del lenguaje,
en diccionarios). y que resultan apropiadas cuando los pares de
En la traducción mediante diccionarios la idiomas a tratar son muy numerosos, son todas
traducción obtenida puede resultar muy ruidosa aquellas en las que la selección de palabras
ya que la traducción de una palabra resulta clave del documento se realice mediante
ambigua en muchos casos. En tal caso, si lexicones o tesauros multilingües tales como
aceptamos todas las traducciones posibles y WordNet o Eurovoc. En (Steinberger,
calculamos su tf-idf según la frecuencia de la Pouliquen y Hagman, 2002) por ejemplo, se
palabra original, podemos introducir asignan descriptores independientes del idiomas
traducciones erróneas que desdibujan la del tesauro Eurovoc a cada vector mediante un
representación del documento original. Esto modelo estadístico entrenado mediante
resulta realmente peligroso ya que las aprendizaje supervisado. WordNet, por
traducciones extrañas, al tener un alto idf, ejemplo, es utilizado en (Stokes y Carthy, 2001)
pueden fácilmente distorsionar la para representar los documentos mediante
representación del vector, y en consecuencia el cadenas léxicas.
cálculo de similitudes. Como posible solución
se plantean las “consultas estructuradas”
(Pirkola, 1998). Originalmente pensadas para
74
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
75
Xabier Saralegi y Iñaki Alegria
i , j D v i w j notablemente.
cos v , tr(w) (2)
v
w
# docs # palabras # palab/doc
Así, evitamos el ruido que generaría la es 108 71.366 661
inclusión de las traducciones incorrectas. Frente
eu 3146 1.249.255 397
al caso de utilizar técnicas de ponderación
equitativa de las traducciones, nuestra técnica en 550 284.317 517
también se debe mostrar más efectiva en cuanto
a la precisión final, ya que el posible ruido
Tabla 4: Colección de noticias procesada
afectará solamente a parejas de documentos con
baja semejanza mutua. Como hemos dicho
anteriormente, suponemos que la probabilidad Para la evaluación formamos 3 grupos (uno
de que muchas traducciones incorrectas para cada idioma) de 10 documentos escogidos
concurran en el otro vector es baja. aleatoriamente de la colección base. Tras
En el sistema, el cálculo de similitudes entre procesar toda la colección mediante el sistema
documentos se realiza cada vez que el robot analizamos por cada documento los 4 primeros
recoge una nueva colección de noticias. Se más semejantes (de entre los de Zientzia.net)
calculan las distancias entre los documentos según el sistema. El método de análisis
recientemente recogidos y los documentos de propuesto consistió en valorar el grado de
Zientzia.net tanto nuevos como previamente semejanza del contenido en base a una escala de
almacenados. relevancia dividida en cuatro categorías y
76
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
77
Xabier Saralegi y Iñaki Alegria
Los resultados obtenidos nos deben llevar a Lee, C. H., M. Kan, y S. Lai. 2004. Stylistic and
realizar una evaluación más exhaustiva. lexical co-training for web block
Independientemente de esto, se ha comprobado classification. WIDM 2004. 136-143
que la traducción mediante diccionarios resulta Ogilvie, P., y J. Callan. 2001. Experiments
positiva, más concretamente con el uso los using the Lemur toolkit. Proceedings of the
diccionarios técnicos. El uso del método de Tenth Text Retrieval Conference (TREC-
desambiguación propuesto también ha sido 10).
exitoso, pero una nueva evaluación es necesaria
Pirkola, A. 1998. The Effects of Query
para cuantificar mejor la mejora conseguida.
Structure and Dictionary setups in
Sería muy interesante evaluar la perdida de
DictionaryBased Cross-language
precisión usando solamente resúmenes RSS, ya
Information Retrieval. Proce. of the 21st
que consiguiendo un buen resultado estas
International ACM SIGIR Conference on
técnicas podrían ser usadas para gran cantidad
Research and Development in Information
de fuentes sin necesidad de utilizar wrappers.
Retrieval, pages 55-63.
También se pretende realizar nuevos
experimentos con modelos de lenguaje, Ponte, J., y W. Croft. 1998. A Language
preguntas estructuradas y distintas medidas de Modeling Approach to Information
similitud. Adicionalmente queremos mejorar la Retrieval. In: Croft et al. (ed.): Proceedings
traducción de entidades mediante detección de of the 21st Annual Interna- tional ACM
cognados, y la traducción general mediante SIGIR Conference on Research and
generación de tesauros multilingües a partir de Development in Information Retrieval, pages
corpus comparables. De cara a algunas de estas 275{281. ACM, New York.
tareas pensamos basar el motor de búsqueda en Robertson, S. E., S. Walker, S. Jones, M.
la herramienta Lemur toolkit (Ogilvie y Calla, Hancock-Beaulieu, M. Gatford. 1994. Okapi
2001). at TREC-3. NIST Text Retrieval Conference.
Rogati, M., y Y. Yang. 2004. Resource
Agradecimientos Selection for Domain Specific Cross-
Este trabajo está subvencionado por el Lingual IR. SIGIR 2004.
Departamento de Industria del Steinberger, R., B. Pouliquen, y J. Hagman.
Gobierno Vasco (proyectos Dokusare SA- 2002. Cross-lingual Document Similarity
2005/00272, Dokusare SA-2006/00167). Calculation Using the Multilingual
Thesaurus EUROVOC. Third International
Bibliografía Conference on Intelligent Text.
Braschler, M., y P. Schäuble. 1998. Steinberger, R., B. Pouliquen, y C. Ignat. 2005.
Multilingual Information Retrieval Based on NewsExplorer: multilingual news analysis
Document Alignment Techniques , ECDL with cross-lingual linking. Information
1998, pp. 183-197. Technology Interfaces.
Chen, Y., y H. Hsi. 2002. NLP and IR Stokes, N., y J. Carthy. 2001. Combining
approaches to monolingual and multilingual Semantic and Syntactic Document
link detection. The 19th Int'l Conf. Classifiers to Improve First Story Detection.
Computational Linguistics. Taipei, Taiwan. SIGIR 2001: 424-425.
Hiemstra, D. Using language models for
information retrieval. Ph.D. Thesis
University of Twente. Enschede.
78