Similitud Entre Documentos Multilingües de Carácter Científico

Procesamiento del Lenguaje Natural, nº39 (2007), pp.
71-78 recibido 18-05-2007; aceptado 22-06-2007
Similitud entre documentos multilingües de carácter científico-

técnico en un entorno Web
Xabier Saralegi Urizar Iñaki Alegria Loinaz

Elhuyar fundazioa IXA taldea. UPV/EHU
20170 Usurbil 649 p.k., 20080 Donostia
xabiers@elhuyar.org acpalloi@si.ehu.es
Resumen: En este artículo se presenta un sistema para la agrupación multilingüe de

documentos que tratan temas similares. Para la representación de los documentos se ha
empleado el modelo de espacio vectorial, utilizando criterios lingüísticos para la selección de
los palabras clave, la formula tf-idf para el cálculo de sus relevancias, y RSS feedback y
wrappers para actualizar el repositorio. Respecto al tratamiento multilingüe se ha seguido una
estrategia basada en diccionarios bilingües con desambiguación. Debido al carácter científico-
técnico de los textos se han empleado diccionarios técnicos combinados con diccionarios de
carácter general. Los resultados obtenidos han sido evaluados manualmente.
Palabras clave: CLIR, similitud translingüe, enlazado translingüe, RSS
Abstract: In this paper we present a system to identify documents of similar content. To

represent the documents we’ve used the vector space model using linguistic knowledge to
choose keywords and tf-idf to calculate the relevancy. The documents repository is updated by
RSS and HTML wrappers. As for the multilingual treatment we have used a strategy based in
bilingual dictionaries. Due to the scientific-technical nature of the texts, the translation of the
vector has been carried off by technical dictionaries combined with general dictionaries. The
obtained results have been evaluated in order to estimate the precision of the system.
Keywords: CLIR, cross-lingual similarity, cross-lingual linking, RSS
1 Introducción Frente a este problema, proponemos una

navegación organizada en base a la semejanza
La cantidad de información textual publicada
semántica entre contenidos, aplicada como
en Internet es cada vez mayor, resultando su
experiencia piloto en un entorno multilingüe de
grado de organización todavía deficiente y
sitios web de noticias científicas.
caótico en muchos casos. Situándonos por
Concretamente, hemos centrado nuestro
ejemplo en el contexto de los medios de
experimento en el sitio web de divulgación
comunicación, observamos que los servicios
científica en euskera Zientzia.net, combinando
que se ofrecen actualmente para una
los siguientes idiomas: euskera, castellano e
navegación integrada de información
inglés. Como resultado, Zientzia.net ofrecerá
proveniente de distintas fuentes resultan
para cada noticia publicada enlaces a otras
escasos, y más todavía cuando se trata de
noticias relacionadas, pudiendo estar publicadas
información multilingüe.
en diferentes sitios web y distintos idiomas. El
ISSN: 1135-5948 © 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Xabier Saralegi y Iñaki Alegria
objetivo final de este servicio es ofrecer al una colección previamente procesada por el
lector una navegación más completa y mismo, y se ha calculado la precisión
organizada. Una navegación similar a la analizando manualmente los cuatro primeros
ofrecida por NewsExplorer (Steinberger, semejantes detectados automáticamente (cutoff
Pouliquen y Ignatet, 2005) pero especializada 4).
en contenidos científico-técnicos.
Con ese objetivo, se ha diseñado y 2 Obtención de documentos
desarrollado un sistema (Fig.1) que abarca las
Nuestro sistema se especializa en la recolección
tareas de recopilación automática de noticias
e interrelación de documentos pertenecientes al
procedentes de distintas fuentes, su
dominio científico-técnico dentro del genero
representación mediante un modelo algebraico,
periodístico o divulgativo. Se ha confeccionado
y el cálculo de las similitudes entre documentos
una lista de sitios web referentes dentro de la
escritos en el mismo o en distintos idiomas.
divulgación científica que sirvan de fuentes de
información.
Para la creación y continua actualización de
la colección de noticias provenientes de las
distintas fuentes, se ha implementado un lector
basado en sindicación RSS. Mediante la
sindicación RSS obtenemos de manera
periódica resúmenes de las noticias que se
publican en un determinado sitio-web. Los
resúmenes suelen contener adicionalmente el
Fig 1. Esquema del flujo de información título y la URL de cada noticia. Esto implica
que, si deseamos acceder al contenido de la
La recopilación automática de noticias noticia, debemos acudir al documento HTML y
-tanto locales como remotas- la realiza un robot extraer su contenido.
basado en agregadores RSS y wrappers HTML. Sin embargo esta última tarea no es trivial,
La posterior representación de los documentos ya que el texto del contenido suele estar
se hace según el modelo de espacio vectorial. mezclado con otros elementos textuales
Para la construcción de los vectores se añadidos -tales como menús de navegación,
seleccionan las palabras clave siguiendo publicidad, información corporativa...-. 1 Para
criterios lingüísticos. Concretamente se escogen realizar esta limpieza se proponen generalmente
nombres comunes, entidades y términos técnicas de carácter automático basadas en
multipalabra, y se calcula su relevancia según la aprendizaje supervisado (Lee, Kan y Lai, 2004),
ecuación tf-idf. La traducción de los vectores pero los resultados no llegan a ser óptimos. Por
generados a partir de documentos escritos en esa razón, y teniendo además en cuenta que la
distintos idiomas se hace hacia el euskera, y se lista de sitos web a tratar no es muy amplia,
utilizan tanto diccionarios técnicos como hemos decidido implementar los wrappers de
diccionarios de carácter general. Para el manera manual. Concretamente se ha analizado
tratamiento de las traducciones ambiguas se ha manualmente la estructura HTML de las
diseñado un sencillo y efectivo método. noticias publicadas en cada sitio web, y se han
Finalmente, el grado de similitud se estima
1
mediante el coseno entre los vectores. Con el objetivo de impulsar trabajos enfocados
a la limpieza de documentos web SIGWAC ha
Con el propósito de evaluar el sistema, se ha
programado para Junio del 2007 una tarea
escogido un grupo de documentos al azar de
(CLEANEVAL) en formato de competición.
72
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
implementado parsers empleando el modelo aportaría más que ruido para el caso que nos
XPath en base a los patrones observados en ocupa: modelar el contenido semántico. Así, se
cada sitio web. han seleccionado nombres comunes, entidades
La obtención de noticias publicadas se lleva y términos multipalabra. El caso de los
a cabo, por tanto, en dos pasos: Primero, adjetivos y verbos no es claro (Chen y Hsi,
mediante el agregador RSS obtenemos los 2002), y en nuestro caso su ausencia se debe
metadatos de las noticias publicadas en unos fundamentalmente a que, al estar poco
sitios web determinados y, a continuación, representados en los diccionarios técnicos
extraemos el contenido textual del documento bilingües, su traducción resultaba limitada. De
HTML señalado en los metadatos mediante el todas formas, realizamos una serie de
wrapper HTML correspondiente al sitio web. experimentos (no concluyentes) que apuntaban
Como paso añadido, debido a que algunos a que la no inclusión de verbos y adjetivos
sitios web publican noticias en varios idiomas, implicaba una casi nula mejora en la detección
detectamos el idioma del documento utilizando de documentos similares.
LangId2. Esta identificación es necesaria para Los términos multipalabra en todos los
poder determinar posteriormente el sentido en idiomas a tratar (euskera, inglés y castellano) se
el que será traducido el vector generado. han identificado a partir de una lista de
términos (Euskalterm3, ZT hiztegia4) sobre el
3 Representación de los documentos texto lematizado. Hemos descartado utilizar
multilingües técnicas de detección automática de
terminología para evitar la generación de ruido
En este trabajo se ha experimentado únicamente
y también simplificar la posterior traducción
con el modelo de espacio vectorial. Pese ha
mediante diccionarios. Para el caso de la
existir modelos más avanzados (Ponte y Croft,
identificación de entidades hemos utilizado un
1998), hemos considerado que trabajar con este
heurístico sencillo pero a la vez eficiente en
modelo nos proporcionará un robusto prototipo
cuanto a la precisión u omisión de ruido.
que podrá ser mejorado en el futuro.
Concretamente se han marcado como entidades
Para la construcción de los vectores, hemos
las series de palabras escritas en mayúscula y
partido de los documentos en formato texto que
que, o son palabras desconocidas, o aparecen en
en el sistema son suministrados según el
un repertorio de entidades monopalabra
método explicado en el punto 2.1. Como
previamente elaborado.
primer paso se ha realizado una selección del
Para calcular la relevancia de cada palabra
léxico representativo según criterios
clave se ha experimentado con distintas
lingüísticos. Para ello, previamente se ha
variantes de tf-idf. Según nuestros
etiquetado automáticamente cada texto. El
experimentos aplicando el logaritmo a tf (1)
etiquetado POS y lematizado se ha llevado a
cabo con las herramientas Eustagger para el tf-idf= log(tf) · idf (1)
caso del euskera, y Freeling para el caso del hemos obtenido mejores resultados, ya que
castellano e inglés. A partir del texto se ha observado que la similitud entre
lematizado se han podido identificar
determinadas unidades léxicas que hemos 3
Diccionario terminológico que contiene al
estimado como más representativas del rededor de 100.000 fichas terminológicas en euskera
contenido, descartando el léxico que no con equivalencias en español, francés, inglés y latín.
4
Diccionario enciclopédico de ciencia y
2
Un identificador de idioma basado en palabras y tecnología que consta aproximadamente de 15.000
frecuencias de trigramas desarrollado por el grupo entradas en euskera con equivalencias en español,
IXA de la UPV/EHU. francés, inglés.
73
documentos con muy pocas claves (con valores tratar “query expansión” en un entorno
tf-idf altos) en común obtenía puntuaciones monolingüe, ponderan según una estrategia
demasiado altas, generando en muchos casos prudente las posibles traducciones de cada
similitudes imprecisas (falsos positivos). palabra penalizando el peso tf-idf de todas si el
valor df de alguna de ellas es alto.
4 Similitud multilingüe Un tipo de traducción basada en corpus es la
guiada por modelos estadísticos (Hiemstra,
4.1 Medidas de similitud 2001). La traducción de los vectores se lleva a
Para el cálculo de la similitud entre documentos cabo mediante el uso de un modelo de
representados según el modelo espacio traducción -entrenado a partir de un corpus
vectorial existen distintas métricas. La más bilingüe en los idiomas a tratar-. De esta forma,
extendida es el coseno. Otras métricas también se obtiene la traducción del vector más
utilizadas son Jackar, Dice... En el modelo probable según el modelo de traducción y el
OKAPI se toma en consideración el tamaño del modelo de lenguaje del idioma objetivo.
documento y la colección proporcionando De todas formas, tanto la cobertura como la
mejores resultados. (Robertson et al., 1994) precisión de las técnicas mencionadas no son
Las métricas mencionadas son aplicables óptimas. Esto hace que en el proceso de
directamente a vectores que representan textos traducción se pierda información -o se
de un mismo idioma pero, para el caso de introduzca ruido-, de forma que la
vectores que corresponden a distintos idiomas, representación siempre vaya a ser inferior al
es necesario realizar previamente un proceso de original. Con el objetivo de reforzar la
traducción. Para llevar a cabo esa tarea dos son representación se pueden utilizar técnicas de
las principales estrategias que se proponen en la “query expansion”, de manera que se añadan
literatura: traducción del vector mediante un nuevas palabras clave relacionadas
modelo estadístico entrenado a partir de un semánticamente con el conjunto de términos del
corpus bilingüe (Hiemstra, 2001) (basada en vector.
corpus), o traducción del vector mediante Otras técnicas que no necesitan de
diccionarios bilingües (Pirkola, 1998) (basada traducción por ser independientes del lenguaje,
en diccionarios). y que resultan apropiadas cuando los pares de
En la traducción mediante diccionarios la idiomas a tratar son muy numerosos, son todas
traducción obtenida puede resultar muy ruidosa aquellas en las que la selección de palabras
ya que la traducción de una palabra resulta clave del documento se realice mediante
ambigua en muchos casos. En tal caso, si lexicones o tesauros multilingües tales como
aceptamos todas las traducciones posibles y WordNet o Eurovoc. En (Steinberger,
calculamos su tf-idf según la frecuencia de la Pouliquen y Hagman, 2002) por ejemplo, se
palabra original, podemos introducir asignan descriptores independientes del idiomas
traducciones erróneas que desdibujan la del tesauro Eurovoc a cada vector mediante un
representación del documento original. Esto modelo estadístico entrenado mediante
resulta realmente peligroso ya que las aprendizaje supervisado. WordNet, por
traducciones extrañas, al tener un alto idf, ejemplo, es utilizado en (Stokes y Carthy, 2001)
pueden fácilmente distorsionar la para representar los documentos mediante
representación del vector, y en consecuencia el cadenas léxicas.
cálculo de similitudes. Como posible solución
se plantean las “consultas estructuradas”
(Pirkola, 1998). Originalmente pensadas para
74
4.2 Diccionarios léxico especializado. Parece, por tanto, que el

uso de diccionarios técnicos es una estrategia
Para el caso de vectores en distintos idiomas
apropiada. Más aún si también tenemos en
hemos seguido una traducción mediante
cuenta su menor grado de ambigüedad medio
diccionarios bilingües.
en las traducciones de las palabras clave (tabla
Debido al carácter científico de los
2).
documentos -es decir, un dominio amplio pero
acotado- hemos estimado apropiado el uso de
Dic. Dic.
recursos lingüísticos específicos (Rogati y
técnicos generales
Yang, 2004). Hemos combinado diccionarios
técnicos (Euskalterm, ZT hiztegia) con # traduc. en->eu 1.72 2.827
palabra
diccionarios generales (Elhuyar5, Morris6). No es->eu 1.805 4.243
hemos hecho una traducción estadística basada
en corpus paralelos por falta de recursos. No
disponemos ni de corpus bilingües de carácter Tabla 2: Ambigüedad media en traducciones
científico para todos los pares de lenguas, ni de
un alineador a nivel de palabra de precisión De todas formas, hemos observado que la
notable. cobertura respecto al léxico total podía tener
una incidencia negativa en la representación de
Dic. Dic. los textos, ya que algunas palabras generales
técnicos generales pueden jugar un papel representativo en los
tf-idf en 4.483 4.229 documentos. Adicionalmente, la inclusión
medio exclusiva de palabras técnicas también
es 5.036 4.871
desfiguraba la dimensión del vector, debido a
que las demás palabras del documento no
Tabla 1: tf-idf medio arit. para palabras clave estaban en modo alguno representadas.
Decidimos combinar de manera secuencial
Mediante el uso de diccionarios técnicos los diccionarios técnicos con diccionarios de
hemos logrado obtener un alto grado de carácter general. En la tabla 3 se puede
cobertura del léxico especializado. Justamente observar las coberturas para las palabras clave
el léxico que puede ser más representativo del (agrupadas en lemas) de una colección (tabla 4)
tema del documento. El la tabla 1 se muestra obtenidas con las distintas combinaciones de
los valores tf-idf de las palabras clave en inglés diccionarios.
con traducción en los diccionarios técnicos
frente a los tf-idf de las palabras clave con diccion. diccion. diccion.
técnicos general técnico +
traducciones contenidas en los diccionarios
general
generales. Las palabras clave se han agrupado
por lemas y provienen de una colección de en 55,52% 61,65% 74,48%
documentos reales (tabla 4). Se observa que, es 77,12% 89,02% 91,57%
según el valor medio aritmético tf-idf, el grado
de representatividad es ligeramente mayor en el
Tabla 3: Cobertura para las palabras clave
5
Diccionario castellano/vasco que consta de
88.000 entradas, 144.000 acepciones y 19.000
subentradas.
6
Diccionario inglés/vasco que consta de 67.000
entradas y 120.000 acepciones.
75
4.3 Traducciones ambiguas 5 Evaluación

Como hemos comentado antes, la traducción En la evaluación hemos querido analizar
por medio de diccionarios conlleva una posible únicamente los resultados obtenidos en el
ambigüedad que redunda en traducciones sistema final. Debido a la dificultad de calcular
incorrectas que desfiguran el vector traducido. la cobertura y, siendo la precisión el principal
El uso de diccionarios técnicos reduce en requisito del sistema, hemos evaluado
cierta medida este problema, ya que el nivel de únicamente esta última. Concretamente, hemos
polisemia y ambigüedad en la traducción es calculado la precisión analizando por cada
menor (tabla 2). Aun así, el ruido generado documento de la colección sus cuatro primeros
sigue siendo un problema como hemos semejantes según el sistema (cutoff).
comentado antes. Frente a ello, y teniendo La colección base de noticias se ha obtenido
como prioridad la precisión de los resultados y procesado mediante los procesos explicados
del sistema final, planteamos una sencilla en los anteriores apartados. Consta de todos los
estrategia de selección de traducción. artículos publicados hasta la fecha en
La selección se aplica cada vez que se Zientzia.net, y de artículos publicados en los
calcula la similitud (coseno) entre dos vectores otros sitios web durante un periodo de un mes
de distintos idiomas ( v y w ). Basándonos en (tabla 4). Aunque la idea del sistema es mostrar
la hipótesis de que la probabilidad de que los semejantes a partir de la navegación de los
muchas traducciones ( i , j D ) incorrectas documentos en euskera, la evaluación se ha
ocurran en el otro vector es baja, resolvemos la hecho en sentido inverso debido a la
desambiguación eligiendo para cada traducción superioridad numérica del los artículos de
ambigua aquella que esté presente en el otro Zientzia.net. De la otra forma, la probabilidad
vector: de encontrar semejantes se reduciría

i , j D v i w j notablemente.
cos v , tr(w) (2)
v
w
# docs # palabras # palab/doc
Así, evitamos el ruido que generaría la es 108 71.366 661
inclusión de las traducciones incorrectas. Frente
eu 3146 1.249.255 397
al caso de utilizar técnicas de ponderación
equitativa de las traducciones, nuestra técnica en 550 284.317 517
también se debe mostrar más efectiva en cuanto
a la precisión final, ya que el posible ruido
Tabla 4: Colección de noticias procesada
afectará solamente a parejas de documentos con
baja semejanza mutua. Como hemos dicho
anteriormente, suponemos que la probabilidad Para la evaluación formamos 3 grupos (uno
de que muchas traducciones incorrectas para cada idioma) de 10 documentos escogidos
concurran en el otro vector es baja. aleatoriamente de la colección base. Tras
En el sistema, el cálculo de similitudes entre procesar toda la colección mediante el sistema
documentos se realiza cada vez que el robot analizamos por cada documento los 4 primeros
recoge una nueva colección de noticias. Se más semejantes (de entre los de Zientzia.net)
calculan las distancias entre los documentos según el sistema. El método de análisis
recientemente recogidos y los documentos de propuesto consistió en valorar el grado de
Zientzia.net tanto nuevos como previamente semejanza del contenido en base a una escala de
almacenados. relevancia dividida en cuatro categorías y
76
basada en el esquema utilizado en (Braschler y (a) (a+b) (a+b+c)

Schäuble, 1998). Desam. 10% 37.5% 82.5%
(a) Comparten el tema principal: Los
No desam. 10% 30% 70%
documentos hablan sobre el mismo
tema.
(b) Tema principal relacionado o Tabla 5: Cutoff 4 en-es
comparten temas: Los documentos
tratan de temas muy relacionados o (a) (a+b) (a+b+c)
mantienen en común temas no
Desam. 30% 37.5% 60%
principales.
(c) Comparten área: Los documentos No desam. 25% 32.5% 60%
pertenecen ha una determinada área sin
llegar a ser general.
Tabla 6: Cutoff 4 es-eu
(d) Parecido remoto: Las relaciones entre
los documentos son remotas o
(a) (a+b) (a+b+c)
inexistentes.
De esta forma, se pretende valorar como 17.5% 57.5% 85%
más positivas las relaciones de gran parecido.
Sabemos que esta escala es discutible, ya que
Tabla 7: Cutoff 4 eu-eu
de cara al usuario puede ser más útil una
referencia que complemente el artículo en curso
Se ha observado que, quizás debido al
que un artículo sobre el mismo tema. Además,
pequeño tamaño de la colección, documentos
asignar a cada documento una categoría de esta
con pocas palabras clave compartidos han sido
escala resulta en muchos casos una tarea de
aceptados como similares.
difícil precisión.
En cualquier caso, el método diseñado para
El análisis fue llevado a cabo por un
resolver traducciones ambiguas mejora la
profesional en el campo de la divulgación
precisión en todas las pruebas.
científica, y se hizo para dos prototipos
Relacionado con el tamaño y la variedad del
distintos:
contenido se ha observado que la precisión del
1) distribuyendo equitativamente el peso
sistema es menor frente a documentos de algún
entre las traducciones .
tema muy especial, resultando la comparación
2) aplicando la desambiguación propuesta
léxica insuficiente. Esto puede ser debido al
anteriormente.
reducido número de documentos, pero no ha
Quisimos comprobar si el método diseñado
podido ser evaluado al no tener constancia de la
para resolver casos de traducción ambiguos
cobertura.
mejoraba la precisión del sistema.
En las tablas 5, 6 y 7 se muestran las
6 Conclusiones y trabajo futuro
distintas precisiones (cutoff 4) acumulando las
categorías según la escala de relevancia Se ha desarrollado un sistema para la
comentada. Se observa que los resultados agrupación de documentos multilingües de
varían según el idioma, siendo evidente la contenido similar con el objetivo de integrarlo
perdida de información tras la traducción. Este en un un sistema CLIR. Esto ha dado lugar a un
hecho influye en mayor medida a las relaciones sistema de navegación de noticias científico-
inglés-euskera debido a la menor cobertura de técnicas multilingües, implantado en el sitio
los diccionarios bilingües inglés-euskera. Zientzia.net.
77
Los resultados obtenidos nos deben llevar a Lee, C. H., M. Kan, y S. Lai. 2004. Stylistic and
realizar una evaluación más exhaustiva. lexical co-training for web block
Independientemente de esto, se ha comprobado classification. WIDM 2004. 136-143
que la traducción mediante diccionarios resulta Ogilvie, P., y J. Callan. 2001. Experiments
positiva, más concretamente con el uso los using the Lemur toolkit. Proceedings of the
diccionarios técnicos. El uso del método de Tenth Text Retrieval Conference (TREC-
desambiguación propuesto también ha sido 10).
exitoso, pero una nueva evaluación es necesaria
Pirkola, A. 1998. The Effects of Query
para cuantificar mejor la mejora conseguida.
Structure and Dictionary setups in
Sería muy interesante evaluar la perdida de
DictionaryBased Cross-language
precisión usando solamente resúmenes RSS, ya
Information Retrieval. Proce. of the 21st
que consiguiendo un buen resultado estas
International ACM SIGIR Conference on
técnicas podrían ser usadas para gran cantidad
Research and Development in Information
de fuentes sin necesidad de utilizar wrappers.
Retrieval, pages 55-63.
También se pretende realizar nuevos
experimentos con modelos de lenguaje, Ponte, J., y W. Croft. 1998. A Language
preguntas estructuradas y distintas medidas de Modeling Approach to Information
similitud. Adicionalmente queremos mejorar la Retrieval. In: Croft et al. (ed.): Proceedings
traducción de entidades mediante detección de of the 21st Annual Interna- tional ACM
cognados, y la traducción general mediante SIGIR Conference on Research and
generación de tesauros multilingües a partir de Development in Information Retrieval, pages
corpus comparables. De cara a algunas de estas 275{281. ACM, New York.
tareas pensamos basar el motor de búsqueda en Robertson, S. E., S. Walker, S. Jones, M.
la herramienta Lemur toolkit (Ogilvie y Calla, Hancock-Beaulieu, M. Gatford. 1994. Okapi
2001). at TREC-3. NIST Text Retrieval Conference.
Rogati, M., y Y. Yang. 2004. Resource
Agradecimientos Selection for Domain Specific Cross-
Este trabajo está subvencionado por el Lingual IR. SIGIR 2004.
Departamento de Industria del Steinberger, R., B. Pouliquen, y J. Hagman.
Gobierno Vasco (proyectos Dokusare SA- 2002. Cross-lingual Document Similarity
2005/00272, Dokusare SA-2006/00167). Calculation Using the Multilingual
Thesaurus EUROVOC. Third International
Bibliografía Conference on Intelligent Text.
Braschler, M., y P. Schäuble. 1998. Steinberger, R., B. Pouliquen, y C. Ignat. 2005.
Multilingual Information Retrieval Based on NewsExplorer: multilingual news analysis
Document Alignment Techniques , ECDL with cross-lingual linking. Information
1998, pp. 183-197. Technology Interfaces.
Chen, Y., y H. Hsi. 2002. NLP and IR Stokes, N., y J. Carthy. 2001. Combining
approaches to monolingual and multilingual Semantic and Syntactic Document
link detection. The 19th Int'l Conf. Classifiers to Improve First Story Detection.
Computational Linguistics. Taipei, Taiwan. SIGIR 2001: 424-425.
Hiemstra, D. Using language models for
information retrieval. Ph.D. Thesis
University of Twente. Enschede.
78

Similitud Entre Documentos Multilingües de Carácter Científico

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Similitud Entre Documentos Multilingües de Carácter Científico

Uploaded by

Copyright:

Available Formats

Procesamiento del Lenguaje Natural, nº39 (2007), pp.

71-78 recibido 18-05-2007; aceptado 22-06-2007

Similitud entre documentos multilingües de carácter científico-

Xabier Saralegi Urizar Iñaki Alegria Loinaz

Resumen: En este artículo se presenta un sistema para la agrupación multilingüe de

Abstract: In this paper we present a system to identify documents of similar content. To

1 Introducción Frente a este problema, proponemos una

4.2 Diccionarios léxico especializado. Parece, por tanto, que el

4.3 Traducciones ambiguas 5 Evaluación

basada en el esquema utilizado en (Braschler y (a) (a+b) (a+b+c)

You might also like