Professional Documents
Culture Documents
us Manuel Mager Hois1 Carlos Barron Romero1 y Ivan Vladimir Meza Ruiz2
Jes
1
Universidad Aut
onoma Metropolitana, Unidad Azcapozalco
2
Universidad Nacional Aut
onoma de Mexico, Instituto de Investigaciones en Matem
aticas Aplicadas y Sistemas
Resumen En este artculo se presenta un traductor autom atico entre las lenguas espa
nol y wixarika, usando
traducci on estadstica y recursos gramaticales complementarios. El wixarika es una lengua indgena hablada
en los estados mexicanos de Jalisco, Nayarit, Zacatecas y Durango. Este trabajo se enfoca en dos proble-
mas: la escasa existencia de corpus paralelos y la dificultad de alinear una lengua fusionante (espa nol) con
una altamente polisintetica (wixarika). En situaciones lmites los traductores tpicos basados en traducci on
estadstica usan entre 100 y 300 MB de texto alineado. Nuestra propuesta introduce un analizador morfol ogico
que descompone los verbos del wixarika y los expone a la fase de alineamiento.
Palabras Clave: Traducci on Estadstica Autom
atica, Alineamiento de Lenguas Polisinteticas, Recursos Es-
casos, Procesamiento de Lenguaje Natural.
1. Introducci
on de mil hablantes. La UNESCO identifico en el a no 2007
que el cincuenta por ciento de las lenguas a nivel mundial
La traducci on entre lenguas y la necesidad de comunica- se encuentran en peligro de desaparecer, seis mil lenguas
ci
on entre las personas se remonta a los origines de nues- son habladas u nicamente por el cuatro por ciento de la
tra civilizaci
on. Hoy con los avances en las Tecnologas de poblacion mundial y el noventa por ciento de las lenguas
la Informaci on y la Comunicaci on (TIC) es un tema re- no estan representadas en Internet[25]. Esto plantea un
levante de investigaci on interdisciplinaria entre las Cien- problema muy importante y trascendente para la cultura
cias Sociales y la Ciencia de la Computaci on. El campo universal y los valores humanos, que no es exclusivo de
sem antico lleva, seg
un Tarski, a la indefinibilidad[24] y, nuestro pas: la preservacion de la cultura y las lenguas
por lo tanto, los lenguajes naturales no pueden ser resuel- indgenas [12].
tos como lenguajes formales (de la l ogica de la ciencia de El artculo esta organizado de la siguiente manera.
la computaci on, por ejemplo, un lenguaje de programa- En la seccion 2 se muestran los antecedentes y trabajos
ci
on. Pero este no es adecuado para otro fin que no sea el previos sobre traduccion automatica en general y sobre
de desarrollar programas de computadora, mientras que traduccion con escasos recursos en particular. La seccion
las lenguajes naturales, sirven para muchos fines abier- 3 describe el modelo de traduccion de nuestra propues-
tos, comunicaci on, creaci
on de conceptos y conocimien- ta para tratar traducciones de lenguajes polisinteticos y
tos, representa una cultura, una forma vida y pensamien- con escasos recursos. Posteriormente se presentan los re-
to). La complejidad de la traducci on automatizada de- sultados de las experimentaciones en la seccion 4, y por
be confrontar y combinar adecuadamente los siguientes u
ltimo se presentan conclusiones y trabajos futuros.
factores: las barreras culturales entre lenguajes natura-
les, la inherente ambig uedad de los lenguajes humanos, 2. Teora del dominio y trabajos previos
la irregularidad entre dos lenguas[22], y su complejidad
sem antica. Las investigaciones existentes sobre traducci on au-
El presente trabajo se enfoca en nuestra investiga- tomatica para lenguas indgenas son muy escasas, pero
ci
on de Procesamiento de Lenguaje Natural para el di- si han sido extensamente trabajadas para alem an, es-
se
no, adaptaci on y construcci on de un sistema de tra- panol, frances, italiano, portugues, arabe, japones, ko-
duccion wixarika espa nol. El wixarika es un idioma reano, chino, holandes, griego y ruso (en sistemas co-
que se estima que tiene entre treinta mil y cincuenta mil merciales y p ublicos como Google, Systran, Prompt); y
hablantes[10], con pocos textos escritos, con un analisis en casi todos los casos el ingles es la contra parte de
gramatical limitado[10,6] y sin un estudio conocido en las traducciones[16]. Por lo tanto, retomamos las investi-
el campo del Procesamiento de Lenguaje Natural (NLP, gaciones del estado de arte y nos centramos en el modelo
del ingles, Natural Language Processing). La aplicacion estadstico por frases, que sera el que vamos a modificar
del NLP a las lenguas originarias representara un avance para el caso de traduccion wixarika espa nol. Este mo-
para incorporarlas al nuevo entorno digital. delo segmenta la entrada en frases y hace una traducci on
En Mexico se hablan sesenta y ocho lenguas uno a uno a frases en la lengua objetivo, con un posible
originarias[3] de las cuales veinti un cuentan con menos reordenamiento [14].
2.1. El idioma wixarika texto de la representacion transferida [2]. Este proceso es
conocido como analisistransferenciageneracion (ATG).
El wixarika es un idioma perteneciente a la familia yu-
En el caso de que sus reglas sean aplicadas exactamente
toazteca , con una estructura sujeto-objeto-verbo (SOV),
al caso de traduccion, el resultado sera de alta calidad y
incorporante y con una fuerte tendencia polisintetica,
muy preciso, con la ventaja de poder explicar el resulta-
siendo incluso mayor que la del n ahuatl. Los morfemas
do de la traduccion. Pero no es frecuente que sus reglas
se agrupan en torno a una raz verbal e incluyen una
apliquen a los casos analizados, pues continuamente exis-
gran cantidad de informaci on seg
un Iturrio [10]. La po-
ten conflictos de reglas o m ultiples reglas aplicadas en un
lisntesis es el resultado de la incorporaci
on de operacio-
mismo caso [2].
nes sint acticas, realizado en otros casos por la combi-
SMT. En la traduccion maquina estadstica las re-
naci on de palabras aut onomas, a la palabra predicativa,
glas de traduccion ATG no son creadas a priori usando
aproxim andose al ideal de una palabra por enunciado
los conocimientos ling usticos, sino que son generados a
[10]. En el siguiente ejemplo se aprecia la forma en que se
partir de un conjunto de textos emparejados. Las reglas
pueden construir palabras en wixarika a partir de sus re-
y palabras son aprendidas de los datos de entrada y son
glas silabicas. El concepto de monta na puede ser creado
traducidos basados en probabilidades [2]. Estos modelos
de la siguiente manera.
requieren un gran n umero de datos para poder funcionar
hai m-a-ta-ka-i-t+ka correctamente.
La SMT tiene dos grandes vertientes, la traducci on
Donde hai significa nube, y la palabra siguiente es el por palabras y la traduccion por frases. La primera fue
verbo matakait+ka que se divide en morfemas. La com- popular en los a nos ochenta del siglo pasado con el pro-
binacion entre m y a refiere a algo figurativo, el ta a yecto Candile de IBM. La traduccion se basa en la proba-
algo que esta al borde de, ka localiza esto en cierto es- bilidad de que dada una palabra en el origen corresponda
pacio, la i significa estar, mientras que t+ka es plural. a una palabra en el destino. Con una cantidad de datos
El resultado puede ser ledo como donde las monta nas apareados, esta probabilidad sera el n umero de veces que
bordean, y que de una forma sucinta se traducira co- aparecen las palabras destino cuando aparece la palabra
mo monta nas[8]. Es importante destacar, lo que hace el origen en el mismo enunciado emparejado. La segunda, el
problema de traducci on wixarika - espanol complejo, es modelo por frases es el que mejores resultados produca
que la combinatoria de morfemas se da en torno a la raz era el estadstico por frases. Este modelo segmenta la en-
verbal, y no sobre otras palabras. trada en frases y hace una traduccion uno a uno a frases
Al comparar dos frases apareadas es posible observar en la lengua objetivo con un posible reordenamiento [14].
la distancia entre los dos idiomas a analizar. Tenemos dos Los modelos basados en palabras haban demostrado es-
frases en espanol que no varan de manera importante, tar limitados por la falta de existencia de una relaci on
sin embargo, el cambio en la morfologa de su traduccion uno a uno entre las palabras de dos idiomas. Por ejemplo,
es muy grande. una palabra en espa nol no necesariamente corresponde a
Quiero quedarme aqu una en ingles. En ocasiones puede corresponder a una o
ena nep+nehayewakeyu mas palabras, y de igual manera en orden contrario. Esto
Quiero que te quedes aqu conlleva ademas a que un grupo de palabras logren rea-
ya nep+tinakierie ena pem+kunauni lizar mejor una desambiguacion que palabras aisladas.
Ahora bien, tambien es una pregunta importante que
Un traductor wixarika - espa
nol debe enfrentar estos se considera como una frase?. El modelo en realidad no
retos. Una equivalencia palabra a palabra es inoperante, tiene conocimiento respecto a esto, aunque un algoritmo
y este es un problema a tratar en nuestra propuesta. complementario puede acotar este tema.
2.2. La traducci
on autom
atica
2.3. Traducci
on con bajos recursos
Para la tarea de traducci on autom atica (Machine Trans-
lation) se han usado varias estrategias, las cuales se pue- Para el uso de modelos de STM seran necesarios al me-
den dividir en tres grandes campos: la traduccion ba- nos 100 MB de texto pre-alineado[16], lo cual con idio-
sada en reglas (RBMT del ingles Rule-based machine mas como el wixarika sera imposible de obtener. Para
translation), los modelos estadsticos (SMT, del ingles enfrentar este problema se puede recurrir a los modelos
Statistical Machine Translation) y la traduccion basada RBMT o trabajar en algoritmos hbridos como los pro-
en ejemplos (EBMT, del ingles Example-Based Machine puestos por Laukaitis[16], Yaser[1] y Nieen[18]. Asumir
Translation)[2], adem as de modelos hbridos que combi- una traduccion gramatical basada en reglas tampoco es
nan varios aspectos de ellos. posible por la falta de un cuerpo completo de la gram
ati-
RBMT. En este modelo existen reglas que definen el ca wixarika.
analisis de los enunciados origen, reglas de c
omo transfe- Nien y Ney proponen la utilizacion de un analizador
rir las representaciones y finalmente reglas para generar morfologico que descomponga las palabras en sus races
y morfemas para etiquetar posteriormente cada compo- el modelo de traduccion como [27]:
nente. Se auxilia de un diccionario jer
arquico que auxi-
liar
a a la traduccion. Este mecanismo logra reducir el
X
p(f J |ei ) = p (f J , aJ |eI ) (1)
corpus paralelo necesario hasta a 10 % del normalmen- aJ
te necesario. Laukaitis analiza el caso de un traductor
asimetrico, donde un lenguaje tiene una gran cantidad Sean S = {(fs , es ) : s = 1, . . . , S} un conjunto de frases
de recursos y el segundo carece casi por completo de alineadas de un corpus paralelo. Para cada par alienado
ellos, con excepcion de un analizador morfologico. Con se encuentra el valor de y busca la maxima esperanza,
ayuda de un corpus paralelo reducido (de 1 MB) y re- como se menciona en la ecuacion 2.
des ontologicas del lado del idioma m
as analizado, logra
buenos resultados. S X
Y
= argmax p (fs , a|es ) (2)
s=1 a
3. Modelo de traducci
on
Para cada enunciado existe una gran variedad de alinea-
Un modelo de un traductor SMT se compone de una fase mientos a estimados, pero se tratara de encontrar el me-
de entrenamiento que generar a un modelo de lenguaje, jor alineamiento, tambien llamado alineamiento Viterbi,
un modelo de traducci on y un modelo de alineamien- tal que
to. Estos tres modelos estadsticos serviran al decodifi-
cador generar posibles traducciones y evaluarlas, inten- J = argmaxaJ p (f J , aJ |eI )
a (3)
tando encontrar con ello una traducci on optima. Agrega-
mos tambien una evaluaci on de la traduccion, que permi- Dado que el wixarika es un lenguaje polisintetico, el ali-
a tener una metrica de los resultados del traductor. La neamiento con palabras al espa
tir nol es poco prometedor.
fase de entrenamiento y el decodificador ser an explicados Los afijos se aglutinan en torno el verbo, tanto antes de
a continuacion. la ra z verbal como despu e s. La funcion j i = aj no
se cumple como un mapeo uno a uno, sino en forma de
relacion j (i1 . . . in ) = aj donde k 1, y aj es una
tupla de pares de alineamiento. Se crea una funci on ,
que descompone las palabras fjI Mj en una lista de
morfemas ordenados (m1 , . . . , mn , . . . , mN ), donde N es
el numero total de morfemas. El nuevo conjunto M 0K
sera:
J
[
f 0K = (Mj ) (4)
j=1
count(eI |f0J )
(f0J |
eI ) = P (5)
f0J count(eI , fi0J )
i
WER TER
Sin segmentaci
on morfol
ogica(SGM) 38 0.84
Con segmentaci
on morfologica(CSM) 25 0.46
Figura 4. Flujo de traducci
on
Segmentaci
on con etiquetado(CSEM) 21 0.46
Cuadro 1. Evaluacion de traducci
on