Traductor Wixárika - Español Con Escasos Recursos Bilingües

Traductor estadstico wixarika - espa
nol usando descomposici

on
morfologica
us Manuel Mager Hois1 Carlos Barron Romero1 y Ivan Vladimir Meza Ruiz2
Jes
1
Universidad Aut
onoma Metropolitana, Unidad Azcapozalco
2
Universidad Nacional Aut
onoma de Mexico, Instituto de Investigaciones en Matem
aticas Aplicadas y Sistemas
Resumen En este artculo se presenta un traductor autom atico entre las lenguas espa
nol y wixarika, usando
traducci on estadstica y recursos gramaticales complementarios. El wixarika es una lengua indgena hablada
en los estados mexicanos de Jalisco, Nayarit, Zacatecas y Durango. Este trabajo se enfoca en dos proble-
mas: la escasa existencia de corpus paralelos y la dificultad de alinear una lengua fusionante (espa nol) con
una altamente polisintetica (wixarika). En situaciones lmites los traductores tpicos basados en traducci on
estadstica usan entre 100 y 300 MB de texto alineado. Nuestra propuesta introduce un analizador morfol ogico
que descompone los verbos del wixarika y los expone a la fase de alineamiento.
Palabras Clave: Traducci on Estadstica Autom
atica, Alineamiento de Lenguas Polisinteticas, Recursos Es-
casos, Procesamiento de Lenguaje Natural.
1. Introducci
on de mil hablantes. La UNESCO identifico en el a no 2007
que el cincuenta por ciento de las lenguas a nivel mundial
La traducci on entre lenguas y la necesidad de comunica- se encuentran en peligro de desaparecer, seis mil lenguas
ci
on entre las personas se remonta a los origines de nues- son habladas u nicamente por el cuatro por ciento de la
tra civilizaci
on. Hoy con los avances en las Tecnologas de poblacion mundial y el noventa por ciento de las lenguas
la Informaci on y la Comunicaci on (TIC) es un tema re- no estan representadas en Internet[25]. Esto plantea un
levante de investigaci on interdisciplinaria entre las Cien- problema muy importante y trascendente para la cultura
cias Sociales y la Ciencia de la Computaci on. El campo universal y los valores humanos, que no es exclusivo de
sem antico lleva, seg
un Tarski, a la indefinibilidad[24] y, nuestro pas: la preservacion de la cultura y las lenguas
por lo tanto, los lenguajes naturales no pueden ser resuel- indgenas [12].
tos como lenguajes formales (de la l ogica de la ciencia de El artculo esta organizado de la siguiente manera.
la computaci on, por ejemplo, un lenguaje de programa- En la seccion 2 se muestran los antecedentes y trabajos
ci
on. Pero este no es adecuado para otro fin que no sea el previos sobre traduccion automatica en general y sobre
de desarrollar programas de computadora, mientras que traduccion con escasos recursos en particular. La seccion
las lenguajes naturales, sirven para muchos fines abier- 3 describe el modelo de traduccion de nuestra propues-
tos, comunicaci on, creaci
on de conceptos y conocimien- ta para tratar traducciones de lenguajes polisinteticos y
tos, representa una cultura, una forma vida y pensamien- con escasos recursos. Posteriormente se presentan los re-
to). La complejidad de la traducci on automatizada de- sultados de las experimentaciones en la seccion 4, y por
be confrontar y combinar adecuadamente los siguientes u
ltimo se presentan conclusiones y trabajos futuros.
factores: las barreras culturales entre lenguajes natura-
les, la inherente ambig uedad de los lenguajes humanos, 2. Teora del dominio y trabajos previos
la irregularidad entre dos lenguas[22], y su complejidad
sem antica. Las investigaciones existentes sobre traducci on au-
El presente trabajo se enfoca en nuestra investiga- tomatica para lenguas indgenas son muy escasas, pero
ci
on de Procesamiento de Lenguaje Natural para el di- si han sido extensamente trabajadas para alem an, es-
se
no, adaptaci on y construcci on de un sistema de tra- panol, frances, italiano, portugues, arabe, japones, ko-
duccion wixarika espa nol. El wixarika es un idioma reano, chino, holandes, griego y ruso (en sistemas co-
que se estima que tiene entre treinta mil y cincuenta mil merciales y p ublicos como Google, Systran, Prompt); y
hablantes[10], con pocos textos escritos, con un analisis en casi todos los casos el ingles es la contra parte de
gramatical limitado[10,6] y sin un estudio conocido en las traducciones[16]. Por lo tanto, retomamos las investi-
el campo del Procesamiento de Lenguaje Natural (NLP, gaciones del estado de arte y nos centramos en el modelo
del ingles, Natural Language Processing). La aplicacion estadstico por frases, que sera el que vamos a modificar
del NLP a las lenguas originarias representara un avance para el caso de traduccion wixarika espa nol. Este mo-
para incorporarlas al nuevo entorno digital. delo segmenta la entrada en frases y hace una traducci on
En Mexico se hablan sesenta y ocho lenguas uno a uno a frases en la lengua objetivo, con un posible
originarias[3] de las cuales veinti un cuentan con menos reordenamiento [14].
2.1. El idioma wixarika texto de la representacion transferida [2]. Este proceso es
conocido como analisistransferenciageneracion (ATG).
El wixarika es un idioma perteneciente a la familia yu-
En el caso de que sus reglas sean aplicadas exactamente
toazteca , con una estructura sujeto-objeto-verbo (SOV),
al caso de traduccion, el resultado sera de alta calidad y
incorporante y con una fuerte tendencia polisintetica,
muy preciso, con la ventaja de poder explicar el resulta-
siendo incluso mayor que la del n ahuatl. Los morfemas
do de la traduccion. Pero no es frecuente que sus reglas
se agrupan en torno a una raz verbal e incluyen una
apliquen a los casos analizados, pues continuamente exis-
gran cantidad de informaci on seg
un Iturrio [10]. La po-
ten conflictos de reglas o m ultiples reglas aplicadas en un
lisntesis es el resultado de la incorporaci
on de operacio-
mismo caso [2].
nes sint acticas, realizado en otros casos por la combi-
SMT. En la traduccion maquina estadstica las re-
naci on de palabras aut onomas, a la palabra predicativa,
glas de traduccion ATG no son creadas a priori usando
aproxim andose al ideal de una palabra por enunciado
los conocimientos ling usticos, sino que son generados a
[10]. En el siguiente ejemplo se aprecia la forma en que se
partir de un conjunto de textos emparejados. Las reglas
pueden construir palabras en wixarika a partir de sus re-
y palabras son aprendidas de los datos de entrada y son
glas silabicas. El concepto de monta na puede ser creado
traducidos basados en probabilidades [2]. Estos modelos
de la siguiente manera.
requieren un gran n umero de datos para poder funcionar
hai m-a-ta-ka-i-t+ka correctamente.
La SMT tiene dos grandes vertientes, la traducci on
Donde hai significa nube, y la palabra siguiente es el por palabras y la traduccion por frases. La primera fue
verbo matakait+ka que se divide en morfemas. La com- popular en los a nos ochenta del siglo pasado con el pro-
binacion entre m y a refiere a algo figurativo, el ta a yecto Candile de IBM. La traduccion se basa en la proba-
algo que esta al borde de, ka localiza esto en cierto es- bilidad de que dada una palabra en el origen corresponda
pacio, la i significa estar, mientras que t+ka es plural. a una palabra en el destino. Con una cantidad de datos
El resultado puede ser ledo como donde las monta nas apareados, esta probabilidad sera el n umero de veces que
bordean, y que de una forma sucinta se traducira co- aparecen las palabras destino cuando aparece la palabra
mo monta nas[8]. Es importante destacar, lo que hace el origen en el mismo enunciado emparejado. La segunda, el
problema de traducci on wixarika - espanol complejo, es modelo por frases es el que mejores resultados produca
que la combinatoria de morfemas se da en torno a la raz era el estadstico por frases. Este modelo segmenta la en-
verbal, y no sobre otras palabras. trada en frases y hace una traduccion uno a uno a frases
Al comparar dos frases apareadas es posible observar en la lengua objetivo con un posible reordenamiento [14].
la distancia entre los dos idiomas a analizar. Tenemos dos Los modelos basados en palabras haban demostrado es-
frases en espanol que no varan de manera importante, tar limitados por la falta de existencia de una relaci on
sin embargo, el cambio en la morfologa de su traduccion uno a uno entre las palabras de dos idiomas. Por ejemplo,
es muy grande. una palabra en espa nol no necesariamente corresponde a
Quiero quedarme aqu una en ingles. En ocasiones puede corresponder a una o
ena nep+nehayewakeyu mas palabras, y de igual manera en orden contrario. Esto
Quiero que te quedes aqu conlleva ademas a que un grupo de palabras logren rea-
ya nep+tinakierie ena pem+kunauni lizar mejor una desambiguacion que palabras aisladas.
Ahora bien, tambien es una pregunta importante que
Un traductor wixarika - espa
nol debe enfrentar estos se considera como una frase?. El modelo en realidad no
retos. Una equivalencia palabra a palabra es inoperante, tiene conocimiento respecto a esto, aunque un algoritmo
y este es un problema a tratar en nuestra propuesta. complementario puede acotar este tema.
2.2. La traducci
on autom
atica
2.3. Traducci
on con bajos recursos
Para la tarea de traducci on autom atica (Machine Trans-
lation) se han usado varias estrategias, las cuales se pue- Para el uso de modelos de STM seran necesarios al me-
den dividir en tres grandes campos: la traduccion ba- nos 100 MB de texto pre-alineado[16], lo cual con idio-
sada en reglas (RBMT del ingles Rule-based machine mas como el wixarika sera imposible de obtener. Para
translation), los modelos estadsticos (SMT, del ingles enfrentar este problema se puede recurrir a los modelos
Statistical Machine Translation) y la traduccion basada RBMT o trabajar en algoritmos hbridos como los pro-
en ejemplos (EBMT, del ingles Example-Based Machine puestos por Laukaitis[16], Yaser[1] y Nieen[18]. Asumir
Translation)[2], adem as de modelos hbridos que combi- una traduccion gramatical basada en reglas tampoco es
nan varios aspectos de ellos. posible por la falta de un cuerpo completo de la gram
ati-
RBMT. En este modelo existen reglas que definen el ca wixarika.
analisis de los enunciados origen, reglas de c
omo transfe- Nien y Ney proponen la utilizacion de un analizador
rir las representaciones y finalmente reglas para generar morfologico que descomponga las palabras en sus races
y morfemas para etiquetar posteriormente cada compo- el modelo de traduccion como [27]:
nente. Se auxilia de un diccionario jer
arquico que auxi-
liar
a a la traduccion. Este mecanismo logra reducir el
X
p(f J |ei ) = p (f J , aJ |eI ) (1)
corpus paralelo necesario hasta a 10 % del normalmen- aJ
te necesario. Laukaitis analiza el caso de un traductor
asimetrico, donde un lenguaje tiene una gran cantidad Sean S = {(fs , es ) : s = 1, . . . , S} un conjunto de frases
de recursos y el segundo carece casi por completo de alineadas de un corpus paralelo. Para cada par alienado
ellos, con excepcion de un analizador morfologico. Con se encuentra el valor de y busca la maxima esperanza,
ayuda de un corpus paralelo reducido (de 1 MB) y re- como se menciona en la ecuacion 2.
des ontologicas del lado del idioma m
as analizado, logra
buenos resultados. S X
Y
= argmax p (fs , a|es ) (2)
s=1 a
3. Modelo de traducci
on
Para cada enunciado existe una gran variedad de alinea-
Un modelo de un traductor SMT se compone de una fase mientos a estimados, pero se tratara de encontrar el me-
de entrenamiento que generar a un modelo de lenguaje, jor alineamiento, tambien llamado alineamiento Viterbi,
un modelo de traducci on y un modelo de alineamien- tal que
to. Estos tres modelos estadsticos serviran al decodifi-
cador generar posibles traducciones y evaluarlas, inten- J = argmaxaJ p (f J , aJ |eI )
a (3)
tando encontrar con ello una traducci on optima. Agrega-
mos tambien una evaluaci on de la traduccion, que permi- Dado que el wixarika es un lenguaje polisintetico, el ali-
a tener una metrica de los resultados del traductor. La neamiento con palabras al espa
tir nol es poco prometedor.
fase de entrenamiento y el decodificador ser an explicados Los afijos se aglutinan en torno el verbo, tanto antes de
a continuacion. la ra z verbal como despu e s. La funcion j i = aj no
se cumple como un mapeo uno a uno, sino en forma de
relacion j (i1 . . . in ) = aj donde k 1, y aj es una
tupla de pares de alineamiento. Se crea una funci on ,
que descompone las palabras fjI Mj en una lista de
morfemas ordenados (m1 , . . . , mn , . . . , mN ), donde N es
el numero total de morfemas. El nuevo conjunto M 0K
sera:
J
[
f 0K = (Mj ) (4)
j=1
La cardinalidad de K = |f 0 | es el numero de todos los

Figura 1. Modelo de un traductor SMT morfemas y palabras generados evaluando en todas
las palabras de la frase original. La tupla de frases f J
se sustituye por la nueva tupla F 0K en la ecuaci on de
3.1. Entrenamiento alineamiento 2 y en el modelo de traduccion estadsti-
co en la ecuacion 7. La figura 2 muestra la mejora en
Sean f J = (f1 , . . . , fj , . . . , fJ ) una frase origen compues- el alineamiento de palabras del modelo de descomposi-
ta por una tupla de palabras fj y eI = (e1 , . . . , ei , . . . , eI ) cion morfologica al modelo de alineamiento de palabras.
una frase objetivo compuesto por palabras ei , se define La frase ik+ ki p+kahekwa se traduce como esta ca-
un alineamiento A {(i, j) : j = 1, . . . , J; i = 1, . . . , I} sa no es nueva. Pero la palabra p+kahekwa contie-
[20]. Los alineamientos i = aj pueden contener una pa- ne la informacion de tres palabras en espa nol. Si usa-
labra vaca e0 . Si se supondra que una palabra fi tiene mos nuestra funcion (p+kajekwa) obtendramos la tu-
una unica palabra alineada en ej o e0 , se obtendra una pla (p+, ka, hekwa). La union de todas las palabras des-
funcion de alineamiento j i = aj , y no una relacion. compuestas y no descompuestas de la frase original f I ,
Para realizar la traducci on se requiere un modelo de nos genera un mejor alineamiento respecto al espa nol. La
alineamiento en su fase inicial de entrenamiento. Si defi- funcion es un Trasductor de Estados Finitos, con la in-
nimos una traducci on como probabilidad p(f 0J |eI ) se informacion morfologica descrita en [10] y [8]. Los idiomas
troduce un factor de alineamiento oculto p (f 0J , aJ |eI ), polisinteticos y aglutinantes comparten la caracterstica
siendo el valor de un valor desconocido a encontrar. Se de poder ser expresados mediante un trasductor, como
define la relacion entre la probabilidad de traduccion y es el caso del turco [5] [4].
en una frecuencia relativa que sera nuestro modelo [14]:
count(eI |f0J )
(f0J |
eI ) = P (5)
f0J count(eI , fi0J )
i
El proceso de entrenamiento, como se ilustra en la figura

3.1, requiere la preparacion de los datos, la segmentaci
on
Figura 2. Busqueda de la mejor traducci
on morfologica (ecuacion 4), un alineamiento de palabras
(ecucacion 1), el entrenamiento de un modelo de lengua-
je(comunmente usando n-gramas) y la generaci on de un
modelo de traduccion denominado (ecuacion 5). En
Para el caso de idiomas con gran riqueza morfologica
el entrenamiento se requiere un algoritmo de extracci on
como el caso de estudio se sugiere separar los morfemas
de frases y el calculo de una tabla de probabilidades de
que sean m as parecidos a palabras del ingles, conservar
traduccion. En la figura 3 se presenta el proceso de en-
unidos los morfemas (como tiempos verbales) a sus races
trenamiento con una nueva etapa de analisis morfol ogico,
que se comporten de manera semejante en ingles e igno-
descomposicion y etiquetado. En lo que a la decodifica-
rar los que no tienen funciones parecidas [14]. En nuestra
cion se refiere se deben insertar dos nuevas etapas, una
aplicacion se va a tomar la integridad de los morfemas
descomposicion morfologica antes de la codificaci on.
de f 0 para conservar la mayor cantidad de informacion
posible.
3.2. Traducci
on
Si bien el modelo de alineamiento haba sido creado pa-

ra los modelos basados en palabras, estos haban demos-
trado estar limitados por la falta de existencia de una
relacion uno a uno entre las palabras de dos idiomas,
problema que persiste a pesar de la descomposici on mor-
fologica que proponemos en la ecuacion 4. Esto conlleva
ademas a que un grupo de palabras logren realizar mejor
una desambiguacion que palabras aisladas. En la defini-
cion del modelo matematico seg un Kohen[14] se usa la
regla de bayes para invertir la direccion de traducci
on e
integrar un modelo de lenguaje que se define como pLM .
emejor = argminIe p(eI |f 0J ) (6)

= argminIe p(f 0J |g I )pLM (e) (7)
Para el modelo por frases se va a descomponer p(f 0J |eI )

en:
I
Y
g1I |
p( sI1 ) = gi |
( si )d(inicioi fini1 1) (8)
i=1
Cada una de las frases origen f es segmentada en I fra-

ses fi y como se comento, por el teorema de bayes se
invierte la probabilidad para modelar la traducci on eI
Figura 3. Proceso de entrenamiento J
a f a traves de un canal ruidoso ( gi |
si ). La distancia
mide el inicio de la frase origen al fin de la misma, y es el
numero de palabras que se van a omitir cuando se toman
El modelo de alineaci on es usado tanto por el modelo las frases origen fuera de su enunciado[14].
de traducci on por palabras y el de frases. Pero a diferen- En la figura 4 se muestra al flijo de una cadena en-
cia de un modelo por palabras, donde se escoge la mejor trante fJ . El texto entrante necesita ser preparado me-
alineaci
on, palabra por palabra, en el modelo por frases diante una normalizacion y un tokenizado. Una vez pre-
se escoge un n umero de pares de frases y se eval ua en parado se procede a un analisis mofologico y a su seg-
count(e, f). La probabilidad de traducci on es estimada mentacion y etiquetado.
valores obtenidos se realiza una comparacion de resulta-
dos (ver tabla 1), entre una traduccion de alineamiento
por palabra (ecuacion 2) en comparacion con la descom-
posicion morfologica descrita en la ecuacion 4.
WER TER
Sin segmentaci
on morfol
ogica(SGM) 38 0.84
Con segmentaci
on morfologica(CSM) 25 0.46
Figura 4. Flujo de traducci
on
Segmentaci
on con etiquetado(CSEM) 21 0.46
Cuadro 1. Evaluacion de traducci
on
Con el modelo de lenguaje LM , el modelo de ali-

neamiento d y el modelo de traducci on se busca la
traducci on con el mejor puntaje en el modelo expresado El error en la traduccion automatica usando pala-
en la formula 2. Al ser este problema de combinatoria bras sin segmentacion es mas alto que si usamos un seg-
un problema NP-Completo [13], se requiere el uso de mentador morfologico. Los resultados usando adem as un
heursticos para encontrar una traduccion aproximada. etiquetador de morfemas son ligeramente superiores al
Se utilizan algoritmos como Beam o A* [9] [11] para ese hecho de no usarlo.
fin. La busqueda resultante es expresada en grafos, como La tecnica con segmentacion y etiquetado tiene una
se precia en la figura 5. clara ventaja con respecto a una segmentacion simple
y la traduccion sin segmentacion. Para ilustrar la dife-
rencia en la calidad de traduccion, se muestra una tabla
comparativa 2.
Wixarika Sin Segmentar Segmentado

neki neki mi casa
aki p+tuxa aki es blanca tu casa blanca
hakewa ne ki esta falta es no es nueva esta falda no es nueva
Cuadro 2. Ejemplos de traducci
on
5. Conclusiones y trabajos futuros

Figura 5. B
usqueda en el espacio de traducci
on
La mayor parte de lenguas originarias del continente
americano, incluido el quechua y el aimara, son aglu-
4. Experimentos y Resultados tinantes, y por lo tanto con una gran complejidad mor-
fologica. Para estos idiomas, no es posible retomar a inte-
Las pruebas se realizaron en una computadora con dos gridad el modelo de alineacion por palabras y traducci on
procesadores Intel Xeon X3450 x86 de 64 bits con 4 por frases. Los resultados obtenidos con segmentaci on
nucleos cada uno y capacidad de dos hilos por n ucleo, morfologica son significativamente mejores que sin usar-
a 2.67 GHz NUMA, con 16 GB de memoria RAM. Para la. La limitante del corpus paralelo, tambien, es mejorada
el sistema de alineado usamos GIZA++ [19] y como sis- mediante la segmentacion morfologica.
tema de decodificaci on se utiliza el sistema MOSES [15] Para trabajos futuros, estamos valorando posibles
usando el modelo de entrenamiento de traduccion por mejoras como la ampliacion del corpus mediante diccio-
frases. narios o con tecnicas de extraccion de corpus paralelo,
El corpus usado fue extrado del libro [8] que aporta como se ha estudiado para el Nahuatl por Gutierrez [7].
valiosa informacion morfologica en su texto apareado. Se Existen ademas traductores estadsticos de idiomas
utilizaron 100 frases apareadas como corpus de experi- indgenas, con una implementacion cerrada, desarrolla-
mentaci on, y las traducciones se realizaron u nicamente dos por Microsoft Translator Community Partners[17],
con los afijos y las palabras usadas en el corpus. Para para el otomo de Queretaro y el maya de Yucat an. Nues-
la evaluacion no se utilizo BLEU [21] por el reducido tra postura es proveer una herramienta de software libre
corpus, y las frases de tama no variable seg un el modelo wixarika-espa nol para los fines que las personas de los
de descomposici on morfologica, y se prefiri
o WER [26] y pueblos y comunidades requieran. Por ejemplo, para li-
TER [23], que son eficientes en estas condiciones. Con los bremente seleccionar que libros y textos traducir.
Nuestra investigaci
on, hasta donde conocemos, es la 13. Kevin Knight. Decoding complexity in word-replacement
primer aplicaci
on de NLP al wixarika, con sus trabajos translation models. Comput. Linguist., 25(4):607615,
futuros permitira avanzar en otras lenguas indgenas y December 1999.
actuar como una Piedra Rosetta de nuestros tiempos. 14. Philipp Koehn. Stadistical Machine Tanslation. Cam-
Para trabajos futuros es posible incorporar interfaces de bridge University Press, 2010.
15. Philipp Koehn, Franz Josef Och, and Daniel Marcu.
voz y tinta electr
onica, que facilitar
an la interaccion de
Statistical phrase-based translation. In Proceedings of
las personas con sistemas de traducci on automatica. El the 2003 Conference of the North American Chapter of
progreso en la tecnologa de tabletas, celulares y proce- the Association for Computational Linguistics on Human
sadores programables hacen atractivo el dise no y cons- Language Technology - Volume 1, NAACL 03, pages 48
trucci
on de una aplicaci on o de un dispositivo de tra- 54, Stroudsburg, PA, USA, 2003. Association for Compu-
ducci
on autom atica personal. Este tipo de herramientas tational Linguistics.
fomentan la vitalizaci
on de las lenguas originarias en un 16. Algirdas Laukaitis and Olegas Vasilecas. Computational
entorno marcado por las TIC. Linguistics and Intelligent Text Processing: 8th Interna-
tional Conference, CICLing 2007, Mexico City, Mexico,
February 18-24, 2007. Proceedings, chapter Asymmetric
Referencias Hybrid Machine Translation for Languages with Scarce
Resources, pages 397408. Springer Berlin Heidelberg,
Berlin, Heidelberg, 2007.
1. Yaser Al-Onaizan, Ulrich Germann, Ulf Hermjakob, Ke-
17. Microsoft. Microsoft translator community partners, 3
vin Knight, Philipp Koehn, Daniel Marcu, and Kenji Ya-
2016.
mada. Translation with scarce bilingual resources. Ma-
18. Sonja Nieen and Hermann Ney. Statistical machine
chine Translation, 17(1):117, 2002.
translation with scarce resources using morpho-syntactic
2. Pushpak Bahattacharyya. Machine Translation. CRC
information. Computational Linguistics, 20(2):181204,
Press, 2015.
June 2004.
3. Instituto Nacional de Lenguas Indgenas. Lenguas indge-
19. Franz Josef Och. An efficient method for determining
nas en mexico y hablantes (de 3 a nos y m as) al 2015,
bilingual word classes. In Proceedings of the Ninth
January 2016.
Conference on European Chapter of the Association
4. Marina Ermolaeva. An adaptable morphological parser for Computational Linguistics, EACL 99, pages 7176,
for agglutinative languages. In Proceedings of the First Stroudsburg, PA, USA, 1999. Association for Compu-
Italian Conference on Computational Linguistics CLiC-it tational Linguistics.
2014 & and of the Fourth International Workshop EVA- 20. Franz Josef Och and Hermann Ney. A systematic com-
LITA 2014, pages 164168. Pisa University Press, 2014. parison of various statistical alignment models. Compu-
5. Gulsen Eryi
git and Esref Adal. An affix stripping morp- tational Linguistics, 29(1):1951, 2003.
hological analyzer for Turkish. In Proceedings of the 21. Kishore Papineni, Salim Roukos, Todd Ward, and Wei-
International Conference on Artificial Intelligence and Jing Zhu. Bleu: A method for automatic evaluation of
Applications, pages 299304, Innsbruck, 16-18 February machine translation. In Proceedings of the 40th Annual
2004. Meeting on Association for Computational Linguistics,
6. Joseph E. Grimes. Huichol Sintax. Series Practica. Mou- ACL 02, pages 311318, Stroudsburg, PA, USA, 2002.
ton & Co, 1964. Association for Computational Linguistics.
7. Ximena Gutierrez-Vasques. Bilingual lexicon extraction 22. Maxim Roy. Approaches to handle scarce resources for
for a distant language pair using a small parallel cor- Bengali Statistical Machine Translation. PhD thesis, Si-
pus. In Proceedings of the 2015 Conference of the North mon Fraser University, Burnaby, BC, Canada, 4 2010.
American Chapter of the Association for Computational 23. Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea
Linguistics: Student Research Workshop, pages 154160, Micciulla, and John Makhoul. A study of translation edit
Denver, Colorado, June 2015. Association for Compu- rate with targeted human annotation. In In Proceedings
tational Linguistics. of Association for Machine Translation in the Americas,
8. Paula G omez. Huichol de San Andres Cohamiata, Jalis- pages 223231, 2006.
co. Archivo de lenguas indgenas de Mexico. Colegio de 24. Alfred Tarski. Der wahrheitsbegriff in den formalisierten
Mexico, 1999. sprachen. Studia Philosophica, 1:261405, 1936.
9. P. E. Hart, N. J. Nilsson, and B. Raphael. A formal basis 25. UNESCO. ElaboraciOn de una convenciOn para la pro-
for the heuristic determination of minimum cost paths.
tecciOn de las lenguas indIgenas y las lenguas en peligro,
IEEE Transactions on Systems, Science, and Cyberne- 4 2007.
tics, SSC-4(2):100107, 1968. 26. Klaus Zechner and Alex Waibel. Minimizing word error
10. Jose Luis Iturrio and Paula G omez L opez. Gram atica rate in textual summaries of spoken language. In Procee-
Wixarika I. Archivo de lenguas indgenas de Mexico. dings of the 1st North American Chapter of the Associa-
Lincom Europa, 1999. tion for Computational Linguistics Conference, NAACL
11. Mager Hois Jes us Manuel. El algoritmo fringe search 2000, pages 186193, Stroudsburg, PA, USA, 2000. As-
como soluci on superior a a* en la busqueda de caminos sociation for Computational Linguistics.
sobre graficos de malla, May 2015. 27. Richard Zens, Franz Josef Och, and Hermann Ney.
12. Mager Hois Jes us Manuel. Traductor wix arika-espa
nol, Phrase-Based Statistical Machine Translation, pages 18
May 2016. 32. Springer Berlin Heidelberg, Berlin, Heidelberg, 2002.
2

Traductor Wixárika - Español Con Escasos Recursos Bilingües

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Traductor Wixárika - Español Con Escasos Recursos Bilingües

Uploaded by

Copyright:

Available Formats

Traductor estadstico wixarika - espa

nol usando descomposici

La cardinalidad de K = |f 0 | es el numero de todos los

El proceso de entrenamiento, como se ilustra en la figura

Si bien el modelo de alineamiento haba sido creado pa-

emejor = argminIe p(eI |f 0J ) (6)

Para el modelo por frases se va a descomponer p(f 0J |eI )

Cada una de las frases origen f es segmentada en I fra-

Con el modelo de lenguaje LM , el modelo de ali-

Wixarika Sin Segmentar Segmentado

5. Conclusiones y trabajos futuros

You might also like