Professional Documents
Culture Documents
Al Consejo Nacional de Ciencia y Tecnologa por haberme concedido el apoyo financiero para
la realizacin de este trabajo, adems de haberme otorgado una beca mixta internacional a travs
de la beca no. 234963.
1
2
RESUMEN
3
4
Tabla de Contenido
AGRADECIMIENTOS .................................................................................................................................. 1
RESUMEN ................................................................................................................................................. 3
5
3.4.1 Enfoque acstico-fontico ........................................................................................................ 56
3.4.2 Enfoque orientado al reconocimiento de patrones .................................................................. 57
3.4.3 Enfoque orientado a la inteligencia artificial ............................................................................ 59
6
5.5 IMPLEMENTACIN DEL CLASIFICADOR K-NN. RECONOCIMIENTO DE LAS SEALES DE VOZ. .................................... 109
REFERENCIAS123
5
7
8
NDICE DE FIGURAS
9
FIGURA 5-10: ALINEACIN TEMPORAL LINEAL PARA DOS SECUENCIAS DE VOZ CON DIFERENTES DURACIONES. ......................... 94
FIGURA 5-11: SEAL DE VOZ ALINEADA ..................................................................................................................... 95
FIGURA 5-12: EXTRACCION DE CARACTERSTICAS DE LAS SEALES PRE-PROCESADAS DE VOZ ................................................ 96
FIGURA 5-13: RESULTADO DE LA IMPLEMENTACIN DEL ALGORITMO DE LA MAGNITUD PROMEDIO ....................................... 97
FIGURA 5-14: RESULTADO DEL ESPECTROGRAMA PURO SOBRE LA SEAL PRE-PROCESADA DE VOZ......................................... 98
FIGURA 5-15: RESULTADO DE REPRESENTAR AL ESPECTROGRAMA EN DECIBELES ................................................................ 99
FIGURA 5-16: SEAL DE VOZ RECONSTRUIDA ........................................................................................................... 102
FIGURA 5-17: AUTOCORRELACIN DEL ERROR DE PREDICCIN ..................................................................................... 102
FIGURA 5-18: IMAGEN GENERADA A PARTIR DE LOS COEFICIENTES DEL ANLISIS POR PREDICCIN LINEAL ............................. 103
FIGURA 5-19: ANLISIS EN TIEMPO CORTO DE LA SEAL DE VOZ ................................................................................... 104
FIGURA 5-20: SEAL FUNDAMENTAL EXTRADA DE LA SEAL DE VOZ ............................................................................. 105
FIGURA 5-21: IMAGEN SNICA GENERADA A PARTIR DEL ANLISIS EN TIEMPO CORTO DE LA SEAL FUNDAMENTAL ................. 105
FIGURA 5-22: EL MTODO DE LAS EIGENFACES A LOS SPERVECTORES........................................................................... 106
FIGURA 5-23: CLASIFICACIN DE LAS VOCES QUE ENTRAN AL SISTEMA ........................................................................... 110
FIGURA 5-24: GRFICO DE DISPERSIN DE DATOS ..................................................................................................... 112
FIGURA 6-1: ESPACIOS DIMENSIONALES DE LA SEALES DE VOZ .................................................................................... 114
FIGURA 6-2: ESPACIO DE 2 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIN ........................................... 115
FIGURA 6-3: ESPACIO DE 4 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIN ........................................... 116
FIGURA 6-4: ESPACIO DE 7 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIN ........................................... 116
FIGURA 6-5: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 2 PALABRAS ..................................................................... 118
FIGURA 6-6: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 4 PALABRAS ..................................................................... 118
FIGURA 6-7: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 7 PALABRAS ..................................................................... 119
10
Captulo 1 INTRODUCCIN
Espectrogramas
Envolvente de la seal
En este captulo se exponen los motivos por los que se propone que el habla es capaz de ser
representada por medio de una estructura de datos de baja dimensionalidad la cual exhibir las
caractersticas esenciales con las que una mquina puede distinguir palabras de manera automtica.
1.1 Prembulo
11
Pero a pesar de estos avances, an no se ha alcanzado una calidad artificial comparada a la humana.
Por eso es importante continuar con los procesos que involucran a la comunicacin por voz, para
que de esta manera se optimice el conocimiento existente y se desarrollen nuevas tcnicas que
fortalezcan a esta rea.
1.2 Motivacin
La voz, es una seal que viaja a travs de aire perturbado, el cual es producido por funciones
fisiolgicas humanas que hacen uso de tres procesos fsicos esenciales: la generacin de aire
presurizado, la regulacin en la vibracin de este aire y el control de la resonancia de la seal
acstica obtenida. Este proceso fisiolgico genera una seal que contiene una gran cantidad de
informacin, la cual (vista desde el anlisis estadstico multivariante) puede ser analizada como un
flujo de informacin de alta dimensionalidad (Figura 1-1).
Seal de voz
0.06
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
-0.08
Figura 1-1: seal de voz de la palabra Arranca mostrada en el dominio temporal. Desde el punto de vista
tradicional la seal reside en un plano bidimensional (tiempo contra voltaje). Sin embargo al hacer uso
del anlisis estadstico multivariable, la seal se halla embebida en un espacio dimensional de 26,624
coordenadas (1.1093s de duracin con una frecuencia de muestreo de 24kHz).
12
Una forma comn de representar a las seales acsticas (incluyendo a las seales de voz), es medir
la energa de la seal usando diferentes bandas frecuenciales y calculando dicha energa sobre
pequeos y diferentes instantes de tiempo, de esta manera cada banda de frecuencias puede ser
vista como una dimensin en un espacio multidimensional, con una dimensin igual al nmero de
bandas de frecuencias. Desde esta perspectiva un segmento de una seal de voz puede
representarse en un nuevo espacio dimensional, como se observa en la Figura 1-2:
Figura 1-2: Primeros 20ms de la palabra Arranca para 20 bandas frecuenciales. La misma seal se
representa de diferente manera residiendo as en un espacio dimensional de 20 ejes (con esta tcnica
adems, es posible extraer caractersticas particulares de la seal a analizar).
Debido a las restricciones fisiolgicas en los movimientos del cuerpo humano (mandbulas,
pulmones, trax, lengua, etc.), el aparato fonador tiene grados de libertad limitados que pueden
conllevar a una representacin matemtica reducida. Aunado a estas restricciones fisiolgicas y
desde el punto de vista fontico, solamente un pequeo subconjunto de sonidos de todos los
que pueden ser producidos por un ser humano son los que efectivamente se usan en una
comunicacin hablada. Esto es una motivacin en la investigacin de estructuras (variedades) de
baja dimensionalidad inherentes al habla, para que por medio de estos mtodos sea posible
obtener una parametrizacin en la variabilidad fundamental del flujo de datos de estas seales,
usando solamente unas pocas caractersticas. Para este enfoque se puede concebir a la
informacin contenida en las seales de voz como si fuera una variedad de baja dimensionalidad
incrustada en un espacio dimensional superior (ver Figura 1-3).
Usualmente algunas herramientas del procesado digital de seales tales como la transformada
discreta de Fourier y la codificacin por prediccin lineal (linear prediction coding LPC-) pueden ser
13
tiles al analizar a las seales de voz, con el fin de facilitar la extraccin de particularidades que
sean apropiadas para la separacin de informacin relevante (por ejemplo la energa y las
caractersticas espectrales de la seal) de aquella informacin que no sea considerada de inters,
consiguiendo de esta manera una reduccin de la dimensionalidad de la seal [2].
Figura 1-3 [3]: Una variedad bidimensional incrustada de manera no-lineal en un espacio tridimensional.
La hipottica existencia de una estructura de baja dimensionalidad en las seales de voz se fundamenta
en estudios previos que se remontan hasta los primeros anlisis del plano de formantes de las vocales en
una seal de voz [4].
La informacin extrada se transforma (de manera tpica) hacia esquemas o dominios basados en
enfoques perceptuales humanos con respecto a las seales de voz, consiguiendo as una
representacin ms fiel del sistema de comunicacin (como sucede con los esquemas de los
coeficientes de prediccin lineal perceptual y los coeficientes cepstrales en frecuencias mel [5]). Estas
representaciones fundamentadas basadas en modelos perceptuales y acsticos se sustentan en el
conocimiento e investigaciones de los aparatos fonador y auditivo humanos. El inconveniente de
estas tcnicas es que no intentan hallar de manera automtica la estructura inherente de baja
dimensionalidad del habla.
14
de estas tcnicas incluyen a: la compresin y graficacin de datos, la eliminacin del ruido y la
extraccin de caractersticas significativas de datos en espacios de alta dimensionalidad [3].
1.3 Objetivos
1) Analizar el estado del arte en el Tratamiento digital de la seal enfocado a la voz, con la
finalidad de proponer y desarrollar un algoritmo que pueda transformar a las seales entrantes
al sistema hacia un formato adecuado para la optimizacin de los procesos posteriores.
2) Desarrollar una tcnica automtica de seleccin de caractersticas que consiga enfatizar las
caractersticas propias y esenciales de las voces empleadas, y adems elimine aquellas que no
sean tiles para separar las diferentes clases de los conjuntos de entrenamiento.
3) Investigar y proponer un algoritmo de reduccin de dimensionalidad estadstico que permita
eliminar la redundancia existente en los datos originales. El objetivo de este algoritmo ser
reducir el costo computacional para el reconocimiento de las voces por medio de la
representacin de los ejemplos de entrenamiento con un nmero de datos menor al original,
y de manera eficiente.
4) Desarrollar un algoritmo de clasificacin que utilice los vectores de caractersticas obtenidos
en el punto anterior y reconozca al conjunto al que pertenece una muestra de voz.
5) Realizar los bancos de pruebas necesarios para verificar la tasa de reconocimiento del sistema.
15
1.4 Contribuciones
Despus en el captulo 4 se describen los fundamentos de la base para este trabajo analizando
el concepto de reduccin de dimensionalidad y su aplicacin en las seales de voz explorando el
estado del arte del habla enfocado a este tpico.
16
El captulo 5 se presenta el mtodo propuesto a travs del anlisis de cada uno de sus sub-
procesos: pre-procesamiento de la seal, extraccin de caractersticas, reduccin de la
dimensionalidad y clasificacin.
En seguida en el captulo 6 se reportan los experimentos llevados a cabo para la validacin del
sistema as como la comparacin entre las distintas tcnicas de extraccin de caractersticas
propuestas.
17
18
Captulo 2 REVISIN DE LA PRODUCCIN DE LA VOZ
En este captulo se revisa la teora detrs de la produccin y percepcin de la voz, iniciando con
una breve historia sobre el desarrollo y aplicaciones en el rea del procesamiento del habla.
Los seres humanos han estado atrados desde hace mucho tiempo a crear mquinas que puedan
hablar. Los primeros intentos en el entendimiento de la produccin de la voz, consistieron en la
construccin de modelos mecnicos con la finalidad de imitar el aparato vocal humano. El primer
par de ejemplos datan del siglo 13, cuando el filsofo alemn Alberto Magno y el cientfico ingls
Roger Bacon, supuestamente construyeron cabezas metlicas hablantes (aunque no se cuenta con
documentacin existente sobre estos dispositivos). Los primeros intentos registrados en la
construccin de mquinas hablantes se encuentran quinientos aos ms tarde, cuando en 1761
Christian Gottlieb Kratzenstein construy cavidades resonantes las cuales, cuando eran accionadas
usando un carrizo vibratorio, producan los sonidos de las cinco vocales (a/e/i/o/u). De manera
contempornea e independiente a este trabajo, Wolfgang von Kempelen construy un sintetizador
mecnico que poda generar consonantes reconocibles, vocales y algunas pocas palabras
conectadas. Su libro (publicado en 1971) donde se habla sobre esta investigacin, puede ser
considerado como el inicio en el comienzo del procesamiento del habla. Aproximadamente 40
aos despus, Charles Wheatstone construy una mquina basada esencialmente en las
especificaciones de von Kempelen. El inters en analogas mecnicas del aparato vocal humano
continu hasta el siglo veinte, construyndose emulaciones del tipo de la mquina de von
Kempelen por mucha gente adems de Wheatstone, como Joseph Faber, Richard Paget, R. R.
Riesz, etc. [6].
Se sabe que Alexander Graham Bell, tuvo la oportunidad de ver la implementacin de Wheatstone,
realizando tambin una mquina hablante de la misma naturaleza (aunque con diferente aplicacin)
conocida como telfono, que proporcion un mpetu mayor al procesamiento de la voz moderno.
Nadie supondra en aquel momento el impacto que el telfono tendra, no solo en la manera en la
que la gente se comunica, sino tambin en la investigacin del procesamiento de la voz como una
19
ciencia por derecho propio. La disponibilidad de la forma de onda de la voz plasmada ahora en
una seal elctrica, traslad el inters para su sntesis y procesado, emigrando de paradigmas
basados en el uso de mquinas mecnicas hacia mquinas elctricas.
En las dcadas de 1920 y 1930 se realizaron algunos intentos para sintetizar elctricamente a las
seales de voz, sin embargo, fue el trabajo de Homer Dudley en 1930, el que abri paso a la era
del procesamiento del habla moderno. Su contribucin ms importante fue determinar el
entendimiento de la naturaleza portadora de la voz, desarrollando una analoga entre seales de
voz y seales de radio portadoras/moduladas empleadas en la transmisin y la difusin de seales
de audio. En el caso de la difusin para la seal de radio, el mensaje a ser transmitido es la seal de
audio (la cual contiene frecuencias en un rango de 0 a 20 kHz), anlogamente el mensaje a
transmitir (en el caso de la voz) es portado principalmente por el apariencia variante en el tiempo
del tracto vocal, el cual es una representacin de los pensamientos que el hablante desea transferir al
escucha. Los movimientos del tracto vocal se encuentran en tasas de cambio silbicas de una
frecuencia entre 0 y 20 Hz [7]. Para los dos casos (el electromagntico y el acstico), el mensaje se
halla en un rango de frecuencias inadecuado para la transmisin. La solucin es imprimir el mensaje
en una onda que pueda portarla. En el caso electromagntico la portadora es usualmente una onda
sinusoidal de alta frecuencia. En el caso de la voz, la portadora es una de varias seales, (1) una
seal cuasi-peridica generada por las cuerdas vocales para los sonidos vocalizados, (2) una seal
similar al ruido producida por la turbulencia generada por la constriccin ocasionada debido a los
sonidos aspirados y fricativos, (3) una combinacin de sonidos vocalizados fricativos. En efecto,
la seleccin de la onda portadora, as como los cambios en la intensidad y la frecuencia fundamental
de las cuerdas vocales, pueden ser convenientemente considerados como partes adicionales del
mensaje [8].
20
Con la colaboracin de Richard Riesz y Stanley Watkins, Dudley implement (en los laboratorios
Bell) dos dispositivos muy aclamados que hacan uso de este principio, el voder y el vocoder. El
voder fue la primera mquina hablante, siendo capaz de producir frases arbitrarias. Era un sistema
en el cual una operadora maniobraba un teclado para controlar la fuente del sonido y un banco de
filtros variante en el tiempo. Este sistema fue exhibido con gran xito en la Feria Mundial de Nueva
York de 1939 (como Pedro the voder), pudiendo producir una voz de mucha mejor calidad de lo
que jams haba sido posible producir usando dispositivos mecnicos, sin embargo permaneci
bsicamente como una curiosidad.
El vocoder, por otro lado tuvo un propsito ms serio, fue el primer intento que se hizo para
comprimir voz. Dudley consider que toda vez que el mensaje en una seal de voz es portado por
filtros cuyas variaciones temporales son lentas, entonces debera de ser posible enviar informacin
adecuada para que un receptor fuera capaz de reconstruir una seal telefnica de la voz utilizando
1
un ancho de banda de solo apenas 150 Hz (lo que es aproximadamente veces el ancho de banda
20
requerido para transmitir la seal de voz original) [9]. Como el uso del ancho en las
telecomunicaciones ya era costoso desde aquellos das, esta posibilidad era extremadamente
atractiva desde el punto de vista comercial.
En esta introduccin, se ha destinado mucho espacio a la labor de Dudley debido a que sus ideas
fueron la base de prcticamente todo el trabajo posterior realizado en el procesamiento de seales
orientado a la voz: (1) la descripcin de la voz en trminos de una portadora (o funcin de
excitacin), (2) su modulacin (o envolvente espectral variante en el tiempo) siendo an 80 aos
despus la representacin bsica usada en esta rea. Los parmetros usados para cuantificar estos
componentes afortunadamente han evolucionado de muchas maneras. Inventndose adems del
vocoder de canal (el nombre moderno para el vocoder de Dudley), muchos otros tipos de
vocoders, como el vocoder formante y vocoder excitado por voz.
Adems de la compresin de la voz, el trabajo de Dudley fue utilizado para otras aplicaciones tales
como sistemas de seguridad por voz, y el espectrgrafo sonoro. Desafortunadamente, la calidad
conseguida con implementaciones analgicas en vocoders nunca consigui una calidad aceptable
para el estndar de la telefona comercial (sin embargo se hallaron aplicaciones tiles en propsitos
militares en donde era posible tolerar una calidad pobre de la seal de voz). La representacin del
21
vocoder fue tambin la base de un sistema de encubrimiento basado en voz usado extensivamente
durante la segunda guerra mundial.
Otro ejemplo de una implementacin analgica del modelo de Dudley es el espectrgrafo sonoro,
el cual es un dispositivo que muestra la distribucin de energa de una seal de voz como una
funcin de la frecuencia, y la evolucin de esta distribucin en el tiempo. Esta herramienta ha sido
extremadamente til para investigar las propiedades de la seal de voz. Se intent usar una versin
en tiempo real del espectrgrafo aplicndolo como un medio de comunicacin con personas
discapacitadas auditivamente, sin embargo no se obtuvieron los resultados esperados, ya que muy
pocas personas fueron capaces de identificar ms de 300 palabras, tras haberse entrenado casi 100
horas, era una tarea difcil para ser considerada prctica.
Durante ms de tres dcadas posteriores al trabajo pionero de Dudley, una gran cantidad de
investigaciones fueron realizadas en varios aspectos y propiedades de la voz, fundamentalmente
en las propiedades de los mecanismos de la produccin del habla, el sistema auditivo y la
psicofsica. Sin embargo (exceptuando estas tres reas), se hicieron progresos muy pequeos en el
procesamiento de la voz y sus aplicaciones. La explotacin de este campo tuvo que esperar al
desarrollo de hardware digital a principios de la dcada de 1970. Desde entonces se han realizado
muchos avances en anlisis del habla, enfocndose en su: codificacin, transmisin, sntesis,
reconocimiento y asistencia auditiva.
Hoy en da, el rea de procesamiento del habla es an extenso, aunque se ha realizado un gran
progreso desde la invencin del telfono, la investigacin en este campo se encuentra an muy
activo, existiendo an muchos problemas desafiantes sin resolverse.
Como se ha mencionado, una de las primeras metas del procesamiento del habla fue la codificacin
de la seal de voz para una transmisin eficiente. Ello se conceptualiz como sinnimo de la
reduccin del ancho de banda requerido para transmitir voz.
Fueron necesarios avances esenciales en otras reas antes de conseguir el xito moderno en la
codificacin del habla:
22
Primero, las nociones en la teora de la informacin, introducidas por Claude Shannon durante
finales de la dcada de 1940 y la dcada de 1950 proporcionaron el entendimiento que el
objetivo apropiado no consista en reducir el ancho de banda de la seal, sino la reduccin de
su informacin [10] [11].
Una seal de voz telefnica limitada en frecuencia en el rango de 0 a 3.4kHz, requiere de 64kbps
(kilobits por segundo) para ser transmitida sin prdida de calidad [12] [13]. Con las tcnicas
modernas de compresin de voz, la tasa de bits (bitrate) puede ser reducida hasta 13kbps con muy
poca degradacin. Para la telefona comercial un desafo latente es reducir dicho bitrate requerido
sin sacrificar la calidad de la seal. Hoy en da la razn de bits puede disminuirse hasta 2.4kbps
mientras se mantiene una alta inteligibilidad, pero con una prdida de calidad significante; incluso,
se han realizado algunos intentos para reducir el bitrate hasta 300bps (por ejemplo en
comunicaciones de radio con submarinos) sin embargo la calidad e inteligibilidad conseguidas con
estas tasas de bits tan bajas son muy pobres [14].
Otra aplicacin altamente exitosa en el procesado de la voz es el reconocimiento automtico del habla
(automatic speech recognition ASR-). Los primeros intentos en ASR consistieron en crear
modelos determinsticos de todas las palabras en un pequeo vocabulario (p. ej. 100 palabras) y
reconocer una declaracin de voz como la palabra cuyo modelo se acerque ms al modelo
almacenado. La introduccin de modelos ocultos de Markov (hidden Markov models HMMs-) a
principio de la dcada de 1980, proporcionaron una herramienta muy poderosa para el
reconocimiento de la voz [15]. Hoy en da, muchos productos han sido desarrollados y utilizan
exitosamente a los ASR para comunicar a humanos y mquinas, el reconocimiento puede hacerse
23
para frases de voz continuas utilizando un vocabulario grande, y como si se tratara de un hablante
independiente. El desempeo de estos dispositivos, sin embargo, se deteriora en presencia de
reverberacin e incluso ante bajos niveles de ruido ambiental. La robustez ante el ruido,
reverberacin y caractersticas del transductor, es an un problema no resuelto.
El objetivo del reconocimiento automtico del habla independiente del hablante (ASR-SI -speaker
independent-) es reconocer a la voz con precisin no importando del hablante del que se trate. El
problema complementario es reconocer al hablante a travs de su voz, siendo el campo conocido
como reconocimiento automtico del habla dependiente del hablante (ASR-SD speaker dependent-),
despreocupndose de las palabras que la persona diga. En el presente, este problema parece ser
solucionable solo si el hablante pertenece a un conjunto (generalmente pequeo) de N-hablantes
conocidos. Una variante del problema es la verificacin del hablante, en el cual la finalidad es verificar
automticamente la supuesta identidad de un hablante. Mientras el reconocimiento de hablantes,
requiere de la seleccin de uno entre n-posibles resultados, la verificacin de hablantes requiere
solamente de una nica respuesta, s o no. Este problema puede ser resuelto con un alto grado de
precisin para espacios mayores. La verificacin de hablantes converge en aplicaciones en donde
algn dispositivo o conjunto de datos deban de ser controlados. El problema de un desempeo
condicionado ante la presencia de ruido como lo es para los ASR, existe tambin en el
reconocimiento y verificacin de hablantes.
24
de unidades, en el cual las unidades son seleccionadas dentro de un gran nmero de voces
almacenadas y concatenadas con muy poca o inclusive sin modificacin alguna.
Finalmente, cabe mencionar la aplicacin del procesamiento del habla como ayuda para personas
con capacidades reducidas. La tecnologa en ayuda auditiva ha tenido progresos considerables en
las ltimas dos dcadas, y parte de este progreso es debido a una lenta aunque incesante mejora en
el entendimiento del mecanismo auditivo, siendo en buena parte a la disponibilidad de hardware
digital de alta velocidad, lamentablemente en la actualidad el desempeo de la ayuda auditiva es
todava deficiente debido a condiciones ambientales de ruido y reverberacin. Una aplicacin
potencialmente til en el procesamiento de la voz es la ayuda a personas con capacidades reducidas
es desplegar la forma del tracto vocal (labios y mandbulas principalmente) mientras un hablante
genera seales de voz, intentando igualar la forma del tracto de vocal hacia una forma grfica, una
persona sorda puede aprender su pronunciacin correcta. Se han hecho algunos intentos para
implementar esta idea, desafortunadamente todava se encuentra en el campo de la investigacin.
Otra aplicacin til es la ayuda de lectura para ciegos. La idea es contar con un dispositivo que
pueda escanear texto impreso de un libro, sintetizando el habla en funcin del texto escaneado,
en conjunto con un sistema para modificar la tasa del habla, siendo una ayuda muy til para las
personas ciegas (existiendo ya productos que ofrecen esta prestacin en el mercado).
El sonido de la voz es una onda de aire que se genera debido a acciones complejas del cuerpo
humano. La presin del aire proveniente de los pulmones (utilizado de manera particular para la
generacin de la voz), resulta de las funciones del sistema respiratorio durante una fase
prolongada en la exhalacin, despus de una corta inhalacin. Las vibraciones del aire para los
sonidos vocalizados, se generan en las cuerdas vocales de la laringe, las cuales son controladas
en conjunto por los msculos larngeos y un flujo de aire proveniente de los pulmones. La
oscilacin de las cuerdas vocales convierte al aire expirado en un flujo de pulsos de aire
intermitentes que dan lugar a un sonido silbante. Las estrechas constricciones del conducto del
aire a travs del tracto vocal que se generan sobre la laringe, producen tambin fuentes de sonido
transitorias, cuya presin genera un flujo de aire con turbulencias o rfagas de sonido. Los
resonadores se constituyen en la parte superior del tracto respiratorio por las cavidades farngeas,
25
orales y nasales. Dichas cavidades actan como cmaras de resonancia acstica que transforman
los sonidos silbantes larngeos y los sonidos turbulentos, en sonidos con funciones lingsticas
especiales. Los articuladores primarios son la lengua, la mandbula inferior, los labios y el paladar,
generando patrones de movimientos que alteran las caractersticas resonantes del conducto del
aire en la zona supra-larngea, los procesos fisiolgicos en la produccin de la voz se realizan
debido a la secuencia combinada entre las acciones de estos articuladores y los rganos del habla
para la fonacin. Estas actividades resultan en un fenmeno de propagacin a travs de tres
niveles: cavidades sub-glotales, cavidades del tracto vocal, y cavidades nasales y paranasales (Figura 2-1).
En la Figura 2-2 se muestra un esquema transversal de una seccin longitudinal del mecanismo
del tracto vocal humano. El diagrama resalta las caractersticas fsicas esenciales de la anatoma
humana que aparecen en las etapas finales del proceso de produccin de la voz. Muestra al tracto
vocal como un tubo de rea no uniforme seccionado transversalmente y que est unido en uno de
sus extremos por las cuerdas vocales y en el otro por la cavidad bucal. Este tubo funciona como
un sistema de transmisin acstico para sonidos generados dentro del tracto vocal. Por otro lado
para crear sonidos nasales (como los fonemas /M/, /N/ o // del espaol), un tubo con
26
derivacin lateral (tracto nasal), se encuentra conectado a la lnea principal acstica por una accin
de trampa mecnica en el paladar, el camino de la derivacin irradia sonido hacia las fosas nasales.
La forma del tracto vocal (su forma en la seccin transversal a lo largo del eje), vara en funcin
del tiempo debido a los movimientos de los labios, la mandbula, la lengua y el paladar. Aunque el
tracto humano vocal real no est colocado en una lnea recta como en la Figura 2-2, este tipo de
modelo es una aproximacin razonable para diferentes longitudes de onda en la voz.
Figura 2-2: Modelo esquemtico del sistema del tracto vocal [16].
Sonidos vocalizados: (vocales, lquidas, deslizadas y nasales) se producen cuando el tubo del
tracto vocal es excitado por pulsos de aire presurizado resultantes de una apertura y cierre cuasi-
peridico en el orificio glotal (apertura entre las cuerdas vocales).
Sonidos explosivos: tales como en los fonemas /P/, /T/ y /K/ y fricativos como /CH/, se
forman por un cierre repentino del flujo de aire, permitiendo subir la presin antes del cierre para
inmediatamente liberar dicha presin sbita y abruptamente.
27
Todas estas fuentes de sonido crean una seal de excitacin banda ancha (desde el punto de vista
frecuencial) en el sistema del tracto vocal, el cual acta como una lnea de transmisin acstica con
ciertas resonancias dependientes de la forma de la forma de dicho tracto, haciendo que estas
resonancias enfaticen algunas frecuencias de la excitacin relativas a otras. Como ya se ha dicho,
el carcter general de la seal de voz vara en una tasa de fonemas, el cual se encuentra en un orden
alrededor de 10 a 12 fonemas por segundo, y mientras que las variaciones temporales detalladas
para la forma de onda de la voz se encuentran en una tasa mayor (50/segundo). Esto es, los
cambios en la configuracin del tracto vocal ocurren relativamente lento comparadas contra las
variaciones temporales detalladas en la seal de voz. Los sonidos creados en el tracto vocal se
generan en el dominio frecuencial por la respuesta (en dicho dominio) del tracto vocal. Las
frecuencias resonantes resultantes de una configuracin en particular de los articuladores son los
instrumentos fundamentales en la formacin del sonido correspondiente a un fonema dado. Estas
frecuencias resonantes son conocidas como frecuencias formantes del habla [17] (Figura 2-3).
Figura 2-3: Mediciones de los dos primeros formantes de las vocales del idioma espaol [18]. Los
formantes son las bandas de frecuencias en donde se concentra la mayor parte de energa sonora en las
seales de voz. En muchas lenguas los primeros dos formantes permiten distinguir a la mayora de los
sonidos voclicos del habla. Tpicamente el primer formante (el de frecuencia ms baja, est relacionado
con la apertura vocal que a su vez se encuentra relacionada con la frecuencia de las ondas estacionarias
que vibran verticalmente en la cavidad del tracto vocal. El segundo formante (el de frecuencia ms alta),
se relaciona con la vibracin en direccin horizontal, relacionada a su vez con la anterioridad de la vocal,
esto es, cuanta ms frecuencia contenga el formante la lengua estar posicionada ms hacia adelante.
28
En resumen, las estructuras a detalle de la forma de onda (en el dominio temporal) son generadas
por las resonancias y las fuentes del sonido generadas por el tracto vocal, transformando a dichas
fuentes de sonido en fonemas. El sistema de la Figura 2-2 puede ser descrito por medio de la teora
acstica, y pueden usarse tcnicas numricas para crear una simulacin fsica completa de la
generacin y transmisin del sonido en el tracto vocal, sin embargo, para la mayora de las
aplicaciones, es suficiente modelar la produccin de una seal de voz muestreada por un modelo
de sistema en tiempo discreto como el que se muestra en la Figura 2-4:
Seal de voz
Seal de voz
sintetizada
Parmetros
Parmetros
del tracto
de excitacin
vocal
Seal de Seal de voz
excitacin e[n] s[n]
Generador de
Sistema lineal
excitacin
Figura 2-4: Modelo fuente-filtro para una seal de voz. Este modelo se basa en una combinacin de una
fuente de sonido (las cuerdas vocales) y al tracto vocal y sus propiedades irradiantes (los labios),
modelados por medio de un filtro acstico lineal.
29
=0
0 1
=1(1 )
() = =
1
=0
1
=1(1 )
Ecuacin 2-1
En donde los coeficientes del filtro (ak y bk, etiquetados como los parmetros del tracto vocal en
la Figura 2-4) cambian en una tasa del orden de 50-100 veces por segundo. Algunos de los polos
(ak) de la funcin del sistema se encuentran cerca del crculo unitario (en la frecuencia compleja),
creando resonancias en las frecuencias formantes del modelo. Para el modelado en detalle de la
produccin de la voz es frecuentemente til usar ceros (ak) en la funcin del sistema con el
propsito de poder modelar tambin sonidos nasales y fricativos [19].
La frecuencia fundamental en las seales de voz (debida a la excitacin glotal), determina el tono
percibido por los humanos. Los pulsos glotales individuales de duracin finita poseen un espectro
pasa-bajas que depende de varios factores, por lo tanto la secuencia peridica de pulsos glotales
suaves tiene un espectro de lneas harmnicas con componentes que decrecen en amplitud cuando
la frecuencia aumenta. A menudo es conveniente fusionar la contribucin del espectro de pulsos
glotales en el modelo del sistema del tracto vocal.
Para sonidos de seales de voz no-vocalizados, el sistema lineal es excitado por medio de un
generador de nmeros aleatorios, produciendo una seal de ruido en el dominio temporal discreto,
generando de esta manera un espectro frecuencial plano.
Este modelo del habla concebido por el uso de: (1) un filtro digital variante en el tiempo, y por (2)
una excitacin capaz de capturar la naturaleza en la produccin de la seal de voz (sonidos
vocalizadas/no-vocalizados), es la base para modelar a las seales de voz (siendo el arquetipo de
referencia por excelencia hasta la fecha). Esta representacin ha sido plasmada a travs de una
amplia variedad de implementaciones digitales para las seales de voz, permitiendo formar a estas
seales con los parmetros del modelo en lugar de utilizar una forma de onda muestreada.
Al asumir que las propiedades de la seal de voz (y del modelo) son constantes en intervalos de
tiempo corto, es posible calcular, medir y estimar los parmetros del modelo simplemente
analizando segmentos muestrales cortos de la seal de voz [20]. Es a travs de estas tcnicas de
modelado y anlisis que es posible reflejar las propiedades del proceso de la produccin de la voz
por medio de una implementacin de un sistema digital.
30
2.4 Percepcin de la voz
Cuando se analiza a la voz es deseable poder entender no solo el sistema que la genera sino adems
el sistema que responde a ella. En la Figura 2-5 se pueden observar las tres regiones principales
que conforman al odo humano (sistema fisiolgico encargado de pre-procesar a las ondas
acsticas portadoras de la voz):
Figura 2-5: Esquema anatmico del odo, donde se muestran los 3 segmentos principales: Externo
(Canal), Medio (Tmpano, Martillo y Yunque) e Interno (sistema Coclear y sistema Nervioso) [21].
Odo externo: consiste en la parte externa del odo, localizado fuera de la cabeza y conocido
como Pina, tambin conformado por el canal externo. El propsito del odo externo es canalizar
las ondas acsticas hacia el odo medio.
Odo medio: esta zona del odo convierte las ondas acsticas (capturadas previamente) en
vibraciones mecnicas que viajan a travs de la ventana oval hacia el odo interno.
Odo interno: es una cmara llena de fluido que contiene a la cclea (la cual tiene forma de
caracol) y a una membrana basilar. Las vibraciones de la ventana oval crean ondas estacionarias
en el fluido el cual hace vibrar a los vellos delgados que residen en la membrana basilar. Las
frecuencias de estas vibraciones se encuentran en funcin de las frecuencias existentes en la onda
31
acstica del sonido original. Los vellos, conocidos como estereoclios, estn conectados al nervio
auditivo y en esencia convierten las vibraciones mecnicas en impulsos elctricos para poder ser
procesados por el sistema nervioso. Sin embargo la respuesta en frecuencia de la membrana
basilar no es lineal, su resolucin en frecuencia disminuye cuando la frecuencia incrementa, por
ello se han propuesto diversos enfoques a su respuesta no-lineal, como es el caso de la escala
mel.
La escala mel (llamada as por Stevens, Volkman y Newman en 1937) es una escala perceptual de
tonos equidistantes (frecuencialmente), y evaluados por diferentes escuchas. El punto de referencia
entre esta escala de frecuencias y la escala lineal se define al asignar un tono perceptual de 1000
mels a un tono de 1000 Hertz a 40dB sobre el umbral de escucha de una persona. Por encima de
500 Hz se necesitan intervalos cada vez ms grandes para que un escucha perciba incrementos de
tonos iguales. Como resultado, cuatro octavas en la escala de Hertz sobre 500 Hz se interpretan
como dos octavas en la escala mel. Con este experimento se demostr que el sistema auditivo
humano es ms sensible a diferencias de frecuencias en rangos de frecuencias bajas, debajo de
1kHz que en rangos de frecuencias ms altas. Debido a ello, la escala mel es aproximadamente
lineal debajo de 1 kHz y logartmica por encima de este valor. El nombre mel proviene de la palabra
meloda para indicar que la escala est basada en comparaciones de tonos.
= 2595 log10 (1 + )
700
Ecuacin 2-2
32
Relacin Escala lineal vs Escala Mel
2500
2000
Frecuencia (Mels)
1500
1000
500
0
0 1000 2000 3000 4000 5000 6000 7000 8000
Frecuencia (Hertz)
Figura 2-6: Relacin entre escalas frecuenciales mel y Hertz. El sistema auditivo humano no interpreta
los tonos de manera lineal. La interpretacin humana de los tonos crece conforme la frecuencia decrece.
La escala mel surgi para compensar esta caracterstica. Su propsito es modelar al sistema auditivo
humano con una escala no-lineal. Los tonos se perciben de manera lineal en el rango de frecuencias de 0
a 1000 Hz. Despus de 1000 Hz la escala se vuelve logartmica.
33
34
Captulo 3 RECONOCIMIENTO AUTOMTICO DEL
3.1 Introduccin
1. Primera generacin (1930 a 1950): uso de mtodos ad-hoc para reconocer palabras o
pequeos vocabularios de palabras aisladas. Estas tareas se realizaban basndose en el uso
de gramtica nodal simple de una palabra o un conjunto pequeo de palabras sin tomar en
cuenta las disimilitudes en del habla.
35
4. Cuarta generacin (1980 a 2000): uso de mtodos estadsticos a travs de modelos ocultos
de Markov (hidden Markov models HMM-), con el propsito de modelar la dinmica y
estadstica del habla para sistemas ASR continuos, uso de mtodos de entrenamiento de
adelanto-atraso y de k-medias segmentales, uso de mtodos de alineamiento de Viterbi,
uso de Estimaciones de Mxima Verosimilitud (Maximum Likelihood ML-) entre otros
criterios de desempeo y mtodos con la finalidad de optimizar a los modelos estadsticos.
Mtodos basados en redes neuronales (neural Networks NN-) para estimar Densidades de
Probabilidad Condicional, uso y adaptacin de mtodos que modifiquen tanto a los
parmetros asociados con la seales de voz as como con sus modelos estadsticos con el
propsito de mejorar la compatibilidad entre el modelo y el dato original, incrementando
de esta manera la precisin del reconocimiento.
Estas generaciones no estn desligadas unas con otras, debido a que la mayora de las ideas
fundamentales que las generaron surgieron en generaciones anteriores. Sin embargo, los
periodos indicados para cada generacin representan los momentos en los cuales la mayora de
la investigacin se llev a cabo y los momentos en los que las tecnologas resultantes se
convirtieron en estndares para la mayora de los sistemas de reconocimiento automtico del
habla en dichas pocas.
36
tecnologa de reconocimiento del habla se ha convertido gradualmente en una tecnologa clave
en las interfaces de mquina en las Tecnologas de la informacin (TI).
En el Captulo 2 se realiz una resea histrica sobre el procesamiento del habla. Como se
mencion (Captulo 2.1, pgina 19), el trabajo de investigacin formal comenz en la dcada de
1950 en los laboratorios Bell, siendo el sistema Audrey el primero en identificar los diez nmeros
del idioma ingls, esto marc un hito y gener un progreso substancial en la investigacin de las
dcadas posteriores. En la dcada de 1960 si bien los sistemas de reconocimiento automtico del
habla ya existan comercialmente, sus costos (los cuales rondaban entre los $10,000 y $100,000
dlares [22]) los hacan solo accesibles para los profesionales en TI. Posteriormente a principios
de la dcada de 1980, los modelos ocultos de Markov (hidden Markov models HMM-) y las redes
neuronales artificiales (artificial neural Networks ANN-) se emplearon exitosamente en el
reconocimiento del habla. En el ao de 1987 [11], se utiliz exitosamente la tcnica de cuantizacin
vectorial (vector quantization VQ-) para obtener un sistema continuo de reconocimiento del habla-
SI (independiente del hablante) llamado SPHINX, el cual es conocido como el primer sistema
ASR moderno de alto desempeo [23].
Los sistemas actuales de reconocimiento del habla se han trasladado de los laboratorios hacia el
mundo prctico. Muchos pases desarrollados como estados Unidos, Japn, Corea del Sur, as
como grandes empresas como IBM, Apple, Microsoft y AT&T generan fuertes investigaciones y
desarrollos de sistemas de reconocimiento automtico del habla.
37
Resultados del
Seal de voz
reconocimiento
Pre- Identificacin
Extraccin de Asociacin de
procesamiento
caractersticas Patrones
de la seal
Proceso en lnea
Entrenamiento Base de
Conocimiento
(librera)
Proceso fuera de lnea
Figura 3-1: Sistema ASR donde se muestra el paradigma clsico de reconocimiento de patrones, el cual
involucra comparar los parmetros o representacin de caractersticas de la palabra pronunciada con
patrones de referencia para cada palabra en la librera de vocabularios. La etapa de entrenamiento suele
ejecutarse previamente (proceso fuera de lnea) a la etapa de identificacin (proceso en lnea).
La mquina se encarga del proceso de reconocimiento al trabajar con los patrones de las voces
(generados previamente), y comparndolos con las caractersticas de la seal a identificar. Las
estrategias de bsqueda y asociacin para identificar el rango ptimo en una voz entrante al sistema
se basan en la asociacin con estos patrones definidos.
En los subcaptulos siguientes se hace un estudio del estado del arte para los sistemas de
reconocimiento automtico del habla que incluye los mtodos y las tcnicas actuales que se
emplean en cada una de los procesos de dichos sistemas.
Una de las primeras decisiones que se deben realizan en el diseo de un sistema ASR es la manera
de digitalizar y representar a las seales de voz para poder ser interpretadas por una mquina [22].
Los primeros pasos en la etapa de pre-procesamiento de la seal son: la divisin de bloques de voz
en secuencias de seales separadas por pausas, y la normalizacin de la seal para reducir la
variabilidad debido al ruido (condiciones del entorno y de los canales de comunicacin) y al
hablante (rapidez de pronunciacin, salud fsica, emociones, etc.).
38
La representacin digital ms simple para la voz es la Modulacin por Impulsos codificados (Pulse Code
Modulation PCM-) en donde la seal de voz es muestreada y digitalizada por una computadora
empleando para ello un Convertidor analgico-digital (analogic to digital Converter -ADC-). La seal
de voz es muestreada entre 6 a 20 veces por segundo en sistemas ASR, dependiendo de la
frecuencia de respuesta deseada [2]. Tpicamente [24], una etapa de pre-procesamiento de la seal
se compone de los bloques que se ilustran en la Figura 3-2 y que se revisan en las sub-secciones
siguientes.
Opcional
Un filtro de pre-nfasis juega un rol crtico en la captura de las caractersticas de las muestras de
la seales de voz en un sistema ASR [25].
Este filtro surge debido a que generalmente en el proceso de captura de la voz existe una
atenuacin de las componentes de altas frecuencias, ya que el micrfono se comporta como un
filtro pasa-bajas, esto genera fenmenos adversos tales como atenuacin, distorsin y saturacin.
Este filtro se usa con el propsito de suavizar el espectro frecuencial de la seal, al incrementar
la magnitud en una banda de frecuencias (en las seales de voz las frecuencias ms altas) con
respecto de otras frecuencias (las de baja frecuencia), con el propsito de mejorar la relacin
seal-a-ruido total, haciendo que el filtro de pre-nfasis ayude a reducir las inestabilidades en los
clculos posteriores en los sistemas de procesado de voz generados por errores con operaciones
matemticas de precisin finita, evitando de esta manera errores por truncamiento numrico, al
permitir que los coeficientes de una transformada rpida de Fourier (si existiera) o alguna otra
39
transformacin frecuencial, puedan portar tambin a las componentes de altas frecuencias,
generando de esta forma una magnitud mayor en estas frecuencias, lo cual es una aproximacin
ms fiel de la seal real, consiguiendo de esta manera hacer un mejor uso del rango dinmico de
la seal original.
Explcitamente en el rea del anlisis de la voz, las tcnicas LPC o de modelado sinusoidal, buscan
los parmetros de un modelo que minimicen la distancia del modelo a la seal original. Cuando se
aplican estas tcnicas en seales de voz que no han sido pre-enfatizadas, el modelo desperdiciar
la mayor parte de su capacidad (polos, sinusoides, etc.) tratando de sobre-ajustar las primeras
armnicas mientras que se ignoran las de rdenes superiores (pudiendo ser importantes para la
inteligibilidad de la seal de voz o para la discriminacin de fonemas). Aplicando un filtrado de
pre-nfasis a la seal generalmente se asegura que el modelo se ajuste al espectro de manera ms
uniforme.
El filtro de pre-nfasis consiste en un filtro digital de primer orden, con una funcin de sistema:
() = 1 1
Ecuacin 3-1
40
3.2.3 Supresin de silencios
Una forma de clasificar a las seales de voz (desde un anlisis temporal), es categorizando sus
regiones en tres categoras diferentes: vocalizadas, no-vocalizadas y Silencios [26]. Las regiones
vocalizadas y no-vocalizadas contienen informacin del habla, mientras que las partes de Silencio
contienen ruido que generalmente carece de informacin. Un Detector de actividad de la voz (Voice
Activity Detector VAD-) (Figura 3-3), es un sistema capaz de localizar las regiones de sonidos
vocalizados y no-vocalizados en presencia de ruido de fondo en una seal de voz [27] .
Correccin de
Extraccin de Decisin del
Seal de voz decisin del Seal de voz til
caractersticas VAD
VAD
Clculo de
umbral
Un VAD fiable aumenta la exactitud de un sistema ASR. El problema de hallar el inicio y el final
en una seal de voz, se puede concebir como un proceso secuencial (o un proceso por partes),
en donde las pronunciaciones son generalmente muy pequeas (de unos cuantos segundos) en
sistemas ASR. A pesar de que los sistemas VAD pueden implementarse usando diferentes
algoritmos y tcnicas, generalmente poseen algunas caractersticas semejantes con las que es
posible evaluar su desempeo:
41
lo tanto estos umbrales por naturaleza deben de ser robustos y estables para que puedan
segmentar a la voz ante diferentes tipos de ruido. Tpicamente estos umbrales se inicializan en
los algoritmos al analizar el ruido de fondo empleando algn criterio, sin embargo en la mayora
de las ocasiones la inicializacin se realiza con algunas pre-muestras o muestras tempranas de la
seal de voz. Existen dos tipos de inicializacin para el nivel de umbral: uno empleando una
grabacin previa de ruido de fondo, y el segundo es tomar los primeros 200ms de una muestra
de una seal de voz (evidentemente, estas aproximaciones no pueden ser empleadas para
sistemas en tiempo real).
Complejidad: para implementaciones en tiempo real el VAD debe conservar una baja
complejidad. Los VAD basados en tcnicas temporales son de una naturaleza menos compleja
que los basados en dominios frecuenciales [29]. Sin embargo, tambin es cierto que los VAD
basados en tcnicas frecuenciales inherentemente son ms robustos.
Deteccin errnea: Entendida como el Objetivo de la Evaluacin. Para poder valorar a esta
caracterstica de un VAD, se debe segmentar manualmente a una seal de voz en regiones
vocalizadas y no-vocalizadas. Y se obtiene al calcular la razn de muestras ocupadas por la voz
pero habiendo sido clasificadas como silencio sobre el nmero total de muestras.
Para los VAD basados en el dominio temporal, se encuentran los que utilizan tcnicas de: tasas
de cruce por cero [30] [31], periodicidad [32], energa de la seal [33], energa lineal [34] y energa lineal
adaptiva [29], entre otros ms. Para los que utilizan mtodos frecuenciales se tienen los basados
en: coeficientes cepstrales [35], Entropa espectral [36], Medicin de la periodicidad de Mnimos Cuadrados
[37], coeficientes de transformacin wavelet [38], etc.
42
3.2.4 Anlisis en tiempo corto
Una seal de voz no es estacionaria per se, pero analizndola en instantes de tiempo corto se
aproxima lo suficientemente bien como para llevar a cabo un anlisis estadstico. Esta propiedad
se debe a que el sistema fisiolgico humano (especficamente el proceso glotal), no cambia de
manera inmediata. Los estudios indican que una seal de voz tpicamente es estacionaria en
intervalos de tiempo de 20ms [7] [41] [42].
Por lo tanto (si la aplicacin lo requiere), una seal de voz puede dividirse en cuadros de 20 ms
que corresponden a muestras de la forma = ( frecuencia de muestreo, duracin
del cuadro).
Cuando la seal es segmentada en cuadros, es necesario considerar como tratar con los bordes
de los cuadros ya que ellos pueden generar armnicos no deseables. Por lo tanto es conveniente
usar una ventana para disminuir los bordes. Como consecuencia las muestras, no tendrn el
mismo peso para los clculos posteriores y por esta razn es prudente usar un traslape,
solapamiento o superposicin entre tomas, tal y como se muestra en la Figura 3-4, generando
un tamao de tiempo de cuadro (time frame length - -) de:
= +
Ecuacin 3-2
43
Tiempo (s)
Figura 3-4: Segmentacin de una seal de voz dividida en tres cuadros de 20 ms. Cada cuadro comparte
la primera parte con el cuadro previo y la ltima parte con el cuadro siguiente. El tiempo de paso entre
cuadros (tfs) indica el tiempo existente entre el inicio de cada cuadro. El tiempo de traslape (to) se define
como el tiempo desde que inicia un nuevo cuadro hasta que el actual termina.
44
intervalo de eleccin. Por ejemplo, una funcin que es constante dentro de un intervalo y cero
fuera de l es conocida como funcin rectangular (debido a la forma de su representacin grfica).
Cuando otra funcin, forma de onda o secuencia de datos se multiplica por una funcin ventana,
el producto tambin es valuado cero fuera del intervalo, as los datos resultantes residen en la
parte donde las funciones se traslapan (la perspectiva a travs de la ventana).
La ventana de Hamming con sus coeficientes particulares fue propuesta por Richard W.
Hamming, y est optimizada para minimizar al lbulo secundario mximo (el ms cercano al
lbulo principal) [47]. La ventana de Hamming est descrita por medio de la Ecuacin 3-3:
2
() = cos ( ). Con = 0.54, = 1 = 0.46
1
Ecuacin 3-3
45
a) Ventana Rectangular
b) Ventana Hamming
Figura 3-5: Comparativa entre los espectros de dos ventanas, generada usando la herramienta wvtool de
Matlab (R2013a). Se observa que aunque el lbulo principal de la ventana (a)Rectangular es ms estrecho
en comparacin con el de la ventana (b)Hamming ( 0.0039 Rectangular vs
0.0063 Hamming a -3dB), los lbulos secundarios de la ventana Hamming poseen
una mejor atenuacin (-42.7dB Hamming vs -13.3dB Rectangular), adems el factor de fuga espectral es
casi nulo en la ventana de Hamming (0.04% Hamming vs 9.26% Rectangular).
En la seccin 3.2.4 (anlisis en tiempo corto), se plantearon los fundamentos del uso de este
proceso. Estos segmentos de la voz, sern representados en procesos posteriores como un
conjunto de medidas de caractersticas acsticas (modelos espectrales, coeficientes de prediccin
lineal, etc.). Una palabra que deba de ser reconocida, es ms compleja de procesar en
comparacin con un sonido. En consecuencia, un patrn de voz casi siempre involucra una
secuencia de representaciones acsticas de cuadros de tiempo corto, obligando as a que las
tcnicas de inteligencia artificial (artificial intelligence -AI-) para reconocimiento del habla que
46
involucren comparacin de parmetros, sean capaces de contrastar secuencias de caractersticas
acsticas, indistintamente si lo hacen en el dominio temporal o utilizando representaciones
espectrales, ya que incluso las espectrales pueden considerarse como representaciones en tiempo
corto como consecuencia de los intervalos de tiempo involucrados (los cuales usualmente se
encuentran en el rango de varias decenas de milisegundos [48]).
El problema asociado con una comparacin secuencial de cuadros de voz, parte del hecho en el
cual una interpretacin o patrn de la misma voz articulada (palabra, frase o fonema), raramente
se volver a realizar a la misma velocidad (tasa del habla, rate of speech ROS-), ya sea por factores
fsicos (tales como el transductor empleado o el tiempo de respuesta del sistema de
procesamiento) o por factores humanos (condiciones fsicas y emocionales) [49] [50] [51]. Por
lo tanto cuando se comparan diferentes patrones de la misma voz articulada, las variaciones en
las tasas del habla as como la variacin de la duracin no deben de contribuir a las calificaciones o
puntuaciones (scores) de las disimilitudes lingsticas. Es por ello que surge la necesidad de
normalizar la fluctuacin de la tasa del habla con el propsito de que la comparacin de las voces
articuladas sea significativa, optimizando as la decisin tomada por el sistema de asociacin de
parmetros del ASR.
Consideremos dos patrones de voces X y Y, representados por las secuencias (espectrales para
no perder generalidad) (x1, x2,, xTx,) y (y1, y2,, yTx,) respectivamente, tal que xi y yi son los
vectores con los parmetros de las caractersticas acsticas del anlisis en tiempo corto (se puede
usar cualquier conjunto de caractersticas acsticas mientras sea posible la utilizar una medida en
la distancia para comparar al par de vectores de caractersticas y el resultado de esta medida
contengan informacin apropiada). Se usa ix e iy para indicar los ndices temporales de X y Y,
respectivamente. Las duraciones Tx y Ty no necesitan ser idnticas (ya que de manera prctica
nunca lo son). La diferencia entre X y Y est definida al considerar alguna funcin de las
ndices de los pares espectrales que estn siendo comparados ( , ), satisfagan algunas
restricciones de orden. La interaccin entre estas restricciones secuenciales y la variacin natural
47
en la tasa del habla constituye uno de los problemas centrales en el reconocimiento del habla,
conocido como alineacin temporal y normalizacin.
(, ) = ( , )
=1
Ecuacin 3-4
Donde , satisface:
=
Ecuacin 3-5
(Debido a que los ndices ix e iy son enteros se debe de aplicar alguna regla de redondeo en la
Ecuacin 3-5).
Otros trabajos reportan aproximaciones por medio de optimizacin dinmica temporal a travs
del algoritmo de distorsin dinmica temporal (dynamic time warping DTW-) [52], empleando
modelos ocultos de Markov [53], basado en formantes [54], y recientemente empleando emociones
de los hablantes [55], entre otros.
El objetivo general de cualquier sistema de reconocimiento de patrones (incluyendo a los ASR) es:
dada una coleccin de objetos que pertenecen a un conjunto predefinido de clases y a un
conjunto de medidas que sean capaces de cuantificar (y cualificar) a estos objetos, Identificar el
tipo de membresa de cada objeto por medio del anlisis apropiado de estas medidas
(caractersticas) [56].
48
Aunque estas caractersticas se encuentran en funcin de medidas realizadas sobre una clase de
diferentes objetos, en la mayora de los casos el conjunto inicial de caractersticas est formado
por un conjunto grande de atributos potenciales que constituyen un obstculo (en su forma
elemental) tanto a la precisin como a la eficiencia de los algoritmos que las manipulan. En
numerosas situaciones es una tarea complicada poder hallar las caractersticas apropiadas para
todos los patrones de las clases, sin embargo, muchos de los algoritmos de aprendizaje
automtico funcionan como herramientas para la identificacin de informacin relevante para
propsitos de clasificacin.
La seal de voz incluye muchas caractersticas, de las cuales no todas son importantes para su
discriminacin. Idealmente [57] [58] las caractersticas utilizadas por un ASR deberan:
No estar influidas por las condiciones (fsicas, emocionales, de edad, etc.) de los hablantes.
Tener una alta variabilidad entre ejemplos de la misma clase, y baja entre ejemplos de clases
diferentes.
49
conocido como efecto Hughes o maldicin de la dimensionalidad [61]. Evidentemente el ahorro
computacional se evidencia al usar caractersticas que residan en una dimensin reducida.
Existen diferentes maneras de categorizar a las caractersticas para seales de voz (Figura 3-6), y
desde el punto de vista de su interpretacin fsica se pueden clasificar en: caractersticas espectrales
de tiempo corto, caractersticas de la fuente de voz, caractersticas espectro-temporales, caractersticas prosdicas y
caractersticas de alto nivel.
Tono, energa,
duracin, ritmo y
caractersticas
temporales.
Sencillas de extraer
Caractersticas fisiolgicas (Aparato humano)
Carga de datos necesarios
relativamente pequea
Caractersticas Espectrales en Tiempo- Tamao de las cuerdas vocales,
Independientes de textos y Corto y de fuente de Voz
lenguajes dimensiones y largo del tracto
vocal
Implementaciones en tiempo Caractersticas
real factibles Glotales y
Espectrales
Degradadas en presencia de
ruido y alineacin temporal
Figura 3-6: Resumen de las categoras de las caractersticas del habla (vista desde su interpretacin fsica).
La eleccin de las categoras debe basarse en su discriminacin, robustez, y practicidad. Las caractersticas
epectrales en tiempo corto son ms fciles de implentar aunque son menos discriminantes. Las
caractersticas prosdicas y de alto nivel ltimamente han recibido mucha atencin aunque requieren de
un costo computacional muy alto.
50
Las caractersticas prosdicas y espectro-temporales abarcan decenas o algunas centenas de
milisegundos, teniendo caractersticas de entonacin y ritmo (en la mayora de los casos).
Finalmente, las caractersticas de alto nivel intentan capturar caractersticas del habla a nivel
conversacional, como por ejemplo el uso de locuciones (aha, ya sabes, s claro, etc.) [62].
De manera general, ninguna caracterstica es mejor que otra, la seleccin de las caractersticas
que emplear cualquier sistema de procesamiento de la voz (reconocimiento, codificacin, etc.),
es un compromiso entre discriminacin de clases (palabras, personas, fonemas, etc.), robustez y
practicidad, dependiendo nicamente de la aplicacin final, recursos computacionales y cantidad
de datos del habla disponible (para propsitos de desarrollo y de ejecucin).
De manera particular, para el rea de reconocimiento automtico del habla independiente del
hablante, las tcnicas de extraccin de caractersticas que se emplean de manera frecuente [24]
[63] [64], son las caractersticas de bajo nivel, que incluyen a las tcnicas espectrales de tiempo corto
(transformada de Fourier de tiempo corto, transformada wavelet, coeficientes-mel cepstrales y
coeficientes de prediccin lineal perceptuales), las tcnicas basadas en el anlisis de la fuente de la voz
(como el anlisis por prediccin lineal) y las tcnicas en el dominio temporal (tasa de cruces por cero,
energa de la seal).
Como se ha explicado anteriormente (ver pgina 25), la seal de voz cambia continuamente
debido a los movimientos de los articuladores as como al ajuste continuo del tracto vocal, es
por este motivo que la seal es segmentada (tpicamente) en cuadros de 15 a 30ms de duracin.
Con estos tiempos como tambin ya se ha analizado (ver pgina 43), la seal manifiesta
estacionaridad y es posible construir un vector de caractersticas acsticas por medio de los
cuadros generados.
Normalmente los cuadros son pre-enfatizados y multiplicados por una funcin ventana de
manera previa a los procesos subsecuentes. El pre-nfasis (como se discuti en la pgina 39),
levanta a las altas frecuencias cuya intensidad de otra manera estara muy atenuada debido a los
efectos de la seales de voz glotalizadas (entre otros fenmenos indeseables) que generan en
estas frecuencias una pendiente negativa. Una funcin de apodizacin es necesaria para mitigar
los efectos negativos de longitud finita (fenmeno de Gibbs) en la transformada discreta de Fourier
51
(discrete Fourier transform DFT-) as como tambin en la transformada rpida de Fourier (fast
Fourier transform FFT-), o cualquier otra transformada frecuencial (coseno discreta, wavelet, etc.).
Aunque existen trabajos [65] [66] [67] que emplean mtodos alternos a la FFT para la
descomposicin de la seal como lo son por ejemplo: las bases no-armnicas, funciones aperidicas y
las bases de conocimiento generadas por medio del anlisis de componentes independientes (independent
component analysis ICA-), la DFT sigue siendo el mtodo usado por excelencia, debido a su
eficiencia y simplicidad ya que de manera tpica, nicamente se conserva la magnitud del espectro
resultante de una transformacin DFT, debido a la concepcin de que la fase tiene poca
importancia perceptual (aunque se ha demostrado evidencia opuesta [68], y se ha descrito una
tcnica que hace uso de esta informacin [69].
La apariencia global de la magnitud del espectro de la DFT (conocida como la envolvente espectral),
contiene informacin sobre las propiedades de resonancia del tracto vocal humano, resultando
ser la parte con ms informacin del espectro del habla en sistemas de reconocimiento del
hablante. Un modelo simple de la envolvente espectral, comnmente hace uso de un banco de
filtros pasa-bandas para conseguir una integracin energtica sobre las bandas frecuenciales
vecinas, que representan de manera usual [70] a las frecuencias ms bajas y con mayor resolucin
(motivado por un enfoque psico-acstico), al colocar ms filtros con un ancho de banda ms
estrecho.
Aunque tambin, se han usado a los valores obtenidos de las sub-bandas de energa directamente
como caractersticas [71] [72] [73] [74], es habitual reducir la dimensionalidad de estos vectores
utilizando algn tipo de transformacin Figura 3-7.
52
Figura 3-7 [33]: Extraccin de la envolvente espectral usando anlisis cepstral y prediccin lineal. El
espectro de la FFT con NFFT = 512 puntos puede representarse (y reducirse) de manera efectiva con
tan solo = 12 coeficientes cepstrales o = 12 coeficientes de prediccin lineal. Tanto las
caractersticas cepstrales como las de LP son tiles, y una complementa a la otra en el estado del arte del
reconocimiento del habla.
Los coeficientes cepstrales en frecuencias mel (mel-frequency cepstral coefficients MFCCs-) [75] son
caractersticas muy populares en el procesamiento de la voz y del audio, se introdujeron a
principios de 1980 para el reconocimiento del habla (y adoptndose posteriormente en el
reconocimiento de hablantes). Aunque se han estudiado varias caractersticas alternativas como
los centroides de sub-bandas espectrales (spectral sub-bands centroids SSC-) [76] [77], los MFCC son
un paradigma difcil de superar.
1
= [log ()] cos [ ( )]
2
=1
Ecuacin 3-6
53
Por otro lado, los coeficientes de prediccin lineal (LPC) [78] [79], es una mtodo alternativo a la DFT
de estimacin del espectro de la seal de voz. Tiene una buena interpretacin intuitiva tanto del
dominio del tiempo (muestras correlacionadas y adyacentes) y del dominio frecuencial (un
espectro todo-polos que corresponde a la estructura resonante). En el dominio temporal la
ecuacin del predictor LP est definida por medio de la Ecuacin 3-7:
[] = [ ]
=1
Ecuacin 3-7
Donde [] son las seales observadas en tiempos pasados, los coeficientes de prediccin y []
la seal estimada. El error de prediccin (o residuo de prediccin), est definido como [] =
[] []. Los coeficientes usualmente se determinar al minimizar la energa residual al
emplear el algoritmo recursivo de Levinson-Durbin (ms eficiente que los mtodos tradicionales
de solucin, p.ej. eliminacin de Gauss-Jordan). El modelo espectral est definido por la
Ecuacin 3-8:
1
() =
1 =1
Ecuacin 3-8
Y se encuentra constituido por los picos espectrales o polos (la lnea roja de la Figura 3-7).
Los coeficientes del predictor { } raramente son usados de manera directa como vectores de
caractersticas, tpicamente son transformados en caractersticas ms robustas y menos
correlacionadas tales como los coeficientes cepstrales lineales predictivos (linear predictive cepstral
coefficients LPCCs-), frecuencias de Lneas espectrales (Line spectral frequencies LSFs-) [80], y
coeficientes de prediccin lineal predictiva (PLPCs) [81]. Otras caractersticas (aunque principalmente
para la codificacin de la voz) incluyen a los coeficientes de correlacin Parcial (Partial correlation
coefficients PARCORs-), parmetros LARs (Log Area Ratios), frecuencias formantes y Anchos de
banda.
54
3.3.2 Otras medidas usadas como caractersticas
Recientemente, muchos sistemas ASR combinan flujos de datos con diferentes medidas
acsticas, al asumir que algunas caractersticas se atenan cuando se enfatizan otras, y por lo
tanto los flujos combinados deberan capturar la informacin presente en las caractersticas
individuales de manera complementaria.
Para el reconocimiento automtico del habla, en trminos generales existen tres metodologas
diferentes de reconocimiento:
1. El enfoque acstico-fontico.
55
3.4.1 Enfoque acstico-fontico
Para ilustrar la secuencia que involucra el enfoque acstico-fontico para el reconocimiento del
habla se puede tomar en cuenta la Figura 3-8. Un fonema visto como una red en celosa, es el
resultado de la segmentacin y el etiquetamiento de un proceso de reconocimiento que
representa a un conjunto secuencial de fonemas que son patrones parecidos de la seal del habla
que ingresa al sistema. El problema en este enfoque es decodificar a la red en celosa del fonema
de una palabra (o conjunto de palabras), de forma tal que cada instante de tiempo sea
considerado en los fonemas de la red, y adems dicha palabra (o conjunto de palabras) sea vlida
en la sintaxis con respecto al conjunto de reglas especfico para cada idioma.
56
all about ...
EH
AO
M
AW T
R
sil AX
AA
L AA sil
B
OW
sil
Tiempo
Figura 3-8: Red fontica en celosa para una palabra. El smbolo sil- significa un silencio o pausa entre
sonidos o palabras, la posicin vertical en la red en celosa, para cualquier tiempo, es una medida del
mejor patrn identificado para una unidad fontica, con las unidades superiores siendo las que mejores
califican. Mediante una labor de bsqueda, es posible derivar la cadena: sil-AO-L-AX-B-AW-T que
corresponde a las palabras all about (todo sobre), con los fonemas L, AX y B siendo las segundas o
terceras opciones en la red en celosa y los otros fonemas siendo las primeras opciones. Este ejemplo
ilustra la dificultad en decodificar unidades fonticas en palabras.
Dependiendo de la aplicacin, estos objetos pueden ser imgenes, formas de onda (seales) o
cualquier tipo de medida que deba ser clasificada. De manera genrica estos objetos son referidos
utilizando el trmino patrn [102].
57
componentes son las medidas que resultan de las caractersticas del objeto. De esta manera las
caractersticas son las variables especificadas en funcin de la aplicacin y seleccionadas porque
se cree que son importantes para conseguir una clasificacin adecuada.
Para conseguir esta clasificacin se hace uso de un discriminador (tambin conocido como regla de
asignacin o clasificador de patrones), pudiendo controlar los parmetros de este clasificador de
patrones para poder conseguir una respuesta ptima (usando algn criterio) de clasificacin. Se
asume que se cuenta un conjunto de patrones o clases conocidas {( , ), = 1, , }
conocido como conjunto de entrenamiento o conjunto de diseo, utilizado para el diseo del clasificador
(sintonizando sus parmetros internos), y posteriormente estimar la clase de membresa de un
patrn . Tpicamente un clasificador (Figura 3-9) se puede catalogar (en funcin de su
naturaleza) de dos maneras:
Clasificador geomtrico (clustering): utilizado cuando los patrones son graficables. Con
este enfoque se emplea el clculo de distancias, geometra de formas, vectores numricos, puntos
de atraccin, etc.
Selector/Extractor Clasificador de
Sistema sensorial
Representacin de caractersticas Patrn de Patrones
del Patrn Caractersticas
(medidas)
Figura 3-9: Clasificador de patrones. Los datos pueden someterse a varias etapas de transformacin
antes de alcanzar un resultado final. Estas etapas (pre-procesamiento, extraccin de caractersticas y
modelado) manipulan los datos de manera que sea posible reducir su dimensionalidad (nmero de
caractersticas), eliminando informacin redundante o irrelevante, y transformndolos a una forma ms
apropiada para una clasificacin subsecuente [104].
58
3.4.3 Enfoque orientado a la inteligencia artificial
Para el reconocimiento del habla, este enfoque es un sistema hbrido entre el enfoque acstico-
fontico y el enfoque de reconocimiento de patrones, explotando las ideas y conceptos de
ambos. Este enfoque intenta mecanizar el proceso de reconocimiento de acuerdo a la manera en
que una persona aplica su inteligencia en visualizar y analizar para finalmente poder tomar una
decisin de acuerdo a las caractersticas acsticas medidas. De manera particular y en conjunto
con estas tcnicas, el enfoque de inteligencia artificial hace uso de los sistemas expertos para la
segmentacin y etiquetamiento de forma que al ser uno de los pasos ms complejos en un ASR,
pueda llevarse a cabo con herramientas extras adems de usar meramente las caractersticas
acsticas-fonticas, de forma particular estas herramientas incluyen mtodos: fonmicos, lxicos,
sintcticos, semnticos e incluso conocimientos pragmticos estudiados y propuestos por los
sistemas expertos, aprendizaje y adaptacin temporal (concepto en el cual el conocimiento es a
veces dinmico y a veces esttico, y estos modelos deben de adaptarse a las componentes
dinmicas de los datos), el uso de redes neuronales para aprendizaje de las relaciones entre
eventos fonticos y todas las entradas conocidas (acsticas, lxicas, sintcticas, semnticas, etc.)
as como para la discriminacin entre clases de sonidos similares.
59
60
Captulo 4 REDUCCIN DE LA DIMENSIONALIDAD
La voz, representada en su dominio temporal discreto, presenta una alta dimensionalidad dado el
nmero tan grande de muestras que se requieren para representarla inteligiblemente. Sin embargo,
y dado que todos los seres humanos poseemos funcionalmente el mismo aparato de fonacin,
puede suponerse que este dominio original puede ser transformado hacia otro en el que con menos
datos (una menor dimensionalidad) sea capaz de representar sin degradacin considerable la voz
original.
4.1 Introduccin
Por otro lado, en las reas de aprendizaje automtico y estadstica multivariable, las tcnicas de
reduccin de dimensionalidad han demostrado ser una herramienta muy eficaz para el anlisis y
exploracin de grandes volmenes de datos. Una de las tcnicas de reduccin de dimensionalidad
que mayor xito ha tenido en las ltimas tres dcadas, desde las ciencias neurolgicas hasta la
graficacin por computadora es el anlisis por componentes principales (principal component analysis
PCA) [105] [106], por ser un mtodo no-paramtrico (donde se desconoce la distribucin
estadstica subyacente) y de relativa simplicidad para extraer informacin en conjuntos extensos y
confusos de datos. Con un mnimo esfuerzo el PCA ofrece una manera de reducir conjuntos
complejos de datos hacia dimensiones menores que revelen estructuras simplificadas (y la mayor
parte del tiempo ocultas) que usualmente residen en estas bajas dimensiones.
61
tecnolgicos en sensores y en almacenamiento de datos. Algunos ejemplos actuales en los cuales
los conjuntos de datos de alta dimensionalidad han originado diversas lneas de investigacin
muy activas son:
Audio y voz: miles o cientos de miles de medidas realizadas tpicamente entre cada 10 a
40 ms que describen a la seal.
Es por ello que a menudo es deseable reducir la dimensionalidad de estos datos altamente
dimensionales de manera previa a su procesamiento, ya que las dimensiones a menudo se
encuentran correlacionadas pudiendo contener de esta manera una gran cantidad de informacin
redundante la cual nicamente generar que la informacin relevante existente en los datos se
encuentre opacada.
Adems, la dimensionalidad original del conjunto de datos altamente dimensionales, puede ser
mayor que el nmero de grados de libertad (nmero categoras independientes en una prueba o
experimento estadstico particular) del sistema o proceso medido. Es por ello que la
dimensionalidad inherente en los datos puede ser menor que la dimensionalidad del espacio
original. Un ejemplo de este concepto se ilustra en la Figura 4-1, la cual muestra a la tetera de
Newpot en varios grados de rotacin sobre una dimensin. Cada imagen se encuentra
62
representada por medio de 1.080.900 (1201 901) valores, en el que cada valor representa el
nivel de la escala de grises de cada pxel. Claramente este conjunto de datos yace en una alta
dimensin, sin embargo los datos esenciales requieren solamente de un grado de libertad (la
dimensin de la rotacin), pudiendo ser representado adecuadamente por medio de una nica
caracterstica, En este caso el objetivo de la reduccin de la dimensionalidad sera hallar esta
caracterstica principal.
Figura 4-1: imgenes de la tetera de Newpot rotada en una dimensin generadas por medio de Matlab
(R2013a). Este modelo matemtico de una tetera ordinaria (tambin conocido como la tetera Utah), fue
creado en 1975 por Martin Newell en la Universidad de Utah y se ha convertido en un objeto de referencia
estndar de tres dimensiones usado en el campo de graficacin por computadora.
Los datos existentes en el mundo real como por ejemplo: las seales de voz, fotografas digitales
o imgenes de resonancia magntica, usualmente poseen una alta dimensionalidad. Para poder
manejar a estos datos reales adecuadamente es necesaria una reduccin de su dimensionalidad
[110].
63
Los mtodos de reduccin de dimensionalidad para el reconocimiento automtico del habla se
han enfocado en 3 objetivos principales: la reduccin de la dimensionalidad de los modelos generados de
voz [111] [112] [113] [114] [115] [116] , la extraccin y construccin de vectores de caractersticas [117] [118]
y recientemente la modelacin de seales de voz en conjunto con tcnicas de modelacin estadstica
[119] [120].
64
Figura 4-2: Al incrementar la dispersin de los datos, existe un incremento en la dimensionalidad en la
que residen. El volumen del espacio y la dispersin de los datos incrementan en conjunto con la
dimensin, esto ilustra el hecho en el cual la carga de datos requeridos para estimar a una funcin con
cierto grado de precisin incrementa exponencialmente conjuntamente con la dimensin en la que
residen.
2
(, ) =
( + 1)
2
Ecuacin 4-1
(, ) = (2)
Ecuacin 4-3
La proporcin del volumen de la esfera , con respecto al volumen del cubo , se encuentra
dada por:
65
2
= 0, cuando
2 ( + 1)
2
Ecuacin 4-4
Figura 4-3: Una esfera empotrada dentro de un cubo en un espacio de tres dimensiones.
Para la voz, este problema se presenta al querer representar a la seal con mayor definicin
aumentando la frecuencia de muestro con el objetivo de obtener una mejor inteligibilidad, la
dimensin del espacio en que residirn dichas seales crecern en funcin de dicha frecuencia.
66
4.4 Mtodos para la reduccin de la dimensionalidad
Se han propuesto una gran cantidad de mtodos para reducir la dimensionalidad de un conjunto
de datos, al producir un pequeo nmero de caractersticas que describan sus particularidades
fundamentales y que al mismo tiempo preserven informacin discriminatoria. Estos mtodos
pueden revelar informacin correspondiente a los verdaderos grados de libertad de los sistemas,
adems de ayudar a solventar problemas tales como la maldicin de la dimensionalidad. Las
aplicaciones potenciales de estos mtodos incluyen:
Visualizacin: cuando se trabaja con datos de alta dimensionalidad puede resultar difcil
determinar patrones significativos y descubrir caractersticas clave. Este problema puede
superarse al reducir los datos con unas pocas dimensiones (las ms significativas) y
analizar visualmente los datos para determinar cualquier estructura, patrn, valor atpico
etc.
67
Una manera de categorizar a los mtodos de reduccin de la dimensionalidad es dependiendo si
seleccionan las caractersticas o si extraen las caractersticas. Los mtodos de seleccin de
caractersticas se encargan de seleccionar un subconjunto de dimensiones originales que
representen los datos mientras minimizan la prdida de informacin. Estos mtodos ofrecen la
ventaja de producir caractersticas que posean un significado claro adjunto a ellas, por ejemplo
un conjunto particular de pixeles en el caso del procesado de imgenes, o un conjunto distintivo
de bandas frecuenciales en el caso del procesamiento de la voz o de audio. Son tambin
convenientes en trminos de implementaciones prcticas de sistemas, una vez que las
caractersticas requeridas han sido identificadas, solamente es necesario calcular un nuevo
conjunto de caractersticas en lugar de todas las medidas originales.
68
generalmente eficientes, fciles de implementar, y a menudo proporcionan (aunque con una
potencial prdida) un mapeo bidireccional entre los espacios altamente dimensionales y los
espacios de baja dimensin. Sin embargo, los mtodos lineales estn restringidos a proyectar a
los conjuntos de datos sobre una variedad topolgica (manifold) de manera lineal dentro del espacio
original de caractersticas altamente dimensional. La tcnica por excelencia de estos mtodos es
el anlisis por componentes principales (principal component analysis PCA-) [124], aunque tambin
son muy utilizados el anlisis factorial (factor analysis FA-) [125], el anlisis discriminante lineal
(linear discriminant analysis LDA-) [126], el anlisis por componentes independientes (independent
component analysis ICA-) [127] y el escalamiento multidimensional (multidimensional scaling
MDS-) [128].
Estos mtodos tratan de mapear datos altamente dimensionales orientando sus esfuerzos para
ello en describir variedades topolgicas (espacios topolgicos localmente homeomrficos sobre
en espacios euclidianos n-dimensionales [129]), mientras mantienen la estructura fundamental
de los datos, es por ello que a menudo tambin se les conoce como mtodos de aprendizaje de
variedades (manifold learning) [130]. Se clasifican de acuerdo al tipo de estructura que intentan
preservar, ya sea si intentan conservar la geometra elemental global de un conjunto de datos tal
y como lo hacen las tcnicas no-lineales como: los isomapas [131] y sus variantes como isomapas
destacados (landmark isomap); o si tratan de hallar la geometra local de los datos, como en las
tcnicas de: mapas-propios laplacianos (laplacian eigenmaps) [132] y las incrustaciones localmente lineales
(locally-linear embedding LLE-) [133].
69
La idea principal del uso del anlisis por componentes principales es reducir la dimensionalidad
de un conjunto de datos en el cual existen muchas variables que se encuentran interrelacionadas,
y al mismo tiempo mantener en la medida de lo posible la variacin presente de dicho conjunto.
Esta reduccin se consigue al mapear los datos hacia un nuevo conjunto de variables (las
componentes principales), las cuales se encontrarn sin correlacin (lineal) alguna entre s y
adems se encontrarn ordenadas de manera tal que las primeras componentes contendrn la
mayor parte de la variacin presente de todas las variables originales (Figura 4-4).
Por lo tanto definir y calcular las componentes principales es sencillo, aunque dependiendo de
la aplicacin existen numerosas variantes y derivaciones, por ejemplo: en el campo del
procesamiento de seales el PCA es conocido como transformada Karhunen-Love, en el control de
calidad multivariable transformada Hotelling, en la ingeniera mecnica descomposicin ortogonal propia,
en el campo de ruido y vibracin descomposicin espectral, entre otras reas diversas.
70
Se considera a la matriz de datos = [x1 , x2 , , x ] con media muestral igual a cero (despus de
restar la media de la distribucin en el conjunto de datos), donde cada una de las diferentes
columnas representa una repeticin diferente del experimento, y cada una de las -filas
simboliza los resultados de algn tipo de dato en particular. El PCA intenta hallar una
combinacin lineal de estas dimensiones resultando en una nueva matriz (Ecuacin 4-5) de
tamao , en donde .
=
Ecuacin 4-5
= [1 , 2 , , ]
Ecuacin 4-7
(1 ) = 1 1
Ecuacin 4-8
(1 , 1 ) = 1 1 1 (1 1 1)
Ecuacin 4-9
= 1 1 1 = 0
1
Ecuacin 4-10
71
Y finalmente se obtiene que:
1 = 1 1
Ecuacin 4-11
= 1 1 1
= 1
Ecuacin 4-12
Por lo que para la primera componente principal (la cual maximiza la varianza de los datos
proyectados), 1 debe ser igual al mayor valor-propio (siendo 1 el correspondiente vector-
propio). De manera similar para cada componente principal sucesiva , puede demostrarse la
igualdad al vector-propio correspondiente del -simo valor-propio que le corresponde.
De igual manera, se pueden usar a los valores-propios para medir un fragmento de la varianza
conservada al usar un nmero dado de componentes principales. La suma de todos los valores-
propios equivale a la varianza total de los datos, as al comparar esta suma con las componentes
principales elegidas, se revelar la fraccin de la varianza conservada, como se muestra en la
Ecuacin 4-13:
=1
=1
Ecuacin 4-13
72
4.5.1 Clculo de las componentes principales empleando el mtodo de la
covarianza
= {}
Ecuacin 4-14
ii. Colocar los valores de las medias en un vector de medias muestrales de dimensin
1 como se describe en la Ecuacin 4-15:
1
[i] = [, ]
=1
Ecuacin 4-15.
73
ii. Almacenar los datos con la media substrada en una matriz de tamao .
(Donde es un vector fila con todos sus elementos iguales a uno)
=
Ecuacin 4-16.
4. Hallar la matriz de covarianzas.
1 =
Ecuacin 4-18.
ii. La matriz tomar la forma de una matriz diagonal tal que [, ] = para
= = , donde es el -simo eigenvalor de matriz de covarianzas y [, ] =
0 cuando .
iv. Los valores y vectores propios estn ordenados y asociados de forma tal que el -simo
eigenvalor corresponde al -simo eigenvector.
ii. Asegurar que se mantiene la asociacin correcta entre las columnas de ambas matrices.
74
7. Calcular el contenido de la energa acumulada para cada eigenvector.
[] = [, ]
Ecuacin 4-19
[, ] = [, ] 1
Ecuacin 4-20
ii. Usar el vector como una gua para la eleccin de un valor apropiado para . El
objetivo es que posea un valor muy pequeo en la medida que sea posible conseguir
un valor razonablemente alto de (porcentualmente).Por ejemplo, si se requiere elegir
a de forma que la energa acumulada supere cierto nivel de umbral (por ejemplo
90%). En este caso la eleccin de menor valor para ser de forma tal que cumpla con:
[]
0.9
[]
Ecuacin 4-21
= {[]} = {[, ]} = 1, ,
Ecuacin 4-22
75
=
.
Ecuacin 4-23
10. Proyectar las unidades tipificadas de los datos hacia una nueva base
= = {}
Ecuacin 4-24
Lo sistemas de reconocimiento automtico del habla actualmente han alcanzado un gran xito y
una gran difusin, una prueba de ello es la gran variedad adems de la alta calidad de los paquetes
de programas para computadora comerciales existentes hoy en da. Parte de este xito puede ser
atribuido a la extraccin de caractersticas en el habla, la cual desempea un papel importante
globalmente en dichos sistemas.
Aunque estas tcnicas de extraccin de caractersticas, con el tiempo han sido optimizadas, la
mayora de ellas se basan en un mapeo no-lineal de la seal de voz hacia un nuevo espacio, el
cual potencialmente puede generar nuevas caractersticas que puedan discriminar de mejor
manera a las clases que requieran ser analizadas.
Valindose de esta potencialidad, el anlisis por componentes principales (PCA) ha sido aplicado
a las seales de voz con diferentes objetivos y variantes del mtodo original, algunos ejemplo de
ello son: eliminacin de ruido de fondo [134] [135] [136], extraccin de caractersticas [137] [138] [139]
[140] [141] [142], anlisis de las caractersticas Extradas [143] y la reduccin en la dimensionalidad de las
caractersticas Extradas [144] [145].
Uno de los campos donde ms xito ha tenido el PCA es en el rea de reconocimiento facial del
campo de la Visin artificial. A principios de la dcada de 1990 Turk y Pentland [146] presentaron
un mtodo (inspirados por Kirby y Sirovich [147]) para la deteccin e identificacin de rostros
76
humanos basado en el PCA llamndolo eigenfaces. Este mtodo estadstico de reconocimiento de
rostros se fundamenta en un mtodo basado en la apariencia que busca capturar la variacin en
una coleccin de imgenes de rostros diferentes, y usar dicha variacin para codificar y comparar
estos rostros de una manera holstica (anlisis basado en un conjunto de datos y no en partes
individuales).
De manera especfica las eigenfaces son las componentes principales de una distribucin de
rostros, o equivalentemente los eigenvectores de una matriz de covarianzas del conjunto de
imgenes, que representa a las caras de esta manera a travs de un nmero reducido de coeficientes
(en lugar de un conjunto grande de pxeles), al proyectar dichos rostros en el espacio ortogonal
obtenido por el PCA [148], cualquier rostro en el espacio de entrenamiento puede ser sintetizado
por una combinacin lineal de las eigenfaces que conforman al espacio ortogonal (Figura 4-5). Las
eigenfaces generadas por el mtodo tendrn una apariencia con reas claras y obscuras que se
encuentran ordenadas por un patrn especfico, siendo este la manera en que las diferentes
caractersticas en una cara se particularizan para poder ser evaluadas y calificadas. En el mtodo
existir un patrn (una eigenface) para evaluar la simetra por ejemplo de algn estilo de peinado
o de vello facial, o para evaluar el tamao de la nariz o de la boca, mientras otras eigenfaces tendrn
patrones que sern ms complejos de identificar, y en este caso las imgenes de estas eigenfaces
difcilmente se parecern a una cara humana.
77
Figura 4-5: Una cara existente en el conjunto de entrenamiento se reconstruye por medio de una
combinacin lineal al realizar una suma ponderada de todas (segn la potencia de representacin que se
requiera) las caras de la base ortogonal y finalmente sumar la cara promedio del conjunto de
entrenamiento. Aunque las eigenfaces se ordenan en funcin de la variacin que aportan al conjunto de
entrenamiento, su ponderacin vara en las reconstrucciones de los elementos.
Una imagen de una cara (, ) puede verse como un arreglo de valores de intensidades
bidimensional, de tamao . Una imagen con un tamao de por ejemplo 256 256
pxeles, define a un vector de dimensin 65,536 o de manera equivalente a un punto en un
espacio dimensional 65,536. Por lo tanto, un conjunto de imgenes se podra mapear (siguiendo
este razonamiento) hacia una coleccin de puntos en este este espacio altamente dimensional.
78
sub-espacio de menor dimensin. La idea fundamental de la tcnica detrs de una
transformacin de Karhunen- Love (o anlisis de componentes principales), es encontrar a los
vectores que mejor describen a la distribucin que contengan las imgenes de las caras en el
espacio entero de imgenes. Estos vectores definirn al sub-espacio de las imgenes de caras, el
cual ser llamado como espacio de caras o eigenespacio. Cada vector de tamao
describir a una imagen, y ser una combinacin lineal de las imgenes de caras originales.
Debido a que estos vectores sern los vectores-propios de la matriz de covarianzas
correspondiente al conjunto original de imgenes de rostros, y debido a que su apariencia es
similar a la de un rostro, son conocidas como eigenfaces. El mtodo de las eigenfaces es una
variacin de una transformacin de Karhunen- Love, y se define a continuacin:
iii. Calcular la cara promedio. Calcular la media muestral en cada dimensin (rengln) del
conjunto :
1
=
=1
Ecuacin 4-25
iv. Centrar los datos. Remover la media muestral en cada una de los rostros del conjunto
sustrayendo la cara promedio = , y generar la matriz :
= [1 , 2 , , ]
Ecuacin 4-26
1
= =
=1
Ecuacin 4-27
79
vi. Calcular los eigenvectores de C. Por medio de este paso se hallarn un conjunto
de vectores ortonormales y su valor-propio asociado , los cuales describirn
ptimamente a la distribucin de datos (las caras). Sin embargo, como la matriz de
covarianzas posee un tamao de ( ) esto generar una tarea computacional
prcticamente imposible de resolver para una imagen de tamao estndar. Por lo que se
requiere de un mtodo computacionalmente realizable. Para ello:
=
Ecuacin 4-28
Ecuacin 4-29
= = 1,2, ,
=1
Ecuacin 4-30
Por medio de este anlisis los clculos se reducen enormemente, del orden del nmero de pxeles
de las imgenes ( ), a un orden conformado por el nmero de imgenes del conjunto de
entrenamiento (). En la prctica el conjunto de imgenes de entrenamiento ser relativamente
80
pequeo ( ( )), y los clculos sern muy manejables. Los eigenvalores asociados
permitirn clasificar a los eigenvalores de acuerdo a su utilidad para la caracterizacin de la
variacin entre las imgenes de los rostros.
= ( ) +
=1
Ecuacin 4-31
Pero adems, este espacio vectorial generado posee la utilidad de mapear imgenes de rostros
que no existan en el conjunto de entrenamiento al proyectarlas al espacio de las caras
(eigenespacio). Esta transformacin se realiza empleando las componentes principales
(eigenfaces) y utilizando para ello una sencilla operacin:
= ( ) = 1,2, ,
Ecuacin 4-32
(, ) =
Ecuacin 4-33
O por medio de un error de disimilitud de representacin normalizado [150], entre las imgenes
originales (, ) y las imgenes (, ) generadas:
81
2
=( )
Ecuacin 4-34
Existen analogas ocultas entre estas dos reas de investigacin (el reconocimiento facial y el
reconocimiento del habla). Las representaciones estandarizadas de los rostros y las voces,
errneamente sugieren que poseen un alto nmero de grados de libertad, sin embargo los rostros
humanos poseen nicamente dos ojos, una nariz y una boca en lugares predecibles, tales
restricciones aseguran la posibilidad que las imgenes de los rostros ocupen una pequea
fraccin en todo el espacio posible que las imgenes de dos dimensiones pueden generar.
De manera similar, las restricciones fsicas y culturales para las realizaciones acsticas para la voz,
implican los verdaderos grados de libertad para los sistemas de reconocimiento automtico del
habla.
Existen una gran cantidad de ejemplos de familias de patrones en las que es posible obtener una
caracterizacin sistemtica til. A menudo la motivacin inicial puede no ser ms que una nocin
intuitiva en la que alguna de estas familias posee una dimensionalidad reducida, esto de alguna
manera es similar a decir que cualquier miembro de esta familia puede ser representado por un
pequeo nmero de parmetros. Los posibles candidatos para estas familias de patrones son
abundantes tanto en la naturaleza como en la literatura, siendo algunos de ellos: los flujos
turbulentos de aire, el habla, y los rostros humanos [147].
El mtodo de las eigenvoices se introdujo al campo del reconocimiento automtico del habla
inspirado por el mtodo de las eigenfaces del campo del reconocimiento facial [151]. La hiptesis
82
fundamental del uso de las eigenfaces (usado en el campo de ASR-SD), es que todas las voces
representadas en un espacio altamente dimensional podran estar representadas en un espacio
dimensionalmente menor [152], demostrando ser bastante efectivo para el reconocimiento de
hablantes [153] [120] [154] [155] [156] [157] [158] [159].
83
84
Captulo 5 IMPLEMENTACIN DEL SISTEMA
PROPUESTO
Como se expuso ms atrs (Pgina 12), el inters de esta tesis es explotar la hipottica estructura
de baja dimensionalidad presente en el habla. Esta hiptesis se encuentra motivada por los
estudios hechos anteriormente en el rea de la reduccin de la dimensionalidad realizadas sobre
seales de voz (Captulo 4.2 y 4.6.3), as como los estudios realizados de estas tcnicas en el rea
del reconocimiento automtico facial (Captulo 4.6).
85
Seal de Voz
Pre-
Procesamiento
Extractor de caractersticas
Anlisis en Tiempo
Magnitud Coeficientes de
Espectrograma Corto de la Seal
Promedio Prediccin Lineal
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-1: Mtodo propuesto para aplicar reduccin de la dimensionalidad en este trabajo de tesis.
El problema principal para la evaluacin de la eficacia del mtodo propuesto por este trabajo
radica en: (i) comprobar la utilidad de los mtodos de extraccin de caractersticas, (ii) comprobar
el mtodo de reduccin de la dimensionalidad propuesto y finalmente (iii) comprobar su posible
funcionamiento en conjunto. Para poder evaluar la eficacia del mtodo se proponen dos
estrategias diferentes:
Posteriormente se aplica un transformacin sobre las seales pre-procesadas de voz, partiendo del
dominio y codominio en el que originalmente residen (tiempo-amplitud), hacia una nueva
representacin, valindose del uso de imgenes digitales mediante la generacin de imgenes sonoras
de las seales de voz. Con el objetivo de hacer sobresalir las caractersticas particulares que radican
en dichas seales, se utilizan algunos esquemas que el estado del arte en el procesamiento del habla
emplea, de manera especfica se hace uso de: la codificacin por prediccin lineal, la magnitud promedio de
la seal, la autocorrelacin, la transformada discreta de Fourier en tiempo corto, y se propone un nuevo mtodo
denominado anlisis en tiempo corto de la seal fundamental.
En la etapa siguiente (parte medular de esta investigacin), se reduce la dimensionalidad del espacio
generado por el conjunto de caractersticas extrado de las seales de voz plasmadas ahora en
imgenes. Este trabajo hace uso del anlisis por componentes principales (principal component analysis
PCA-) a travs de la tcnica de las eigenfaces, la cual es un referente en el rea del reconocimiento
facial. A travs de esta tcnica se genera un espacio que contiene a los diferentes patrones de las
voces que el sistema podr clasificar, entrenndolo de manera previa a la etapa de reconocimiento
para el que fue concebido.
87
5.2 Implementacin de la etapa de pre-procesamiento
El paso inicial del mtodo propuesto (ver Figura 5-2) requiere la disponibilidad de un conjunto
particular de voces. Para ello las voces que se procesan utilizando este mtodo pasan por una
etapa de pre-procesamiento (ver Captulo 3.2: Pre-procesamiento de la seal, pgina 38).
Seal de Voz
Pre-
Procesamiento
Extractor de caractersticas
Anlisis en Tiempo
Magnitud Coeficientes de
Espectrograma Corto de la Seal
Promedio Prediccin Lineal
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-2: La etapa de pre-procesamiento de la seal es el primer paso del sistema propuesto en este
trabajo. Este bloque a su vez est compuesto por: un filtro de pre-nfasis, una etapa de deteccin de
actividad de la voz, un bloque anlisis de tiempo corto y enventanamiento de la seal para finalmente
pasar por una etapa de normalizacin y alineamiento.
88
seales de voz con mayor calidad acstica. Para el caso de este trabajo se emplea un filtro digital
de primer orden con funcin de sistema () = 1 1 , y con = 0.95.
Con esta funcin de sistema, se analiz la estabilidad de dicho filtro, como resultado de este
anlisis se concluy que el filtro no contiene inestabilidades y su implementacin es factible (ver
Figura 5-3).
1 Pole-Zero Map
0.5/T
0.6/T 0.4/T
0.6 0.3
0.8/T 0.4 0.2/T
0.5
0.4 0.6
0.7
0.9/T 0.1/T
0.8
0.2
0.9
Imaginary Axis
1/T
0
1/T
-0.2
0.9/T 0.1/T
-0.4
0.8/T 0.2/T
-0.6
0.6/T 0.4/T
0.5/T
-1
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Real Axis
Figura 5-3: Anlisis de estabilidad grfica para el filtro de pre-nfasis empleando el Plano-Z. Se observa
que el polo del filtro se encuentra dentro del crculo de radio unitario del Plano-Z. Por lo que el sistema
es Absolutamente Estable con los parmetros propuestos = 0.95, y = 41.6ms.
Adems se estudi la respuesta en frecuencia de este filtro con el propsito de observar que las
frecuencias de las seales de voz (80 6000 Hz) sean mejoradas (Figura 5-4).
Bode Diagram
10
0
Magnitude (dB)
-5
-10
-15
-20
-25
-30
90
60
Phase (deg)
30
0
1 2 3 4 5
10 10 10 10 10
Frequency (rad/s)
Figura 5-4: Respuesta en frecuencia del filtro de pre-nfasis propuesto. Se observa que las seales
existentes a partir de 102 rad/s (159 Hz), que son las de inters para la discriminacin de la voz son
realzadas o enfatizadas. Se observa que el filtro de pre-nfasis realza las seales sern realzadas con una
pendiente aproximada de 6 dB/dec.
89
Finalmente (como se observa en la Figura 5-5), se utilizaron seales de voz natural para
comprobar el funcionamiento del filtro diseado, obtenindose resultados satisfactorios y
validando a este subsistema.
Seal de voz
20
Amplitud (dB)
-20
-40
-60
0
Amplitud (dB)
-20
-40
-60
Figura 5-5: Seal de voz antes de ser pre-enfatizada (arriba), seal de voz despus de ser pre-enfatizada
(abajo). En esta imagen se observa el efecto del filtro de pre-nfasis, las frecuencias ms altas son
acencutadas con respecto a las frecuencias ms bajas.
=0
1
= |()|( ).
0
=0
Ecuacin 5-1
90
Utilizando esta medida, se obtiene una envolvente de la seal (ver Figura 5-6), el algoritmo
calcula de manera automtica (en funcin de: (a) un valor consigna de tiempo para evaluar el
nivel de ruido de fondo y (b) un valor de consigna de umbral para las seales de voz), las zonas
de la seal en donde existe actividad sonora producida por voz, de las zonas donde no existe.
Umbral para
discriminar
zonas
vocalizadas
Tiempo para
evaluar ruido
de fondo
Figura 5-6: Seal de voz y su magnitud promedio, utilizada para detectar las zonas vocalizadas de las
seales a procesar.
Seal de Voz a la entrada del VAD
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
0 0.2 0.4 0.6 0.8 1
Tiempo (s)
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Tiempo (s)
Figura 5-7: Seales de voz antes (arriba) y despus (abajo) de la deteccin de zonas vocalizadas. En la
figura se utilizaron los primeros 20 ms de las seales para calcular los niveles de ruido de fondo y un
umbral del 15% del rango de la seal arriba del ruido de fondo para discriminar las zonas vocalizadas.
Adems se observa la reduccin de la escala temporal a la salida de este algoritmo.
91
En la Figura 5-7, se muestra el resultado del desempeo del algoritmo implementado (clculo de
la magnitud promedio y bsqueda del principio y final de las seales de voz), es importante
observar que el algoritmo entrega la regin total donde existen seales vocalizadas, la seal final
puede contener tanto sonidos vocalizados como no-vocalizados.
Figura 5-8: Segmentacin de una seal de voz dividida en cuadros de 20ms. Cada cuadro comparte su
primera parte con el cuadro previo y su ltima parte con el cuadro siguiente (siendo parametrizables el
tiempo de traslape en el algoritmo implementado). En esta figura se muestra en la izquierda un cuadro
de voz de 20ms con una frecuencia de muestreo de 22kHz, a la derecha se muestran sus dos primeros
formantes en el espacio frecuencial.
92
5.2.4 Implementacin de la etapa de enventanamiento de los cuadros de voz
A la salida del algoritmo de anlisis en tiempo corto y como se analiz en el subcaptulo 3.2.5:
Enventanamiento de los cuadros de una seal de voz (pgina 44), se dise e implement una
etapa de enventanamiento de los cuadros de seales de voz para trabajar especficamente con las
tcnicas de espectrogramas (tiempo-frecuencia) y coeficientes de prediccin lineal de la etapa de extraccin
de caractersticas, debido a la necesidad de mitigar el fenmeno de Gibbs causante de fugas
espectrales en el dominio frecuencial. El tipo de ventana usado en este trabajo es la ventana
comn Hamming. Al utilizar esta etapa en el dominio temporal se reducen las discontinuidades
abruptas en los bordes de las seales producto del anlisis en tiempo corto, en el espacio
frecuencial se reduce el derrame espectral obteniendo una mejor definicin en las frecuencias
formantes de los cuadros de voz, como se muestra en la Figura 5-9.
93
Como se analiz en el subcaptulo 3.2.6: Normalizacin y alineamiento (pgina 46), cuando una
mquina de reconocimiento de patrones compara modelos (para este trabajo voces), raramente
se realizarn a la misma velocidad debido a: transductores, procesadores, condiciones fsicas y
emocionales de los hablantes, entre otras causas. Estas variaciones no deben participar en el
desempeo final del sistema, es por ello que debe normalizarse la fluctuacin en la tasa del habla.
Figura 5-10: Alineacin temporal lineal para dos secuencias de voz con diferentes duraciones.
94
Seal de voz sin normalizar
0.04
0.02
Amplitud (volts)
0
-0.02
-0.04
-0.06
2000 4000 6000 8000 10000 12000 14000 16000
Muestras (fs @ 24kHz)
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
2000 4000 6000 8000 10000 12000 14000 16000 18000
Muestras (fs @ 24kHz)
Figura 5-11: Seal de voz antes de ser alineada (arriba), seal de voz a la salida del algoritmo de alineacin
temporal lineal (abajo). En este trabajo es posible parametrizar la longitud de las muestras de voz. En este
ejemplo se fij el valor de alineacin a 800ms, obteniendo 19200 muestras por seal.
Como se estudi en el subcaptulo 3.3: Extraccin de caractersticas (pgina 48), este proceso
intenta transformar las seales de voz puras en una representacin en la que las caractersticas,
particularidades y peculiaridades ms importantes de las seales se encuentren disponibles de
manera simple, evidente y asequible en una imagen, adicionalmente esta etapa deber facilitar el
procesamiento posterior en el sistema ASR.
95
Seal de Voz
Pre-
Procesamiento
Extractor de caractersticas
Anlisis en Tiempo
Magnitud Coeficientes de
Espectrograma Corto de la Seal
Promedio Prediccin Lineal
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-12: La segunda etapa del mtodo propuesto es extraer las caractersticas de las seales pre-
procesadas de voz empleando para ello alguno de los mtodos propuestos en este trabajo, para
posteriormente plasmar dichas caractersticas en una imagen digital.
La razn de haber utilizado esta caracterstica en este trabajo es emplear la envolvente de las
seales de voz como propiedad elemental para poder distinguir palabras. Adems que en su
momento se re-utiliz el algoritmo desarrollado para el VAD (ver pgina 90), con el objetivo de
comenzar a realizar pruebas de manera ms rpida y poder validar al sistema ASR.
=0
1
= |()|( )
0
=0
Ecuacin 5-2.
96
Utilizando esta propiedad en las seales, se obtiene una envolvente de la seal original como se
observa en la Figura 5-13. Al utilizar esta medida como caracterstica se obtiene un vector de
caractersticas de tamao:
=
2
Ecuacin 5-3.
Seal de voz para analizar
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
0 0.2 0.4 0.6 0.8 1
Tiempo (segundos)
Caractersticas extradas
5
4
Magnitud
0
20 40 60 80 100 120 140 160 180
Cuadros (20ms)
Figura 5-13: Resultado de la implementacin del algoritmo de la magnitud promedio. Seal de voz
(arriba), y envolvente de la seal como vector de caractersticas (abajo). Cada punto de la grfica es un
vector (192 caractersticas), los cuales representan la envolvente de la seal. Esta manera de discriminar
palabras resulta efectiva en palabras cuyas envolventes sean diferentes.
El objetivo de emplear este mtodo es utilizar a los formantes y sus transiciones en las seales
de voz (que residen en el dominio frecuencial), como propiedades particulares para distinguir
palabras. Debido a que estas caractersticas (los formantes) residen en un plano tiempo-
frecuencia se hace uso de la transformada de Fourier (Ecuacin 5-4) en conjunto con el anlisis
en tiempo corto de las seales de voz y enventanamiento de las seales.
() = () (2) = 0,1, , 1
=0
Ecuacin 5-4.
97
Al utilizar la transformada de Fourier en tiempo corto se obtiene una imagen como la que se muestra
en la Figura 5-14, la cual visualmente no cuenta con la suficiente informacin til plasmada en
esta imagen snica. Para subsanar este inconveniente, en este trabajo se aplic:
Figura 5-14: Resultado del espectrograma puro producto de aplicar la transformada de Fourier en tiempo
corto sobre la seal pre-procesada de voz.
98
Figura 5-15: Resultado de representar al espectrograma en decibeles y despus de un filtrado en la banda
de frecuencias relevantes para la voz humana. Esta palabra (Mehanadaci) contiene 5 slabas las cuales se
plasman de manera natural en esta imagen (indicados por cada formante).
Como se revis en el subcaptulo 3.3.1: Caractersticas espectrales de tiempo corto (pgina 51),
el anlisis por prediccin lineal ha sido una herramienta ampliamente utilizada a lo largo del
procesamiento de seales de voz moderno. Esta tcnica intenta modelar pequeos fragmentos
de seales de voz (a travs del anlisis en tiempo corto), por medio de un filtro todo-polos al
predecir los valores futuros de una seal utilizando los valores pasados. El resultado de esta
prediccin es un conjunto de coeficientes (dependiendo del orden del filtro) los cuales intentan
modelar al sistema fisiolgico de produccin de la voz. Es debido a estos antecedentes
99
Para obtener los coeficientes de prediccin lineal, se intenta minimizar el error de prediccin a
travs de mnimos cuadrados, al utilizar una combinacin lineal de los cuadros pasados de la
seal de voz:
() = ( )
=1
Ecuacin 5-5.
Donde y(n) es la seal predecida linealmente al utilizar N muestras de x(n). El error de prediccin
es entonces:
() = () () = () ( )
=1
Ecuacin 5-6.
El objetivo del anlisis por prediccin lineal es encontrar los mejores coeficientes que
minimicen al error () en un sentido cuadrtico medio:
1 2
2 1
= (()) = [() ( 1)]
=0
=0 1
Ecuacin 5-7.
Para optimizar este Error Cuadrtico Medio, se igualan las derivadas ( ) de la funcin a cero:
1 2
= [() ( 1)] = 0
=0 1
Ecuacin 5-8.
(0) (1) ( 1)
(1) (0) ( 2)
=[ ]
( 1) ( 2) (0)
Ecuacin 5-9,
y r es:
100
(1)
= [ (2) ]
()
Ecuacin 5-10.
Siendo () la funcin de autocorrelacin de la seal de voz (). La cual est definida como:
() = () ( )
=0
Ecuacin 5-11.
Debido a que es una Matriz Toeplitz Hermtica (matriz cuadrada con todas sus diagonales de
izquierda a derecha paralelas numricamente e igual a su propia transpuesta conjugada), es
posible resolver a este sistema aplicando el algoritmo recursivo regresivo Levinson-Durbin,
siendo factible encontrar una solucin computacional menos compleja que con algoritmos
tradicionales (Gauss-Jordan p. ej.). De esta manera se encuentran los coeficientes de prediccin
lineal para cada una de los cuadros de voz, estando plasmados en un filtro Todo-Polos, de la
manera:
() = =
1+ =1 ()
Ecuacin 5-12.
Al implementar este algoritmo y utilizando los coeficientes obtenidos, la seal de voz puede
reconstruirse aproximndose a la seal original (dependiendo su calidad del nmero de
coeficientes), como se muestra en la Figura 5-16:
101
Seal original vs. Estimacin por LPC
4
Seal original
Estimacin por LPC
Amplitud
0
-1
-2
-3
0 10 20 30 40 50 60 70 80 90 100
Muestras
Figura 5-16: Comparacin de la seal original (en azul), y la seal reconstruida (verde). La calidad de
reconstruccin de la seal depende del nmero de coeficientes que deseen encontrar por cuadro de voz.
En esta imagen el sistema implementado utiliza una configuracin de doce coeficientes, siendo este
nmero el mnimo segn la convencin actual vigente en el campo de las comunicaciones celulares de
ltima generacin.
0.8
Valor normalizado
0.6
0.4
0.2
-0.2
-5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000
Lags
Figura 5-17: Autocorrelacin del error de prediccin, mostrando un pico en el elemento cero del vector
de retardos. Este comportamiento se aproxima al comportamiento estadstico del ruido, de esta manera
se puede afirmar que el error de prediccin (la diferencia entre la seal original y la predecida) es mnimo.
102
Finalmente para este trabajo, se construyeron las imgenes snicas al concatenar los coeficientes
{ } que resultan del anlisis por prediccin lineal de cada uno de los cuadros de voz que resultan
del anlisis en tiempo corto (ver Figura 5-18).
Figura 5-18: Imagen generada a partir de los coeficientes { } del anlisis por prediccin lineal como
vectores de caractersticas. Se han concatenado los cuadros de voz resultados del anlisis de tiempo corto
con los coeficientes LPC. En esta imagen se configur al sistema para producir imgenes utilizando
cuadros de voz de 20ms y 22 coeficientes del filtro LPC.
Para poder hallar la seal fundamental se utiliz la autocorrelacin de las seales de voz (Ecuacin
5-13.), la cual es una medida de su similitud, y el anlisis en tiempo corto de las seales de voz.
El resultado de esta operacin es una funcin de semejanza de los retardos de tiempo en las
formas de onda del cuadro de voz analizado, de esta manera las Formas de Onda (o seales de
voz) que sean peridicas exhibirn tambin una autocorrelacin peridica.
103
() = [] [ + ]
=
Ecuacin 5-13.
0.02
Amplitud (volts)
-0.02
-0.04
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Tiempo (segundos)
0.1
Amplitud
0.05
-0.05
-0.1
-400 -300 -200 -100 0 100 200 300 400
Figura 5-19: Anlisis en tiempo corto de la seal de voz (arriba) y su seal de autocorrelacin (abajo). El
algoritmo implementado consiste en encontrar el mximo en la parte positiva del vector de retardos de
la autocorrelacin para poder hallar la frecuencia fundamental del cuadro de voz analizado.
104
Cuadro de una seal de voz
0.02
Amplitud (volts)
0
-0.02
-0.04
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Tiempo (segundos)
0.02
Amplitud (volts)
-0.02
-0.04
0 1 2 3 4 5 6
Tiempo (segundos) -3
x 10
Figura 5-20: Cuadro del anlisis en tiempo corto de la seal de voz (arriba), seal fundamental extrada
(abajo).
Finalmente, despus de extraer las seales fundamentales de los cuadros de voz, se pasa por un
proceso de alineacin temporal lineal para cada una de las seales fundamentales y una
concatenacin de estos cuadros, para finalmente generar las imgenes snicas a partir de las seales
fundamentales.
Anlisis en Tiempo Corto de la Seal Fundamental
50
100
150
200
Tiempo (us)
250
300
350
400
450
Figura 5-21: Imagen snica generada a partir del anlisis en tiempo corto de la seal fundamental como
vectores de caractersticas, se han concatenado las seales fundamentales alineadas temporalmente para
su generacin. En esta imagen se configur al sistema para producir imgenes utilizando cuadros de voz
de 20ms y una frecuencia fundamental mxima de 500 Hz que es el rango mximo de frecuencia
fundamental para un humano.
105
5.4 Implementacin del mtodo de reduccin de la dimensionalidad a
travs del mtodo de las eigenfaces
Para este trabajo de investigacin se utiliz la tcnica de las eigenfaces como mtodo
fundamental de generacin y reconocimiento de patrones, para ello se implement este
algoritmo de manera tal que pudiera actuar sobre las imgenes generadas a partir de las seales
de voz (como se muestra en la Figura 5-22). Como se describi en el subcaptulo 4.6.1:
Implementacin prctica de las Eigenfaces (pgina 78), este mtodo involucra recolectar un
conjunto amplio de imgenes con el objetivo de incrementar la fiabilidad del mtodo. Para este
trabajo se generaron dichas imgenes al utilizar alguno de los algoritmos de extraccin de
caractersticas descritos anteriormente, en esta seccin se describe el mtodo de las eigenfaces
para 3 palabras diferentes.
Seal de Voz
Pre-
Procesamiento
Extractor de caractersticas
Anlisis en Tiempo
Magnitud Coeficientes de
Espectrograma Corto de la Seal
Promedio Prediccin Lineal
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-22: La tercera etapa del mtodo propuesto consiste en aplicar el mtodo de las eigenfaces a los
spervectores generados a partir de la fase de extraccin de caractersticas. Este bloque es la parte medular
de este trabajo de investigacin.
106
a) Organizar al conjunto de entrenamiento. Para esta seccin se utilizaron tres palabras
diferentes (Doroike, Mizuzeme, Yakuhi), con 25 ejemplos de entrenamiento para cada
palabra -generando 75 imgenes snicas en total- (1 , 2 , , 75 ).
107
de entrenamiento (Ecuacin 5-16). Para este ejemplo la matriz de covarianzas se gener
con los ejemplos de entrenamiento.
f) Construr una matriz de vectores-propios. Por medio de este anlisis los clculos se
reducen enormemente, del orden del nmero de pxeles de las imgenes ( ), a un
orden conformado por el nmero de imgenes del conjunto de entrenamiento (). En la
prctica el conjunto de imgenes de entrenamiento ser relativamente pequeo
( ( )), y los clculos sern muy manejables (Ecuacin 5-17).
108
e1,1 e1,2 e1,75
e2,1 e2,2 e2,75
=[ ]
e75,1 e75,2 e75,75
Ecuacin 5-17.
109
automtico y se basa en que un objeto es clasificado por la mayora de la votacin de sus vecinos,
asignndosele una clase conforme a sus k vecinos ms cercanos (siendo k un entero positivo).
Seal de Voz
Pre-
Procesamiento
Extractor de caractersticas
Anlisis en Tiempo
Magnitud Coeficientes de
Espectrograma Corto de la Seal
Promedio Prediccin Lineal
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-23: La ltima etapa del mtodo propuesto por este trabajo es clasificar las voces que entran al
sistema con el objetivo de reconocerlas. Para ello se utiliz el mtodo de los k-vecinos ms cercanos.
Para ello se calcular la distancia euclidiana de cada elemento de test proyectado con cada uno de
los elementos en la librera de entrenamiento, a partir de la distancia:
2
( , ) = ( )
=1
Ecuacin 5-19
110
clase es predicha para ser la clase ms cercana al ejemplo de entrenamiento (cuando k=1) es
llamada nicamente Algoritmo del vecino ms cercano (nearest neighbor Algorithm).
La exactitud de este algoritmo puede ser severamente degradada por la presencia de ruido o
caractersticas irrelevantes, o si las escalas de caractersticas no son consistentes con lo que uno
considera importante. Muchas investigaciones y esfuerzos fueron puestos en la seleccin y
crecimiento de caractersticas para mejorar las clasificaciones. Particularmente una aproximacin
en el uso de algoritmos que evolucionan para optimizar caractersticas de escalabilidad. Otra
aproximacin consiste en escalar caractersticas por la informacin mutua de los datos de
entrenamiento con las clases de entrenamiento
Para este trabajo se implement el algoritmo de los vecinos ms cercanos con distancia ponderada, donde
se elige el nmero de vecinos que podrn votar en la clasificacin y su voto se pondera como se
muestra en la Ecuacin 5-20:
1
( ) (, ( )) 2
=1 ( , )
Ecuacin 5-20.
De esta manera se espera que no exista riesgo de permitir a todos los ejemplos entrenamiento
contribuir a la clasificacin de ya que al ser muy distantes no tendran peso asociado. La
desventaja de considerar todos los ejemplos seria su lenta respuesta (mtodo global), por lo que
se quiere siempre tener un mtodo local en el que solo los vecinos ms cercanos que sean ms
relevantes sean considerados. Esta mejora es muy efectiva en muchos problemas prcticos ya
que el algoritmo se vuelve robusto ante el ruido presente en los grandes volmenes de datos,
adems se observa que al tomar promedios ponderados de los k vecinos ms cercanos, el
algoritmo puede evitar el impacto de ejemplos con ruido aislados. En la Figura 5-24 se observa
un grfico de dispersin donde se muestra la manera en la que el algoritmo funciona para este
trabajo.
111
Figura 5-24: Grfico de dispersin de datos donde se muestra la manera en que el clasificador opera. Se
observa a un objeto X siendo clasificado por el mtodo. En este ejemplo existen 3 diferentes palabras en
el espacio euclidiano dimensional 65. Aunque el vecino ms cercano del elemento a clasificar es una
palabra Yakuhi (en azul), para este ejemplo se utiliz una k=8, por lo tanto la membresa del elemento a
clasificar pertenece a una palabra Misuzeme puesto que existen ms votantes que poseen una membresa
con esta etiqueta.
112
Captulo 6 EXPERIMENTOS CON DATOS DE VOZ
NATURAL
Para este objetivo se desarroll una plataforma de test para evaluar tanto de manera integral
como de manera reducida al sistema implementado, siendo posible modificar los parmetros
para el procesado de la seal, el tipo de seleccin de caractersticas as como la parametrizacin
particular de cada tcnica de seleccin, el porcentaje del poder de representacin para el
eigenespacio generado, la eleccin del porcentaje de vecinos ms cercanos para del clasificador
implementado en funcin de la dimensionalidad de dicho espacio y por ltimo el nmero de
elementos con que el sistema se entrenar as como el nmero de elementos de test que el sistema
evaluar.
Con el fin de analizar la efectividad del mtodo de las eigenfaces de reducir la dimensionalidad
de los mtodos de extraccin de caractersticas propuestos, se llev a cabo un experimento que
permitiera comparar el espacio dimensional final para cada test. Para ello se generaron 3 espacios
dimensionales diferentes, con 2, 4 y 7 palabras existentes en cada espacio respectivo (Doroike,
Mizuzeme, Yakuhi, Mukasi, Gyakumawari, Yasumono y Koosuuhyoo), con las que se entren al
sistema y se llevaron a cabo dichas pruebas.
Para las pruebas realizadas, cada palabra es pronunciada por 60 personas distintas, de las cuales
45 hablantes se destinan para el entrenamiento del sistema ASR (de manera evolutiva) y los 15
hablantes restantes para la verificacin del sistema. El valor de k para el algoritmo k-NN vara
segn la cantidad de elementos en el espacio dimensional en funcin de los ejemplos de
entrenamiento, siendo igual al 14% del total de los ejemplos de entrenamiento.
113
Para el caso de este trabajo de investigacin se realiz un convenio con el National Institute of
informatics en el speech Resources Consortium de Japn quienes a travs del Ph.D. Tomoko
Ohsuga amablemente proporcionaron el corpus TMW.
Para comprobar la eficacia del mtodo del anlisis de las componentes principales a travs de las
eigenfaces para reducir los espacios dimensionales de las tcnicas de extraccin de caractersticas
empleadas, se utiliz el banco de pruebas implementado en el sistema ASR propuesto con el
propsito de conocer el tamao del espacio dimensional de origen y el tamao del espacio
dimensional despus de aplicar el mtodo de reduccin de la dimensionalidad.
200000
Dimensin
Figura 6-1: Tamaos de los espacios dimensionales de la seal de voz original y de las distintas tcnicas
de extraccin de caractersticas propuestas en este trabajo de tesis.
114
En las Figura 6-2, 6-3 y 6-4 se muestra el desempeo de la tcnica propuesta al reducir la
dimensionalidad de las imgenes snicas en funcin de los ejemplos de entrenamiento, con un
99% del poder de representacin. Mostrando la dimensionalidad final de las diferentes tcnicas
de extraccin de caractersticas propuestas en funcin de los ejemplos de entrenamiento
utilizados para el sistema ASR. Se observa que con este poder de representacin la tcnica de
reduccin de la dimensionalidad (PCA), logra reducir la dimensionalidad de los datos
enormemente, al intentar hallar hiperplanos donde se encuentre la mayor varianza de los datos
analizados.
80
60
40
20
0
10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90
EJEMPLOS DE ENTRENAMIENTO
Figura 6-2: Espacio de 2 palabras y utilizando el 99% del poder de representacin en la tcnica de las
eigenfaces.
115
Comparacin Dimensionalidad vs Elementos de
Entrenamiento (4 palabras)
200
NMERO DE DIMENSIONES
150
100
50
0
20 28 36 44 52 60 68 76 84 92 100 108 116 124 132 140 148 156 164 172 180
EJEMPLOS DE ENTRENAMIENTO
Figura 6-3: Espacio de 4 palabras y utilizando el 99% del poder de representacin en la tcnica de las
eigenfaces.
260
240
220
200
180
160
140
120
100
80
60
40
20
0
35 49 63 77 91 105 119 133 147 161 175 189 203 217 231 245 259 273 287 301 315
EJEMPLOS DE ENTRENAMIENTO
Figura 6-4: Espacio de 7 palabras y utilizando el 99% del poder de representacin en la tcnica de las
eigenfaces.
116
Como se muestra en las Figura 6-2, 6-3 y 6-4, el tamao de la dimensin de los espacios
resultantes en funcin del nmero de ejemplos de entrenamiento para el procesamiento off-line
(entrenamiento) del sistema manifiestan un nmero mucho menor de dimensiones adems de
tener un comportamiento directamente proporcional y lineal. Sin embargo es interesante analizar
la tendencia de la tcnica de magnitud promedio de la seal, en la cual la dimensin necesaria
para representar la tendencia de la varianza estadstica es mnima, e incluso cuando se agregan
ms elementos de entrenamiento al sistema, la dimensionalidad de los espacios resultantes
decrece.
Finalmente, para comprobar el desempeo global del sistema propuesto se obtuvieron utilizando
el banco de pruebas desarrollado las tasas de reconocimiento del sistema ASR. En las Figura 6-5,
6-6 y 6-7 se muestra la eficiencia el mtodo propuesto. El sistema ASR reconoce
automticamente las palabras que ingresan a l, adems se muestra que a pesar de la alta
dimensionalidad de la que parte el mtodo de los espectrogramas, es el mtodo con la tasa de
reconocimiento ms alta, sin embargo el mtodo de la magnitud promedio a pesar de ser
sumamente simple, demostr tener una eficiencia muy alta tambin. A pesar de tener una alta
eficiencia para reconocer palabras en un espacio de dos elementos, los mtodos de coeficientes
de prediccin lineal y anlisis en tiempo corto de la seal fundamental decrecen a medida que
los espacios crecen. Estas tasas de reconocimiento validan totalmente la eficacia del sistema al
haber obtenido tasas de reconocimiento satisfactorias.
117
Tasa de Reconocimiento vs Ejemplos de Entrenamiento (2
palabras)
100
TASA DE RECONOCIMIENTO (%)
80
60
40
20
0
10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90
EJEMPLOS DE ENTRENAMIENTO
Figura 6-5: Tasas de reconocimiento para espacios de 2 palabras para cada una de las diferentes
tcnicas de extraccin de caractersticas.
80
60
40
20
0
20 28 36 44 52 60 68 76 84 92 100 108 116 124 132 140 148 156 164 172 180
EJEMPLOS DE ENTRENAMIENTO
Figura 6-6: Tasas de reconocimiento para espacios de 4 palabras para cada una de las diferentes
tcnicas de extraccin de caractersticas.
118
Tasa de Reconocimiento vs Ejemplos de Entrenamiento (7
palabras)
100
TASA DE RECONOCIMIENTO (%)
80
60
40
20
0
35 49 63 77 91 105 119 133 147 161 175 189 203 217 231 245 259 273 287 301 315
EJEMPLOS DE ENTRENAMIENTO
Figura 6-7: Tasas de reconocimiento para espacios de 7 palabras para cada una de las diferentes
tcnicas de extraccin de caractersticas.
Al obtener una eficacia satisfactoria en las tasas de reconocimiento del sistema se puede afirmar
que el mtodo desarrollado incentiva la hiptesis inicial propuesta para este trabajo, en la que la
voz posee una estructura inherente de baja dimensionalidad que conserva las caractersticas
mnimas gracias al nmero limitado de grados de libertad del sistema fonador humano y a la
fonologa limitada empleada en las sociedades humanas.
Adems, este mtodo resulta altamente atractivo debido a que se emplean imgenes digitales
para reconocer voz, en lugar de los mtodos actuales usados en esta rea con lo que se puede
conseguir una buena eficiencia computacional.
119
120
Captulo 7 CONCLUSIONES Y TRABAJO FUTURO
El propsito del trabajo presentado en esta investigacin ha sido proponer y utilizar un sistema
de reconocimiento automtico de la voz basndose en reconocimiento de imgenes y utilizando
la inherente baja dimensionalidad en las variedades existentes de la voz humana. Para lograr este
propsito se ha estudiado, implementado y propuesto mtodos de estadstica, procesamiento
digital de seales, fisiologa, inteligencia artificial, computacin entre otras disciplinas necesarias
y utilizadas para construir un sistema de reconocimiento automtica del habla.
121
7.1 Trabajo Futuro
Sobre la misma lnea en el procesamiento del habla, valdra la pena probar al sistema desarrollado
con mtodos de alineacin temporal ms precisos como es el caso de la Deformacin dinmica
temporal (DTW), adems de sistemas de seguir desarrollando sistemas de extraccin de
caractersticas que puedan tener una representacin snica conveniente y notable para este
mtodo.
Finalmente, la implementacin exitosa de este mtodo hace pensar que no solo puede funcionar
para las dimensiones inherentes de la voz, sino que es posible implementarlo para un sinfn de
aplicaciones donde sea necesario la identificacin de patrones especficos, p. ej. prediccin de
Fallos de Equipos, Telecomunicaciones, Pronsticos de tiempo, Diagnstico Mdico,
Astronoma, etc.
122
Apndice A. Publicaciones realizadas
Abstract: In this work an Automatic Speech Recognition System is implemented, which makes use of an
Automatic Pattern Recognition Processor that instead of working on Speech Recognition Techniques, it does
so based on Artificial Vision paradigms, using images produced in function of intrinsic characteristics extracted
from the speech for the Training Stages and Pattern Generation, thus using this information to classify
appropriately this signals. Nevertheless, the State of the Technique in the area of Digital Signal Processing is
used focused on the processing of the speech, which is very important for the generation of the signal
conditioning algorithms, as well as the speech Feature Extraction. We use and compare the performance of four
different methods of Feature Extraction: Average Magnitude, Spectrograms (Time-Frequency), Linear
Prediction Coefficients and finally we propose a technique called: Short time Analysis of the Fundamental
Signal.
For the Training stages and Pattern generation, we make a revision of the State of the Art on Artificial
Intelligence for Computer Vision as well as for Speech Recognition, stressing particularly in the Principal
Components Analysis, to be able to implement in a later stage the Eigenfaces method, being this the prevailing
reference on Facial Recognition field and the fundamental technique of recognition in this work.
Next, we make a quick revision of the state of the art of automatic classifiers and we use the k-Near Neighbors
(k-NN) algorithm. Lastly, we generate a test bench in Matlab, where the final implementation of the algorithms
is created and then evolutionary tests are executed based on the spaces generated, thus obtaining the system
recognition rates. For this, we use the TMW Voice Corpus enabling us this way the evaluation of the final
performance of the implemented system
123
124
REFERENCIAS
[1] A. Spanias, T. Painter y V. Atti, Audio Signal Processing and Coding, New Jersey: John
Wiley & Sonc, Inc, 2007.
[3] A. Errity, Exploring the Dimensionality of Speech using Manifold Learning and
Dimensionality Reduction Methods., School of Computing. Faculty of Engineering and
Computing. Dublin City University, Dublin, 2010.
[4] G. E. Peterson y H. L. Barney, Control Methods Used in a Study of the Vowels, Journal
of the Acoustical Society of America, vol. 24, n 2, pp. 175-184, 1952.
[5] K. N. Ramamurthy y A. S. Spanias, MATLAB Software for the Code Excited Linear
Prediction Algorithm. The Federal Standard-1016, Arizona: Morgan & Claypool, 2009.
[7] L. R. Rabiner y R. W. Schafer, Digital Processing of Speech Signals, New Jersey: Prentice-
Hall. Signal processing series, 1978.
[8] F. Pereira y T. Ebrahimi, The MPEG-4 Book, Upper Saddle River, NJ: Pearson, 2002.
[10] F.-L. Luo, Mobile Multimedia Broadcasting Standars. Technology and Practice, San Jose.
CA: Springer, 2009.
[11] K. Shikano, K.-F. Lee y R. Reddy, Speaker adaptation through Vector Quantization.,
Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, vol. 11, pp.
2643-2646, 1986.
[13] A. M. Kondoz, Digital speech. Coding for low bitrate communication systems, West
sussex: John Wiley & Sons Ltd, 2004.
[14] D. Salomon, Data compression. The complete reference, London: Springer-Verlag, 2007.
125
[15] J. Benesty, M. M. Sondhi y Y. Huang, Springer Handbook of speech processing, Berlin:
Springer, 2008.
[16] R. Goldberg y L. Riek, A practical handbook of speech coders, Florida: CRC Press LLC,
2000.
[17] V. Garg, Wireless Communications and Networking, San Francisco, CA.: The Morgan
Kaufmann Series in Networking, 2007.
[18] A. R. Bradlow, A comparative acoustic study of English and Spanish vowels, Journal of
the Acoustical Society of America, vol. 97, n 3, pp. 1916-1924, 1995.
[19] D. Minoli, Voice Over IPv6. Architechtures for Next Generation VoIP Networks,
Burlington: Newnes. Elsevier, 2006.
[20] L. Hanzo, F. C. Somerville y J. Woodard, Voice and audio compression for wireless
communications, West sussex: John Wiley & Sons, Ltd, 2007.
[21] C. d. Wikipedia, Odo [en lnea]., Wikipedia, La enciclopedia libre, [En lnea]. Available:
http://es.wikipedia.org/w/index.php?title=O%C3%ADdo&oldid=67617929. [ltimo
acceso: 23 06 2013].
[22] D. R. Reddy, Speech recognition by machine. A review, Proceedings of the IEEE, vol. 64,
n 4, pp. 501-531, 1976.
[25] M. Sarma, K. Dutta y K. K. Sarma, Speech corpus of assamese numerals extracted using
an adaptive pre-emphasis filter for speech recognition., Computer and Communication
Technology (ICCCT), 2010 International Conference on., pp. 461-466, 2010.
[26] J. P. Campbell, Speaker recognition: A tutorial, Proceedings of the IEEE, vol. 85, n 9, pp.
1437-1462, 1997.
126
[29] V. R. Prasad, A. Sangwan, H. S. Jamadagni, M. C. Chiranth, R. Sah y V. Gaurav,
Comparison of voice activity detection algorithms for VoIP., Computers and
Communications, 2002. Proceedings. ISCC 2002. Seventh International Symposium on., pp. 530-
535, 2002.
[34] P. Pollk, P. Sovka y J. Uhlr, Noise suppression system for a car., In proc. of the 3rd
European Conference on Speech Communication and Technology - EUROSPEECH'93., pp. 1073-
1076, 1993.
[36] P. Renevey y A. Drygajlo, Entropy based Voice Activity Detection in very noisy
conditions, Proceedings of the Seventh European Conference on Speech Communication and
technology EUROSPEECH 2001., pp. 1883-1886, 2001.
[37] R. Tucker, Voice Activity Detection using a periodicity measure., Communications, Speech
and Vision, IEEE Proceedings I., vol. 139, n 4, pp. 377-380, 1992.
[39] A. Papoulis, Probability, Random Variables, and Stochastic Process, New York:
McGraw-Hill, Inc., 1991.
127
[42] S. Furui, Digital Speech Processing: Synthesis, and Recognition., CRC Press, 2000.
[45] F. J. Harris, On the use of windows for harmonic analysis with the discrete Fourier
transform, Proceedings of the IEEE, vol. 66, n 1, pp. 51-83, 1978.
[48] L. Rabiner y B.-H. Juang, Fundamentals of Speech Recognition., Englewoods Cliffs, NJ.:
Prentice-Hall International, Inc., 1993.
[52] S. Tarar, Speech analysis: Desktop items activation using Dynamic time warping
algorithm., Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE
International Conference on., vol. 6, pp. 657-659, 2010.
[54] M. J. Hunt, Time alignment of natural speech to synthetic speech., Acoustics, Speech, and
Signal Processing, IEEE International Conference on ICASSP '84., vol. 9, pp. 65-68, 1984.
128
[55] C. Busso, A. Metallinou y S. S. Narayanan, Iterative feature normalization for emotional
speech detection., Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International
Conference on., pp. 5692-5695, 2011.
[57] P. Rose, Forensic Speaker Identification, New York, NY.: Taylor & Francis Group, 2002.
[58] J. J. Wolf, Efficient Acoustic Parameters for Speaker Recognition, J. Acoust. Soc. Am.,
vol. 51, n 6B, pp. 2044-2056, 1972.
[61] A. K. Jain, R. P. Duin y J. Mao, Statistical pattern recognition: a review., Pattern Analysis
and Machine Intelligence, IEEE Transactions on., vol. 22, n 1, pp. 4-37, 2000.
[66] B. Imperl, Z. Kacic y B. Horvat, A study of harmonic features for the speaker
recognition, Speech Communication, vol. 22, n 4, pp. 385-402, 1997.
[67] G.-J. Jang, T.-W. Lee y Y.-H. Oh, Learning statistically efficient features for speaker
recognition, Neurocomputing, vol. 49, n 1-4, pp. 329-348, 2002.
129
[69] R. M. Hegde, H. A. Murthy y G. V. Ramana-Rao, Application of the modified group
delay function to speaker identification and discrimination, Acoustics, Speech, and Signal
Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, vol. 1, pp. 517-
520, 2004.
[76] T. Kinnunen, B. Zhang, J. Zhu y Y. Wang, Speaker Verification with Adaptive Spectral
Subband Centroids, Advances in Biometrics. Lecture Notes in Computer Science, vol. 4642, pp.
58-66, 2007.
[78] J. Makhoul, Linear Prediction: A tutorial review, Proceedings of the IEEE, vol. 63, n 4,
pp. 561-580, 1975.
[80] X. Huang, A. Acero y H.-W. Hon, Spoken Language Processing: a Guide to Theory,
Algorithm, and System Development, Upper Saddle River, NJ: Prentice Hall PTR, 2001.
[81] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, Journal of the
Acoustical Society of America, vol. 87, n 4, pp. 1738-1752, 1990.
130
[83] S. Tibrewala y H. Hermansky, Sub-band based recognition of noisy speech., Acoustics,
Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on., vol.
2, pp. 1255-1258, 1997.
[87] H. W. Hon, K. Wang y W. Hsiao, Combining Frame and Segment Based Models for
Large Vocabulary Continuous Speech Recognition., IEEE Workshop on Automatic Speech
Recognition and Understanding., pp. 221-224, 1999.
[88] K. Jiang y X. Huang, Acoustic feature selection using speech recognizers., Proceedings of
ASRU, Keystone, Colorado..
[93] A. Zolnay, R. Schulter y H. Ney, Acoustic Feature combination for Robust Speech
Recognition, Proceedings. (ICASSP '05). IEEE International Conference on., vol. 1, pp. 457-
460, 2005.
131
[94] B. Kingsbury, G. Saon, L. Mangu, M. Padmanabhan y R. Sarikaya, "Robust speech
recognition in Noisy Environments: The 2001 IBM spine evaluation system., Acoustics,
Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on., vol. 1, n I,
pp. 53-56, 2002.
[95] R. Gemello, F. Mana, D. Albesano y R. de Mori, Multiple resolution analysis for robust
automatic speech recognition, Computer Speech & Language, vol. 20, n 1, pp. 2-21, 2006.
[101] C. M. Bishop, Pattern Recognition and Machine Learning, Cambridge, UK: Springer,
2006.
[103] A. R. Webb, Statistical Pattern Recognition, Malvern, UK: John Wiley & Sons, Ltd, 2002.
[105] K. Pearson, On lines and planes of closest fit to systems of points in space., Philosophical
Magazine 2, pp. 559-572, 1901.
132
[107] M. Hauskrecht, R. Pelikan, M. Valko y J. Lyons-Weiler, Feature Selection and
Dimensionality Reduction in Genomics and Proteomics, de Fundamentals of Data Mining
in Genomics and Proteomics, New York, Springer, 2007, pp. 149-172.
[110] L. J. P. van der Maaten, E. O. Postma y H. J. van den Herik, Dimensionality Reduction:
A Comparative Review, MICC, Maastricht University, Maastricht, 2008.
[117] N. Kumar, Heteroscedastic discriminant analysis and reduced rank HMM for improved
speech recognition, Speech Communication. , vol. 26, n 4, pp. 283-197, 1998.
133
[120] D. Wang, R. Vogt y S. Sridharan, Eigenvoice modelling for cross likelihood ratio based
speaker clustering: A Bayesian approach, Computer Speech & Language, vol. 27, n 4, pp.
1011-1027, 2013.
[121] R. E. Bellman, Adaptive control processes: A guided tour, Princeton University Press,
1961.
[123] D. W. Scott, Multivariate Density Estimation: Theory, Practice and Visualization, John
Wiley & Sons, Inc., 1992.
[126] G. J. McLachlan, Discriminant Analysis and Statistical Pattern Recognition, New Jersey:
John Wiley & Sons, 2004.
[129] M. W. Hirsch, Differential Topology. (Graduate text in mathematics, 33), New York:
Springer-Verlag, 1976.
[132] M. Belkin y P. Niyogi, Laplacian Eigenmaps and Spectral Techniques for Embedding
and Clustering, Advances in Neural Information Processing Systems, vol. 14, pp. 586-591, 2001.
134
[135] C. Leitner, F. Pernkopf y G. Kubin, Kernel PCA for Speech Enhancement, Advances in
Nonlinear Speech Processing. Lecture Notes in Computer Science, vol. 7015, pp. 199-206, 2011.
[138] T. Takiguchi y Y. Ariki, Robust Feature Extraction using Kernel PCA, Acoustics, Speech
and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on,
vol. 1, pp. 14-19, 2006.
[139] V. D. M. Nhat y S. Lee, PCA-based Human Auditory Filter Bank for Speech
Recognition, Signal Processing and Communications, SPCOM. International Conference on, pp.
393-397, 2004.
[142] S. Nordholm y S. Y. Low, Speech Signal Extraction Utilizing PCA-ICA Algorithm With
a Non-Uniform Spacing Microphone Array, Acoustics, Speech and Signal Processing, 2006.
ICASSP 2006 Proceedings. 2006 IEEE International Conference on, vol. 5, pp. 14-19, 2006.
[143] O. W. Kwon, K. Chan y T. W. Lee, Speech Feature Analysis using Variational Bayesian
PCA, Signal Processing Letters, IEEE, vol. 10, n 5, pp. 137-140, 2003.
[144] X. Cui, M. Afify y B. Zhou, Stereo-based stochastic mapping with context using
probabilistic PCA for noise robust automatic speech recognition, Acoustics, Speech and
Signal Processing (ICASSP), 2012 IEEE International Conference on, pp. 4705-4708, 2012.
[145] Y. Kaneda, N. Hayasaka y Y. Iiguni, Feature Reduction Using PCA with Multi-
Condition Training for Practical Speech Recognition Systems, Communications and
Information Technologies (ISCIT), 2012 International Symposium on, pp. 93-98, 2012.
[146] M. A. Turk y A. P. Pentland, Face recognition using eigenfaces, Computer Vision and
Pattern Recognition. Proceedings CVPR '91, pp. 586-591, 1991.
135
[147] M. Kirby y L. Sirovich, Application of the Karhunen-Loeve procedure for human
faces., Pattern Analysis and Machine Intelligence, IEEE Transactions., vol. 12, n 1, pp. 103-
108, 1990.
[149] K. Baker, Singluar value decomposition tutorial, The Ohio State University, Ohio,
2005.
136
[159] P. Nguyen, R. Kuhn, J. C. Junqua, N. Niedzielski y C. J. Wellekens, Eigenvoices: A
compact representation of speakers in model space, Annales Des Tlcommunications , vol.
3, n 4, pp. 163-171, 2000.
[163] A.-R. Mohamed, G. E. Dahl y G. Hinton, Acoustic Modeling Using Deep Belief
Networks, Audio, Speech, and Language Processing, IEEE Transactions on, vol. 20, n 1, pp.
14-22, 2012.
[165] S. Matsoukas, J.-L. Gauvain, G. Adda, T. Colthurst, C.-L. Kao, O. Kimball, L. Lamel, F.
Lefevre, J. Z. Ma, J. Makhoul, L. Nguyen, R. Prasad, R. Schwartz, H. Schwenk y B. Xiang,
Advances in transcription of broadcast news and conversational telephone speech
within the combined EARS BBN/LIMSI system, Audio, Speech, and Language Processing,
IEEE Transactions on, vol. 14, n 5, pp. 1541-1556, 2006.
[166] H. Soltau, B. Kingsbury, L. Mangu, D. Povey, G. Saon y G. Zweig, The IBM 2004
Conversational Telephony System for Rich Transcription, Acoustics, Speech, and Signal
Processing, 2005. Proceedings. (ICASSP '05). IEEE International Conference on, vol. 1, pp. 205-
208, 2005.
137