Tesis Asesor Final

AGRADECIMIENTOS
A la Benemrita Universidad Autnoma de Puebla por permitirme realizar los estudios de

Maestra empleando sus recursos materiales y humanos. En especial al Dr. Salvador Ayala Raggi
por su tiempo y sus ideas para la conclusin de este trabajo, as como a los honorables miembros
del jurado calificador por sus valiosas observaciones.
Al Consejo Nacional de Ciencia y Tecnologa por haberme concedido el apoyo financiero para
la realizacin de este trabajo, adems de haberme otorgado una beca mixta internacional a travs
de la beca no. 234963.
1
2
RESUMEN
En este trabajo de tesis se implementa un sistema de reconocimiento automtico del habla, el

cual hace uso de un procesador de reconocimiento automtico de patrones que en lugar de
trabajar con tcnicas del rea de reconocimiento de la voz funciona en base a paradigmas de la
Visin artificial, empleando para ello en las etapas de entrenamiento y generacin de patrones,
imgenes producidas en funcin de caractersticas intrnsecas extradas de la voz, usando esta
informacin para poder clasificar adecuadamente a dichas seales. No obstante se estudia y
utiliza el estado de la tcnica en el rea de procesamiento digital de seales enfocado al procesado
de la voz, imprescindible para generar los algoritmos de acondicionamiento de seales, as como
los algoritmos de extraccin de caractersticas del habla. Se usan y adems se compara el
rendimiento de cuatro mtodos diferentes para la seleccin de caractersticas: Magnitud promedio
de la seales, espectrogramas (tiempo-frecuencia), coeficientes de prediccin lineal y por ltimo se propone una
tcnica indita llamada: anlisis en tiempo corto de la seal fundamental. Para las etapas de
entrenamiento y generacin de patrones, se revisa el estado del arte en inteligencia artificial tanto
para el rea de Visin por computadora al igual que para el rea de reconocimiento de la voz,
haciendo nfasis en las tcnicas de estadstica multivariante. Enfocndose de manera particular
al anlisis por componentes principales, para posteriormente poder implementar el mtodo de
las eigenfaces, siendo un referente actual en el campo del reconocimiento facial y la tcnica
fundamental de reconocimiento de este trabajo. Posteriormente se hace una revisin rpida al
estado del arte de los clasificadores automticos y se propone una pequea variante del algoritmo
de los k-vecinos cercanos (k-nn) hacindola adaptiva a las condiciones de los bancos de prueba. Por
ltimo se genera un banco de pruebas en Matlab, donde se realiza la implementacin final de
los algoritmos y se ejecutan pruebas evolutivas en funcin de los espacios generados obteniendo
as las tasas de reconocimiento del sistema. Para ello se emplea el corpus de voz TMW
posibilitando as evaluar el desempeo final del sistema implementado.
3
4
Tabla de Contenido
AGRADECIMIENTOS .................................................................................................................................. 1
RESUMEN ................................................................................................................................................. 3
NDICE DE FIGURAS ................................................................................................................................... 9
CAPTULO 1 INTRODUCCIN ............................................................................................................ 11
1.1 PREMBULO .......................................................................................................................................... 11

1.2 MOTIVACIN ......................................................................................................................................... 12
1.3 OBJETIVOS ............................................................................................................................................. 15
1.3.1 Objetivo general ....................................................................................................................... 15
1.3.2 Objetivos Particulares ............................................................................................................... 15
1.4 CONTRIBUCIONES .................................................................................................................................... 16
1.5 ORGANIZACIN DEL DOCUMENTO DE TESIS ................................................................................................... 16
CAPTULO 2 REVISIN DE LA PRODUCCIN DE LA VOZ ..................................................................... 19
2.1 HISTORIA DEL PROCESAMIENTO DEL HABLA ................................................................................................... 19

2.2 APLICACIONES DEL PROCESAMIENTO DEL HABLA ............................................................................................ 22
2.3 MODELOS DE PRODUCCIN DE VOZ. EL MODELO FUENTE-FILTRO ...................................................................... 25
2.4 PERCEPCIN DE LA VOZ ............................................................................................................................ 31
2.5 ESCALA MEL .......................................................................................................................................... 32
CAPTULO 3 RECONOCIMIENTO AUTOMTICO DEL HABLA: ESTADO DEL ARTE ................................. 35
3.1 INTRODUCCIN ....................................................................................................................................... 35

3.2 PRE-PROCESAMIENTO DE LA SEAL ............................................................................................................. 38
3.2.1 Filtro de pre-nfasis .................................................................................................................. 39
3.2.2 Supresin de ruido de fondo ..................................................................................................... 40
3.2.3 Supresin de silencios ............................................................................................................... 41
3.2.4 Anlisis en tiempo corto ........................................................................................................... 43
3.2.5 Enventanamiento de los cuadros de una seal de voz ............................................................. 44
3.2.6 Normalizacin y alineamiento .................................................................................................. 46
3.3 EXTRACCIN DE CARACTERSTICAS .............................................................................................................. 48
3.3.1 Caractersticas espectrales de tiempo corto ............................................................................. 51
3.3.2 Otras medidas usadas como caractersticas............................................................................. 55
3.4 GENERACIN DE MODELOS Y SU CLASIFICACIN PARA LAS SEALES DE VOZ ......................................................... 55
5
3.4.1 Enfoque acstico-fontico ........................................................................................................ 56
3.4.2 Enfoque orientado al reconocimiento de patrones .................................................................. 57
3.4.3 Enfoque orientado a la inteligencia artificial ............................................................................ 59
CAPTULO 4 REDUCCIN DE LA DIMENSIONALIDAD ......................................................................... 61
4.1 INTRODUCCIN ....................................................................................................................................... 61

4.2 REDUCCIN DE LA DIMENSIONALIDAD EN EL RECONOCIMIENTO AUTOMTICO DEL HABLA ...................................... 63
4.3 LA MALDICIN DE LA DIMENSIONALIDAD ...................................................................................................... 64
4.4 MTODOS PARA LA REDUCCIN DE LA DIMENSIONALIDAD ............................................................................... 67
4.4.1 Mtodos de reduccin lineales ................................................................................................. 68
4.4.2 Mtodos de reduccin no-lineales ............................................................................................ 69
4.5 ANLISIS POR COMPONENTES PRINCIPALES (PCA) ......................................................................................... 69
4.5.1 Clculo de las componentes principales empleando el mtodo de la covarianza .................... 73
4.5.2 Anlisis por componentes principales en el rea del habla ...................................................... 76
4.6 EL MTODO DE LAS EIGENFACES ................................................................................................................. 76
4.6.1 Implementacin prctica de las Eigenfaces .............................................................................. 78
4.6.2 Representacin de rostros en el espacio de las caras ............................................................... 81
4.6.3 El mtodo de las eigenfaces aplicado a los sistemas de reconocimiento automtico del habla.
Las Eigenvoices .................................................................................................................................... 82
CAPTULO 5 IMPLEMENTACIN DEL SISTEMA PROPUESTO ............................................................... 85
5.1 MTODO PROPUESTO .............................................................................................................................. 85

5.2 IMPLEMENTACIN DE LA ETAPA DE PRE-PROCESAMIENTO ................................................................................ 88
5.2.1 Implementacin del filtro de pre-nfasis .................................................................................. 88
5.2.2 Implementacin de la etapa de supresin de silencios ............................................................. 90
5.2.3 Implementacin del algoritmo de anlisis en tiempo corto ..................................................... 92
5.2.4 Implementacin de la etapa de enventanamiento de los cuadros de voz ................................ 93
5.2.5 Implementacin de la etapa de normalizacin y alineamiento ................................................ 93
5.3 IMPLEMENTACIN DE LAS TCNICAS DE EXTRACCIN DE CARACTERSTICAS .......................................................... 95
5.3.1 Implementacin de la magnitud promedio de la seal de voz como vector de caractersticas 96
5.3.2 Implementacin del anlisis tiempo-frecuencia como vectores de caractersticas .................. 97
5.3.3 Implementacin del anlisis de coeficientes por prediccin lineal como vectores de
caractersticas de las seales de voz ....................................................................................................... 99
5.3.4 Implementacin del anlisis en tiempo corto de la seal fundamental ................................. 103
5.4 IMPLEMENTACIN DEL MTODO DE REDUCCIN DE LA DIMENSIONALIDAD A TRAVS DEL MTODO DE LAS EIGENFACES
106
6
5.5 IMPLEMENTACIN DEL CLASIFICADOR K-NN. RECONOCIMIENTO DE LAS SEALES DE VOZ. .................................... 109
CAPTULO 6 EXPERIMENTOS CON DATOS DE VOZ NATURAL ........................................................... 113
6.1 CORPUS DE VOZ TMW .......................................................................................................................... 113

6.2 VISUALIZACIN DE LA REDUCCIN DE LA DIMENSIONALIDAD........................................................................... 114
6.3 TASAS DE RECONOCIMIENTO.................................................................................................................... 117
6.4 ANLISIS DEL MTODO PROPUESTO ........................................................................................................... 119
CAPTULO 7 CONCLUSIONES Y TRABAJO FUTURO........................................................................... 121
7.1 TRABAJO FUTURO ................................................................................................................................. 122
APNDICE A. PUBLICACIONES REALIZADAS ............................................................................................ 123
REFERENCIAS123
5
7
8
NDICE DE FIGURAS
FIGURA 1-1: SEAL DE VOZ MOSTRADA EN EL DOMINIO TEMPORAL ................................................................................. 12

FIGURA 1-2: PRIMEROS 20MS DE UNA SEAL DE VOZ PARA 20 BANDAS FRECUENCIALES ..................................................... 13
FIGURA 1-3: UNA VARIEDAD BIDIMENSIONAL INCRUSTADA DE MANERA NO-LINEAL EN UN ESPACIO TRIDIMENSIONAL ............... 14
FIGURA 2-1: ESQUEMA DEL SISTEMA DE PRODUCCIN DE LA VOZ (APARATO FONADOR). .................................................... 26
FIGURA 2-2: MODELO ESQUEMTICO DEL SISTEMA DEL TRACTO VOCAL ............................................................................ 27
FIGURA 2-3: MEDICIONES DE LOS DOS PRIMEROS FORMANTES DE LAS VOCALES DEL IDIOMA ESPAOL ................................... 28
FIGURA 2-4: MODELO FUENTE-FILTRO PARA UNA SEAL DE VOZ .................................................................................... 29
FIGURA 2-5: ESQUEMA ANATMICO DEL ODO ........................................................................................................... 31
FIGURA 2-6: RELACIN ENTRE ESCALAS FRECUENCIALES MEL Y HERTZ ............................................................................. 33
FIGURA 3-1: SISTEMA ASR DONDE SE MUESTRA EL PARADIGMA CLSICO DE RECONOCIMIENTO DE PATRONES......................... 38
FIGURA 3-2: ETAPA DE PRE-PROCESADO DE SEAL PARA UN SISTEMA ASR. ...................................................................... 39
FIGURA 3-3: DIAGRAMA A BLOQUES DE UN SISTEMA VAD GENRICO .............................................................................. 41
FIGURA 3-4: SEGMENTACIN DE UNA SEAL DE VOZ DIVIDIDA EN TRES CUADROS DE 20 MS ................................................ 44
FIGURA 3-5: COMPARATIVA ENTRE LOS ESPECTROS DE DOS VENTANAS ............................................................................ 46
FIGURA 3-6: RESUMEN DE LAS CATEGORAS DE LAS CARACTERSTICAS DEL HABLA (VISTA DESDE SU INTERPRETACIN FSICA) ....... 50
FIGURA 3-7: EXTRACCIN DE LA ENVOLVENTE ESPECTRAL USANDO ANLISIS CEPSTRAL Y PREDICCIN LINEAL ........................... 53
FIGURA 3-8: RED FONTICA EN CELOSA PARA UNA PALABRA ......................................................................................... 57
FIGURA 3-9: UN CLASIFICADOR DE PATRONES ............................................................................................................. 58
FIGURA 4-1: IMGENES DE LA TETERA DE NEWPOT ROTADA EN UNA DIMENSIN ............................................................... 63
FIGURA 4-2: INCREMENTO EN LA DISPERSIN DE LOS DATOS .......................................................................................... 65
FIGURA 4-3: UNA ESFERA EMPOTRADA DENTRO DE UN CUBO EN UN ESPACIO DE TRES DIMENSIONES. .................................... 66
FIGURA 4-4: LAS COMPONENTES PRINCIPALES DE UN CONJUNTO DE DATOS BIDIMENSIONAL ................................................ 70
FIGURA 4-5: CARA EXISTENTE DEL CONJUNTO DE ENTRENAMIENTO RECONSTRUDA............................................................ 78
FIGURA 5-1: MTODO PROPUESTO PARA APLICAR REDUCCIN DE LA DIMENSIONALIDAD EN ESTE TRABAJO DE TESIS. ................ 86
FIGURA 5-2: ETAPA DE PRE-PROCESAMIENTO DE LA SEAL ............................................................................................ 88
FIGURA 5-3: ANLISIS DE ESTABILIDAD GRFICA PARA EL FILTRO DE PRE-NFASIS ............................................................... 89
FIGURA 5-4: RESPUESTA EN FRECUENCIA DEL FILTRO DE PRE-NFASIS PROPUESTO ............................................................. 89
FIGURA 5-5: SEAL DE VOZ PRE-ENFATIZADA ............................................................................................................. 90
FIGURA 5-6: SEAL DE VOZ Y SU MAGNITUD PROMEDIO ............................................................................................... 91
FIGURA 5-7: DETECCIN DE LAS ZONAS VOCALIZADAS EN UNA SEAL DE VOZ .................................................................... 91
FIGURA 5-8: SEGMENTACIN DE UNA SEAL DE VOZ DIVIDIDA EN CUADROS DE 20MS ........................................................ 92
FIGURA 5-9: SEAL DE VOZ ENVENTANDA .................................................................................................................. 93
9
FIGURA 5-10: ALINEACIN TEMPORAL LINEAL PARA DOS SECUENCIAS DE VOZ CON DIFERENTES DURACIONES. ......................... 94
FIGURA 5-11: SEAL DE VOZ ALINEADA ..................................................................................................................... 95
FIGURA 5-12: EXTRACCION DE CARACTERSTICAS DE LAS SEALES PRE-PROCESADAS DE VOZ ................................................ 96
FIGURA 5-13: RESULTADO DE LA IMPLEMENTACIN DEL ALGORITMO DE LA MAGNITUD PROMEDIO ....................................... 97
FIGURA 5-14: RESULTADO DEL ESPECTROGRAMA PURO SOBRE LA SEAL PRE-PROCESADA DE VOZ......................................... 98
FIGURA 5-15: RESULTADO DE REPRESENTAR AL ESPECTROGRAMA EN DECIBELES ................................................................ 99
FIGURA 5-16: SEAL DE VOZ RECONSTRUIDA ........................................................................................................... 102
FIGURA 5-17: AUTOCORRELACIN DEL ERROR DE PREDICCIN ..................................................................................... 102
FIGURA 5-18: IMAGEN GENERADA A PARTIR DE LOS COEFICIENTES DEL ANLISIS POR PREDICCIN LINEAL ............................. 103
FIGURA 5-19: ANLISIS EN TIEMPO CORTO DE LA SEAL DE VOZ ................................................................................... 104
FIGURA 5-20: SEAL FUNDAMENTAL EXTRADA DE LA SEAL DE VOZ ............................................................................. 105
FIGURA 5-21: IMAGEN SNICA GENERADA A PARTIR DEL ANLISIS EN TIEMPO CORTO DE LA SEAL FUNDAMENTAL ................. 105
FIGURA 5-22: EL MTODO DE LAS EIGENFACES A LOS SPERVECTORES........................................................................... 106
FIGURA 5-23: CLASIFICACIN DE LAS VOCES QUE ENTRAN AL SISTEMA ........................................................................... 110
FIGURA 5-24: GRFICO DE DISPERSIN DE DATOS ..................................................................................................... 112
FIGURA 6-1: ESPACIOS DIMENSIONALES DE LA SEALES DE VOZ .................................................................................... 114
FIGURA 6-2: ESPACIO DE 2 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIN ........................................... 115
FIGURA 6-5: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 2 PALABRAS ..................................................................... 118
10
Captulo 1 INTRODUCCIN
En este trabajo se implementa un sistema de reconocimiento automtico del habla utilizando

anlisis por componentes principales para reducir la dimensionalidad de un conjunto de muestras
de entrenamiento. As mismo, se realiza un comparativo en el desempeo del reconocimiento
cuando dichas muestras de entrenamiento son presentadas en diferentes dominios:
Espectrogramas
Envolvente de la seal
Codificacin por prediccin lineal
Anlisis en tiempo corto de la seal fundamental
En este captulo se exponen los motivos por los que se propone que el habla es capaz de ser
representada por medio de una estructura de datos de baja dimensionalidad la cual exhibir las
caractersticas esenciales con las que una mquina puede distinguir palabras de manera automtica.
1.1 Prembulo
El habla, ha permanecido como el medio de comunicacin ms deseable entre las personas. A

pesar de los sofisticados servicios multimedia de alto desempeo emergentes en los ltimos aos
las comunicaciones basadas en la voz permanecen como el medio predominante del intercambio
de informacin entre humanos. La investigacin, el desarrollo de productos y las nuevas
aplicaciones para la codificacin del habla han avanzado dramticamente en los ltimos veinte
aos, y es que durante las ltimas cuatro dcadas, el procesamiento digital de seales se ha
consolidado como una disciplina reconocida, y mucho del mpetu en este avance, ha sido derivado
de la investigacin en la representacin, codificacin, transmisin, almacenamiento y reproduccin
de la informacin de imgenes y del habla [1]. De manera particular, el inters en la investigacin
de la voz, ha implicado adems importantes contribuciones al procesado digital de seales y a
tcnicas de transformaciones espectrales de tiempo discreto.
11
Pero a pesar de estos avances, an no se ha alcanzado una calidad artificial comparada a la humana.
Por eso es importante continuar con los procesos que involucran a la comunicacin por voz, para
que de esta manera se optimice el conocimiento existente y se desarrollen nuevas tcnicas que
fortalezcan a esta rea.
1.2 Motivacin
La voz, es una seal que viaja a travs de aire perturbado, el cual es producido por funciones
fisiolgicas humanas que hacen uso de tres procesos fsicos esenciales: la generacin de aire
presurizado, la regulacin en la vibracin de este aire y el control de la resonancia de la seal
acstica obtenida. Este proceso fisiolgico genera una seal que contiene una gran cantidad de
informacin, la cual (vista desde el anlisis estadstico multivariante) puede ser analizada como un
flujo de informacin de alta dimensionalidad (Figura 1-1).
Seal de voz
0.06
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
-0.08
0 0.2 0.4 0.6 0.8 1

Tiempo (segundos)
Figura 1-1: seal de voz de la palabra Arranca mostrada en el dominio temporal. Desde el punto de vista
tradicional la seal reside en un plano bidimensional (tiempo contra voltaje). Sin embargo al hacer uso
del anlisis estadstico multivariable, la seal se halla embebida en un espacio dimensional de 26,624
coordenadas (1.1093s de duracin con una frecuencia de muestreo de 24kHz).
12
Una forma comn de representar a las seales acsticas (incluyendo a las seales de voz), es medir
la energa de la seal usando diferentes bandas frecuenciales y calculando dicha energa sobre
pequeos y diferentes instantes de tiempo, de esta manera cada banda de frecuencias puede ser
vista como una dimensin en un espacio multidimensional, con una dimensin igual al nmero de
bandas de frecuencias. Desde esta perspectiva un segmento de una seal de voz puede
representarse en un nuevo espacio dimensional, como se observa en la Figura 1-2:
Figura 1-2: Primeros 20ms de la palabra Arranca para 20 bandas frecuenciales. La misma seal se
representa de diferente manera residiendo as en un espacio dimensional de 20 ejes (con esta tcnica
adems, es posible extraer caractersticas particulares de la seal a analizar).
Debido a las restricciones fisiolgicas en los movimientos del cuerpo humano (mandbulas,
pulmones, trax, lengua, etc.), el aparato fonador tiene grados de libertad limitados que pueden
conllevar a una representacin matemtica reducida. Aunado a estas restricciones fisiolgicas y
desde el punto de vista fontico, solamente un pequeo subconjunto de sonidos de todos los
que pueden ser producidos por un ser humano son los que efectivamente se usan en una
comunicacin hablada. Esto es una motivacin en la investigacin de estructuras (variedades) de
baja dimensionalidad inherentes al habla, para que por medio de estos mtodos sea posible
obtener una parametrizacin en la variabilidad fundamental del flujo de datos de estas seales,
usando solamente unas pocas caractersticas. Para este enfoque se puede concebir a la
informacin contenida en las seales de voz como si fuera una variedad de baja dimensionalidad
incrustada en un espacio dimensional superior (ver Figura 1-3).
Usualmente algunas herramientas del procesado digital de seales tales como la transformada
discreta de Fourier y la codificacin por prediccin lineal (linear prediction coding LPC-) pueden ser
13
tiles al analizar a las seales de voz, con el fin de facilitar la extraccin de particularidades que
sean apropiadas para la separacin de informacin relevante (por ejemplo la energa y las
caractersticas espectrales de la seal) de aquella informacin que no sea considerada de inters,
consiguiendo de esta manera una reduccin de la dimensionalidad de la seal [2].
Figura 1-3 [3]: Una variedad bidimensional incrustada de manera no-lineal en un espacio tridimensional.
La hipottica existencia de una estructura de baja dimensionalidad en las seales de voz se fundamenta
en estudios previos que se remontan hasta los primeros anlisis del plano de formantes de las vocales en
una seal de voz [4].
La informacin extrada se transforma (de manera tpica) hacia esquemas o dominios basados en
enfoques perceptuales humanos con respecto a las seales de voz, consiguiendo as una
representacin ms fiel del sistema de comunicacin (como sucede con los esquemas de los
coeficientes de prediccin lineal perceptual y los coeficientes cepstrales en frecuencias mel [5]). Estas
representaciones fundamentadas basadas en modelos perceptuales y acsticos se sustentan en el
conocimiento e investigaciones de los aparatos fonador y auditivo humanos. El inconveniente de
estas tcnicas es que no intentan hallar de manera automtica la estructura inherente de baja
dimensionalidad del habla.
De forma concurrente a los avances hechos en el procesamiento del habla, en el rea de la

estadstica multivariable se han propuesto una cantidad considerable de tcnicas de reduccin de
la dimensionalidad impulsadas con el propsito de transformar datos que residen en un espacio
altamente dimensional hacia un espacio dimensional significativamente menor. Las aplicaciones
14
de estas tcnicas incluyen a: la compresin y graficacin de datos, la eliminacin del ruido y la
extraccin de caractersticas significativas de datos en espacios de alta dimensionalidad [3].
1.3 Objetivos
1.3.1 Objetivo general
El objetivo general de este trabajo es Desarrollar un sistema de reconocimiento automtico del

habla que integre tcnicas de procesamiento digital de seales, seleccin de caractersticas, tcnicas
de reduccin de dimensionalidad y clasificacin automtica, para ello se hace uso del estado del
arte en el reconocimiento automtico del habla y se integran paradigmas del rea de
reconocimiento facial para la etapa de reduccin de la dimensionalidad, generando as un sistema
hbrido, original y capaz de procesar los datos de manera eficaz.
1.3.2 Objetivos Particulares
Esta investigacin se puntualiza por medio de cinco objetivos especficos:
1) Analizar el estado del arte en el Tratamiento digital de la seal enfocado a la voz, con la
finalidad de proponer y desarrollar un algoritmo que pueda transformar a las seales entrantes
al sistema hacia un formato adecuado para la optimizacin de los procesos posteriores.
2) Desarrollar una tcnica automtica de seleccin de caractersticas que consiga enfatizar las
caractersticas propias y esenciales de las voces empleadas, y adems elimine aquellas que no
sean tiles para separar las diferentes clases de los conjuntos de entrenamiento.
3) Investigar y proponer un algoritmo de reduccin de dimensionalidad estadstico que permita
eliminar la redundancia existente en los datos originales. El objetivo de este algoritmo ser
reducir el costo computacional para el reconocimiento de las voces por medio de la
representacin de los ejemplos de entrenamiento con un nmero de datos menor al original,
y de manera eficiente.
4) Desarrollar un algoritmo de clasificacin que utilice los vectores de caractersticas obtenidos
en el punto anterior y reconozca al conjunto al que pertenece una muestra de voz.
5) Realizar los bancos de pruebas necesarios para verificar la tasa de reconocimiento del sistema.
15
1.4 Contribuciones
La contribucin principal de esta tesis es un mtodo original para el reconocimiento automtico

del habla explotando la hiptesis en la cual se presume que la voz posee una estructura inherente
de baja dimensionalidad basndose para ello en la reduccin de la dimensionalidad usando el
anlisis por componentes principales. El siguiente es un resumen de las aportaciones adjuntas
derivadas de este trabajo:
Un mtodo capaz de reconocer al habla a travs de la construccin de imgenes

aprovechndose de los vectores de caractersticas extradas de las seales de voz.
La aplicacin de este mtodo sobre procedimientos de extracciones de caractersticas

clsicos en el procesamiento del habla para comprobar el funcionamiento del mtodo y
al mismo tiempo comparar el rendimiento y robustez de estos procedimientos
tradicionales a travs de este nuevo esquema.
La creacin de una tcnica de extraccin de caractersticas plasmando en una imagen

seales fundamentales obtenidas a travs del anlisis a cuadros de una seal de voz.
1.5 Organizacin del documento de tesis
El resto de esta tesis est organizado de la siguiente manera:
En el captulo 2 se hace una resea con antecedentes relevantes concernientes a la produccin

y percepcin del habla. As como un breve resumen histrico del estudio del habla y sus
aplicaciones actuales.
A continuacin en el captulo 3 se realiza una profunda revisin de las tcnicas actuales

pertenecientes al procesado de las seales de voz orientadas a los sistemas de reconocimiento
automtico del habla apoyndose para ello en una revisin de su estado del arte.
Despus en el captulo 4 se describen los fundamentos de la base para este trabajo analizando
el concepto de reduccin de dimensionalidad y su aplicacin en las seales de voz explorando el
estado del arte del habla enfocado a este tpico.
16
El captulo 5 se presenta el mtodo propuesto a travs del anlisis de cada uno de sus sub-
procesos: pre-procesamiento de la seal, extraccin de caractersticas, reduccin de la
dimensionalidad y clasificacin.
En seguida en el captulo 6 se reportan los experimentos llevados a cabo para la validacin del
sistema as como la comparacin entre las distintas tcnicas de extraccin de caractersticas
propuestas.
Finalmente en el captulo 7 se concluye el documento y se presentan los posibles trabajos

futuros que puedan derivar de esta tesis.
17
18
Captulo 2 REVISIN DE LA PRODUCCIN DE LA VOZ
En este captulo se revisa la teora detrs de la produccin y percepcin de la voz, iniciando con
una breve historia sobre el desarrollo y aplicaciones en el rea del procesamiento del habla.
2.1 Historia del procesamiento del habla
Los seres humanos han estado atrados desde hace mucho tiempo a crear mquinas que puedan
hablar. Los primeros intentos en el entendimiento de la produccin de la voz, consistieron en la
construccin de modelos mecnicos con la finalidad de imitar el aparato vocal humano. El primer
par de ejemplos datan del siglo 13, cuando el filsofo alemn Alberto Magno y el cientfico ingls
Roger Bacon, supuestamente construyeron cabezas metlicas hablantes (aunque no se cuenta con
documentacin existente sobre estos dispositivos). Los primeros intentos registrados en la
construccin de mquinas hablantes se encuentran quinientos aos ms tarde, cuando en 1761
Christian Gottlieb Kratzenstein construy cavidades resonantes las cuales, cuando eran accionadas
usando un carrizo vibratorio, producan los sonidos de las cinco vocales (a/e/i/o/u). De manera
contempornea e independiente a este trabajo, Wolfgang von Kempelen construy un sintetizador
mecnico que poda generar consonantes reconocibles, vocales y algunas pocas palabras
conectadas. Su libro (publicado en 1971) donde se habla sobre esta investigacin, puede ser
considerado como el inicio en el comienzo del procesamiento del habla. Aproximadamente 40
aos despus, Charles Wheatstone construy una mquina basada esencialmente en las
especificaciones de von Kempelen. El inters en analogas mecnicas del aparato vocal humano
continu hasta el siglo veinte, construyndose emulaciones del tipo de la mquina de von
Kempelen por mucha gente adems de Wheatstone, como Joseph Faber, Richard Paget, R. R.
Riesz, etc. [6].
Se sabe que Alexander Graham Bell, tuvo la oportunidad de ver la implementacin de Wheatstone,
realizando tambin una mquina hablante de la misma naturaleza (aunque con diferente aplicacin)
conocida como telfono, que proporcion un mpetu mayor al procesamiento de la voz moderno.
Nadie supondra en aquel momento el impacto que el telfono tendra, no solo en la manera en la
que la gente se comunica, sino tambin en la investigacin del procesamiento de la voz como una
19
ciencia por derecho propio. La disponibilidad de la forma de onda de la voz plasmada ahora en
una seal elctrica, traslad el inters para su sntesis y procesado, emigrando de paradigmas
basados en el uso de mquinas mecnicas hacia mquinas elctricas.
En las dcadas de 1920 y 1930 se realizaron algunos intentos para sintetizar elctricamente a las
seales de voz, sin embargo, fue el trabajo de Homer Dudley en 1930, el que abri paso a la era
del procesamiento del habla moderno. Su contribucin ms importante fue determinar el
entendimiento de la naturaleza portadora de la voz, desarrollando una analoga entre seales de
voz y seales de radio portadoras/moduladas empleadas en la transmisin y la difusin de seales
de audio. En el caso de la difusin para la seal de radio, el mensaje a ser transmitido es la seal de
audio (la cual contiene frecuencias en un rango de 0 a 20 kHz), anlogamente el mensaje a
transmitir (en el caso de la voz) es portado principalmente por el apariencia variante en el tiempo
del tracto vocal, el cual es una representacin de los pensamientos que el hablante desea transferir al
escucha. Los movimientos del tracto vocal se encuentran en tasas de cambio silbicas de una
frecuencia entre 0 y 20 Hz [7]. Para los dos casos (el electromagntico y el acstico), el mensaje se
halla en un rango de frecuencias inadecuado para la transmisin. La solucin es imprimir el mensaje
en una onda que pueda portarla. En el caso electromagntico la portadora es usualmente una onda
sinusoidal de alta frecuencia. En el caso de la voz, la portadora es una de varias seales, (1) una
seal cuasi-peridica generada por las cuerdas vocales para los sonidos vocalizados, (2) una seal
similar al ruido producida por la turbulencia generada por la constriccin ocasionada debido a los
sonidos aspirados y fricativos, (3) una combinacin de sonidos vocalizados fricativos. En efecto,
la seleccin de la onda portadora, as como los cambios en la intensidad y la frecuencia fundamental
de las cuerdas vocales, pueden ser convenientemente considerados como partes adicionales del
mensaje [8].
Al ser un ingeniero elctrico, Dudley aprovech sus conocimientos construyendo un sintetizador

elctrico de voz que prescinda de los artilugios mecnicos de la mquina de von Kempelen, usando
para ello circuitos elctricos para la generacin de las seales portadoras, y montando al mensaje
(p. ej. las propiedades del tracto vocal) en la seal portadora, al hacerlo pasar a travs de un filtro
variante en el tiempo cuya respuesta en frecuencia era modificada con el objetivo de simular las
caractersticas transferentes del tracto vocal.
20
Con la colaboracin de Richard Riesz y Stanley Watkins, Dudley implement (en los laboratorios
Bell) dos dispositivos muy aclamados que hacan uso de este principio, el voder y el vocoder. El
voder fue la primera mquina hablante, siendo capaz de producir frases arbitrarias. Era un sistema
en el cual una operadora maniobraba un teclado para controlar la fuente del sonido y un banco de
filtros variante en el tiempo. Este sistema fue exhibido con gran xito en la Feria Mundial de Nueva
York de 1939 (como Pedro the voder), pudiendo producir una voz de mucha mejor calidad de lo
que jams haba sido posible producir usando dispositivos mecnicos, sin embargo permaneci
bsicamente como una curiosidad.
El vocoder, por otro lado tuvo un propsito ms serio, fue el primer intento que se hizo para
comprimir voz. Dudley consider que toda vez que el mensaje en una seal de voz es portado por
filtros cuyas variaciones temporales son lentas, entonces debera de ser posible enviar informacin
adecuada para que un receptor fuera capaz de reconstruir una seal telefnica de la voz utilizando
1
un ancho de banda de solo apenas 150 Hz (lo que es aproximadamente veces el ancho de banda
20
requerido para transmitir la seal de voz original) [9]. Como el uso del ancho en las
telecomunicaciones ya era costoso desde aquellos das, esta posibilidad era extremadamente
atractiva desde el punto de vista comercial.
En esta introduccin, se ha destinado mucho espacio a la labor de Dudley debido a que sus ideas
fueron la base de prcticamente todo el trabajo posterior realizado en el procesamiento de seales
orientado a la voz: (1) la descripcin de la voz en trminos de una portadora (o funcin de
excitacin), (2) su modulacin (o envolvente espectral variante en el tiempo) siendo an 80 aos
despus la representacin bsica usada en esta rea. Los parmetros usados para cuantificar estos
componentes afortunadamente han evolucionado de muchas maneras. Inventndose adems del
vocoder de canal (el nombre moderno para el vocoder de Dudley), muchos otros tipos de
vocoders, como el vocoder formante y vocoder excitado por voz.
Adems de la compresin de la voz, el trabajo de Dudley fue utilizado para otras aplicaciones tales
como sistemas de seguridad por voz, y el espectrgrafo sonoro. Desafortunadamente, la calidad
conseguida con implementaciones analgicas en vocoders nunca consigui una calidad aceptable
para el estndar de la telefona comercial (sin embargo se hallaron aplicaciones tiles en propsitos
militares en donde era posible tolerar una calidad pobre de la seal de voz). La representacin del
21
vocoder fue tambin la base de un sistema de encubrimiento basado en voz usado extensivamente
durante la segunda guerra mundial.
Otro ejemplo de una implementacin analgica del modelo de Dudley es el espectrgrafo sonoro,
el cual es un dispositivo que muestra la distribucin de energa de una seal de voz como una
funcin de la frecuencia, y la evolucin de esta distribucin en el tiempo. Esta herramienta ha sido
extremadamente til para investigar las propiedades de la seal de voz. Se intent usar una versin
en tiempo real del espectrgrafo aplicndolo como un medio de comunicacin con personas
discapacitadas auditivamente, sin embargo no se obtuvieron los resultados esperados, ya que muy
pocas personas fueron capaces de identificar ms de 300 palabras, tras haberse entrenado casi 100
horas, era una tarea difcil para ser considerada prctica.
Durante ms de tres dcadas posteriores al trabajo pionero de Dudley, una gran cantidad de
investigaciones fueron realizadas en varios aspectos y propiedades de la voz, fundamentalmente
en las propiedades de los mecanismos de la produccin del habla, el sistema auditivo y la
psicofsica. Sin embargo (exceptuando estas tres reas), se hicieron progresos muy pequeos en el
procesamiento de la voz y sus aplicaciones. La explotacin de este campo tuvo que esperar al
desarrollo de hardware digital a principios de la dcada de 1970. Desde entonces se han realizado
muchos avances en anlisis del habla, enfocndose en su: codificacin, transmisin, sntesis,
reconocimiento y asistencia auditiva.
Hoy en da, el rea de procesamiento del habla es an extenso, aunque se ha realizado un gran
progreso desde la invencin del telfono, la investigacin en este campo se encuentra an muy
activo, existiendo an muchos problemas desafiantes sin resolverse.
2.2 Aplicaciones del procesamiento del habla
Como se ha mencionado, una de las primeras metas del procesamiento del habla fue la codificacin
de la seal de voz para una transmisin eficiente. Ello se conceptualiz como sinnimo de la
reduccin del ancho de banda requerido para transmitir voz.
Fueron necesarios avances esenciales en otras reas antes de conseguir el xito moderno en la
codificacin del habla:
22
Primero, las nociones en la teora de la informacin, introducidas por Claude Shannon durante
finales de la dcada de 1940 y la dcada de 1950 proporcionaron el entendimiento que el
objetivo apropiado no consista en reducir el ancho de banda de la seal, sino la reduccin de
su informacin [10] [11].
Segundo, el hardware necesario para utilizar el teorema de Muestreo (Whittaker-Nyquist-

Kotelnikov-Shannon) para convertir una seal continua limitada en banda estuvo disponible,
as entonces la cuantizacin de las muestras permitieron la digitalizacin de la seal de voz
hacindola apta para ser procesada digitalmente.
Finalmente, la descripcin de la seal de voz en trminos de coeficientes de prediccin lineal (linear

prediction coefficients LPC-) proporcionaron una representacin sumamente conveniente (la
teora de la codificacin predictiva fue de hecho desarrollada en 1955, sin embargo su aplicacin
al procesamiento de seales de voz se registr hasta finales de la dcada de 1970).
Una seal de voz telefnica limitada en frecuencia en el rango de 0 a 3.4kHz, requiere de 64kbps
(kilobits por segundo) para ser transmitida sin prdida de calidad [12] [13]. Con las tcnicas
modernas de compresin de voz, la tasa de bits (bitrate) puede ser reducida hasta 13kbps con muy
poca degradacin. Para la telefona comercial un desafo latente es reducir dicho bitrate requerido
sin sacrificar la calidad de la seal. Hoy en da la razn de bits puede disminuirse hasta 2.4kbps
mientras se mantiene una alta inteligibilidad, pero con una prdida de calidad significante; incluso,
se han realizado algunos intentos para reducir el bitrate hasta 300bps (por ejemplo en
comunicaciones de radio con submarinos) sin embargo la calidad e inteligibilidad conseguidas con
estas tasas de bits tan bajas son muy pobres [14].
Otra aplicacin altamente exitosa en el procesado de la voz es el reconocimiento automtico del habla
(automatic speech recognition ASR-). Los primeros intentos en ASR consistieron en crear
modelos determinsticos de todas las palabras en un pequeo vocabulario (p. ej. 100 palabras) y
reconocer una declaracin de voz como la palabra cuyo modelo se acerque ms al modelo
almacenado. La introduccin de modelos ocultos de Markov (hidden Markov models HMMs-) a
principio de la dcada de 1980, proporcionaron una herramienta muy poderosa para el
reconocimiento de la voz [15]. Hoy en da, muchos productos han sido desarrollados y utilizan
exitosamente a los ASR para comunicar a humanos y mquinas, el reconocimiento puede hacerse
23
para frases de voz continuas utilizando un vocabulario grande, y como si se tratara de un hablante
independiente. El desempeo de estos dispositivos, sin embargo, se deteriora en presencia de
reverberacin e incluso ante bajos niveles de ruido ambiental. La robustez ante el ruido,
reverberacin y caractersticas del transductor, es an un problema no resuelto.
El objetivo del reconocimiento automtico del habla independiente del hablante (ASR-SI -speaker
independent-) es reconocer a la voz con precisin no importando del hablante del que se trate. El
problema complementario es reconocer al hablante a travs de su voz, siendo el campo conocido
como reconocimiento automtico del habla dependiente del hablante (ASR-SD speaker dependent-),
despreocupndose de las palabras que la persona diga. En el presente, este problema parece ser
solucionable solo si el hablante pertenece a un conjunto (generalmente pequeo) de N-hablantes
conocidos. Una variante del problema es la verificacin del hablante, en el cual la finalidad es verificar
automticamente la supuesta identidad de un hablante. Mientras el reconocimiento de hablantes,
requiere de la seleccin de uno entre n-posibles resultados, la verificacin de hablantes requiere
solamente de una nica respuesta, s o no. Este problema puede ser resuelto con un alto grado de
precisin para espacios mayores. La verificacin de hablantes converge en aplicaciones en donde
algn dispositivo o conjunto de datos deban de ser controlados. El problema de un desempeo
condicionado ante la presencia de ruido como lo es para los ASR, existe tambin en el
reconocimiento y verificacin de hablantes.
Una tercera aplicacin en el procesamiento de la voz es sintetizarla a travs de un texto. Cuando

se usa en conjunto con los ASR, la sntesis de voz permite una interaccin entre humanos y
mquinas en dos sentidos. La sntesis de voz es tambin una manera para comunicar personas que
son incapaces de hablar (como por ejemplo lo hace el famoso fsico Stephen Hawking).
Los primeros intentos en la sntesis de la voz consistieron en derivar el espectro variante en el

tiempo para una secuencia de fonemas (unidad fundamental del habla, siendo abstracciones
mentales o formales de los sonidos del habla) en un texto, entonces se proceda a estimar el tracto
vocal de la variacin correspondiente para posteriormente sintetizar a la voz al excitar el tracto
vocal variante en el tiempo ya sea con excitaciones peridicas o de ruido segn fuera el caso. La
calidad de la sntesis era significativamente mejorada al concatenar unidades pre-almacenadas (p.
ej. segmentos cortos como monoslabos o bislabos) despus de modificarlos para encajar en el
contexto. Hoy en da la seal de voz con mayor calidad es sintetizada por el mtodo de seleccin
24
de unidades, en el cual las unidades son seleccionadas dentro de un gran nmero de voces
almacenadas y concatenadas con muy poca o inclusive sin modificacin alguna.
Finalmente, cabe mencionar la aplicacin del procesamiento del habla como ayuda para personas
con capacidades reducidas. La tecnologa en ayuda auditiva ha tenido progresos considerables en
las ltimas dos dcadas, y parte de este progreso es debido a una lenta aunque incesante mejora en
el entendimiento del mecanismo auditivo, siendo en buena parte a la disponibilidad de hardware
digital de alta velocidad, lamentablemente en la actualidad el desempeo de la ayuda auditiva es
todava deficiente debido a condiciones ambientales de ruido y reverberacin. Una aplicacin
potencialmente til en el procesamiento de la voz es la ayuda a personas con capacidades reducidas
es desplegar la forma del tracto vocal (labios y mandbulas principalmente) mientras un hablante
genera seales de voz, intentando igualar la forma del tracto de vocal hacia una forma grfica, una
persona sorda puede aprender su pronunciacin correcta. Se han hecho algunos intentos para
implementar esta idea, desafortunadamente todava se encuentra en el campo de la investigacin.
Otra aplicacin til es la ayuda de lectura para ciegos. La idea es contar con un dispositivo que
pueda escanear texto impreso de un libro, sintetizando el habla en funcin del texto escaneado,
en conjunto con un sistema para modificar la tasa del habla, siendo una ayuda muy til para las
personas ciegas (existiendo ya productos que ofrecen esta prestacin en el mercado).
2.3 Modelos de produccin de voz. El modelo fuente-filtro
El sonido de la voz es una onda de aire que se genera debido a acciones complejas del cuerpo
humano. La presin del aire proveniente de los pulmones (utilizado de manera particular para la
generacin de la voz), resulta de las funciones del sistema respiratorio durante una fase
prolongada en la exhalacin, despus de una corta inhalacin. Las vibraciones del aire para los
sonidos vocalizados, se generan en las cuerdas vocales de la laringe, las cuales son controladas
en conjunto por los msculos larngeos y un flujo de aire proveniente de los pulmones. La
oscilacin de las cuerdas vocales convierte al aire expirado en un flujo de pulsos de aire
intermitentes que dan lugar a un sonido silbante. Las estrechas constricciones del conducto del
aire a travs del tracto vocal que se generan sobre la laringe, producen tambin fuentes de sonido
transitorias, cuya presin genera un flujo de aire con turbulencias o rfagas de sonido. Los
resonadores se constituyen en la parte superior del tracto respiratorio por las cavidades farngeas,
25
orales y nasales. Dichas cavidades actan como cmaras de resonancia acstica que transforman
los sonidos silbantes larngeos y los sonidos turbulentos, en sonidos con funciones lingsticas
especiales. Los articuladores primarios son la lengua, la mandbula inferior, los labios y el paladar,
generando patrones de movimientos que alteran las caractersticas resonantes del conducto del
aire en la zona supra-larngea, los procesos fisiolgicos en la produccin de la voz se realizan
debido a la secuencia combinada entre las acciones de estos articuladores y los rganos del habla
para la fonacin. Estas actividades resultan en un fenmeno de propagacin a travs de tres
niveles: cavidades sub-glotales, cavidades del tracto vocal, y cavidades nasales y paranasales (Figura 2-1).
Figura 2-1: Esquema del sistema de produccin de la voz (Aparato fonador).
En la Figura 2-2 se muestra un esquema transversal de una seccin longitudinal del mecanismo
del tracto vocal humano. El diagrama resalta las caractersticas fsicas esenciales de la anatoma
humana que aparecen en las etapas finales del proceso de produccin de la voz. Muestra al tracto
vocal como un tubo de rea no uniforme seccionado transversalmente y que est unido en uno de
sus extremos por las cuerdas vocales y en el otro por la cavidad bucal. Este tubo funciona como
un sistema de transmisin acstico para sonidos generados dentro del tracto vocal. Por otro lado
para crear sonidos nasales (como los fonemas /M/, /N/ o // del espaol), un tubo con
26
derivacin lateral (tracto nasal), se encuentra conectado a la lnea principal acstica por una accin
de trampa mecnica en el paladar, el camino de la derivacin irradia sonido hacia las fosas nasales.
La forma del tracto vocal (su forma en la seccin transversal a lo largo del eje), vara en funcin
del tiempo debido a los movimientos de los labios, la mandbula, la lengua y el paladar. Aunque el
tracto humano vocal real no est colocado en una lnea recta como en la Figura 2-2, este tipo de
modelo es una aproximacin razonable para diferentes longitudes de onda en la voz.
Figura 2-2: Modelo esquemtico del sistema del tracto vocal [16].
Los sonidos de la voz se clasifican principalmente de maneras:
Sonidos vocalizados: (vocales, lquidas, deslizadas y nasales) se producen cuando el tubo del
tracto vocal es excitado por pulsos de aire presurizado resultantes de una apertura y cierre cuasi-
peridico en el orificio glotal (apertura entre las cuerdas vocales).
Sonidos vocalizados fricativos: cuando el tracto vocal se encuentra parcialmente cerrado,

causando un flujo turbulento debido a la constriccin, y al mismo tiempo permitiendo un flujo
cuasi-peridico debido a las vibraciones de las cuerdas vocales como en los fonemas /V/ y /Z/.
Sonidos explosivos: tales como en los fonemas /P/, /T/ y /K/ y fricativos como /CH/, se
forman por un cierre repentino del flujo de aire, permitiendo subir la presin antes del cierre para
inmediatamente liberar dicha presin sbita y abruptamente.
27
Todas estas fuentes de sonido crean una seal de excitacin banda ancha (desde el punto de vista
frecuencial) en el sistema del tracto vocal, el cual acta como una lnea de transmisin acstica con
ciertas resonancias dependientes de la forma de la forma de dicho tracto, haciendo que estas
resonancias enfaticen algunas frecuencias de la excitacin relativas a otras. Como ya se ha dicho,
el carcter general de la seal de voz vara en una tasa de fonemas, el cual se encuentra en un orden
alrededor de 10 a 12 fonemas por segundo, y mientras que las variaciones temporales detalladas
para la forma de onda de la voz se encuentran en una tasa mayor (50/segundo). Esto es, los
cambios en la configuracin del tracto vocal ocurren relativamente lento comparadas contra las
variaciones temporales detalladas en la seal de voz. Los sonidos creados en el tracto vocal se
generan en el dominio frecuencial por la respuesta (en dicho dominio) del tracto vocal. Las
frecuencias resonantes resultantes de una configuracin en particular de los articuladores son los
instrumentos fundamentales en la formacin del sonido correspondiente a un fonema dado. Estas
frecuencias resonantes son conocidas como frecuencias formantes del habla [17] (Figura 2-3).
Figura 2-3: Mediciones de los dos primeros formantes de las vocales del idioma espaol [18]. Los
formantes son las bandas de frecuencias en donde se concentra la mayor parte de energa sonora en las
seales de voz. En muchas lenguas los primeros dos formantes permiten distinguir a la mayora de los
sonidos voclicos del habla. Tpicamente el primer formante (el de frecuencia ms baja, est relacionado
con la apertura vocal que a su vez se encuentra relacionada con la frecuencia de las ondas estacionarias
que vibran verticalmente en la cavidad del tracto vocal. El segundo formante (el de frecuencia ms alta),
se relaciona con la vibracin en direccin horizontal, relacionada a su vez con la anterioridad de la vocal,
esto es, cuanta ms frecuencia contenga el formante la lengua estar posicionada ms hacia adelante.
28
En resumen, las estructuras a detalle de la forma de onda (en el dominio temporal) son generadas
por las resonancias y las fuentes del sonido generadas por el tracto vocal, transformando a dichas
fuentes de sonido en fonemas. El sistema de la Figura 2-2 puede ser descrito por medio de la teora
acstica, y pueden usarse tcnicas numricas para crear una simulacin fsica completa de la
generacin y transmisin del sonido en el tracto vocal, sin embargo, para la mayora de las
aplicaciones, es suficiente modelar la produccin de una seal de voz muestreada por un modelo
de sistema en tiempo discreto como el que se muestra en la Figura 2-4:
Seal de voz
Seal de voz
sintetizada
Parmetros
Parmetros
del tracto
de excitacin
vocal
Seal de Seal de voz
excitacin e[n] s[n]
Generador de
Sistema lineal
excitacin
Figura 2-4: Modelo fuente-filtro para una seal de voz. Este modelo se basa en una combinacin de una
fuente de sonido (las cuerdas vocales) y al tracto vocal y sus propiedades irradiantes (los labios),
modelados por medio de un filtro acstico lineal.
El generador de excitacin (a la izquierda de la Figura 2-4), reproduce los diferentes modos de la

generacin de sonido en el tracto vocal, al asumir que la salida del sistema lineal variante en el
tiempo son muestras de la seal de voz.
En general, dicho modelo es conocido como modelo fuente-filtro o fuente-sistema de la

produccin de la voz. La respuesta en frecuencia en tiempo corto del sistema lineal aproxima la
formacin de frecuencias en el sistema del tracto vocal, y debido a que el tracto vocal cambia de
manera relativamente lenta, es razonable asumir que la respuesta del sistema lnea vara sobre
intervalos de tiempo en el orden de alrededor de 15ms. Debido a ello es comn caracterizar al
sistema lineal discreto en tiempo por medio de una funcin de sistema de la forma:
29

=0

0 1
=1(1 )
() = =
1
=0
1
=1(1 )
Ecuacin 2-1
En donde los coeficientes del filtro (ak y bk, etiquetados como los parmetros del tracto vocal en
la Figura 2-4) cambian en una tasa del orden de 50-100 veces por segundo. Algunos de los polos
(ak) de la funcin del sistema se encuentran cerca del crculo unitario (en la frecuencia compleja),
creando resonancias en las frecuencias formantes del modelo. Para el modelado en detalle de la
produccin de la voz es frecuentemente til usar ceros (ak) en la funcin del sistema con el
propsito de poder modelar tambin sonidos nasales y fricativos [19].
La frecuencia fundamental en las seales de voz (debida a la excitacin glotal), determina el tono
percibido por los humanos. Los pulsos glotales individuales de duracin finita poseen un espectro
pasa-bajas que depende de varios factores, por lo tanto la secuencia peridica de pulsos glotales
suaves tiene un espectro de lneas harmnicas con componentes que decrecen en amplitud cuando
la frecuencia aumenta. A menudo es conveniente fusionar la contribucin del espectro de pulsos
glotales en el modelo del sistema del tracto vocal.
Para sonidos de seales de voz no-vocalizados, el sistema lineal es excitado por medio de un
generador de nmeros aleatorios, produciendo una seal de ruido en el dominio temporal discreto,
generando de esta manera un espectro frecuencial plano.
Este modelo del habla concebido por el uso de: (1) un filtro digital variante en el tiempo, y por (2)
una excitacin capaz de capturar la naturaleza en la produccin de la seal de voz (sonidos
vocalizadas/no-vocalizados), es la base para modelar a las seales de voz (siendo el arquetipo de
referencia por excelencia hasta la fecha). Esta representacin ha sido plasmada a travs de una
amplia variedad de implementaciones digitales para las seales de voz, permitiendo formar a estas
seales con los parmetros del modelo en lugar de utilizar una forma de onda muestreada.
Al asumir que las propiedades de la seal de voz (y del modelo) son constantes en intervalos de
tiempo corto, es posible calcular, medir y estimar los parmetros del modelo simplemente
analizando segmentos muestrales cortos de la seal de voz [20]. Es a travs de estas tcnicas de
modelado y anlisis que es posible reflejar las propiedades del proceso de la produccin de la voz
por medio de una implementacin de un sistema digital.
30
2.4 Percepcin de la voz
Cuando se analiza a la voz es deseable poder entender no solo el sistema que la genera sino adems
el sistema que responde a ella. En la Figura 2-5 se pueden observar las tres regiones principales
que conforman al odo humano (sistema fisiolgico encargado de pre-procesar a las ondas
acsticas portadoras de la voz):
Figura 2-5: Esquema anatmico del odo, donde se muestran los 3 segmentos principales: Externo
(Canal), Medio (Tmpano, Martillo y Yunque) e Interno (sistema Coclear y sistema Nervioso) [21].
Odo externo: consiste en la parte externa del odo, localizado fuera de la cabeza y conocido
como Pina, tambin conformado por el canal externo. El propsito del odo externo es canalizar
las ondas acsticas hacia el odo medio.
Odo medio: esta zona del odo convierte las ondas acsticas (capturadas previamente) en
vibraciones mecnicas que viajan a travs de la ventana oval hacia el odo interno.
Odo interno: es una cmara llena de fluido que contiene a la cclea (la cual tiene forma de
caracol) y a una membrana basilar. Las vibraciones de la ventana oval crean ondas estacionarias
en el fluido el cual hace vibrar a los vellos delgados que residen en la membrana basilar. Las
frecuencias de estas vibraciones se encuentran en funcin de las frecuencias existentes en la onda
31
acstica del sonido original. Los vellos, conocidos como estereoclios, estn conectados al nervio
auditivo y en esencia convierten las vibraciones mecnicas en impulsos elctricos para poder ser
procesados por el sistema nervioso. Sin embargo la respuesta en frecuencia de la membrana
basilar no es lineal, su resolucin en frecuencia disminuye cuando la frecuencia incrementa, por
ello se han propuesto diversos enfoques a su respuesta no-lineal, como es el caso de la escala
mel.
2.5 Escala Mel
La escala mel (llamada as por Stevens, Volkman y Newman en 1937) es una escala perceptual de
tonos equidistantes (frecuencialmente), y evaluados por diferentes escuchas. El punto de referencia
entre esta escala de frecuencias y la escala lineal se define al asignar un tono perceptual de 1000
mels a un tono de 1000 Hertz a 40dB sobre el umbral de escucha de una persona. Por encima de
500 Hz se necesitan intervalos cada vez ms grandes para que un escucha perciba incrementos de
tonos iguales. Como resultado, cuatro octavas en la escala de Hertz sobre 500 Hz se interpretan
como dos octavas en la escala mel. Con este experimento se demostr que el sistema auditivo
humano es ms sensible a diferencias de frecuencias en rangos de frecuencias bajas, debajo de
1kHz que en rangos de frecuencias ms altas. Debido a ello, la escala mel es aproximadamente
lineal debajo de 1 kHz y logartmica por encima de este valor. El nombre mel proviene de la palabra
meloda para indicar que la escala est basada en comparaciones de tonos.
La escala mel y la escala en Hertz se relacionan por medio de la Ecuacin 2-2:

= 2595 log10 (1 + )
700
Ecuacin 2-2
En la Figura 2-6 se muestra la relacin entre las dos escalas:
32
Relacin Escala lineal vs Escala Mel
2500
2000
Frecuencia (Mels)
1500
1000
500
0
0 1000 2000 3000 4000 5000 6000 7000 8000
Frecuencia (Hertz)
Figura 2-6: Relacin entre escalas frecuenciales mel y Hertz. El sistema auditivo humano no interpreta
los tonos de manera lineal. La interpretacin humana de los tonos crece conforme la frecuencia decrece.
La escala mel surgi para compensar esta caracterstica. Su propsito es modelar al sistema auditivo
humano con una escala no-lineal. Los tonos se perciben de manera lineal en el rango de frecuencias de 0
a 1000 Hz. Despus de 1000 Hz la escala se vuelve logartmica.
33
34
Captulo 3 RECONOCIMIENTO AUTOMTICO DEL
HABLA: ESTADO DEL ARTE
3.1 Introduccin
La investigacin en el reconocimiento del habla ha estado activo durante ms de 80 aos, periodo

en el cual se pueden identificar al menos cinco generaciones basndose en el uso de diferentes
metodologas:
1. Primera generacin (1930 a 1950): uso de mtodos ad-hoc para reconocer palabras o
pequeos vocabularios de palabras aisladas. Estas tareas se realizaban basndose en el uso
de gramtica nodal simple de una palabra o un conjunto pequeo de palabras sin tomar en
cuenta las disimilitudes en del habla.
2. Segunda generacin (1950 a 1960): uso de metodologas basadas en la acstica-fontica

para reconocer fonemas, Slabas o vocabularios de dgitos. Incorporaron el uso de
gramtica estadstica y se utilizaron redes de estados Finitios (Finite State Networks FSN-)
para modelar caractersticas acsticas, sintcticas y semnticas en conjunto con un modelo
integral simple capaz de ser configurado para tomar en cuenta eventos acsticos no-
gramaticales, pudiendo realizar una bsqueda ptima para encontrar el mejor camino
correspondiente a una frase hablada consistente con la tarea gramatical y semntica (y con
posibilidad de realizar tareas pragmticas).
3. Tercera generacin (1960 a 1980): uso de reconocimiento de patrones enfocado al

reconocimiento del habla en vocabularios pequeos a medianos de secuencias de palabras
aisladas y conectadas. Se incluy el uso de la codificacin lineal predictiva como mtodo bsico
del anlisis espectral y el uso de sus distancias para calificar la similitud entre los patrones
generados, el uso de la programacin dinmica para la alineacin de patrones, el uso de
mtodos de reconocimiento de patrones para la agrupacin de mltiples patrones en
patrones de Referencia y el uso de Libros de Cdigos (Codebooks) basados en la Cuantizacin
vectorial para la reduccin de datos y recursos computacionales.
35
4. Cuarta generacin (1980 a 2000): uso de mtodos estadsticos a travs de modelos ocultos
de Markov (hidden Markov models HMM-), con el propsito de modelar la dinmica y
estadstica del habla para sistemas ASR continuos, uso de mtodos de entrenamiento de
adelanto-atraso y de k-medias segmentales, uso de mtodos de alineamiento de Viterbi,
uso de Estimaciones de Mxima Verosimilitud (Maximum Likelihood ML-) entre otros
criterios de desempeo y mtodos con la finalidad de optimizar a los modelos estadsticos.
Mtodos basados en redes neuronales (neural Networks NN-) para estimar Densidades de
Probabilidad Condicional, uso y adaptacin de mtodos que modifiquen tanto a los
parmetros asociados con la seales de voz as como con sus modelos estadsticos con el
propsito de mejorar la compatibilidad entre el modelo y el dato original, incrementando
de esta manera la precisin del reconocimiento.
5. Quinta generacin (2000 a 2020): uso de mtodos de procesamiento en paralelo para

incrementar la exactitud en las decisiones del reconocimiento, combinaciones de HMMs y
tcnicas acsticas-fonticas para detectar y corregir irregularidades lingsticas, robustez
incrementada para sistemas ASR en presencia de ruido, aprendizaje de mquina para
combinaciones ptimas de modelos.
Estas generaciones no estn desligadas unas con otras, debido a que la mayora de las ideas
fundamentales que las generaron surgieron en generaciones anteriores. Sin embargo, los
periodos indicados para cada generacin representan los momentos en los cuales la mayora de
la investigacin se llev a cabo y los momentos en los que las tecnologas resultantes se
convirtieron en estndares para la mayora de los sistemas de reconocimiento automtico del
habla en dichas pocas.
Debido a su interdisciplinariedad, el reconocimiento automtico del habla se basa en la voz

humana como objeto de investigacin. El reconocimiento del habla hace posible que una
mquina convierta a una seal de voz en texto o comandos a travs de un proceso de
identificacin y entendimiento. El reconocimiento del habla abarca muchas reas del
conocimiento como lo son: la fisiologa, psicologa, lingstica, ciencias de la computacin y el
procesado de seales, incluso se encuentra relacionado con el lenguaje corporal de una persona,
y su objetivo mximo es conseguir una comunicacin natural entre hombres y mquinas. La
36
tecnologa de reconocimiento del habla se ha convertido gradualmente en una tecnologa clave
en las interfaces de mquina en las Tecnologas de la informacin (TI).
En el Captulo 2 se realiz una resea histrica sobre el procesamiento del habla. Como se
mencion (Captulo 2.1, pgina 19), el trabajo de investigacin formal comenz en la dcada de
1950 en los laboratorios Bell, siendo el sistema Audrey el primero en identificar los diez nmeros
del idioma ingls, esto marc un hito y gener un progreso substancial en la investigacin de las
dcadas posteriores. En la dcada de 1960 si bien los sistemas de reconocimiento automtico del
habla ya existan comercialmente, sus costos (los cuales rondaban entre los $10,000 y $100,000
dlares [22]) los hacan solo accesibles para los profesionales en TI. Posteriormente a principios
de la dcada de 1980, los modelos ocultos de Markov (hidden Markov models HMM-) y las redes
neuronales artificiales (artificial neural Networks ANN-) se emplearon exitosamente en el
reconocimiento del habla. En el ao de 1987 [11], se utiliz exitosamente la tcnica de cuantizacin
vectorial (vector quantization VQ-) para obtener un sistema continuo de reconocimiento del habla-
SI (independiente del hablante) llamado SPHINX, el cual es conocido como el primer sistema
ASR moderno de alto desempeo [23].
Los sistemas actuales de reconocimiento del habla se han trasladado de los laboratorios hacia el
mundo prctico. Muchos pases desarrollados como estados Unidos, Japn, Corea del Sur, as
como grandes empresas como IBM, Apple, Microsoft y AT&T generan fuertes investigaciones y
desarrollos de sistemas de reconocimiento automtico del habla.
Un sistema tpico de reconocimiento automtico del habla (Figura 3-1), es esencialmente un

sistema de reconocimiento de patrones, el cual incluye: una etapa de extraccin de caractersticas, una
etapa de asociacin de parmetros y una Librera donde se halla la base del conocimiento (producto
del resultado de los entrenamientos realizados).
La voz a analizar pasa a travs de un piezo-elctrico (micrfono), el cual transforma las

perturbaciones del aire en seales elctricas, con el propsito de ser procesadas por la mquina,
posteriormente el sistema establece un modelo de la voz de acuerdo a sus caractersticas al analizar
y extraer los rasgos particulares de dichas seales (que generalmente se hallan ocultos), para
finalmente generar un patrn que se usar en la etapa de reconocimiento.
37
Resultados del
Seal de voz
reconocimiento
Pre- Identificacin
Extraccin de Asociacin de
procesamiento
caractersticas Patrones
de la seal
Proceso en lnea
Entrenamiento Base de
Conocimiento
(librera)
Proceso fuera de lnea
Figura 3-1: Sistema ASR donde se muestra el paradigma clsico de reconocimiento de patrones, el cual
involucra comparar los parmetros o representacin de caractersticas de la palabra pronunciada con
patrones de referencia para cada palabra en la librera de vocabularios. La etapa de entrenamiento suele
ejecutarse previamente (proceso fuera de lnea) a la etapa de identificacin (proceso en lnea).
La mquina se encarga del proceso de reconocimiento al trabajar con los patrones de las voces
(generados previamente), y comparndolos con las caractersticas de la seal a identificar. Las
estrategias de bsqueda y asociacin para identificar el rango ptimo en una voz entrante al sistema
se basan en la asociacin con estos patrones definidos.
En los subcaptulos siguientes se hace un estudio del estado del arte para los sistemas de
reconocimiento automtico del habla que incluye los mtodos y las tcnicas actuales que se
emplean en cada una de los procesos de dichos sistemas.
3.2 Pre-procesamiento de la seal
Una de las primeras decisiones que se deben realizan en el diseo de un sistema ASR es la manera
de digitalizar y representar a las seales de voz para poder ser interpretadas por una mquina [22].
Los primeros pasos en la etapa de pre-procesamiento de la seal son: la divisin de bloques de voz
en secuencias de seales separadas por pausas, y la normalizacin de la seal para reducir la
variabilidad debido al ruido (condiciones del entorno y de los canales de comunicacin) y al
hablante (rapidez de pronunciacin, salud fsica, emociones, etc.).
38
La representacin digital ms simple para la voz es la Modulacin por Impulsos codificados (Pulse Code
Modulation PCM-) en donde la seal de voz es muestreada y digitalizada por una computadora
empleando para ello un Convertidor analgico-digital (analogic to digital Converter -ADC-). La seal
de voz es muestreada entre 6 a 20 veces por segundo en sistemas ASR, dependiendo de la
frecuencia de respuesta deseada [2]. Tpicamente [24], una etapa de pre-procesamiento de la seal
se compone de los bloques que se ilustran en la Figura 3-2 y que se revisan en las sub-secciones
siguientes.
Filtro de Supresin de Supresin de

Seal de voz
Pre-nfasis ruido de fondo silencios
Seal Normalizacin y Anlisis a

Enventanado
pre-procesada alineamiento cuadros
Opcional
Figura 3-2: Etapa de pre-procesado de seal para un sistema ASR.
3.2.1 Filtro de pre-nfasis
Un filtro de pre-nfasis juega un rol crtico en la captura de las caractersticas de las muestras de
la seales de voz en un sistema ASR [25].
Este filtro surge debido a que generalmente en el proceso de captura de la voz existe una
atenuacin de las componentes de altas frecuencias, ya que el micrfono se comporta como un
filtro pasa-bajas, esto genera fenmenos adversos tales como atenuacin, distorsin y saturacin.
Este filtro se usa con el propsito de suavizar el espectro frecuencial de la seal, al incrementar
la magnitud en una banda de frecuencias (en las seales de voz las frecuencias ms altas) con
respecto de otras frecuencias (las de baja frecuencia), con el propsito de mejorar la relacin
seal-a-ruido total, haciendo que el filtro de pre-nfasis ayude a reducir las inestabilidades en los
clculos posteriores en los sistemas de procesado de voz generados por errores con operaciones
matemticas de precisin finita, evitando de esta manera errores por truncamiento numrico, al
permitir que los coeficientes de una transformada rpida de Fourier (si existiera) o alguna otra
39
transformacin frecuencial, puedan portar tambin a las componentes de altas frecuencias,
generando de esta forma una magnitud mayor en estas frecuencias, lo cual es una aproximacin
ms fiel de la seal real, consiguiendo de esta manera hacer un mejor uso del rango dinmico de
la seal original.
Explcitamente en el rea del anlisis de la voz, las tcnicas LPC o de modelado sinusoidal, buscan
los parmetros de un modelo que minimicen la distancia del modelo a la seal original. Cuando se
aplican estas tcnicas en seales de voz que no han sido pre-enfatizadas, el modelo desperdiciar
la mayor parte de su capacidad (polos, sinusoides, etc.) tratando de sobre-ajustar las primeras
armnicas mientras que se ignoran las de rdenes superiores (pudiendo ser importantes para la
inteligibilidad de la seal de voz o para la discriminacin de fonemas). Aplicando un filtrado de
pre-nfasis a la seal generalmente se asegura que el modelo se ajuste al espectro de manera ms
uniforme.
El filtro de pre-nfasis consiste en un filtro digital de primer orden, con una funcin de sistema:
() = 1 1
Ecuacin 3-1
3.2.2 Supresin de ruido de fondo
La existencia de ruido es inevitable. En todas las aplicaciones concernientes a la voz desde

grabaciones de sonido, telecomunicaciones y tele-colaboraciones, hasta interfaces hombre-
mquina, las seales de inters que se obtienen de un micrfono generalmente se encuentran
contaminadas por ruido. Por lo que es deseable que esta seal sea limpiada con tcnicas basadas
en procesado digital de seales (antes de ser almacenada, analizada, transmitida o reproducida).
El proceso de limpieza (conocida comnmente como reduccin de ruido), ha originado una cantidad
considerable de investigacin y desarrollo por varias dcadas. Se han hecho grandes avances, y
se mantiene un continuo progreso con la ayuda de creacin de nuevos procesadores que pueden
extraer la seal de voz deseada. Basndose en su origen terico, los algoritmos de reduccin de
ruido se categorizan en tres clases fundamentales: tcnicas de filtrado, Restauracin espectral, y Mtodos
basados en modelos [15].
40
3.2.3 Supresin de silencios
Una forma de clasificar a las seales de voz (desde un anlisis temporal), es categorizando sus
regiones en tres categoras diferentes: vocalizadas, no-vocalizadas y Silencios [26]. Las regiones
vocalizadas y no-vocalizadas contienen informacin del habla, mientras que las partes de Silencio
contienen ruido que generalmente carece de informacin. Un Detector de actividad de la voz (Voice
Activity Detector VAD-) (Figura 3-3), es un sistema capaz de localizar las regiones de sonidos
vocalizados y no-vocalizados en presencia de ruido de fondo en una seal de voz [27] .
Correccin de
Extraccin de Decisin del
Seal de voz decisin del Seal de voz til
caractersticas VAD
VAD
Clculo de
umbral
Figura 3-3: Diagrama a bloques de un sistema VAD genrico [28].
Un VAD fiable aumenta la exactitud de un sistema ASR. El problema de hallar el inicio y el final
en una seal de voz, se puede concebir como un proceso secuencial (o un proceso por partes),
en donde las pronunciaciones son generalmente muy pequeas (de unos cuantos segundos) en
sistemas ASR. A pesar de que los sistemas VAD pueden implementarse usando diferentes
algoritmos y tcnicas, generalmente poseen algunas caractersticas semejantes con las que es
posible evaluar su desempeo:
Extraccin de caractersticas: es necesario un buen criterio en la seleccin de caractersticas

para la segmentacin de las seales de voz. Generalmente la complejidad del VAD es
directamente proporcional al criterio de extraccin de caractersticas. Cabe destacar que la
extraccin de caractersticas basadas en tcnicas temporales, a menudo son menos complejas
que las basadas en tcnicas frecuenciales.
Seleccin de umbral: es precisa una adecuada eleccin en el umbral de deteccin para la

correcta segmentacin del habla y la eliminacin de regiones de silencio. En las partes de voz es
necesario tambin segmentar la porcin de voz de las partes vocalizadas y no-vocalizadas. Por
41
lo tanto estos umbrales por naturaleza deben de ser robustos y estables para que puedan
segmentar a la voz ante diferentes tipos de ruido. Tpicamente estos umbrales se inicializan en
los algoritmos al analizar el ruido de fondo empleando algn criterio, sin embargo en la mayora
de las ocasiones la inicializacin se realiza con algunas pre-muestras o muestras tempranas de la
seal de voz. Existen dos tipos de inicializacin para el nivel de umbral: uno empleando una
grabacin previa de ruido de fondo, y el segundo es tomar los primeros 200ms de una muestra
de una seal de voz (evidentemente, estas aproximaciones no pueden ser empleadas para
sistemas en tiempo real).
Complejidad: para implementaciones en tiempo real el VAD debe conservar una baja
complejidad. Los VAD basados en tcnicas temporales son de una naturaleza menos compleja
que los basados en dominios frecuenciales [29]. Sin embargo, tambin es cierto que los VAD
basados en tcnicas frecuenciales inherentemente son ms robustos.
Perceptibilidad: despus de la segmentacin, el VAD debe demostrar poseer una buena

calidad perceptible (inteligibilidad en la seal de voz procesada). Una valoracin subjetiva puede
medir la perceptibilidad del VAD. Despus de haberse ejecutado las operaciones del VAD, los
archivos con las voces procesadas son entregados a jueces, quienes otorgarn una valoracin en
funcin de su apreciacin subjetiva.
Porcentaje de compresin: es la razn del nmero de muestras inactivas divido entre el

nmero total de muestras. Un VAD debe tener un porcentaje alto de compresin, pero no tan
alto que reduzca su Perceptibilidad.
Deteccin errnea: Entendida como el Objetivo de la Evaluacin. Para poder valorar a esta
caracterstica de un VAD, se debe segmentar manualmente a una seal de voz en regiones
vocalizadas y no-vocalizadas. Y se obtiene al calcular la razn de muestras ocupadas por la voz
pero habiendo sido clasificadas como silencio sobre el nmero total de muestras.
Para los VAD basados en el dominio temporal, se encuentran los que utilizan tcnicas de: tasas
de cruce por cero [30] [31], periodicidad [32], energa de la seal [33], energa lineal [34] y energa lineal
adaptiva [29], entre otros ms. Para los que utilizan mtodos frecuenciales se tienen los basados
en: coeficientes cepstrales [35], Entropa espectral [36], Medicin de la periodicidad de Mnimos Cuadrados
[37], coeficientes de transformacin wavelet [38], etc.
42
3.2.4 Anlisis en tiempo corto
En el procesamiento de la voz, muy a menudo es conveniente dividir a la seal en cuadros para

conseguir estacionaridad estadstica, definida como un proceso estocstico cuya distribucin de
probabilidad conjunta en un instante de tiempo fijo o posicin es la misma para todos los
instantes de tiempo o posiciones [39]. Por lo tanto, parmetros tales como la media y la varianza
(si existen) no varan a lo largo del tiempo o posicin. Para el procesado de seales (como la voz)
se emplea la estacionaridad dbil o estacionaridad en sentido amplio (wide-sense stationarity WSS-), la
cual solo requiere que el primer y segundo momento estadstico (la media y la varianza
respectivamente), no varen en funcin del tiempo [40].
Una seal de voz no es estacionaria per se, pero analizndola en instantes de tiempo corto se
aproxima lo suficientemente bien como para llevar a cabo un anlisis estadstico. Esta propiedad
se debe a que el sistema fisiolgico humano (especficamente el proceso glotal), no cambia de
manera inmediata. Los estudios indican que una seal de voz tpicamente es estacionaria en
intervalos de tiempo de 20ms [7] [41] [42].
Por lo tanto (si la aplicacin lo requiere), una seal de voz puede dividirse en cuadros de 20 ms
que corresponden a muestras de la forma = ( frecuencia de muestreo, duracin
del cuadro).
Cuando la seal es segmentada en cuadros, es necesario considerar como tratar con los bordes
de los cuadros ya que ellos pueden generar armnicos no deseables. Por lo tanto es conveniente
usar una ventana para disminuir los bordes. Como consecuencia las muestras, no tendrn el
mismo peso para los clculos posteriores y por esta razn es prudente usar un traslape,
solapamiento o superposicin entre tomas, tal y como se muestra en la Figura 3-4, generando
un tamao de tiempo de cuadro (time frame length - -) de:
= +
Ecuacin 3-2
43
Tiempo (s)
Figura 3-4: Segmentacin de una seal de voz dividida en tres cuadros de 20 ms. Cada cuadro comparte
la primera parte con el cuadro previo y la ltima parte con el cuadro siguiente. El tiempo de paso entre
cuadros (tfs) indica el tiempo existente entre el inicio de cada cuadro. El tiempo de traslape (to) se define
como el tiempo desde que inicia un nuevo cuadro hasta que el actual termina.
3.2.5 Enventanamiento de los cuadros de una seal de voz
La etapa de enventanado de seales para un sistema ASR, es un proceso fundamental para el

desempeo global del sistema. Al ser el final de un subproceso (pre-procesamiento), es
importante que la seal de voz se encuentre optimizada en funcin del anlisis que se llevar a
cabo a la entrada del siguiente subproceso (seleccin de caractersticas). Debido a que muchas
de las tcnicas que el estado del arte utiliza para una etapa de seleccin de caractersticas se basan
en un anlisis en el dominio frecuencial, es imperativo que el funcionamiento de esta etapa sea
el adecuado.
En el procesado de seales, una funcin de ventana (tambin conocida como funcin de

apodizacin o funcin de disminucin [43]), es una funcin matemtica valuada cero fuera de un
44
intervalo de eleccin. Por ejemplo, una funcin que es constante dentro de un intervalo y cero
fuera de l es conocida como funcin rectangular (debido a la forma de su representacin grfica).
Cuando otra funcin, forma de onda o secuencia de datos se multiplica por una funcin ventana,
el producto tambin es valuado cero fuera del intervalo, as los datos resultantes residen en la
parte donde las funciones se traslapan (la perspectiva a travs de la ventana).
Al aplicar un anlisis a cuadros, se realiza una segmentacin de la seal truncndola, este

truncamiento es equivalente a multiplicar a la seal de voz en el dominio temporal por una
ventana rectangular, lo cual implica convolucionar al espectro del fragmento de la seal de voz,
con una funcin sinc [20], esta convolucin con una funcin ventana que posea lbulos
secundarios substancialmente significantes es la razn por la cual aparecen oscilaciones en la
respuesta de la magnitud frecuencial, ello ocasiona el conocido fenmeno de Gibbs que conlleva
a fugas o aberraciones espectrales, originando una degradacin de la informacin contenida en
la seal de voz, y causando un deterioro del desempeo del sistema ASR y de manera general
para cualquier proceso que trabaje con harmnicos, ello incluye la capacidad de detectar a dichos
harmnicos, la resolucin, el rango dinmico y la capacidad de implementacin del sistema final.
Con el propsito de mitigar las oscilaciones de Gibbs, antes de que la seal sea transformada
entre dominios, se usan funciones de ventanas. Probablemente las funciones ventana ms
empleadas en el rea del procesamiento de la voz [44] sean las ventanas de Blackman, Von Hann
(Hanning) y su versin mejorada la ventana Hamming [45] [46]. Idealmente el espectro de la
ventana debe poseer un lbulo principal estrecho y pequeos lbulos secundarios, sin embargo,
existe un compromiso inherente ente el ancho del lbulo principal y la atenuacin los lbulos
secundarios (ver Figura 3-5).
La ventana de Hamming con sus coeficientes particulares fue propuesta por Richard W.
Hamming, y est optimizada para minimizar al lbulo secundario mximo (el ms cercano al
lbulo principal) [47]. La ventana de Hamming est descrita por medio de la Ecuacin 3-3:
2
() = cos ( ). Con = 0.54, = 1 = 0.46
1
Ecuacin 3-3
45
a) Ventana Rectangular
b) Ventana Hamming
Figura 3-5: Comparativa entre los espectros de dos ventanas, generada usando la herramienta wvtool de
Matlab (R2013a). Se observa que aunque el lbulo principal de la ventana (a)Rectangular es ms estrecho
en comparacin con el de la ventana (b)Hamming ( 0.0039 Rectangular vs
0.0063 Hamming a -3dB), los lbulos secundarios de la ventana Hamming poseen
una mejor atenuacin (-42.7dB Hamming vs -13.3dB Rectangular), adems el factor de fuga espectral es
casi nulo en la ventana de Hamming (0.04% Hamming vs 9.26% Rectangular).
3.2.6 Normalizacin y alineamiento
En la seccin 3.2.4 (anlisis en tiempo corto), se plantearon los fundamentos del uso de este
proceso. Estos segmentos de la voz, sern representados en procesos posteriores como un
conjunto de medidas de caractersticas acsticas (modelos espectrales, coeficientes de prediccin
lineal, etc.). Una palabra que deba de ser reconocida, es ms compleja de procesar en
comparacin con un sonido. En consecuencia, un patrn de voz casi siempre involucra una
secuencia de representaciones acsticas de cuadros de tiempo corto, obligando as a que las
tcnicas de inteligencia artificial (artificial intelligence -AI-) para reconocimiento del habla que
46
involucren comparacin de parmetros, sean capaces de contrastar secuencias de caractersticas
acsticas, indistintamente si lo hacen en el dominio temporal o utilizando representaciones
espectrales, ya que incluso las espectrales pueden considerarse como representaciones en tiempo
corto como consecuencia de los intervalos de tiempo involucrados (los cuales usualmente se
encuentran en el rango de varias decenas de milisegundos [48]).
El problema asociado con una comparacin secuencial de cuadros de voz, parte del hecho en el
cual una interpretacin o patrn de la misma voz articulada (palabra, frase o fonema), raramente
se volver a realizar a la misma velocidad (tasa del habla, rate of speech ROS-), ya sea por factores
fsicos (tales como el transductor empleado o el tiempo de respuesta del sistema de
procesamiento) o por factores humanos (condiciones fsicas y emocionales) [49] [50] [51]. Por
lo tanto cuando se comparan diferentes patrones de la misma voz articulada, las variaciones en
las tasas del habla as como la variacin de la duracin no deben de contribuir a las calificaciones o
puntuaciones (scores) de las disimilitudes lingsticas. Es por ello que surge la necesidad de
normalizar la fluctuacin de la tasa del habla con el propsito de que la comparacin de las voces
articuladas sea significativa, optimizando as la decisin tomada por el sistema de asociacin de
parmetros del ASR.
Consideremos dos patrones de voces X y Y, representados por las secuencias (espectrales para
no perder generalidad) (x1, x2,, xTx,) y (y1, y2,, yTx,) respectivamente, tal que xi y yi son los
vectores con los parmetros de las caractersticas acsticas del anlisis en tiempo corto (se puede
usar cualquier conjunto de caractersticas acsticas mientras sea posible la utilizar una medida en
la distancia para comparar al par de vectores de caractersticas y el resultado de esta medida
contengan informacin apropiada). Se usa ix e iy para indicar los ndices temporales de X y Y,
respectivamente. Las duraciones Tx y Ty no necesitan ser idnticas (ya que de manera prctica
nunca lo son). La diferencia entre X y Y est definida al considerar alguna funcin de las
distorsiones espectrales en tiempo corto ( , ) definida simplemente como ( , ) con
= 1, 2, , y = 1, 2, , . Debido a que el orden de secuencias de sonidos es (en la

mayora de los casos) crtico para la inteligibilidad de una voz articulada, es necesario que los
ndices de los pares espectrales que estn siendo comparados ( , ), satisfagan algunas
restricciones de orden. La interaccin entre estas restricciones secuenciales y la variacin natural
47
en la tasa del habla constituye uno de los problemas centrales en el reconocimiento del habla,
conocido como alineacin temporal y normalizacin.
Probablemente la tcnica ms simple al problema de la alineacin temporal y normalizacin es

el enfoque de normalizacin temporal lineal, en el cual la disimilitud entre X y Y se define
simplemente como:

(, ) = ( , )
=1
Ecuacin 3-4
Donde , satisface:

=

Ecuacin 3-5
(Debido a que los ndices ix e iy son enteros se debe de aplicar alguna regla de redondeo en la
Ecuacin 3-5).
La suma de la Ecuacin 3-4 puede tomarse tambin desde = 1 hasta = , dependiendo

de la direccin deseada en el tiempo de normalizacin (en estas definiciones se ha usado a para
indicar la disimilitud o distorsin entre un par espectral de tiempo corto como un par de
secuencias espectrales).
Otros trabajos reportan aproximaciones por medio de optimizacin dinmica temporal a travs
del algoritmo de distorsin dinmica temporal (dynamic time warping DTW-) [52], empleando
modelos ocultos de Markov [53], basado en formantes [54], y recientemente empleando emociones
de los hablantes [55], entre otros.
3.3 Extraccin de caractersticas
El objetivo general de cualquier sistema de reconocimiento de patrones (incluyendo a los ASR) es:
dada una coleccin de objetos que pertenecen a un conjunto predefinido de clases y a un
conjunto de medidas que sean capaces de cuantificar (y cualificar) a estos objetos, Identificar el
tipo de membresa de cada objeto por medio del anlisis apropiado de estas medidas
(caractersticas) [56].
48
Aunque estas caractersticas se encuentran en funcin de medidas realizadas sobre una clase de
diferentes objetos, en la mayora de los casos el conjunto inicial de caractersticas est formado
por un conjunto grande de atributos potenciales que constituyen un obstculo (en su forma
elemental) tanto a la precisin como a la eficiencia de los algoritmos que las manipulan. En
numerosas situaciones es una tarea complicada poder hallar las caractersticas apropiadas para
todos los patrones de las clases, sin embargo, muchos de los algoritmos de aprendizaje
automtico funcionan como herramientas para la identificacin de informacin relevante para
propsitos de clasificacin.
El mdulo de extraccin de caractersticas de un sistema ASR transforma la seal obtenida de la

etapa de pre-procesamiento de la seal de voz, en vectores de caractersticas en los que se pretende
que las propiedades de la seal de voz sean enfatizadas y las redundancias estadsticas eliminadas
[33], para que as posteriormente sea posible entrenar al sistema haciendo uso de estas
caractersticas. En el estado del arte de prcticamente todos los sistemas ASR, se hace uso de un
conjunto extenso de palabras, fonemas o voces de hablantes (segn sea el caso), con el propsito
de mejorar la robustez y eficiencia del reconocimiento.
La seal de voz incluye muchas caractersticas, de las cuales no todas son importantes para su
discriminacin. Idealmente [57] [58] las caractersticas utilizadas por un ASR deberan:
Ser robustas ante el ruido y la distorsin.
Estar frecuentemente presentes y de forma natural en las seales de voz.
Ser difciles de imitar o emular.
No estar influidas por las condiciones (fsicas, emocionales, de edad, etc.) de los hablantes.
Tener una alta variabilidad entre ejemplos de la misma clase, y baja entre ejemplos de clases
diferentes.
El nmero de caractersticas a utilizar debe de ser relativamente pequeo, ya que de manera

tradicional estas sern empleadas por el sistema para crear patrones. Por ejemplo, los modelos de
mezclas de Gaussianas (Gaussian mixture models -GMM-) [59] [60] (que al hacer uso de modelos
estadsticos) no pueden manipular datos de alta dimensionalidad, debido a que el nmero de
muestras requeridas por los ejemplos para una estimacin fidedigna de la densidad probabilstica
crece exponencialmente en funcin del nmero de caractersticas, conllevando al fenmeno
49
conocido como efecto Hughes o maldicin de la dimensionalidad [61]. Evidentemente el ahorro
computacional se evidencia al usar caractersticas que residan en una dimensin reducida.
Existen diferentes maneras de categorizar a las caractersticas para seales de voz (Figura 3-6), y
desde el punto de vista de su interpretacin fsica se pueden clasificar en: caractersticas espectrales
de tiempo corto, caractersticas de la fuente de voz, caractersticas espectro-temporales, caractersticas prosdicas y
caractersticas de alto nivel.
Caractersticas de Alto Nivel
Robustas contra efectos del Caractersticas Adquiridas (Comportamiento)

Fonemas, ideolecto
canal y ruido
(lenguaje personal),
semntica. Nivel Socio-econmico, educacin,
Difciles de extraer lugar de nacimiento, antecedentes
de lenguaje, personalidad,
Alto nmero de influencia paterna.
entrenamientos requeridos
Caractersticas Prosdicas y Espectro-
Etapa de asociacin de
patrones compleja Temporales
Tono, energa,
duracin, ritmo y
caractersticas
temporales.
Sencillas de extraer
Caractersticas fisiolgicas (Aparato humano)
Carga de datos necesarios
relativamente pequea
Caractersticas Espectrales en Tiempo- Tamao de las cuerdas vocales,
Independientes de textos y Corto y de fuente de Voz
lenguajes dimensiones y largo del tracto
vocal
Implementaciones en tiempo Caractersticas
real factibles Glotales y
Espectrales
Degradadas en presencia de
ruido y alineacin temporal
Figura 3-6: Resumen de las categoras de las caractersticas del habla (vista desde su interpretacin fsica).
La eleccin de las categoras debe basarse en su discriminacin, robustez, y practicidad. Las caractersticas
epectrales en tiempo corto son ms fciles de implentar aunque son menos discriminantes. Las
caractersticas prosdicas y de alto nivel ltimamente han recibido mucha atencin aunque requieren de
un costo computacional muy alto.
Las caractersticas espectrales de tiempo corto se calculan como el nombre lo sugiere, en

pequeos cuadros de seales de voz de aproximadamente 15 ms a 30 ms. Usualmente son
buenos descriptores de la envolvente espectral de tiempo corto, que a su vez est relacionada
acsticamente con el timbre o tono de la seal de voz (descrito algunas veces como el color del
sonido), as como tambin describen a las propiedades supra-larngeas del tracto vocal. En
cambio, las caractersticas de la fuente de voz caracterizan de mejor manera al flujo glotal.
50
Las caractersticas prosdicas y espectro-temporales abarcan decenas o algunas centenas de
milisegundos, teniendo caractersticas de entonacin y ritmo (en la mayora de los casos).
Finalmente, las caractersticas de alto nivel intentan capturar caractersticas del habla a nivel
conversacional, como por ejemplo el uso de locuciones (aha, ya sabes, s claro, etc.) [62].
De manera general, ninguna caracterstica es mejor que otra, la seleccin de las caractersticas
que emplear cualquier sistema de procesamiento de la voz (reconocimiento, codificacin, etc.),
es un compromiso entre discriminacin de clases (palabras, personas, fonemas, etc.), robustez y
practicidad, dependiendo nicamente de la aplicacin final, recursos computacionales y cantidad
de datos del habla disponible (para propsitos de desarrollo y de ejecucin).
De manera particular, para el rea de reconocimiento automtico del habla independiente del
hablante, las tcnicas de extraccin de caractersticas que se emplean de manera frecuente [24]
[63] [64], son las caractersticas de bajo nivel, que incluyen a las tcnicas espectrales de tiempo corto
(transformada de Fourier de tiempo corto, transformada wavelet, coeficientes-mel cepstrales y
coeficientes de prediccin lineal perceptuales), las tcnicas basadas en el anlisis de la fuente de la voz
(como el anlisis por prediccin lineal) y las tcnicas en el dominio temporal (tasa de cruces por cero,
energa de la seal).
3.3.1 Caractersticas espectrales de tiempo corto
Como se ha explicado anteriormente (ver pgina 25), la seal de voz cambia continuamente
debido a los movimientos de los articuladores as como al ajuste continuo del tracto vocal, es
por este motivo que la seal es segmentada (tpicamente) en cuadros de 15 a 30ms de duracin.
Con estos tiempos como tambin ya se ha analizado (ver pgina 43), la seal manifiesta
estacionaridad y es posible construir un vector de caractersticas acsticas por medio de los
cuadros generados.
Normalmente los cuadros son pre-enfatizados y multiplicados por una funcin ventana de
manera previa a los procesos subsecuentes. El pre-nfasis (como se discuti en la pgina 39),
levanta a las altas frecuencias cuya intensidad de otra manera estara muy atenuada debido a los
efectos de la seales de voz glotalizadas (entre otros fenmenos indeseables) que generan en
estas frecuencias una pendiente negativa. Una funcin de apodizacin es necesaria para mitigar
los efectos negativos de longitud finita (fenmeno de Gibbs) en la transformada discreta de Fourier
51
(discrete Fourier transform DFT-) as como tambin en la transformada rpida de Fourier (fast
Fourier transform FFT-), o cualquier otra transformada frecuencial (coseno discreta, wavelet, etc.).
Aunque existen trabajos [65] [66] [67] que emplean mtodos alternos a la FFT para la
descomposicin de la seal como lo son por ejemplo: las bases no-armnicas, funciones aperidicas y
las bases de conocimiento generadas por medio del anlisis de componentes independientes (independent
component analysis ICA-), la DFT sigue siendo el mtodo usado por excelencia, debido a su
eficiencia y simplicidad ya que de manera tpica, nicamente se conserva la magnitud del espectro
resultante de una transformacin DFT, debido a la concepcin de que la fase tiene poca
importancia perceptual (aunque se ha demostrado evidencia opuesta [68], y se ha descrito una
tcnica que hace uso de esta informacin [69].
La apariencia global de la magnitud del espectro de la DFT (conocida como la envolvente espectral),
contiene informacin sobre las propiedades de resonancia del tracto vocal humano, resultando
ser la parte con ms informacin del espectro del habla en sistemas de reconocimiento del
hablante. Un modelo simple de la envolvente espectral, comnmente hace uso de un banco de
filtros pasa-bandas para conseguir una integracin energtica sobre las bandas frecuenciales
vecinas, que representan de manera usual [70] a las frecuencias ms bajas y con mayor resolucin
(motivado por un enfoque psico-acstico), al colocar ms filtros con un ancho de banda ms
estrecho.
Aunque tambin, se han usado a los valores obtenidos de las sub-bandas de energa directamente
como caractersticas [71] [72] [73] [74], es habitual reducir la dimensionalidad de estos vectores
utilizando algn tipo de transformacin Figura 3-7.
52
Figura 3-7 [33]: Extraccin de la envolvente espectral usando anlisis cepstral y prediccin lineal. El
espectro de la FFT con NFFT = 512 puntos puede representarse (y reducirse) de manera efectiva con
tan solo = 12 coeficientes cepstrales o = 12 coeficientes de prediccin lineal. Tanto las
caractersticas cepstrales como las de LP son tiles, y una complementa a la otra en el estado del arte del
reconocimiento del habla.
Los coeficientes cepstrales en frecuencias mel (mel-frequency cepstral coefficients MFCCs-) [75] son
caractersticas muy populares en el procesamiento de la voz y del audio, se introdujeron a
principios de 1980 para el reconocimiento del habla (y adoptndose posteriormente en el
reconocimiento de hablantes). Aunque se han estudiado varias caractersticas alternativas como
los centroides de sub-bandas espectrales (spectral sub-bands centroids SSC-) [76] [77], los MFCC son
un paradigma difcil de superar.
Los MFCC se calculan con la ayuda de un banco de filtros psico-acsticamente generados,

seguido por una compresin logartmica y una transformacin de coseno discreta (tipo II) (discrete
cosine transform TDC-). Indicando a las salidas de un banco de filtros de m-canales como
(), con = 1, , , y siendo es el coeficiente cepstral, los MFCC se obtienen segn la
Ecuacin 3-6:

1
= [log ()] cos [ ( )]
2
=1
Ecuacin 3-6
53
Por otro lado, los coeficientes de prediccin lineal (LPC) [78] [79], es una mtodo alternativo a la DFT
de estimacin del espectro de la seal de voz. Tiene una buena interpretacin intuitiva tanto del
dominio del tiempo (muestras correlacionadas y adyacentes) y del dominio frecuencial (un
espectro todo-polos que corresponde a la estructura resonante). En el dominio temporal la
ecuacin del predictor LP est definida por medio de la Ecuacin 3-7:

[] = [ ]
=1
Ecuacin 3-7
Donde [] son las seales observadas en tiempos pasados, los coeficientes de prediccin y []
la seal estimada. El error de prediccin (o residuo de prediccin), est definido como [] =
[] []. Los coeficientes usualmente se determinar al minimizar la energa residual al
emplear el algoritmo recursivo de Levinson-Durbin (ms eficiente que los mtodos tradicionales
de solucin, p.ej. eliminacin de Gauss-Jordan). El modelo espectral est definido por la
Ecuacin 3-8:
1
() =
1 =1
Ecuacin 3-8
Y se encuentra constituido por los picos espectrales o polos (la lnea roja de la Figura 3-7).
Los coeficientes del predictor { } raramente son usados de manera directa como vectores de
caractersticas, tpicamente son transformados en caractersticas ms robustas y menos
correlacionadas tales como los coeficientes cepstrales lineales predictivos (linear predictive cepstral
coefficients LPCCs-), frecuencias de Lneas espectrales (Line spectral frequencies LSFs-) [80], y
coeficientes de prediccin lineal predictiva (PLPCs) [81]. Otras caractersticas (aunque principalmente
para la codificacin de la voz) incluyen a los coeficientes de correlacin Parcial (Partial correlation
coefficients PARCORs-), parmetros LARs (Log Area Ratios), frecuencias formantes y Anchos de
banda.
54
3.3.2 Otras medidas usadas como caractersticas
Recientemente, muchos sistemas ASR combinan flujos de datos con diferentes medidas
acsticas, al asumir que algunas caractersticas se atenan cuando se enfatizan otras, y por lo
tanto los flujos combinados deberan capturar la informacin presente en las caractersticas
individuales de manera complementaria.
Con el fin de tomar en cuenta el comportamiento temporal en diferentes bandas de frecuencias,

se ha propuesto [82] [83] [84] considerar separar los flujos de caractersticas extradas en canales
separados con diferentes bandas frecuenciales. Inspirados en el enfoque multi-flujo, algunos
ejemplos de combinacin de mediciones acsticas son: correlacin multi-resolucin espectro-tiempo [85]
[86], segmentacin y anlisis a cuadros de caractersticas acsticas [87], MFCC, PLP y caractersticas auditivas
[88], caractersticas espectrales discriminantes [89], caractersticas articulatorias y acsticas [90], LPC basado
en cepstrum, coeficientes MFCC, coeficientes PLP, promedios temporales y energticos [91] [92] [93], races de
coeficientes cepstrales de banda completa sin compresin (RCC), PLP de banda completa a 16kHz, PLP de
banda telefnica a 8kHz [94], PLP, MFCC y caractersticas wavelet [95], caractersticas conjuntas derivadas
de la funcin modificada de retardo de grupo [96], combinaciones de filtrados frecuenciales (FF): RASTA
(transformada espectral relativa), RASTA-PLP [97].
Otros enfoques integran parmetros especficos en un nico flujo de caractersticas. Algunos

ejemplos con parmetros superpuestos son: caractersticas de periodicidad y jitter [98], vocalizacin [99],
tasa del habla (ROS) y tono [100].
3.4 Generacin de modelos y su clasificacin para las seales de voz
Para el reconocimiento automtico del habla, en trminos generales existen tres metodologas
diferentes de reconocimiento:
1. El enfoque acstico-fontico.
2. El enfoque de reconocimiento de patrones.
3. El enfoque de inteligencia artificial.
55
3.4.1 Enfoque acstico-fontico
El enfoque acstico-fontico est basado en la postulacin de la existencia de unidades fonticas

finitas y distintivas en el lenguaje hablado, y que estas unidades fonticas se caracterizan de
manera genrica por medio de un conjunto de propiedades latentes en las seales de voz (o en
su espectro), a travs del tiempo. Aunque las propiedades acsticas de las unidades fonticas son
altamente variables debido tanto a una variedad infinita de hablantes como a la vecindad de las
unidades fonticas (conocidas como las co-articulaciones de los sonidos), se asume que las reglas
que gobiernan su variabilidad son sencillas y pueden ser aprendidas de manera rpida para poder
implementarse en situaciones prcticas. Es por ello que el primer paso en el enfoque acstico-
fontico es la segmentacin y el etiquetado de estos segmentos. Ello implica segmentar a la seal
de voz en regiones de tiempo discreto en las que la propiedades acsticas de la seal de voz
puedan representan a una (o varias) unidades fonticas (clases), pudiendo entonces adjuntar una
o ms etiquetas fonticas a cada regin segmentada de acuerdo a sus propiedades acsticas.
Aunque para ser considerado como reconocimiento del habla an hace falta todava un paso, el
cual es intentar determinar una palabra (o conjunto de palabras) procedentes de una secuencia
de etiquetas fonticas producidas por el primer paso, de esta manera el procedimiento ser
consistente con las restricciones de un sistema de reconocimiento del habla (p. ej. en un
determinado vocabulario se bosquejan palabras y las secuencias de palabras generarn un sentido
sintctico que a su vez poseer un significado semntico).
Para ilustrar la secuencia que involucra el enfoque acstico-fontico para el reconocimiento del
habla se puede tomar en cuenta la Figura 3-8. Un fonema visto como una red en celosa, es el
resultado de la segmentacin y el etiquetamiento de un proceso de reconocimiento que
representa a un conjunto secuencial de fonemas que son patrones parecidos de la seal del habla
que ingresa al sistema. El problema en este enfoque es decodificar a la red en celosa del fonema
de una palabra (o conjunto de palabras), de forma tal que cada instante de tiempo sea
considerado en los fonemas de la red, y adems dicha palabra (o conjunto de palabras) sea vlida
en la sintaxis con respecto al conjunto de reglas especfico para cada idioma.
56
all about ...
EH
AO
M
AW T
R
sil AX
AA
L AA sil
B
OW
sil
Tiempo
Figura 3-8: Red fontica en celosa para una palabra. El smbolo sil- significa un silencio o pausa entre
sonidos o palabras, la posicin vertical en la red en celosa, para cualquier tiempo, es una medida del
mejor patrn identificado para una unidad fontica, con las unidades superiores siendo las que mejores
califican. Mediante una labor de bsqueda, es posible derivar la cadena: sil-AO-L-AX-B-AW-T que
corresponde a las palabras all about (todo sobre), con los fonemas L, AX y B siendo las segundas o
terceras opciones en la red en celosa y los otros fonemas siendo las primeras opciones. Este ejemplo
ilustra la dificultad en decodificar unidades fonticas en palabras.
3.4.2 Enfoque orientado al reconocimiento de patrones
Como se mencion en la Introduccin de este captulo, un sistema de reconocimiento

automtico del habla puede ser analizado como un sistema de reconocimiento de patrones.
El reconocimiento de patrones (rea perteneciente al aprendizaje automtico) es la ciencia que

se ocupa de los procesos computacionales, fsicos y matemticos orientados a objetos fsicos o
abstractos, y cuyo propsito es extraer informacin que permita establecer propiedades
particulares entre estos objetos para su clasificacin en diferentes categoras o clases [101].
Dependiendo de la aplicacin, estos objetos pueden ser imgenes, formas de onda (seales) o
cualquier tipo de medida que deba ser clasificada. De manera genrica estos objetos son referidos
utilizando el trmino patrn [102].
Un patrn (obtenido a partir de etapas de pre-procesamiento, extraccin de caractersticas y

modelado), deber estar representado por medio de una coleccin de descriptores. Este patrn

estar definido por medio de un vector de medidas = [1 , , ] de dimensin-p, cuyas
57
componentes son las medidas que resultan de las caractersticas del objeto. De esta manera las
caractersticas son las variables especificadas en funcin de la aplicacin y seleccionadas porque
se cree que son importantes para conseguir una clasificacin adecuada.
Para la discriminacin, se asume que existen c-grupos (o clases) expresados como 1 , , , y

asociados a cada patrn por medio de una variable categrica que define a la clase o
membresa grupal, esto es si = , entonces el patrn pertenece a , {1, , } [103].
Para conseguir esta clasificacin se hace uso de un discriminador (tambin conocido como regla de
asignacin o clasificador de patrones), pudiendo controlar los parmetros de este clasificador de
patrones para poder conseguir una respuesta ptima (usando algn criterio) de clasificacin. Se
asume que se cuenta un conjunto de patrones o clases conocidas {( , ), = 1, , }
conocido como conjunto de entrenamiento o conjunto de diseo, utilizado para el diseo del clasificador
(sintonizando sus parmetros internos), y posteriormente estimar la clase de membresa de un
patrn . Tpicamente un clasificador (Figura 3-9) se puede catalogar (en funcin de su
naturaleza) de dos maneras:
Clasificador geomtrico (clustering): utilizado cuando los patrones son graficables. Con
este enfoque se emplea el clculo de distancias, geometra de formas, vectores numricos, puntos
de atraccin, etc.
Clasificador estadstico: basado en la teora estadstica, hace uso de varianzas, covarianzas,

dispersiones, distribuciones, etc.
Objeto (Proceso Clase asignada al

fsico o Evento) Objeto
Selector/Extractor Clasificador de
Sistema sensorial
Representacin de caractersticas Patrn de Patrones
del Patrn Caractersticas
(medidas)
Figura 3-9: Clasificador de patrones. Los datos pueden someterse a varias etapas de transformacin
antes de alcanzar un resultado final. Estas etapas (pre-procesamiento, extraccin de caractersticas y
modelado) manipulan los datos de manera que sea posible reducir su dimensionalidad (nmero de
caractersticas), eliminando informacin redundante o irrelevante, y transformndolos a una forma ms
apropiada para una clasificacin subsecuente [104].
58
3.4.3 Enfoque orientado a la inteligencia artificial
Para el reconocimiento del habla, este enfoque es un sistema hbrido entre el enfoque acstico-
fontico y el enfoque de reconocimiento de patrones, explotando las ideas y conceptos de
ambos. Este enfoque intenta mecanizar el proceso de reconocimiento de acuerdo a la manera en
que una persona aplica su inteligencia en visualizar y analizar para finalmente poder tomar una
decisin de acuerdo a las caractersticas acsticas medidas. De manera particular y en conjunto
con estas tcnicas, el enfoque de inteligencia artificial hace uso de los sistemas expertos para la
segmentacin y etiquetamiento de forma que al ser uno de los pasos ms complejos en un ASR,
pueda llevarse a cabo con herramientas extras adems de usar meramente las caractersticas
acsticas-fonticas, de forma particular estas herramientas incluyen mtodos: fonmicos, lxicos,
sintcticos, semnticos e incluso conocimientos pragmticos estudiados y propuestos por los
sistemas expertos, aprendizaje y adaptacin temporal (concepto en el cual el conocimiento es a
veces dinmico y a veces esttico, y estos modelos deben de adaptarse a las componentes
dinmicas de los datos), el uso de redes neuronales para aprendizaje de las relaciones entre
eventos fonticos y todas las entradas conocidas (acsticas, lxicas, sintcticas, semnticas, etc.)
as como para la discriminacin entre clases de sonidos similares.
59
60
Captulo 4 REDUCCIN DE LA DIMENSIONALIDAD
La voz, representada en su dominio temporal discreto, presenta una alta dimensionalidad dado el
nmero tan grande de muestras que se requieren para representarla inteligiblemente. Sin embargo,
y dado que todos los seres humanos poseemos funcionalmente el mismo aparato de fonacin,
puede suponerse que este dominio original puede ser transformado hacia otro en el que con menos
datos (una menor dimensionalidad) sea capaz de representar sin degradacin considerable la voz
original.
4.1 Introduccin
La dimensionalidad elemental de la voz ha sido tema de investigacin activo durante mucho

tiempo. Los movimientos restringidos de los articuladores y el conjunto limitado de sonidos
empleados en la comunicacin humana hablada han motivado a muchos investigadores a indagar
en la posibilidad de emplear un pequeo nmero de variables para describir al sistema del habla.
Por otro lado, en las reas de aprendizaje automtico y estadstica multivariable, las tcnicas de
reduccin de dimensionalidad han demostrado ser una herramienta muy eficaz para el anlisis y
exploracin de grandes volmenes de datos. Una de las tcnicas de reduccin de dimensionalidad
que mayor xito ha tenido en las ltimas tres dcadas, desde las ciencias neurolgicas hasta la
graficacin por computadora es el anlisis por componentes principales (principal component analysis
PCA) [105] [106], por ser un mtodo no-paramtrico (donde se desconoce la distribucin
estadstica subyacente) y de relativa simplicidad para extraer informacin en conjuntos extensos y
confusos de datos. Con un mnimo esfuerzo el PCA ofrece una manera de reducir conjuntos
complejos de datos hacia dimensiones menores que revelen estructuras simplificadas (y la mayor
parte del tiempo ocultas) que usualmente residen en estas bajas dimensiones.
Hoy en da las aplicaciones en el procesamiento de la seal frecuentemente involucran la

manipulacin de grandes conjuntos de datos de alta dimensionalidad, esto es conjuntos de datos
generados por mltiples mediciones (a menudo muestreadas con una alta frecuencia). El tamao
de estos conjuntos de datos se encuentra incrementndose constantemente debido a los avances
61
tecnolgicos en sensores y en almacenamiento de datos. Algunos ejemplos actuales en los cuales
los conjuntos de datos de alta dimensionalidad han originado diversas lneas de investigacin
muy activas son:
Audio y voz: miles o cientos de miles de medidas realizadas tpicamente entre cada 10 a
40 ms que describen a la seal.
Imgenes: la tecnologa actual en la captura de imgenes puede medir los niveles de

colores de varios millones de pixeles. En el caso de videos, esta captura es llevada a cabo
en mltiples ocasiones (de manera comn veinticuatro veces) cada segundo.
Genmica y Protemica: los chips de ADN y la espectrometra msica producen una

gran carga de datos que describen las caractersticas de un organismo o enfermedad. Un
tpico conjunto de datos genmico consiste en miles de medidas genticas en chips de
ADN, mientras que los perfiles genticos generados al emplear espectrometra msica
comnmente contienen decenas o centenas de medidas [107].
Texto: con la llegada del internet el procesamiento de texto puede requerir la

manipulacin de billones de documentos, cada uno representado de manera tpica como
un vector que contiene la frecuencia de ocurrencia de miles de palabras existentes en un
diccionario.
Es por ello que a menudo es deseable reducir la dimensionalidad de estos datos altamente
dimensionales de manera previa a su procesamiento, ya que las dimensiones a menudo se
encuentran correlacionadas pudiendo contener de esta manera una gran cantidad de informacin
redundante la cual nicamente generar que la informacin relevante existente en los datos se
encuentre opacada.
Adems, la dimensionalidad original del conjunto de datos altamente dimensionales, puede ser
mayor que el nmero de grados de libertad (nmero categoras independientes en una prueba o
experimento estadstico particular) del sistema o proceso medido. Es por ello que la
dimensionalidad inherente en los datos puede ser menor que la dimensionalidad del espacio
original. Un ejemplo de este concepto se ilustra en la Figura 4-1, la cual muestra a la tetera de
Newpot en varios grados de rotacin sobre una dimensin. Cada imagen se encuentra
62
representada por medio de 1.080.900 (1201 901) valores, en el que cada valor representa el
nivel de la escala de grises de cada pxel. Claramente este conjunto de datos yace en una alta
dimensin, sin embargo los datos esenciales requieren solamente de un grado de libertad (la
dimensin de la rotacin), pudiendo ser representado adecuadamente por medio de una nica
caracterstica, En este caso el objetivo de la reduccin de la dimensionalidad sera hallar esta
caracterstica principal.
Figura 4-1: imgenes de la tetera de Newpot rotada en una dimensin generadas por medio de Matlab
(R2013a). Este modelo matemtico de una tetera ordinaria (tambin conocido como la tetera Utah), fue
creado en 1975 por Martin Newell en la Universidad de Utah y se ha convertido en un objeto de referencia
estndar de tres dimensiones usado en el campo de graficacin por computadora.
4.2 Reduccin de la dimensionalidad en el reconocimiento automtico del

habla
El objetivo de los algoritmos para la reduccin de la dimensionalidad, es obtener una descripcin

reducida de datos multivariables. Este objetivo se enfoca en obtener una representacin
compacta y precisa de los datos en la cual los componentes estadsticamente redundantes se han
reducido o en el mejor de los casos han sido eliminados [108]. Idealmente, estas representaciones
compactas deberan tener una dimensionalidad que corresponda a la dimensionalidad intrnseca
a la naturaleza de los datos (el nmero mnimo de parmetros necesarios para conocer el estado
de un sistema derivado de las propiedades observadas en los datos [109]). Como resultado, la
reduccin en la dimensionalidad facilita (entre otras cosas) la clasificacin, la visualizacin y la
compresin de datos.
Los datos existentes en el mundo real como por ejemplo: las seales de voz, fotografas digitales
o imgenes de resonancia magntica, usualmente poseen una alta dimensionalidad. Para poder
manejar a estos datos reales adecuadamente es necesaria una reduccin de su dimensionalidad
[110].
63
Los mtodos de reduccin de dimensionalidad para el reconocimiento automtico del habla se
han enfocado en 3 objetivos principales: la reduccin de la dimensionalidad de los modelos generados de
voz [111] [112] [113] [114] [115] [116] , la extraccin y construccin de vectores de caractersticas [117] [118]
y recientemente la modelacin de seales de voz en conjunto con tcnicas de modelacin estadstica
[119] [120].
4.3 La maldicin de la dimensionalidad
Una motivacin adicional para la reduccin de datos altamente dimensionales es la llamada

maldicin de la dimensionalidad (trmino usado por primera vez en el campo del Control adaptivo
[121]). La cual explica el hecho en el cual al momento de describir a una funcin u objeto con
cierto grado de precisin, la cantidad de datos requeridos crece de manera exponencial
conjuntamente con la dimensin en donde residen los datos. Este problema se genera debido al
incremento exponencial en el volumen de datos generado por el incremento en el nmero de
dimensiones. Un ejemplo que describe esta situacin [122], es considerar una distribucin
aleatoria de 100 puntos en el intervalo unitario [0, 1] y particionar dicho intervalo en diez celdas
igualmente espaciadas unilongitudinalmente, probablemente todas las celdas contendrn algunos
puntos de la distribucin aleatoria. A continuacin, se considera distribuir 100 puntos ms de
manera similar pero para un espacio bidimensional, bajo un esquema de particin equivalente al
anterior, implica dividir cada dimensin en 10, resultando en 100 celdas bidimensionales, de las
cuales es probable que la gran mayora se encuentren vacas. El nmero de celdas evidentemente
incrementa cuando el nmero de dimensiones lo hace, bajo este esquema para un espacio n-
dimensional se requeriran un total de 10 celdas. Una demostracin visual en este incremento
volumtrico se muestra en la Figura 4-2, la cual muestra a 100 puntos aleatoriamente distribuidos
en espacios dimensionales de una, dos y tres dimensiones.
64
Figura 4-2: Al incrementar la dispersin de los datos, existe un incremento en la dimensionalidad en la
que residen. El volumen del espacio y la dispersin de los datos incrementan en conjunto con la
dimensin, esto ilustra el hecho en el cual la carga de datos requeridos para estimar a una funcin con
cierto grado de precisin incrementa exponencialmente conjuntamente con la dimensin en la que
residen.
Otro ejemplo de la dispersin inherente de los espacios altamente dimensionales [123], es

considerar una hperesfera dimensional de radio , empotrada en un hpercubo dimensional
con lados de longitud 2. Una ilustracin de este ejemplo para una dimensin = 3, se muestra
en la Figura 4-3. El volumen de la esfera est definido por:

2
(, ) =

( + 1)
2
Ecuacin 4-1
Tal que la funcin es:

() = 1
0
Ecuacin 4-2
Mientras que el volumen del hper-cubo se calcula como:
(, ) = (2)
Ecuacin 4-3
La proporcin del volumen de la esfera , con respecto al volumen del cubo , se encuentra
dada por:
65

2
= 0, cuando
2 ( + 1)
2
Ecuacin 4-4
Figura 4-3: Una esfera empotrada dentro de un cubo en un espacio de tres dimensiones.
Puede observarse que a medida en la que la dimensionalidad incrementa, el volumen de la esfera

se vuelve mucho menor que el volumen del cubo. Esto implica que la gran mayora del volumen
espacial se encuentra ocupado por las esquinas del cubo. Este resultado ilustra la dispersin
inherente y la inmensidad de los espacios altamente dimensionales, as como el requerimiento de
ms puntos con informacin para modelar con mayor precisin tales espacios.
Sin embargo, en la prctica al aadir nuevas dimensiones a menudo conlleva a un desempeo

deficiente. Esto principalmente puede ser causado por la maldicin de la dimensionalidad, si el
nmero de muestras de entrenamiento no es suficiente con relacin a la dimensionalidad de los
datos. Esto puede tambin resultar debido a la inclusin de informacin irrelevante inducida por
las nuevas caractersticas.
Para la voz, este problema se presenta al querer representar a la seal con mayor definicin
aumentando la frecuencia de muestro con el objetivo de obtener una mejor inteligibilidad, la
dimensin del espacio en que residirn dichas seales crecern en funcin de dicha frecuencia.
66
4.4 Mtodos para la reduccin de la dimensionalidad
Se han propuesto una gran cantidad de mtodos para reducir la dimensionalidad de un conjunto
de datos, al producir un pequeo nmero de caractersticas que describan sus particularidades
fundamentales y que al mismo tiempo preserven informacin discriminatoria. Estos mtodos
pueden revelar informacin correspondiente a los verdaderos grados de libertad de los sistemas,
adems de ayudar a solventar problemas tales como la maldicin de la dimensionalidad. Las
aplicaciones potenciales de estos mtodos incluyen:
Visualizacin: cuando se trabaja con datos de alta dimensionalidad puede resultar difcil
determinar patrones significativos y descubrir caractersticas clave. Este problema puede
superarse al reducir los datos con unas pocas dimensiones (las ms significativas) y
analizar visualmente los datos para determinar cualquier estructura, patrn, valor atpico
etc.
Compresin: en situaciones en las que el ancho de banda o los recursos de

almacenamiento de datos se encuentran limitados, puede ser deseable reducir el nmero
de medidas requeridas para representar a los datos adecuadamente. Este objetivo puede
alcanzarse por medio de tcnicas de reduccin de la dimensionalidad para conseguir un
balance apropiado entre dimensionalidad de los datos y prdida de informacin.
Reduccin de ruido: los mtodos de reduccin de la dimensionalidad pueden ser

aplicados para conservar informacin importante mientras eliminan informacin
redundante. Como el ruido puede ser considerado informacin redundante, esta
estrategia puede ser empleada para su eliminacin.
Clasificacin: en las tareas de clasificacin es necesario tener un espacio de

caractersticas en el cual las diferentes clases puedan ser separadas de manera eficiente.
Esta separacin puede llevarse a cabo al aplicar mtodos de reduccin de la
dimensionalidad que conserven informacin discriminante mientras eliminen
informacin irrelevante.
Optimizacin y realizacin computacional: la reduccin de la dimensionalidad puede

ayudar a reducir los requerimientos de almacenamiento y la complejidad computacional.
67
Una manera de categorizar a los mtodos de reduccin de la dimensionalidad es dependiendo si
seleccionan las caractersticas o si extraen las caractersticas. Los mtodos de seleccin de
caractersticas se encargan de seleccionar un subconjunto de dimensiones originales que
representen los datos mientras minimizan la prdida de informacin. Estos mtodos ofrecen la
ventaja de producir caractersticas que posean un significado claro adjunto a ellas, por ejemplo
un conjunto particular de pixeles en el caso del procesado de imgenes, o un conjunto distintivo
de bandas frecuenciales en el caso del procesamiento de la voz o de audio. Son tambin
convenientes en trminos de implementaciones prcticas de sistemas, una vez que las
caractersticas requeridas han sido identificadas, solamente es necesario calcular un nuevo
conjunto de caractersticas en lugar de todas las medidas originales.
En contraste, los mtodos de extraccin de caractersticas producen un conjunto de caractersticas

completamente nuevo conformado por una combinacin de las caractersticas originales, en
lugar de simplemente elegir un subconjunto de las caractersticas originales. Estas nuevas
caractersticas se conforman al llevar a cabo algn tipo de operacin, tal como una proyeccin
que mapee las caractersticas originales altamente dimensionales hacia un espacio de menor
dimensin. Las caractersticas resultantes son a menudo conocidas como variables ocultas o
variables latentes. Una ventaja de las tcnicas de extraccin de caractersticas es que no se
encuentran limitadas a una seleccin de las dimensiones existentes.
Los mtodos para la reduccin de la dimensionalidad pueden categorizarse tambin por su

linealidad o su no-linealidad y si se encuentran supervisados o no-supervisados. Los mtodos
supervisados requieren informacin sobre las etiquetas de las clases para cada dato mientras que
los mtodos no-supervisados procesan datos sin etiquetas. Los mtodos no-supervisados son
actualmente los mtodos predominantes a pesar de frecuentemente ser los que consumen ms
tiempo, los ms demandantes, propensos a errores.
Los mtodos lineales se encuentran restringidos a realizar sus transformaciones en datos

altamente dimensionales de manera lineal mientras que los no-lineales intentan solventar este
inconveniente.
4.4.1 Mtodos de reduccin lineales
Los mtodos lineales para la reduccin de la dimensionalidad se limitan a formar combinaciones

lineales de las caractersticas originales altamente dimensionales. Estos mtodos son
68
generalmente eficientes, fciles de implementar, y a menudo proporcionan (aunque con una
potencial prdida) un mapeo bidireccional entre los espacios altamente dimensionales y los
espacios de baja dimensin. Sin embargo, los mtodos lineales estn restringidos a proyectar a
los conjuntos de datos sobre una variedad topolgica (manifold) de manera lineal dentro del espacio
original de caractersticas altamente dimensional. La tcnica por excelencia de estos mtodos es
el anlisis por componentes principales (principal component analysis PCA-) [124], aunque tambin
son muy utilizados el anlisis factorial (factor analysis FA-) [125], el anlisis discriminante lineal
(linear discriminant analysis LDA-) [126], el anlisis por componentes independientes (independent
component analysis ICA-) [127] y el escalamiento multidimensional (multidimensional scaling
MDS-) [128].
4.4.2 Mtodos de reduccin no-lineales
Estos mtodos tratan de mapear datos altamente dimensionales orientando sus esfuerzos para
ello en describir variedades topolgicas (espacios topolgicos localmente homeomrficos sobre
en espacios euclidianos n-dimensionales [129]), mientras mantienen la estructura fundamental
de los datos, es por ello que a menudo tambin se les conoce como mtodos de aprendizaje de
variedades (manifold learning) [130]. Se clasifican de acuerdo al tipo de estructura que intentan
preservar, ya sea si intentan conservar la geometra elemental global de un conjunto de datos tal
y como lo hacen las tcnicas no-lineales como: los isomapas [131] y sus variantes como isomapas
destacados (landmark isomap); o si tratan de hallar la geometra local de los datos, como en las
tcnicas de: mapas-propios laplacianos (laplacian eigenmaps) [132] y las incrustaciones localmente lineales
(locally-linear embedding LLE-) [133].
4.5 Anlisis por componentes principales (PCA)
El anlisis por componentes principales (principal component analysis PCA-) es probablemente la

primera tcnica y la ms utilizada del anlisis multivariable. Fue presentada por primera vez en
1901 por Karl Pearson, y se le atribuye el desarrollo independiente a Harold Hotelling en 1933.
Al igual que muchos mtodos del anlisis multivariable, no fue empleado hasta la llegada de las
computadoras electrnicas, encontrndose hoy en da en virtualmente todos los programas
estadsticos computacionales.
69
La idea principal del uso del anlisis por componentes principales es reducir la dimensionalidad
de un conjunto de datos en el cual existen muchas variables que se encuentran interrelacionadas,
y al mismo tiempo mantener en la medida de lo posible la variacin presente de dicho conjunto.
Esta reduccin se consigue al mapear los datos hacia un nuevo conjunto de variables (las
componentes principales), las cuales se encontrarn sin correlacin (lineal) alguna entre s y
adems se encontrarn ordenadas de manera tal que las primeras componentes contendrn la
mayor parte de la variacin presente de todas las variables originales (Figura 4-4).
El clculo de las componentes principales se reduce a la solucin de un problema valor-

propio/vector-propio de una matriz simtrica semi-definida positiva (una matriz hermtica
cuadrada igual a su transpuesta conjugada, con valores-propios positivos y determinantes
positivos).
Por lo tanto definir y calcular las componentes principales es sencillo, aunque dependiendo de
la aplicacin existen numerosas variantes y derivaciones, por ejemplo: en el campo del
procesamiento de seales el PCA es conocido como transformada Karhunen-Love, en el control de
calidad multivariable transformada Hotelling, en la ingeniera mecnica descomposicin ortogonal propia,
en el campo de ruido y vibracin descomposicin espectral, entre otras reas diversas.
Figura 4-4: Las componentes principales de un conjunto de datos bidimensional. La componente de

mayor tamao representa la primera componente principal, la de menor tamao la segunda componente
principal. El PCA se define matemticamente como una transformacin lineal ortogonal que transforma
los datos hacia un nuevo sistema de coordenadas (desde el punto de vista euclidiano), tales que la mayor
varianza (la mayor variabilidad) de cualquier proyeccin de datos, reside en la primer coordenada (primera
componente principal), la segunda mayor varianza en la segunda coordenada, y as sucesivamente.
70
Se considera a la matriz de datos = [x1 , x2 , , x ] con media muestral igual a cero (despus de
restar la media de la distribucin en el conjunto de datos), donde cada una de las diferentes
columnas representa una repeticin diferente del experimento, y cada una de las -filas
simboliza los resultados de algn tipo de dato en particular. El PCA intenta hallar una
combinacin lineal de estas dimensiones resultando en una nueva matriz (Ecuacin 4-5) de
tamao , en donde .
=
Ecuacin 4-5
Dada una matriz de covarianzas:

1
=
1
Ecuacin 4-6
La transformacin lineal de la matriz se compone de los vectores-propios de ,

compuesto por los valores propios de mayor valor:
= [1 , 2 , , ]
Ecuacin 4-7
En donde el vector-propio 1 corresponde al mayor valor-propio, 2 al segundo ms grande y

as sucesivamente. Esta definicin se deriva al considerar el caso en que la primer componente
principal 1 (la cual es necesaria para maximizar la varianza) sea:
(1 ) = 1 1
Ecuacin 4-8
Este problema de maximizacin puede ser resuelto al introducir un multiplicador de Lagrange

1 , y la restriccin 1 1 = 1. Esto conlleva al Lagrangiano:
(1 , 1 ) = 1 1 1 (1 1 1)
Ecuacin 4-9
Al derivar la Ecuacin 4-9 con respecto a 1 conlleva a:

= 1 1 1 = 0
1
Ecuacin 4-10
71
Y finalmente se obtiene que:
1 = 1 1
Ecuacin 4-11
Por lo tanto 1 es un valor-propio de y 1 su vector-propio correspondiente. Usando la

Ecuacin 4-11, se puede demostrar que la cantidad que requiere ser maximizada (Ecuacin 4-8)
es:
1 1 = 1 1 1
= 1 1 1
= 1
Ecuacin 4-12
Por lo que para la primera componente principal (la cual maximiza la varianza de los datos
proyectados), 1 debe ser igual al mayor valor-propio (siendo 1 el correspondiente vector-
propio). De manera similar para cada componente principal sucesiva , puede demostrarse la
igualdad al vector-propio correspondiente del -simo valor-propio que le corresponde.
La correspondencia entre los valores-propios y la varianza en el conjunto de datos puede

explotarse de diferentes maneras. Por ejemplo, todos los valores-propios pueden graficarse y as
comparar su magnitud relativa. Si existieran pocos valores-propios muy grandes seguidos a
continuacin de muchos valores-propios relativamente pequeos, significara que nicamente
los vectores-propios correspondientes a estos valores-propios grandes son necesarios para
representar linealmente la mayor distribucin de la varianza de los datos en el PCA.
De igual manera, se pueden usar a los valores-propios para medir un fragmento de la varianza
conservada al usar un nmero dado de componentes principales. La suma de todos los valores-
propios equivale a la varianza total de los datos, as al comparar esta suma con las componentes
principales elegidas, se revelar la fraccin de la varianza conservada, como se muestra en la
Ecuacin 4-13:
=1
=1
Ecuacin 4-13
72
4.5.1 Clculo de las componentes principales empleando el mtodo de la
covarianza
El objetivo de este mtodo es transformar un conjunto de datos de dimensin hacia un

conjunto de datos alternativo de dimensin . De manera equivalente la matriz que se
intenta hallar ser la transformada de Karhunen- Love (KLT-) de la matriz .
= {}
Ecuacin 4-14
1. Organizar el conjunto de datos. Suponiendo que se han recolectado datos de un conjunto

de observaciones de variables, y se requiere reducir los datos de manera que cada
observacin pueda ser descrita por variables tal que . Suponiendo adems que los
datos se han organizado como un conjunto de datos de -vectores 1 , 2 , , con cada
representado por una sola observacin agrupada de las variables:
i. Escribir a 1 , 2 , , como vectores columna, tal que cada posea renglones.
ii. Ordenar a los vectores columna en una matriz nica de dimensiones .
2. Calcular la media muestral.

i. Hallar la media muestral a lo largo de cada dimensin = 1, , .
ii. Colocar los valores de las medias en un vector de medias muestrales de dimensin
1 como se describe en la Ecuacin 4-15:

1
[i] = [, ]

=1
Ecuacin 4-15.
3. Calcular las desviaciones de la media. La eliminacin de la media es una parte

fundamental de la solucin que conlleva a encontrar las bases de los componentes
principales que minimicen al error cuadrtico medio en la aproximacin de los datos. Es
por ello que ser requiere centrar los datos como se describe a continuacin:
i. Restar el vector (que contiene a la media muestral) a cada columna de la matriz de

datos .
73
ii. Almacenar los datos con la media substrada en una matriz de tamao .
(Donde es un vector fila con todos sus elementos iguales a uno)
=
Ecuacin 4-16.
4. Hallar la matriz de covarianzas.
i. Calcular la matriz de covarianzas muestrales a partir del producto externo del

compuesto conjugado de la matriz con ella misma. nota: se emplea 1 en lugar
de para hacer uso de la correccin de Bessel (corregir la tendencia en la estimacin de la
varianza de los datos).
1
= .
1
Ecuacin 4-17.
5. Encontrar los eigenvectores y los eigenvalores a partir de la matriz de

covarianzas.
i. Calcular la matriz de eigenvectores que diagonalice a la matriz de covarianzas

(Ecuacin 4-18). Donde es la matriz diagonal de eigenvalores de (este paso del
proceso tpicamente requerir el uso de un algoritmo que pueda ser ejecutado por una
computadora para calcular los eigenvectores y los eigenvalores).
1 =
Ecuacin 4-18.
ii. La matriz tomar la forma de una matriz diagonal tal que [, ] = para
= = , donde es el -simo eigenvalor de matriz de covarianzas y [, ] =
0 cuando .
iii. La matriz (tambin de dimensin ), contiene vectores columna de longitud

, los cuales representan los eigenvectores de la matriz de covarianzas .
iv. Los valores y vectores propios estn ordenados y asociados de forma tal que el -simo
eigenvalor corresponde al -simo eigenvector.
6. Re-ordenar los eigenvalores y eigenvectores.
i. Ordenar las columnas de la matriz de vectores-propios y de la matriz de eigenvalores

en orden decreciente de los eigenvalores.
ii. Asegurar que se mantiene la asociacin correcta entre las columnas de ambas matrices.
74
7. Calcular el contenido de la energa acumulada para cada eigenvector.
i. Los eigenvalores representan la distribucin de la energa de la fuente de datos a lo

largo de cada eigenvector, en donde los eigenvectores forman una base para los datos.
El contenido de energa acumulada para el -simo eigenvector es la suma del
contenido de energa en todos los eigenvalores 1, , y = 1, , .

[] = [, ]

Ecuacin 4-19
8. Elegir un subconjunto de eigenvectores para formar una base vectorial.
i. Conservar las primeras -columnas de la matriz que generarn a la matriz de

tamao , para = 1, , y = 1, .
[, ] = [, ] 1
Ecuacin 4-20
ii. Usar el vector como una gua para la eleccin de un valor apropiado para . El
objetivo es que posea un valor muy pequeo en la medida que sea posible conseguir
un valor razonablemente alto de (porcentualmente).Por ejemplo, si se requiere elegir
a de forma que la energa acumulada supere cierto nivel de umbral (por ejemplo
90%). En este caso la eleccin de menor valor para ser de forma tal que cumpla con:
[]
0.9
[]
Ecuacin 4-21
9. Convertir los datos originales en unidades tipificadas (standard scores).

Opcional.
i. Crear un vector de desviaciones estndar muestrales de tamao 1 a partir de la

raz cuadrada de cada elemento a lo largo de la diagonal principal de la matriz de
covarianzas diagonalizada. Las operaciones de escalamiento no estn definidas en la
transformada , por lo tanto se debe escalar las varianzas del vector despus de
correlacionarse que es la matriz diagonalizada.
= {[]} = {[, ]} = 1, ,
Ecuacin 4-22
ii. Calcular la matriz de unidades tipificadas de tamao al dividir elemento por

elemento (mientras este paso es til para varias aplicaciones ya que normaliza al
conjunto de datos en funcin de su varianza, no es una parte fundamental del mtodo
PCA/ ):
75

=
.
Ecuacin 4-23
10. Proyectar las unidades tipificadas de los datos hacia una nueva base
i. Los vectores proyectados sern las columnas de la matriz:
= = {}
Ecuacin 4-24
ii. Las columnas de la matriz representan la transformacin de Karhunen- Love (KLT)

de las columnas de la matriz .
4.5.2 Anlisis por componentes principales en el rea del habla
Lo sistemas de reconocimiento automtico del habla actualmente han alcanzado un gran xito y
una gran difusin, una prueba de ello es la gran variedad adems de la alta calidad de los paquetes
de programas para computadora comerciales existentes hoy en da. Parte de este xito puede ser
atribuido a la extraccin de caractersticas en el habla, la cual desempea un papel importante
globalmente en dichos sistemas.
Aunque estas tcnicas de extraccin de caractersticas, con el tiempo han sido optimizadas, la
mayora de ellas se basan en un mapeo no-lineal de la seal de voz hacia un nuevo espacio, el
cual potencialmente puede generar nuevas caractersticas que puedan discriminar de mejor
manera a las clases que requieran ser analizadas.
Valindose de esta potencialidad, el anlisis por componentes principales (PCA) ha sido aplicado
a las seales de voz con diferentes objetivos y variantes del mtodo original, algunos ejemplo de
ello son: eliminacin de ruido de fondo [134] [135] [136], extraccin de caractersticas [137] [138] [139]
[140] [141] [142], anlisis de las caractersticas Extradas [143] y la reduccin en la dimensionalidad de las
caractersticas Extradas [144] [145].
4.6 El mtodo de las Eigenfaces
Uno de los campos donde ms xito ha tenido el PCA es en el rea de reconocimiento facial del
campo de la Visin artificial. A principios de la dcada de 1990 Turk y Pentland [146] presentaron
un mtodo (inspirados por Kirby y Sirovich [147]) para la deteccin e identificacin de rostros
76
humanos basado en el PCA llamndolo eigenfaces. Este mtodo estadstico de reconocimiento de
rostros se fundamenta en un mtodo basado en la apariencia que busca capturar la variacin en
una coleccin de imgenes de rostros diferentes, y usar dicha variacin para codificar y comparar
estos rostros de una manera holstica (anlisis basado en un conjunto de datos y no en partes
individuales).
De manera especfica las eigenfaces son las componentes principales de una distribucin de
rostros, o equivalentemente los eigenvectores de una matriz de covarianzas del conjunto de
imgenes, que representa a las caras de esta manera a travs de un nmero reducido de coeficientes
(en lugar de un conjunto grande de pxeles), al proyectar dichos rostros en el espacio ortogonal
obtenido por el PCA [148], cualquier rostro en el espacio de entrenamiento puede ser sintetizado
por una combinacin lineal de las eigenfaces que conforman al espacio ortogonal (Figura 4-5). Las
eigenfaces generadas por el mtodo tendrn una apariencia con reas claras y obscuras que se
encuentran ordenadas por un patrn especfico, siendo este la manera en que las diferentes
caractersticas en una cara se particularizan para poder ser evaluadas y calificadas. En el mtodo
existir un patrn (una eigenface) para evaluar la simetra por ejemplo de algn estilo de peinado
o de vello facial, o para evaluar el tamao de la nariz o de la boca, mientras otras eigenfaces tendrn
patrones que sern ms complejos de identificar, y en este caso las imgenes de estas eigenfaces
difcilmente se parecern a una cara humana.
El mtodo de las eigenfaces es considerado ampliamente como la primera tecnologa de

reconocimiento facial contempornea, y ha servido como base para productos comerciales de
ltima generacin en reconocimiento facial. Desde su desarrollo inicial y publicacin, han
existido muchas ampliaciones del mtodo original y con ello muchos nuevos desarrollos
implementados en los sistemas de reconocimiento faciales. Las eigenfaces se consideran
actualmente como el mtodo de comparacin por excelencia para demostrar un mnimo de
desempeo esperado en un sistema de reconocimiento facial. Esta tcnica se ha extrapolado
tambin hacia reas como: la grafologa, la lectura labial, el reconocimiento del habla, el lenguaje a seas y
el anlisis de imgenes mdicas.
77
Figura 4-5: Una cara existente en el conjunto de entrenamiento se reconstruye por medio de una
combinacin lineal al realizar una suma ponderada de todas (segn la potencia de representacin que se
requiera) las caras de la base ortogonal y finalmente sumar la cara promedio del conjunto de
entrenamiento. Aunque las eigenfaces se ordenan en funcin de la variacin que aportan al conjunto de
entrenamiento, su ponderacin vara en las reconstrucciones de los elementos.
4.6.1 Implementacin prctica de las Eigenfaces
Una imagen de una cara (, ) puede verse como un arreglo de valores de intensidades
bidimensional, de tamao . Una imagen con un tamao de por ejemplo 256 256
pxeles, define a un vector de dimensin 65,536 o de manera equivalente a un punto en un
espacio dimensional 65,536. Por lo tanto, un conjunto de imgenes se podra mapear (siguiendo
este razonamiento) hacia una coleccin de puntos en este este espacio altamente dimensional.
Un conjunto de imgenes de caras al ser parecidas en su configuracin tendrn una distribucin

aleatoria en comn a lo largo de este espacio, y por ende este espacio puede ser definido por un
78
sub-espacio de menor dimensin. La idea fundamental de la tcnica detrs de una
transformacin de Karhunen- Love (o anlisis de componentes principales), es encontrar a los
vectores que mejor describen a la distribucin que contengan las imgenes de las caras en el
espacio entero de imgenes. Estos vectores definirn al sub-espacio de las imgenes de caras, el
cual ser llamado como espacio de caras o eigenespacio. Cada vector de tamao
describir a una imagen, y ser una combinacin lineal de las imgenes de caras originales.
Debido a que estos vectores sern los vectores-propios de la matriz de covarianzas
correspondiente al conjunto original de imgenes de rostros, y debido a que su apariencia es
similar a la de un rostro, son conocidas como eigenfaces. El mtodo de las eigenfaces es una
variacin de una transformacin de Karhunen- Love, y se define a continuacin:
i. Organizar al conjunto de entrenamiento. Recolectar un conjunto de entrenamiento

con imgenes de rostros 1 , 2 , , .
ii. Representar a cada imagen como un sper-vector. En este paso cada imagen de
tamao se transformar en un vector columna o sper-vector al concatenar sus
filas, generando a la matriz: = [1 , 2 , , ]
iii. Calcular la cara promedio. Calcular la media muestral en cada dimensin (rengln) del
conjunto :

1
=

=1
Ecuacin 4-25
iv. Centrar los datos. Remover la media muestral en cada una de los rostros del conjunto
sustrayendo la cara promedio = , y generar la matriz :
= [1 , 2 , , ]
Ecuacin 4-26
v. Calcular la matriz de covarianzas. De tamao ( ) renglones y columnas:

1
= =

=1
Ecuacin 4-27
79
vi. Calcular los eigenvectores de C. Por medio de este paso se hallarn un conjunto
de vectores ortonormales y su valor-propio asociado , los cuales describirn
ptimamente a la distribucin de datos (las caras). Sin embargo, como la matriz de
covarianzas posee un tamao de ( ) esto generar una tarea computacional
prcticamente imposible de resolver para una imagen de tamao estndar. Por lo que se
requiere de un mtodo computacionalmente realizable. Para ello:
a) Se considera a la matriz en lugar de la matriz , ya que puede tener

hasta ( ) vectores y valores-propios, mientras que solamente hasta
vectores y eigenvalores, estos vectores y eigenvalores corresponden a los vectores
y eigenvalores de mayor valor de . Esto es posible gracias a que estas matrices
guardan una relacin con sus eigenvectores (descomposicin de valores singulares [149]),
ya que si se considera a los eigenvectores de tales que:
=
Ecuacin 4-28
Y se pre-multiplica a ambos lados de la Ecuacin 4-28 por , se tiene que:
Ecuacin 4-29
Se puede observar que son los eigenvectores de =
b) Calcular los -mejores eigenvectores de (sin olvidar multiplicar a los

eigenvectores resultantes por la matriz A, esto es = ). Es importante normalizar
a los eigenvalores , de manera tal que su norma euclidiana sea igual a uno: = 1.
vii. Conservar los mejores B-eigenvectores. Estos corresponden a los eigenvalores de

mayor magnitud, y generan una combinacin lineal con las caras del conjunto de
entrenamiento , y forman a las llamadas eigenfaces:

= = 1,2, ,
=1
Ecuacin 4-30
Por medio de este anlisis los clculos se reducen enormemente, del orden del nmero de pxeles
de las imgenes ( ), a un orden conformado por el nmero de imgenes del conjunto de
entrenamiento (). En la prctica el conjunto de imgenes de entrenamiento ser relativamente
80
pequeo ( ( )), y los clculos sern muy manejables. Los eigenvalores asociados
permitirn clasificar a los eigenvalores de acuerdo a su utilidad para la caracterizacin de la
variacin entre las imgenes de los rostros.
4.6.2 Representacin de rostros en el espacio de las caras
La imgenes de la eigenfaces calculadas al utilizar los eigenvectores de la matriz de covarianzas

generan un espacio vectorial (span), el cual funciona como una base para describir a cualquier
imagen de los rostros existentes en el conjunto de entrenamiento, por medio de

= ( ) +

=1
Ecuacin 4-31
Pero adems, este espacio vectorial generado posee la utilidad de mapear imgenes de rostros
que no existan en el conjunto de entrenamiento al proyectarlas al espacio de las caras
(eigenespacio). Esta transformacin se realiza empleando las componentes principales
(eigenfaces) y utilizando para ello una sencilla operacin:
= ( ) = 1,2, ,
Ecuacin 4-32
Estas ponderaciones forman a un vector = [1 , 2 , , ] que describe las contribuciones

que cada eigenface aporta en la representacin de estas nuevas imgenes de rostros, de esta
manera las eigenfaces son tratadas como una base vectorial.
Para expresar numricamente la calidad de ya sea la representacin de caras nuevas proyectadas

en el espacio de las caras, o caras reconstruidas y existentes en el espacio de entrenamiento, es
posible utilizar un coeficiente de correlacin estadstico para encontrar la similitud entre las
imgenes originales (, ) y las imgenes (, ) generadas:

(, ) =

Ecuacin 4-33
O por medio de un error de disimilitud de representacin normalizado [150], entre las imgenes
originales (, ) y las imgenes (, ) generadas:
81
2

=( )

Ecuacin 4-34
4.6.3 El mtodo de las eigenfaces aplicado a los sistemas de reconocimiento

automtico del habla. Las Eigenvoices
Existen analogas ocultas entre estas dos reas de investigacin (el reconocimiento facial y el
reconocimiento del habla). Las representaciones estandarizadas de los rostros y las voces,
errneamente sugieren que poseen un alto nmero de grados de libertad, sin embargo los rostros
humanos poseen nicamente dos ojos, una nariz y una boca en lugares predecibles, tales
restricciones aseguran la posibilidad que las imgenes de los rostros ocupen una pequea
fraccin en todo el espacio posible que las imgenes de dos dimensiones pueden generar.
De manera similar, las restricciones fsicas y culturales para las realizaciones acsticas para la voz,
implican los verdaderos grados de libertad para los sistemas de reconocimiento automtico del
habla.
Los investigadores de reconocimiento facial han adoptado tcnicas de representacin que

implican explcitamente una inherencia dimensionalmente reducida de tales representaciones,
optimizando enormemente el desempeo de estos sistemas y al mismo tiempo reduciendo los
costos computacionales. Por lo que tambin, una de las tendencias actuales en el campo de los
sistemas de reconocimiento automtico del habla ha sido explotar esta supuesta dimensionalidad
reducida inherente de las seales del habla, por medio de estas tcnicas de reduccin de la
dimensionalidad.
Existen una gran cantidad de ejemplos de familias de patrones en las que es posible obtener una
caracterizacin sistemtica til. A menudo la motivacin inicial puede no ser ms que una nocin
intuitiva en la que alguna de estas familias posee una dimensionalidad reducida, esto de alguna
manera es similar a decir que cualquier miembro de esta familia puede ser representado por un
pequeo nmero de parmetros. Los posibles candidatos para estas familias de patrones son
abundantes tanto en la naturaleza como en la literatura, siendo algunos de ellos: los flujos
turbulentos de aire, el habla, y los rostros humanos [147].
El mtodo de las eigenvoices se introdujo al campo del reconocimiento automtico del habla
inspirado por el mtodo de las eigenfaces del campo del reconocimiento facial [151]. La hiptesis
82
fundamental del uso de las eigenfaces (usado en el campo de ASR-SD), es que todas las voces
representadas en un espacio altamente dimensional podran estar representadas en un espacio
dimensionalmente menor [152], demostrando ser bastante efectivo para el reconocimiento de
hablantes [153] [120] [154] [155] [156] [157] [158] [159].
El mtodo convencional de las eigenvoices para el reconocimiento de hablantes, involucra tres

pasos: (1) establecer un espacio de voces (eigenespacio) con algunos modelos dependientes de
hablantes para generar un conjunto de entrenamiento para el PCA, (2) determinar los
coeficientes de un grupo de eigenvoices para cada hablante de prueba y finalmente (3) obtener
los modelos de las personas de inters para poder crear combinaciones lineal con los
eigenvectores en el espacio de las voces.
83
84
Captulo 5 IMPLEMENTACIN DEL SISTEMA
PROPUESTO
En este captulo se presenta la metodologa propuesta para conseguir una reduccin de la

dimensionalidad a las seales de voz a travs de la tcnica de las eigenfaces, comenzando con
explicar en trminos generales el objetivo propuesto de este enfoque. A continuacin se
describen detalladamente las partes que constituyen al sistema propuesto, las cuales incluyen las
etapas de: pre-procesamiento de las seales de voz, extraccin de caractersticas, reduccin de la
dimensionalidad mediante las eigenfaces y finalmente los procedimientos de evaluacin.
5.1 Mtodo propuesto
Como se expuso ms atrs (Pgina 12), el inters de esta tesis es explotar la hipottica estructura
de baja dimensionalidad presente en el habla. Esta hiptesis se encuentra motivada por los
estudios hechos anteriormente en el rea de la reduccin de la dimensionalidad realizadas sobre
seales de voz (Captulo 4.2 y 4.6.3), as como los estudios realizados de estas tcnicas en el rea
del reconocimiento automtico facial (Captulo 4.6).
El procedimiento propuesto en este trabajo implica la generacin de un espacio altamente

dimensional creado a partir de una coleccin de imgenes digitales (, ), en donde cada una
de estas imgenes es capaz de representar las caractersticas propias de las seales de voz. Estas
imgenes snicas son producidas a partir de la eleccin de alguna tcnica de extraccin de
caractersticas, permitiendo que de esta manera y en conjunto con el mtodo de las eigenfaces
sea posible reducir la alta dimensionalidad de este espacio (Figura 5-1). Para su validacin se
evala el desempeo de este procedimiento construyendo un banco de pruebas para este
propsito y realizando experimentos con un corpus de voz natural que contiene variaciones
prosdicas y fonticas presentes en el mundo real.
85
Seal de Voz
Pre-
Procesamiento
Extractor de caractersticas
Anlisis en Tiempo
Magnitud Coeficientes de
Espectrograma Corto de la Seal
Promedio Prediccin Lineal
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-1: Mtodo propuesto para aplicar reduccin de la dimensionalidad en este trabajo de tesis.
El problema principal para la evaluacin de la eficacia del mtodo propuesto por este trabajo
radica en: (i) comprobar la utilidad de los mtodos de extraccin de caractersticas, (ii) comprobar
el mtodo de reduccin de la dimensionalidad propuesto y finalmente (iii) comprobar su posible
funcionamiento en conjunto. Para poder evaluar la eficacia del mtodo se proponen dos
estrategias diferentes:
1. Visualizacin. Utilizando los diferentes mtodos de extraccin de caractersticas se

propone inspeccionar visualmente por una persona las posibles particularidades que
permitan identificar a las diferentes palabras.
2. Clasificacin. Al realizar experimentos de identificacin y clasificacin de palabras, es

posible producir una evaluacin ms objetiva y con mayor rigor de la informacin
contenida en el conjunto de caractersticas de palabras de baja dimensionalidad. El
objetivo de estos experimentos es evaluar la manera en la que el mtodo propuesto es
capaz de separar y agrupar las diferentes palabras en los diferentes espacios de
caractersticas generados.
86
El mtodo propuesto transforma a la seal de voz hacia una representacin que ayude a que las
etapas posteriores se desempeen de manera ms eficiente. Para ello, este trabajo hace uso de un
filtro de pre-nfasis, una etapa de deteccin de actividad de la voz, una etapa de segmentacin de cuadros de la
seal de voz (si las caractersticas lo requieren) y finalmente un proceso de normalizacin y alineacin
temporal.
Posteriormente se aplica un transformacin sobre las seales pre-procesadas de voz, partiendo del
dominio y codominio en el que originalmente residen (tiempo-amplitud), hacia una nueva
representacin, valindose del uso de imgenes digitales mediante la generacin de imgenes sonoras
de las seales de voz. Con el objetivo de hacer sobresalir las caractersticas particulares que radican
en dichas seales, se utilizan algunos esquemas que el estado del arte en el procesamiento del habla
emplea, de manera especfica se hace uso de: la codificacin por prediccin lineal, la magnitud promedio de
la seal, la autocorrelacin, la transformada discreta de Fourier en tiempo corto, y se propone un nuevo mtodo
denominado anlisis en tiempo corto de la seal fundamental.
En la etapa siguiente (parte medular de esta investigacin), se reduce la dimensionalidad del espacio
generado por el conjunto de caractersticas extrado de las seales de voz plasmadas ahora en
imgenes. Este trabajo hace uso del anlisis por componentes principales (principal component analysis
PCA-) a travs de la tcnica de las eigenfaces, la cual es un referente en el rea del reconocimiento
facial. A travs de esta tcnica se genera un espacio que contiene a los diferentes patrones de las
voces que el sistema podr clasificar, entrenndolo de manera previa a la etapa de reconocimiento
para el que fue concebido.
A continuacin (toda vez que el sistema se encuentra entrenado), se inicia el proceso de

reconocimiento automtico, haciendo ingresar a las palabras que sern identificadas. Para ello se
hace uso de la etapa de pre-procesamiento de la seal con el propsito de adecuar a las seales.
Despus se genera una imagen sonora de la palabra a reconocer utilizando la etapa generada
extraccin de caractersticas, para luego entonces proyectar dicha imagen en el espacio generado
por la etapa de reduccin de la dimensionalidad. Es as que este procedimiento posibilita la
utilizacin de algn mtodo de clasificacin que catalogue a la palabra a reconocer. El clasificador
empleado para este trabajo se basa en la tcnica de los k-vecinos ms cercanos (k-nearest neighbors
k-NN) que opera sobre las ponderaciones obtenidas a travs de la proyeccin de la seal de voz
(a reconocer) y utilizando para ello la distancia euclidiana.
87
5.2 Implementacin de la etapa de pre-procesamiento
El paso inicial del mtodo propuesto (ver Figura 5-2) requiere la disponibilidad de un conjunto
particular de voces. Para ello las voces que se procesan utilizando este mtodo pasan por una
etapa de pre-procesamiento (ver Captulo 3.2: Pre-procesamiento de la seal, pgina 38).
Seal de Voz
Pre-
Procesamiento
Anlisis en Tiempo
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-2: La etapa de pre-procesamiento de la seal es el primer paso del sistema propuesto en este
trabajo. Este bloque a su vez est compuesto por: un filtro de pre-nfasis, una etapa de deteccin de
actividad de la voz, un bloque anlisis de tiempo corto y enventanamiento de la seal para finalmente
pasar por una etapa de normalizacin y alineamiento.
5.2.1 Implementacin del filtro de pre-nfasis
En el subcaptulo 3.2.1: Filtro de pre-nfasis (pgina 40), se discuti acerca de la necesidad y la

forma en que acta un filtro de pre-nfasis (reducir las contribuciones espectrales de la radiacin
de los labios, la laringe y el micrfono de grabacin y reducir los errores numricos al utilizar
una FFT), el objetivo de esta implementar esta etapa es que el sistema sea ms robusto al ingresar
88
seales de voz con mayor calidad acstica. Para el caso de este trabajo se emplea un filtro digital
de primer orden con funcin de sistema () = 1 1 , y con = 0.95.
Con esta funcin de sistema, se analiz la estabilidad de dicho filtro, como resultado de este
anlisis se concluy que el filtro no contiene inestabilidades y su implementacin es factible (ver
Figura 5-3).
1 Pole-Zero Map
0.5/T
0.6/T 0.4/T
0.8 0.7/T 0.1 0.3/T

0.2
0.6 0.3
0.8/T 0.4 0.2/T
0.5
0.4 0.6
0.7
0.9/T 0.1/T
0.8
0.2
0.9
Imaginary Axis
1/T
0
1/T
-0.2
0.9/T 0.1/T
-0.4
0.8/T 0.2/T
-0.6
-0.8 0.7/T 0.3/T
0.6/T 0.4/T
0.5/T
-1
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Real Axis
Figura 5-3: Anlisis de estabilidad grfica para el filtro de pre-nfasis empleando el Plano-Z. Se observa
que el polo del filtro se encuentra dentro del crculo de radio unitario del Plano-Z. Por lo que el sistema
es Absolutamente Estable con los parmetros propuestos = 0.95, y = 41.6ms.
Adems se estudi la respuesta en frecuencia de este filtro con el propsito de observar que las
frecuencias de las seales de voz (80 6000 Hz) sean mejoradas (Figura 5-4).
Bode Diagram
10
0
Magnitude (dB)
-5
-10
-15
-20
-25
-30
90
60
Phase (deg)
30
0
1 2 3 4 5
10 10 10 10 10
Frequency (rad/s)
Figura 5-4: Respuesta en frecuencia del filtro de pre-nfasis propuesto. Se observa que las seales
existentes a partir de 102 rad/s (159 Hz), que son las de inters para la discriminacin de la voz son
realzadas o enfatizadas. Se observa que el filtro de pre-nfasis realza las seales sern realzadas con una
pendiente aproximada de 6 dB/dec.
89
Finalmente (como se observa en la Figura 5-5), se utilizaron seales de voz natural para
comprobar el funcionamiento del filtro diseado, obtenindose resultados satisfactorios y
validando a este subsistema.
Seal de voz
20
Amplitud (dB)
-20
-40
-60
0 2000 4000 6000 8000 10000 12000

Frecuencia (Hertz)
Seal de voz Pre-enfatizada

20
0
Amplitud (dB)
-20
-40
-60
0 2000 4000 6000 8000 10000 12000

Frecuencia (Hertz)
Figura 5-5: Seal de voz antes de ser pre-enfatizada (arriba), seal de voz despus de ser pre-enfatizada
(abajo). En esta imagen se observa el efecto del filtro de pre-nfasis, las frecuencias ms altas son
acencutadas con respecto a las frecuencias ms bajas.
5.2.2 Implementacin de la etapa de supresin de silencios
Posterior al filtro de pre-nfasis y debido a la necesidad analizada en el subcaptulo 3.2.3:

Supresin de silencios (pgina 41), se implement una etapa de supresin de silencios o detector de
actividad de voz (VAD), capaz de distinguir las regiones de sonidos vocalizados de los sonidos no-
vocalizados en presencia de ruido de fondo. Este algoritmo VAD es capaz de llevar a cabo esta
diferenciacin fundamentando su funcionamiento en la magnitud promedio (definida en la
Ecuacin 5-1) de las seales de voz como caracterstica discriminatoria, con el propsito de
disminuir la carga de procesamiento al sistema debido a la remocin de porciones que no
contienen informacin relevante para la diferenciacin de palabras.
=0
1
= |()|( ).
0
=0
Ecuacin 5-1
90
Utilizando esta medida, se obtiene una envolvente de la seal (ver Figura 5-6), el algoritmo
calcula de manera automtica (en funcin de: (a) un valor consigna de tiempo para evaluar el
nivel de ruido de fondo y (b) un valor de consigna de umbral para las seales de voz), las zonas
de la seal en donde existe actividad sonora producida por voz, de las zonas donde no existe.
Umbral para
discriminar
zonas
vocalizadas
Tiempo para
evaluar ruido
de fondo
Figura 5-6: Seal de voz y su magnitud promedio, utilizada para detectar las zonas vocalizadas de las
seales a procesar.
Seal de Voz a la entrada del VAD
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
0 0.2 0.4 0.6 0.8 1
Tiempo (s)
Seal de Voz procesada
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Tiempo (s)
Figura 5-7: Seales de voz antes (arriba) y despus (abajo) de la deteccin de zonas vocalizadas. En la
figura se utilizaron los primeros 20 ms de las seales para calcular los niveles de ruido de fondo y un
umbral del 15% del rango de la seal arriba del ruido de fondo para discriminar las zonas vocalizadas.
Adems se observa la reduccin de la escala temporal a la salida de este algoritmo.
91
En la Figura 5-7, se muestra el resultado del desempeo del algoritmo implementado (clculo de
la magnitud promedio y bsqueda del principio y final de las seales de voz), es importante
observar que el algoritmo entrega la regin total donde existen seales vocalizadas, la seal final
puede contener tanto sonidos vocalizados como no-vocalizados.
5.2.3 Implementacin del algoritmo de anlisis en tiempo corto
A la salida de la etapa de deteccin de actividad de voz y en base a los requisitos estudiados en

el subcaptulo 3.2.4: Anlisis en tiempo corto (pgina 43), se dise e implement un procesado
de anlisis en tiempo corto en conjunto con una etapa de segmentacin de cuadros de voz, para
poder obtener una serie de segmentos de 20ms (utilizando una ventana deslizante) traslapados
o superpuestos entre s con el fin de alcanzar estacionaridad estadstica en cada uno de los
cuadros (en base a las caractersticas fisiolgicas del sistema fonador) y poder obtener de esta
manera un mejor desempeo en la etapa de extraccin de caractersticas.
En el caso de este trabajo, se muestra en la Figura 3-4 el proceso de segmentacin de cuadros el

cual es un proceso previo a los anlisis de tiempo corto que se realizarn posteriormente:
Figura 5-8: Segmentacin de una seal de voz dividida en cuadros de 20ms. Cada cuadro comparte su
primera parte con el cuadro previo y su ltima parte con el cuadro siguiente (siendo parametrizables el
tiempo de traslape en el algoritmo implementado). En esta figura se muestra en la izquierda un cuadro
de voz de 20ms con una frecuencia de muestreo de 22kHz, a la derecha se muestran sus dos primeros
formantes en el espacio frecuencial.
92
5.2.4 Implementacin de la etapa de enventanamiento de los cuadros de voz
A la salida del algoritmo de anlisis en tiempo corto y como se analiz en el subcaptulo 3.2.5:
Enventanamiento de los cuadros de una seal de voz (pgina 44), se dise e implement una
etapa de enventanamiento de los cuadros de seales de voz para trabajar especficamente con las
tcnicas de espectrogramas (tiempo-frecuencia) y coeficientes de prediccin lineal de la etapa de extraccin
de caractersticas, debido a la necesidad de mitigar el fenmeno de Gibbs causante de fugas
espectrales en el dominio frecuencial. El tipo de ventana usado en este trabajo es la ventana
comn Hamming. Al utilizar esta etapa en el dominio temporal se reducen las discontinuidades
abruptas en los bordes de las seales producto del anlisis en tiempo corto, en el espacio
frecuencial se reduce el derrame espectral obteniendo una mejor definicin en las frecuencias
formantes de los cuadros de voz, como se muestra en la Figura 5-9.
Figura 5-9: Seal de voz enventanda (izquierda), y su representacin espectral (derecha). En

comparacin con la Figura 5-8, se ha obtenido una mejor definicin en los formantes frecuenciales de
los cuadros de voz gracias a la mitigacin del fenmeno de Gibbs y la reduccin de fugas espectrales.
5.2.5 Implementacin de la etapa de normalizacin y alineamiento
Finalmente la ltima etapa en la cadena de pre-procesamiento de la seal para este trabajo es la

implementacin de un algoritmo normalizacin y alineamiento con el propsito de alinear o
tener seales de voz del mismo tamao. De esta manera es posible generar espacios
dimensionales del mismo tamao para poder aplicar la tcnica de reduccin de la
dimensionalidad, el cual es el objetivo principal de este trabajo.
93
Como se analiz en el subcaptulo 3.2.6: Normalizacin y alineamiento (pgina 46), cuando una
mquina de reconocimiento de patrones compara modelos (para este trabajo voces), raramente
se realizarn a la misma velocidad debido a: transductores, procesadores, condiciones fsicas y
emocionales de los hablantes, entre otras causas. Estas variaciones no deben participar en el
desempeo final del sistema, es por ello que debe normalizarse la fluctuacin en la tasa del habla.
Para este trabajo se implement un algoritmo de normalizacin temporal lineal, la cual

implcitamente asume que la variacin en la tasa del habla es proporcional a la duracin de la voz
articulada y es independiente de los sonidos que estn siendo pronunciados. Por lo tanto, la
estimacin de la medida de distorsin se efecta mediante la lnea recta de la diagonal en
rectngulo del plano formado por ( , ), como se muestra en la Figura 5-10. A pesar de ser
una restriccin rgida en el sentido en el que se tiene una tasa del habla fija y las fluctuaciones no
modelan realmente al habla, los resultados de los trabajos realizados mediante este mtodo
reportan [50] un buen rendimiento en sistemas ASR.
Figura 5-10: Alineacin temporal lineal para dos secuencias de voz con diferentes duraciones.
Para su implementacin se utiliz un diezmador (para la compresin) y un interpolador lineal

(para la expansin). En la Figura 5-11 se muestra la expansin de una seal de voz a la salida del
alineador temporal.
94
Seal de voz sin normalizar
0.04
0.02
Amplitud (volts)
0
-0.02
-0.04
-0.06
2000 4000 6000 8000 10000 12000 14000 16000
Muestras (fs @ 24kHz)
Seal de voz sin normalizada
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
2000 4000 6000 8000 10000 12000 14000 16000 18000
Muestras (fs @ 24kHz)
Figura 5-11: Seal de voz antes de ser alineada (arriba), seal de voz a la salida del algoritmo de alineacin
temporal lineal (abajo). En este trabajo es posible parametrizar la longitud de las muestras de voz. En este
ejemplo se fij el valor de alineacin a 800ms, obteniendo 19200 muestras por seal.
5.3 Implementacin de las tcnicas de extraccin de caractersticas
Como se estudi en el subcaptulo 3.3: Extraccin de caractersticas (pgina 48), este proceso
intenta transformar las seales de voz puras en una representacin en la que las caractersticas,
particularidades y peculiaridades ms importantes de las seales se encuentren disponibles de
manera simple, evidente y asequible en una imagen, adicionalmente esta etapa deber facilitar el
procesamiento posterior en el sistema ASR.
Para este trabajo se desarrollaron 4 etapas diferentes e independientes de extraccin de

caractersticas (como se muestra en la Figura 5-12). Estos mdulos se implementaron con la
finalidad de validar al sistema y comparar su desempeo en funcin del tipo de caracterstica que
se analiza. Estos mdulos analizan a la seal de la voz y la mapean a un nuevo espacio utilizando
para ello vectores de caractersticas. Las tcnicas propuestas son: Magnitud promedio, espectrogramas,
codificacin por prediccin lineal y anlisis en tiempo corto de la seal fundamental.
95
Seal de Voz
Pre-
Procesamiento
Anlisis en Tiempo
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-12: La segunda etapa del mtodo propuesto es extraer las caractersticas de las seales pre-
procesadas de voz empleando para ello alguno de los mtodos propuestos en este trabajo, para
posteriormente plasmar dichas caractersticas en una imagen digital.
5.3.1 Implementacin de la magnitud promedio de la seal de voz como vector

de caractersticas
La razn de haber utilizado esta caracterstica en este trabajo es emplear la envolvente de las
seales de voz como propiedad elemental para poder distinguir palabras. Adems que en su
momento se re-utiliz el algoritmo desarrollado para el VAD (ver pgina 90), con el objetivo de
comenzar a realizar pruebas de manera ms rpida y poder validar al sistema ASR.
La magnitud promedio de una seal de define como:
=0
1
= |()|( )
0
=0
Ecuacin 5-2.
96
Utilizando esta propiedad en las seales, se obtiene una envolvente de la seal original como se
observa en la Figura 5-13. Al utilizar esta medida como caracterstica se obtiene un vector de
caractersticas de tamao:

=
2
Ecuacin 5-3.
Seal de voz para analizar
0.04
0.02
Amplitud (volts)
-0.02
-0.04
-0.06
0 0.2 0.4 0.6 0.8 1
Tiempo (segundos)
Caractersticas extradas
5
4
Magnitud
0
20 40 60 80 100 120 140 160 180
Cuadros (20ms)
Figura 5-13: Resultado de la implementacin del algoritmo de la magnitud promedio. Seal de voz
(arriba), y envolvente de la seal como vector de caractersticas (abajo). Cada punto de la grfica es un
vector (192 caractersticas), los cuales representan la envolvente de la seal. Esta manera de discriminar
palabras resulta efectiva en palabras cuyas envolventes sean diferentes.
5.3.2 Implementacin del anlisis tiempo-frecuencia como vectores de

caractersticas
El objetivo de emplear este mtodo es utilizar a los formantes y sus transiciones en las seales
de voz (que residen en el dominio frecuencial), como propiedades particulares para distinguir
palabras. Debido a que estas caractersticas (los formantes) residen en un plano tiempo-
frecuencia se hace uso de la transformada de Fourier (Ecuacin 5-4) en conjunto con el anlisis
en tiempo corto de las seales de voz y enventanamiento de las seales.
() = () (2) = 0,1, , 1
=0
Ecuacin 5-4.
97
Al utilizar la transformada de Fourier en tiempo corto se obtiene una imagen como la que se muestra
en la Figura 5-14, la cual visualmente no cuenta con la suficiente informacin til plasmada en
esta imagen snica. Para subsanar este inconveniente, en este trabajo se aplic:
Un filtro pasa-bandas de 90 a 3000 Hz que es donde se halla la banda frecuencial de

mayor informacin para las seales de voz.
La representacin en DecibelesSPL de la imagen debido a que es ms conveniente

representar a la seal de voz hacia un dominio perceptualmente relevante para el sistema
auditivo. Como es bien sabido el decibel es usado comnmente en acstica como una
unidad para medir el nivel de presin del sonido. De esta manera se puede inspeccionar
visualmente lo que el odo oye.
Figura 5-14: Resultado del espectrograma puro producto de aplicar la transformada de Fourier en tiempo
corto sobre la seal pre-procesada de voz.
98
Figura 5-15: Resultado de representar al espectrograma en decibeles y despus de un filtrado en la banda
de frecuencias relevantes para la voz humana. Esta palabra (Mehanadaci) contiene 5 slabas las cuales se
plasman de manera natural en esta imagen (indicados por cada formante).
5.3.3 Implementacin del anlisis de coeficientes por prediccin lineal como

vectores de caractersticas de las seales de voz
Como se revis en el subcaptulo 3.3.1: Caractersticas espectrales de tiempo corto (pgina 51),
el anlisis por prediccin lineal ha sido una herramienta ampliamente utilizada a lo largo del
procesamiento de seales de voz moderno. Esta tcnica intenta modelar pequeos fragmentos
de seales de voz (a travs del anlisis en tiempo corto), por medio de un filtro todo-polos al
predecir los valores futuros de una seal utilizando los valores pasados. El resultado de esta
prediccin es un conjunto de coeficientes (dependiendo del orden del filtro) los cuales intentan
modelar al sistema fisiolgico de produccin de la voz. Es debido a estos antecedentes
Aunque tradicionalmente (en el rea de Telecomunicaciones) a estos coeficientes se les aplica un

tratamiento complementario con el propsito de hacerlos ms resistentes al ruido durante un
proceso de transmisin de la seal, en este trabajo se utilizaron nicamente los coeficientes del
anlisis por prediccin lineal para la generacin de imgenes snicas.
99
Para obtener los coeficientes de prediccin lineal, se intenta minimizar el error de prediccin a
travs de mnimos cuadrados, al utilizar una combinacin lineal de los cuadros pasados de la
seal de voz:

() = ( )
=1
Ecuacin 5-5.
Donde y(n) es la seal predecida linealmente al utilizar N muestras de x(n). El error de prediccin
es entonces:
() = () () = () ( )
=1
Ecuacin 5-6.
El objetivo del anlisis por prediccin lineal es encontrar los mejores coeficientes que
minimicen al error () en un sentido cuadrtico medio:
1 2
2 1
= (()) = [() ( 1)]
=0
=0 1
Ecuacin 5-7.

Para optimizar este Error Cuadrtico Medio, se igualan las derivadas ( ) de la funcin a cero:

1 2

= [() ( 1)] = 0

=0 1
Ecuacin 5-8.
Para un filtro de Orden N, los coeficientes se hallan resolviendo al sistema lineal = , de

tamao , donde R es el conjunto:
(0) (1) ( 1)
(1) (0) ( 2)
=[ ]

( 1) ( 2) (0)
Ecuacin 5-9,
y r es:
100
(1)
= [ (2) ]

()
Ecuacin 5-10.
Siendo () la funcin de autocorrelacin de la seal de voz (). La cual est definida como:
() = () ( )
=0
Ecuacin 5-11.
Debido a que es una Matriz Toeplitz Hermtica (matriz cuadrada con todas sus diagonales de
izquierda a derecha paralelas numricamente e igual a su propia transpuesta conjugada), es
posible resolver a este sistema aplicando el algoritmo recursivo regresivo Levinson-Durbin,
siendo factible encontrar una solucin computacional menos compleja que con algoritmos
tradicionales (Gauss-Jordan p. ej.). De esta manera se encuentran los coeficientes de prediccin
lineal para cada una de los cuadros de voz, estando plasmados en un filtro Todo-Polos, de la
manera:

() = =
1+ =1 ()
Ecuacin 5-12.
Al implementar este algoritmo y utilizando los coeficientes obtenidos, la seal de voz puede
reconstruirse aproximndose a la seal original (dependiendo su calidad del nmero de
coeficientes), como se muestra en la Figura 5-16:
101
Seal original vs. Estimacin por LPC
4
Seal original
Estimacin por LPC
Amplitud
0
-1
-2
-3
0 10 20 30 40 50 60 70 80 90 100
Muestras
Figura 5-16: Comparacin de la seal original (en azul), y la seal reconstruida (verde). La calidad de
reconstruccin de la seal depende del nmero de coeficientes que deseen encontrar por cuadro de voz.
En esta imagen el sistema implementado utiliza una configuracin de doce coeficientes, siendo este
nmero el mnimo segn la convencin actual vigente en el campo de las comunicaciones celulares de
ltima generacin.
Finalmente para comprobar el funcionamiento del sistema LPC implementado se utiliz la

autocorrelacin del error de prediccin con el propsito de analizar estadsticamente la
naturaleza de la seal (ver Figura 5-17).
Autocorrelacin del Error de Prediccin
1.2
0.8
Valor normalizado
0.6
0.4
0.2
-0.2
-5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000
Lags
Figura 5-17: Autocorrelacin del error de prediccin, mostrando un pico en el elemento cero del vector
de retardos. Este comportamiento se aproxima al comportamiento estadstico del ruido, de esta manera
se puede afirmar que el error de prediccin (la diferencia entre la seal original y la predecida) es mnimo.
102
Finalmente para este trabajo, se construyeron las imgenes snicas al concatenar los coeficientes
{ } que resultan del anlisis por prediccin lineal de cada uno de los cuadros de voz que resultan
del anlisis en tiempo corto (ver Figura 5-18).
Figura 5-18: Imagen generada a partir de los coeficientes { } del anlisis por prediccin lineal como
vectores de caractersticas. Se han concatenado los cuadros de voz resultados del anlisis de tiempo corto
con los coeficientes LPC. En esta imagen se configur al sistema para producir imgenes utilizando
cuadros de voz de 20ms y 22 coeficientes del filtro LPC.
5.3.4 Implementacin del anlisis en tiempo corto de la seal fundamental
Psicoacsticamente el tono es un parmetro usado para determinar la Percepcin frecuencial de

los sonidos, el cual se encuentra fsicamente atribuido a la frecuencia fundamental de una seal
acstica. Es por ello que para este trabajo se decidi utilizar est caracterstica de los Sonidos
como mtodo para la generacin de imgenes, a travs de una seal fundamental, definida para este
propsito como el fragmento principal una seal antes de que se repita.
Para poder hallar la seal fundamental se utiliz la autocorrelacin de las seales de voz (Ecuacin
5-13.), la cual es una medida de su similitud, y el anlisis en tiempo corto de las seales de voz.
El resultado de esta operacin es una funcin de semejanza de los retardos de tiempo en las
formas de onda del cuadro de voz analizado, de esta manera las Formas de Onda (o seales de
voz) que sean peridicas exhibirn tambin una autocorrelacin peridica.
103

() = [] [ + ]
=
Ecuacin 5-13.
Cuando el vector de retardos que resulta de la funcin de autocorrelacin crece y encuentra un

mximo, la autocorrelacin tambin lo hace (porque la seal y su copia retardada tienen la misma
fase), as que al hallar el primer mximo de la autocorrelacin se halla tambin el periodo de la
seal (ver Figura 5-19).
Cuadro de una seal de voz
0.02
Amplitud (volts)
-0.02
-0.04
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Tiempo (segundos)
Autocorrelacin de la seal de voz

0.15
0.1
Amplitud
0.05
-0.05
-0.1
-400 -300 -200 -100 0 100 200 300 400
Figura 5-19: Anlisis en tiempo corto de la seal de voz (arriba) y su seal de autocorrelacin (abajo). El
algoritmo implementado consiste en encontrar el mximo en la parte positiva del vector de retardos de
la autocorrelacin para poder hallar la frecuencia fundamental del cuadro de voz analizado.
Cuando se ha encontrado el valor mximo de la parte positiva del vector de retardos de la

autocorrelacin se analiza el valor que corresponde temporalmente a este mximo, con el
propsito de conocer el periodo fundamental de la seal.
Finalmente con el periodo fundamental es posible hallar el nmero de muestras que

correspondientes a la seal fundamental del cuadro original de la seal de voz, para ello en el
algoritmo se implement un rastreador de un punto mximo que hallara el nmero de muestras
permitidas para conservar la repetitividad en la seal en funcin del nmero de muestras
correspondientes de la seal fundamental.
104
Cuadro de una seal de voz
0.02
Amplitud (volts)
0
-0.02
-0.04
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Tiempo (segundos)
Seal fundamental del cuadro
0.02
Amplitud (volts)
-0.02
-0.04
0 1 2 3 4 5 6
Tiempo (segundos) -3
x 10
Figura 5-20: Cuadro del anlisis en tiempo corto de la seal de voz (arriba), seal fundamental extrada
(abajo).
Finalmente, despus de extraer las seales fundamentales de los cuadros de voz, se pasa por un
proceso de alineacin temporal lineal para cada una de las seales fundamentales y una
concatenacin de estos cuadros, para finalmente generar las imgenes snicas a partir de las seales
fundamentales.
Anlisis en Tiempo Corto de la Seal Fundamental
50
100
150
200
Tiempo (us)
250
300
350
400
450
20 40 60 80 100 120 140 160 180

Cuadros (20ms)
Figura 5-21: Imagen snica generada a partir del anlisis en tiempo corto de la seal fundamental como
vectores de caractersticas, se han concatenado las seales fundamentales alineadas temporalmente para
su generacin. En esta imagen se configur al sistema para producir imgenes utilizando cuadros de voz
de 20ms y una frecuencia fundamental mxima de 500 Hz que es el rango mximo de frecuencia
fundamental para un humano.
105
5.4 Implementacin del mtodo de reduccin de la dimensionalidad a
travs del mtodo de las eigenfaces
Para este trabajo de investigacin se utiliz la tcnica de las eigenfaces como mtodo
fundamental de generacin y reconocimiento de patrones, para ello se implement este
algoritmo de manera tal que pudiera actuar sobre las imgenes generadas a partir de las seales
de voz (como se muestra en la Figura 5-22). Como se describi en el subcaptulo 4.6.1:
Implementacin prctica de las Eigenfaces (pgina 78), este mtodo involucra recolectar un
conjunto amplio de imgenes con el objetivo de incrementar la fiabilidad del mtodo. Para este
trabajo se generaron dichas imgenes al utilizar alguno de los algoritmos de extraccin de
caractersticas descritos anteriormente, en esta seccin se describe el mtodo de las eigenfaces
para 3 palabras diferentes.
Seal de Voz
Pre-
Procesamiento
Anlisis en Tiempo
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-22: La tercera etapa del mtodo propuesto consiste en aplicar el mtodo de las eigenfaces a los
spervectores generados a partir de la fase de extraccin de caractersticas. Este bloque es la parte medular
de este trabajo de investigacin.
106
a) Organizar al conjunto de entrenamiento. Para esta seccin se utilizaron tres palabras
diferentes (Doroike, Mizuzeme, Yakuhi), con 25 ejemplos de entrenamiento para cada
palabra -generando 75 imgenes snicas en total- (1 , 2 , , 75 ).
b) Representar a cada imagen como un sper-vector. Una imagen de pxeles se

descompone en un vector columna (o sper vector), al concatenar sus M filas generando
la matriz = [1 , 2 , , ]. Para este ejemplo el conjunto de entrenamiento se gener a
partir de espectrogramas existiendo 75 elementos en el conjunto y residiendo en un espacio
dimensional de 260428 elementos (Ecuacin 5-14).
1,1 1,2 1,75

2,1 2,2 2,75
=[ ]

260428,1 260428,2 260428,75
Ecuacin 5-14.
c) Calcular la cara promedio y centrar los datos estadsticamente. Calcular la media

muestral en cada dimensin (rengln) del conjunto . Remover la media muestral de cada
uno de los rostros del conjunto S sustrayendo la cara promedio = , y generar la
matriz = [1 , 2 , , ] (Ecuacin 5-195).
1,1 1,2 1,75

2,1 2,2 2,75
=[ ]

260428,1 260428,2 260428,75
Ecuacin 5-15.
d) Generar la Matriz de covarianzas. Se genera la Matriz de covarianzas =

1
=1 = de tamao ( ) renglones y columnas a partir de los ejemplos

107
de entrenamiento (Ecuacin 5-16). Para este ejemplo la matriz de covarianzas se gener
con los ejemplos de entrenamiento.
1,1 1,2 1,75

2,2 2,75
= [ 2,1 ]

75,1 75,2 75,75
Ecuacin 5-16.
e) Calcular los vectores-propios de C. Por medio de este paso se hallarn un conjunto

de vectores ortonormales y su valor-propio asociado , los cuales describirn
ptimamente a la distribucin de datos (las caras). Sin embargo, como la matriz de
covarianzas posee un tamao de ( ) esto generar una tarea computacional
prcticamente imposible de resolver para una imagen de tamao estndar. Por lo que se
requiere de un mtodo computacionalmente realizable. Para ello:
i. Se considera a la matriz en lugar de la matriz , ya que puede tener hasta

( ) vectores y valores-propios, mientras que solamente hasta
vectores y valores-propios, estos vectores y valores-propios corresponden a los
vectores y valores-propios de mayor valor de . Esto es posible gracias a que estas
matrices guardan una relacin con sus vectores propios (descomposicin de valores
singulares [149]), ya que si se considera a los vectores-propios de tales que:
= .Y se pre-multiplica a ambos lados de la ecuacin por , se tiene que:
=
ii. Se puede observar que son los vectores-propios de = .
iii. Conservar los mejores B-vectores-propios, que corresponden a los valores-propios de

mayor magnitud, y generan una combinacin lineal con las caras del conjunto de
entrenamiento , y forman a las llamadas eigenfaces: = =1 = 1,2, , .
f) Construr una matriz de vectores-propios. Por medio de este anlisis los clculos se
reducen enormemente, del orden del nmero de pxeles de las imgenes ( ), a un
orden conformado por el nmero de imgenes del conjunto de entrenamiento (). En la
prctica el conjunto de imgenes de entrenamiento ser relativamente pequeo
( ( )), y los clculos sern muy manejables (Ecuacin 5-17).
108
e1,1 e1,2 e1,75
e2,1 e2,2 e2,75
=[ ]
e75,1 e75,2 e75,75
Ecuacin 5-17.
g) Producir la librera de conocimiento. Para la produccin de la librera de conocimientos

se proyecta cada imagen del conjunto de entrenamiento en el eigenespacio generado y se
conservan sus pesos = ( ) . La librera es el ltimo paso en la etapa de
entrenamiento del sistema de reconocimiento Autmatico (proceso fuera de lnea).
Posteriormente se utilizar para la etapa de Identificacin y asociacin de patrones (proceso
en lnea) Ecuacin 5-18, usando los pesos de cada uno de los ejemplos de entrenamiento.
Se observa la eficacia del mtodo propuesto en este trabajo, al reducir la dimensionalidad
de los elementos del conjunto de entrenamiento residiendo originalmente en un espacio
dimensional 260,428 hacia un espacio dimensional 65.
e1,1 e1,2 e1,75

e2,1 e2,2 e2,75
=[ ]
e65,1 e65,2 e65,75
Ecuacin 5-18.
5.5 Implementacin del clasificador k-NN. Reconocimiento de las seales

de voz.
Finalmente para las tareas de clasificacin se implement el algoritmo de los vecinos ms

cercanos k-NN (k-nearest neighbours [160]) operando sobre los pesos generados a partir de las
proyecciones tanto de los elementos de prueba como con los ejemplos de entrenamiento (ver
Figura 5-23).
En el rea de reconocimiento de patrones el algoritmo k-NN es un mtodo no-paramtrico

usado para tareas de clasificacin y regresin que predice valores de objetos o membresas de
clase basndose en los k ejemplos de entrenamiento ms cercanos del espacio de caractersticas.
El algoritmo es un tipo de aprendizaje basado en instanciacin (lazy learning) en el cual la funcin
(o funciones) nicamente se aproxima de manera local y todos los clculos se posponen hasta la
clasificacin. El algoritmo es uno de los algoritmos ms sencillos en el rea del aprendizaje
109
automtico y se basa en que un objeto es clasificado por la mayora de la votacin de sus vecinos,
asignndosele una clase conforme a sus k vecinos ms cercanos (siendo k un entero positivo).
Seal de Voz
Pre-
Procesamiento
Anlisis en Tiempo
Fundamental
Generacin de
Imgenes
Reduccin de la
Dimensionalidad
(Caras-Propias)
Evaluacin
(Clasificacin)
Figura 5-23: La ltima etapa del mtodo propuesto por este trabajo es clasificar las voces que entran al
sistema con el objetivo de reconocerlas. Para ello se utiliz el mtodo de los k-vecinos ms cercanos.
Para ello se calcular la distancia euclidiana de cada elemento de test proyectado con cada uno de
los elementos en la librera de entrenamiento, a partir de la distancia:

2
( , ) = ( )
=1
Ecuacin 5-19
La mejor eleccin de k depende fundamentalmente de los datos; generalmente, valores grandes

de k reducen el efecto de ruido en la clasificacin, pero crean lmites entre clases parecidas. Un
buen k puede ser seleccionado mediante una optimizacin de uso. El caso especial en que la
110
clase es predicha para ser la clase ms cercana al ejemplo de entrenamiento (cuando k=1) es
llamada nicamente Algoritmo del vecino ms cercano (nearest neighbor Algorithm).
La exactitud de este algoritmo puede ser severamente degradada por la presencia de ruido o
caractersticas irrelevantes, o si las escalas de caractersticas no son consistentes con lo que uno
considera importante. Muchas investigaciones y esfuerzos fueron puestos en la seleccin y
crecimiento de caractersticas para mejorar las clasificaciones. Particularmente una aproximacin
en el uso de algoritmos que evolucionan para optimizar caractersticas de escalabilidad. Otra
aproximacin consiste en escalar caractersticas por la informacin mutua de los datos de
entrenamiento con las clases de entrenamiento
Para este trabajo se implement el algoritmo de los vecinos ms cercanos con distancia ponderada, donde
se elige el nmero de vecinos que podrn votar en la clasificacin y su voto se pondera como se
muestra en la Ecuacin 5-20:

1
( ) (, ( )) 2
=1 ( , )
Ecuacin 5-20.
De esta manera se espera que no exista riesgo de permitir a todos los ejemplos entrenamiento
contribuir a la clasificacin de ya que al ser muy distantes no tendran peso asociado. La
desventaja de considerar todos los ejemplos seria su lenta respuesta (mtodo global), por lo que
se quiere siempre tener un mtodo local en el que solo los vecinos ms cercanos que sean ms
relevantes sean considerados. Esta mejora es muy efectiva en muchos problemas prcticos ya
que el algoritmo se vuelve robusto ante el ruido presente en los grandes volmenes de datos,
adems se observa que al tomar promedios ponderados de los k vecinos ms cercanos, el
algoritmo puede evitar el impacto de ejemplos con ruido aislados. En la Figura 5-24 se observa
un grfico de dispersin donde se muestra la manera en la que el algoritmo funciona para este
trabajo.
111
Figura 5-24: Grfico de dispersin de datos donde se muestra la manera en que el clasificador opera. Se
observa a un objeto X siendo clasificado por el mtodo. En este ejemplo existen 3 diferentes palabras en
el espacio euclidiano dimensional 65. Aunque el vecino ms cercano del elemento a clasificar es una
palabra Yakuhi (en azul), para este ejemplo se utiliz una k=8, por lo tanto la membresa del elemento a
clasificar pertenece a una palabra Misuzeme puesto que existen ms votantes que poseen una membresa
con esta etiqueta.
112
Captulo 6 EXPERIMENTOS CON DATOS DE VOZ
NATURAL
Para este objetivo se desarroll una plataforma de test para evaluar tanto de manera integral
como de manera reducida al sistema implementado, siendo posible modificar los parmetros
para el procesado de la seal, el tipo de seleccin de caractersticas as como la parametrizacin
particular de cada tcnica de seleccin, el porcentaje del poder de representacin para el
eigenespacio generado, la eleccin del porcentaje de vecinos ms cercanos para del clasificador
implementado en funcin de la dimensionalidad de dicho espacio y por ltimo el nmero de
elementos con que el sistema se entrenar as como el nmero de elementos de test que el sistema
evaluar.
Con el fin de analizar la efectividad del mtodo de las eigenfaces de reducir la dimensionalidad
de los mtodos de extraccin de caractersticas propuestos, se llev a cabo un experimento que
permitiera comparar el espacio dimensional final para cada test. Para ello se generaron 3 espacios
dimensionales diferentes, con 2, 4 y 7 palabras existentes en cada espacio respectivo (Doroike,
Mizuzeme, Yakuhi, Mukasi, Gyakumawari, Yasumono y Koosuuhyoo), con las que se entren al
sistema y se llevaron a cabo dichas pruebas.
Para las pruebas realizadas, cada palabra es pronunciada por 60 personas distintas, de las cuales
45 hablantes se destinan para el entrenamiento del sistema ASR (de manera evolutiva) y los 15
hablantes restantes para la verificacin del sistema. El valor de k para el algoritmo k-NN vara
segn la cantidad de elementos en el espacio dimensional en funcin de los ejemplos de
entrenamiento, siendo igual al 14% del total de los ejemplos de entrenamiento.
6.1 Corpus de voz TMW
Un corpus de voz es un conjunto grande y estructurado de grabaciones de audio de voz que

contiene frases, palabras o expresiones comunes de una lengua en particular. En las tecnologas
del habla, los corpus de voz se usan entre otras cosas para crear modelos acsticos con el objetivo
de crear mquinas de reconocimiento de habla, anlisis estadsticos y comprobacin de hiptesis.
113
Para el caso de este trabajo de investigacin se realiz un convenio con el National Institute of
informatics en el speech Resources Consortium de Japn quienes a travs del Ph.D. Tomoko
Ohsuga amablemente proporcionaron el corpus TMW.
El corpus contiene un vocabulario de 212 palabras balanceadas fonticamente, pronunciadas

por 30 hombres y 30 mujeres y un vocabulario de 3285 palabras pronunciadas por 6 hombres y
6 mujeres. Las grabaciones se proporcionan en formato .WAV, muestreadas con una frecuencia
de muestreo de 24kHz, con una profundidad de 16 bits con signo, bajo un esquema de
codificacin PCM y en un solo canal.
6.2 Visualizacin de la reduccin de la dimensionalidad
Para comprobar la eficacia del mtodo del anlisis de las componentes principales a travs de las
eigenfaces para reducir los espacios dimensionales de las tcnicas de extraccin de caractersticas
empleadas, se utiliz el banco de pruebas implementado en el sistema ASR propuesto con el
propsito de conocer el tamao del espacio dimensional de origen y el tamao del espacio
dimensional despus de aplicar el mtodo de reduccin de la dimensionalidad.
Comparacin entre los Espacios Dimensionales antes de las

eigenfaces
300000
Espectrograma,
260428
250000
200000
Dimensin
150000 Anlisis en Tiempo

Corto de la Seal
Fundamental, 94080
100000
Seal de Voz original, Coeficientes de

50000
26624 Prediccin Lineal,
Magnitud Promedio,
192 4312
0
Tcnica de extraccin de caractersticas
Figura 6-1: Tamaos de los espacios dimensionales de la seal de voz original y de las distintas tcnicas
de extraccin de caractersticas propuestas en este trabajo de tesis.
114
En las Figura 6-2, 6-3 y 6-4 se muestra el desempeo de la tcnica propuesta al reducir la
dimensionalidad de las imgenes snicas en funcin de los ejemplos de entrenamiento, con un
99% del poder de representacin. Mostrando la dimensionalidad final de las diferentes tcnicas
de extraccin de caractersticas propuestas en funcin de los ejemplos de entrenamiento
utilizados para el sistema ASR. Se observa que con este poder de representacin la tcnica de
reduccin de la dimensionalidad (PCA), logra reducir la dimensionalidad de los datos
enormemente, al intentar hallar hiperplanos donde se encuentre la mayor varianza de los datos
analizados.
Comparacin Dimensionalidad vs Elementos de

Entrenamiento (2 palabras)
100
NMERO DE DIMENSIONES
80
60
40
20
0
10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90
EJEMPLOS DE ENTRENAMIENTO

Magnitud Promedio
Espectrograma
Coeficientes de Prediccin Lineal
Figura 6-2: Espacio de 2 palabras y utilizando el 99% del poder de representacin en la tcnica de las
eigenfaces.
115
200
150
100
50
0
20 28 36 44 52 60 68 76 84 92 100 108 116 124 132 140 148 156 164 172 180

Magnitud Promedio
Espectrograma
eigenfaces.

300
280
260
240
220
200
180
160
140
120
100
80
60
40
20
0
35 49 63 77 91 105 119 133 147 161 175 189 203 217 231 245 259 273 287 301 315

Magnitud Promedio
Espectrograma
eigenfaces.
116
Como se muestra en las Figura 6-2, 6-3 y 6-4, el tamao de la dimensin de los espacios
resultantes en funcin del nmero de ejemplos de entrenamiento para el procesamiento off-line
(entrenamiento) del sistema manifiestan un nmero mucho menor de dimensiones adems de
tener un comportamiento directamente proporcional y lineal. Sin embargo es interesante analizar
la tendencia de la tcnica de magnitud promedio de la seal, en la cual la dimensin necesaria
para representar la tendencia de la varianza estadstica es mnima, e incluso cuando se agregan
ms elementos de entrenamiento al sistema, la dimensionalidad de los espacios resultantes
decrece.
6.3 Tasas de reconocimiento
Finalmente, para comprobar el desempeo global del sistema propuesto se obtuvieron utilizando
el banco de pruebas desarrollado las tasas de reconocimiento del sistema ASR. En las Figura 6-5,
6-6 y 6-7 se muestra la eficiencia el mtodo propuesto. El sistema ASR reconoce
automticamente las palabras que ingresan a l, adems se muestra que a pesar de la alta
dimensionalidad de la que parte el mtodo de los espectrogramas, es el mtodo con la tasa de
reconocimiento ms alta, sin embargo el mtodo de la magnitud promedio a pesar de ser
sumamente simple, demostr tener una eficiencia muy alta tambin. A pesar de tener una alta
eficiencia para reconocer palabras en un espacio de dos elementos, los mtodos de coeficientes
de prediccin lineal y anlisis en tiempo corto de la seal fundamental decrecen a medida que
los espacios crecen. Estas tasas de reconocimiento validan totalmente la eficacia del sistema al
haber obtenido tasas de reconocimiento satisfactorias.
117
Tasa de Reconocimiento vs Ejemplos de Entrenamiento (2
palabras)
100
TASA DE RECONOCIMIENTO (%)
80
60
40
20
0
10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90

Magnitud Promedio
Espectrograma
Figura 6-5: Tasas de reconocimiento para espacios de 2 palabras para cada una de las diferentes
tcnicas de extraccin de caractersticas.

palabras)
100
80
60
40
20
0
20 28 36 44 52 60 68 76 84 92 100 108 116 124 132 140 148 156 164 172 180

Magnitud Promedio
Espectrograma
118
palabras)
100
80
60
40
20
0
35 49 63 77 91 105 119 133 147 161 175 189 203 217 231 245 259 273 287 301 315

Magnitud Promedio
Espectrograma
6.4 Anlisis del mtodo propuesto
Al obtener una eficacia satisfactoria en las tasas de reconocimiento del sistema se puede afirmar
que el mtodo desarrollado incentiva la hiptesis inicial propuesta para este trabajo, en la que la
voz posee una estructura inherente de baja dimensionalidad que conserva las caractersticas
mnimas gracias al nmero limitado de grados de libertad del sistema fonador humano y a la
fonologa limitada empleada en las sociedades humanas.
Adems, este mtodo resulta altamente atractivo debido a que se emplean imgenes digitales
para reconocer voz, en lugar de los mtodos actuales usados en esta rea con lo que se puede
conseguir una buena eficiencia computacional.
Aunque como se observa en las grficas el mtodo no es perfecto y depende de la tcnica de

extraccin de caractersticas empleadas para plasmar las propiedades de la voz en imgenes,
resulta ser un campo interesante en donde se conjugan reas de investigacin tan diversas como
el procesamiento digital de seales, la computacin, la fonologa y la fontica.
119
120
Captulo 7 CONCLUSIONES Y TRABAJO FUTURO
El propsito del trabajo presentado en esta investigacin ha sido proponer y utilizar un sistema
de reconocimiento automtico de la voz basndose en reconocimiento de imgenes y utilizando
la inherente baja dimensionalidad en las variedades existentes de la voz humana. Para lograr este
propsito se ha estudiado, implementado y propuesto mtodos de estadstica, procesamiento
digital de seales, fisiologa, inteligencia artificial, computacin entre otras disciplinas necesarias
y utilizadas para construir un sistema de reconocimiento automtica del habla.
El algoritmo propuesto hace uso explcito de una tcnica de reconocimiento de imgenes

aplicndose a seales de voz, gracias a la correcta adecuacin de las seales hacia imgenes en
donde resalten las propiedades inherentes del habla.
La contribucin principal de este trabajo es la entrega de mtodo original para el reconocimiento

automtico del habla explotando la hiptesis en la cual se presume que la voz posee una
estructura inherente de baja dimensionalidad basndose para ello en paradigmas de
reconocimiento facial haciendo uso de:
Un mtodo capaz de reconocer al habla a travs de la construccin de imgenes

aprovechndose de los vectores de caractersticas extradas de las seales de voz.
La aplicacin de este mtodo sobre procedimientos de extracciones de caractersticas

clsicos en el procesamiento del habla para comprobar el funcionamiento del mtodo y
al mismo tiempo comparar el rendimiento y robustez de estos procedimientos
tradicionales a travs de este nuevo esquema.
La creacin de una tcnica de extraccin de caractersticas plasmando en una imagen

seales fundamentales obtenidas a travs del anlisis a cuadros de una seal de voz.
121
7.1 Trabajo Futuro
Al haber implementado exitosamente este sistema, es interesante plantear un sistema de

reconocimiento automtico del habla utilizando fonemas en lugar de palabras, de esta manera
sera posible reconocer frases de voz completas.
Sobre la misma lnea en el procesamiento del habla, valdra la pena probar al sistema desarrollado
con mtodos de alineacin temporal ms precisos como es el caso de la Deformacin dinmica
temporal (DTW), adems de sistemas de seguir desarrollando sistemas de extraccin de
caractersticas que puedan tener una representacin snica conveniente y notable para este
mtodo.
Dependiendo de la tcnica de extraccin de caractersticas empleado sera un tema sumamente

interesante la investigacin de cada una de las eigenvoices, para conocer la ponderacin con la
que cuenta, por ejemplo, saber si una eigenvoice representara sexo, la segunda rapidez de habla,
la tercera alguna emocin en particular, etc.
Finalmente, la implementacin exitosa de este mtodo hace pensar que no solo puede funcionar
para las dimensiones inherentes de la voz, sino que es posible implementarlo para un sinfn de
aplicaciones donde sea necesario la identificacin de patrones especficos, p. ej. prediccin de
Fallos de Equipos, Telecomunicaciones, Pronsticos de tiempo, Diagnstico Mdico,
Astronoma, etc.
122
Apndice A. Publicaciones realizadas
VOICE RECOGNITION AND AUTOMATIC CLASSIFICATION USING

DIMENSIONALITY REDUCTION TECHNIQUES, SELECTION OF
CHARACTERISTICS AND CLASSIFICATION
Juan Fernando Pial-Moctezuma Selene Edith Maya
Salvador Ayala-Raggi Francisco Portillo Robledo
Josefina Castaeda Camacho Ricardo lvarez Gonzlez
Rodrigo Maya Ramrez Liliana Cortez
Gerardo Mino Aguilar Ana Mara Rodrguez
Benemrita Universidad Autnoma de Puebla, Mxico.
Abstract: In this work an Automatic Speech Recognition System is implemented, which makes use of an
Automatic Pattern Recognition Processor that instead of working on Speech Recognition Techniques, it does
so based on Artificial Vision paradigms, using images produced in function of intrinsic characteristics extracted
from the speech for the Training Stages and Pattern Generation, thus using this information to classify
appropriately this signals. Nevertheless, the State of the Technique in the area of Digital Signal Processing is
used focused on the processing of the speech, which is very important for the generation of the signal
conditioning algorithms, as well as the speech Feature Extraction. We use and compare the performance of four
different methods of Feature Extraction: Average Magnitude, Spectrograms (Time-Frequency), Linear
Prediction Coefficients and finally we propose a technique called: Short time Analysis of the Fundamental
Signal.
For the Training stages and Pattern generation, we make a revision of the State of the Art on Artificial
Intelligence for Computer Vision as well as for Speech Recognition, stressing particularly in the Principal
Components Analysis, to be able to implement in a later stage the Eigenfaces method, being this the prevailing
reference on Facial Recognition field and the fundamental technique of recognition in this work.
Next, we make a quick revision of the state of the art of automatic classifiers and we use the k-Near Neighbors
(k-NN) algorithm. Lastly, we generate a test bench in Matlab, where the final implementation of the algorithms
is created and then evolutionary tests are executed based on the spaces generated, thus obtaining the system
recognition rates. For this, we use the TMW Voice Corpus enabling us this way the evaluation of the final
performance of the implemented system
Introduction dimensionality flow of information (seen

The voice is a signal that travels through from the Multivariate statistics analysis).
disturbed air, which is produced by A common way of representing the
physiologic human functions that make acoustic signals (including voice signals),
use of three essential physical processes: is measuring the energy of the signal using
the generation of pressurized air, the different band widths and calculating this
regulation of the vibration of said air and energy over small and different time
the control of the resonance of the intervals; in this fashion each frequency
generated acoustic signal. This band can be seen as a single dimension in
physiologic process generates a signal that a multidimensional space, with a
contains a great amount of information, dimension equal to the number of bands of
which can be analyzed as a high frequency, under this perspective, a speech
123
124
REFERENCIAS
[1] A. Spanias, T. Painter y V. Atti, Audio Signal Processing and Coding, New Jersey: John
Wiley & Sonc, Inc, 2007.
[2] L. R. Rabiner y R. W. Schafer, Theory and Applications of Digital Speech Processing,

New Jersey: Pearson Higher Education, Inc., 2011.
[3] A. Errity, Exploring the Dimensionality of Speech using Manifold Learning and
Dimensionality Reduction Methods., School of Computing. Faculty of Engineering and
Computing. Dublin City University, Dublin, 2010.
[4] G. E. Peterson y H. L. Barney, Control Methods Used in a Study of the Vowels, Journal
of the Acoustical Society of America, vol. 24, n 2, pp. 175-184, 1952.
[5] K. N. Ramamurthy y A. S. Spanias, MATLAB Software for the Code Excited Linear
Prediction Algorithm. The Federal Standard-1016, Arizona: Morgan & Claypool, 2009.
[6] S. Weinstein, The multimedia internet, New York: Springer, 2005.
[7] L. R. Rabiner y R. W. Schafer, Digital Processing of Speech Signals, New Jersey: Prentice-
Hall. Signal processing series, 1978.
[8] F. Pereira y T. Ebrahimi, The MPEG-4 Book, Upper Saddle River, NJ: Pearson, 2002.
[9] S. M. Kuo, H. Lee y T. Wenshun, Real-Time Digital Signal Processing. Implementations

and Applications., Segunda ed., West Sussex: Wiley, 2006.
[10] F.-L. Luo, Mobile Multimedia Broadcasting Standars. Technology and Practice, San Jose.
CA: Springer, 2009.
[11] K. Shikano, K.-F. Lee y R. Reddy, Speaker adaptation through Vector Quantization.,
Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, vol. 11, pp.
2643-2646, 1986.
[12] J. G. Proakis y D. G. Manolakis, Digital Signal Processing. Principles, Algorithms and

Applications, Upper Saddle River, NJ.: Pearson. Prentice-Hall, 2006.
[13] A. M. Kondoz, Digital speech. Coding for low bitrate communication systems, West
sussex: John Wiley & Sons Ltd, 2004.
[14] D. Salomon, Data compression. The complete reference, London: Springer-Verlag, 2007.
125
[15] J. Benesty, M. M. Sondhi y Y. Huang, Springer Handbook of speech processing, Berlin:
Springer, 2008.
[16] R. Goldberg y L. Riek, A practical handbook of speech coders, Florida: CRC Press LLC,
2000.
[17] V. Garg, Wireless Communications and Networking, San Francisco, CA.: The Morgan
Kaufmann Series in Networking, 2007.
[18] A. R. Bradlow, A comparative acoustic study of English and Spanish vowels, Journal of
the Acoustical Society of America, vol. 97, n 3, pp. 1916-1924, 1995.
[19] D. Minoli, Voice Over IPv6. Architechtures for Next Generation VoIP Networks,
Burlington: Newnes. Elsevier, 2006.
[20] L. Hanzo, F. C. Somerville y J. Woodard, Voice and audio compression for wireless
communications, West sussex: John Wiley & Sons, Ltd, 2007.
[21] C. d. Wikipedia, Odo [en lnea]., Wikipedia, La enciclopedia libre, [En lnea]. Available:
http://es.wikipedia.org/w/index.php?title=O%C3%ADdo&oldid=67617929. [ltimo
acceso: 23 06 2013].
[22] D. R. Reddy, Speech recognition by machine. A review, Proceedings of the IEEE, vol. 64,
n 4, pp. 501-531, 1976.
[23] J. Meng, J. Zhang y H. Zhao, Overview of the Speech Recognition Technology,

Computational and Information Sciences (ICCIS), 2012 Fourth International Conference on., pp.
199-202, 2012.
[24] A. V. Jadhav y R. V. Pawar, Review of various approaches towards speech recognition,

Biomedical Engineering (ICoBE), 2012 International Conference on., pp. 99-103, 2012.
[25] M. Sarma, K. Dutta y K. K. Sarma, Speech corpus of assamese numerals extracted using
an adaptive pre-emphasis filter for speech recognition., Computer and Communication
Technology (ICCCT), 2010 International Conference on., pp. 461-466, 2010.
[26] J. P. Campbell, Speaker recognition: A tutorial, Proceedings of the IEEE, vol. 85, n 9, pp.
1437-1462, 1997.
[27] A. Craciun y M. Gabrea, Correlation coefficient-based Voice Activity Detector

algorithm, Electrical and Computer Engineering, 2004. Canadian Conference on., vol. 3, pp.
1789-1792, 2004.
[28] K. Aghjani, M. T. Manzuri y H. Tayebi, A robust voice activity detection based on

wavelet transform., Electrical Engineering, 2008. ICEE 2008. Second International Conference
on., pp. 1-5, 2008.
126
[29] V. R. Prasad, A. Sangwan, H. S. Jamadagni, M. C. Chiranth, R. Sah y V. Gaurav,
Comparison of voice activity detection algorithms for VoIP., Computers and
Communications, 2002. Proceedings. ISCC 2002. Seventh International Symposium on., pp. 530-
535, 2002.
[30] B. S. Atal y L. R. Rabiner, A pattern recognition approach to voiced-unvoiced-silence

classification with applications to speech recognition., Acoustics, Speech and Signal
Processing, IEEE Transactions on., vol. 24, n 3, pp. 201-212, 1976.
[31] D. G. Childers, M. Hahn y J. N. Larar, Silent and voiced/unvoiced/mixed excitation

(four-way) classification of speech., Acoustics, Speech and Signal Processing, IEEE
Transactions on., vol. 37, n 11, pp. 1771-1774, 1989.
[32] A. de Cheveign y H. Kawahara, YIN, a fundamental frequency estimator for speech

and music., J. Acoust. Soc. Am., vol. 111, n 4, pp. 1917-1930, 2002.
[33] T. Kinnunen y H. Li, An overview of text-independent speaker recognition: From

features to supervectors., Speech Communication., vol. 52, n 1, pp. 12-40, 2010.
[34] P. Pollk, P. Sovka y J. Uhlr, Noise suppression system for a car., In proc. of the 3rd
European Conference on Speech Communication and Technology - EUROSPEECH'93., pp. 1073-
1076, 1993.
[35] P. Pollk, P. Sovka y J. Uhlr, Cepstral Speech/Pause detectors., IEEE Workshop on

Nonlinear Signal and Image Processing, pp. 388-391, 1995.
[36] P. Renevey y A. Drygajlo, Entropy based Voice Activity Detection in very noisy
conditions, Proceedings of the Seventh European Conference on Speech Communication and
technology EUROSPEECH 2001., pp. 1883-1886, 2001.
[37] R. Tucker, Voice Activity Detection using a periodicity measure., Communications, Speech
and Vision, IEEE Proceedings I., vol. 139, n 4, pp. 377-380, 1992.
[38] J. Stegmann y S. Gerhard, Robust Voice-Activity detection based on the Wavelet

Transform., Speech Coding For Telecommunications Proceeding, 1997, 1997 IEEE Workshop
on., pp. 99-100, 1997.
[39] A. Papoulis, Probability, Random Variables, and Stochastic Process, New York:
McGraw-Hill, Inc., 1991.
[40] A. Len-Garca, Probability, Statistics, and Random Processes For Electrical

Engineering., Upper Saddle River, NJ.: Prentice-Hall, 2008.
[41] K. P. Li, J. E. Dammann y W. D. Chapman, Experimental Studies in Speaker

Verification, Using an Adaptive System., J. Acoust. Soc. Am., vol. 40, n 5, pp. 966-978,
1966.
127
[42] S. Furui, Digital Speech Processing: Synthesis, and Recognition., CRC Press, 2000.
[43] E. W. Weisstein, CRC Concise Encyclopedia of Mathematics., Chapman & Hall/CRC,

2002.
[44] F. Ykhlef, H. Ykhlef y A. Aissat, Influence of Dolph-Chebyshev window on speech

enhancement., Multimedia Computing and Systems (ICMCS), 2012 International Conference on.,
pp. 140-143, 2012.
[45] F. J. Harris, On the use of windows for harmonic analysis with the discrete Fourier
transform, Proceedings of the IEEE, vol. 66, n 1, pp. 51-83, 1978.
[46] M. Kar, K. Thakur, A. S. Zadgaonkar y B. K. Singh, Appropiate Windowing in Speech

Parameter Extraction., Advances in Recent Technologies in Communication and Computing
(ARTCom), 2010 International Conference on., pp. 411-413, 2010.
[47] J. O. Smith, Spectral Audio Signal Processing, [En lnea]. Available:

http://ccrma.stanford.edu/~jos/sasp/Hamming_Window.html, online book,. [ltimo
acceso: 16 Junio 2013].
[48] L. Rabiner y B.-H. Juang, Fundamentals of Speech Recognition., Englewoods Cliffs, NJ.:
Prentice-Hall International, Inc., 1993.
[49] F. Itakura, Minimum Prediction Residual Principle applied to Speech Recognition.,

Acoustics, Speech and Signal Processing, IEEE Transactions on., vol. 23, n 1, pp. 67-72, 1975.
[50] M. S. B. H. Salam, D. Mohamad y S. H. S. Salleh, Temporal Speech Normalization

Methods Comparison in Speech Recognition Using Neural Network., Soft Computing and
Pattern Recognition, 2009. SOCPAR '09. International Conference of., pp. 442-447, 2009.
[51] G. Muhammad, Acoustic quality normalization for robust automatic speech

recognition., International Journal of Speech Technology , vol. 10, n 4, pp. 175-182, 2007.
[52] S. Tarar, Speech analysis: Desktop items activation using Dynamic time warping
algorithm., Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE
International Conference on., vol. 6, pp. 657-659, 2010.
[53] C. J. Van der Mwerw y D. J. A. Preez, Alignment of speech with a phonetic

representation using continuous density hidden Markov models, Communications and
Signal Processing, 1991. COMSIG 1991 Proceedings., South African Symposium on., pp. 22-27,
1991.
[54] M. J. Hunt, Time alignment of natural speech to synthetic speech., Acoustics, Speech, and
Signal Processing, IEEE International Conference on ICASSP '84., vol. 9, pp. 65-68, 1984.
128
[55] C. Busso, A. Metallinou y S. S. Narayanan, Iterative feature normalization for emotional
speech detection., Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International
Conference on., pp. 5692-5695, 2011.
[56] M. Aldape-Prez, C. Yez-Mrquez, O. Camacho-Nieto y . Ferreira-Santiago,

Feature Selection using Associative Memory Paradigm and Parallel Computing,
Computacin y Sistemas, vol. 17, n 1, pp. 41-52, 2013.
[57] P. Rose, Forensic Speaker Identification, New York, NY.: Taylor & Francis Group, 2002.
[58] J. J. Wolf, Efficient Acoustic Parameters for Speaker Recognition, J. Acoust. Soc. Am.,
vol. 51, n 6B, pp. 2044-2056, 1972.
[59] D. A. Reynolds, T. F. Quatieri y R. B. Dunn, Speaker Verification Using Adapted

Gaussian Mixture Models., Digital Signal Processing., vol. 10, n 1-3, pp. 19-41, 2000.
[60] D. A. Reynolds y R. C. Rose, Robust text-independent speaker identification using

Gaussian mixture speaker models, Speech and Audio Processing, IEEE Transactions on., vol.
3, n 1, pp. 72-83, 1995.
[61] A. K. Jain, R. P. Duin y J. Mao, Statistical pattern recognition: a review., Pattern Analysis
and Machine Intelligence, IEEE Transactions on., vol. 22, n 1, pp. 4-37, 2000.
[62] G. Doddington, Speaker Recognition based on Idiolectal Differences between

Speakers, EUROSPEECH-2001., pp. 2521-2524, 2001.
[63] D. O'Shaughnessy, Automatic speech recognition: History, methods and challenges.,

Pattern Recognition. Elsevier Science Inc., vol. 41, n 10, pp. 2956-2979, 2008.
[64] M. Benzeghiba, R. De Mori, O. Deroo, S. Dupont, T. Erbes, D. Jouvet, L. Fissore, P.

Laface, A. Mertins, C. Ris, R. Rose, V. Tyagi y C. Wellenkens, Automatic speech
recognition and speech variability: A review., Speech Communication. , vol. 49, n 10-11,
pp. 763-786, 2007.
[65] K. Gopalan, T. R. Anderson y E. J. Cupples, A comparison of speaker identification

results using features based on cepstrum and Fourier-Bessel expansion, Speech and Audio
Processing, IEEE Transactions on, vol. 7, n 3, pp. 289-294, 1999.
[66] B. Imperl, Z. Kacic y B. Horvat, A study of harmonic features for the speaker
recognition, Speech Communication, vol. 22, n 4, pp. 385-402, 1997.
[67] G.-J. Jang, T.-W. Lee y Y.-H. Oh, Learning statistically efficient features for speaker
recognition, Neurocomputing, vol. 49, n 1-4, pp. 329-348, 2002.
[68] K. K. Paliwal y L. Alsteris, Usefulness of Phase in Human Speech Production,

Proceedings of the 8th European Conference on Speech Communication and Technology
(EUROSPEECH-2003), pp. 2117-2120, 2003.
129
[69] R. M. Hegde, H. A. Murthy y G. V. Ramana-Rao, Application of the modified group
delay function to speaker identification and discrimination, Acoustics, Speech, and Signal
Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, vol. 1, pp. 517-
520, 2004.
[70] J. Harrington y S. Cassidy, Techniques in Speech Acoustics, Dordrecht: Springer, 1999.
[71] L. Besacier y J. F. Bonastre, Subband architecture for automatic speaker recognition.,

Signal Processing, vol. 80, n 7, pp. 1245-1259, 2000.
[72] L. Besacier, J. F. Bonastre y C. Fredouille, Localization and Selection of Speaker Specific

Information with Statistical Modeling., Speech Communication., vol. 31, pp. 89-106, 1999.
[73] R. I. Damper y J. E. Higgins, Improving speaker identification in noise by subband

processing and decision fusion., Pattern Recognition Letters, vol. 24, n 13, pp. 2167-2173,
2003.
[74] P. Sivakumaran, A. M. Ariyaeeinia y M. J. Loomes, Sub-Band Based Text-Dependent

Speaker Verification., Speech Communication., vol. 41, n 2-3, pp. 485-509, 2003.
[75] S. B. Davis y P. Mermelstein, Comparison of parametric representations for

monosyllabic word recognition in continuously spoken sentences, Acoustics, Speech and
Signal Processing, IEEE Transactions on, vol. 28, n 4, pp. 357-366, 1980.
[76] T. Kinnunen, B. Zhang, J. Zhu y Y. Wang, Speaker Verification with Adaptive Spectral
Subband Centroids, Advances in Biometrics. Lecture Notes in Computer Science, vol. 4642, pp.
58-66, 2007.
[77] N. P.-H. Thian, C. Sanderson y S. Bengio, Spectral Subband Centroids as

Complementary Features for Speaker Authentication, Biometric Authentication. Lectures in
Computer Science, vol. 3072, pp. 631-639, 2004.
[78] J. Makhoul, Linear Prediction: A tutorial review, Proceedings of the IEEE, vol. 63, n 4,
pp. 561-580, 1975.
[79] R. J. Mammone, X. Zhang y R. P. Ramachandran, Robust speaker recognition: a feature-

based approach, Signal Processing Magazine, IEEE, vol. 13, n 5, pp. 58-71, 1996.
[80] X. Huang, A. Acero y H.-W. Hon, Spoken Language Processing: a Guide to Theory,
Algorithm, and System Development, Upper Saddle River, NJ: Prentice Hall PTR, 2001.
[81] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, Journal of the
Acoustical Society of America, vol. 87, n 4, pp. 1738-1752, 1990.
[82] H. Bourlard y S. Dupont, Subband-Based Speech Recognition., Acoustics, Speech, and

Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on., vol. 2, pp. 1251-
1254, 1997.
130
[83] S. Tibrewala y H. Hermansky, Sub-band based recognition of noisy speech., Acoustics,
Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on., vol.
2, pp. 1255-1258, 1997.
[84] M. J. Tomlinson, M. J. Russell, R. K. Moore, A. P. Buckland y M. A. Fawley, Modelling

asynchrony in speech using elementary single-signal decomposition., Acoustics, Speech,
and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on., vol. 2, pp.
1247-1250, 1997.
[85] R. Hariharan, I. Kiss y O. Viikki, Noise robust speech parameterization using

multiresolution feature extraction., Speech and Audio Processing, IEEE Transactions on., vol.
9, n 8, pp. 856-865, 2001.
[86] S. Vaseghi, N. Harte y B. Milner, Multi-resolution phonetic/segmental features and

models for HMM-based speech recognition., Acoustics, Speech, and Signal Processing, 1997.
ICASSP-97., 1997 IEEE International Conference on., vol. 2, pp. 1263-1266, 1997.
[87] H. W. Hon, K. Wang y W. Hsiao, Combining Frame and Segment Based Models for
Large Vocabulary Continuous Speech Recognition., IEEE Workshop on Automatic Speech
Recognition and Understanding., pp. 221-224, 1999.
[88] K. Jiang y X. Huang, Acoustic feature selection using speech recognizers., Proceedings of
ASRU, Keystone, Colorado..
[89] C. Bentez, L. Burget, B. Chen, S. Dupont, H. Garudadri, H. Hermansky, P. Jain, S.

Kajarekar, N. Morgan y S. Sivadas, Robust ASR front-end using spectral-based and
discriminant features: experiments on the Aurora tasks., In proceeding of: EUROSPEECH
2001 Scandinavia, 7th European Conference on Speech Communication and Technology, pp. 429-
432, 2001.
[90] K. Kirchhoff, Combining Articulatory And Acoustic Information For Speech

Recognition In Noisy And Reverberant Environments, Proceedings of International
Conference of Spoken Language Processing, pp. 891-894, 1998.
[91] M. K. Omar, K. Chen, M. Hasegawa-Johnson y Y. Brandman, An Evaluation of Using

Mutual Information for Selection of Acoustic-Features Representation of Phonemes for
Speech Recognition., In Proceedings of ICSLP, pp. 2129-2132, 2002.
[92] M. K. Omar y M. Hasegawa-Johnson, Maximum mutual information based acoustic-

features representation of phonological features for speech recognition., Acoustics, Speech,
and Signal Processing (ICASSP), 2002 IEEE International Conference on., vol. 1, pp. I-81,I-84,
2002.
[93] A. Zolnay, R. Schulter y H. Ney, Acoustic Feature combination for Robust Speech
Recognition, Proceedings. (ICASSP '05). IEEE International Conference on., vol. 1, pp. 457-
460, 2005.
131
[94] B. Kingsbury, G. Saon, L. Mangu, M. Padmanabhan y R. Sarikaya, "Robust speech
recognition in Noisy Environments: The 2001 IBM spine evaluation system., Acoustics,
Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on., vol. 1, n I,
pp. 53-56, 2002.
[95] R. Gemello, F. Mana, D. Albesano y R. de Mori, Multiple resolution analysis for robust
automatic speech recognition, Computer Speech & Language, vol. 20, n 1, pp. 2-21, 2006.
[96] R. M. Hegde, H. A. Murthy y G. V. Ramana-Rao, Speech Processing Using Joint

Features Derived from the Modified Group Delay Function., Acoustics, Speech, and Signal
Processing, 2005. Proceedings. (ICASSP '05). IEEE International Conference on., vol. 1, pp. 541-
544, 2005.
[97] P. Pujol, S. Pol, C. Nadeu, A. Hagen y H. Bourlard, Comparison and combination of

features in a hybrid HMM/MLP and a HMM/GMM speech recognition system., Speech
and Audio Processing, IEEE Transactions on., vol. 13, n 1, pp. 14-22, 2005.
[98] D. L. Thomson y R. Chengalvarayan, Use of periodicity and jitter as speech recognition

features., Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE
International Conference on., vol. 1, pp. 21-24, 1998.
[99] M. Graciarena, H. Franco, J. Zheng, D. Vergyri y A. Stolcke, Voicing feature integration

in SRI's decipher LVCSR system., Acoustics, Speech, and Signal Processing, 2004. Proceedings.
(ICASSP '04). IEEE International Conference on., vol. I, n 1, pp. 921-924, 2004.
[100] T. A. Stephenson, M. Magimai-Doss y H. Bourlard, Speech recognition with auxiliary

information., Speech and Audio Processing, IEEE Transactions on., vol. 12, n 3, pp. 189-203,
2004.
[101] C. M. Bishop, Pattern Recognition and Machine Learning, Cambridge, UK: Springer,
2006.
[102] S. Theodoris y K. Koutroumbas, Pattern Recognition, Burlington, MA: Academic Press,

Elsevier, 2009.
[103] A. R. Webb, Statistical Pattern Recognition, Malvern, UK: John Wiley & Sons, Ltd, 2002.
[104] F. van der Heijden, R. P. Duin, D. de Ridder y D. M. J. Tax, Classification, Parameter

Estimation and State Estimation. An Engineering Approach using MATLAB, West
Sussex: John Wiley & Sons Ltd, 2004.
[105] K. Pearson, On lines and planes of closest fit to systems of points in space., Philosophical
Magazine 2, pp. 559-572, 1901.
[106] I. T. Jollife, Principal component analysis, New York: Springer-Verlag, 2002.
132
[107] M. Hauskrecht, R. Pelikan, M. Valko y J. Lyons-Weiler, Feature Selection and
Dimensionality Reduction in Genomics and Proteomics, de Fundamentals of Data Mining
in Genomics and Proteomics, New York, Springer, 2007, pp. 149-172.
[108] N. Kambhatla y T. K. Leen, Dimension Reduction by Local Principal Component

Analysis, Neural Computation. MIT Press Journals, vol. 9, n 7, pp. 1493-1516, 1997.
[109] K. Fukunaga, Introduction to Statistical Pattern Recognition, San Diego: Academic

Press, 1990.
[110] L. J. P. van der Maaten, E. O. Postma y H. J. van den Herik, Dimensionality Reduction:
A Comparative Review, MICC, Maastricht University, Maastricht, 2008.
[111] X. B. Li, J. Y. Li y R. H. Wang, Dimensionality Reduction using MCE-optimized LDA

transformation, Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04).
IEEE International Conference on, vol. 1, pp. 137-140, 2004.
[112] S. Zhang y Z. Zhao, Dimensionality Reduction-Based phoneme recognition, Signal

Processing, 2008. ICSP 2008. 9th International Conference on, pp. 667-670, 2008.
[113] P. Fewzee y F. Karray, Dimensionality Reduction for Emotional Speech Recognition,

Privacy, Security, Risk and Trust (PASSAT), 2012 International Conference on and 2012
International Confernece on Social Computing (SocialCom), pp. 532-537, 2012.
[114] G. Dobry, R. M. Hecht, M. Avigal y Y. Zigel, Supervector Dimension Reduction for

Efficient Speaker Age Estimation Based on the Acoustic Speech Signal, Audio, Speech,
and Language Processing, IEEE Transactions on, vol. 19, n 7, pp. 1975-1985, 2011.
[115] H. Hu y S. A. Zahorian, Dimensionality Reduction Methods for HMM Phonetic

Recognition, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International
Conference on, pp. 4854-4857, 2010.
[116] M. Sakai, N. Kitaoka y S. Nakagawa, Generalization of Linear Discriminant Analysis

used in Segmental Unit Input HMM for Speech Recognition, Acoustics, Speech and Signal
Processing, 2007. ICASSP 2007. IEEE International Conference on, vol. 4, n 4, pp. 333-336,
2007.
[117] N. Kumar, Heteroscedastic discriminant analysis and reduced rank HMM for improved
speech recognition, Speech Communication. , vol. 26, n 4, pp. 283-197, 1998.
[118] S. K. Gaikwad, B. W. Gawali y P. Yannawar, A Review on Speech Recognition

Technique, Internantional Journal of Computer Applications, vol. 3, n 4, pp. 16-24, 2010.
[119] P. Kenny, D. Reynolds y F. Castaldo, Diarization of Telephone Conversation Using

Factor Analysis, Selected Topics in Signal Processing, IEEE Journal of, vol. 4, n 6, pp. 1059-
1070, 2010.
133
[120] D. Wang, R. Vogt y S. Sridharan, Eigenvoice modelling for cross likelihood ratio based
speaker clustering: A Bayesian approach, Computer Speech & Language, vol. 27, n 4, pp.
1011-1027, 2013.
[121] R. E. Bellman, Adaptive control processes: A guided tour, Princeton University Press,
1961.
[122] M. Steinbach, L. Ertoz y V. Kumar, New Vistas in Statistical Physics -Applications in

Econophysics, Bioinformatics and Pattern Recognition, de Challenges of Clustering High
Dimensional data, Springer-Verlag, 2003.
[123] D. W. Scott, Multivariate Density Estimation: Theory, Practice and Visualization, John
Wiley & Sons, Inc., 1992.
[124] I. K. Fodor, A survey of dimension reduction techniques, Information Bridge: DOE

Scientific and Technical Information, 2002.
[125] D. J. Bartholomew, F. Steele, I. Moustaki y J. J. Galbratith, Analysis of Multivariate Social

Science Data, CRC Press. Taylor & Francis Group, 2008.
[126] G. J. McLachlan, Discriminant Analysis and Statistical Pattern Recognition, New Jersey:
John Wiley & Sons, 2004.
[127] J. Himberg y A. Hyvarinen, ndependent component analysis for binary data: An

experimental study, Proc. Int. Workshop on Independent Component Analysis and Blind Signal
Separation (ICA2001), pp. 552-556, 2001.
[128] I. Borg y P. J. F. Groenen, Modern Multidimensional Scaling: Theory and Applications,

Springer, 2005.
[129] M. W. Hirsch, Differential Topology. (Graduate text in mathematics, 33), New York:
Springer-Verlag, 1976.
[130] J. A. Lee y M. Verleysen, Nonlinear Dimensionality Reduction, New York: Springer,

2007.
[131] J. B. Tenenbaum, V. de Silva y J. C. Langford, A Global Geometric Framework to

Nonlinear Dimensionality Reduction, Science, vol. 290, n 5500, pp. 2319-2323, 2000.
[132] M. Belkin y P. Niyogi, Laplacian Eigenmaps and Spectral Techniques for Embedding
and Clustering, Advances in Neural Information Processing Systems, vol. 14, pp. 586-591, 2001.
[133] S. T. Roweis y L. K. Saul, Nonlinear Dimensionality Reduction by Locally Linear

Embedding, Sciece, vol. 290, pp. 2323-2326, 2000.
[134] T. Takiguchi y Y. Ariki, PCA-Based Speech Enhancement for Distorted Speech

Recognition, Journal of Multimedia, vol. 2, n 5, pp. 13-18, 2007.
134
[135] C. Leitner, F. Pernkopf y G. Kubin, Kernel PCA for Speech Enhancement, Advances in
Nonlinear Speech Processing. Lecture Notes in Computer Science, vol. 7015, pp. 199-206, 2011.
[136] A. H. Abolhassani, S. A. Selouani y D. O'Shaughnessy, Speech Enhancement using PCA

and Variance of the Reconstruction error in Distributed Speech Recognition, Automatic
Speech Recognition & Understanding, 2007. ASRU. IEEE Workshop on, pp. 19-23, 2007.
[137] A. Lima, H. Zen, Y. Nankaku, C. Miyajima, K. Tokuda y T. Kitamura, On the Use of

Kernel PCA for Feature Extraction in Speech Recognition, IEICE Transactions, vol. 1,
n 87, pp. 2808-2811, 2004.
[138] T. Takiguchi y Y. Ariki, Robust Feature Extraction using Kernel PCA, Acoustics, Speech
and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on,
vol. 1, pp. 14-19, 2006.
[139] V. D. M. Nhat y S. Lee, PCA-based Human Auditory Filter Bank for Speech
Recognition, Signal Processing and Communications, SPCOM. International Conference on, pp.
393-397, 2004.
[140] K. K. Paliwal y X. Wang, Feature extraction and dimensionality reduction algorithms

and ther applications in vowel recognition, Pattern Recognition, vol. 36, n 10, pp. 2429-
2439, 2003.
[141] L. X. Chun y Y. J. Xun, A Text-independent Speaker recognition System Based on

Probabilistic Principle Component Analysis, System Science, Engineering Design and
Manufacturing Informatization (ICSEM), 2012 3rd International Conference on, pp. 255-260,
2012.
[142] S. Nordholm y S. Y. Low, Speech Signal Extraction Utilizing PCA-ICA Algorithm With
a Non-Uniform Spacing Microphone Array, Acoustics, Speech and Signal Processing, 2006.
ICASSP 2006 Proceedings. 2006 IEEE International Conference on, vol. 5, pp. 14-19, 2006.
[143] O. W. Kwon, K. Chan y T. W. Lee, Speech Feature Analysis using Variational Bayesian
PCA, Signal Processing Letters, IEEE, vol. 10, n 5, pp. 137-140, 2003.
[144] X. Cui, M. Afify y B. Zhou, Stereo-based stochastic mapping with context using
probabilistic PCA for noise robust automatic speech recognition, Acoustics, Speech and
Signal Processing (ICASSP), 2012 IEEE International Conference on, pp. 4705-4708, 2012.
[145] Y. Kaneda, N. Hayasaka y Y. Iiguni, Feature Reduction Using PCA with Multi-
Condition Training for Practical Speech Recognition Systems, Communications and
Information Technologies (ISCIT), 2012 International Symposium on, pp. 93-98, 2012.
[146] M. A. Turk y A. P. Pentland, Face recognition using eigenfaces, Computer Vision and
Pattern Recognition. Proceedings CVPR '91, pp. 586-591, 1991.
135
[147] M. Kirby y L. Sirovich, Application of the Karhunen-Loeve procedure for human
faces., Pattern Analysis and Machine Intelligence, IEEE Transactions., vol. 12, n 1, pp. 103-
108, 1990.
[148] S. E. Ayala-Raggi, Face Image synthesis and interpretation using 3D illumination-based

Active Appearance Models, Instituto Nacional de Astrofsica, ptica y Electrnica,
Tonantzintla, Puebla, 2010.
[149] K. Baker, Singluar value decomposition tutorial, The Ohio State University, Ohio,
2005.
[150] L. Lorente-Gimnez, Representacin de caras mediante eigenfaces, Buran. Escola Tcnica

Superior d'Enginyers de Telecomunicaci de Barcelona, vol. 11, pp. 13-20, 1998.
[151] O. Thyes, R. Kuhn, P. Nguyen y J. C. Junqua, Speaker identification and verification

using eigenvoices, In proceeding of: Sixth International Conference on Spoken Language Processing,
ICSLP 2000 / INTERSPEECH 2000, pp. 242-245, 2000.
[152] J. Marithoz y S. Bengio, A comparative study of adaptation methods for speaker

verification, Proceedings of the International Conference of Spoken Language Processing, pp. 581-
584, 2002.
[153] R. Kuhn, P. Nguyen, J. C. Junqua, L. Goldwasser, N. Niedzielski, S. Fincke, K. Field y

M. Contolini, Eigenvoices for Speaker Adaptation, In proceeding of: The 5th International
Conference on Spoken Language Processing, Incorporating The 7th Australian International Speech
Science and Technology Conference, , 1998.
[154] R. Kuhn, P. Nguyen, J. C. Junqua y L. Goldwasser, Eigenfaces and Eigenvoices:

Dimensionality Reduction for Specialized Pattern Recognition, Multimedia Signal
Processing, 1998 IEEE Second Workshop on, pp. 71-76, 1998.
[155] R. J. Weiss y D. P. Ellis, Speech separation using speaker-adapted eigenvoice speech

models, Computer Speech and Language. Elsevier, vol. 24, pp. 16-29, 2010.
[156] H. Wang, Q. Zhao y Y. Yan, Using eigenvoice coefficients as features in speaker

recognition, Electronic Computer Technology, 2009 International Conference on, pp. 262-266,
2009.
[157] C. H. Huang, J. T. Chien y H. M. Wang, A new Eigenvoice approach to speaker

adaptation, Chinese Spoken Language Processing, 2004 International Symposium on, pp. 109-
112, 2004.
[158] P. Kenny, G. Boulianne y P. Dumouchel, Eigenvoice Modeling with sparse training

data, Speech and Audio Processing, IEEE Transactions on, vol. 13, n 3, pp. 345-354, 2005.
136
[159] P. Nguyen, R. Kuhn, J. C. Junqua, N. Niedzielski y C. J. Wellekens, Eigenvoices: A
compact representation of speakers in model space, Annales Des Tlcommunications , vol.
3, n 4, pp. 163-171, 2000.
[160] E. Fix y J. L. Hodges, An Important Contribution to Nonparametric Discriminant

Analysis and Density Estimation, International Statistical Review / Revue Internationale de
Statistique, vol. 57, n 3, pp. 233-238, 1957.
[161] B. G. Krishna y T. V. Sreenivas, A comparative study of speaker adaptation methods.,

de TENCON. IEEE Region 10 Conference, 2008.
[162] J. L. Flanagan, C. H. Coker, L. R. Rabiner, R. W. Schafer y N. Umeda, Synthetic voices

for computers, IEEE Spectrum, pp. 22-45, 1970.
[163] A.-R. Mohamed, G. E. Dahl y G. Hinton, Acoustic Modeling Using Deep Belief
Networks, Audio, Speech, and Language Processing, IEEE Transactions on, vol. 20, n 1, pp.
14-22, 2012.
[164] M. Gales y S. Young, The Application of Hidden Markov Models in Speech

Recognition, Foundations and Trends in Signal Processing, vol. 1, n 3, pp. 195-304, 2007.
[165] S. Matsoukas, J.-L. Gauvain, G. Adda, T. Colthurst, C.-L. Kao, O. Kimball, L. Lamel, F.
Lefevre, J. Z. Ma, J. Makhoul, L. Nguyen, R. Prasad, R. Schwartz, H. Schwenk y B. Xiang,
Advances in transcription of broadcast news and conversational telephone speech
within the combined EARS BBN/LIMSI system, Audio, Speech, and Language Processing,
IEEE Transactions on, vol. 14, n 5, pp. 1541-1556, 2006.
[166] H. Soltau, B. Kingsbury, L. Mangu, D. Povey, G. Saon y G. Zweig, The IBM 2004
Conversational Telephony System for Rich Transcription, Acoustics, Speech, and Signal
Processing, 2005. Proceedings. (ICASSP '05). IEEE International Conference on, vol. 1, pp. 205-
208, 2005.
[167] G. Evermann, H. Y. Chan, M. J. F. Gales, T. Hain, X. Liu, D. Mrva, L. Wang y P. C.

Woodland, Development of the 2003 CU-HTK conversational telephone speech
transcription system, Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04).
IEEE International Conference on, vol. 1, n 1, pp. 17-21, 2004.
[168] J. Tejedor, D. Wang, S. King, J. Cols y J. Frankel, A comparison of grapheme and

phonem-based units for Spanish spoken term detection, Speech Communication, vol. 50,
n 11-12, pp. 980-991, 2008.
137

Tesis Asesor Final

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tesis Asesor Final

Uploaded by

Copyright:

Available Formats

AGRADECIMIENTOS

A la Benemrita Universidad Autnoma de Puebla por permitirme realizar los estudios de

En este trabajo de tesis se implementa un sistema de reconocimiento automtico del habla, el

NDICE DE FIGURAS ................................................................................................................................... 9

CAPTULO 1 INTRODUCCIN ............................................................................................................ 11

1.1 PREMBULO .......................................................................................................................................... 11

CAPTULO 2 REVISIN DE LA PRODUCCIN DE LA VOZ ..................................................................... 19

2.1 HISTORIA DEL PROCESAMIENTO DEL HABLA ................................................................................................... 19

CAPTULO 3 RECONOCIMIENTO AUTOMTICO DEL HABLA: ESTADO DEL ARTE ................................. 35

3.1 INTRODUCCIN ....................................................................................................................................... 35

CAPTULO 4 REDUCCIN DE LA DIMENSIONALIDAD ......................................................................... 61

4.1 INTRODUCCIN ....................................................................................................................................... 61

CAPTULO 5 IMPLEMENTACIN DEL SISTEMA PROPUESTO ............................................................... 85

5.1 MTODO PROPUESTO .............................................................................................................................. 85

CAPTULO 6 EXPERIMENTOS CON DATOS DE VOZ NATURAL ........................................................... 113

6.1 CORPUS DE VOZ TMW .......................................................................................................................... 113

CAPTULO 7 CONCLUSIONES Y TRABAJO FUTURO........................................................................... 121

7.1 TRABAJO FUTURO ................................................................................................................................. 122

APNDICE A. PUBLICACIONES REALIZADAS ............................................................................................ 123

FIGURA 1-1: SEAL DE VOZ MOSTRADA EN EL DOMINIO TEMPORAL ................................................................................. 12

En este trabajo se implementa un sistema de reconocimiento automtico del habla utilizando

Codificacin por prediccin lineal

Anlisis en tiempo corto de la seal fundamental

El habla, ha permanecido como el medio de comunicacin ms deseable entre las personas. A

0 0.2 0.4 0.6 0.8 1

De forma concurrente a los avances hechos en el procesamiento del habla, en el rea de la

1.3.1 Objetivo general

El objetivo general de este trabajo es Desarrollar un sistema de reconocimiento automtico del

1.3.2 Objetivos Particulares

Esta investigacin se puntualiza por medio de cinco objetivos especficos:

La contribucin principal de esta tesis es un mtodo original para el reconocimiento automtico

Un mtodo capaz de reconocer al habla a travs de la construccin de imgenes

La aplicacin de este mtodo sobre procedimientos de extracciones de caractersticas

La creacin de una tcnica de extraccin de caractersticas plasmando en una imagen

1.5 Organizacin del documento de tesis

El resto de esta tesis est organizado de la siguiente manera:

En el captulo 2 se hace una resea con antecedentes relevantes concernientes a la produccin

A continuacin en el captulo 3 se realiza una profunda revisin de las tcnicas actuales

Finalmente en el captulo 7 se concluye el documento y se presentan los posibles trabajos

2.1 Historia del procesamiento del habla

Al ser un ingeniero elctrico, Dudley aprovech sus conocimientos construyendo un sintetizador

2.2 Aplicaciones del procesamiento del habla

Segundo, el hardware necesario para utilizar el teorema de Muestreo (Whittaker-Nyquist-

Finalmente, la descripcin de la seal de voz en trminos de coeficientes de prediccin lineal (linear

Una tercera aplicacin en el procesamiento de la voz es sintetizarla a travs de un texto. Cuando

Los primeros intentos en la sntesis de la voz consistieron en derivar el espectro variante en el

2.3 Modelos de produccin de voz. El modelo fuente-filtro

Figura 2-1: Esquema del sistema de produccin de la voz (Aparato fonador).

Los sonidos de la voz se clasifican principalmente de maneras:

Sonidos vocalizados fricativos: cuando el tracto vocal se encuentra parcialmente cerrado,

El generador de excitacin (a la izquierda de la Figura 2-4), reproduce los diferentes modos de la

En general, dicho modelo es conocido como modelo fuente-filtro o fuente-sistema de la

2.5 Escala Mel

La escala mel y la escala en Hertz se relacionan por medio de la Ecuacin 2-2:

En la Figura 2-6 se muestra la relacin entre las dos escalas:

HABLA: ESTADO DEL ARTE

La investigacin en el reconocimiento del habla ha estado activo durante ms de 80 aos, periodo

2. Segunda generacin (1950 a 1960): uso de metodologas basadas en la acstica-fontica

3. Tercera generacin (1960 a 1980): uso de reconocimiento de patrones enfocado al

5. Quinta generacin (2000 a 2020): uso de mtodos de procesamiento en paralelo para

Debido a su interdisciplinariedad, el reconocimiento automtico del habla se basa en la voz

Un sistema tpico de reconocimiento automtico del habla (Figura 3-1), es esencialmente un

La voz a analizar pasa a travs de un piezo-elctrico (micrfono), el cual transforma las

3.2 Pre-procesamiento de la seal