You are on page 1of 19

Capítulo 1.

 Compresión de datos y Codificación de voz 
 

Introducción 
   
Antecedentes [1]  

Giambattista della Porta, un científico renacentista algunas veces conocido como el profesor de los secretos, fue el
autor en 1558 de Magia Naturalis (Magia Natural), un libro en el que discute acerca de muchos temas incluyendo
demonología, magnetismo y la cámara obscura. El libro se volvió tremendamente popular en el siglo 16 y se
editó en más de 50 ocasiones en varios lenguajes además de latín. El libro hace mención a un dispositivo
imaginario que desde entonces se conoce como el “telégrafo empático”. Este dispositivo debía de estar
constituido por dos cajas circulares, similares a brújulas cada una con una aguja magnética. Las cajas estarían
etiquetada con las 26 letras del alfabeto en lugar de las direcciones usuales, el objetivo principal era que las dos
agujas supuestamente se magnetizarían por un imán único, Porta asumió que este dispositivo de alguna manera
coordinaría las agujas de tal modo que cuando una letra fuera marcada en una caja, la aguja de la otra caja
cambiaría su orientación para apuntar hacia la misma letra. Sobra decir que dicho dispositivo no funcionó ya
que, después de todo, eran casi 300 años antes de Samuel Morse.

En 1711 una esposa afligida escribió al periódico londinense Spectator preguntando por algún dispositivo para
poder soportar las largas ausencias de su querido esposo. El asesor, Joseph Addison, le ofreció algunas ideas
prácticas en donde hace mención al dispositivo de Porta, sugiriendo que un par de dichas cajas podrían permitir
que ella y su esposo pudieran comunicarse entre si, incluso cuando “se encontraran custodiados por espías y
guardias, o separados por castillos y aventuras”. El señor Addison además añade que, en conjunto a las 26 letras,
el disco del telégrafo empático, debería de poseer para el caso cuando fuera usado por amantes “varias frases
enteras las cuales siempre existen en mensajes apasionados”. El mensaje “te amo” por ejemplo, requeriría enviar
únicamente tres símbolos en lugar de diez.

El consejo de Addison, es un ejemplo rústico de compresión de texto, conseguido al usar códigos cortos para
mensajes comunes y códigos largos para otros mensajes. Más importante aún, este ejemplo muestra como el
concepto de compresión de datos es algo natural a las personas que están interesadas en comunicarse. Al parecer,
los seres humanos están programados con la idea de transmitir la menor información posible con el fin de
ahorrar tiempo.

 

La compresión de datos es el proceso de convertir un stream (flujo) de datos (la fuente o los datos puros) en otro
stream de datos (la salida, el bitstreama o el flujo comprimido) que tiene un tamaño menor. Un stream puede ser
un archivo o un bufferb en memoria. La compresión de datos es popular por dos razones:
 Reduce los recursos necesarios para el almacenamiento de datos.
 Maximiza las capacidades en los canales de transmisión.

La compresión de datos ha madurado en los últimos 20 años. Tanto la cantidad como la calidad de la literatura
encontrada en este campo es una prueba de ello. Sin embargo, la necesidad de compresión de datos no es una
novedad, antes aún de la llegada de las computadoras está presente, como lo sugiere la cita de Blaise Pascal: “He
hecho esta carta más larga de lo usual porque he carecido del tiempo para hacerla más corta”

Existen muchos métodos conocidos para comprimir datos, basados en diferentes paradigmas, enfocados hacia
diferentes tipos de datos y produciendo diferentes resultados, pero todos basados en el mismo principio, es
decir, comprimir los datos al eliminar la redundancia existente de los datos originales en el archivo fuente.
Cualquier dato no-aleatorio posee una estructura, la cual puede explotarse para conseguir una representación
más pequeña de los datos, una representación donde no se distinga una estructura. La idea de comprimir al
reducir redundancias 0 a la ley general de compresión de datos en la cual “se asignan códigos cortos a eventos
comunes (símbolos o frases) y códigos largos a eventos infrecuentes”. La compresión de datos se consigue al
cambiar la representación de los datos de ineficiente (p. ej. largo) a eficiente (corto).

Compresión intuitiva [1]  

Los datos se comprimen al eliminar su redundancia, sin embargo los hace menos seguros y más propensos a
errores. Por otra parte, al incrementar la integridad de los datos, por ejemplo agregando bits de comprobación y
bits de paridad, se incrementa el tamaño de los datos así como la redundancia. La compresión de datos y su
fiabilidad se encuentran entonces opuestos, y es interesante notar que esto es un campo de estudio relativamente
reciente. El telégrafo empático descrito anteriormente, el código Braille de 1820, y el código Morse de 1838
utilizan formas simples e intuitivas de compresión. Hoy en día, estos métodos son principalmente de interés

                                                            
aa
Un bitstream es una secuencia o serie temporal de bits. Un bit (contracción de dígito binario) es la entidad básica de 
información en computación y telecomunicaciones, un bit solamente puede tener el valor de 0 o 1. Estos atributos se han 
aplicado en una gran variedad de sistemas por medio de dispositivos que se caracterizan por dos estados. 
b
 Un  buffer  es  una  región  en  una  memoria  de  almacenamiento  física  donde  se  alojan  temporalmente  datos,  y  es  usada 
prevenir que los programas o los dispositivos que los requieren, se queden sin ellos durante una transferencia. 

 

histórico, ya que actualmente son ineficientes y no pueden competir con las técnicas de compresión modernas
desarrolladas durante las últimas décadas.

La codificación digital, alternativas, ventajas y desventajas [2] 

El campo de compresión de datos, es a menudo conocido también como codificación fuente. El área de codificación
digital es un concepto amplio que abarca la codificación digital de formas de onda analógicas (continuas) e
información que se encuentra ya en formato digital (como secuencias de texto o imágenes digitalizadas). Esta
codificación lossless (sin pérdidas), sin degradación del material original cuando la representación codificada es
decodificada. Codificaciones con pérdida de calidad, usadas debido a que ofrecen una mayor compresión de
datos que codificaciones lossless. El estándar de codificación MPEG-1, por ejemplo, ofrece típicamente un radio
de compresiónc de alrededor de 15, en comparación con un esquema sin pérdidas que ofrece no más de 2. Un
sistema de compresión efectivo sería entonces una combinación de un esquema lossy (con pérdidas) seguido por
un proceso lossless.

La codificación se hace conceptualmente en dos pasos (Figura 1): codificación fuente que transforma a la
información original en un archivo digital comprimido o en un stream, y la codificación de canal que convierte la
información digital obtenida del primer proceso en señales apropiadas para su almacenamiento o su transmisión
en canal. Por ejemplo, un codificador de video puede usar el estándar de codificación fuente MPEG-2 además
de la codificación en canal QAM-TCMd . Entonces una codificación fuente/canal es a menudo usada para
mejorar el desempeño general. Un códec es un codificador/decodificador combinado cuando se emplea una
comunicación bidireccional.

Fuente en medio
Salida digital
digital
Fuente en medio
Salida analógica
análogo
Conversión Codificador  Codificador  Canal o medio de  Decodificador  Decodificador  Conversión
A/D fuente de canal almacenamiento de canal fuente D/A

Figura 1 Codificación en fuente y en canal 

                                                            
ñ
c
 El  radio  de  compresión  está  definido  como:  ó .  Al  inverso  del  radio  de 
ñ
compresión se le conoce como factor de compresión. 
d
 La Modulación en Amplitud en Cuadratura (QAM) es una técnica para transporte de datos mediante la modulación de la 
señal portadora tanto en amplitud y fase. TCM (trellis coded modulation) consigue un transporte de datos de alta velocidad 
y está asociada con QAM. 

 

Los métodos de compresión se pueden ajustar a modelos matemáticos en señales de información (al estimar los
parámetros del modelo), o directamente al procesar la información de las señales (Figura 2).

Adapatado a modelos Basado en Procesamiento de Señales

Sin pérdidas Con pérdidas

Basado en  Dominio 
modelos  Dominio 
Universal espacial o 
estadísticos frecuencial
Codificación de  temporal
Predicción Lineal. 
Regresión polinomial. 
Fractales. (etc.)

Modulación Delta
Aritmético PCM
Basado en 
Lempel‐Ziv DPCM Basado en Filtros
transformación
Gilber Acoplamiento de patrones Cuantización vectorial
Fano (etc.) (etc.)
Huffman
(etc.)

Fourier
Coseno discreto
Sub‐banda
Karhunen‐Loeve
Wavelet
Hadamard
(etc.)
(etc.)

Figura 2 Clasificación de los esquemas de codificación 

Los métodos lossy para procesamiento directo pueden orientarse al dominio de tiempo (empleando muestras
de la señal en el tiempo), el dominio espacial (utilizando elementos de imagen sobre el espacio en un tiempo
fijo), o en el dominio de la frecuencia (en función de las salidas de los filtros al extraer bandas de frecuencias
adecuadas o características, o con coeficientes en un dominio de transformación). La codificación de video
basada en MPEG hace uso de varias de estas estrategias.

Existen una gran cantidad de ventajas y desventajas posibles debido a los parámetros de desempeño en la
codificación digital. Tales parámetros son:

 Eficiencia. El radio de compresión del elemento procesado.


 Retardo. Irrelevante para broadcastinge, pero no para comunicaciones interactivas.
 Complejidad. Medida en operaciones por segundo, o mejor aún, en el costo de la circuitería
codificadora.

                                                            
e
 Forma de transmisión de información en donde un nodo emisor envía información a una multitud de nodos receptores de 
manera simultánea, sin necesidad de reproducir la misma transmisión nodo por nodo. 

 

 Calidad. La cual puede ser una medida subjetiva relacionada a los mecanismos perceptuales humanos.
Idealmente la pérdida de calidad en la codificación digital se origina al descartar información que es
perceptualmente menos importante que la información que es conservada.
 Bit-ratef variable. Las fuentes de contenidos tales como películas contienen una gran variabilidad en su
tasa de información de una imagen a otra que puede explotarse para optimizar la codificación.
 Flexibilidad de acceso. Si es posible acceder y decodificar al bitstream comprimido en cualquier trama
aleatoria.

Una estrategia de procesamiento directo puede orientarse al dominio de tiempo (empleando muestras de la señal
en el tiempo), al dominio espacial (utilizando elementos de imagen sobre el espacio en un tiempo fijo), o en el
dominio de la frecuencia en función de las salidas de los filtros al extraer bandas de frecuencias adecuadas o
características, o con coeficientes (ponderaciones). En ambas versiones, los componentes con menor
importancia son removidos, y las muestras del tiempo o los coeficientes de frecuencias son bits asignados en
función de su importancia perceptual relativa.

 
Señales de voz 
   
El habla [3] [4] [5] [6] 

El habla, ha perdurado como el medio de comunicación más deseable entre humanos. A pesar de los sofisticados
servicios multimedia g de alto desempeño emergentes en los últimos años, las comunicaciones de voz
permanecen como el medio predominante en las comunicaciones humanas. La investigación, el desarrollo de
productos y las nuevas aplicaciones en la codificación del habla, han avanzado dramáticamente en las últimas
dos décadas. A través de las cuatro décadas pasadas, el procesamiento digital de señales se ha consolidado como
una disciplina reconocida, y mucho del ímpetu en este avance, ha sido derivado de la investigación en la
representación, codificación, transmisión, almacenamiento y reproducción de la información de imágenes y del
habla. En particular, el interés en la comunicación de la voz, ha estimulado contribuciones centrales al filtrado
digital y transformaciones espectrales de tiempo discreto. Este desarrollo dinámico fue construido sobre la
convergencia de tres, en aquel entonces, tecnologías en evolución: (a) Teoría de muestreo de datos y

                                                            
f
 Tasa de bits. La cual define al número de bits que se transmiten por unidad de tiempo a través de un sistema de transmisión 
digital o entre dos dispositivos digitales. 
g
 Sistema u objeto que utiliza conjunta y simultáneamente diversos medios, como imágenes, sonidos y texto, en la transmisión 
de una información. 

 

representación de información de señales (la cual, conduce directamente hacia la telecomunicación digital que
proporciona una calidad de señal independiente a la distancia de la transmisión); (b) Computación electrónica
binaria (favorecida por la primera implementación de técnicas de pulsos en circuitos en el diseño de radares);
(c) La invención de dispositivos de estado sólido para el control preciso de corrientes electrónicas (transistores,
los cuales ahora, a través de materiales microelectrónicos, escalan a sistemas de enorme tamaño y complejidad).
Esta oportuna convergencia, fue seguida rápidamente por métodos de fibra óptica para transporte de
información en banda ancha.

Dichos avances, impactan en un aspecto importante de la actividad humana, intercambiar información. Durante la
existencia del hombre, el lenguaje ha desempeñado un papel imprescindible en la comunicación humana, hoy
en día, el habla ejerce una representación incremental en la interacción humana con complejos sistemas de
información. Los servicios automáticos de una diversa variedad, explotan la comodidad del intercambio del
habla, y en el sector corporativo, las sofisticadas teleconferencias de audio/video han reducido la necesidad de
viajes de negocios que implican una demanda económica y de tiempo. En cada caso, el objetivo general es un
ambiente de usuario que capture la esencia de la naturalidad y el realismo espacial de la comunicación cara-a-
cara. De nueva cuenta, el habla es un elemento fundamental, abriendo la posibilidad de ejercerse, un nuevo
entendimiento de diversos sectores de investigación.

 
Breve historia del Procesamiento de la Voz [6] 

Los seres humanos han estado motivados desde hace mucho tiempo a crear máquinas que puedan hablar. Los
primeros intentos en el entendimiento de la producción de la voz, consistieron en la construcción de modelos
mecánicos con la finalidad de imitar el aparato vocal humano. Dos ejemplos datan del siglo 13, cuando el filósofo
alemán Alberto Magno y el científico inglés Roger Bacon, supuestamente construyeron cabezas metálicas
hablantes. Sin embargo, no se conoce documentación existente sobre estos dispositivos. Los primeros intentos
registrados en la construcción de máquinas hablantes se encuentran quinientos años más tarde. En 1761,
Christian Gottlieb Kratzenstein construyó cavidades resonantes, las cuales, cuando se les excitaba con un carrizo
vibratorio, producían los sonidos de las cinco vocales a/e/i/o/u. Por el mismo tiempo, e independiente a este
trabajo, Wolfgang von Kempelen construyó un sintetizador mecánico que podía generar consonantes
reconocibles, vocales y algunas palabras conectadas. Su libro a cerca de su investigación, publicado en 1971,
puede ser considerado como el inicio del comienzo en el procesamiento del habla. Aproximadamente 40 años
después, Charles Wheatstone construyó una máquina basada esencialmente en las especificaciones de von

 

Kempelen. El interés en analogías mecánicas del aparato vocal humano continuó hasta el siglo 20, emulaciones
del tipo de la máquina de von Kempelen fueron construidas por mucha gente además de Wheatstone, como
Joseph Faber, Richard Paget, R. R. Riesz, etc.

Se sabe que un joven hombre, Alexander Graham Bell, tuvo la oportunidad de ver la implementación de
Wheatstone. El también realizó una máquina hablante de la misma naturaleza, sin embargo, ella fue su otro
invento, el teléfono, que proporcionó un ímpetu mayor al procesamiento de la voz moderno. Nadie supondría en
aquel momento del impacto que el teléfono tendría, no solo en la manera en la que la gente se comunica, sino
también en la investigación del procesamiento de la voz como una ciencia por derecho propio. La disponibilidad
de la forma de onda de la voz como una señal eléctrica, trasladó el interés de máquinas mecánicas a máquinas
eléctricas para sintetizar y procesar la voz.

Se realizaron algunos intentos en las décadas de 1920 y 1930 para sintetizar voz eléctricamente, sin embargo, fue
el trabajo de Homer Dudley en 1930, que abrió paso a la era del moderno procesamiento del habla. Su
contribución más importante fue determinar el entendimiento de la naturaleza portadora de la voz. Desarrolló
una analogía entre señales de voz y señales de radio portadoras/moduladas que eran empleadas en la transmisión
y el broadcasting de señales de audio. En el caso del broadcasting de radio, el mensaje a ser transmitido es la
señal de audio, la cual posee frecuencias en un rango de 0-20 kHz. Análogamente, el mensaje a transmitirse en
el caso de la voz es portado principalmente por el aspecto, variante en el tiempo, del tracto vocal, el cual en
cambio, es una representación de los pensamientos que el hablante desea transferir al escucha. Los movimientos
del tracto vocal se encuentran en tasas de cambio silábicas p. ej., en frecuencias entre 0 y 20 Hz. En cada caso,
electromagnética y acústicamente, el mensaje se halla en un rango de frecuencias inadecuado para la transmisión.
La solución para cada caso, es imprimir el mensaje en un portador. En el caso electromagnético el portador es
usualmente una onda sinusoidal de alta frecuencia. En el caso acústico, el portador pude ser una de varias señales,
es la señal cuasi-periódica proporcionada por las cuerdas vocales para los sonidos vocalizados, y la señal similar
a ruido suministrada por la turbulencia generada por la constricción debida a los sonidos aspirados y fricativos,
o una combinación de sonidos vocalizados fricativos. En efecto, la selección del portador así como los cambios
en la intensidad y en la frecuencia fundamental de las cuerdas vocales, pueden ser convenientemente
considerados como partes adicionales del mensaje.

Al ser un ingeniero eléctrico, Dudley procedió a aprovechar sus conocimientos para construir un sintetizador
eléctrico de voz que prescindiera de todos los dispositivos mecánicos de la máquina de von Kempelen. Usó
circuitos eléctricos para generar las señales portadoras, y el mensaje (p. ej. las propiedades del tracto vocal) era

 

conferido en la portadora al hacerlo pasar a través de un filtro variante en el tiempo cuya respuesta en frecuencia
se ajustaba para simular las características transferentes del tracto vocal.

Con la colaboración de Richard Riesz y Stanley Watkins, Dudley implementó (en los laboratorios Bell) dos
dispositivos altamente aclamados basándose en este principio, el Voder y el Vocoder. El Voder fue la primera
máquina hablante variable capaz de producir frases arbitrarias. Era un sistema en el cual una operadora
maniobraba un teclado para controlar la fuente del sonido y el banco de filtros. Este sistema fue exhibido con
gran éxito en la Feria Mundial de Nueva York de 1939, como “Pedro the Voder”. Podía producir una voz de mucha
mejor calidad de lo que había sido posible con los dispositivos mecánicos, sin embargo permaneció básicamente
como una curiosidad.

El Vocoder, por otro lado tuvo un propósito mucho más serio, fue el primer intento de comprimir voz. Dudley
consideró que toda vez que el mensaje en una señal de voz es portado por lentos filtros variantes en el tiempo,
entonces debería ser posible enviar información adecuada para que un receptor fuera capaz de reconstruir una
señal telefónica de voz utilizando un ancho de banda de solo apenas 150 Hz, lo que es aproximadamente 1/20
del ancho de banda requerido para transmitir la señal de voz original. Como el ancho de banda ya era costoso
desde aquellos días, esta posibilidad era extremadamente atractiva desde el punto de vista comercial.

En esta introducción, se ha destinado mucho espacio a la labor de Dudley debido a que sus ideas fueron la base
de prácticamente todo el trabajo en el procesamiento de señales de voz que siguieron; la descripción de la voz
en términos de una portadora (o función de excitación) y su modulación (o envolvente espectral variante en el
tiempo) es aún, 80 años después, la representación básica. Los parámetros usados para cuantificar estos
componentes, desde luego, han evolucionado de muchas maneras. Además del Vocoder de canal (el nombre
moderno para el Vocoder de Dudley) se han inventado muchos otros tipos de Vocoders, p. ej., el Vocoder
formante y Vocoder excitado por voz.

Además de la compresión de voz, la descripción de Dudley fue considerada para otras aplicaciones tales como
sistemas de seguridad por voz, y el espectrógrafo sonoro y su uso como instrumento de comunicación con
personas sordas. Desafortunadamente, la calidad conseguida con implementaciones analógicas en Vocoders
nunca consiguió un nivel aceptable en la telefonía comercial, sin embargo se hallaron aplicaciones útiles en
propósitos militares en donde una pobre calidad en la señal de voz podía ser tolerada. La representación del
Vocoder fue también la base de un sistema de encubrimiento basado en voz usado extensivamente durante la
Segunda Guerra Mundial.

 

Otro ejemplo de una implementación analógica de la representación de Dudley es el espectrógrafo sonoro, que
es un dispositivo que muestra la distribución de energía de una señal de voz como una función de la frecuencia,
y la evolución de esta distribución en el tiempo. Esta herramienta ha sido extremadamente útil para investigar
las propiedades de la señal de voz. Se intentó usar una versión en tiempo real del espectrógrafo aplicándolo
como un medio de comunicación con personas discapacitadas auditivamente, sin embargo no se obtuvieron los
resultados esperados, ya que muy pocas personas fueron capaces de identificar más de 300 palabras, tras haberse
entrenado casi 100 horas, era una tarea difícil para ser considerada práctica.

Durante más de tres décadas posteriores al trabajo pionero de Dudley, una gran cantidad de investigaciones
fueron realizadas en varios aspectos y propiedades de la voz: propiedades en los mecanismos de la producción
del habla, el sistema auditivo, psicofísica, etc. Sin embargo, a excepción de las tres aplicaciones mencionadas, se
hicieron progresos muy pequeños en el procesamiento de la voz y sus aplicaciones, la explotación en esta área
hubo de esperar para la disponibilidad general de hardware digital a principios de la década de 1970. Desde
entonces se han realizado muchos avances en la codificación de la voz para una transmisión eficiente, síntesis
del habla, reconocimiento de voz y de hablantes y asistencia auditiva.

Hoy en día, el área de procesamiento del habla es aún extenso, aunque se ha realizado un gran progreso desde
la invención del teléfono, la investigación en el área del procesamiento de voz se encuentra aún muy activo, y
todavía muchos problemas desafiantes continúan sin resolverse.

 
Aplicaciones del Procesamiento de la Voz [6] 

Como se ha mencionado, una de las primeras metas del procesamiento del habla fue la codificación de la señal
de voz para una transmisión eficiente. Ello se conceptualizó como sinónimo de la reducción del ancho de banda
requerido para transmitir voz. Fueron necesarios muchos avances antes de conseguir el éxito moderno en la
codificación del habla. Primero, las nociones en la teoría de la información, introducidas durante finales de la
década de 1940 y la década de 1950 proporcionó el entendimiento de que la meta apropiada no era reducir el
ancho de banda de la señal, sino la reducción de la información. Segundo, el hardware necesario para utilizar el
teorema de muestreo para convertir una señal continua limitada en banda estuvo disponible, así entonces la
cuantización de las muestras permitieron la digitalización de la señal de voz haciéndola apta para ser procesada
digitalmente.

 

Finalmente, la descripción de la señal de voz en términos de Coeficientes de Predicción Lineales (linear prediction
coefficients –LPC-) proporcionaron una representación sumamente conveniente (la teoría de la codificación
predictiva fue de hecho desarrollada en 1955, sin embargo su aplicación al procesamiento de señales de voz fue
realizada hasta finales de la década de 1970).

Una señal de voz telefónica, limitada en frecuencia en el rango de 0 a 3.4 kHz, requiere de 64 kbps (kilobits por
segundo) para ser transmitida sin pérdida de calidad. Con las técnicas modernas de compresión de voz, el bitrate
puede ser reducido a 13 kbps con muy poca degradación. Para la telefonía comercial un desafío latente es reducir
el bitrate requerido sin sacrificar la calidad de la señal. Hoy en día la razón de bits puede disminuirse hasta 2.4
kbps mientras se mantiene una muy alta inteligibilidad, pero con una pérdida de calidad significante; incluso, se
han realizado algunos intentos para reducir el bitrate hasta 300 bps, p. ej. en comunicaciones de radio con
submarinos, sin embargo la calidad e inteligibilidad en estas razones de bits tan bajas son muy pobres.

Otra aplicación altamente exitosa en el procesamiento de la voz es el Reconocimiento Automático de la Voz (automatic
speech recognition –ASR-). Los primeros intentos en ASR consistieron en crear modelos determinísticos de
todas las palabras en un pequeño vocabulario (p. ej. 100 palabras) y reconocer una declaración de voz como la
palabra cuyo modelo se acerque más al modelo almacenado. La introducción de Modelos Ocultos de Markov (hidden
Markov models –HMMs-) a principio de la década de 1980 proporcionaron una herramienta mucho más
poderosa para el reconocimiento de la voz. Hoy en día, muchos productos han sido desarrollados y utilizan
exitosamente ASR para comunicación entre humanos y máquinas, el reconocimiento puede hacerse para frases
de voz continuas utilizando un vocabulario grande, y como si se tratara de un hablante independiente. El
desempeño de estos dispositivos, sin embargo, se deteriora en presencia de reverberación e inclusive ante bajos
niveles de ruido ambiental. La robustez ante el ruido, reverberación y características del transductor, es aún un
problema no resuelto.

El objetivo del ASR es reconocer a la voz con precisión no importando el hablante del que se trate. El problema
complementario es reconocer al hablante desde su voz, despreocupándose de las palabras que él o ella diga. En
el presente, este problema parece ser solucionable solo si el hablante es uno de un pequeño conjunto de N
hablantes conocidos. Una variante del problema es la verificación del hablante, en la cual el objetivo es verificar
automáticamente la supuesta identidad de un hablante. Mientras el reconocimiento de hablantes, requiere de la
selección de uno de N posibles resultados, la verificación de hablantes solamente requiere una respuesta como
sí/no. Este problema puede ser resuelto con un alto grado de precisión para una población mucho mayor. La
verificación de hablantes converge en aplicaciones en donde dispositivos o datos deban de ser controlados. El

 
10 
problema de un desempeño reducido en la presencia de ruido, como lo es para ASR, se halla también en el
reconocimiento y verificación de hablantes.

Una tercera aplicación del procesamiento de la voz, es la síntesis de la voz a partir de un texto. Cuando se usa
en conjunto con ASR, la síntesis de la voz permite una interacción entre humanos y máquinas en dos sentidos.
La síntesis de la voz es también una manera para comunicar personas que son incapaces de hablar. Su uso para
este propósito es bien conocido debido al famoso físico Stephen Hawking.

Los primeros intentos en la síntesis de la voz consistieron en derivar el espectro variante en el tiempo para la
secuencia de fonemas en una secuencia de texto, entonces se procedía a estimar el tracto vocal de la variación
correspondiente para posteriormente sintetizar a la voz al excitar el tracto vocal variante en el tiempo con
excitaciones periódicas o similares a ruido cuando según fuera el caso. La calidad de la síntesis era
significativamente mejorada al concatenar unidades pre-almacenadas (p. ej. segmentos cortos como monosílabos
o bisílabos) después de modificarlos para encajar en el contexto. Hoy en día la señal de voz con mayor calidad
es sintetizada por el método de selección de unidad, en el cual las unidades son seleccionadas de un gran número
de voces almacenadas y concatenadas con muy poca o inclusive sin modificación alguna.

Finalmente, cabe mencionar la aplicación del procesamiento del habla como ayuda para personas con
capacidades reducidas. La tecnología para ayuda auditiva ha tenido progresos considerables en las últimas dos
décadas, y parte de este progreso es debido a una lenta pero continua mejora en el entendimiento del mecanismo
auditivo, y gran parte es debido a la disponibilidad de hardware digital de alta velocidad, lamentablemente en la
actualidad el desempeño de la ayuda auditiva es pobre todavía en condiciones ambientales de ruido y
reverberación. Una aplicación potencialmente útil en el procesamiento de la voz es la ayuda a personas con
capacidades reducidas para desplegar la forma del tracto vocal mientras un hablante genera voz. Al intentar
igualar la forma del tracto de vocal a una forma mostrada, una persona sorda puede aprender su pronunciación
correcta. Se han hecho algunos intentos para implementar esta idea, desafortunadamente se encuentran
solamente aún en el campo de la investigación.

Otra aplicación útil es la ayuda de lectura para ciegos. La idea es contar con un dispositivo que pueda escanear
texto impreso de un libro, y sintetizar voz del texto escaneado, acoplado con un dispositivo para modificar la
tasa de lectura, forma una ayuda muy útil para las personas ciegas. Muchos productos ofreciendo esta aplicación
se encuentran ya disponibles en el mercado.

 
11 
Motivación en la compresión de Voz [4] 

De acuerdo a la teoría de la información, el bitrate mínimo en el cual la condición para una transmisión sin
distorsiones de cualquier fuente de señal es conseguida, se encuentra determinada por la entropía (incertidumbre)
de la fuente del mensaje. Sin embargo hay que advertir que en términos prácticos, la tasa correspondiente a la
fuente debido a la entropía es solo asintóticamente alcanzable si el tamaño de la memoria codificadora o en su
defecto, las líneas de retardo tienden a infinito. Cualquier compresión adicional es entonces asociada a la pérdida
de información o distorsión de codificación.

Hay que notar que un codificador en fuente de Shannon óptimo, generaría un stream codificado de fuente
perfectamente no correlacionado, en donde toda la redundancia de la fuente ha sido removida, por lo tanto los
símbolos de la fuente codificada (los cuales se encuentran en la mayoría de los casos prácticos constituidos por
bits binarios) son independientes y cada uno posee la misma importancia. Al tener la misma importancia implica
que la degradación de cualquiera de los símbolos codificados resulte en una distorsión de fuente idéntica en
canales que no son perfectos.

Bajo estas condiciones, y de acuerdo al trabajo fundamental de Shannon, la mejor protección en contra de errores
de transmisión se consigue, si la codificación del canal y de la fuente se tratan como entidades distintas. Cuando
se emplean símbolos codificados del canal con un bloque de código de longitud N con la finalidad de codificar
K símbolos fuente con una tasa de codificación de R=K/N, la tasa de error en los símbolos puede producirse
arbitrariamente baja si N tiende a infinito con lo cual la tasa de codificación se aproxima a cero. Esta condición
también implica un retardo de codificación infinito. Basándose en estas consideraciones y en la suponiendo la
presencia de Ruido Blanco Aleatorio Gaussiano (Additive White Gaussian Noise –AWGN-), la codificación de
la fuente y del canal se han encontrado históricamente separadas para optimizarse.

En el diseño de un sistema de telecomunicaciones uno de los parámetros más destacados es el número de


suscriptores que pueden ser alojados por los medios de transmisión empleados. Ya sea con un sistema de
multiplexación por división temporal (time division multiplex -TDM-) o multiplexación por división en
frecuencia (frequncy division multiplex -FDM-), si es analógico o digital, el número de suscriptores se encuentra
limitado por la capacidad del canal necesario de un canal de voz. Si la demanda en la capacidad del canal en los
canales de voz se reduce a la mitad, el número total de suscriptores puede duplicarse. Esta ganancia se vuelve
particularmente importante en aplicaciones como la potencia y satélites limitados en banda o canales de radio
móviles, en donde la demanda de urgencia de canales libres ensombrece al inevitable costo de restricciones

 
12 
impuestas por los cada vez más complejos codificadores de voz de bajo bitrate. En el marco de las limitaciones
básicas en el estado del arte de la tecnología de Muy Alta Escala de Integración (Very Large Scale Integration –
VLSI-), el diseño de un códec de voz se encuentra basado en un intercambio óptimo entre alta calidad y bajo
bitrate, y el precio en la baja complejidad, costo y retardo del sistema.

Caracterización básica de las señales de Voz [4] 

En contraste a las señales determinísticas, las señales aleatorias como la voz, música, video, etc., la información
de las señales no puede ser descrita con ayuda de métodos analíticos. Típicamente son caracterizadas con la
ayuda de una variedad de propiedades estadísticas. La conocida Densidad Espectral de Potencia (power spectral
density –PSD-), la Función de Auto-Correlación (auto-correlation function –ACF-), la Función de Distribución
Acumulativa (cumulative distribution function –CDF-) y la Función de Densitad de Probabilidad (probabilty
density function -PDF-) son algunas de las herramientas más empleadas.

Modelos de Producción de la Voz. El modelo Fuente‐Filtro [6] [7] [8] [9] 

El sonido de la voz es una onda de aire que se origina debido a acciones complejas en el cuerpo humano,
fundamentado en tres unidades funcionales: la generación de aire presurizado, la regulación de la vibración, y el
control de los resonadores. La presión en el aire de los pulmones para la voz, resulta de las funciones en el
sistema respiratorio durante una fase prolongada en la exhalación después de una corta inhalación. Las
vibraciones del aire para sonidos vocalizados se generan en las cuerdas vocales de la laringe, las cuales son
controladas por un conjunto de músculos laríngeos y un flujo de aire proveniente de los pulmones. La oscilación
de las cuerdas vocales convierte al aire expirado en un flujo de pulsos de aire intermitentes que dan lugar a un
sonido silbante. Las estrechas constricciones del conducto del aire a través del tracto sobre la laringe también
generan fuentes de sonido transitorias, cuya presión genera un flujo de aire con turbulencias o ráfagas de sonido.
Los resonadores se forman en la parte superior del tracto respiratorio debido a las cavidades faríngeas, orales y
nasales. Dichas cavidades actúan como cámaras de resonancia que transforman los sonidos silbantes laríngeos
o los sonidos turbulentos en sonidos con funciones lingüísticas especiales. Los articuladores primarios son la
lengua, la mandíbula inferior, los labios y el paladar, ellos generan patrones de movimientos que alteran las
características resonantes del conducto del aire supra-laríngeo. Los procesos fisiológicos en la producción de la
voz se realizan debido a la secuencia combinada de acciones de los órganos del habla para la fonación y

 
13 
articulación. Estas actividades resultan en un fenómeno de propagación en tres niveles: cavidades sub-glotales,
cavidades del tracto vocal, y cavidades nasales y paranasales, como se muestra en la Figura 3:

Figura 3 Esquema del sistema de producción de la voz. 

En la Figura 4, se muestra un esquema transversal de una sección longitudinal del mecanismo del tracto vocal
humano. El diagrama resalta las características físicas esenciales de la anatomía humana que aparecen en las
etapas finales del proceso de producción de la voz. Muestra al tracto vocal como un tubo no uniforme de área
con seccionado transversalmente y que está unido en uno de sus extremos por las cuerdas vocales y en el otro
por la apertura vocal. Este tubo funciona como un sistema de transmisión acústico para sonidos generados
dentro del tracto vocal. Para crear sonidos nasales como /M/, /N/ o /Ñ/ un tubo con derivación lateral,
llamado tracto nasal, se encuentra conectado a la línea principal acústica por una acción de trampa en el paladar.
El camino de la derivación irradia sonido hacia las fosas nasales. La forma (variación de la sección transversal a
lo largo del eje) del tracto vocal, varía en función del tiempo debido a los movimientos de los labios, la mandíbula,
la lengua y el paladar. Aunque el tracto humano vocal real no está colocado en una línea recta como en la Figura
4, este tipo de modelo es una aproximación razonable para longitudes de onda en la voz.

Los sonidos de la voz se generan en el sistema de la Figura 4 de varias maneras:

 
14 
Sonidos vocalizados. (Vocales, líquidas, deslizadas y nasales) se producen cuando el tubo del tracto vocal es
excitado por pulsos de aire presurizado resultantes de una apertura y cierre cuasi-periódico en el orificio glotal
(apertura entre las cuerdas vocales).

Figura 4 Modelo esquemático del sistema del tracto vocal [10] 

Sonidos no vocalizados. Se producen al crear una constricción en algún lugar del tubo del tracto vocal y
forzando aire a través de esa constricción, generando así una turbulencia den el flujo de aire, el cual se comporta
como una excitación de ruido aleatorio del tracto vocal. Ejemplos de estos tipos de sonidos fricativos no
vocalizados son las consonantes /S/ y /SH/.

Vocalizados fricativos. Cuando el tracto vocal se encuentra parcialmente cerrado, causando un flujo turbulento
debido a la constricción, al mismo tiempo permitiendo un flujo cuasi-periódico debido a las vibraciones de las
cuerdas vocales como en /V/ y /Z/.

Sonidos explosivos. Tales como la /P/, /T/ y /K/ y fricativos como /CH/se forman por un cierre
momentáneo de flujo de aire, permitiendo subir la presión antes del cierre y repentina y abruptamente liberar
dicha presión.

Todas estas fuentes de excitación crean una señal de excitación ancha en banda en el tubo del tracto vocal, el
cual actúa como una línea de transmisión acústica con ciertas resonancias dependientes de la forma del tracto
vocal que tienden a enfatizar algunas frecuencias de la excitación relativas a otras. Como ya se ha dicho, el carácter
general de la señal de voz varía en una tasa de fonemas, el cual se encuentra en un orden alrededor de 10 fonemas

 
15 
por segundo, mientras que las variaciones temporales detalladas para la forma de onda de la voz se encuentran
en una tasa mucho mayor, esto es, los cambios en la configuración del tracto vocal ocurren relativamente lento
comparadas contra las variaciones temporales detalladas en la señal de voz. Los sonidos creados en el tracto
vocal están formados en el dominio de la frecuencia por la respuesta en frecuencia del tracto vocal. Las
frecuencias resonantes resultantes de una configuración en particular de los articuladores son instrumentos en
la formación del sonido correspondiente a un fonema dado. Estas frecuencias resonantes son conocidas como
frecuencias formantes del sonido. En resumen, las estructuras finas de la forma de onda en el tiempo son
generadas por las fuentes de sonido en el tracto vocal, y las resonancias tubo del tracto vocal forman a estas
fuentes de sonido en fonemas. El sistema de la Figura 4 puede ser descrito por medio de la teoría acústica, y
pueden usarse técnicas numéricas para crear una simulación física completa de la generación y transmisión del
sonido en el tracto vocal, sin embargo, para la mayoría de las aplicaciones, es suficiente modelar la producción
de una señal de voz muestreada por un modelo de sistema en tiempo discreto como el que se muestra en la
Figura 5

Parámetros Parámetros del


de Excitación Tracto vocal

Generador Sistema
de Excitación Lineal
Señal de excitación Señal de voz
e[n] s[n]  

Figura 5 Modelo Fuente/Filtro para ua señal de voz 

  

El generador de excitación a la izquierda, simula los diferentes modos de la generación de sonido en tracto vocal.
Las muestras de una señal de voz se asumen que son la salida del sistema lineal variante en el tiempo.

En general, dicho modelo es conocido como modelo fuente-sistema de la producción de voz. La respuesta en
frecuencia en tiempo-corto del sistema lineal simula la formación de frecuencia en el sistema del tracto vocal, y
ya que el tracto vocal cambia relativamente lento, es razonable asumir que la respuesta del sistema línea no varía
sobre intervalos de tiempo del orden de alrededor de 10 ms.

 
16 
Debido a ello es común caracterizar al sistema lineal discreto en tiempo con una función de sistema de la forma:

∑ ∏ 1
1 ∑ ∏ 1

Ecuación 1 Función del sistema del modelo de producción de la Voz 

En donde los coeficientes del filtro ak y bk (etiquetados como los parámetros del tracto vocal en la ¡Error! No
se encuentra el origen de la referencia.) cambian en una tasa del orden de 50-100 veces por segundo. Algunos
de los polos (bk) en la función del sistema se encuentran cerca del círculo unitario y crean resonancias en las
frecuencias formantes del modelo. Para modelado en detalle de la producción de voz, es frecuentemente útil
usar ceros (dk) de la función del sistema para poder modelar sonidos nasales y fricativos. Sin embargo, como se
analizará posteriormente, muchas aplicaciones del modelo fuente-sistema, como es el caso de este trabajo,
solamente incluyen polos en el modelo debido a que se simplifica el análisis requerido para estimar los
parámetros del modelo de la señal de voz. En la Figura 6 se muestra el modelo de producción de la Voz con
mayor detalle, la sección de generación de excitación crea la excitación apropiada para el tipo de sonido que está
siendo producido. Para sonidos vocalizados la excitación del sistema lineal es una secuencia cuasi-periódica de
pulsos (glotales) discretos.

Periodo tonal
Av
Modelo de
Generador
pulsos
de tren de X
glotales Parámetros del
impulsos
G(Z) Tracto vocal

Modelo del Modelo de


Conmutador sonidos
tracto vocal Radiación
Vocalizados/no-vocalizados
V(Z) R(Z) Señal de voz sintetizada
s[n]

Generador
de ruido X
aleatorio

An

Figura 6 Modelo general para tiempo discreto del modelo para producción de la Voz 

 
17 
La frecuencia fundamental de la excitación glotal determina el tono percibido para la voz. Los pulsos glotales
individuales de duración finita poseen un espectro pasa-bajas que depende de varios factores, por lo tanto la
secuencia periódica de pulsos glotales suaves tiene un espectro de líneas harmónicas con componentes que
decrecen en amplitud cuando la frecuencia aumenta. A menudo es conveniente fusionar la contribución del
espectro de pulsos glotales en el modelo del sistema del tracto vocal. Esto puede lograrse con un pequeño
incremento en el orden del denominador por lo que es necesario representar las resonancias formantes.

Para la voz no-vocalizada, el sistema lineal se encuentra excitado por un generador de números aleatorios que
produce una señal de ruido de tiempo discreto con un espectro plano. La excitación de la Figura 6 conmuta
entre sonidos vocalizados y no-vocalizados produciendo la señal de voz mostrada a la salida del conmutador.
En ambos casos, el sistema lineal pone su respuesta en frecuencia en el espectro para crear los sonidos de voz.

Este modelo del habla como salida de un filtro digital que varía de manera lenta en función del tiempo con una
excitación que captura la naturaleza de la distinción de la producción de una señal de voz vocalizada/no-
vocalizada es la base para representar y concebir una señal de voz, y una amplia variedad de representaciones
digitales de la señal de voz que están basadas en ella, es decir, la señal de voz está representada por los parámetros
del modelo en lugar de una forma de onda muestreada.

Al asumir que las propiedades de la señal de voz (y del modelo) son constantes en intervalos cortos de tiempo,
es posible calcular, medir y estimar los parámetros del modelo al analizar segmentos cortos de muestras de la
señal de voz. Es a través de estas técnicas de modelación y análisis que es posible construir las propiedades del
proceso de producción de la voz en una representación digital.

 
18 
Referencias 
 

[1]   D. Salomon, Data compression. The complete reference, London: Springer‐Verlag, 2007.  

[2]   S. Weinstein, The multimedia internet, New York: Springer, 2005.  

[3]   A. M. Kondoz, Digital speech. Coding for low bitrate communication systems, West sussex: John Wiley & 
Sons Ltd, 2004.  

[4]   L. Hanzo, F. C. Somerville y J. Woodard, Voice and audio compression for wireless communications, West 
sussex: John Wiley & Sons, Ltd, 2007.  

[5]   R. Goldberg y L. Riek, A practical handbook of speech coders, Florida: CRC Press LLC, 2000.  

[6]   J. Benesty, M. M. Sondhi y Y. Huang, Springer handbook of speech processing, Berlin: Springer‐Verlag, 
2008.  

[7]   L. R. Rabiner y R. W. Schafer, Theory and Applications of Digital Speech Processing, New Jersey: Pearson 
Higher Education, Inc., 2011.  

[8]   L. R. Rabiner y R. W. Schafer, Digital Processing of Speech Signals, New Jersey: Prentice‐Hall. Signal 
processing series, 1978.  

[9]   A. Spanias, T. Painter y V. Atti, Audio Signal Processing and Coding, New Jersey: John Wiley & Sonc, Inc, 
2007.  

[10] J. L. Flanagan, C. H. Coker, L. R. Rabiner, R. W. Schafer y N. Umeda, «Synthetic voices for computers,» IEEE 
Spectrum, pp. 22‐45, 1970.  

 
19 

You might also like