You are on page 1of 4

Codificacin de la voz y video

Gastn Pereira

Martn Causa

Sofa Prez

Facultad de Ingeniera
Universidad de la Repblica
Montevideo, Uruguay
gastonpereira411@gmail.com

Facultad de Ingeniera
Universidad de la Repblica
Montevideo, Uruguay
tinchoidex@yahoo.com.ar

Facultad de Ingeniera
Universidad de la Repblica
Montevideo, Uruguay
sperezcasulo@gmail.com

AbstractoEste documento trata sobre la necesidad de


codificar la voz y video para poder transmitirlo en forma digital,
haciendo especial hincapi en los cdec G.711, G.723 y G.722. Se
da una breve resea histrica de como surgieron los primeros
cdec, y las caractersticas ms importantes de algunos de ellos.
Finalmente se describe la codificacin de video.
Palabras clavescodificacin; vocoders; voz; bitrate

I.

INTRODUCCIN

Con el surgimiento de los sistemas de comunicacin


digitales se hizo necesario algn proceso de codificacin que
transforme las seales analgicas, en una secuencia de bits
(seal digital). El ingeniero britnico Alec Reeves (Fig. 1)
concibi el uso de PCM (Pulse Code Modulation) en 1937 para
las comunicaciones de voz [1]; la idea consista en muestrear la
seal analgica, darle un valor discreto (cuantificacin) y luego
a cada muestra asignarle un cdigo binario distinto. Reeves
describi la teora y sus ventajas, pero no le dio usos prcticos.
En 1943, durante la Segunda Guerra Mundial, los investigadores
de los Laboratorios Bell desarrollaron SIGSALY [2], un sistema
seguro de comunicacin entre los Aliados. SIGSLAY es
considerado el primera transmisor de voz en utilizar PCM.
Recin en la dcada de los 60 con la invencin del transistor la
tecnologa PCM se populariza, y si bien codifica la seal de
audio de la manera ms eficiente, tiene el inconveniente de la
alta tasa de bits utilizada para la transmisin. Para solucionar
este problema en 1967 Bishnu S. Atal (Fig. 2) presenta en una
conferencia en Boston [3] un sistema de codificacin predictiva
conocida como LPC (Linear Prediction Coding).

Fig. 1. Alec Reeves

Fig. 2. Bishnu S. Atal

Los sistemas de codificacin predictivos se basan en que la


voz puede modelarse como una combinacin lineal de p
muestras anteriores ms una seal de error (1). Los coeficientes
de la combinacin lineal se van ajustando cada cierto tiempo,
por lo que se denomina que el predictor es adaptativo. Este tipo
de codificadores en los cuales se analiza la seal de voz
correspondiente a un corto perodo de tiempo y luego se estima
parmetros, creando voz sinttica, son denominados vocoders.
Las tcnicas de codificacin LPC evolucionaron en la
dcada de los 80 a lo que se conoce como CELP (Code-excited
linear prediction), uno de los algoritmos de codificacin de voz
ms comnmente utilizados, incluso hoy en da. CELP es un tipo
de codificacin hbrida, es decir combina las tcnicas de los
codificadores de forma de onda; como PCM, con los vocoders.
Estos tienen una alta calidad de voz a tasas de bits bajas
(inferiores a 8kHz).
(1)

II.

CDECS

El cdec es el cdigo especfico que se utiliza para la


codificacin/decodificacin de los datos; precisamente la
palabra cdec es una abreviatura de codificador-decodificador.
La mayor parte de los cdec provoca prdidas de informacin
para lograr un tamao de archivo lo ms pequeo posible. Entre
las caractersticas ms importante de los cdecs de audio se
encuentran su tasa de bits (bits rates), la calidad resultante del
audio codificado, su complejidad, el retardo y el tipo de
tecnologa empleada. Los cdecs empleados en la codificacin
de la voz humana, puede emplear ciertas caractersticas de la
misma; por ejemplo la voz puede tener tonos que lleguen hasta
los 20kHz, lo que corresponde con el lmite de frecuencia que
puede escuchar el odo humano. Sin embargo, la mayor parte de
la energa de la voz, se centra en frecuencias bajas, tpicamente
por debajo de los 4 kHz. Los cdecs que fueron diseados para
trabajar en esta banda (300 Hz a 3.4 kHz) son denominados
cdecs de Banda Angosta (Narrowband). Para una mejor
calidad de audio se utilizan cdecs de Banda Ancha
(wideband) que van desde los 50 Hz hasta los 7kHz. Ocupando
una mayor porcin del espectro audible existen los cdecs de
Banda Superancha (Superwideband) y de Banda Completa

(Fullband) que llegan hasta los 14 kHz y 20kHz


respectivamente. En la Fig. 3 [4] podemos apreciar las distintas
clasificaciones.

Fig. 3. Clasificacin del ancho de banda para la voz

La Tabla I representa alguno de los cdecs ms importante, junto


a sus caractersticas principales.
TABLE I.

CONJUNTO DE CDECS DE VOZ Y SUS PRINCIPALES


CARACTERSTICAS

G.711- La recomendacin G.711 fue aprobada por la ITU-T en


el ao 1988, y describe un cdec de audio que utiliza el sistema
de modulacin PCM. La tasa de muestreo es de 8000 muestras
por segundo (8kHz) con una tolerancia de 50 partes por milln
[5]. Al muestrear a 8 kHz por el teorema de muestreo el ancho
de banda es de 4kHz aproximadamente, por lo que G.711 es un
cdec de banda angosta. Para la codificacin se utiliza 8 dgitos
binarios por muestra, lo que genera una tasa de transferencia de
64 kbps. El perodo de muestreo es de 125 ms, es decir que luego
que llega una muestra hay que esperar por lo menos 125 ms para
la siguiente; lo que genera un retardo. A los efectos de una
conversacin telefnica, por debajo de los 150 ms es una latencia
aceptable. Para la cuantificacin se utilizan 2 algoritmos no
lineales, ley , utilizada en Estados Unidos y Japn, y ley A,
usada en Europa y el resto del mundo. Ambas leyes utilizan una
funcin logartmica para determinar 256 niveles de
cuantizacin, explotando la idea de que el odo humano es ms
sensible a diferencias de sonido en amplitudes bajas que en
amplitudes altas. En la prctica se usan segmentos de rectas que
se aproximan lo ms posible a la frmula terica. En el caso de
la Ley A, la separacin de los niveles (Ver Fig. 4) se realiza de
la siguiente manera:
1.

Se divide el eje vertical en 8 niveles iguales.

2.

Se marca sobre el eje


1,12, 14, 18, 116, 132, 164, 1128.

3.

Uniendo las intersecciones se obtienen los niveles


primarios (segmento).

4.

Se divide cada nivel en 16 subniveles iguales(intervalo)

x,

Fig. 4. Divisin en niveles de cuantificacin para la ley A.

los

valores

Para la codificacin la Ley A, utiliza el primer bit para


representar el signo de la muestra, los siguientes 3 el segmento
y los ltimos 4 el intervalo (Fig. 5).

Fig. 5. Codificacin Ley A.

Debido a que el ruido acstico de fondo, que se transmite


junto con la voz, desaparece cuando se corta la transmisin, se
genera una sensacin molesta para el oyente. En el Apndice de
la recomendacin G.711 se da una definicin de ruido de
confort, utilizada en los sistemas de comunicacin sobre redes
de paquetes, para solucionar este problema. Mediante un
algoritmo VAD (Voice Activity Detection) el sistema detecta si
hay o no voz activa durante la llamada. En el caso de que VAD
no detecte voz, el transmisor genera ruido sinttico mediante el
CND (Confort Noise Generator) y lo transmite a un ritmo
constante hacia el receptor. En la prctica de laboratorio
pudimos comprobar dicho malestar que se genera al desactivar
el CND y el VAD en uno de los telfonos.
G.722- Es un cdec de banda ancha aprobado por la ITUen noviembre de 1988 [6]. Es utilizado principalmente en
aplicaciones de voz sobre IP donde se cuenta con un amplio
ancho de banda disponible para la transmisin; por ejemplo
redes LAN. El bitrate es de 48,56 y 64 kbits/s, y al tener un ancho
de banda de 50 a 7000 Hz, ofrece una gran calidad de audio. La
banda es dividida en dos partes, cada una codificada utilizando
ADPCM (Adaptative Differential Pulse Code Modulation).
Cada parte es muestreada a 16kHz utilizando 14 bits por
muestra. Luego el codificador ADPCM reduce la velocidad a 64
kbits/s.
G.723.1- Este cdec tiene asociado dos velocidades binarias,
5.3 y 6.3 kbits/s. Utiliza ventanas de audio de 30 ms entre las
cuales se puede conmutar las velocidades [7]. Adems de los
30ms de retardo, tiene un preanlisis de 7.5 ms, resultando en un
retardo algortmico de 37.5 ms. El cdec se basa en los
principios de la codificacin de prediccin lineal anlisis por
sntesis o ACELP. Es mayormente utilizado en aplicaciones de
VoIp (Voice over IP) debido a sus bajos requerimientos de
ancho de banda (300 3400 Hz). Msica o tonos como DTMF
(Dual Tone multi frecuency) no pueden ser transportados en este
cdec, dado que se filtran las altas frecuencias, esto fue posible
comprobar en la prctica de laboratorio al intentar mandar tonos
DTMF con los telfonos codificados en G.723.1.

II.

SINTETIZADOR DE VOZ

Cuando se empez a digitalizar la voz se dieron cuenta que


en si tiene mucha redundancia, que en un periodo corto de
tiempo hay mucha relacin entre muestras siguientes, por lo que
podemos buscar otra forma de mandar esa informacin que no
sea solo muestrearla y explotar esa redundancia que hay. Por lo
que se empez a estudiar cmo se generaba la voz humana,
empezando el aire en los pulmones y que pasaba hasta que sala
por la boca y la nariz. Y se lleg a que en periodos cortos de
tiempo a la seal se la poda modular como un tren de pulsos,
por lo que se empez a estudiar cmo lograr conseguir el peso
de esos pulsos que minimizara el error entre la seal original y
la nueva, para poder enviar esa informacin en vez de la seal
muestreada.
Los sintetizadores de voz tienen la ventaja que al explotar
esta redundancia se necesita enviar menos informacin
teniendo una tasa menor de bits que la que se obtiene de
muestrear la seal, y tiene la desventaja de que introducen
mayor retardo porque antes de enviarla hay que procesarla
(tambin muchos sintetizadores necesitan un look ahead,
muestras que van a venir, agregando ms retardo), otra
desventaja es que aumenta la complejidad del audio.
En el laboratorio establecimos una llamada con el cdec
G.723 (5,3kbps) y pudimos apreciar que la calidad del audio de
la comunicacin a nuestra percepcin era la misma comparando
con la llamada establecida con el cdec G.711. Si logramos
sentir diferencia cuando lo que envibamos era msica en vez
de voz humana. Pero esto es lgico porque no se est trabajando
bajos las hiptesis para las cuales fue creado el cdec.

Fig. 6. Bytes por segundos de protocolo RTP de un terminal y el otro en una


llamada con G.723 de 5.3kHz.

En la Fig. 2 podemos ver la cantidad de byte por segundo que


se intercambian en los protocolo RTP en una llamada con
G.723 de 5.3 kHz. Este cdec utiliza ventanas de 30ms en las
cuales enva 20 bytes, pero al utilizar el cdec sobre IP se le
agregan muchos bytes de los encabezados de las distintas capas,
por lo que terminamos utilizando 24 kbps de ancho de banda al
trasmitir con este cdec. Mucho menor que los 86 kbps
necesarios del cdec G711. El G.723 tiene una latencia de
37.5ms la cual no es perceptible por el humano, pero si
agregamos los retardos en la red puede llegar a ser molesto.

III.

CODIFICACIN DE VIDEO

Los estudios acerca de la codificacin de imgenes y video


comenzaron en la dcada de 1950. En 1984 fue introducida la
estrategia de codificacin utilizando la transformada discreta de
coseno (DCT), tcnica ampliamente utilizada en los sistemas
actuales de codificacin. Las tcnicas de compensacin de
movimiento aparecieron tambin en la dcada de 1980, dando
origen a las tecnologas hbridas MC/DCT (Motion
Compensation/Discrete Cosine Transform), utilizadas en los
actuales algoritmos MPEG. Las tcnicas utilizadas para la
digitalizacin del video incluyen los siguientes conceptos:

Prediccin
Mediante este proceso, se trata de predecir el valor de ciertas
muestras en funcin de otras, de manera de poder enviar
nicamente como informacin la diferencia, y de esta manera
poder bajar el ancho de banda necesario para transmitir. Ya que
en un video una imagen normalmente est muy relacionada con
la anterior y hay mucha informacin que se estara enviando de
manera repetida no siendo eficiente.

Transformacin
Los valores relacionados a las muestras pueden ser
transformados en otro conjunto de valores equivalentes, que
representan la misma informacin de manera diferente. En
video se utiliza tpicamente la DCT con la cual podemos
obtener una representacin equivalente de la imagen, pero de
esta representacin se puede eliminar informacin de muy alta
frecuencia que no es percibida por el ojo humano, y as mandar
menos informacin y ocupar menos ancho de banda.

Cuantizacin
Es el proceso mediante el cual se asigna un valor entero a un
nmero real. En funcin de la cantidad de enteros utilizados
(o la cantidad de bits necesarios para su presentacin), el
proceso de cuantificacin introduce un error, pero si se utilizan
suficientes cantidad puede ser una distorsin pequea respecto
al valor original.

Codificacin entrpica
Se trata de representar los valores cuantizados de manera de
tomar ventaja de las frecuencias relativas con las que aparece
cada smbolo. Uno de los conocidos mecanismos de
codificacin entrpica es utilizar cdigos de largo variable (o
VLC por sus siglas en ingls), de manera de asignarlo a los
valores que se repiten con mayor frecuencia los cdigos de
menor longitud.
IV.

CONCLUSIONES

Hay una gran cantidad de cdecs disponibles para la


codificacin de voz, cada uno con sus ventajas y desventajas,
haciendo que sea posible seleccionar el deseado segn la
aplicacin requerida. La utilizacin de los sintetizadores de voz
ha logrado bajar el ancho de banda necesario para poder mandar
una conversacin sobre IP, y poder tener muchas
conversaciones en una misma red. Presenta problemas cuando
el audio que se enva no es voz humana, ejemplo msica o tonos
DTMF. Esto lo pudimos ver en el laboratorio mandando una
cancin instrumental, en la cual se apreciaba distorsin de la
original.

REFERENCIAS
[1]

[2]
[3]

[4]

[5]
[6]
[7]

Codificacin_de_voz_y_video_textos_completos
Dr.Ing.Jose Joskowicz
Marzo 2013
http://es.wikipedia.org/wiki/Modulaci%C3%B3n_por_impulsos_codific
ados
The History of Linear Prediction
Bishnu S Atal
IEEE Signal Processing Magazine, March 2006, pp 154-161
The Develpoment of HD-VoIP Application with G.711 for Smartphone.
Choi Seung-Han
Daejeon, Korea.
Recommendation G.711: Pulse Code Modulation (PCM) of voice
frequencies CCITT, 1988.
Recommendation G.722: 7 kHz audio-coding within 64 kbit/s CCITT,
1988.
Recommendation G.723.1: Dual Rate speech coder for multimedia
communication transmitting 5.3 and 6.3 kbits/s

You might also like