Professional Documents
Culture Documents
M
m
n
Blackman
1
4
cos 08 . 0
1
2
cos 45 . 0 42 . 0
M
n
M
n
Hamming
1
2
cos 46 . 0 54 . 0
M
n
Hanning
1
2
cos 5 . 0 5 . 0
M
n
Rectangl
e
2
1
0
T
n =
TABLA 2. CARACTERISTICAS DE LAS VENTANAS DIGITALES.
Ventanas Ancho del
Lbulo
Pico del
Lbulo (dB)
Bartlett
m / 8
- 27
Blackman
m / 12
- 58
Hamming
m / 8
- 43
Hanning
m / 8
- 32
Rectangle
m / 4
- 58
IV. TRANSFORMADA DE FOURIER DISCRETA
La transformada de Fourier es una herramienta
matemtica que permite representar una seal dada en
el dominio del tiempo en sus componentes armnicos en
el dominio de la frecuencia. La seal original se
descompone en seales ortogonales de senos y csenos
con amplitudes respectivas para cada uno de los
componentes, con lo que se logra conocer el espectro en
frecuencia de cualquier seal dentro de un intervalo de
frecuencias previamente definido.
La Transformada de Fourier discreta (TFD) es el
equivalente de la Transformada de Fourier en tiempo
continuo, pero aplicada a seales en el dominio del
tiempo discreto [9]. Igual que su contraparte permite
tener una representacin en el dominio de la frecuencia
de una seal muestreada en forma discreta. La TFD se
representa por la siguiente ecuacin:
( )
1
0
2
1
N
k
N
nk
j
e kT m
N NT
n
F
(2)
Donde:
= N Nmero de muestras que componen la ventana.
= T Periodo de muestreo.
= n ndice de la frecuencia que se desea calcular.
( ) = kT m Valor de la muestra en el instante KT.
V. FORMATO DE AUDIO DIGTAL WAV
El formato WAV (Waveform Audio File Format) es un
formato creado por Microsoft. Es un subconjunto de
especificaciones RIFF (Resourcen Interchange File
Format) de Microsoft para formatos multimedia. El
formato RIFF almacena segmentos (Chunks) de
informacin multimedia, su descripcin, su formato, y su
lista de reproduccin. El formato WAV se almacena
dentro de un archivo con formato RIFF, en el cual se
definen todos los segmentos que puede contener [4].
El archivo RIFF lleva una cabecera de 8 bytes, los
primeros 4 bytes forman un campo que identifican al
archivo teniendo en su contenido el identificador RIFF;
los otros 4 bytes especifican la longitud de los datos a
partir de la cabecera (esto es, la longitud total del archivo
menos 8). Despus de la cabecera RIFF hay 4 bytes que
identifican el tipo de datos que contiene el archivo, para
el caso de un archivo tipo WAV estos 4 bytes contienen
el identificador WAVE.
Del conjunto de segmentos que definen el formato
WAV dos son obligatorios: el segmento de formato y el
segmento de datos. El segmento de formato debe
aparecer antes que el segmento de datos. La tabla 3
muestra los componentes que forman la cabecera de un
archivo WAV.
TABLA 3. CABECERA DE UN ARCHIVO WAV.
Bytes Contenid
o
Descripcin
00 - 03 RIFF Cabecera
04 - 07 ----- Tamao
08 - 11 WAVE Formato
12 - 15 Fmt Extensin
16 - 19 16 Formato 1
20 - 21 1 Formato 2
22 - 23 1, 2 Num. Canales
24 - 27 ----- Frec. Muestreo
28 - 31 ----- Bytes x Seg.
32 - 33 1, 2, 4 Bytes x Captura
34 - 35 8, 16 Bits x Muestra
36 - 39 Data Nom. Segmento
40 - 43 ------ Num. Muestras
44 - n ------ Muestras
Al final del segmento del contenido de la cabecera,
comienza el rea de datos donde se almacena la
informacin de audio. El almacenamiento de los datos en
un archivo WAV se realiza sin hacer algoritmos de
comprensin a diferencia de otros formatos como es el
467
caso del MP3. La estructura de la secuencia de datos
depende de la frecuencia de muestreo, el nmero de
canales y el nmero de bytes por muestra en que fueron
capturados.
Cuando un archivo se encuentra en formato
monoestero las muestras se almacenan en forma
consecutiva, si el archivo esta en formato estreo se
almacenan en forma alternada una muestra por cada
canal. Si cada muestra es de 8 bits entonces representa
un byte de informacin y si es de 16 bits dos bytes. La
informacin de las muestras se guarda en forma de
caracteres ASCII (American Standar Code for Information
Interchange).
VI. SOFTWARE DESARROLLADO
El software desarrollado en este proyecto es una
herramienta computacional que permite obtener el
espectro en frecuencia de las primeras 512 muestras de
un archivo WAV previamente almacenado en una
computadora. Las muestras de las seales contenidas
en los archivos se almacenan en memoria, se genera
una ventana de Hamming y se convoluciona en el
dominio del tiempo con las muestras de la seales
originales, a los valores resultantes se les aplica la
Transformada de Fourier Discreta.
Para realizar el software se uso el lenguaje de
programacin C# [10], utilizando el compilador Visual
Studio.NET 7.1 y la herramienta .NET Framework 1.1. El
programa se realizo en una PC COMPAQ Presario 2100
bajo el sistema operativo Windows XP Home Edition. La
interfaz grfica est desarrollada en base a una
aplicacin tipo formulario [11], est dividida en dos reas,
la primera muestra la ruta y el nombre de los archivos
WAV que se van a analizar junto con los elementos que
forman su cabecera (tabla 3). La segunda rea se divide
en cuatro secciones: la primera y la segunda muestran la
grfica de las primeras 512 muestras de las seales
contenidas en los archivos de trabajo, en la Figura 4 se
muestran las dos secciones.
Fig. 4. Graficas de las muestras de dos archivos WAV.
La primera seccin muestra la vocal a, la segunda
seccin muestra la seal de un armnico a 500 Htz
generado de manera digital. Se hace esta comparacin
para observar la diferencia entre un armnico puro
dentro del intervalo de frecuencias del espectro de la
vocal a, con el espectro de la misma vocal.
Los archivos presentados en este artculo estn en
formato monoestereo con muestras de 8 bits y una
frecuencia de muestreo de 11,025 Htz.
VII. RESULTADOS
El resultado de la convolucin en tiempo de la ventana
de Hamming con las muestras de las seales originales
se guarda en memoria para obtener su Transformada de
Fourier Discreta. La tercera y cuarta seccin de la
segunda rea de la interfaz grfica muestran el espectro
en frecuencia de las muestras convolucionadas para
cada archivo. nicamente se grafica el intervalo de
frecuencias positivas. Debajo del eje x, se colocan los
indicadores para 10 intervalos de frecuencia, estos se
determinan a partir de la frecuencia de muestreo del
archivo de prueba.La Figura 5 presenta los espectros en
frecuencia de las muestras de los archivos de la Figura
4, la parte superior corresponde al espectro de las
muestras del archivo de la vocal a y la parte inferior al
espectro de las muestras del archivo del armnico a 500
Htz.
Fig. 5. Espectro en frecuencia de las muestras de
los archivos WAV de la Figura 4.
468
Fig. 6. Interfaz grfica del software desarrollado.
La interfaz grfica completa del software desarrollado
se observa en la Figura 6, las secciones derecha e
izquierda presentan la informacin contenida en las
cabeceras de los archivos WAV utilizados para este
articulo, en la parte superior central se encuentra la
ubicacin de los archivos dentro de la PC y las secciones
centrales presentan las grficas de las muestras de los
archivos de prueba y sus espectros en frecuencia.
VIII. CONCLUSIONES
La frecuencia de muestreo que proporciona menor
perdida de informacin en el procesamiento digital de
seales de voz, es de 11,025 muestras por segundo.
La ventana Hamming presenta las caractersticas mas
apropiadas para obtener el espectro en frecuencia de
una seal de voz.
El espectro en frecuencia que se obtiene por medio de
la Transformada de Fourier Discreta, tiene una
resolucin espectral definida por el nmero de muestras
que forman la ventana de trabajo elegida.
El formato WAV permite usar las muestras capturadas
en forma directa, sin realizar ningn proceso de
descompresin
REFERENCIAS
[1] Chapra Steven C., Canale Raymond P., Numerical
Methods for Engineers: With Software and Programming
Applications, Fourth Edition, Mc Graw Hill, USA, 2002.
[2] Hayes Monson H., Digital Signal Processing. Mc Graw
Hill, USA, 1999.
[3] Yost William A., Fundamentals of Hearing: An
Introduction, Fourth Edition, Academic Press, USA, 2000.
[4] Bernal Bermdez Jess, Bobadilla Sancho Jess, Gmez
Vilda Pedro, Reconocimiento de Voz y Fontica Acstica,
RA-MA, Espaa, 2000.
[5] Proakis John G., Manolakis Dimitris G., Digital Signal
Processing: Principles, Algorithms and Applications,
Third Edition, Prentice Hall, USA, 1996.
[6] Oppenheim Alan V., Schafer Ronald W., Digital Signal
Processing, Prentice Hall, USA, 1975.
[7] Oppenheim Alan V., Schafer Ronald W., Buck John R.,
Discrete Time Signal Processing, Prentice Hall, USA,
1999.
[8] Meade M. L., Dillon C. R., Signals and Systems: Models
and Behavior, Second Edition, Chapman & Hall,
Inglaterra, 1991.
[9] Kalouptsidis Nicholas. Signal Processing Systems: Theory
and Design, Wiley Interscience, USA, 1997.
[10] Schildt Herbert, C# The Complete Reference, Mc Graw
Hill, USA, 2002.
[11] Petzold Charles, Programming Microsoft Windows with
C#, Mc Graw Hill, USA, 2002.