You are on page 1of 36

INSTITUTO POLITCNICO

NACIONAL
Escuela Superior De Ingeniera Mecnica Y
Elctrica
Unidad Culhuacan
Anlisis de fonemas
Materia:
RECONOCIMIENTO Y SINTESIS DE VOZ
Alumno:
Snchez Lpez Jess Jaret
Profesor:
SARMIENTO AVILA IVAN EDMUNDO
Grupo:
9EV63

Indice:
Caratula
Objetivo
Introduccin terica
Desarrollo
Conclusiones

Pagina
Pagina
Pagina
Pagina
Pagina

1
3
3
6
34

Objetivo
El objetivo es comparar los anlisis de espectros de los fonemas
generados mediante la interfaz (caja negra) que se cre previamente en
la primera evolucin y con ello ver que tan fidedigna es la informacin
que se genera mediante el proceso de grabacin.
Introduccin terica
Los fonemas (del griego phn 'voz humana, sonido de la voz') son
la articulacin mnima de un sonido voclico y consonntico. Por otra
parte, los fonemas son unidades tericas bsicas postuladas para
estudiar el nivel fnico-fonolgico de una lengua humana. Es decir, un
fonema es cada una de las unidades segmentales postuladas para un
sistema fonolgico que d cuenta de los sonidos de una lengua.
En los sonidos consonnticos de acuerdo con el punto de articulacin
podemos encontrar: labiales, labiodentales, coronales, interdentales,
dentales, alveolares, postalveolares, retroflejas, palatales, velares,
uvulares, farngeas y glotales. Sin embargo, es difcil encontrar lenguas
que usen simultneamente todos estos puntos de articulacin. Respecto
al modo de articulacin se tienen oclusivas, fricativas, africadas y
aproximantes.
Entre los criterios para decidir qu constituye o no un fonema se
requiere que exista una funcin distintiva: son sonidos del habla que
permiten distinguir palabras en una lengua. As, los sonidos [p] y [b] son
fonemas del espaol porque existen palabras como /pata/ y /bata/ que
tienen significado distinto y su pronunciacin slo difiere en relacin con
esos dos sonidos (sin embargo, en mandarn los sonidos [p] y [b] son
percibidos como variantes posicionales del mismo fonema).
Desde un punto de vista estructural, el fonema pertenece a la lengua,
mientras que el sonido pertenece al habla. La palabra <casa>, por
ejemplo, consta de cuatro fonemas (/k/, /a/, /s/, /a/). A esta misma

palabra tambin corresponden en el habla, acto concreto, cuatro


sonidos, a los que la fonologa denominar alfonos, y estos ltimos
pueden

variar

segn

el

sujeto

que

lo

pronuncie.

La

distincin

fundamental de los conceptos fonema y alfono, est en que el primero


es una huella psquica de la neutralizacin de los segundos que se
efectan en el habla.
Una vez aclarado el concepto de fonema hay que comentar el tema que
compete a la ingeniera en relacin con los fonemas y es el proceso de
grabacin de voz.
La magnetizacin de sonido es la inscripcin elctrica o mecnica y la
recreacin de las ondas de sonido, como sonido, la voz, el canto, la
msica instrumental, o efectos sonoros. Las dos clases principales de
tecnologas de grabacin de sonido son la grabacin analgica y la
grabacin digital. La grabacin analgica acstica se logra con un
pequeo micrfono de diafragma que puede detectar cambios en la
presin atmosfrica (ondas de sonido acsticas) y grabarlas como ondas
de snido grficas en un medio como un fongrafo (en el que un estilete
hace surcos helicoidales sobre un cilindro de fongrafo) o una cinta
magntica (en la que la corriente elctrica del micrfono es convertidas
a fluctuaciones electromagnticas que modulan una seal elctrica). La
reproduccin de sonido analgico es el proceso inverso, en el que un
altavoz de diafragma de mayor tamao causa cambios en la presin
atmosfrica para formar ondas de sonido acsticas. Las ondas de sonido
generadas por electricidad tambin pueden ser grabadas directamente
mediante dispositivos como los altavoces de una guitarra elctrica o un
sintetizador, sin el uso de acstica en el proceso de grabacin, ms que
la necesidad de los msicos de escuchar que tan bien estn tocando
durante las sesiones de grabacin.
La reproduccin y grabacin digital usa las mismas tecnologas
analgicas, con el aadido de la digitalizacin de los datos y seales

fonogrficas, permitiendo que stos sean almacenados y transmitidos en


una mayor variedad de medios. Los datos numricos binarios digitales
son una representacin de los puntos de vector peridicos en los datos
analgicos a una frecuencia de muestreo la mayora de las veces
demasiado frecuente para que el odo humano distinga diferencias en la
calidad. Las grabaciones digitales no tienen que estar necesariamente a
una frecuencia de muestreo mayor, pero en general se las considera de
mayor calidad por su menor interferencia por polvo o interferencia
electromagntica en la reproduccin y un menor deterioro mecnico por
corrosin o mal manejo del medio de almacenamiento
Cabe destacar que la grabacin de la voz tiene procesos analgicos
(mecnica y magntica) y digital (mediante el uso del cdigo binario y el
bit), de esta la que compete es la digital en la cual est estrechamente
ligada a los rainvow boocks los cuales son un conjunto de normas
creadas para la estandarizacin del audio digital.
cuando los discos de vinilo, y los cassetes (sistema de almacenamiento
de datos analgico) desgastados por el uso, empezaban a hacer
demasiado ruido, Sony y Philips planean la posibilidad de crear un
sistema de almacenamiento digital de datos (en principio ideados para
el almacenamiento de msica), fcilmente transportable. Requeran para
ello un soporte que permitiera guardar en forma de bits a 44,1Khz con
una resolucin de 16 bits, y por supuesto en estereo (es decir
informacin independiente para 2 canales, derecho e izquierdo). Si
traducimos esto a unidades de almacenamiento de datos supondra
44100*60*16=1.411.200 bits por segundo. En definitiva, con los
sistemas de almacenamiento digital de entonces habrian necesitado 1
disco duro de 10 MB para guardar un minuto de msica. Otra condicin
que tena que cumplir el soporte a inventar, era que la velocidad de
transmisin de datos del dispositivo de lectura fuera exacatamente
1.411.200 bits por segundo. Es entonces cuando crean el CD.

Desarrollo
La prctica se llevo a cavo en el interior de la cmara anicnica para
evitar la menor interferencia de ruido posible , se uso la caja negra como
interfaz la cual est conectada a un micrfono de telfono comn la cual
es una bocina invertida con el auxilio de dicha interfaz y micrfono se
grabaron los fonemas de la /a/ a la /z/ as como tambin el anlisis de
espectro del micrfono los cuales estn en formato wav.

Los resultados:
Fonema de letra A

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 854Hz.
Fonema de letra B

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 360Hz.

Fonema de letra C

Como

se

puede apreciar la forma y en el anlisis de espectro su pico esta en los


1993Hz.

Fonema de letra D.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 358Hz.

Fonema de letra E.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1297Hz.

Fonema de letra F.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 2064Hz.

Fonema de letra G.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1882Hz.

Fonema de letra H.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 2206Hz.

Fonema de letra I.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 236Hz.

Fonema de letra J.

Como se puede apreciar la forma y en el anlisis de espectro su


pico esta en los 1432Hz.

Fonema de letra K.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 53Hz.

Fonema de letra L.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 400Hz.

Fonema de letra M.

Como se puede
apreciar la forma y
en el anlisis de
espectro su pico
esta en los 901Hz.

Fonema de letra N.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 287Hz.

Fonema de letra .

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 899Hz.

Fonema de letra O.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 420Hz.

Fonema de letra P.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 270Hz.

Fonema de letra Q.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 437Hz.

Fonema de letra R.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 520Hz.

Fonema de letra S.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1111Hz.

Fonema de letra T.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1412Hz.

Fonema de letra U.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 437Hz.

Fonema de letra V.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1455Hz.

Fonema de letra W.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 308Hz.

Fonema de letra X.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1530Hz.

Fonema de letra Z.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 1000Hz.

Anlisis del micrfono.

Como se puede apreciar la forma y en el anlisis de espectro su pico


esta en los 582Hz.

Tablas de fonemas y micrfono.

Fonema
/a/
/b/
/c/
/d/
/e/
/f/
/g/
/h/
/i/
/j/
/k/
/l/
/m/
/n/
//
/o/
/p/
/q/
/r/
/s/
/t/
/u/
/v/
/w/
/x/
/z/

Hz
854
360
1993
358
1297
2064
1882
2206
236
1432
53
400
901
287
899
420
270
437
520
1111
1412
437
1455
308
1530
1000

Anlisis de micrfono

582

Conclusiones

De acuerdo con las normas del libro rojo la cual estableces que la
grabacin debe cumplir con un soporte que permita guardar en forma de
bits a 44,1Khz con una resolucin de 16 bits, vemos que los fonemas
entran sin problemas en esta rango pero debido a sus anlisis de
espectro se refleja que si se desea poner estas grabaciones en un
estndar como este , se reproduciran con una muy mala calidad lo cual
no es conveniente y con respecto al micrfono se pide que este alcance
los 8khz pero como se puede apreciar en el anlisis esta apenas llega a
medio Khz lo cual lo hace resaltar de manera muy poco satisfactoria
para dichos estndares y esto tambin se refleja en las grabaciones.

You might also like