You are on page 1of 9

INSTITUTO POLITCNICO

NACIONAL
Escuela Superior De Ingeniera Mecnica Y
Elctrica
Unidad Culhuacan
Creacin de palabra con Puredata
Materia:
RECONOCIMIENTO Y SINTESIS DE VOZ
Alumno:
Snchez Lpez Jess Jaret
Profesor:
SARMIENTO AVILA IVAN EDMUNDO
Grupo:
9EV63

Indice:
Caratula
Objetivo
Introduccin terica
Desarrollo
Conclusiones

Pagina
Pagina
Pagina
Pagina
Pagina

1
3
3
5
8

Objetivo
El objetivo es aproximarse a la sntesis de voz usando puredata en base
a minera de datos y sumas de frecuencias.
Introduccin terica
La sntesis de habla es la produccin artificial del habla. El sistema
computarizado que es usado con este propsito es llamado computadora
de habla o sintetizador de voz y puede ser implementado en productos
software o hardware. Un sistema text-to-speech (TTS) convierte el
lenguaje

de

texto

normal

en

habla;

otros

sistemas

recrean

la

representacin simblica lingstica como transcripciones fonticas en


habla.
El habla sintetizada puede ser creada a travs de la concatenacin de
fragmentos de habla grabados que son almacenados en una base de
datos. Los sistemas difieren en el tamao de las unidades de habla
almacenadas; un sistema que almacena fonos y difonos permite un
mayor rango de sonidos pero carece de claridad. Para usos especficos,
el tamao del almacenamiento de palabras completas u oraciones
permite una mayor calidad de audio. De manera alternativa, un
sintetizador puede incorporar un modelo de tracto vocal u otras
caractersticas de la voz humana para recrear completamente una voz
"sinttica".
La calidad de un sintetizador de voz se juzga por la similitud que tenga
con la voz humana y su habilidad para ser entendido con claridad. Un
programa de conversin de texto en habla inteligible permite que las
personas con discapacidades visuales o dificultades para leer puedan
escuchar textos en una computadora. Muchos sistemas operativos
tienen sintetizadores de voz integrados desde principios de los noventa.

Diagrama de un sistema TTS tpico


Un sistema o "motor" de texto a habla (TTS) est compuesto de dos
partes:3 un front-end y back-end. El front-end tiene dos tareas
principales. Primero, convertir el texto con caracteres, nmeros,
smbolos y abreviaciones en su equivalente en palabras escritas.
Puredata
Pd fue iniciado por el ingeniero en software estadounidense Miller
Puckette, quien previamente codesarroll el software, bien conocido y
similarmente estructurado, Max/Msp. Pd no es un software comercial; no
fue desarrollado por una corporacin y no est a la venta. En cambio, es
open source: su cdigo fuente no es propiedad (patentada) de una
corporacin, sino que se encuentra disponible libremente para todos.
Una desventaja de esto es que hasta el momento no ha existido un
manual de operaciones detallado para usuarios que carezcan de
experiencia en programacin. En oposicin a una corporacin que
tiene un inters monetario en asegurarse que los usuarios nveles
puedan operar fcilmente un software nuevo el movimiento open
source carece de dicha fuerza conductora para hacerse asimismo
accesible.
Serendipia
Una serendipia es un descubrimiento o un hallazgo afortunado e
inesperado que se produce cuando se est buscando otra cosa distinta.
Tambin puede referirse a la habilidad de un sujeto para reconocer que
ha hecho un descubrimiento importante aunque no tenga relacin con lo
que busca. En trminos ms generales se puede denominar as tambin
a la casualidad, coincidencia o accidente.
En la historia de la ciencia son frecuentes las serendipias. Tambin
existen casos de serendipias en obras literarias, cuando un autor escribe
sobre algo que ha imaginado y que no se conoce en su poca, y se
demuestra posteriormente que eso existe tal como lo defini el escritor,
con los mismos detalles. No se debe confundir con la anticipacin o la

ciencia-ficcin, donde se adelantan inventos mucho ms genricos que


casi todo el mundo cree que probablemente existirn algn da.

Desarrollo
La prctica se llevo a cavo con el software Puredata el cual se cargaron
las grabaciones hechas de los fonemas en formato wav (vistas en el
reporte del segundo departamental).

1-Solo que en esta ocasin de cargaron los fonemas necesarios para la


palabra /s/,/e/,/r/,/e/,/n/,/d/,/i/,/p/,/i/ y /a/. dichas cargas se aprecian
inclusive con su onda en el software usando la funcin array para ser
apreciadas, estas fueron cargadas en un array don de la funcin $1
corresponde al primer fonema que sera la /s/ y en ese orden sucesivo se
cargo cada grabacin (hasta llegar a $10):

2-Ya declaradas las variables en las cuales irn guardadas las variables ,
es cuando a cada uno de estas se les asigna un tiempo de duracin,
debido a que estas tiene un tiempo muy corto o cuestin de
milisegundos y tomando en cuenta que en el manual nos dice que un
segundo mide 44100 casillas , fue que mediante prueba y error se
decidi por usar un tiempo de 333.3 milisegundos cuyo equivalente en
casillas es de 14700 por fonema:

3-Una vez delimitado el tiempo para cada fonema se procede a crea


osciladores para cada uno, debido a que la fucion "osc~" es de control y
no de audio, esto resulto imposible de usar para las grabaciones por
ende se tuvieron que crear osciladores especficos a las necesidades de
cada fonema con un ciclo de tiempo determinado desacuerdo tambin a
lo requerido en la palabra que se nos encargo:

4-Ahora lo que procede es a unir cada oscilador y mediante interruptores


generales y un array general sumando a todo esto el principio de
Furier , donde nos expresa que "una seal compleja es la suma de
seales mas simples", se puede observar el resultado final (el cual
estar marcado en un circulo):

5-Se grabo la palabra(serendipia) aparte para posteriormente con la


sntesis echa en puredata y ver en qu porcentaje es parecida a la seal
original.
Como se puede apreciar en la ilustracin (donde la izquierda representa
puredata y la derecha la grabacin de la palabra) la grabacin esta mas
alargada imagino a que me falto darle ms tiempo a cada conjuncin de
los fonemas , sin embarco se aprecia que cada fonema esta el lugar
correspondiente como en la grabacin de la palabra , a pesar de ello es
obvio que no coinciden del todo como en el tiempo de duracin una es
mas angosta que la otra en el eje "x" mientras otra esta alargada en el
eje "y" pero a pesar de ello se puede decir que estas coinciden en un

70% :

Conclusiones

Con esta practica entend mas los principios de sntesis de voz as como
la minera de datos y como se fabrican aplicaciones como cortina (las
cuales ahora son muy usadas en los telfonos inteligentes), pude
comprender mas las aplicaciones que el teorema de Fourier tiene en la
ingeniera finalizando pude familiarizarme mucho con el lenguaje de
programacin que usa puredata (el cual es muy parecido a matlab).

You might also like