You are on page 1of 38

Rapport de stage de master II recherche

Segmentation non supervise dun flux de


parole en syllabes

Stage effectu lIRCAM


Institut de Recherche et Coordination Acoustique/Musique
Equipe Analyse/Synthse

Auteur :
Franois Lamare

Encadrant :
Nicolas Obin

Responsable pdagogique :
Jean-Dominique Polack

du 01 Mars au 31 Juillet 2012

Presque tous les hommes sont esclaves faute de savoir prononcer la syllabe : non.

Sbastien-Roch Nicolas de Chamfort, dit Chamfort,


Maximes et penses, caractres et anecdotes.

Table des matires


Rsum

Remerciements

1 Introduction

2 Notions thoriques et tat de lart

2.1

Dfinition de la syllabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Etat de lart en segmentation de la parole . . . . . . . . . . . . . . . . . . .

2.2.1

Segmentation de la parole . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2

Segmentation syllabique . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3

2.4

2.5

Considrations sur la segmentation en syllabes . . . . . . . . . . . . . . . . . 11


2.3.1

Phontique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.2

Phonation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.3

Condition denregistrement et parole spontane . . . . . . . . . . . . 12

Mesures dentropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1

Entropie de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4.2

Entropie spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4.3

Entropie de Rnyi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4.4

Intrts des mesures dentropie en segmentation syllabique . . . . . . 15

VUV (Voiced/Unvoiced decision) . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Prsentation des travaux raliss

18

3.1

Schma gnral de lalgorithme . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2

Pr-traitement : segmentation en "phrases" (groupes de souffle) . . . . . . . 19

3.3

Analyse frquentielle multi-bandes . . . . . . . . . . . . . . . . . . . . . . . 20

3.4

Mesure de voisement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.1

Critre de voisement fond sur lentropie de Rnyi . . . . . . . . . . 21

3.4.2

Critre de voisement fond sur le VUV . . . . . . . . . . . . . . . . . 22

3.4.3

Application du critre de voisement la reprsentation multi-bandes

23

3.5

Post-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.1

Corrlation temporelle . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.2

Corrlation spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.6

Exemple de segmentation en syllabe . . . . . . . . . . . . . . . . . . . . . . 26

3.7

Schma rcapitulatif de lalgorithme . . . . . . . . . . . . . . . . . . . . . . 27

4 Evaluation
4.1

4.2

28

Protocole exprimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.1

Bases de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.2

Mthodologie dvaluation de la segmentation . . . . . . . . . . . . . 30

4.1.3

Mesures de performance . . . . . . . . . . . . . . . . . . . . . . . . . 31

Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5 Conclusion

33

Bibliographie

35

Annexes

37

Rsum
Lobjectif du stage a t de raliser une nouvelle mthode de segmentation dun flux
de parole en syllabes. La finalit dun tel travail serait de pouvoir identifier distinctement
les syllabes qui composent ce flux de parole. En effet, la syllabe est lunit de base de la
prosodie. Les identifier permettrait donc de modifier certaines caractristiques prosodiques
de la voix (la frquence fondamentale par exemple) une chelle approprie, ou bien
dintgrer ces caractristiques dans des systmes de synthse de la parole.
Le travail accompli a abouti deux mthodes de segmentation syllabique non-supervises.
La pierre angulaire de ces mthodes est lapplication de critres de voisement, fonds sur
lentropie de Rnyi ou une mesure de VUV, une reprsentation temps-frquence multibandes dun signal de parole. Lentropie de Rnyi, gnralisation de lentropie de Shannon,
permet de quantifier le degr dorganisation du signal. Nous partons alors de lhypothse
que ce degr dorganisation diffre selon que lon considre un segment de parole ou un
segment sans parole. Le VUV est une autre mesure du degr de voisement dans un signal.
Lintrt dune telle approche rside dans le fait que lon peut carter les trames ou les
bandes frquentielles non pertinentes pour la segmentation en syllabes.
Les performances de segmentation des deux mthodes proposes ont t values et compares celles de mthodes dj existantes de ltat de lart. Lvaluation sest faite sur des
critres de bonne segmentation, de taux dinsertions/omissions de syllabes et de F-measure,
en comparant la segmentation obtenue par lune des mthodes une segmentation manuelle
de rfrence.
Les premiers rsultats semblent montrer que lapproche retenue, fonde essentiellement
sur une analyse multi-bandes laquelle on applique un critre de voisement, est vraiment
pertinente pour la segmentation syllabique, et quelle devrait tre approfondie.

Remerciements

Je tiens remercier Axel Roebel pour son accueil au sein de lquipe Analyse/Synthse
de lIRCAM.
Je voudrais galement remercier mon tuteur Nicolas Obin pour son encadrement, ses remarques, ses conseils, sa gentillesse et la confiance dont il a fait preuve vis--vis de mon
travail. Il ma donn loccasion de travailler avec autonomie, ce dont je lui suis reconnaissant. Le stage quil ma permis deffectuer a t trs riche sur les plans intellectuel et
scientifique.
Je remercie de mme Marco Liuni pour le temps quil ma consacr et laide quil ma apport sur certains points thoriques. Je remercie aussi Arnaud Dessein qui a eu la gentillesse
de me prsenter une partie de ses travaux.
Je remercie galement les autres membres de lquipe Analyse/Synthse, puis le personnel
de lIRCAM pour leur sympathie. Ils ont tous permis ce stage de se drouler dans
dagrables conditions.
Enfin, jadresse des remerciements particuliers mes collges stagiaires, qui mont transmis
leur bonne humeur, et dont les changes ont t particulirement enrichissants.

Chapitre 1

Introduction
Les travaux autour de la voix constituent un domaine majeur lIRCAM, tant au sein de
lquipe Analyse-Synthse quen production musicale. Dans ce cadre, lIRCAM sinvestit
dans de nombreux projets de recherche sur le dveloppement de nouvelles technologies
vocales (transformation de la voix, synthse de la parole partir du texte, conversion
didentit de la voix, transformation de la voix parle en voix chante). Dans ce contexte,
la segmentation de la parole constitue la pierre angulaire de lensemble de ces technologies
pour dterminer des transformations/modlisations en fonction de segments spcifiques,
comme par exemple des segments de nature linguistique (phonme, syllabe, mot, etc...).
Deux problmatiques importantes en traitement de la parole peuvent tre identifies :
la modification de la prosodie de la voix et lintgration de caractristiques prosodiques
(contours prosodiques, frquence fondamentale, dbit de parole) dans les systmes de reconnaissance ou de synthse de la parole. La syllabe constitue justement le segment de base
de la prosodie. Lintrt de la segmentation syllabique parait ds lors vident. La segmentation syllabique permettrait daccder au niveau le plus fin de la prosodie ([Obin, 2011]).
De plus, le segment syllabique est commun un grand nombre de langues, comme les
langues romanes ou anglo-saxonnes par exemple. Ainsi, la segmentation syllabique possde un caractre universelle que ne possde pas dautres types de segmentation, comme
la segmentation en mots ou celle en phonmes. Ces dernires ncessitent en effet la mise
en uvre extrmement lourde de modles linguistiques complexes, et bien sr trs dpendants de la langue considre. Par consquent, cette caractristique rend la segmentation
syllabique gnralisable un grand nombre de langues.
Enfin, de par sa structure phontique, la syllabe peut tre compare des notes de musique,
avec une attaque, une partie soutenue (noyau vocalique) et une phase de relche ou de
transition (coda). La syllabe est donc en quelque sorte llment musical de base de la
voix, quelle soit parle ou chante. La segmentation syllabique trouve donc des applications
musicales directes en production artistique.
Les mthodes de segmentation en syllabe actuelles reposent pour la plupart sur des mthodes signal et lutilisation de connaissances expertes en parole (onset detection, dtection
des noyaux vocaliques). Malheureusement, ces mthodes ne sont pas suffisamment robustes
pour une intgration des technologies existantes.
Lobjectif principal du stage est de dvelopper une mthode de segmentation dun flux
de parole en syllabes. Cette mthode est non-supervise pour smanciper des contraintes
linguistiques habituellement rencontres en reconnaissance de la parole. Elle devra ga-

lement rpondre des contraintes de robustesse (segmentation de parole spontane en


milieu bruit). Enfin, elle devra tre idalement dclinable en une version temps-rel pour
les applications artistiques de lIRCAM.
Ce rapport sorganise de la faon suivante. Tout dabord, quelques notions thoriques ncessaires la bonne comprhension du sujet seront introduites. Un tat de lart non exhaustif
des mthodes de segmentation (segmentation de la parole en gnrale puis segmentation
syllabique) sera prsent. Quelques gnralits sur la segmentation syllabique seront ds
lors mentionnes. Ensuite, les diffrents travaux raliss seront dcrits. Ces travaux reposent
essentiellement sur lapplication de critres de voisement, fonds sur lentropie de Rnyi
ou le VUV comme nous le prciserons, une reprsentation temps-frquence multi-bandes
dun signal de parole, et cela dans lobjectif dcarter les trames ou bandes frquentielles
non utiles pour la segmentation syllabique. Les performances de segmentation des mthodes proposes seront exposes, puis compares des mthodes de rfrence. Ce sera
alors loccasion de soulever les difficults lies telle mthode ou tel procd, les amliorations possibles qui pourraient tres apportes et les pistes qui pourraient tre suivies
lavenir.

Chapitre 2

Notions thoriques et tat de lart


2.1

Dfinition de la syllabe

La syllabe constitue lune des units phonologiques du langage oral, au mme titre
que le phonme et le mot. Fonctionnellement, la syllabe est largement considre comme le
segment lmentaire de la prosodie - "la musique de la parole". Dans ce cadre, il existe plusieurs faons de dfinir une syllabe ([Clements and Keyser, 1983] et [Hall, 2006]), suivant
le point de vue adopt :
Linguistiquement : une syllabe est constitue dune et une seule voyelle (le noyau vocalique) autour de laquelle des consonnes sont agrges (onset et coda).
Physiquement : une syllabe se caractrise par la ralisation dune cible articulatoire
stable (la voyelle), dlimite gauche et droite par un relchement musculaire
(articulation et dtachement de la syllabe).
Acoustiquement : le noyau vocalique prsente un maximum de sonorit, gnralement
dfini en terme dintensit et de stabilit, tandis que les limites prsentent des minima
de sonorit.
Une syllabe est forme par un regroupement de plusieurs phonmes. La phonotactique est
la branche de la phonologie linguistique qui tudie la manire dont sagrgent les phonmes
pour constituer des units linguistiques de dimensions suprieures (la syllabe, le mot, etc...).
La constitution de syllabes se ralise suivant un principe universel de "sonorit", qui se
quantifie partir de quantit mesurables, telles quel lintensit acoustique ou la quantit
dair extrait des poumons. Elle est croissante jusqu un premier pic de sonorit qui reprsente le noyau vocalique (une voyelle), puis dcroit jusqu la fin de la syllabe (voir figure
2.1). Le principe de sonorit est universel. Il sapplique toutes les langues syllabiques du
monde, bien que des exceptions puissent exister, comme la rgle du "e" muet (le schwa)
en franais.

Figure 2.1 Courbe de sonorit dune syllabe


Dans le contexte de la segmentation dun flux de parole en syllabe, nous retiendrons principalement la dfinition acoustique de la syllabe. Avant dapporter des lments de rponse
au problme spcifique de la segmentation en syllabes, il est pertinent dintroduire le problme plus gnral de la segmentation de la parole.

2.2

Etat de lart en segmentation de la parole

2.2.1

Segmentation de la parole

Gnralits :
La segmentation de la parole fait rfrence des units varies selon la nature du
segment considr. On peut dfinir plusieurs types de segmentation (organiss du segment
le plus court au segment le plus long) :

en
en
en
en
en
en

vois/non-vois ;
phonmes ;
syllabes ;
mots ;
groupes inter-pausaux (segments dlimits par deux pauses silencieuses) ;
locuteurs et tours de parole.

Les mthodes de reconnaissance automatique de la parole ("speech detection", "voice activity detection" ou "endpoint detection") se divisent en deux catgories : les algorithmes
supervises et les algorithmes non-supervises. Pour les algorithmes superviss, les paramtres dun modle statistique de segmentation sont dtermins (phase dapprentissage)
partir de bases de donnes segmentes au pralable. Les mthodes supervises de segmentation de la parole reposent majoritairement sur des chaines de Markov caches (HMMs)
(HTK -[Young, 1993] et SPHINX - [Lee, 1989], sont les deux outils de rfrence en segmentation de la parole). En outre, ces mthodes ncessitent un ensemble de connaissances
linguistiques (NLPs, soit Natural Language Processing). Cest le cas par exemple de la
segmentation phontique. Malheureusement, les NLPs sont extrmement dpendants de la
langue, ce qui rend le dveloppement dun systme de segmentation "universel" cest--dire
indpendant de la langue, trs fastidieux.
Dans ce contexte, la segmentation en syllabes pourrait tre vue comme une extension des
mthodes de segmentation en phonmes (HMMs) aux segments syllabiques. Cependant,
9

trois problmes majeurs se posent :


1. le problme linguistique dj mentionn.
2. un problme combinatoire : le nombre de modles statistiques ou de paramtres est
dj trs grand pour la segmentation en phonmes. En effet, pour prendre en compte
les phnomnes de coarticulation de la parole, chaque phonme est modlis par une
chaine de Markov cache "en contexte", cest dire en fonction de la nature des
phonmes prcdents et suivants. Par exemple, la langue franaise est compose de
36 phonmes. Ainsi, une modlisation en contexte dordre 3 ncessite lestimation des
paramtres de 363 modles (bien que des techniques dagrgation ("clustering") permettent de rduire le nombre de modles estimer) . Dans le cas de la segmentation
syllabique, ce nombre dj trs lev exploserait.
3. le problme du temps-rel, gnralement incompatible avec le paradigme Markovien.
Ces considrations gnrales nous ont amen alors considrer seulement des mthodes
non-supervises.
Descripteurs :
Les mthodes de segmentation non-supervises consistent segmenter un flux de parole
(ou audio) partir de techniques de segmentation paramtrique ou ad-hoc (mesures de
stationnarit ou dtection de maxima/minima/discontinuits) partir dune reprsentation
acoustique du signal. Dans ce cadre, la reprsentation acoustique utilise doit tre la plus
pertinente possible pour faciliter la segmentation. Par exemple, on peut suivre lvolution
temporelle dun descripteur du signal. Si la valeur de ce descripteur dpasse un certain
seuil, alors de la parole est dtecte. Les mthodes non-supervises de segmentation de
la parole prsentent en outre lavantage dtre universelles et sans contrainte a priori de
temps-rel.
Un grand nombre de reprsentations acoustiques ont t utilises jusqu prsent. Une
famille importante de mthodes de segmentation contient les mthodes bases sur le ZeroCrossing Rate (ZCR), lnergie court-terme, o sur lnergie spectrale ([Savoji, 1989]
[Ney, 1981][Gerven and Xie, 1997][Huang and Yang, 2000]). Ces mthodes, en plus dtre
assez peu robustes en prsence de bruit, ne prennent pas suffisamment en compte les
spcificits dun signal de parole. On peut galement avancer la mme critique de non
robustesse face au bruit pour les descripteurs fonds sur les Coefficients de Prdiction
Linaire (LPCs). Des mthodes destimation de la frquence fondamentale ont galement
t envisages, dans la mesure o cette information peut aider directement mettre en
vidence la diffrence entre segments voiss et non-voiss. Encore une fois, cette estimation
de la frquence fondamentale est dlicate en milieu bruit, surtout si les bruits sont de
nature harmonique. Les coefficients cepstraux en chelle frquentielle Mel (MFCCs) sont
actuellement la base en reconnaissance de la parole. Plus rcemment,([Wang et al., 2011])
propose une mthode de dtection dactivit vocale base sur le calcul dune distance entre
un vecteur MFCC dune trame de parole et un vecteur MFCC dune trame de bruit de
fond.

2.2.2

Segmentation syllabique

La segmentation en syllabes proprement parler est un sujet qui a t assez peu


abord pour le moment. Dans [Mermelstein, 1975], Melmerstein a propos un algorithme
10

de segmentation de syllabes base sur lenveloppe convexe du signal, mesure sur lintensit acoustique dans les rgions formantiques de la parole (frquences infrieures 4 Khz),
ou plus prcisment de son quivalent perceptif, la sonie [Robinson and Dadson, 1956].
De part la dfinition dite "acoustique" des syllabes, un noyau vocalique aura une valeur
maximale de sonie tandis que les frontires de la syllabe auront des valeurs minimales. Ce
paradigme de segmentation demeure encore aujourdhui une rfrence, et la plupart des
mthodes proposes depuis ne constituent que des variations autour de ce paradigme. Des
critres empiriques sont ensuite utiliss pour raliser la segmentation partir de la sonie.
[Howitt, 1999] et [Villing et al., 2004] prsentent des mthodes plus rcentes de segmentation syllabique galement bases sur la sonie. Une mesure de la priodicit du signal a
t introduite pour supprimer les variations dintensit non-pertinentes pour la segmentation (typiquement, les consonnes fricatives et les plosives). Dans [Xie and Niyogi, 2006]
et [De Jong and Wempe, 2009] par exemple, la priodicit est mesure grce la fonction
dautocorrlation. Dans [Villing et al., 2006], Villing montre les limitations des mthodes
de segmentation syllabique bases sur la loudness ou lnergie seules. Dautres critres
doivent alors tre pris en compte. Les auteurs de [Wang and Narayanan, 2007] exposent
une mthode de dtection de syllabes pour la mesure de dbit de parole (exprime en
syllabe par seconde). Cette mthode repose principalement sur la corrlation croise de
bandes de frquences dune analyse temps-frquence du signal de parole (voir partie 3.5.2),
et cela dans le but dexploiter la structure formantique des noyaux vocaliques.

2.3
2.3.1

Considrations sur la segmentation en syllabes


Phontique

Les phonmes se regroupent en diffrentes classes :

voyelles ;
plosives (voises/non-voises) ;
fricatives (voises/non-voises) ;
liquides ;
glides.

Cette catgorisation se fait selon des critres dexcitation du conduit vocal, darticulation
(mode et lieu darticulation), de nasalit, de forme des lvres lors de la prononciation (pour
plus de prcisions, consulter 1 ).
Lannexe partie 5 prsente la liste des phonmes pour le franais moderne.
Le coeur de la segmentation en syllabe ncessite en particulier lidentification des noyaux
vocaliques (les voyelles). Plusieurs problmes de nature phontique font obstacle cette
identification :
1. Les consonnes non-voises et en particulier les plosives non-voises (/p/, /t/, /k/)
peuvent introduire des maxima dintensit indsirables. Dans une moindre mesure,
les fricatives non-voises (/f/, /s/, /S/) introduisent galement du bruit.
2. Les consonnes voises, plus prcisment les plosives voises (/b/, /d/, /g/), les liquides (/l/), et dans une moindre mesure les fricatives voises (/v/, /Z/, /z/), peuvent
tre confondues avec des noyaux vocaliques.
1. http ://fr.wikipedia.org/wiki/Phontique_articulatoire

11

3. Les voyelles muettes, cest dire faiblement intenses et peu voises (exemple du schwa
en franais) peuvent ne pas tre identifies.
4. la succession de deux voyelles appartenant deux syllabes distinctes peut poser
problme. Ici, cest le modle thorique de sonorit qui est remis en cause dans la
mesure o aucun minimum de sonorit ne peut tre observ entre les 2 voyelles,
surtout lorsquelles sont co-articules.
En revanche, la succession de voyelles (glide+voyelle) au sein dune syllabe ne pose aucune
problme.

2.3.2

Phonation

La segmentation syllabique peut savrer trs difficile pour des voix extrmement bruites, comme cest le cas dans la plupart des registres de qualit vocale (souffle, craque,
...), dans les registres extrmes deffort vocal (chuchote, crie), ou bien encore pour des
dbits de parole trs rapides.

2.3.3

Condition denregistrement et parole spontane

La segmentation en syllabe se confronte la robustesse au bruit environnant, typiquement dans des enregistrements de parole spontane qui peuvent prsenter une trs large
varit de bruits nuisible pour la segmentation. La prsence de voyelles trs courtes et/ou
trs partiellement ralises est galement une source de problme en segmentation syllabique.

2.4

Mesures dentropie

Un certain nombre de descripteurs bass sur lentropie de Shannon ont t proposes en


segmentation de la parole, mais pas dans le cadre de la segmentation en syllabes. De part
ses proprits, que nous allons expliciter par la suite, nous lavons juge trs intressante
pour la segmentation syllabique. Par exemple, les mesures dentropie permettent de donner
une reprsentation du degr dorganisation de la parole - maximum dans le noyau vocalique
et minimum aux frontires de la syllabe. Dans le mme sens, lentropie de Rnyi, qui est une
gnralisation de lentropie de Shannon, va tre tudie dans le cadre de la segmentation
syllabique.

2.4.1

Entropie de Shannon

Lentropie, introduite par Claude Shannon dans sa thorie de linformation


([Shannon, 1948]), permet de mesurer la quantit dinformation contenue dans un signal
alatoire. Autrement dit, elle mesure le degr dorganisation (lincertitude) dans ce signal.
Elle est dfinit de la manire suivante :
H(x) =

P (xk ) log2 [P (xk )]

(2.1)

o x = {xk }0kN 1 est une srie temporelle, frquentielle ou autre, et o P (xk ) est la
probabilit dun certain tat xk .
12

[Shen et al., 1998] ont t parmi les premiers utiliser lentropie dans le cadre de la dtection de la parole. Leur tude a montr que lentropie dun segment de parole diffrait
significativement dun segment sans parole. En effet, la structure harmonique de la voix
reflte un degr dorganisation qui ne se retrouve pas dans la structure spectrale dun segment de silence. Plus exactement, lentropie de Shannon permet de quantifier la "pointicit"
du spectre. Dans le cas dun segment de parole, le spectre est fortement piqu (prsence
dun pic principal d aux rsonnances formantiques). Si lon considre le spectre comme
une densit de probabilit, lallure de la densit de probabilit correspondante traduit un
tat de certitude lev (autrement dit une zone de frquences privilgie). Lentropie sera
ds lors trs faible. Inversement, dans le cas dun bruit blanc par exemple, le spectre est
uniforme, ce qui traduit cette fois ci une incertitude totale. Lentropie sera donc trs leve.

2.4.2

Entropie spectrale

La structure harmonique dun segment de parole napparait que dans le spectrogramme,


ce qui ncessite par consquent dintroduire lentropie spectrale. Toutes les mthodes de
segmentation de parole partir de lentropie sont en fait plutt bases sur celle-ci. Lentropie spectrale est dfini partir de la transforme de Fourier court-terme du signal :

S(k, l) =

N
X

h(n)s(n l) exp (j2kn/N )

(2.2)

n=1

avec 0 k K 1 et K = N gnralement.
s(n) reprsente lamplitude du signal au temps n. S(k, l) reprsente lamplitude de la
k ieme composante frquentielle, pour la lieme trame danalyse. N est le nombre de points
frquentiels considrs pour le calcul de la transforme de Fourier. h(n) est la fentre
danalyse.
On peut ensuite dfinir lnergie spectrale de la manire suivante :
Senergy (k, l) = |S(k, l)|2
avec 1 k K/2.
La probabilit associe chaque composante spectrale est obtenue en normalisant de la
manire suivante :
Senergy (k, l)
P (k, l) = PN/2
i=1 Senergy (i, l)
avec 1 i N/2 et

i P (i, l)

= 1 pour tout l.

Ce qui mne lentropie spectrale pour une certaine trame l :

H(l) =

N/2
X

P (i, l) log2 [P (i, l)]

(2.3)

i=1

Il est souvent commode de considrer loppos de lentropie pour obtenir des profils analogues ceux de lintensit.

13

[Shen et al., 1998] ont montr que lentropie spectrale outrepassait les performances de
dtection des algorithmes bases sur lnergie. En ralit, lentropie est plus robuste dans
le cas de bruits non-stationnaires tandis que lnergie, de part ses proprits additives, est
robuste face des bruits stationnaires. Lnergie dun signal de parole bruit est forcement
plus grande que lnergie du bruit seul (du moins jusqu un certain point). A partir de
ce constat, [Huang and Yang, 2000] ont proposs un descripteur bas la fois sur lnergie
et lentropie, qui permet de ne conserver seulement que les avantages des deux mthodes.
Ouzounov dans [Ouzounov, 2005] ralise une tude comparative de plusieurs descripteurs
bass sur lentropie. Une des limitations de lentropie est que lentropie dune trame sans
parole bruite par un bruit blanc color peut tre quivalente celle dune trame avec
parole et galement bruite. Une solution est alors propose dans [Ouzounov, 2005] pour
rendre lentropie plus robuste aux bruits colors.
Dautres mthodes qui reposent sur une analyse multi-bandes, consistent calculer une entropie spectrale non plus sur lensemble des points frquentiels dune trame danalyse, mais
sur des bandes de frquences intgres, en ne considrant que les sous-bandes non-bruites.
Cette stratgie a t employe dans lalgorithme ABSE (Adaptive Band-Partitioning Spectral Entropy), prsent dans [Wu and Wang, 2005]. Dans cette mthode, une estimation
du niveau de bruit dans chaque bande est ralise, ce qui permet de choisir de faon adaptative les bandes utiles pour le calcul de lentropie, cest--dire les bandes non contamines
par le bruit. Les mthodes dcrites dans [Liu et al., 2008] et [Jin and Cheng, 2010], bases
sur lABSE, proposent en plus une phase de suppression du bruit par soustraction spectrale ([Boll, 1979]). Les performances sont ainsi amliores dans le cas des faibles rapports
signal--bruit.

2.4.3

Entropie de Rnyi

Soit p une densit de probabilit finie, et 0 R avec 6= 1. Lentropie de Rnyi


est dfinie de la manire suivante ([Rnyi, 1961]) :
H (p) =

X
1
log2
p (k)
1

(2.4)

Quand 1 , on se trouve dans le cas particulier de lentropie de Shannon. Les principales


proprits de lentropie de Rnyi sont les suivantes :
H (p) est une fonction non croissante de , do 1 < 2 H1 (p) H2 (p)
H0 (p) > H (p) pour tout 6= 0
H (p) est maximale quand p est uniformment distribu et minimale quand p a une
seule valeur non nulle
Dans [Liuni et al., 2011], Liuni met en vidence leffet qua la valeur du paramtre sur
le calcul de lentropie spectrale. Ils considrent pour cela un modle simplifi de spectrogramme. Ils montrent que prendre des valeurs leves du coefficient augmente la diffrence
entre lentropie dune distribution de probabilit pointue et lentropie dune distribution
uniforme (bruit blanc dans le cas extrme).
Thoriquement, il peut donc tre judicieux de considrer la place de lentropie de Shannon
lentropie de Rnyi avec un coefficient assez grand, de telle manire amplifier les
diffrences entre cas vois et non-vois.

14

2.4.4

Intrts des mesures dentropie en segmentation syllabique

A partir de cette section, on prendra toujours loppos de lentropie (entropie maximale


pour une distribution avec un seul pic et minimale pour une distribution uniforme).
Daprs les proprits de lentropie nonces ci-dessus, lentropie dun segment vois (voyelle
par exemple) diffrera de celle dun segment non vois (plosives, fricatives, silence). Nous
avons vu que le noyau de la syllabe tait caractris par un maximum dnergie. Une des
ides principales du stage est donc dutiliser lentropie pour mesurer le degr
de voisement dune trame. Ainsi, on pourra carter les pics dnergie qui ne
correspondent pas un noyau vocalique (une voyelle). Nous dtaillerons la mthode
mise en uvre dans la partie 3 .
Considrons la phrase suivante : "Ca me sert tre riche." . Le signal et le spectrogramme
associ sont visibles figure 2.2.

Figure 2.2 Signal et spectrogramme correspondant


Reprsentons prsent son nergie spectrale et son entropie spectrale de Rnyi pour = 4
(figure 2.3) et = 0.01 (figure 2.4). On observe que lentropie des zones non voises est
significativement plus faible que celle des zones voises. On remarque galement que pour
les fricatives ("/s/" par exemple), lentropie de Rnyi est plus faible que lnergie spectrale.
On voit aussi que contrairement ce qui a t dis dans la partie 2.4.3, il est prfrable
de prendre une valeur de petite car les profils entropiques sont plus stables dans ce cas
particulier et que le contraste entre segments voiss et non voiss est meilleur. En effet, nous
avons mis lhypothse quune valeur leve de augmentait la diffrence dentropie entre
vois et non-vois. Cependant, cette diffrenciation se fait au dtriment de la stabilit
au bruit. Le fait de prendre une valeur de grande amplifie certes le pic frquentiel
correspondant la premire rgion formantique, mais amplifie aussi les pics frquentiels lis
au bruit (bruit de fond, etc...), ce qui peut tre trs problmatique si le bruit en question est
color. Cette proprit a par ailleurs t galement indique dans [Obin and Liuni, 2012]
pour mesurer le degr de bruit/voisement en reconnaissance automatique de la parole.

15

Figure 2.3 Energie spectrale et entropie de Rnyi pour alpha = 4.0

Figure 2.4 Energie spectrale et entropie de Rnyi pour alpha = 0.01

2.5

VUV (Voiced/Unvoiced decision)

Le VUV (soft Voiced/Unvoiced measure) est une mesure du degr de voisement contenu
dans un signal (ou alternativement de son caractre bruit)([Griffin and Lim, 1985]). Le
VUV est dfinit comme le rapport de lnergie explique par les composantes sinusodales
sur lnergie totale dune trame de signal. Autrement dit, il compare le poids des harmoniques du spectre parmi tous les points frquentiels de ce spectre. Considrons une analyse
multi-bandes dun signal de parole. Le VUV pour chaque bande de frquence se mesure

16

partir de la formule suivante ([Obin, 2012]) :

V UV

(i)

PK (i)

|AH (k)|2
= Pk=1(i)
N
2
n=1 |A(n)|

(2.5)

o i fait rfrence lindice dune bande de frquence, o AH (k) est lamplitude du k ieme
harmonique et o A(n) est lamplitude du nieme bin frquentiel dans la bande considre.
Ainsi, V U V (i) = 0 quand la bande i na pas de contenu harmonique et V U V (i) = 1 quand
la bande i est totalement harmonique.
Considrons le signal de parole dont le spectrogramme est reprsent figure 2.5. Calculons
la VUV par bande de Mel pour ce signal de parole. On prend Nb = 40 bandes Mel entre 0
Hz et fe /2 Hz, o fe est la frquence dchantillonnage. Le rsultat obtenu est visible figure
2.6(a). Il est utile dappliquer un filtrage mdian 2D sur limage ainsi obtenu (filtrage 2D
avec un voisinage de 5 trames temporelles 5 bandes frquentielles).
Dans le mme tat desprit que lentropie, on pourra utiliser le VUV pour tablir un critre
de voisement pour chaque trame, et ainsi carter les trames qui correspondent des pics
dnergie non voiss.

Figure 2.5 Spectrogramme de la phrase : "Ca me sert tre riche."

(a) VUV avant filtrage

(b) VUV aprs filtrage

Figure 2.6 Mesure de voisement par bande de frquence pour la phrase : "Ca me sert
tre riche."

17

Chapitre 3

Prsentation des travaux raliss


Lide principale de cette tude est de dterminer des profils acoustiques dans un certain
nombre de rgions frquentielles, puis de slectionner/combiner automatiquement les profils
utiles pour la segmentation syllabique. La principale contribution de cette tude repose sur
lintroduction de 2 nouveaux paradigmes en segmentation syllabique :
1. une analyse frquentielle multi-bandes (dcomposition du spectre de puissance en
bandes frquentielles) ;
2. la combinaison de lintensit et du degr dorganisation du signal, soit pour dterminer les trames de signal utiles pour la segmentation, soit pour slectionner les rgions
frquentielles utiles pour la segmentation.
Lalgorithme de segmentation repose en outre sur un certain nombre de pr et de posttraitements pour optimiser la segmentation en syllabe :
pr-traitement : un algorithme de dtection dactivit vocale est utilis pour segmenter
le flux de parole en "groupes de souffle", au sein desquels les syllabes seront identifies.
post-traitement : deux mthodes de corrlation temporelle et spectrale sont utilises
pour tirer partie de lorganisation temporelle et spectrale des syllabes.
Deux mthodes de segmentation syllabique ont t dveloppes pendant le stage. La premire repose principalement sur lentropie de Rnyi et la seconde sur la mesure de VUV.
Les deux algorithmes ncessitent une analyse court-terme du signal. Ils fonctionnent tous
deux trame trame ce qui permettra par la suite une implmentation temps-rel.
On considre encore la mme phrase : "Ca me sert tre riche", dont le spectrogramme
est visible en figure 3.1.
Lalgorithme de rfrence ([Mermelstein, 1975]) ainsi quun algorithme plus rcent
([Villing et al., 2004]) ont galement t implments pour comparaison.

18

Figure 3.1 Spectrogramme du signal de parole : "Ca me sert tre riche."

3.1

Schma gnral de lalgorithme

Le schma gnral de lalgorithme est prsent en figure 3.2.

Figure 3.2 Schma gnral lalgorithme dvelopp

3.2

Pr-traitement : segmentation en "phrases" (groupes de


souffle)

La premire tape de lalgorithme consiste dtecter les zones dactivit vocale. Nous
avons donc implment un algorithme pour segmenter le flux de parole en phrases, dans
lesquelles les syllabes seront identifies par la suite.
Lalgorithme retenu ([Wang et al., 2011]) consiste calculer pour chaque trame une distance entre le vecteur M F CC de cette trame et un vecteur M F CCbruit calcul sur une
19

portion bruite du signal (ou bien sur un chantillon reprsentatif du bruit de fond des fichiers de parole dun mme corpus). Le vecteur M F CCbruit est mis jour chaque trame
pour prendre mieux en compte les nouvelles spcificits du signal de parole. Si la distance
est plus grande quun certain seuil, fixe ou adaptatif (voir figure 3.3), alors de la parole est
dtecte. Les segments de silence dont la dure est infrieure la dure moyenne dun silence
de plosive (environ 150ms) sont supprims. La courbe rouge de la figure 3.4 reprsente la
zone dactivit vocale dtect. Lalgorithme est prsent en dtail dans [Wang et al., 2011].
La figure 3.5 prsente un autre exemple de segmentation de parole pour la phrase : "La
troisime fois, la voici.".

Figure 3.3 Distance de vecteurs MFCC Figure 3.4 En rouge : zone dactivit vocale dtecte - en bleu : segments voiss phrase : "Ca me sert tre riche".

Figure 3.5 En rouge : zone dactivit vocale dtecte - en bleu : segments voiss - phrase :
"La troisime fois, la voici".

3.3

Analyse frquentielle multi-bandes

Ltape suivante consiste effectuer une analyse multi-bandes du signal. On dcompose


ds lors le signal en Nb bandes de frquences en chelle de Mel. On calcule ensuite lnergie
dans chaque bande (figure 3.6). On choisit empiriquement Nb = 40.
Lune des ides fondatrices des travaux raliss tait de pouvoir slectionner linformation
utile la segmentation syllabique dans des zones de frquences dtermines, do cette
analyse frquentielle multi-bandes.

20

Figure 3.6 Log-nergie par bande

3.4

Mesure de voisement

La mesure de voisement est ltape cl de lalgorithme. Elle consiste dterminer pour chaque trame un degr de voisement, et cela afin dcarter les trames nonvoises lors de la dtection des noyaux vocaliques (dans le mme principe, les auteurs
de[Xie and Niyogi, 2006] proposent un critre de voisement bas sur lautocorrlation).
Deux critres de voisement sont proposs : le premier est bas sur lentropie de Rnyi, le
second sur le VUV.

3.4.1

Critre de voisement fond sur lentropie de Rnyi

A partir des remarques qui ont t faites sur lentropie, partie 2.4.2 et dans
[Huang and Yang, 2000], il semble pertinent de dfinir un descripteur C partir de lnergie
du signal et de lentropie spectrale de Rnyi. On dfinit C de la manire suivante :
C(l) = Hrenyi (l) RM SE(l)

(3.1)

avec
r
RM SE(l) =

1 X
s(l)2
Lw

(3.2)

o l est lindice de la trame courante, Lw la largeur de la fentre danalyse et s(l)


la trame courante. Une valeur de = 0.01 a t choisie pour le calcul de lentropie
de Rnyi daprs les tudes menes dans [Liuni et al., 2011] et [Obin and Liuni, 2012].
RM SE(l)(Root Mean Square Energy) est la racine carr de lnergie court-terme du
signal. Lnergie et lentropie sont pralablement centres en 0 pour le calcul de C.
Lintrt de la RMSE ici est que la moyenne temporelle effectue pour son calcul rend plus
stable et plus robuste face au bruit le coefficient C.
Une fois normalis entre 0 et 1, le descripteur C sinterprte comme un coefficient de
voisement indiquant ltat de voisement dune trame. On peut ensuite appliquer un seuillage
fixe au coefficient. Quand le coefficient dpasse un certain seuil, celui-ci est mis 1. Sinon,
il vaut 0. On peut galement appliquer un seuillage plus doux de type "sigmode" (voir
quation 3.3 et figure 3.7), ou encore, effectuer un seuillage qui conserve les valeurs proche
21

de zro afin de ne pas perdre linformation des minima dnergie qui seront utiles pour la
segmentation. Observons prsent les diffrents profils en question figure 3.8.

Sigmoide(x) =

1
1 + exp x

(3.3)

o est le paramtre de la sigmode.

Figure 3.7 Trac de la fonction sigmode pour lambda = 30

Figure 3.8 Coefficient de voisement du signal de parole : "Ca me sert tre riche."
Lune des premires ides formule durant le stage consistait non pas calculer une seule
entropie pour chaque trame (sur tous les points frquentiels de la trame) mais calculer
une entropie dans diffrentes bandes de frquences (entropie multi-bandes, dans la mme
philosophie que le VUV par bandes de Mels prsent partie 2.5). On disposait ainsi dun
critre de voisement local chaque sous-bande. Malheureusement, cette mthode sest
avre peu robuste dans un premier temps, mais cela reste encore approfondir. Nous
avons donc utilis la place de ce critre de voisement par bande, un critre de voisement
trame trame que lon applique au profil temporel de chaque bande frquentielle.

3.4.2

Critre de voisement fond sur le VUV

Nous proposons cette fois-ci un coefficient de voisement bas sur le VUV, prsente
partie 2.5. Le calcul du coefficient de voisement C seffectue de la manire suivante :
1. calcul du VUV pour Nb bandes de frquence Mels entre 0 Hz et fe /2 Hz. On a choisit
empiriquement Nb = 40.
22

2. seuillage du VUV par une fonction sigmode : 1 si la bande est considre comme
harmonique, 0 sinon.
3. pour chaque trame l, compter le nombre de bandes harmoniques NbandesU tiles (l).
4. si il ny a aucune bande harmonique, cest--dire NbandesU tiles(l) = 0, alors C(l) = 0.
5. ce stade, deux choix possibles :
A : si NbandesU tiles(l) 6= 0, alors C(l) = 1
B : normaliser entre 0 et 1 NbandesU tiles (l) pour obtenir C(l), et appliquer un
seuillage (voir figure 3.9) .
Bien sr dans le cas de voix expressives peu voises, comme les voix chuchotes ou craques
(voir [Obin, 2012]), lutilisation du VUV comme critre de voisement pour carter les pics
dnergie non significatifs nest plus pertinente. Cette remarque est aussi valable en partie
pour le critre de voisement bas sur lentropie.

Figure 3.9 de haut en bas : VUV, VUV avec sigmode, coefficient de voisement et
segments voiss

3.4.3

Application du critre de voisement la reprsentation multibandes

Nous disposons dun coefficient de voisement indiquant si une trame est voise ou non.
Nous allons ds lors appliquer ce critre de voisement la reprsentation multi-bandes de
la partie 3.3 afin dannuler les bandes des trames non voises (figure 3.11).

Figure 3.10 Log-nergie par bande

Figure 3.11 Log-nergie aprs application


du coefficient de voisement

23

3.5
3.5.1

Post-traitements
Corrlation temporelle

Lide de la corrlation croise temporelle est dexploiter la structure temporelle de la


parole pour liminer les variations bruites du signal.
Un problme classique rside dans le choix de la taille de la fentre danalyse :
une fentre large permet dobtenir des profils temporels lisses. Cela engendre en
contrepartie une perte de dtails (maxima significatifs) ;
inversement, une fentre troite augmente la rsolution temporelle (plus de dtails)
mais la dtection des pics significatifs est plus difficile.
Lide propose dans [Wang and Narayanan, 2007] consiste choisir une fentre danalyse
troite puis dappliquer un filtrage particulier qui prenne en compte le fait que les trames
dune mme syllabe sont fortement corrles. On introduit ds lors la corrlation croise
temporelle :
v
u
u
Xcorrtemp (l) = t

K2
X K1
X
2
x(t j) x(t p)
K(K 1)

(3.4)

j=0 p=j+1

Le paramtre K est le nombre de trames du voisinage considr pour le calcul de la corrlation temporelle. On peut par exemple choisir K de telle manire ce que la fentre
de corrlation dure un peu moins que la moiti de la dure dune syllabe (en moyenne
200 ms). x(l) est le vecteur de taille Nb 1 compos des nergies par bande linstant l.
Xcorrtemp (l) est le vecteur de taille Nb 1 rsultant du filtrage.
En pratique, cela revient considrer toutes les paires uniques parmi les K trames qui
prcdent la trame courante (2K(K 1) paires), faire le produit des deux lments de
chaque paire, puis calculer la moyenne des produits.
Ainsi, cette opration est quivalente un lissage temporel (figure 3.12), mais exploitant
la similarit des trames dune mme syllabe. Les auteurs de [Wang and Narayanan, 2007]
proposent damplifier les discontinuits entre syllabes adjacentes en appliquant une fentre
de pondration gaussienne centre au milieu de la fentre danalyse avant ltape de corrlation temporelle. En effet, dans le cas o la fentre gaussienne de taille K est centre sur
le pic dun noyau vocalique, cette trame aura plus de poids dans le calcul de la corrlation
temporelle.

3.5.2

Corrlation spectrale

Le principe de la corrlation croise spectrale est dexploiter la structure formantique


de la parole pour amplifier les diffrences entre les trames avec une structure formantique
homogne (voyelles) et celles avec une structure formantique htrogne (typiquement, les
consonnes voises : plosives /b/, /d/, /g/, liquides /l/, et fricatives /v/, /z/).
Nous disposons ce stade de Nb profils temporels (1 pour chaque bande frquentielle).
Lide suivante est de regrouper ces profils par zone formantique. Par exemple, pour un
signal de parole chantillonn 44.1kHz, on considre Nb = 40 bandes Mels entre 100 Hz
et 22050 Hz que lon regroupe en 4 zones formantiques (on effectue la moyenne des bandes
contenues dans chaque zone formantique) :
24

Figure 3.12 Rsultat du filtrage par corrlation croise temporelle


1. zone F1 : 100 Hz - 800 Hz (12 bandes)
2. zone F2 : 800 Hz - 1500 Hz (7 bandes)
3. zone F3 : 1500 Hz - 2500 Hz (8 bandes)
4. zone F4 : 2500 Hz - 4000 Hz (7 bandes)
On dispose donc de 4 profils temporels nots bi (t) avec i = 1 : 4 (voir figure 3.13). Nous
allons une nouvelle fois appliquer une corrlation croise, mais cette fois-ci dans le domaine
spectrale, afin dexploiter la structure formantique des noyaux vocaliques. Un autre intrt
de la corrlation croise spectrale est que celle-ci permet de filtrer lnergie des plosives
voises, /b/ /d/ /g/ (dont lnergie est concentre essentiellement dans F1 ), qui pourront
introduire par la suite des pics non significatifs gnants. On calcule donc la corrlation
croise spectrale ([Wang and Narayanan, 2007]) des 4 profils :
v
u N 1 N
u1 X X
Xcorrf req (l) = t
bi (n)bj (n)
M

(3.5)

i=1 j=i+1

avec N = 4 le nombre de trajectoires et M = N (N 1)/2 le nombre de paires uniques


parmi les N trajectoires. Le nouveau profil 1D qui rsulte de cette dernire opration est
visible figure 3.14.

Figure 3.13 Profils temporels des 4 bandes de frquences


25

3.6

Exemple de segmentation en syllabe

Nous disposons maintenant dun profil temporel 1D dun descripteur du signal. Nous
allons appliquer ce profil un algorithme de dtection des minima et maxima en respectant
certaines contraintes : les maxima trop proches lun de lautre (voisins de moins de 80 ms)
et les maxima dintensit non significative sont carts. Le rsultat de la dtection des pics
est visible figure 3.14. Les pics bleus damplitude 0.5 correspondent aux minima (frontires
des syllabes). Les pics bleus damplitude 1 correspondent quant eux aux maxima (noyaux
vocaliques).

Figure 3.14 Minima et maxima du profil du descripteur


Le rsultat de la segmentation est visible figure 3.15. Cet exemple permet dillustrer une
erreur typique de lalgorithme de segmentation : la segmentation a choue " -" car
ces deux syllabes sont fortement co-articules.

Figure 3.15 Rsultat de la segmentation pour : "Ca me sert tre riche"


Un autre exemple de segmentation est prsent en figure 3.16. La phrase en question est
"Il arrive demain dItalie par la route".

26

Figure 3.16 Rsultat de la segmentation pour : "Il arrive demain dItalie par la route".

3.7

Schma rcapitulatif de lalgorithme

Un synopsis de lalgorithme est prsent en figure 3.17.

Figure 3.17 Synopsis de lalgorithme dvelopp

27

Chapitre 4

Evaluation
Lvaluation de la segmentation de la parole en syllabes se dcompose gnralement en
deux parties :
1. la dtection des noyaux vocaliques ("vowel landmarks") ;
2. la dtection des frontires des syllabes .
Dans la mesure o lobjectif final de la segmentation en syllabes est de dterminer les
frontires des syllabes, nous nous concentrerons exclusivement sur cette dernire.
Nous prsentons maintenant les performances des mthodes de segmentation en syllabe proposes sur un corpus mono-locuteur en franais, puis introduisons les bases dune valuation
plus large chelle sur un corpus de rfrence multi-locuteur en anglais-amricain 1 (voir
4.1.1).

4.1

Protocole exprimental

Les performances des deux mthodes proposes ont t values et compares celles
de deux mthodes de segmentation dj existantes. Nous considrons donc en tout 4 mthodes :

mthode
mthode
mthode
mthode

de Melmerstein ([Mermelstein, 1975]) ;


de Villing ([Villing et al., 2004]) ;
base sur lentropie (voir 3 et 3.4.1) ;
base sur le VUV (voir 3 et 3.4.2).

Nous navons pas retenu dautres mthodes existantes : la mthode propos dans
([Howitt, 1999]) qui prsente des performances proches de celles de la mthode de Melmerstein ([Villing et al., 2004]), les mthodes base de HMMs([Xie and Niyogi, 2006]), et
la mthode propose dans [Xie and Niyogi, 2006] qui ne permet dans ltat actuel quune
dtection des noyaux vocaliques.
Ces valuations ncessitent de comparer les rsultats de segmentation obtenus partir de
lune des 4 mthodes une segmentation de rfrence, effectue au pralable (voir partie
4.1.1 et figure 4.1).
1. Cette valuation sera prsente lors de la soutenance

28

Figure 4.1 Comparaison de la rfrence et de la segmentation obtenue par la mthode


base sur lentropie pour la phrase :"Ca me sert tre riche."

4.1.1

Bases de donnes

Deux corpus de parole ont t utiliss pour lvaluation : une base de donnes en
Franais de lIRCAM et la base de donnes TIMIT, en anglais-amricain.
Base de donnes de lIRCAM en Franais. FR-IRCAM :
La base de donnes contient environ 500 phrases (472) extraites dun ensemble de
phrases phontiquement quilibre, lues par un seul locuteur masculin dans une chambre
anchoque. Les enregistrements audio sont encods en fichiers audio sans compression
(wav) et au format 44.1kHz/16bits. La base de donne est segmente manuellement en
phonmes, syllabes et mots.
Pour ce corpus de sons, la dure moyenne dun phonme est de 107 ms tandis que la
dure moyenne dune syllabe est de 240 ms. Une segmentation syllabique de rfrence est
galement disponible pour ce corpus.
Base de donnes TIMIT en anglais-amricain. US-TIMIT :
La base de donnes TIMIT ([Garofolo, 1993]) est un corpus de parole lue qui a t
conue lorigine pour lvaluation de systmes de reconnaissance de la parole. Elle a t
dveloppe conjointement par le DARPA - ISTO (Defense Advanced Research Projects
Agency - Information Science and Technology Office), le MIT (Massachusetts Institute of
Technology), le SRI (Stanford Research Institute) et Texas Instrument.
Elle contient un total de 6300 phrases en anglais-amricain, plus exactement 10 phrases
prononces par 630 locuteurs (438 hommes et 192 femmes). Les locuteurs proviennent de 8
rgions diffrentes des Etats-Unis. Les enregistrements audio sont encods en fichiers audio
sans compression (wav) et au format 16kHz/16bits.
La base de donnes contient initialement des segmentations de rfrence en mots et en
phonmes, mais malheureusement pas de segmentation en syllabes. La segmentation en
syllabe de rfrence a t obtenue par syllabation des squences de mots partir dun

29

outil de syllabation de langlais-amricain 2 , puis par r-alignement temporel des syllabes


partir de lalignement des phonmes.

4.1.2

Mthodologie dvaluation de la segmentation

Nous disposons de deux flux de marques temporelles de segmentation, un flux rsultat


et un flux rfrence, que lon souhaite comparer. La marque temporelle de segmentation
dune fin de syllabe correspond galement la marque temporelle de segmentation du
dbut de la syllabe suivante.
Pour chacun des marqueurs temporels de dbut de syllabes (indics en temps) de lun des
deux flux, on regarde sil existe un marqueur quivalent dans le second flux. On autorise
pour cela un intervalle de tolrance tolerance autour de la marque de segmentation courante.
Si la marque courante a bien un quivalent dans le second flux, alors la segmentation sera
jug correcte. Sinon, nous nous trouvons dans le cas dune omission ou dune insertion de
syllabe, selon que le flux considr est le flux rfrence ou le flux rsultat respectivement.
Dans le cas o une marque de segmentation dun flux a plusieurs marques quivalentes
dans lautre flux, dans lintervalle tolerance , on choisira celle qui est la plus proche.
Pour comptabiliser les rsultats, on gnrera deux vecteurs binaires Vref erence et Vresultat
de mme dimensions. Soit m un indice temporel que lon incrmente chaque comparaison
de syllabe (voir figure 4.2).
- dans le cas dune segmentation correcte : Vref erence (m) = 1 et Vresultat (m) = 1 ;
- dans le cas dune omission de syllabe : Vref erence (m) = 1 et Vresultat (m) = 0
- dans le cas dune insertion de : Vref erence (m) = 0 et Vresultat (m) = 1 ;
Les vecteurs Vref erence et Vresultat permettent ainsi de mesurer le taux dinsertion, le taux
domission et le taux de bonne segmentation.

Figure 4.2 Comparaison des deux flux rfrence et rsultat de marques de segmentation
de la phrase : "Ca me sert tre riche."
2. http ://aclweb.org/anthology-new/N/N09/N09-1035.pdf

30

4.1.3

Mesures de performance

On dfinit la precision et le rappel partir des formules suivantes (4.1) :


precision =

vp
,
vp + fp

rappel =

vp
vp + fn

(4.1)

Dans notre cas, vp pour vrai positif correspond au nombre de marques correctement segmentes, fp pour faux positif correspond au nombre dinsertions et fn pour faux ngatif
correspond au nombre domissions.
Dans le cadre de la classification binaire, la prcision et le rappel sont lis directement aux
taux dinsertions et domissions par :
%insertion = 1 precision,

%omission = 1 rappel

(4.2)

Ds lors, on introduit la Fmeasure (quation 4.3). Elle correspond la moyenne harmonique


de la precision (precision) et du rappel (recall ) :
Fmeasure = 2.

precision.rappel
precision + rappel

(4.3)

Elle prsente en outre lavantage par rapport la mesure d"accuracy" (taux de bonne
classification) dtre insensible aux diffrences du nombre dlments dans chacune des
classes.

4.2

Rsultats

Nous prsentons dans cette section la comparaison de mthodes de segmentation en


syllabes. Nous allons pour cela calculer les taux dinsertions, les taux domissions et la
Fmeasure pour chaque algorithme. Nous valuerons galement la robustesse des mthodes
de segmentation en fonction du rapport signal bruit (20dB->0dB)
Les rsultats pour le corpus US-TIMIT et pour la mthode de segmentation de Villing
([Villing et al., 2004]) ne sont pas encore disponibles. Ils seront prsents lors de la soutenance.
Les paramtres gnraux considrs pour lanalyse sont les suivants :
fentre danalyse de 35 ms ;
analyse avec une fentre de Hanning, avec un pas davancement de 4 ms ;
caractristiques spectrales intgres sur un banc de 40 bandes en chelle Mel (entre
100 et fe /2 Hz) ;
calcul de la log-nergie dans chaque bande Mel.
dure de la fentre pour la corrlation temporelle : 60 ms.
On lance les valuations sur le premier corpus en franais, FR-IRCAM, prsent partie
4.1.1. On choisit tolerance = +/ 50 ms (50 ms gauche et droite de la marque de
segmentation courante), ce qui correspond une prcision de lordre de la moiti de la
dure dun phonme. Les rsultats pour ce corpus sont prsents dans le tableau 4.1.
La mthode base sur le VUV possde les meilleures performances en termes de taux dinsertions, de taux domissions et de Fmeasure sur ce corpus. Cest galement cette mthode
31

qui est la plus robuste et la plus stable face au bruit blanc gaussien. En gnral, elle dpasse
de loin les performances de lalgorithme de Melmerstein. Le reste des valuations (sur le
corpus US-TIMIT et avec lalgorithme de Villing) sera prsent la soutenance.
Mthodes

Taux dinsertions

Taux domissions

Fmeasure

Melmerstein

sans bruit
20 dB
10 dB
5 dB
0 dB

27.6
28.6
29.7
30.0
27.7

29.4
30.0
30.6
31.0
36.1

71.5
70.7
69.9
69.5
67.8

Mthode-entropie

sans bruit
20 dB
10 dB
5 dB
0 dB

24.9
26.8
29.8
31.6
34.1

20.2
19.4
21.6
22.6
23.5

77.4
76.7
74.1
72.7
70.8

Mthode-VUV

sans bruit
20 dB
10 dB
5 dB
0 dB

18.0
21.0
21.8
22.6
24.0

13.4
13.0
13.5
14.2
15.2

84.2
82.8
82.1
81.3
80.1

Table 4.1 Tableau des performances des diffrentes mthodes pour le corpus FR-IRCAM

32

Chapitre 5

Conclusion
La syllabe, pour un grand nombre de langues, est la "note de musique" de la voix.
Pouvoir accder une telle information parait donc essentiel, surtout dans le contexte de
cration musicale dans lequel baigne lIRCAM depuis sa fondation. La syllabe est galement
l"atome" de la prosodie. Une perspective de modification des caractristiques prosodiques
de la voix ou dintgration dlments prosodiques dans les systmes de synthse de la
parole nous donnent alors une raison supplmentaire de vouloir les identifier.
Le travail ralis durant le stage a aboutit la ralisation de mthodes non-superviss de
segmentation syllabique et limplmentation de mthodes dj existantes. Lavantage des
mthodes non-supervises par rapport aux mthodes supervises est quelles ne ncessitent
pas de phase dapprentissage, souvent lourde mettre en uvre et trs dpendante de la
langue. Elles sont donc plus facilement gnralisables.
Les mthodes qui ont t proposes reposent principalement sur ltablissement de deux
nouveaux critres de voisement pour la segmentation en syllabe, bass sur lentropie de
Rnyi et le VUV. Ces critres de voisement sont alors appliqus sur une reprsentation
temps-frquence multi-bandes pour carter les trames non-voises, ou bien les bandes de
frquences non utiles pour la segmentation syllabique. Les profils temporels acoustiques
pour les diffrentes bandes frquentielles sont alors exploits pour raliser la segmentation
syllabique.
Une mthode de segmentation syllabique base sur une analyse multi-bandes semble tout
fait viable dans le sens ou elle permet de prendre en compte la structure formantique
des noyaux vocaliques. Lide dune corrlation croise entre ces bandes est judicieuse car
elle exploite justement cette structure formantique. Le dfaut de cette mthode est que
la corrlation croise spectrale dune voyelle faiblement nergtique ou dont lnergie est
concentre dans la premire zone formantique (/u/ par exemple) sera faible. Une ide
potentiellement intressante pour exploiter la structure formantique des noyaux vocaliques
consisterait dtecter les minima et maxima non pas sur le profil temporel 1D issu de la
corrlation spectrale mais sur les Nb profils temporels (voir partie 3.5.2) des Nb bandes
frquentielles, puis dappliquer un critre de fusion des pics.
Lapplication dun critre de voisement pour carter les trames (ou plus gnralement les
bandes frquentielles) non voises en tant que noyaux vocaliques potentiels est une tape
indispensable pour un algorithme de segmentation syllabique. Le coefficient de voisement
bas sur la mesure de VUV a prouv son efficacit dans le cas o la voix est effectivement bien voise (harmonique). Dans des cas plus extrmes de voix trs expressives, les
hypothses de fonctionnement de cette mthode ne sont plus respectes.
33

Pour le coefficient de voisement bas sur lentropie de Rnyi, lhypothse fondatrice tait
que le spectre dune trame voise tait fortement piqu. Cette hypothse se justifie bien car
une part importante de lnergie dune trame voise est contenue dans les basses frquences
(dans la premire zone formantique). Cependant, cela ncarte pas le cas des trames bruites
(non voises) o lnergie du bruit est aussi concentre dans certaines bandes de frquences
(bruits colors de natures varies...). Il serait alors judicieux de ne pas considrer les points
frquentiels de ces bandes parasites dans le calcul de lentropie de Rnyi. Il faudrait par
consquent trouver un critre pour faire la distinction entre les bandes inutiles de bruit
color "type" et les bande utiles voises. Une ide consisterait utiliser la mesure de VUV
pour carter les points frquentiels des bandes trs nergtiques mais peu voises. Le calcul
de lentropie de Rnyi avec une valeur de alpha petite se ferait sur un spectre nettoy de
tous les pics parasites dintensit lev. Par contre, cette proposition ne fonctionnera pas
si le bruit color est de nature harmonique, et dans les limites imposes par le VUV...
Une piste damlioration du critre de voisement bas sur lentropie consisterait mesurer
lentropie non plus sur le spectre mais sur lenveloppe spectrale (enveloppe LPC, true
envelope...), et cela fin de rendre la mesure plus robuste au bruit. Toujours dans la mme
otique, mais dans une voie parallle, nous pourrions, avant le calcul le lentropie, calculer
une estimation du bruit de fond puis soustraire ce bruit du signal de parole (voir tat de
lart partie 2.4.2).
La corrlation croise temporelle permet dappliquer un filtrage qui prend en compte ltalement temporel dune syllabe sur plusieurs trames (voir partie 3.5.1). Le choix de la valeur
du paramtre K nest cependant pas anodin. Sa valeur est en fait assez dpendante de la
dure moyenne dune syllabe et plus gnralement du dbit de parole. Il faudrait galement
tester si la pondration par une fentre gaussienne permet bien damplifier les discontinuits
entre syllabes adjacentes, comme cela est suggr dans [Wang and Narayanan, 2007].
ltape de dtection dactivit vocale (3.2) nest jamais aborde dans les articles portant
sur la segmentation syllabique. Elle est pourtant ncessaire pour dlimiter correctement les
syllabes voisines dune priode de silence. La dtection dactivit vocale est cependant un
problme complexe, diffrent de celui de la segmentation syllabique. Lalgorithme retenu est
assez simple et donne dassez bons rsultats. Quelques erreurs incontournables de dtection,
provoques notamment par des bruits de bouche ou des respirations, peuvent malgr tout
se produire. On pourrait aussi envisager dautres algorithmes plus sophistiqus la place.
Les performances de segmentation et de robustesse au bruit des deux mthodes proposes,
obtenues aprs les premires valuations, sont encourageantes. Dautres tests pourront
tre effectus sur des fichiers de parole bruits avec diffrents types de bruits naturels,
tels que ceux rencontrs dans une salle de spectacle, durant une reprsentation (bruit de
climatisation, etc...). Il existe galement des variantes des mthodes proposes qui nont
pas t prsentes, mais dont ltude devra tre poursuivie.
Enfin, une implmentation temps rel en MAX/MSP pourra tre envisage par la suite.

34

Bibliographie
[Boll, 1979] Boll, S. (1979). Suppression of acoustic noise in speech using spectral subtraction. Acoustics, Speech and Signal Processing, IEEE Transactions on, 27(2).
[Clements and Keyser, 1983] Clements, G. and Keyser, S. (1983). Cv phonology. a generative theory of the syllabe.
[De Jong and Wempe, 2009] De Jong, N. and Wempe, T. (2009). Praat script to detect
syllable nuclei and measure speech rate automatically. Behavior research methods, 41(2).
[Garofolo, 1993] Garofolo, J. (1993). Darpa Timit : Acoustic-phonetic Continuous Speech
Corps CD-ROM. US Department of Commerce, National Institute of Standards and
Technology.
[Gerven and Xie, 1997] Gerven, S. and Xie, F. (1997). A comparative study of speech
detection methods. In Fifth European Conference on Speech Communication and Technology.
[Griffin and Lim, 1985] Griffin, D. and Lim, J. (1985). A new model-based speech analysis/synthesis system. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP85., volume 10. IEEE.
[Hall, 2006] Hall, T. (2006). "Syllable, phonology". Encyclopedia of Langage and Linguistics.
[Howitt, 1999] Howitt, A. (1999). Vowel landmark detection. In Sixth European Conference
on Speech Communication and Technology.
[Huang and Yang, 2000] Huang, L. and Yang, C. (2000). A novel approach to robust
speech endpoint detection in car environments. In Acoustics, Speech, and Signal Processing, 2000. ICASSP00. Proceedings. 2000 IEEE International Conference on, volume 3.
IEEE.
[Jin and Cheng, 2010] Jin, L. and Cheng, J. (2010). An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy. In Intelligent
Computation Technology and Automation (ICICTA), 2010 International Conference on,
volume 1. IEEE.
[Lee, 1989] Lee, K. (1989). Automatic speech recognition : the development of the SPHINX
system. Number 62. Springer.
[Liu et al., 2008] Liu, H., Li, X., Zheng, Y., Xu, B., and Jiang, N. (2008). Speech endpoint
detection based on improved adaptive band-partitioning spectral entropy. Journal of
System Simulation, 20(5).
[Liuni et al., 2011] Liuni, M., Robel, A., Romito, M., and Rodet, X. (2011). Rnyi information measures for spectral change detection. In Acoustics, Speech and Signal Processing
(ICASSP), 2011 IEEE International Conference on. IEEE.
[Mermelstein, 1975] Mermelstein, P. (1975). Automatic segmentation of speech into syllabic units. The Journal of the Acoustical Society of America, 58.
35

[Ney, 1981] Ney, H. (1981). An optimization algorithm for determining the endpoints of
isolated utterances. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP81., volume 6. IEEE.
[Obin, 2011] Obin, N. (2011). MeLos : Analysis and Modelling of Speech Prosody and
Speaking Style. PhD. Thesis, Ircam - UPMC.
[Obin, 2012] Obin, N. (2012). Cries and whispers-classification of vocal effort in expressive
speech. In Interspeech.
[Obin and Liuni, 2012] Obin, N. and Liuni, M. (2012). On the generalization of Shannon
entropy for speech recognition. In IEEE workshop on spoken language technology.
[Ouzounov, 2005] Ouzounov, A. (2005). Robust features for speech detection-a comparative study. In Int. Conf. on Computer Systems and Technologies.
[Rnyi, 1961] Rnyi, A. (1961). On measures of entropy and information. In Fourth Berkeley Symposium on Mathematical Statistics and Probability.
[Robinson and Dadson, 1956] Robinson, D. and Dadson, R. (1956). A re-determination of
the equal-loudness relations for pure tones. British Journal of Applied Physics, 7.
[Savoji, 1989] Savoji, M. (1989). A robust algorithm for accurate endpointing of speech
signals. Speech Communication, 8(1).
[Shannon, 1948] Shannon, C. (1948). A mathematical theory of communications. Bell
System Technical Journal, 27(3).
[Shen et al., 1998] Shen, J., Hung, J., and Lee, L. (1998). Robust entropy-based endpoint
detection for speech recognition in noisy environments. In Fifth International Conference
on Spoken Language Processing.
[Villing et al., 2004] Villing, R., Timoney, J., and Ward, T. (2004). Automatic blind syllable segmentation for continuous speech.
[Villing et al., 2006] Villing, R., Ward, T., and Timoney, J. (2006). Performance limits for
envelope based automatic syllable segmentation. In Irish Signals and Systems Conference, 2006. IET. IET.
[Wang and Narayanan, 2007] Wang, D. and Narayanan, S. (2007). Robust speech rate estimation for spontaneous speech. Audio, Speech, and Language Processing, IEEE Transactions on, 15(8).
[Wang et al., 2011] Wang, H., Xu, Y., and Li, M. (2011). Study on the mfcc similaritybased voice activity detection algorithm. In Artificial Intelligence, Management Science
and Electronic Commerce (AIMSEC), 2011 2nd International Conference on. IEEE.
[Wu and Wang, 2005] Wu, B. and Wang, K. (2005). Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments.
Speech and Audio Processing, IEEE Transactions on, 13(5).
[Xie and Niyogi, 2006] Xie, Z. and Niyogi, P. (2006). Robust acoustic-based syllable detection. In Ninth International Conference on Spoken Language Processing.
[Young, 1993] Young, S. (1993). The htk hidden markov model toolkit : Design and philosophy. Department of Engineering, Cambridge University, UK, Tech. Rep. TR, 153.

36

Annexes
Liste XSAMPA des phonmes du franais moderne
Le code XSAMPA est une extension de la norme SAMPA de transcription en code
ASCII de lalphabet standard API (Alphabet Phontique Intenrational) 1 .

1. http ://fr.wikipedia.org/wiki/X-SAMPA

37

You might also like