Chapitre 2

classifi
MODELES DE MARKOV
cation
et
CACHES
la
reconn
aissan
ce
de
telles
squen
ces, il
s'agit
Prsentation
La
reconnaissance
des
automatique
des
squences
temporelles
est
une
problmatique en plein essor. Sous ses diffrentes formes, elle a dj donne lieu a une
grande varit dapplications comme le traitement automatique de la parole ou le suivi
de processus industriels. Par son rcent rapprochement au traitement d'images, elle tend
dsormais s'ouvrir plus largement de vastes domaines d'applications: reconnaissance
de mouvements, classification de vidos par le contenu, vision robotique, en
bioinformatique et dans le domaine mdical tel que le diagnostic mdical avec des
donnes puce ADN, et rcemment dans la cardiologie, notamment 1'analyse et la
segmentation du signal ECG.
Ce chapitre, aborde en dtail une mthode efficace et trs employe pour la
HMM
s.
II.1 INTRODUCTION
La reconnaissance de squences telle que l'on va tudi dans ce document
consiste extraire un certain nombre de squences utiles d'une longue observation a
partir d'un signal ECG, pour pouvoir reconnaitre les arythmies cardiaques. II est
ncessaire pour notre application de choisir un modle pour les squences a reconnaitre.
Celui-ci doit tre compos d'lments qui peuvent modliser la squencialit du systme
et son processus d'observation. Pour cela, le vocabulaire commun aux diffrentes
applications des divers domaines cites prcdemment, dfinit: Les tats : a un instant
donne, la description du systme est donne par un tat donn. Les transitions : ce sont
les changements d'tat.
Tenant compte de cela, c'est sous la forme d'un graphe qu'un systme squentiel sera le
plus clairement reprsent. Cette approche est unanime. Les graphes utilises prsentent
gnralement les tats sous forme de places et les transitions sous forme d'arcs sparant
les places. Selon la nature stochastique des lments du graphe, des mthodes
statistiques ont t mises en place, offrant de bonnes performances. Ces mthodes
prsentent en effet l'avantage de pouvoir estimer les paramtres des modles par
apprentissage. Sous rserve de disposer de suffisamment de squences d'entrainement
reprsentatives des donnes a traiter ultrieurement, il est ainsi possible de crer un
modle particulirement bien adapt au systme tudi. [3] + [16]
Figure II. 1 : Exemple d'automate probabiliste d'tats finis (compos ici de 3 tats).
Les flches figurent les transitions possibles entre tats.
Les modles statistiques les plus utilises pour la reconnaissance de squences

sont les modles markoviens.
U
n
modle markovien d'ordre k considre que l'tat du systme un instant t ne dpend que
de l'tat aux k instants prcdents. Cela implique la proprit d'indpendance
conditionnelle suivante:
Cette formule sous entend que la squence passe peut tre rsume de faon
concise et permet d'allger fortement le modle. La plupart des applications repose sur
un modle d'ordre 1.
Le modle markovien le plus souvent utilise est le modle de Markov cache
(Hidden Markov Model ou HMM). Celui-ci repose sur un modle de Markov d'ordre 1
simulant lvolution de l'tat du systme. Ce modle est cache, c'est a dire que l'on n'a
pas accs a la squence d'tat q1T proprement dite mais a une squence d'observations yt
gnres par le systme a chaque instant. Les observations correspondent aux donnes
du systme. [16]+ [17]
Les HMMs, introduits par Baum Welch dans les annes 60, utiliss a partir des
annes 80 en reconnaissance de la parole, la ou ils ont t pleinement exploiter,
appliqus ensuite a la reconnaissance de texte manuscrit, au traitement d'images, et a la
Bioinformatique comme le sequencement de l'ADN. Mais aussi dans bien d'autres
applications dans lesquelles apparait une squentialit comme la segmentation du signal
ECG dans le domaine de la cardiologie. [18]
II.2. DEFINITIONS
Gnralement un processus ou modle stochastique est une suite d'expriences
dont le rsultat dpend du hasard. En certains temps 0,1, 2,..., t, observons un systme.
Celui-ci peut se trouver dans l'un des tats d'une collection finie d'tats possibles.
L'observation du systme dont le rsultat (alatoire) est l'tat dans lequel se trouve le
systme. Un processus stochastique est un phnomne temporel ou intervient le hasard,
c'est-a-dire une variable alatoire X(t) voluant en fonction du temps. On peut aussi dire
de ce processus qu'il met des squences d'tats S = Sl, s2,...., st. Chaque squence est
mise avec une probabilit P(S) = (Sl, s2,..........,sT ). Pour calculer P(S), il faut se donner
la probabilit initiale P (Sl) et les probabilits d'tre dans un tat st, connaissant lvolution
antrieure. [16]
Un processus stochastique est markovien (ou de Markov) si son volution est
entirement dtermine par une probabilit initiale et des probabilits de transitions
entre tats (son volution ne dpend pas de son pass mais uniquement de son tat
prsent, l'tat courant du systme contient toute l'information pour prdire son tat futur.
[19]
Les modles de Markov Cachs (Hidden Markov Models ou HMM)

modlisent des phnomnes alatoires dont on suppose qu'ils sont composs a un
premier niveau d'un processus alatoire de transition entre les tats inobservables (les
tats caches) et, a un second niveau, d'un autre processus alatoire qui, dans chaque tat,
engendre des valeurs observables (appeles observations).
L'articulation de ces deux niveaux confre aux modles de type HMM une
grande flexibilit et ces modles bass sur des transitions entre tats sont bien adapts
pour rendre compte de processus organiss dans le temps, ce qui explique Importance
considrable de ces modles. [3] + [20]
Un processus alatoire gre la transition d'tat tat, mais l'tat du systme
n'est pas observable (il est cach ), on ne voit que les missions de cet tat : les
observations.
Autrement dit, au temps t le systme est dans l'tat qt (invisible) et met
l'observation Ot (visible). Ces observations Ot peuvent prendre leurs valeurs dans un
ensemble fini de valeurs discrtes ou de symboles (par exemple les caractres d'un
alphabet fini), ou dans un ensemble continu et infini (frquence d'un signal,
temprature), dans ce cas le principe reste le mme, avec des distributions de probabilit
continue. [18] + [20]
II.2. 1.Les lments dun HMM:

Un modle de Markov cach, est dfini par une structure compose d'tats, de
transitions et par un ensemble de distribution de probabilits sur les transitions. A cette
structure proche des automates probabilistes, on adjoint un alphabet et, pour chaque
tat, une probabilit d'mission des diffrents symboles de l'alphabet. Un HMM peut
donc tre dfini par le quadruplet (S, V, A, B) tel que :
S est un ensemble de N tats;
V est un alphabet de M symboles, ceux-ci pouvant tre vectoriels ;
A = {aij} S x S [0,1], la matrice des probabilits de transitions entre les tats

S, et Sj. aij reprsente la probabilit que le modle volue de l'tat i vers l'tat j :
aij = A (i, j) = P (qt+1 = Sj |qt = si) i, j [1,...,N ] t [ l , . . . , T ] . a v e c : a i j > 0

i , j et
^=laij=\
B = S x V [0,1], une matrice indiquant les probabilits d'mission associes

aux tats (la matrice des probabilits d'observation des symboles M); on note P
(yt|qt) la probabilit d'mettre a l'instant t le symbole yt a partir de l'tat qt. [16]
+ [19] + [20]
FIGURE
Figure II.2: Representation d'un HMM. [16] Quelques notations

utiles :
A=(A;B;) Un HMM
O= {O1. .., OT} le vecteur de T observations mises.
M : La taille de l'alphabet des observations
N : nombre d'tats du modle
bj(k), j [l, n], k [l, M] Un lment de B, elle reprsente la probabilit que lon
observe le symbole vk alors que le modle se trouve dans l'tat j.
T : la longueur d'une squence observe.

O=O1,..Ot ,.,OT Une squence observe avec OtV
CHAPITREII
HIDDEN MARKOV MODEL HMM
_____________________________________________________________________________________
O [i: j] = Oi... Oj Une sous-sequence de O

,..., qt,.. qT avec qt GS La suite des etats qui a emis une sequence
qi
P(0|A) La probabilite que le HMM ait emis la sequence O

O = 0lv..,Om Un ensemble d'apprentissage compose de m sequences
P (A| O) La probabilite que l'ensemble de sequences O ait ete emis par le HMM
A.
11= {TTI} : Le vecteur des probabilites initiales du HMM.
ni
= P(ql=Si),l<i<N
Le vecteur n gere les probabilites de transitions depuis un etat d'entree virtuel ou se trouve
le systeme en t = 0. Pour tout etat i, m est la probabilite que l'etat de depart du HMM soitl'etat i: n.
l
= P(q
= si)
l < i < n . a v e c : 7 r / > = 0 Vi
II.2.2. Un exemple de HMM
et ST=1m=l [19] + [21]
[20]
II.3. GENERATION D'UNE SEQUENCE PAR UN HMM

Un HMM peut etre vu comme un processus permettant d'engendrer une
sequence; inversement, on peut considerer une sequence comme une suite
d'observations sur un HMM en fonctionnement.
En se placant du premier point de vue, la generation d'une sequence peut se
decrire par l'algorithme suivant qui est une procedure iterative geree par des tirages
aleatoires. [19] + [20]
28
CHAPITREII
_____________________________________________________________________________________
A
l
gorithme : les etapes d'une sequence generee par un HMM 7^1

Choisir l'etat initial qi = Si avec la probability TT/
Tant que t < T faire
Choisir l'observation ot = Vk avec la probability bi(k)
Passer a l'etat suivant qt+1 = Sj avec la probabilite a,j
tH+1
fin tant que
[19] + [20]
Notons ici qu'une squence donne peut en general etre engendree de plusieurs
faons distinctes par un HMM. II a ete montre que plusieurs sequences d'etat peuvent
engendrer la meme observation. II serait alors interessant de calculer la probabilite
d'emission de cette observation pour chacun des chemins possibles, le calcul de ces
differentes probability est l'un des principaux problemes des HMM. C'est le sujet que
nous allons developper au paragraphe suivant.
II.4. LES TROIS PROBLEMES DES HMMS

Comme on vient de le voir, les HMM permettent de modeliser des sequences
d'observations discretes ou continues. lis permettent de resoudre principalement trois
grands problemes:
L'apprentissage: etant donne un ensemble de sequences, determiner les

parametres d'un modele de Markov cache d'architecture fixee pour
maximiser les probabilites d'emission de ces sequences.
devaluation d'une sequence: etant donne un modele de Markov cache et

une sequence, determiner quelle est la probabilite d'emission de cette
sequence suivant ce modele.
La recherche du chemin le plus probable: etant donne un modele de

Markov cache et une sequence, determiner la suite d'etats qui maximise la
probabilite d'observation de cette sequence. [19] + [20] + [22]
29
CHAPITREII
_____________________________________________________________________________________
II.4.1. Apprentissage
Afin d'effectuer la reconnaissance, il faut avoir un modele de la sequence a
reconnaitre que l'on pourra ensuite comparer aux sequences inconnues. Pour construire
ce modele, on pourrait utiliser les connaissances a priori dont on dispose sur le systeme.
Celles-ci sont generalement insuffisantes pour donner des resultats convaincants. Nous
allons done plutot faire appel a une methode d'apprentissage statistique. Celle-ci va
permettre de modifier les probabilites des differentes transitions du HMM afin de le
rapprocherdu modele recherche.
Etant donne un modele de Markov cache d'architecture fixee, 1'apprentissage
vise a determiner ses parametres (matrice de probabilites de transitions, matrice de
probabilites d'emission et matrice de probabilites initiales). Cet apprentissage se fait par
une approche rigoureuse qui consiste a chercher les parametres X de A qui maximisent:
P(0) = f[p(Yk
[19] + [20]
()
II faut en effet que A ait une
probabilite maximale d'emettre les
sequences d'apprentissage. Cet
entrainement, qui suit le principe du
maximum de vraisemblance, s'effectue
suivant l'algorithme d'entrainement de
Baum-Welch. Principe :
Supposons disposer d'un ensemble de sequences O = {O1,..., Om} dont
l'element courant est note Ok. Le but de 1'apprentissage est de determiner les parametres
d'un HMM d'architecture fixee: A = (A, B, TT), qui maximisent la probabilite P(0|A).
done a maximiser :
(ok)
P(0) = f[p(ok
Comme on suppose les sequences d'apprentissage tirees independamment, on cherche

L'idee est d'utiliser une procedure de reestimation qui affine le modele petit a
petit selon lesetapessuivantes:
Choisir un ensemble initial A0 de parametres;
Calculer A1 a partir de A0, puis A2 a partir de Au etc.
Repeter ce processus jusqu'a un critere de fin.
Pour chaque etape p d'apprentissage, on dispose de Ap et on cherche un Ap+1
qui
d
oi
t
v
er
ifi
er
:|
P(
0
A +1) > P(0A,)
30
CHAPITREII
_____________________________________________________________________________________
Y[p(0kAP + i)>f\p(0kAP)
Soit:
[19] + [20]
*=i
*=i
Ap+1 doit done ameliorer la probabilite de remission des observations de l'ensemble d'apprentissage.
Pour calculer Ap+i a partir de Ap ,on fait un comptage de l'utilisation des transitions A et des
distributions B et n du modele Ap quand il produit l'ensemble O. Si cet ensemble est assez
important, ces frequences fournissent de bonnes approximations a posteriori des distributions de
probability A, B et A et sont utilisables alors comme parametres du modele Ap+1 pour iteration
suivante.
La methode d'apprentissage consiste done dans ce cas a regarder comment se comporte le
modele defini par Ap sur O, a reestimer ses parametres a partir des mesures prises sur O, puis a
recommencer cette reestimation jusqu'a obtenir une convergence. Dans les calculs qui suivent, on
verra apparaitre en indice superieur la lettre k quand il faudra faire reference a la sequence
d'apprentissage concernee. L'indice p, qui compte les passes d'apprentissage, sera omis : on partira
d'un modele note simplement A et on calculera celui qui s'en deduit. [19] + [20] Les formules de
reestimation :
k
On definite
(i,j)\ comme la probabilite, Etant donnes une phrase Ok et un h qui ait

emis la lettre de rang t de 0* l'etat St qui ait
HMM A, que ce soit l'etat
^j)=^=^+=^>
im
Ce qui se reecrit:
qt + i = Sj,
\'J) =
,scellederang,+l Done:
P(q,
=^=
P(O
o
K
Par definition des fonctions forward-backward, on en deduit:

^
fi
(ij)
Ondefinitaussilaquantite
phrase OJ
P(Ok)
comme la probabilite que la lettre de rang t de la
soit emise par l'etat Sj
31
CHAPITREII
_____________________________________________________________________________________
rf(o=**=4/,)
Soit:
/t{i) = fP{qt
W
On a la relation:
Zp(
*
,=^.)=
=^+ 1=
^,)
P(0*
7=1
(0=
5^
y=i
p{&
[19] + [20]
Remarque : Les calculs de a et p seront presenter par la suite dans la section (1.5.2).
Le nouveau modele HMM se calcule a partir de 1' ancien en reestimant TT, A et B par comptage
sur la base d'apprentissage. On mesure les frequences :
Nombre de fois oil la transition de Si a Si a ete utilisee
Clij =---------------------------------------------------------------------------------------------------
Nombre de transition s effectuees a partir deSi

------
Nombre de fois oil le HMM s'est trouve dans V etat Si en observant Uk
Dj(k) =----------------------------------------------------------------------------------------------------------------
Nombre de fois oil le HMM s'est trouve dans V etat Sj
m=
Nombre de fois oil le HMM s' est trouve dans V etat Si en emmet le fr symbole d' une phrase
Nombre de fois oil le HMM a emis le premier symbole d< une phrase
32
CHAPITREII
_____________________________________________________________________________________
71
Comptetenudeces definitions:
=
i
k=\
Etf(o
N
k
i
Cr-l
aij
k
t
t=\
k=\
Ytf(i,j)
-1
^
o*-i
k
t k=\
k
=
\
t
=
\
t=\ avecOt =
bj
Q) = = /=
o*-i
Y<U)
k
X!
>,*(/)
k=\ t=\
k
t
La suite des modeles construits par l'algorithme de Baum-Welsh verifie la relation

cherchee : P (O |AP+1) > P (O j |AP). [19] + [20]
Remarque:
Le choix du modele initial influe sur les resultats ; par exemple, si certaines
valeurs de A et B sont egales a 0 au depart, dies le resteront jusqu'a la fin de
l'apprentissage.
L'algorithme converge vers des valeurs de paramdres qui assurent un maximum local
de P (0|A). II est done important, si l'on veut dre aussi pres que possible du
minimum global, de bien choisir la structure et l'initialisation.
Le nombre derations est fixe empiriquement. L'experience prouve que, si le point
precedent a de correctement traite, la stabilisation des paramdres ne correspond pas
a un sur apprentissage: il n'y a done en general pas besoin de controler la
convergence par un ensemble de validation. Mais cette possibility est evidemment
toujours a disposition. [19] + [20]
33
CHAPITREII
_______________________________________________________________________
Algorithme : Algorithme de Baum-Welch

Fixer desvaleurs initiates (A, B, it)
On definit le HMM de depart comme A0 = (A0, B, 71).
p*-0
Tant que la convergence n'est pas realisee faire
OnpossedeleHMMAp.
On calcule pour ce modele, sur l'ensemble d'apprentissage, les valeurs :
On en deduit * A ,B defini par en utilisant les formules de reestimation.

Le HMM courant est desormais ^
= (,A,S ).
P<-P+1 Fin tant que

Exemple : [19] + [20]
En partant du HMM A0 defini par les parametres suivants :
%
0.45
0.10
0.15
0.35
0.50
0.20
0.40
0.25
0.60
&
1.0 0.0
0.5 0.5
0.0
1.0
0^
0.3
0.2y
On peut calculer que, s'il emet sur l'alphabet a deux lettres V = {a, b}, on a:
P ( a b b a a | A 0 ) = 0.0278
Si on prend comme ensemble d'apprentissage cette seule phrase, Implication de
1'algorithme de Baum-Welsh doit augmenter sa probability de reconnaissance. Apres
une reestimation, on trouve le HMM An
0.346 0.365 0.289

0.159 0.514 0.327
0.377
0.259
1.0
0.364
&
0.631
0.0 ^
0.369
n=
0.0^
^0.656
0.344
P(abbaa|A1)=0.0529
34
1.
CHAPITREII
_____________________________________________________________________________________
Apres 15 iterations:
%
0.0
0.212
0.0
0.0
0.788
0.515
1.0
1.0
0.0
0.485
&
0.969
0.0 ^
n=
'1.Oî
0.031
0.0
1.0
0.0
P(abbaa|A15)=0.2474
Apres cent cinquante iterations, la convergence est realisee. La Figure II.5 et
II.6 decrivent les resultats, que l'on peut donner aussi sous la forme suivante :
%
0.0
-
0.0
0.18
1.0
0.82
0.0
(T
o
0.0
0.5 &
0.5
0
1.0
0.0
0.0
0.0
1.0
1.0
0.0
0.0
P(abbaa|A150)=0.2500
Etat
P(a)
P(b)
Figure II.3 : la matrice B de cet HMM
Figure II.4: Le HMM entraine sur une

seule phrase, apres convergence.
Le seul etat initial possible est l'etat 1.
[19] + [20]
II.4.2. Evaluation de la probabilite d'observation d'une sequence
d'obs
tions
etant
donne
mode
A
egale
Le probleme est de calculer la probability d'observation de la sequence
somm
d'observation etant donner un HMM P(0|A). II existe plusieurs techniques pour evaluer
sur
cette probabilite d'observation d'une sequence de longueur t:
les su
L',va,uation directe: Remarquons d.bord que la probabilite de la suite
d'etat
possibles Q des probability conjointes de O et de Q, done
35
CHAPITREII
_____________________________________________________________________________________
P(0|A) doit etre evaluee pour toutes les sequences d'etats possibles. Dans ce
cas, il faut enumerer toutes les suites d'etats de longueur t ce qui entraine un
couten20(A
p(opt) = Zwpt)
Pourune sequence d'etats donnee:
P(0
Q,
bqi (Oi) bq2 (02)... bqt (Ot)
^)îaqlq2aq2q3...aqt-lqt
dors :
m^
* a^b4od^Moi)a^,. .a* - ^r(or)
qlq2...qT
Avec T observations et N etats dans le modele :

- NT possibles sequences d'etats.
- Approximativement 2TWr operations requises.
- Pour T=100 et un HMM a 5 etats-200*5lcc- operations. [19] + [20]
S L'evaluation par les fonctions forward- backward : C'est
l'algorithme le plus efficace pour traiter ce probleme. Son cout est en
O (n2T). Dans cette approche, on remarque que l'observation peut se
faire en deux temps : d'abord, remission du debut de l'observation O
(1 : t) en aboutissant a l'etat qi au temps t, puis, remission de la fin de
l'observation 0(t +1 : T) sachant que l'on part de qi au temps t. Ceci
pose, la probability de l'observation est done egale a : [19] + [20] +
[23]
P(O ) =
Ou ar(i) est la probabilite d'emettre le debut O (1 : t) et d'aboutir a qz a 1'instant t, et B7
(i) est la probabilite d'emettre la fin 0(t+l :T) sachant que l'on part de qz a 1'instant t. le
calcul de a se fait avec t croissant tandis que le calcul de p se fait avec t decroissant,
d'ou l'appellation forward-backward.
6
CHAPITREII
_____________________________________________________________________________________
=^
le calcule de a : On a : L(/) = P(Oi02..........0,,q,
at (i) ce calcule par l'algorithme 13.2 qui exprime que pour emettre le debut de
l'observation 0(t+l :T) et aboutir dans l'etat Si au temps t+1, on doit
necessairement etre dans l'un des etats S, a l'instant t. cette remarque permet
d'exprimer a^Q) en fonction des ut (i) et d'utiliser un algorithme de
programmation dynamique pour le calcul les at (i) pour tout i, puis des at_ (i)
pour tout i, etc.
Ce calcul a une complexite en 6 (n* T). [19] + [20] + [23]
. Le calcul de p
De maniere analogue, ft (i) se calcule par l'algorithme 13.2.
Le calcul dep est lui aussi en 6 (n* T).
at(i) = P(Oi02...0t,qt = iA)
1. Initialisation : \aiQ) = mbi(a), 1TN\
2. Induction :auiG)
3. Terminaison :
y>(z>r> WO, l<t<T-l \ < j < N
1^-7^7
PiOX)
= j>(0
[19] + [20] + [23]
37
CHAPITREII
_____________________________________________________________________________________
Algorithme : calcul de la fonction forward a

pour i=l, n faire aT(i)
-nsbiCd) fin pour t<l
taut que t <T faire
taut que j < n faire
J;(0(+,)
.=i
j-v+i
fin taut que
t<-t-+l fin tant
que
P(0|A)<-Jar(/)
[19] + [20]
Algorithme : calcul de la fonction backward p
pour
i=l,n que
faire t-t-l
MO fin tant que
-1
t-T
tant
que t >
1 faire
p(OA)<J>(0
tant
que j <
n faire
j*-7-i
fin
tant
38
CHAPITREII
_____________________________________________________________________________________
Finalement, la probabilite d'observation d'une sequence est obtenue en
________________i=\________________
prenant les valeurs de a et de p a un instant t quelconque:

Cependant, on utilise le plus souvent les valeurs obtenues pour deux cas
particuliers (t=0) ou (t=T), ce qui donne :
P(0A)^S^>Zô(0[19] + [20]
II.4.3. Decodage : Le calcul du chemin optimal: l'algorithme de Viterbi
II s'agit de determiner le meilleur chemin correspondant a l'observation, c'est-adire de trouver dans le modele A la meilleure suite d'etats Q, qui maximise la quantite :
P (Q, 0|A)
Pour trouver Q=(^1z...................1T) pour une sequence d' observations
0(0! 02..............Or), on definit la variable intermediaire 6t (i) comme la probabilite du
meilleur chemin amenant a l'etat s, a l'instant t, en etant guide par les t premieres
observations :
Sk(i>=MaXqiq2_q : 1 P ( q i , q 2 ......................qt = s, J O l J 0,...............Ot|A)
Par recurrence, on calcule :
St+1(J) = [MaxiBt(i)aii]bi(Ot_1) En gardant trace, lors du calcul, de la
suite d'etats qui donne le meilleur chemin
amenant a l'etat st a t dans un tableau tf.
39
CHAPITREII
_____________________________________________________________________________________
On utilise une variante de la programmation dynamique, l'algorithme de Viterbi

pour formaliser cette recurrence. II fournit en sortie la valeur P" de la probability de
remission de la sequence par la meilleure suite d'etats (q*..........9*).
La tonction Argmax permet de memoriser l'indice i, entre 1 et n, avec lequel on
atteint le maximum des quantites (Vi (*>) Le cout des operations est egalement en
6(n*T) [19] + [20] +[24]
Algorithme : Algorithme de Viterbi
pour i=l, n faire
5! (i) -7libi(Oi)
i(D-0
fin pour
t<-2
tant que t <T faire tant
que j < [ faire
U)ÂrgMaX[St^)av]
X^n
j *-J + l fin
tant que
P^MaX[8M
l<r<n
q*T(j)ÂrgMax[St_x{i)] \ < i < n

t-T
fin tant que
tant que t >1 faire
*;y*+i(*;+1)
t-e-i
fin tant que
40
CHAPITREII
_____________________________________________________________________________________
II.5.UTILISATION DES HMMS POUR LA CLASSIFICATION DE SEQUENCES

Les bases des modeles de Markov caches etant posees, nous allons maintenant
pouvoir les utiliser pour la reconnaissance de sequences.
On veut classifier des sequences en un nombre nc de categories. Pour cela, on cree
nc HMMs et on entraine chacun d'entre eux avec un ensemble de sequences
d'apprentissage representatif d'une classe donnee. [16] + [25]
Figure II.5 : Organigramme de la methode de classification de sequences par

les HMMs. [16]
II.6. Les avantages et les inconvenients des HMMs : [20]

Avantages
Inconvenients
- Base mathematiquesolide pour

comprendresonfonctionnement.
- Variabilis de la forme.
-Alignementtemporelincorpore
systematiquement.
Lechoixaprioridelatypologiedes
modeles (nombre d'etats, transitions
autoriseeset regies de transitions).
- Degradation des performances si

l'apprentissagen'estpassuffisant.
- Reconnaissance realisee par un simple

calculde probability cumulee.
- Decision globale sans obligation
d'utiliserdesseuils.
- Separation franche entre donnees et
algorithmes.
Resume
Nous avons presente dans ce chapitre les principes des HMM, c'est une
methode qui a ete utilisee, au debut pour la prevision et puis elle a ete appliquee dans le
domaine de la reconnaissance et de la classification en general.
41
CHAPITREII
_____________________________________________________________________________________
N
ous
avons defini les notions de base des HMMs comme les etats caches, l'alphabet des
symboles, la matrice de transition et la matrice d'emission qui sont les elements brique
de ces modeles. Dans le chapitre suivant nous implementons un classifieur des
arythmies cardiaques en se basant sur le principe de cette technique.
42

Chapitre 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapitre 2

Uploaded by

Copyright:

Available Formats

classifi

Les modles statistiques les plus utilises pour la reconnaissance de squences

Les modles de Markov Cachs (Hidden Markov Models ou HMM)

II.2. 1.Les lments dun HMM:

S est un ensemble de N tats;

V est un alphabet de M symboles, ceux-ci pouvant tre vectoriels ;

A = {aij} S x S [0,1], la matrice des probabilits de transitions entre les tats

aij = A (i, j) = P (qt+1 = Sj |qt = si) i, j [1,...,N ] t [ l , . . . , T ] . a v e c : a i j > 0

B = S x V [0,1], une matrice indiquant les probabilits d'mission associes

Figure II.2: Representation d'un HMM. [16] Quelques notations

T : la longueur d'une squence observe.

O [i: j] = Oi... Oj Une sous-sequence de O

P(0|A) La probabilite que le HMM ait emis la sequence O

l < i < n . a v e c : 7 r / > = 0 Vi

II.2.2. Un exemple de HMM

et ST=1m=l [19] + [21]

II.3. GENERATION D'UNE SEQUENCE PAR UN HMM

gorithme : les etapes d'une sequence generee par un HMM 7^1

II.4. LES TROIS PROBLEMES DES HMMS

L'apprentissage: etant donne un ensemble de sequences, determiner les

devaluation d'une sequence: etant donne un modele de Markov cache et

La recherche du chemin le plus probable: etant donne un modele de

Comme on suppose les sequences d'apprentissage tirees independamment, on cherche

A +1) > P(0A,)

(i,j)\ comme la probabilite, Etant donnes une phrase Ok et un h qui ait

HMM A, que ce soit l'etat

Par definition des fonctions forward-backward, on en deduit:

Nombre de transition s effectuees a partir deSi

Nombre de fois oil le HMM s'est trouve dans V etat Si en observant Uk

Nombre de fois oil le HMM s'est trouve dans V etat Sj

La suite des modeles construits par l'algorithme de Baum-Welsh verifie la relation

Algorithme : Algorithme de Baum-Welch

On en deduit * A ,B defini par en utilisant les formules de reestimation.

P<-P+1 Fin tant que

0.346 0.365 0.289

Figure II.3 : la matrice B de cet HMM

Figure II.4: Le HMM entraine sur une

II.4.2. Evaluation de la probabilite d'observation d'une sequence

cette probabilite d'observation d'une sequence de longueur t:

L',va,uation directe: Remarquons d.bord que la probabilite de la suite

possibles Q des probability conjointes de O et de Q, done

Pourune sequence d'etats donnee:

bqi (Oi) bq2 (02)... bqt (Ot)

* a^b4od^Moi)a^,. .a* - ^r(or)

Avec T observations et N etats dans le modele :

le calcule de a : On a : L(/) = P(Oi02..........0,,q,

1. Initialisation : \aiQ) = mbi(a), 1TN\

y>(z>r> WO, l<t<T-l \ < j < N

[19] + [20] + [23]

Algorithme : calcul de la fonction forward a

Finalement, la probabilite d'observation d'une sequence est obtenue en

prenant les valeurs de a et de p a un instant t quelconque:

amenant a l'etat st a t dans un tableau tf.

On utilise une variante de la programmation dynamique, l'algorithme de Viterbi

q*T(j)^ArgMax[St_x{i)] \ < i < n

II.5.UTILISATION DES HMMS POUR LA CLASSIFICATION DE SEQUENCES

Figure II.5 : Organigramme de la methode de classification de sequences par

II.6. Les avantages et les inconvenients des HMMs : [20]

- Base mathematiquesolide pour

- Degradation des performances si

- Reconnaissance realisee par un simple

You might also like