You are on page 1of 11

Partie 3 :

Segmentation par champs de


Markov cachés

Présenté par :Melle Zdira Meriem

Sous la direction de : Dr.Houari Kamel


Chapitre II-Partie 3 : Segmentation par HMRF

Introduction :

A l'heure actuelle, il n'existe guère d'applications commerciales de méthode efficace de


segmentation d’images sur laquelle on peut baser les traitements ultérieurs. La technique qui s'est
avérée la meilleure en imagerie médicale pour le moment est l’application des chaines de Markov. On
verra à la partie 3 une présentation succincte de la mise en œuvre de cette technique.

Notons que les modèles de Markov cachés sont une approche prometteuse dans différents
domaines d'applications où on envisage de traiter des données quantifiées qui peuvent être
partiellement erronées comme par exemple :
- La reconnaissance d'images : caractères, empreintes digitales, ...
- la recherche de motifs et de séquences dans les gènes.

I. Modèles de Markov cachés :

I.1. Historique :

Un modèle de Markov caché (MMC) -- en anglais Hidden Markov Models (HMM), ont été
décrits pour la première fois dans une série de publication de statistiques par Leonard E. Baum et
d'autres auteurs après 1965. Ils ont été appliqués dès la fin des années 1970 à la reconnaissance
vocale. Dans la seconde moitié des années 1980, les HMM ont commencé à être appliqués à l'analyse
de séquences biologique, en particulier l'ADN.

I.2. Définitions des éléments d’un modèle MMC :

Une chaîne de Markov Cachée λ décrit un système qui à chaque instant se trouve dans un des
N états d’un ensemble {S1, S2,…,Si,…, SN} : il s’agit donc d’un automate probabiliste d'états finis
constitué de N états.

Fig _ 2.28 exemple d'automate probabiliste


d'états finis (composé ici de 3 états).

I.3.Formalisme :

Un automate de Markov à états cachés est un quadruplet {S, D, O, B} des ensembles décrits
suivant :

 Si l'état i ;
 D1 la probabilité que S1 soit l'état initial ;
 O( si,sj) la probabilité de la transition Si Sj ;

52
Chapitre II-Partie 3 : Segmentation par HMRF

 B(Si,oi) la probabilité d'émettre un signal oi étant dans l'état Si ;

Un processus aléatoire gère la transition d’état à état, mais l’état du système n’est pas
observable (il est « caché »), on ne voit que les émissions de cet état : les observations. Autrement dit,
au temps t le système est dans l’état qt (invisible) et émet l’observation Ot (visible).

La probabilité de transition d'un état Si à un état Sj est donnée ; nous l'appellerons O(Si,Sj) :
N
O(Si,Sj) = p(st = Sj\st-1 = Si), tel que : O(Si,Sj) = 1. [réf 15]
j=1
On se donne aussi d(Si) la probabilité que l'automate soit dans l'état Si à l'instant initial :
N
d(Si) = p(S1 = Si), tel que : d(Si) = 1. [réf 15]
i=1

La probabilité pour que l’automate émette un signal oi lorsqu’il est dans l’état Si sera notée
b(Si,oi) :
N
b(Si,ot) = P (Ot = oi \ St= si), tel que : b(Si,oi) = 1. [réf 15]
i=1

L'adjectif « caché »employé pour caractériser le modèle traduit le fait que l'émission d'une
donnée à partir d'un état est aléatoire. C'est ce caractère aléatoire des mesures qui, ajouté aux
propriétés des processus markoviens fait la souplesse et la puissance de l'approche proposée par F.
Jelinek.

oj oi
b(si,oj)
b(si,oi)
Sj Si
O(sj,oi)

Fig_ 2.29 Détaille de probabilité de transition et


d'émission d'une donnée dans le modèle de Markov caché.

Ces observations Ot peuvent prendre leurs valeurs dans un ensemble fini de valeurs discrètes
ou de symboles, ou dans un ensemble continu et infini ; dans ce dernier cas le principe reste le même,
avec des distributions de probabilité remplacées par des densités de probabilités, comme on effectue
alors des tirages directement sur cette courbe de densité, on parle alors de vraisemblance, et non plus
de probabilités.

On définit une vraisemblance L pour une fonction de densité f, par rapport à la probabilité P par :

N
L(X1,….,XN) = П f (Xi) (1p)
i=1

ε
Xi +
ε ε ε N 2
( 2
ε
P arg = X1∊ [ x1 - 2 ; x2 + ], …. , XN ∊ [ xN -
2
; xN +
2
] ) =П ∫
i=1 Xi - ε f(Xi) dXi (1q)

53
Chapitre II-Partie 3 : Segmentation par HMRF

N
P( arg) П f (Xi).ε (1r)
i=1

(1s)
P( arg) ε L(x1, …. ,xN)

II. Modèle Markovien Cachée pour la segmentation d’images :


Un modèle assez parfait de segmentation d’image est de voire l’image à segmenter, appelée
l’observation est notée A, comme étant une réalisation d’un champ aléatoire de Markov A= {as } s S
défini sur une grille S, relativement à un système de voisinage V(S) . Les variables aléatoires {as} s
S prennent leurs valeurs dans l’ensemble des niveaux de gris Eabs = [0..255]. Le champ aléatoire de
Markov A représente le champ de répartition des niveaux de gris à l’ensemble de pixels S, l’ensemble
Card(s)
de toutes les configurations possibles est alors noté Ω abs =E abs .

L’image segmentée, quant a elle, est vue aussi comme étant une réalisation d’un autre champ
aléatoire de Markov Λ, représentant le champ de répartition des régions sur l’ensemble des pixels S ;
il prend ses valeurs dans un ensemble d’étiquettes E= {1, 2,…, K} représentant les K classes ou
régions homogènes en niveau de gris (ou suivant une propriété donnée) dans l’image. L’ensemble de
Card(s)
toutes les configurations possibles pour Λ est noté Ω=E .

Ainsi, l’image I, objet d’étude, est représentée par un couple de champs aléatoires I = (Λ, A),
tels que le champ Λ = { λs }/ s S est appelé le champ des étiquettes et A = { as }/ s S est appelé
le champ des observations.

A : L’image observée

Λ : L’image
étiquetée cachée

Fig 2.30 le couple de champs (Λ, A) modélisant le problème de la segmentation d’images.

Les champs de Markov cachées ont été utilisés avec succès, grâce à l'utilisation du parcours de
Hilbert-Peano, qui convertit une image 2D en vecteur 1D (voir Fig. 2.31).

54
Chapitre II-Partie 3 : Segmentation par HMRF

1 2 3 4 5 6 7 8
1
2
3
4 2D
5
6
7
8
A
1D
a1 aN

Fig 2.31 Construction du parcours de Peano pour une image 8 × 8


(initialisation, étapes intermédiaire et finale).

II.1 Principe de la segmentation markovienne cachée :

La segmentation consiste à estimer λ connaissant l’image observée a. On peut utiliser une


approche Bayesienne qui consiste à rechercher la classe la plus probable au sens de la probabilité à
posteriori obtenue par la maximisation de P(Λ=λ\A=a). Il s’agit donc de construire P(A=a\Λ=λ ), puis
fixer une loi à priori sur Λ, notée P(Λ=λ), à partir de laquelle on calcule P(Λ=λ\A=a) par la formule de
Bayes.

II.1.1 Le théorème de Bayes :

La probabilité à posteriori s’exprime :


P(A=a\Λ=λ ) P(Λ=λ)
P(Λ=λ\A=a) = (1t) [réf 16]
P(A=a)
Telle que :
 P(Λ=λ\A=a) est la loi à posteriori.

 P(A=a\Λ=λ ) représente la probabilité conditionnelle de l'observation a sachant sa


segmentation λ.

 P(Λ=λ) représente la loi de probabilité associée au champ Λ, encore appelée loi à priori, elle
est donné par :
-1 -U(λ)/T
P(Λ=λ) = Z e (1d)

 P(A=a) est constante car c’est une réalisation du processus observé, indépendante de λ,
posons :

P(A=a) = N (1u) [réf 16]

Pour simplifier les notations, on utilise P(λ) pour désigner P(Λ=λ), P(a) pour P(A=a), etc…
L’équation précédente devient :
P(a\λ ) P(λ)
P(λ\a) =
P(a)

55
Chapitre II-Partie 3 : Segmentation par HMRF

Conventions d’écriture :

P(λ) = Probabilité que λ soit réalisé Domaine de


Probabilité de λ
P(λ,a) = Probabilité que λ et a soient réalisés

P(λ\a) = Probabilité que λ soit réalisé si a est vrai


Domaine de
Probabilité de λ et a
Définition de la probabilité conditionnelle :

P(λ\a) P(a) = P(λ,a) = P(a\λ) P(λ).

Théorème de Bayes (1702-1761) : Domaine de


P(a\λ ) P(λ) Probabilité de a
P(λ\a) =
P(a)

Fig 2.32 Le théorème de Bayes.

Puisque P(a) est la même pour toutes les observations a, maximiser P(λ\a) revient à maximiser
P(a\λ) P(λ ) .
^
λ =Arg max (P(λ\a)) = Arg max λ∊Ω (P(a\λ) P(λ)). (1v)
λ∊Ω

^
Donc, pour obtenir la classification la plus probable λ, on utilise différents critères bayésiens
de classification tels que le MPM (« Maximal Posterior Mode ») ou le MAP (« Maximum A
Posteriori») qui nous intéresse dans notre étude.

II.2 Estimateur Maximum A-Posteriori(MAP) :

Il est nécessaire de réaliser les deux étapes suivantes :

II.2.1. La première étape :

Consiste à modéliser le champ des observations et celle du champ des classes, c'est-à-dire trouver
le modèle statistique de P(a\λ) et le modèle de P(λ). Dans cette recherche, la modélisation des
observations est basée sur le modèle gaussien, alors que la modélisation du champ de classes est basée
sur un champ markovien permettant de prendre en compte les dépendances statistiques spatiales entre
sites adjacents.

II.2.1.1 Modélisation du champ des observations :

L’hypothèse de la densité de probabilité conditionnelle P(a\λ) est la suivante :

P[A=a \ Λ=λ] = П P[As=as \ Λs=λs] (1w) [réf 17]


s∊S

56
Chapitre II-Partie 3 : Segmentation par HMRF

Elle peut être modélisée par une loi gaussienne. Telle que :
2
1
P(as\k) = e
(1x) [réf 16]

Avec :
σ k est la variance de la classe k ;
μ k est la moyenne de la classe k du bruit Gaussien.

Donc par les deux lois précédentes (1w) et (1x), on obtient :

П∊S [
2
1 ee
P[A=a \ Λ=λ] = ] (1y) [réf 17]
s

(a) (b) (c) (d)

Fig 2.33 Décision bayésienne sur une image bruitée avec paramètres connus. (a) image originale
(Л(2) 0.33 et Л(1) 0.67). (b) l’image bruitée (c) son histogramme normalisé. (d) image classée
obtenue par décision bayésienne.

II.2.1.2 Hypothèse Markovienne du champ des classes :

Le champ de classes λ est considéré comme un champ aléatoire de Markov par rapport au
système de voisinage.

P(λs\ λt,t ∊ S, t = s)= P(λs\ λt, t ∊ Vs) (1c)

Et :
-1 -U(λs)
P(λs) = П(λs) = Z e (1d)
Où :

-U(λs)
Z = e (1f) et
λs ∊Ω

U(λs) = Vc(λs) (1z) [réf 12]


c∊C

57
Chapitre II-Partie 3 : Segmentation par HMRF

La fonction d’énergie U(λs) : est obtenue sous la forme d’une somme de potentiel locaux
Vc(λs) sur les cliques c de C, C est l’ensemble de cliques correspondantes au voisinage choisi. Le
choix des fonctions d’énergie est un problème difficile à résoudre pour obtenir de bons résultats avec
un algorithme de classification donné.

La première fonction que nous utiliserons et celle de Pappas. Elle est donnée par la relation :

U1(λs) = Vc(λs) = i j
βi,j (2a) [réf 16]
c ∊C

Avec :

{i,j} sont les paires de pixels formant des cliques et correspondant au voisinage de s.
-β si λi = λj
(1k)
U (λi,λj) =
+β si λi = λj
Pappas choisit une valeur de β égale à 0.5. C’est cette valeur qui sera retenue.
Par (1k), on obtient une fonction sous la forme suivante :
p
U2(λs) =
c ∊C
Vc(λs) = β i j
|λi – λj| (2b) [réf 16]

Avec p est la puissance de la fonction.

II.2.1.3 Fonction d’énergie globale :

Si nous supposons que :

U1 (a \ λ)= - lnP(a \ λ) (2c) [réf 16]

et
(2d) [réf 16]
U2 (λ) = - lnP( λ)

Alors que l'estimateur du maximum a posteriori de l'équation (1v) devient :

^ -U1(a/λ) + U2(λ)
λ =arg (max (e ) (2e) [réf 16]
λ∊Λ

= arg (min (U1 (a \ λ) + U2 (λ))


λ∊Λ

= arg (min λ∊Λ (U (λ,a)))

Donc la configuration la classe la plus probable est celle qui présente une énergie globale U
minimale, avec :

U (λ,a) = U1 (a \ λ) + U2 (λ) (2f) [réf 16]

58
Chapitre II-Partie 3 : Segmentation par HMRF

II.2.2 La deuxième étape :

Consiste à l'optimisation de la probabilité à posteriori.

II.2.2.1 Optimisation de la probabilité a posteriori:

La classification au sens de la maximisation a posteriori (MAP) consiste à déterminer la valeur


^
de la classe la plus probable λ qui maximise P(Λ\A) ou de manière équivalente, qui minimise la
fonction d'énergie globale U(λ, a). Dans la littérature, cette optimisation peut être effectuée soit par
des méthodes stochastiques qui sont très longues du point de vue du temps de calcul, soit par des
méthodes déterministes, bien que ne fournissant pas toujours l'optimum global, étant plus rapides, sont
fréquemment plus utilisées que les méthodes stochastiques, parmi ces algorithmes, il y’a l'algorithme
ICM (Iterated Conditionnal Modes).
Celui-ci consiste à chercher le minimum de la fonction d'énergie en suivant les étapes
suivantes: [réf 16]

1) Initialisation: il s'agit de fournir à l'algorithme une image


classifiée et d'estimer les paramètres α de la classification
initiale. Les paramètres α correspondent à la moyenne et à la
variance de chaque classe.
2) A partir d'une configuration initiale, les étapes suivantes
sont réalisées pour chaque pixel :
Pour chaque classe :
- Calcul de l'énergie conditionnelle U1 (voir (2C))
- Calcul de l'énergie à priori U2 (voir (2D))
- Calcul de l'énergie globale U = U1+U2
Rechercher la classe donnant une énergie globale minimale.
3) On affecte l'étiquette de cette classe au site courant.
4) On vérifie si le critère d’arrêt est satisfait. Si c’est le cas,
l’algorithme s’arrête sinon on retourne à l’étape 2).

Fig 2.34 l'algorithme ICM.

Le critère d’arrêt peut être, soit un nombre d’itérations fixé par l’utilisateur, soit un seuil à ne
pas dépasser sur le nombre de pixels ayant changé de classe à la dernière itération.

Parmi les algorithmes stochastiques, nous avons choisi l'algorithme SA« algorithme de recuit
simulé ».

II.2.2.1.1 Algorithmes d’approximation du MAP :

a). Heuristique « recuit simulé » (Simulated Annealing) :

L’heuristique du « recuit simulé », issue de la physique statistique, est basée sur la méthode de
Monté Carlo dont le but est la recherche des états d'équilibre des systèmes thermodynamiques.

Le principe de la méthode est le suivant : étant donné l'état courant d’objet, qui est caractérisé
par la position de ses particules, une perturbation petite et aléatoire est effectuée en déplaçant une
particule choisie aléatoirement.

59
Chapitre II-Partie 3 : Segmentation par HMRF

*Si la différence d'énergie : ΔU entre l'état courant et l'état légèrement perturbé est
négative, c'est à dire si la perturbation génère une énergie plus faible, alors le processus est poursuivi
avec le nouvel état.
*Si : ΔU est positive ou nulle, alors la probabilité que le nouvel état soit accepté est donnée
par
exp(− ΔU /KB T ) où KB : est la constante de Boltzmann.
T : est la température qui est diminuée graduellement..

Température
Palier

Tn

Tn+1

Tn+2

Itération
i i+1 i+2

Fig 2.35 Schéma de décroissance de température par paliers.

Ce qui donne l’algorithme suivant :

Engendrer une configuration initiale s de S, T T0 ;


Tant (critère d’arrêt==false) faire

Début
//On choisit aléatoirement
s'=random V(s) ;

//Générer un nombre réel aléatoire


r= random [0, 1] ;

si r < p (T, s ,s') alors


s s' ;
Mettre à jour T ;
Fin
Sortir s

Fig 2.36 Algorithme du recuit simulé.

60
Chapitre II-Partie 3 : Segmentation par HMRF

Conclusion :

On s’est intéressé dans cette partie, essentiellement, à la théorie de la décision au sens


Bayesien qui est la base de l’estimation du MAP. L’ensemble des détails théoriques de la théorie a été
passé en revue, et dans le prochain chapitre, nous décrirons notre conception et les détails
d’implémentation de cette méthode qui est largement utilisée dans l’étiquetage d’images.

61

You might also like