Professional Documents
Culture Documents
Clustering
Gilles Gasso - Philippe LERAY
INSA Rouen - Dpartement ASI
Laboratoire LITIS
15 fvrier 2013
Gilles Gasso - Philippe LERAY Clustering 1 / 76
Introduction Problmatiques Mthodes de clustering
Plan
Introduction
Problmatiques
Similarit et proximit
Qualit des clusters
Mthodes de clustering
CHA
Principe
Mtrique
Une variante du CHA : CHAMELEON
K-means
Principe
Algorithme
Variantes
Mlange de gaussiennes
Exemple : mlange de deux gaussiennes
Estimation de paramtres par max de la log-vraisemblance
Algorithme EM (Expectation-Maximization)
Gilles Gasso - Philippe LERAY Clustering 2 / 76
Introduction Problmatiques Mthodes de clustering
Introduction
Objectifs
D = {x
i
R
d
}
N
i =1
: ensemble de points dcrit par d attributs.
DM = borne SM
Notations
Observation : x
i
R
d
avec x
i
=
_
x
i ,1
x
i ,2
x
i ,d
_
d
j =1
|x
1,j
x
2,j
|
q
_1
q
d
j =1
(x
1,j
x
2,j
)
2
=
_
(x
1
x
2
)
t
(x
1
x
2
)
Distance de Manhattan (q = 1) :
D(x
1
, x
2
) =
d
j =1
|x
1,j
x
2,j
|
Distance de Sebestyen :
D
2
(x
1
, x
2
) = (x
1
x
2
)
W(x
1
x
2
)
(W= matrice diagonale de pondration dnie positive)
Distance de Mahalanobis :
D
2
(x
1
, x
2
) = (x
1
x
2
)
C
1
(x
1
x
2
)
(C=matrice de variance-covariance)
Gilles Gasso - Philippe LERAY Clustering 7 / 76
Introduction Problmatiques Mthodes de clustering Similarit et proximit Qualit des clusters
Notion de proximit
Mesure de la distance D(x
1
, x
2
) entre 2 points x
1
et x
2
valeurs discrtes
x
1
=
_
0 1 2 1 2 1
_
et x
2
=
_
1 0 2 1 0 1
_
A(x
1
, x
2
) =
_
_
0 1 0
1 2 0
1 0 1
_
_
i =1
d
j =1,j =i
a
ij
diamtre maximum :
D
max
(C
1
, C
2
) = max {D(x
i
, x
j
), x
i
C
1
, x
j
C
2
}
distance moyenne :
D
moy
(C
1
, C
2
) =
x
i
C
1
x
j
C
2
D(x
i
, x
j
)
n
1
n
2
distance de Ward : D
Ward
(C
1
, C
2
) =
_
n
1
n
2
n
1
+n
2
D(
1
,
2
)
...
Gilles Gasso - Philippe LERAY Clustering 9 / 76
Introduction Problmatiques Mthodes de clustering Similarit et proximit Qualit des clusters
Evaluation de la Qualit dun clustering
Inertie Intra-cluster
Chaque cluster C
k
est caractris par
i C
k
x
i
avec N
k
= card(C
k
)
Son inertie : J
k
=
i C
k
D
2
(x
i
,
k
)
Linertie dun cluster mesure la concentration des points du
cluster autour du centre de gravit. Plus cette inertie est faible,
plus petite est la dispersion des points autour de ce centre
Sa matrice de variance-covariance :
k
=
i C
k
(x
i
k
)(x
i
k
)
Inertie intra-cluster : J
w
=
i C
k
D
2
(x
i
,
k
) =
i C
k
J
k
Gilles Gasso - Philippe LERAY Clustering 10 / 76
Introduction Problmatiques Mthodes de clustering Similarit et proximit Qualit des clusters
Evaluation de la Qualit dun clustering
Inertie inter-cluster
i
x
i
Inertie inter-cluster : J
b
=
k
N
k
D
2
(
k
, )
Linertie inter-cluster mesure "lloignement" des centres des
clusters entre eux. Plus cette inertie est grande, plus les
clusters sont bien spars
b
=
k
(
k
)(
k
)
Remarque : J
b
= trace(
b
)
Gilles Gasso - Philippe LERAY Clustering 11 / 76
Introduction Problmatiques Mthodes de clustering Similarit et proximit Qualit des clusters
Bonne partition
Clustering hirachique
Clustering ou
Clustering spectral
...
Algorithmes EM et variantes
Gilles Gasso - Philippe LERAY Clustering 14 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
CHA - principe
Principe
Chaque point ou cluster est progressivement "absorb" par le
cluster le plus proche.
Algorithme
Initialisation :
Rpter
Fusion de C
I
et C
J
pour former un cluster C
G
Inter-connectivit relative : RI (C
i
, C
j
) =
2|EC(C
i
,C
j
)|
|EC(C
i
)|+|EC(C
j
)|
Gilles Gasso - Philippe LERAY Clustering 27 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
CHAMELEON : similarit entre deux clusters
Proximit
Deux phases
en fonction de RI (C
i
, C
j
) et RC(C
i
, C
j
)
Gilles Gasso - Philippe LERAY Clustering 29 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
CHAMELEON : rsultats
DS4 DS3
DS5
Gilles Gasso - Philippe LERAY Clustering 30 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Complexit
CURE : O(n
2
) en petite dimimension, O(N
2
+ Nmlog N)
sinon (en commenant avec m clusters)
CHAMELEON :
Principe :
Problme :
Clustering hirachique
Clustering ou
Clustering spectral
...
Algorithmes EM et variantes
Gilles Gasso - Philippe LERAY Clustering 33 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Clustering par partitionnement
Objectifs
N donnes D = {x
i
R
d
}
i =1, ,N
disponibles
Approche directe
k=1
(1)
Kk
C
K
k
k
N
Pour N = 10 et K = 4, on a 34105 partitions possibles !
Gilles Gasso - Philippe LERAY Clustering 34 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Clustering par partitionnement
Solution plus pratique
k=1
i C
k
D
2
(x
i
,
k
)
dont le centre
Rpeter
x
i
tel que = arg min
k
D(x
i
,
k
)
Recalculer le centre
k
de chaque cluster
k
=
1
N
k
i C
k
x
i
avec N
k
= card(C
k
)
Convergence rapide
Initialisation des
k
:
F
3
nest pas reprsentatif
F
1
, F
1
, F
4
et F
5
sont les formes fortes
Initialiser
1
,
K
Initialiser n
1
, n
K
0
Rpeter
acqurir x
incrmenter n
recalculer le centre
de ce cluster
+
1
n
(x
)
Remarque
Si on dispose dune partition initiale, on utilisera les centres des
clusters et on initialisera n
k
= card(C
k
), k = 1, , K
Gilles Gasso - Philippe LERAY Clustering 50 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Variantes de K-means
K-means ous
Ici un point x
i
peut appartenir plusieurs clusters !
k
N
i =1
z
i ,k
D
2
(x
i
,
k
) avec > 1
rgle le "degr de ou". Plus est grand, plus les clusters
trouvs se recouvrent.
Gilles Gasso - Philippe LERAY Clustering 51 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Variantes de K-means
Nues Dynamiques (Diday 1972, 1974)
n points reprsentatifs
Hyperplan
...
Gilles Gasso - Philippe LERAY Clustering 52 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Approches de clustering
Clustering hirachique
Clustering ou
Clustering spectral
...
Algorithmes EM et variantes
Gilles Gasso - Philippe LERAY Clustering 53 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Clustering par modlisation statistique
Introduction par lexemple
Considrons N donnes {x
i
R
d
}
i =1, ,N
formant deux
classes
3 2 1 0 1 2 3 4 5 6
2
1
0
1
2
3
4
5
6
Donnes des deux classes
3 2 1 0 1 2 3 4 5 6
2
1
0
1
2
3
4
5
6
Donnes des deux classes et contours des classes
Loi marginale de X
f (X) = f (X, Z = 1) + f (X, Z = 2)
= f (X/Z = 1) Pr(Z = 1) + f (X/Z = 2) Pr(Z = 2) Th de Bayes
f (X) =
1
f (X/Z = 1) +
2
f (X/Z = 2)
avec
f (X/Z = 1) N(X;
1
,
1
), f (X/Z = 2) N(X;
2
,
2
)
Z : variable alatoire (cache) indiquant la classe du point X
Gilles Gasso - Philippe LERAY Clustering 55 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Clustering par modlisation statistique
Introduction par lexemple
Loi marginale de X
f (X) = f (X, Z = 1) + f (X, Z = 2)
f (X) =
1
f (X/Z = 1) +
2
f (X/Z = 2)
1
et
2
dsignent la probabilit a priori que X relve resp. de
la classe C
1
et C
2
. Remarque : on a
1
+
2
= 1
j
, j {1, 2}. On lappelle modle de mlange de densits
Gilles Gasso - Philippe LERAY Clustering 56 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Modle de mlange : illustration
Aectation probabiliste
K
k=1
k
f (X/Z = k)
Paramtres Centres des clusters Proba a priori
k
estimer
k
, k = 1, , K Paramtres des lois
f (X/Z = k)
Critre Variance intra-classe Log-Vraisemblance
optimis
Indice d(x,
k
) Proba a posteriori
daectation Pr(Z = k/X = x)
Rgle Cluster dont le centre Cluster de plus grande
daectation est le plus proche proba a posteriori
de x
Gilles Gasso - Philippe LERAY Clustering 60 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Estimation des paramtres du modle
Retour lexemple
Paramtres estimer :
1
,
2
,
1
,
1
,
2
et
2
1
,
2
,
1
,
1
(:)
,
2
,
2
(:)
Vraisemblance
(; x
1
, , x
N
) =
N
i =1
f (X = x
i
; )
i =1
log(f (X = x
i
; ))
Gilles Gasso - Philippe LERAY Clustering 62 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Maximisation de la vraisemblance
L(; x
1
, , x
N
) = max
i =1
log(f (X = x
i
; ))
Approche directe
La solution
du problme prcdent vrie
L(
; x
1
, , x
N
) = 0
1
2
(X )
1
(X )
_
La Log-vraisemblance est
L(, ; x
1
, , x
N
) =
1
2
N log((2)
d
||)
1
2
N
i =1
(x
i
)
1
(x
i
)
Conditions doptimalit
L = 0
N
i =1
1
(x
i
) = 0
L = 0
N
2
1
+
1
2
N
i =1
1
(x
i
)
(x
i
)
1
= 0
Solutions analytiques
=
1
N
N
i =1
x
i
,
=
1
N
N
i =1
(x
i
)(x
i
)
i =1
log(
1
N(x
i
;
1
,
1
) +
2
N(x
i
;
2
,
2
))
i =1
z
i
log(
1
N(x
i
;
1
,
1
))+(1z
i
) log(
2
N(x
i
;
2
,
2
))
avec z
i
= 1 si x
i
C
1
et z
i
= 0 si x
i
C
2
Il est alors possible de dterminer
j
,
j
et
j
analytiquement
i =1
Esp(z
i
/x
i
) log(
1
N(x
i
;
1
,
1
))
+(1 Esp(z
i
/x
i
)) log(
2
N(x
i
;
2
,
2
))
Esp(z
i
/x
i
) = Pr(z
i
= 1/x
i
) est la probabilit a posteriori que
x
i
C
1
1
N(x
i
;
1
,
1
) +
2
N(x
i
;
2
,
2
)
Rpeter
(1)
i
=
1
N(x
i
;
1
,
1
)
1
N(x
i
;
1
,
1
) +
2
N(x
i
;
2
,
2
)
, i = 1, , N
Rmq :
(2)
i
= Pr(z
i
= 0/x
i
) = 1
(1)
i
: probabilit a posteriori
que x
i
C
2
j
=
N
i =1
(j )
i
x
i
N
i =1
(j )
i
,
j
=
N
i =1
(j )
i
N
, j {1, 2}
j
=
N
i =1
(j )
i
(x
i
j
)(x
i
j
)
N
i =1
(j )
i
, j {1, 2}
Jusqu convergence
Gilles Gasso - Philippe LERAY Clustering 70 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
EM appliqu au mlange de 2 gaussiennes : Algorithme
Initialisation de lalgorithme
k=1
k
f (x;
k
) avec
K
k=1
k
= 1
Algorithme EM
(k)
i
=
k
f (x
i
;
k
)
K
k=1
k
f (x;
k
)
, i = 1, , N, et k = 1, , K
Rmq :
K
k=1
(k)
i
= 1
Rpter
max
()
i
Modication des proba a posteriori
(k)
i
= 1 et
()
i
= 0, = k
Jusqu convergence
Remarque : A la n de lalgo, on obtient directement les clusters
Gilles Gasso - Philippe LERAY Clustering 75 / 76
Introduction Problmatiques Mthodes de clustering CHA K-means Mlange de gaussiennes
Conclusion