Clustering

Le Clustering en 3 leons
Philippe Leray
Philippe.Leray@insa-rouen.fr
INSA Rouen -Dpartement ASI - Laboratoire PSI
Architecture des Systmes dInformation
as
Le Clustering en 3 leons p.1/65
Introduction
Objectif = structuration des donnes Clustering (en anglais) = Classication (en franais) On cherche regrouper les points proches en classes ... Les classes peuvent tre assez bien dnies
as
Introduction
Les classes peuvent aussi tre assez imbriques, avoir des formes bizarres, ou pire
as
Applications
Forme Text Mining Bioinformatique Marketing Web log analysis ... 1 Texte 1 Mail 1 gne {infos client, produits achets} Clickstream Cluster Textes proches "dossiers" automatiques gnes ressemblants segmentation de la clientle "utilisateurs types"
as
Plan
Notion de proximit Clustering hirarchique Clustering par partitionnement Clustering par modlisation Clustering bas sur la densit Clustering par "grille" ...
as
Notion de proximit
Vocabulaire Mesure de dissimilarit DM : plus la mesure est faible plus les points sont similaires ( distance) Mesure de similarit SM : plus la mesure est grande, plus les points sont similaires DM = borne SM
as
Notion de proximit
Comment mesurer la distance entre 2 points d(x1 , x2 ) ? distance euclidienne : d2 (x1 , x2 ) = i (x1i x2i )2 = (x1 x2 )(x1 x2 ) distance de Manhattan : d(x1 , x2 ) = i |x1i x2i | distance de Sebestyen : d2 (x1 , x2 ) = (x1 x2 )W (x1 x2 ) (W = matrice diagonale de pondration) distance de Mahalanobis : d2 (x1 , x2 ) = (x1 x2 )C 1 (x1 x2 ) (C=covariance) ...
as
Notion de proximit
Et si x1 et x2 sont valeurs discrtes ? On peut les rpresenter dans une matrice de contingence A(x1 , x2 ) = [aij ] x1 = [0, 1, 2, 1, 2, 1] et x1 = [1, 0, 2, 1, 0, 1] A(x1 , x2 ) = [0 1 2 ; 1 2 0; 1 0 1] distance de Hamming : nombre de places o les 2 vecteurs diffrent :
j=k1 j=k1
d(x1 , x2 ) =
i=0 j=0,j=i
aij
as
distance de Tanimoto, ...

Notion de proximit
Comment mesurer la distance entre 2 classes D(C1 , C2 ) ? plus proche voisin : min(d(i, j), i C1 , j C2 ) diamtre maximum : max(d(i, j), i C1 , j C2 ) distance moyenne :
i,j
d(i,j) n1 n2
distance des centres de gravit : d(1 , 2 ) distance de Ward : ...

n1 n2 d(1 , 2 ) n1 +n2
as
Bonne partition
Comment savoir si un regroupement est "correct" ? inertie (intra) dun cluster = variance des points dun mme cluster Jw =
g iCg
d2 (xi , g )
inertie (inter) = variance des centres des clusters Jb =

c
Ng d2 (g , x)
il faut minimiser linertie intra-cluster et maximiser linertie inter-cluster
as
Thorme de Knig-Huygens : Itot = Iintra + Iinter Illustration (Bisson 2001) c: G n

i c i
Bonne partition
Dist (x i, g)2 = Dist(xi ,gc )2 + Gc Dist(gc , g)2

c
g1
C1 C3 g3
C2 g g2 g g4 C4
Inertie totale des points =
Inertie Intra + Inter
as
Obtenir des classes cohrentes et contrastes Illustration (Bisson 2001) : Maximisation de linertie inter-classes
Minimisation de linertie intra-classes
Forte inertie inter-classes Faible inertie intra-classes
Bonne partition
quivalent puisque Itot
= Iintra + Iinter
Faible inertie inter-classes Forte inertie intra-classes g3
g1
g2 g4
Application de ce critre
asFixer le nombre de classes sur lequel on travaille (nues dynamiques)

Valeur optimale obtenue pour la partition triviale : un individu par classe !
Plan
Notion de proximit Clustering hirarchique Classication Hierarchique Ascendante BIRCH, CURE, Chameleon, ... Clustering par partitionnement Clustering par modlisation Clustering bas sur la densit Clustering par "grille"
as
...
CHA - principe
Chaque point ou cluster est progressivement "absorb" par le cluster le plus proche. Algorithme Initialisation : Chaque individu est plac dans son propre cluster, Calcul de la matrice de ressemblance M entre chaque couple de clusters (ici les points) Rpter Slection dans M des deux clusters les plus proches CI et CJ Fusion de CI et CJ par un cluster CG plus gnral Mise jour de M en calculant la ressemblance entre CG et les clusters existants Jusqu la fusion des 2 derniers clusters
as
CHA : principe Mthodes hirarchiques

exemple (Bisson 2001)
Hirarchie (indice) i
C9 C8 C5 C2 C4 C7 C1
C6
Les approches de type CAH (Classification Ascendante Hirarchiqu

C10
C8 C2 C9 C3 C1 C7 C5 C10 C4
C6 C3
Une mthode = comparaison des instance/classes existantes schma du milieu de dendrogramme = reprsentation des - Notion de ressemblance (distance) entre instances/classes fusions successives
Mthode itrative ...
Un critre de construction d'une nouvelle classe - On regroupe les deux instances/classes les hauteur dun cluster dans le dendrogramme = plus "proches" similarit ( Une procdure de caractrisation de cette classe) entre les 2 Gnralisation desfusion (sauf exception avec clusters avant descriptions -
as
certaines mesures de similarit)...
CHA : mtrique
Problme = trouver lultramtrique (distance entre clusters) la plus proche de la mtrique utilise pour les individus. Saut minimal (single linkage) : tendance produire des classes gnrales (par effet de chanage) sensibilit aux individus bruits. Saut maximal (complete linkage) : tendance produire des classes spciques (on ne regroupe que des classes trs proches) sensibilit aux individus bruits. Saut moyen : tendance produire des classes de variance proche Barycentre : bonne rsistance au bruit
as
CHA : mtrique du type daggrgation Influence

Des hirarchies diffrentes exemple (Bisson 2001)
Donnes (mtrique : dist. Eucl.)
4
Saut minimal
1,1 0,9
Saut maximal i
4,0 2,8 1,7 0,5
D C
E
2
F B A
0,7 0,5
Les grandes tendances

Saut minimal : Saut maximal Saut moyen Barycentre Saut de Ward : : : :
pas les mmes rsultats selon la mtrique utilise ...
Tendance produire des classes gnrales (par effet de chanage) et sensibilit aux individus bruits. Tendance produire des classes spcifiques (on ne regroupe que des classes trs proches) et sensibilit aux individus bruits. Tendance produire des classes de variance proche Bonne rsistance au bruit Tendance construire des classes ayant des effectifs gaux pour un niveau de la hirarchie donn (limite la perte dinertie)
as
Problme de la classification hirarchique : trouver lultramtrique la plus proche de la mtrique qui est utilise pour comparer les individus.
CHA : ASI4 Clustering

(2003) 26 individus Donnes = 5 valeurs 0/1 (inscription en IR, MGPI, DM, RNA, TIM)
Va-t-on tirer quelque chose de ces ASI4 donnes ?
as
CHA : ASI4 Clustering : saut minimal
CHAM
RABA
BARO
CORD
BOND
CAMP
GREM
WAAG
OHAN
CAPR
BONV
TRAO
FOUR
HAUT
JEAN
RABI
BOIT
CAST
WEYC
as
Pas moyen de faire de sous-groupes, tout le monde est une distance de 0 ou 1 des autres clusters.
PESQ
LEHO
SPER
PERS
GESL
ZEHN
LEDI
CHA : ASI4 Clustering : saut maximal
GREM
WAAG
CHAM
BARO
CORD
CAMP
OHAN
RABA
RABI
BOND
CAPR
FOUR
TRAO
BONV
HAUT
JEAN
CAST
ZEHN
BOIT
WEYC
LEHO
PERS
GESL
as
En changeant de mtrique, on observe plus de sous-regroupements
PESQ
SPER
LEDI
CHA : ASI4 Clustering
vive la vision
rpmbuild ba kernel*.spec
Jaime bien le traitement de linformation
GREM
WAAG
CHAM
BARO
CORD
CAMP
OHAN
RABA
RABI
BOND
CAPR
FOUR
TRAO
BONV
HAUT
JEAN
CAST
ZEHN
BOIT
WEYC
LEHO
PERS
GESL
as
Pour construire les clusters, on coupe larbre la hauteur voulue
PESQ
SPER
LEDI
CHA : Autre exemple de saut maximal

Dendrogramme
1.8 1.6 1.4 1.2 Distance 1 0.8 0.6 0.4 0.2 0
as
1 4 17 26 6 20 24 3 25 13 21 7 2 8 22 5 14 18 10 16 11 23 9 19 12 15 27 35 40 29 28 36 31 32 39 30 33 34 37 38
Indice des points regroups

Dendrogramme
1.8 1.6 1.4 1.2 Distance 1 0.8 0.6 1 0.4 0.2 0 2 3 4 5 6 7 8 9 10
fusion des clusters 7 et 8
as
1 4 17 26 6 20 24 3 25 13 21 7 2 8 22 5 14 18 10 16 11 23 9 19 12 15 27 35 40 29 28 36 31 32 39 30 33 34 37 38
Indice des points regroups

10 clusters
cluster 7
cluster 8
tape suivante :
fusion des clusters 7 et 8
as
CHAMELEON
Une mthode de classication hirarchique ascendante plus volue Principe = estimer la densit intra-cluster et inter-cluster partir du graphe des k plus proches voisins
donnes
graphe 1-ppv
2-ppv
3-ppv
Figure 7: k-nearest graphs from an original data in 2D.
as
of sparse regions tend to be small. As the consequence, a min-cut bisection of the graph represents the interface layer
of sparse region of the graph. Finally, G k provides a computational advantage over a full graph in many algorithms
operating on graphs, including graph partitioning and partitioning renement algorithms.
CHAMELEON : similarit entre deux clusters

Inter-connectivit absolue entre 2 clusters : EC(Ci Cj ) = ensemble des points qui relient des nuds de Ci et de Cj Inter-connectivit interne dun cluster : EC(Ci ) = plus petit ensemble qui partionne Ci en 2 sous-clusters de taille proche Inter-connectivit relative : 2 |EC(Ci , Cj )| RI(Ci , Cj ) = |EC(Ci )| + |EC(Cj )|
as
CHAMELEON : similarit entre deux clusters

Proximit absolue entre 2 clusters : EC(Ci Cj ) = distance moyenne entre les points de EC(Ci , Cj ) Proximit interne dun cluster : EC(Ci ) = distance moyenne entre les points de EC(Ci ) Proximit relative : (|Ci | + |Cj |)EC(Ci , Cj ) RC(Ci , Cj ) = |Ci |EC(Ci ) + |Cj |EC(Cj )
as
CHAMELEON : algorithme
Deux phases trouver des sous-clusters initiaux en partitionnant le graphe k-ppv en m partitions "solides" (ou la distance entre les points est minimise) fusionner dynamiquement les sous-clusters en fonction de RI(Ci , Cj ) et RC(Ci , Cj )
as
CHAMELEON : rsultats
DS1 DS2
DS3
DS4
as
DS5
Figure 10: The clusters discovered by C HAMELEON for the ve data sets.
Complexit
Classication Hierarchique Ascendante : O(n3 ) Certaines variantes de CHA CURE : O(n2 ) en petite dim., O(n2 + nm log n) sinon (en commenant avec m clusters) CHAMELEON : graphe k-ppv : O(n log n) en petite dim. sinon O(n2 ) clustering : O(nm + n log n + m2 log m)
as
Classication Hirarchique Descendante

Principe : Slection du cluster le moins cohrent Subdivision du cluster le moins cohrent Problme : Pour raliser la subdivision, il faut souvent faire une classication hierarchique ascendante pour savoir quelle est la meilleure faon de sparer les points Algorithme beaucoup moins attractif que lautre
as
Plan
Notion de proximit Clustering hirarchique Clustering par partitionnement K-Means, Nues dynamiques CLARA, ... Clustering par modlisation Clustering bas sur la densit Clustering par "grille"
as
...
K-Means : principe
(Forgy 1965, MacQueen 1967) rpartir les N points en K ensembles disjoints regrouper les points proches problme de minimisation :
K
J=
g=1 iCg
d2 (xi , g )
NP difcile on peut juste trouver un minimum local
as
K-Means : algorithme
Initialiser 1 , K Rpeter affectation de chaque point son cluster le plus proche C(xi ) = min d(xi , g )
g
recalculer le centre i de chaque cluster 1 g = Ng Tant que > xi

iCg
as
Complexit : O(KnI) (I : itrations)

K-Means : exemple
K=2 K=3
K=4
K=5
K=6
K=7
as
K-Means : exemple
K=2 K=3
K=4
K=5
K=6
K=7
as
K-Means : exemple
K=6
as
K-Means : exemple
K = 10
as
K-Means : exemple
K = 10
as
K-Means : initialisation
Initialisation des i : alatoirement dans lintervalle de dnition des xi alatoirement dans lensemble des xi Des initialisations diffrentes de peuvent mener des clusters diffrents (problmes de minima locaux) mthode gnrale pour obtenir des clusters "stables" = formes fortes on rpte lalgo r fois on regroupe ensemble les xi qui se retrouvent toujours dans les mmes clusters.
as
ication stable K-Means : formes fortes

Illustration (Bisson 2001) :
ction des graines initiales
sifications et on cherche les formes fortes ujours plac(s) ensemble dans les partitions qqs les graines initiales) C1
x x x x x x x x x x
C 2 4 formes fortes
F1
x x
x x x
F2
x x
fications
x x x x x
x x x
x x
x x x
C 1
C2
F3
F4
tailles (ou singleton) sont ignores ou rattaches un groupe voisin
as
K-Means : formes fortes

K-Means rpt 6 fois
K=3 K=3
K=3
K=3
K=3
K=3
as

On trouve 5 regroupements de points diffrents : F1 F2 F3 2040 1940 49 F4 F5 2042 1929
Ni
F3 nest pas reprsentatif F1 , F1 , F4 et F5 sont les formes fortes on peut recalculer les clusters partir des centres des formes fortes
as

K-Means rpt 6 fois
4 Formes fortes pour K = 3
as
K-Means squentiels
Adaptation des k-means lorsque les exemples arrivent au fur et mesure Initialiser 1 , K Initialiser n1 , nK 0 Rpeter acqurir x affectation de chaque point son cluster le plus proche i = argming d(x, g ) incrmenter ni recalculer le centre i de ce cluster 1 i = i + (x i ) ni
as
Nues Dynamiques : principe

(Diday 1972, 1974) Gnralisation des K-Means Utilisation de noyaux = reprsentation dun cluster barycentre ( = pour les K-means) n points reprsentatifs ...
as
Plan
Notion de proximit Clustering hirarchique Clustering par partitionnement Clustering par modlisation EM et Mlange de gaussiennes Cartes de Kohonen, AutoClass... Clustering bas sur la densit Clustering par "grille"
as
...
EM gaussien et K-Means
K-Means nest quune version simplie de lalgorithme EM EM gaussien = modlisation de chaque cluster par une loi normale (P (x|Cg ) suit une loi normale) Initialiser 1 , 1 K , K Rpeter affectation de chaque point son cluster le plus proche C(xi ) = max P (xi |C = Cg )
g
recalculer i et i pour chaque cluster Tant que >
as
EM gaussien : exemple
K=6
as
K = 10
as
K = 10
as
Cartes Auto-organisatrices
Inspiration biologique : les neurones du cerveau (cortex) sont organiss en rgions correspondants des fonctions sensorielles diffrentes des stimuli proches vont activer des neurones du cortex qui sont eux aussi proches Notion de topologie et de carte du cortex
as
Principe (Kohonen, 1990) trouver une projection entre : lespace des donnes (grande dimension) lespace des reprsentations (dimension rduite)
la projection doit conserver la topologie des donnes
as
Apprentissage comptitif : principe = encourager le neurone "vainqueur" les poids du neurone gagnant sont rapprochs du vecteur dentre exemple pour les cartes topologiques :
prsentation de lexemple xk choix du neurone gagnant i tel que xk Wi = min x k Wi
choix de Ni voisinage de i (topologie) modication des poids : Wi (k + 1) = (k)(xk Wi (k)) si i Ni sinon
as
on fait dcrotre (k) et la taille de Ni (k) pendant lapprentissage
Avantages : lespace de sortie est un espace de reprsentations on peut visualiser les sorties de la carte on peut reprsenter des donnes de grande dimension ACP non-linaire Inconvnients : temps de convergence pas de preuve de convergence en multidimensionnel pas dunicit de la reprsentation
as
Exemple : Websom reprsentation de documents issus du Web (http ://websom.hut.) projection du contenu de 7 millions de msgs de 83 newsgroups sur une SOM les textes ressemblants se regroupent dans des endroits proches de la carte la couleur traduit le nb de textes projets dans chaque zone possibilit de recherche libre (projection de la requte sur la carte)
as
Cartes Auto-organisatrices : exemple

Les donnes : 8 valeurs Nom R black 0 blue1 0 LightBlue 173 pink 255 red1 255 snow1 255 tan4 139 white 255 G B 0 0 0 255 216 230 192 203 0 0 250 250 90 43 255 255
as

La carte : 5x5, avec un voisinage rectangulaire
Entre
chacune des cases (i, j) possde un Wij = [WR WG WB ]
as

Initialisation alatoire des W
(i,j) (1,1) (1,2) (1,3) (1,4) (1,5) (2,1) (2,2) (2,3) (2,4) (5,4) (5,5) WR -1.6191 5.3232 24.1074 56.1099 103.8161 9.0852 21.7618 68.9011 141.6688 258.2618 285.6591 WG 6.9136 25.5723 104.0181 191.7326 228.1793 6.5192 26.3918 112.0507 206.5739 178.0609 216.8464 WB 110.2043 172.8469 219.6881 239.6201 263.3476 57.5146 112.8917 187.9616 233.4665 162.7430 195.5499
as

Exemple en squentiel : on prend le 1er exemple : [0 0 0] neurone gagnant W (2, 1) = [9.0852 6.5192 57.5146] voisinage (itration 1) : tous les points rcompense : W = W + 0.5([0 0 0] W ) par ex : W (2, 1) = [4.5426 3.2596 28.7573] passage lexemple suivant ... et on recommence en changeant lordre de passage des exemples et en diminuant le voisinage
as
Cartes Auto-organisatrices : (Rect 5x5)
as
Cartes Auto-organisatrices : (Rect. 10x10)
as
Cartes Auto-organisatrices : (Hexa 10x10)
as
Plan
Notion de proximit Clustering hirarchique Clustering par partitionnement Clustering par modlisation Clustering bas sur la densit : DBSCAN, OPTICS, CLIQUE , ... Clustering par "grille" : STING, WaveCluster, ...
as
Rfrences
Pattern Recognition, S. Theodoridis & K. Koutroumbas, Academic Press, 1999 (ch. 11 16) Survey of Clustering Data Mining Techniques, Pavel Berkhin, http ://www.accrue.com/products/rp_cluster_review.pdf Clustering, R.Duda, http ://www.engr.sjsu.edu/knapp/HCIRDFSC/C/C_home.htm Data Clustering and Pattern Recognition Toolbox, http ://neural.cs.nthu.edu.tw/jang/matlab/toolbox/DCPR/ SOM toolbox (cartes de Kohonen), http ://www.cis.hut./projects/somtoolbox/
as

Clustering

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clustering

Uploaded by

Copyright:

Available Formats

Le Clustering en 3 leons

INSA Rouen -Dpartement ASI - Laboratoire PSI

Architecture des Systmes dInformation

Le Clustering en 3 leons p.1/65

Architecture des Systmes dInformation

Le Clustering en 3 leons p.2/65

Architecture des Systmes dInformation

Le Clustering en 3 leons p.3/65

Architecture des Systmes dInformation

Le Clustering en 3 leons p.4/65

Architecture des Systmes dInformation

Le Clustering en 3 leons p.5/65

Architecture des Systmes dInformation

Le Clustering en 3 leons p.6/65

Architecture des Systmes dInformation

Architecture des Systmes dInformation

distance de Tanimoto, ...

distance des centres de gravit : d(1 , 2 ) distance de Ward : ...

Architecture des Systmes dInformation

Le Clustering en 3 leons p.9/65

inertie (inter) = variance des centres des clusters Jb =

il faut minimiser linertie intra-cluster et maximiser linertie inter-cluster

Architecture des Systmes dInformation

Le Clustering en 3 leons p.10/65

Thorme de Knig-Huygens : Itot = Iintra + Iinter Illustration (Bisson 2001) c: G n

Dist (x i, g)2 = Dist(xi ,gc )2 + Gc Dist(gc , g)2

Inertie totale des points =

Inertie Intra + Inter

Architecture des Systmes dInformation

Le Clustering en 3 leons p.11/65

quivalent puisque Itot

Faible inertie inter-classes Forte inertie intra-classes g3

Architecture des Systmes dInformation

asFixer le nombre de classes sur lequel on travaille (nues dynamiques)

Valeur optimale obtenue pour la partition triviale : un individu par classe !

Architecture des Systmes dInformation

Le Clustering en 3 leons p.14/65

CHA : principe Mthodes hirarchiques

Les approches de type CAH (Classification Ascendante Hirarchiqu

Mthode itrative ...

Architecture des Systmes dInformation

certaines mesures de similarit)...

Le Clustering en 3 leons p.15/65

Architecture des Systmes dInformation

CHA : mtrique du type daggrgation Influence

Les grandes tendances

pas les mmes rsultats selon la mtrique utilise ...

Architecture des Systmes dInformation

CHA : ASI4 Clustering

Va-t-on tirer quelque chose de ces ASI4 donnes ?

Architecture des Systmes dInformation

Le Clustering en 3 leons p.18/65

CHA : ASI4 Clustering : saut minimal

Architecture des Systmes dInformation

Le Clustering en 3 leons p.19/65

CHA : ASI4 Clustering : saut maximal

Architecture des Systmes dInformation

En changeant de mtrique, on observe plus de sous-regroupements

Le Clustering en 3 leons p.20/65

CHA : ASI4 Clustering

Jaime bien le traitement de linformation

Architecture des Systmes dInformation

Pour construire les clusters, on coupe larbre la hauteur voulue

Le Clustering en 3 leons p.21/65