Professional Documents
Culture Documents
Data Mining
Principes
Mthodes par partitionnement
Mthodes hirarchiques
Master 2
UAG
Principes
Mthodes par partitionnement
Mthodes hirarchiques
Mthodes de classification
Modles rsultants
Evaluation du rsultat
0.1
0.8
0.3
0.1
0.2
0.4
0.2
0.4
0.5
0.1
0.4
0.8
0.4
0.5
0.1
0.1
numriques continues
catgorielles binaires
catgorielles nominales
Variables continues
standardisation
Ecart moyen absolu
avec
catgorielles ordinales
mesure standardise
Variables continues
Variables continues
q = 2, d distance euclidienne
distance de Minkowski
proprits en gnral vrifies
d(i,j) 0
d(i,i) = 0
q = 1 distance de Manhattan
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)
Variables binaires
Variables nominales
Object j
Table de contingence
Object i
p=nombre de variables
m=nombre de valeurs communes sur i et j
variable assymtrique :
coefficient de Jaccard
Variables ordinales
valeurs ordonnes
Donnes mixtes
Types de mthodes
Doit permettre
par partitionnement
le passage l'chelle
hirarchiques
Principes
Mthodes par partitionnement
Mthodes hirarchiques
K-moyennes : exemples
10
10
0
0
10
0
0
10
A={1,2,3,6,7,8,13,15,17}.
K= 3
Centroides initiaux : 1, 2, 3
Clusters initiaux
C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86
dist(2,M1)<dist(2,M2)2 passe en C1
dist(7,M2)<dist(7,M3) 7 passe en C2
C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34, C3= {8,13,15,17},
M3=13.25
dist(3,M1)<dist(3,M2)3 passe en 1
dist(8,M2)<dist(8,M3)8 passe en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15
K-moyennes : avantages/
inconvnients
+
assez rapide : en O(l*k*n) avec l nombre d'itrations
n nombre d'objets classer k nombre de clusters
Trouve des minima locaux
K-moyennes : Variantes
Minima locaux
K-modes
K-mdoides : PAM
initial cluster
centers
K-medoides
K-medoides
Moyenne de 1, 3, 5, 7, 9 : 5
Moyenne de 1, 3, 5, 7, 1009 : 205
Mediane de 1, 3, 5, 7, 1009 is 5
Les valeurs extremes naffectent pas la mdiane
PAM : Exemple
A={1,3,4,5,8,9}
k=2 1 et 8 mdoides initiaux
Clusters initiaux C1={1,3,4} et C2={5,8,9}
E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(9,8)2=15
Comparons 1 et 3, si 3 remplace 1 : C1={1,3,4,5} et C2={8,9}
E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
le remplacement est fait M={3,8}
Comparons 3 et 4, si 4 remplace 3 : C1={1,3,4,5} et C2={8,9}
E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2= 12
3 nest pas remplac par 4
Comparons 3 et 5, si 5 remplace 1 : C1={1,3,4,5} et C2={8,9}
E{5,8}=dist(1,5)2+dist(3,5)2+dist(4,5)2+dist(8,9)2= 22
3 nest pas remplac par 5
Comparons 3 et 9, si 9 remplace 1 : C1={1,3,4,5,8} et C2={9}
E{9,8}=dist(1,8)2+dist(3,8)2+dist(4,8)2+dist(5,8)2>49
3 nest pas remplac par 9
PAM : Exemple
Clusters C1={1,3,4,5} et C2={8,9}
E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
Comparons 8 et 1, si 1 remplace 8 : C1={1} et C2={8,9,3,4,5}
E{3,1} =dist(8,3)2+dist(9,3)2+dist(4,3)2+dist(5,3)2>25
8 nest pas remplac par 1
Comparons 8 et 4, si 4 remplace 8 : C1={1,3} et C2={8,9,4,5}
E{3,4}=dist(3,1)2+dist(4,8)2+dist(4,9)2+dist(4,5)2>25
8 nest pas remplac par 4
Comparons 8 et 5, si 5 remplace 8 : C1={1,3,4} et C2={5,8,9}
E{3,5}=dist(3,1)2+dist(3,4)2+dist(5,8)2+dist(5,9)2= 15
8 nest pas remplac par 5
Comparons 8 et 9, si 9 remplace 1 : C1={1,3,4,5} et C2={9,8}
E{3,9}=dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
8 nest pas remplac
Clusters rsultats C1={1,3,4,5} et C2={8,9}
Silhouette plots
reprsentation graphique
permette de slectionner le nombre de clusters
Silhouette de l'observation i
Expectation-maximization (EM)
Principes
Mthodes hirarchiques
Mthodes hirarchiques
par agglomration (ascendante)
pas initial : chaque lment forme une classe
puis, chaque itration, les objets les plus proches
sont groups dans la mme classe
jusqu' ce que toutes les classes soient regroupes
en une seule
par division (descendante)
pas initial : tous les lments sont dans la mme
classe
puis, chaque itration, les classes sont clates
jusqu' ce que chaque lment soit dans une classe
Mthodes hirarchiques
Deux types :
Agglomeratives bottom-up
Divisives top-down
Ne ncessitent pas de spcifier k
Produisent un arbre appel dendrogramme
les clusters sont obtenus en coupent l'arbre un niveau
donn
le dendrogramme montre la formation des clusters et sousclusters
Classification hierarchique
pas 0
a
b
pas 1
pas 2
pas 4
agglomeration
ab
abcde
cde
de
e
pas 4
pas 3
Classification hierarchique
division
pas 3
pas 2
pas 1
pas 0
Mthodes agglomeratives
Algorithme d'agglomration
distance
distance
distance
distance
distance
minimum
maximum
moyenne
entre les centroides
euclidienne pondre entre
moyennes
Classification hierarchique
conceptuelle COBWEB
Classification hierarchique
conceptuelle COBWEB
dmarre la racine
insre les instances une une
met jour l'arbre chaque tape
chaque tape, 4 actions sont possibles :
fusionner deux noeuds, clater un noeud, crer un
noeud, crer un sous-noeud
optimiser l'indice Category utility
chaque nud
reprsente un concept et contient une description
probabiliste de celui-ci
la description caractrise les objets classs dans ce
nud : probabilit du concept et probabilits
conditionnelles sur les valeurs des attributs
les nuds frres dun niveau forment une partition
Outlook
Temp.
Humidity
Windy
Sunny
Hot
High
False
Sunny
Hot
High
True
ID
Outlook
Temp.
Humidity
Windy
Sunny
Hot
High
False
Sunny
Hot
High
True
Overcast
Hot
High
False
Rainy
Mild
High
False
Rainy
Cool
Normal
False
Overcast
Hot
High
False
Rainy
Mild
High
False
Rainy
Cool
Normal
True
Rainy
Cool
Normal
False
Overcast
Cool
Normal
True
True
Sunny
Mild
High
False
Sunny
Cool
Normal
False
Rainy
Mild
Normal
False
Sunny
Mild
Normal
True
Overcast
Mild
High
True
Overcast
Hot
Normal
False
Rainy
Mild
High
True
Rainy
Cool
Normal
Overcast
Cool
Normal
True
Sunny
Mild
High
False
Sunny
Cool
Normal
False
Rainy
Mild
Normal
False
Sunny
Mild
Normal
True
Overcast
Mild
High
True
Overcast
Hot
Normal
False
Rainy
Mild
High
True
Outlook
Temp.
Humidity
Windy
Sunny
Hot
High
False
Sunny
Hot
High
True
Overcast
Hot
High
False
Rainy
Mild
High
False
a et b sont trs
similaires
avec cutoff
10