Professional Documents
Culture Documents
► Variables qualitatives
• De nombreux indices de similarités. existent en
literature (indice de Jaccard, indice de Russel…, la
distance du qui2… )
Mesure de proximité entre deux individus
► Distance :
1) d(i,j) = d(j,i)
2) d(i,j) ≥ 0 et d(i,j) =0 ⇔ i = j
3) d(i,j) ≤ d(i,k) + d(k,j)
► Dissimilarité : Distance sans (3)
► Similarité
1) s(i,j) = s(j,i)
2) s(i,j) ≥ 0 et s(i,i) ≤ s(i,j)
1
n q
q
d q ( X i , X j ) xik x jk
k 1
nij
S ei, ej
nij q ij
(1) ( 3) ( 4) ( 2) ( 5)
Individu d’origine
Algorithme de classification
• Étape 1 : il y a n éléments à classer (qui sont les n individus);
• Étape 2 : on construit la matrice (symétrique) de distances (avec
une distance ou similarité) entre les n éléments et l'on cherche
les deux plus proches, que l'on agrège en un nouvel élément
(classe) E1. On obtient une première partition à n-1 classes;
• Étape 3 : on construit une nouvelle matrice des distances qui
résultent de l'agrégation, en calculant les distances (ayant choisi
un critère d'agrégation) entre le nouvel élément et les éléments
restants (les autres distances sont inchangées). On cherche de
nouveau les deux éléments (parties) les plus proches, que l'on
agrège dans un ensemble Ek.
• Étape m : si Ek = E on arrête l’algorithme, sinon on revient à
l’étape 3..
Critères d’agrégation
Soit A et B deux parties de E, on donnera dans la suite cinq exemples de critère
d’agrégations.
Où gA =
1
nA
iA
xi IRn avec xi= (xi1, xi2,…,xip) et nA= CardA
n A nB
Critère ou distance de Ward : (A,B) = d²(gA, gB)
n( n A n B )
Exemple ( suivant le critère de saut maximal
Les individus : 6 hommes =E={H1, H2, H3, H4 H5,, H6.}
x1 x2 x3 x4 x5
H1 106.5 89.5 71.5 65.6 174
H2 110.5 97 79 71.8 175.3
H3 115.1 97.5 83.2 80.7 193.5
H4 104.5 97 77.8 72.6 185.3
H5 107.5 97.5 80 78.8 187.2
H6 119.8 99.9 82.5 74.8 181.5
Distance : Euclidienne
d (Hi , H j ) (x
k 1
ik x jk )²
d(H1,H2)= (106,2 -110,5)² (89,5 - 97)² (71,5 - 97)² (65,5 - 71,8)² (174 -175,3)² = 13,08
H1 H2 H3 H4 H5 H6
H1 13.08 29.81 17.44 22.05 23.56
H2 21.2 12.79 14.17 12.43
H3 16.01 10.55 14.39
H4 7.28 17.16
H5 14.55
H6
et l'on cherche les deux plus proches, que l'on agrège en un nouvel
élément (classe) E1 ={ H4, H5.}
• Étape 3 : on construit une nouvelle matrice des distances qui
résultent de l'agrégation, en calculant les distances (suivant le
Critère saut maximal : (A,B) = max{d(i,j), iA, iB})
entre le nouvel élément et les éléments restants (les autres
distances sont inchangées).
H1 H2 H3 E1 H6
H1 13.08 29.81 22.05 23.56
H2 21.2 14.17 12.43
H3 16.01 14.39
E1 17.16
H6
H1 E2 H3 E1
H1 23.56 29.81 22.05
E2 21.2 17.16
H3 16.01
E1
H1 E2 E3
H1 23.56 29.81
E2 21.2
E3
H1 E4
H1 29.81
E4
29.81
21.2
16.01
12.43
7.28
( H4 ) ( H5 ) ( H3 ) ( H2 ) ( H6 ) ( H1 )
Individu d’origine
• À partir de ce Dendrogramme, on peut
déterminer la partition convenable en choisisant le
nombre de classes désirer dans cette partition. Ainsi,
dans l’exemple vue précedament les partions
optimales celon le nombre de classes désiré est :
C2 =
1
3
iEk
(110,5+104,5+119,8 ; 97+ 97+99,9 ; 79+77,8+82,5 ; 71,8+72,6+74,8 ; 175,3+185,3+ 181,5)
C3 =
1
(115,1+107,5; 97,5+ 97,5; 83,2+80 ; 80,7+78,8; 193,5+187,2)=( 111,3; 97,5 ; 81,6; 79,75; 190,35)
• 4eme2 étape:
iEk On calcule pour chaque individu i la distance au
centre de chaque groupe H1=C1 C2 C3
H1 0 15,97 25,62
H2 13.08 6,3 17,24
H3 29,81 25,69 5,28
H4 17,44 8,75 10,7
H5 22,05 9,76 5,28
H6 23,56 9,1 19,2
• et on calcule le critère d'inertie IW présent. Si la dispersion
(IW) décroît, on revient à l'étape 2, sinon on arrête
l’algorithme.
IW=595,58
Puisque c’est la première partition en de trois classe obtenue
par cette algorithme, on revient obligatoirement à l’étape 2.
► On définie à priori un nombre de classes (K=3). •
► On choisie ici par exemple 3 centres (C1={H1.} ; C2 = {H2.} ; C3={H3.} •
• 2eme étape: On les distance de chaque individu aux 3 centres
de classes.
H1=C1 C2 C3
H1 0 15,97 25,62
H2 13.08 6,3 17,24
H3 29,81 25,69 5,28
H4 17,44 8,75 10,7
H5 22,05 9,76 5,28
H6 23,56 9,1 19,2
• 3eme étape: On affecte chaque individu i à la classe dont le
centre est le plus proche :
P’1={{H1}, {H2, H4, H6}, {H3,H5}}
Donc on obtient la même partition on arrête le
programme