You are on page 1of 34

27/09/2017

Rappels d’analyse exploratoire


multidimensionnelle

Analyse en composantes principales


Analyse des correspondances
Classification

Introduction
L’analyse exploratoire multidimensionnelle désigne un ensemble de
méthodes permettant l’exploration, la description, la fouille de
grands tableaux de données décrivant un grand ensemble d’individus,
observations ou unités statistiques à travers un grand nombre de
variables, caractères ou attributs.

Elle comprend deux grandes familles de méthodes:

• Les méthodes factorielles de • Les méthodes de


réduction du nombre de classification de réduction
variables qui sont du nombre d’individus par
synthétisées à travers des regroupement en classes
composantes factorielles homogènes
combinaisons linéaires des
variables initiales

1
27/09/2017

Introduction
• Différentes méthodes selon la nature des variables:
• Cas d’un seul tableau de données (individus x variables, données de proximité non traitées)
• Les méthodes factorielles :
• ACP pour un tableau de p variables quantitatives
• AFC pour deux variables qualitatives
• ACM pour un tableau de p variables qualitatives
• Les méthodes de classification :
• Partitionnement direct en K (fixé a priori) classes
• Classification hiérarchique par succession de partitions emboitées en
classes
• De moins en moins fines – algorithmes agglomératifs classification
ascendante hiérarchique CAH
• De plus en plus fine – algorithmes divisifs
• Extension à plusieurs tableaux : multi blocs, tableaux multiples
• Extension à des données mixtes
• Classification de variables
27/09/2017 3

Notions générales d’analyse factorielle


Etape 1 recueil

• Les données: n individus décrits par p variables


– Cas classique: p variables quantitatives
– Cas de p=2 variables qualitatives transformation en
tableau de contingence, tableaux de profils
• Lignes : « Individus » sont les modalités de la variable 1
• Colonnes : « Individus » sont les modalités de la variable 2
– Cas de p variables qualitatives transformation en
tableau disjonctif
• Les variables sont les indicatrices des modalités des
variables
– ou tableau de Burt :
• Les individus sont les modalités des variables

2
27/09/2017

Notions générales d’analyse factorielle


Etape 2 traitement
• Les méthodes factorielles permettent d’explorer les
liaisons entre variables et les ressemblances entre
les individus
– Corrélation linéaire, chi2 de contingence, rapport de
corrélation
– Choix d’une mesure de distance- métrique
• Résultats: représentations graphiques planes:
– Plans factoriels :visualisation des individus
(notion de distances entre individus)
– Cercle de corrélations (ACP) : visualisation des
variables- visualisation des modalités (AFC, ACM)

Notions générales d’analyse factorielle


Etape 3 interprétation

• Choix du nombre de dimensions à retenir


– Critères empiriques
• Mesure de la qualité des représentations obtenues
– Critère global
– Critère local - individuel
• Interprétation interne des axes :
– donner un sens en lien avec les variables initiales,
– expliquer la position des individus
• Interprétation externe des axes avec des variables
supplémentaires

3
27/09/2017

Principe général de l’analyse factorielle


• Les individus et variables sont considérés comme des
éléments de Rp et Rn respectivement
• Chaque variable est associée
à un axe de Rn
• Chaque individu est associé
à un point dans Rp
On a ainsi un nuage de points de Rp impossible à visualiser
si p>3.
• Le but de l’analyse factorielle est de trouver un sous espace
de dimension faible pour y voir au mieux les individus:
trouver de nouvelles variables combinaisons linéaires des variables
initiales conservant le maximum de l’information du nuage initial

Principe général de l’analyse factorielle


L’analyse repose sur des distances entre les
points représentant les individus. Forte
influence de la méthode de calcul de distances
sur les résultats de l’analyse. Il est essentiel de
la déterminer avant toute étude

4
27/09/2017

Principe général de l’analyse factorielle


Le calcul des distances
En physique : formule de Pythagore d 2 (ei ; e j ) = ( xil − x lj ) 2 + ( xik − x kj ) 2 + ...

Par contre en statistique: individus décrits par des variables exprimées dans des
unités particulières : euros, kg, km…

Pythagore est aussi arbitraire qu’une autre.

En théorie le choix de la distance dépend de l’utilisateur qui seul peut préciser celle qui est
adéquate.
distance euclidienne entre individus 1 et 2 =
(8-21) 2 + (300-2000) 2 = 132 + 17002 = 17002
néglige Q1
Diviser Q2 et Q3 par 100
(8-21) 2 + (3-20) 2 = 132 + 172 ré-équilibrage

Réduire toutes les variables


9

Principe général de l’analyse factorielle


distance usuelle en ACP: métrique associée M= Diag(1/sj2)
Réduire les variables C’est la plus utilisée, c’est l’option par défaut de beaucoup
de logiciels d’ACP car en plus de permettre de s’affranchir des unités de
mesure, elle donne à chaque caractère la même importance quelle que soit sa
dispersion dans le calcul des distances.

Distance usuelle en AFC: métrique chi2 M= Diag(n/n.j) ou M= Diag(n/ni.)

Distance de Mahalanobis: M= V-1 ou W-1

10

5
27/09/2017

Principe général de l’analyse factorielle


Notion essentielle: inertie du nuage de points
On appelle inertie totale du nuage de points la
moyenne pondérée des carrés des distances des
points au centre de gravité.
Elle mesure la dispersion du nuage autour de son
centre de gravité.

n n
I g = ∑ pi (ei − g )' M (ei − g ) = ∑ pi d 2 (ei , g )
i =1 i =1
11

Principe général de l’analyse factorielle G. Saporta

Ig = moyenne des carrés des distances à g

pi d 2 (i, g )
xk
x
x
x

g x
x
x

x2

= ∑Var( x j )
x1

Inertie=variance généralisée 12

6
27/09/2017

Principe général de l’analyse factorielle


égalité la plus utilisée : somme des variances des variables

p
si ACP non normée I g = ∑ s 2j
j =1

Si ACP normée I g = trace ( R ) = p

(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables mais
uniquement de leur nombre)

13

Principe général de l’analyse factorielle


Rappels:
espaces initiaux de dimension trop grande

impossible d’y visualiser le nuage de points

recherche d’espaces de dimension réduite qui


ajustent au mieux le nuage de points, c’est à
dire qui respectent le plus possible la
configuration initiale
14

7
27/09/2017

Principe général de l’analyse factorielle

La méthode = projeter le nuage de points en


minimisant les déformations des distances
inhérentes à la projection

critère de choix de l’espace de projection F


Max ∑∑ pk pl d 2 ( k , l )
F
k l
(le sous espace recherché est tel que la moyenne des carrés des
distances entre points projetés soit maximale (la projection
raccourcit les distances), c’est à dire qu’il faut que l’inertie du
nuage projetée soit maximale.)
15

Principe général de l’analyse factorielle


(voir Saporta 2006 annexe E)

• Métrique quelconque M (matrice symétrique définie positive)


– Critère de l’ACP: maximiser l’inertie du nuage projeté
sur un sous espace Fk de dimension k
Max (Trace(VMP)) avec P projecteur M-orthogonal
– Solution : le sous espace F est engendré par les k
vecteurs propres a de VM associées aux k plus grandes
valeurs propres (obtenus séquentiellement par dérivation
vectorielle du rapport de deux formes quadratiques),
– Ces vecteurs propres M-normés à 1 sont les axes
principaux

8
27/09/2017

Principe général de l’analyse factorielle


on montre que la recherche du sous espace F
peut s’effectuer de façon séquentielle

Méthode : chercher le sous-espace de


dimension 1 d’inertie maximale, puis le sous-
espace de dimension 1 orthogonal au
précédent d’inertie maximale et ainsi de
suite.
17

Principe général de l’analyse factorielle


(voir Saporta 2006 annexe E)

• Métrique quelconque M (matrice symétrique définie positive)


– Inertie du nuage projeté sur un sous espace F1 de
dimension 1 = cas particulier droite d‘axe unitaire a
• maximiser Trace(VMP) avec P projecteur M-orthogonal
• P= a(a’Ma)-1a’M
• Trace(VMP)= Trace[(VMaa’M)]/a’Ma= Trace[a’M(VM)a]/a’Ma
– Critère ACP Max (a’MVMa)/a’Ma
• Solution dérivation vectorielle a est vecteur propre de VM
– Axe principal M-normé a’Ma=1

9
27/09/2017

Principe général de l’analyse factorielle


Solution: vecteurs propres de matrices:
Axes principaux a, VMa = λa a’Ma=1 M orthonormés
Facteurs principaux u, MVu= λu u’M-1u=1 M-1 orthonormés
Composantes principales c , XMX’D= λc D-orthogonales
C=Xu u=Ma
ACP u vecteurs propres de V ou R puis C=Xu
AFC c vecteurs propres de PLxPC ou PCxPL (issus du tableau
de contingence) et formules de transition
ACM comme AFC mais avec tableau disjonctif ou Burt
(voir en détail pages suivantes pour l’ACP cas normé et cas général)

Principe général de l’analyse factorielle


La projection ou coordonnée d’un individu sur ∆ est définie par
p
ci = ∑ xij u j
j =1

La liste des coordonnées ci des individus sur Δ forme une


nouvelle variable artificielle
 c1 
  p
.
c=   =
∑ x ju j = Xu
 .  j =1
 
 c n 

c’est une combinaison linéaire des variables initiales dont on


va chercher à maximiser la variance.
20

10
27/09/2017

Principe général de l’analyse factorielle


L’inertie des points projetés sur le sous espace Δ (droite) s’écrit :
n
var(c ) = ∑ pi ci2 = c ' Dc = u ' X ' DXu = u 'Vu
i =1

Rappelons qu’on se limite au cas usuel de l’ACP normée ; la matrice des données
centrées réduites correspond donc à la matrice des corrélations
Le critère de maximisation s’écrit alors :
M ax u u 'V u = M ax u u ' R u avec uu =1
'

problème de max d’une forme quadratique


solution :u1 vecteur propre de R associé à la plus grande valeur propre λ
1

21

Principe général de l’analyse factorielle


ensuiteu2 orthogonal à u1 tel que l’inertie des points
projetés soit maximale
Solution : u2 vecteur propre de R associé à la
deuxième plus grande valeur propre λ2
le sous-espace à q dimension recherché est
engendré par les q premiers vecteurs propres de
la matrice R associés aux plus grandes valeurs
propres

22

11
27/09/2017

Principe général de l’analyse factorielle


Définitions :
facteurs principaux : u tq Ru = λu

Ils contiennent les coefficients des variables initiales dans la combinaison c = Xu


composantes principales : c j = Xu j
(ce sont les variables artificielles définies par les facteurs principaux, elle contiennent les
coordonnées des projections des individus sur les axes principaux)

En pratique, l’ACP va donc consister à diagonaliser la matrice


R pour obtenir les u et à calculer les composantes principales
23

Principe général de l’analyse factorielle

• Aux axes principaux a sont associés les facteurs


principaux u = Ma vecteurs propres de MV, M-1 normés à
1 associés aux plus grandes valeurs propres

• Les composantes principales associées: c=Xu


– Elles sont vecteurs propres de XMX’D D-orthogonales
de variance maximale
• En pratique, on calcule u par diagonalisation de
MV puis on obtient c, les axes n’ont pas d’intérêt.

12
27/09/2017

Principe général de l’analyse factorielle


interprétation
L’analyse factorielle fournit de nouvelles variables artificielles et des
représentations graphiques visualisant des relations entre variables
et d’éventuels groupes de variables et d’individus

(plans factoriels – cercle de corrélation seulement en ACP)

interne
phase d’interprétation des résultats:
externe

Phase délicate nécessitant une certaine méthode pour éviter de


tirer des conclusions erronées

25

Principe général de l’analyse factorielle


interprétation
• Mesure de la qualité des représentations obtenues
L’analyse factorielle fournit une représentation
graphique des individus dans un espace de
dimension plus faible que p mais celle ci n’est
qu’une vision déformée de la réalité.
points délicats de l’interprétation
1) apprécier cette déformation , cette perte d’information
due à la réduction de dimension

2) déterminer le nombre d'axes, ie la dimension de l’espace

13
27/09/2017

Principe général de l’analyse factorielle


interprétation
k k
critère usuel = % d’inertie totale expliquée
∑ λ i ∑ λ i
i=1
p
= i=1
I
mesure globale insuffisante : ∑
i=1
λi g

10% n’a pas le même intérêt sur un tableau de 20 variables et un


de 100 variables.
qualité de sa représentation des individus indépendamment du %
d’inertie global
(En effet il est possible d’avoir un premier plan principal F2 avec une inertie totale
importante et qu’en projection deux individus soient très proches, cette proximité
peut être illusoire si les deux individus sont éloignés dans F2⊥ )
Une mesure locale de qualité de représentation d’un individu est
le cosinus de l’angle entre le plan principal et le vecteur ei
(Si ce cosinus est grand, sera voisin du plan, on pourra alors examiner la position de
sa projection sur le plan par rapport à d’autres points ; si ce cosinus est faible, on se
gardera de toute conclusion) 27

Principe général de l’analyse factorielle


interprétation
Intérêt de l’analyse = réduction de dimension

choix du nombre d’axes = point essentiel

critères théoriques: * tests statistiques


(multinormalité et * des intervalles de
matrice de covariance) confiance sur les
valeurs propres

14
27/09/2017

Principe général de l’analyse factorielle


Interprétation
• Choix du nombre de dimensions à retenir
– Critères empiriques
• ACP: règle de Kaiser : en ACP normée retenir les valeurs propres plus
grandes que 1 ou % > 1/p (on ne s’intéresse qu’aux composantes
qui apportent plus que les variables initiales)
règle du coude sur le diagramme de décroissance des valeurs
propres
saporta &al (2003) valeurs propres dépassant leur moyenne de
plus de 2 écart-types (moyenne=1 et variance= (p-1)/(n-1))
Remarque: il n’existe aucun critère de type au moins x% d’inertie, il faut
tenir compte de la taille du nombre de variables et de la force de leurs
corrélations. Aucun critère n’est absolu.
• AFC : règle du coude
• ACM retenir les valeurs propres 1/p (indépendance) et règle du coude

Principe général de l’analyse factorielle


• Interprétation des axes :
– donner un sens en lien avec les variables initiales,
– expliquer la position des individus
• On distingue interprétation interne et externe
variables et individus actifs sont utilisés dans les calculs de l’ACP par opposition aux

variables et individus supplémentaires ne participent pas directement à l’analyse

L’interprétation interne consiste à étudier les résultats en se basant sur les variables et
les individus actifs.

L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe.

15
27/09/2017

Principe général de l’analyse factorielle


interprétation interne ACP- variables
Interpréter une ACP = donner une signification à ces composantes
Principales à travers le calcul des coefficients de corrélation
linéaire entre composantes principales et variables initiales

On synthétise usuellement les corrélations des variables pour un


couple de composantes sur un graphique appelé cercle de
corrélation sur lequel, chaque variable
2 j
Xj a une abscisse r (c1 , X j ) et une ordonnée r (c , X ) avec

r (c, X j ) = λ u j
On s’intéresse aux coefficients les plus forts en valeur absolue et
proches de 1. L’examen du cercle de corrélation permet de détecter
les éventuels groupes de variables qui se ressemblent ou au
contraire qui s’opposent donnant ainsi un sens aux axes principaux 31

Principe général de l’analyse factorielle


interprétation interne ACP- variables
Remarque : Effet « Taille »
Lorsque toutes les variables initiales sont positivement corrélées
entre elles, la première composante principale définit « un facteur
de taille ».
(En effet, une matrice symétrique ayant tous ses termes positifs admet un premier
vecteur propre dont toutes les composantes sont de même signe. On peut les choisir
positifs et la première composante sera positivement corrélée avec toutes les variables )
Les individus sont rangés sur l’axe 1 par valeurs croissantes de
l’ensemble des variables (en moyenne).
La deuxième composante principale différencie alors des
individus de « taille » semblable : on l’appelle facteur de forme.

32

16
27/09/2017

Principe général de l’analyse factorielle


interprétation interne ACP- individus

Etude des individus par examen des coordonnées et surtout


des représentations graphiques, les plans principaux.

Le but est de voir la répartition des individus, des groupes


ressemblants ou distincts.

Si les individus ne sont pas anonymes ils peuvent aider à


l’interprétation des composantes et vice versa

33

Principe général de l’analyse factorielle


interprétation interne ACP- individus
p i c k2i
contributions des individus : C T R (i ) =
λk
n
(où cki représente la valeur pour l’individu i de la kième composante ck et λk = ∑ pc 2
i ki )
i=1

C T R ( i) > p i
Mais CTR (i) >> pi = facteur d’instabilité
effectuer l’analyse en l’éliminant puis le rajouter ensuite en élément
supplémentaire

( les poids sont tous égaux, les contributions n’apportent pas plus d’information que les coordonnées)

34

17
27/09/2017

Principe général de l’analyse factorielle


interprétation externe ACP variables quantitatives
Interprétation externe avec des variables supplémentaires
Rappel: les éléments supplémentaires n’interviennent pas dans les calculs
Elles peuvent être très utiles a posteriori pour conforter et
enrichir l’interprétation des axes.

cas de variables numériques :

a) simple calcul du coefficient de corrélation entre chaque


variable supplémentaire et les composantes
principales
b) placement sur les cercles de corrélation

c) interprétation : détection des corrélations significatives


ie les plus fortes
35

Principegénéral
Principe général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- variables qualitatives
cas de variables qualitatives : représentation de
chaque modalité par son centre de gravité. Certains
logiciels fournissent des aides à l’interprétation :
les valeurs-test
mesures de l’éloignement du point représentatif d’une modalité par
rapport à l’origine dont le but est la mise en évidence d’une position
significativement excentrée d’un sous groupe d’individus.
Une modalité sera considérée comme significative
d’un axe si la valeur-test qui lui est associée est
supérieure en valeur absolue à 2.

18
27/09/2017

Principe
Principegénéral
général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- individus
Cas des individus supplémentaires :

Simple positionnement sur les axes principaux par


calcul des combinaisons linéaires de leurs valeurs
pour les variables initiales.

EXEMPLE

Principe général de l’analyse factorielle


interprétation interne – ACM Modalités
Comme en AFC ou en ACP mais attention au % d’inertie

- contributions des variables actives

- valeurs test des variables supplémentaires

38

19
27/09/2017

Principe
Principegénéral
général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- individus
Cas des individus supplémentaires :

Simple positionnement sur les axes principaux par


calcul des combinaisons linéaires de leurs valeurs
pour les variables initiales.

EXEMPLE

Principe
Principegénéral
général de l’analyse
l’analysefactorielle
factorielle
interprétation interne AFC – ACM Modalités
• Pas de cercle de corrélation en analyse des correspondance
• Représentation sur les axes principaux des coordonnées
(barycentriques) des modalités des variables qualitatives.
• Les modalités dont les contributions aux inerties des axes
les plus importantes et supérieures à leur poids donnent
les significations des axes, les signes des coordonnées
permettent de voir si ces contributions sont opposées ou
dans le même sens (c’est une différence importante par rapport à l’ACP)
• On y ajoute les cosinus carrés mesure de qualité locale

20
27/09/2017

3Principe généraldes
Interprétation de l’analyse
résultatsfactorielle
d’une AFC
interprétation interne – AFC Modalités
• a et b coordonnées des profils ligne – profils colonnes
les contributions des catégories aux inerties des axes
1m 1

on a : a’(D1/n)a = λ = ∑ ni.ai2
n i=1
1m 2

b’(D2/n)b = λ = ∑ n. j bj2
n j =1

Profil ligne i profil colonne j


ni. 2 n. j 2
ai bj
CTR(i) = n et CTR(j) = n
λ λ
41

Principe général de l’analyse factorielle


interprétation interne – AFC Modalités

• Comme en ACP : les contributions les plus fortes


sont considérées comme constitutives des axes,
elles donnent le sens aux axes

ni.
• Critère: retenir CTR(i) > (poids de i)
n

• Le signe des coordonnées permet de mettre en


évidence des contributions opposées

42

21
27/09/2017

Principe général de l’analyse factorielle


3 Interprétation des résultats
interprétation interne d’une AFC
– AFC Modalités

• Proximités entre catégories


Comme en ACP : cosinus carrés d’angles entre
individus (profils lignes- profils colonnes) et axe
principal permettent de mesurer la qualité de la
représentation. On évite l’interprétation abusive
des proximités graphiques

43

Principe général de l’analyse factorielle


interprétation interne – ACM Modalités
Comme en AFC ou en ACP mais attention au % d’inertie

- contributions des variables actives

- valeurs test des variables supplémentaires

44

22
27/09/2017

Principe général de l’analyse factorielle


interprétation interne – ACM Modalités
Contributions à un axe factoriel

Effectif de la catégorie j
a- d’une modalité :
1 1 ∑m i

μ= a'Da = ∑ nj (aj )2
np np j=1 Coordonnée de la catégorie
j sur l’axe
nj
(aj )2
np Modalités intéressantes:
CTR( j) = CTR(j) > poids = nj/np
μ

45

Principe général de l’analyse factorielle


interprétation interne – ACM Modalités
Contributions à un axe factoriel
b- d’une variable :
cumul des contributions des modalités de la variable

mi
1 m nj
i

CTR(Xi) = ∑CTR( j) = ∑ (aj )2


j=1 μ j=1 np
c- d’un individu :
1 2 On utilise ces contributions
1 1n 2 zi ainsi que les cosinus carrés
μ= zz' = ∑zi CTR(i) = n pour juger de la qualité des
n n i=1 μ
projections

46

23
27/09/2017

Principe général de l’analyse factorielle


interprétation interne – ACM Modalités
Contributions à l’inertie totale
1 p
Inertie = ∑ mi − 1 = ∑ p j d 2 ( j , g )
p i =1 j
n
On montre que: d 2 (j,g) = -1
nj
Une modalité est d’autant plus loin de g
que nj est faible

nj 1 n
Inertie d’une catégorie = I(j) = d 2 (j,g) = (1- j )
np p n

Fonction décroissante de l’effectif


les modalités à faible effectif risquent 47
de perturber l’analyse

Principe général de l’analyse factorielle


interprétation interne – ACM Modalités
Inertie d’une variable
m
1 n
i
m -1
I(Xi ) = ∑ I(j) = ∑ (1- j ) = i
j=1 p n p

Contribution de la variable i:

L’inertie d’une variable est d’autant


I(Xi ) mi −1 plus grande que mi est grand
CTR(Xi ) = = On évite des différences trop
Itotale ∑(mi −1) importantes entre les nombres
modalités des variables

48

24
27/09/2017

Principe général de l’analyse factorielle


interprétation externe – ACM Modalités
Les variables supplémentaires ne participent pas directement à l’analyse.

Variables quantitatives: pas de représentation sur plans factoriels on se


contente de calculer leur corrélation avec les composantes factorielles

Variables qualitatives: représentation sur les plans factoriels selon le


principe barycentrique et valeurs test pour juger de la significativité de
la liaison

Significative si
n -1
v-test = aj nj supérieure à 2
n - nj pour un seuil
5%
49

Principe général de l’analyse factorielle


Remarques sur l’ACM
La mise sous forme disjonctive est une commodité
mathématique, permet de plus l’étude de variables mixtes
(après mise en classes des variables quantitatives) par une
ACM

En cas de liaison non linéaire entre variables quantitatives


(ACP inefficace) on pourra faire une ACM

ACM permet la transformation de variables qualitatives en


quantitatives (utile pour classification ou discriminante sur
données qualitatives)

50

25
27/09/2017

Méthodes de classification
Analyse descriptive des données

réduction du réduction du
nombre de variables nombre
d’individus

analyse factorielle Classification automatique


association des deux méthodes:
classification sur les points du nuage traité par l’analyse
factorielle , on utilise les composantes principales
51

Méthodes de classification
2 types de méthodes

• Méthodes de • Méthodes
partitionnement : hiérarchiques :
une partition en un suite de partitions
nombre fixe de classes emboitées

a b c d e

52

26
27/09/2017

Méthodes de classification

• notion de distance entre individus :


critère de classification

• notion de distance entre parties (distance


entre groupes d’individus) :
stratégie d’agrégation

53

Méthodes de classification
• Réaliser une classification nécessite :
- Un ensemble d’individus à classer
- Définir une distance entre individus : d(x , y)
« choix d’un critère de classification »
- Définir une distance entre groupes : D(X ,Y)
« choix d’une stratégie d’agrégation »

• L’objectif des méthodes de classification automatique


est la construction d’une partition ou d’une suite de
partitions emboîtées d’un ensemble d’objets.
• Les classes formées doivent être le plus homogènes
possible d’où la nécessite de définir un critère à
optimiser.
54

27
27/09/2017

Méthodes de classification

Méthodes de partitionnement direct


• Elles permettent le traitement rapide des ensembles d’effectifs assez
élevés en optimisant localement un critère de type inertie. (les individus
sont des points de Rp espace euclidien)

• But = construire une partition unique des objets en k classes, k fixé a


priori ou déterminé par la méthode.

• Idée centrale = choisir une partition initiale des objets et déplacer les
objets d’une classe à l’autre pour obtenir une partition meilleure.

• Plusieurs algorithmes selon le choix de la partition initiale, la définition


de « meilleure partition » et selon la méthode utilisée pour améliorer la
partition.
55

Méthodes de classification
IW = ∑ Pi I i inertie intra classe G. Saporta

I B = ∑ Pd
i
2
( g i ; g ) inertie inter classe
Relation de Huyghens : I = IW + IB
x
x x

g1
x x
x
x x
x

x
g2 x

x
g

x
x x

gk
x
x
x

56

28
27/09/2017

Méthodes de classification

• Critère usuel chercher la


de classification = partition qui = maximise IB
minimise IW

Rque : k fixé, connu, il peut exister plusieurs partitions qui


minimise IW. On cherche celle à k classes.

• IW ne permet pas de comparer 2 partitions avec des


nombres de classes différents.
57

Méthodes de classification
Affectation des objets aux groupes
Méthode des centres mobiles (Forgy)
Etape 1
a) configuration initiale : C1(0) , C2(0) …. , Ck(0)
b) chaque individu i est affecté à une classe et une seule El(0) de centre Cl(0) telle que : soit
minimum en parcourant tous les centres C1(0) , C2(0) …. , Ck(0)
a la fin de cette étape on a k classes E1(0) , E2(0) …. , Ek(0)

Etape 2
a) On calcule les centres de gravité des classes précedentes : C1(1) , C2(1) …. , Ck(1)
b) chaque individu i est affecté à une classe et une seule El(1) de centre Cl(1) telle que : soit
minimum en parcourant tous les centres C1(1) , C2(1) …. , Ck(1)
a la fin de cette étape on a k classes E1(1) , E2(1) …. , Ek(1)

arrêt de la procédure :
– 2 étapes successives ne changent pas les classes
– le nombre d’itérations fixé est atteint
– la valeur du critère reste inchangée

58

29
27/09/2017

Méthodes de classification

• Remarque : formes fortes

• Problème : la partition finale dépend du nombre de


classes et du choix des centres initiaux

• Solution : appliquer l’algorithme sur s tirages


différents, croiser les s partitions pour obtenir une
partition dite en formes fortes ou regroupements
stables

• (formes fortes = ensembles d’éléments ayant


toujours été regroupés dans la partition finale pour
les s passages de l’algorithme).
59

Méthodes de classification
Méthodes hiérarchiques
• Elles consistent à fournir un ensemble de partitions de E en
classes de moins en moins fines par regroupements successifs de
parties.

• On obtient une hiérarchie représentée par un arbre de


classification ou dendrogramme.

• On associe au système de classes résultant une échelle de


niveau : à chaque partition on associe une valeur numérique
représentant le niveau auquel ont lieu les regroupements

• Différentes méthodes selon la stratégie de regroupement


60

30
27/09/2017

Méthodes de classification
Stratégies d’agrégation
le saut minimum ou Single Linkage dmin(A,B) = inf ( d(i,i’) ; i €A , i’€ B)

le diamètre Complete Linkage dmax(A,B) = sup ( d(i,i’) ; i €A , i’€ B)

Moyenne des distances Average Linkage dmoy(A,B) = ( d(i,i’) ; i €A , i’€ B)/( cardAcardB)

Méthode de Ward ou stratégie du moment d’inertie (Cas de distances euclidiennes):


dward = perte d’inertie inter résultant du regroupement dward(A,B) = (pApB/(pA+pB))d2(gA ,gB)

61

Méthodes de classification
Un exemple

a b c d e
a 0 3 7 3 4
b 3 0 4 4 1
c 7 4 0 2 6
d 3 4 2 0 1/2
e 4 1 6 ½ 0

G. Saporta 62

31
27/09/2017

Méthodes de classification
3 4.75
2
3.3
1
2.5
1/2
1/2
d e b c a
d e b a c

inf
moyenne

0.5

d e b a c

G. Saporta sup 63

Méthodes de classification
L’algorithme de l’ inf (Johnson) provoque
souvent un effet de chaîne

3
2
1

1/2

d e b c a

inf

G. Saporta

64

32
27/09/2017

Méthodes de classification
Classification mixte (SPAD)

Les algorithmes classiques sont plus ou moins adaptés à la


gestion d’un nombre importants d’objets à classer :
• partitionnement : ensemble volumineux à faible coût mais la
partition dépend des centres initiaux et du nombre de classes.
• hiérarchique : non adaptée aux vastes ensembles

D’où les algorithmes mixtes


* centres mobiles
* classification hiérarchique des groupes obtenus
* réaffectation par centres mobiles (consolidation)

65

Méthodes de classification
coupure de l’arbre : procédure parti
• les procédures produisent un arbre et un histogramme des niveaux
d’agrégation des classes.

• La coupure de l’arbre s’effectue au niveau d’un saut important de l’indice


(coude) on obtient ainsi une partition de bonne qualité

situation idéale situation plus délicate


****** ********
• ******** *********
• ****************** ***********
• ********************* *************
• Coude net pas de coude net
66

33
27/09/2017

Méthodes de classification
Interprétation des classes
Description des classes procédure decla (SPAD) Voirexemple
cette procédure fournit une caractérisation statistique automatique des
classes d’une partition :

• les éléments les plus significatifs sont recherchés dans l’ensemble


des données et rangés selon le critères des valeurs test (voir définition plus
loin)

• Decla fournit également les statistiques MOD/CLA et CLA/MOD


caractérisant la classe respectivement par le contenu et le contenant (voir
définitions plus loin)

67

34

You might also like