Professional Documents
Culture Documents
Introduction
L’analyse exploratoire multidimensionnelle désigne un ensemble de
méthodes permettant l’exploration, la description, la fouille de
grands tableaux de données décrivant un grand ensemble d’individus,
observations ou unités statistiques à travers un grand nombre de
variables, caractères ou attributs.
1
27/09/2017
Introduction
• Différentes méthodes selon la nature des variables:
• Cas d’un seul tableau de données (individus x variables, données de proximité non traitées)
• Les méthodes factorielles :
• ACP pour un tableau de p variables quantitatives
• AFC pour deux variables qualitatives
• ACM pour un tableau de p variables qualitatives
• Les méthodes de classification :
• Partitionnement direct en K (fixé a priori) classes
• Classification hiérarchique par succession de partitions emboitées en
classes
• De moins en moins fines – algorithmes agglomératifs classification
ascendante hiérarchique CAH
• De plus en plus fine – algorithmes divisifs
• Extension à plusieurs tableaux : multi blocs, tableaux multiples
• Extension à des données mixtes
• Classification de variables
27/09/2017 3
2
27/09/2017
3
27/09/2017
4
27/09/2017
Par contre en statistique: individus décrits par des variables exprimées dans des
unités particulières : euros, kg, km…
En théorie le choix de la distance dépend de l’utilisateur qui seul peut préciser celle qui est
adéquate.
distance euclidienne entre individus 1 et 2 =
(8-21) 2 + (300-2000) 2 = 132 + 17002 = 17002
néglige Q1
Diviser Q2 et Q3 par 100
(8-21) 2 + (3-20) 2 = 132 + 172 ré-équilibrage
10
5
27/09/2017
n n
I g = ∑ pi (ei − g )' M (ei − g ) = ∑ pi d 2 (ei , g )
i =1 i =1
11
pi d 2 (i, g )
xk
x
x
x
∑
g x
x
x
x2
= ∑Var( x j )
x1
Inertie=variance généralisée 12
6
27/09/2017
p
si ACP non normée I g = ∑ s 2j
j =1
(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables mais
uniquement de leur nombre)
13
7
27/09/2017
8
27/09/2017
9
27/09/2017
10
27/09/2017
Rappelons qu’on se limite au cas usuel de l’ACP normée ; la matrice des données
centrées réduites correspond donc à la matrice des corrélations
Le critère de maximisation s’écrit alors :
M ax u u 'V u = M ax u u ' R u avec uu =1
'
21
22
11
27/09/2017
12
27/09/2017
interne
phase d’interprétation des résultats:
externe
25
13
27/09/2017
14
27/09/2017
L’interprétation interne consiste à étudier les résultats en se basant sur les variables et
les individus actifs.
15
27/09/2017
r (c, X j ) = λ u j
On s’intéresse aux coefficients les plus forts en valeur absolue et
proches de 1. L’examen du cercle de corrélation permet de détecter
les éventuels groupes de variables qui se ressemblent ou au
contraire qui s’opposent donnant ainsi un sens aux axes principaux 31
32
16
27/09/2017
33
C T R ( i) > p i
Mais CTR (i) >> pi = facteur d’instabilité
effectuer l’analyse en l’éliminant puis le rajouter ensuite en élément
supplémentaire
( les poids sont tous égaux, les contributions n’apportent pas plus d’information que les coordonnées)
34
17
27/09/2017
Principegénéral
Principe général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- variables qualitatives
cas de variables qualitatives : représentation de
chaque modalité par son centre de gravité. Certains
logiciels fournissent des aides à l’interprétation :
les valeurs-test
mesures de l’éloignement du point représentatif d’une modalité par
rapport à l’origine dont le but est la mise en évidence d’une position
significativement excentrée d’un sous groupe d’individus.
Une modalité sera considérée comme significative
d’un axe si la valeur-test qui lui est associée est
supérieure en valeur absolue à 2.
18
27/09/2017
Principe
Principegénéral
général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- individus
Cas des individus supplémentaires :
EXEMPLE
38
19
27/09/2017
Principe
Principegénéral
général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- individus
Cas des individus supplémentaires :
EXEMPLE
Principe
Principegénéral
général de l’analyse
l’analysefactorielle
factorielle
interprétation interne AFC – ACM Modalités
• Pas de cercle de corrélation en analyse des correspondance
• Représentation sur les axes principaux des coordonnées
(barycentriques) des modalités des variables qualitatives.
• Les modalités dont les contributions aux inerties des axes
les plus importantes et supérieures à leur poids donnent
les significations des axes, les signes des coordonnées
permettent de voir si ces contributions sont opposées ou
dans le même sens (c’est une différence importante par rapport à l’ACP)
• On y ajoute les cosinus carrés mesure de qualité locale
20
27/09/2017
3Principe généraldes
Interprétation de l’analyse
résultatsfactorielle
d’une AFC
interprétation interne – AFC Modalités
• a et b coordonnées des profils ligne – profils colonnes
les contributions des catégories aux inerties des axes
1m 1
on a : a’(D1/n)a = λ = ∑ ni.ai2
n i=1
1m 2
b’(D2/n)b = λ = ∑ n. j bj2
n j =1
ni.
• Critère: retenir CTR(i) > (poids de i)
n
42
21
27/09/2017
43
44
22
27/09/2017
Effectif de la catégorie j
a- d’une modalité :
1 1 ∑m i
μ= a'Da = ∑ nj (aj )2
np np j=1 Coordonnée de la catégorie
j sur l’axe
nj
(aj )2
np Modalités intéressantes:
CTR( j) = CTR(j) > poids = nj/np
μ
45
mi
1 m nj
i
46
23
27/09/2017
nj 1 n
Inertie d’une catégorie = I(j) = d 2 (j,g) = (1- j )
np p n
Contribution de la variable i:
48
24
27/09/2017
Significative si
n -1
v-test = aj nj supérieure à 2
n - nj pour un seuil
5%
49
50
25
27/09/2017
Méthodes de classification
Analyse descriptive des données
réduction du réduction du
nombre de variables nombre
d’individus
Méthodes de classification
2 types de méthodes
• Méthodes de • Méthodes
partitionnement : hiérarchiques :
une partition en un suite de partitions
nombre fixe de classes emboitées
a b c d e
52
26
27/09/2017
Méthodes de classification
53
Méthodes de classification
• Réaliser une classification nécessite :
- Un ensemble d’individus à classer
- Définir une distance entre individus : d(x , y)
« choix d’un critère de classification »
- Définir une distance entre groupes : D(X ,Y)
« choix d’une stratégie d’agrégation »
27
27/09/2017
Méthodes de classification
• Idée centrale = choisir une partition initiale des objets et déplacer les
objets d’une classe à l’autre pour obtenir une partition meilleure.
Méthodes de classification
IW = ∑ Pi I i inertie intra classe G. Saporta
I B = ∑ Pd
i
2
( g i ; g ) inertie inter classe
Relation de Huyghens : I = IW + IB
x
x x
g1
x x
x
x x
x
x
g2 x
x
g
x
x x
gk
x
x
x
56
28
27/09/2017
Méthodes de classification
Méthodes de classification
Affectation des objets aux groupes
Méthode des centres mobiles (Forgy)
Etape 1
a) configuration initiale : C1(0) , C2(0) …. , Ck(0)
b) chaque individu i est affecté à une classe et une seule El(0) de centre Cl(0) telle que : soit
minimum en parcourant tous les centres C1(0) , C2(0) …. , Ck(0)
a la fin de cette étape on a k classes E1(0) , E2(0) …. , Ek(0)
Etape 2
a) On calcule les centres de gravité des classes précedentes : C1(1) , C2(1) …. , Ck(1)
b) chaque individu i est affecté à une classe et une seule El(1) de centre Cl(1) telle que : soit
minimum en parcourant tous les centres C1(1) , C2(1) …. , Ck(1)
a la fin de cette étape on a k classes E1(1) , E2(1) …. , Ek(1)
arrêt de la procédure :
– 2 étapes successives ne changent pas les classes
– le nombre d’itérations fixé est atteint
– la valeur du critère reste inchangée
58
29
27/09/2017
Méthodes de classification
Méthodes de classification
Méthodes hiérarchiques
• Elles consistent à fournir un ensemble de partitions de E en
classes de moins en moins fines par regroupements successifs de
parties.
30
27/09/2017
Méthodes de classification
Stratégies d’agrégation
le saut minimum ou Single Linkage dmin(A,B) = inf ( d(i,i’) ; i €A , i’€ B)
Moyenne des distances Average Linkage dmoy(A,B) = ( d(i,i’) ; i €A , i’€ B)/( cardAcardB)
61
Méthodes de classification
Un exemple
a b c d e
a 0 3 7 3 4
b 3 0 4 4 1
c 7 4 0 2 6
d 3 4 2 0 1/2
e 4 1 6 ½ 0
G. Saporta 62
31
27/09/2017
Méthodes de classification
3 4.75
2
3.3
1
2.5
1/2
1/2
d e b c a
d e b a c
inf
moyenne
0.5
d e b a c
G. Saporta sup 63
Méthodes de classification
L’algorithme de l’ inf (Johnson) provoque
souvent un effet de chaîne
3
2
1
1/2
d e b c a
inf
G. Saporta
64
32
27/09/2017
Méthodes de classification
Classification mixte (SPAD)
65
Méthodes de classification
coupure de l’arbre : procédure parti
• les procédures produisent un arbre et un histogramme des niveaux
d’agrégation des classes.
33
27/09/2017
Méthodes de classification
Interprétation des classes
Description des classes procédure decla (SPAD) Voirexemple
cette procédure fournit une caractérisation statistique automatique des
classes d’une partition :
67
34