You are on page 1of 456

Ludovic Lebart Alain Morineau

Marie Piron
Statistique exploratoire
multidimensionnelle
DUNOD
Ludovic Lebart
C.N.R.S.,
cole nationale suprieure
des tlcommunications
Alain Morineau
Centre international de statistique
et d'informatique appliques
ClSIA
Marie Piron
Institut franais de recherche scientifique
pour le dveloppement en coopration,
ORSrOM
Statistique exploratoire
multidimensionnelle
DLINOD
Ce piclogramme mrile une explico- menh d'enseignemenl suprieur, provo
tian. Son objel e,t d'olerler le leeleur quont une baisse brutale de, achat, de
,ur la menaCe que reprit,enle pour livre, el de revue" ou point que la poi.
l'avenir de l'cril, particulire bilil mme pour le, auteurs de
meni dan, le domaine de l'di DANGER crer de, uvre' nouvelle, el
lion technique el universiloire, de le, foire diler coueelement
le dveloppement moif du e,t aujourd'hui menace.
photo<opillage. Nou, rappelons donc que
le Code de la proprit inlel- Ioule reproduction, partielle ou
lectuelle du 1er juillet 1992 lolole, de la pr,enle publico-
inlerdit en effet expressmenl la lion e,t interdile ,an, oulori,o
photocopie u,oge colleclif ,on, outori lion du Cenlre fronai' d'exploilolion du
,ation de, oyonl' droil. Or, cene pra- drail de copie (CfC, 3 rue Houleleuille,
tique ,e,tgnroli'e dan, le, tablisse- 75006 Pori').
Dunod, Paris, 1995
ISBN 2 10 002886 3
Toute reprsentation ou reproduction, intgrale ou partielle, faite sans le
consentement de l'auteur, ou de ses ayanlS droit, ou ayants cause, est
illicite (loi du 11 mars 1957, alina 1er de l'article 40). Celle
reprsentation ou reproduction, par quelque procd que ce soit,
constituerait une conlrefaon sanctionne par les articles 425 et suivants
du Code pnal. La loi du Il mars 1957 n'autorise, aux tennes des alinas
2 et 3 de l'article 41, que les copies ou reproductions strictement
rserves l'usage priv du copiste et non destines une utilisation
collective d'une part, et d'autre part, que les analyses et les courtes
citations dans un but d'exemple el d'illustration.
Cet ouvrage est ddi la mmoire de Brigitte Escalier
AVANT-PROPOS
Cet ouvrage s'adresse aux praticiens, scientifiques et tudiants de toutes
disciplines qui ont analyser et traiter de grands ensembles de donnes
multidimensionnelles, c'est--dire finalement des recueils de donnes
statistiques se prsentant, totalement ou partiellement, sous forme de
tablea ux rectangulaires.
Le domaine d'application, limit au dpart aux sciences de la vie (biomtrie,
agronomie, cologie) et aux sciences humaines (psychomtrie, socio-
conomie), ne cesse de s'tendre car les possibilits offertes par les outils de
traitement suscitent de nouveaux recueils de mesures. Les applications
industrielles se dveloppent rapidement et le contrle de qualit, l'analyse
des processus de production, la veille technologique, la recherche
documentaire font de plus en plus appel des ensembles de mesures
multidimensionnelles.
On a tent de faire le point sur les dveloppements rcents de la statistique
exploratoire multidimensionnelle en continuit avec un ouvrage
prcdent
1
dont on reprend d'ailleurs, en les dveloppant, certains
chapitres. On s'est ainsi efforc d'intgrer la substance de plusieurs
centaines de publications (dont celles des auteurs) sur le thme de ce
prcdent travail.
Comme toujours pour ce type d'ouvrage qui s'adresse simultanment des
praticiens et des chercheurs de disciplines diverses, plusieurs lectures
devraient tre possibles selon les connaissances du lecteur notamment en
mathmatique et statistique: une lecture pratique, d'utilisateur, pour les
personnes spcialises dans les divers domaines d'application actuels et
potentiels; une lecture plus technique, complte, pour une personne ayant
une formation en mathmatiques appliques et en statistique.
1 Tec/mique de la description statistique, (L.Lebart, A. Morineau, N. Tabard) Dunod,
1977.
VI Statistique exploratoire multidimensionnelle
La statistique exploratoire multidimensionnelle se prolonge naturellement
et se diversifie en des outils et des modles videmment plus complexes
que les mthodes de base. Mais l'essentiel des applications relvent en fait
de la partie la plus accessible. On a fait preuve d'une grande parcimonie
dans l'utilisation de l'outil mathmatique: le niveau d'abstraction choisi
est toujours le niveau minimal compatible avec une prsentation exacte, et
la communication a t favorise au dtriment de la gnralisation. Les
lecteurs mathmaticiens sauront sans difficult introduire les notions qui
permettent des formulations plus lgantes.
L'ensemble doit beaucoup des collaborations et des cadres de travail
divers: au sein du dpartement Economie et Management, de l'Ecole
Nationale Suprieure des Tlcommunications et de l'URA82 du Centre
National de la Recherche Scientifique (URA: Traitement et
Communication de l'Information, dirige par Jean-Pierre Tubach) ; au sein
du Centre International de Statistique et d'Informatique Appliques
(CISIA), du Centre d'Etude de l'Emploi et de l'Institut franais de recherche
scientifique pour le dveloppement en coopration (ORSTOM).
Nous remercions galement les autres collgues, chercheurs ou professeurs
auprs desquels nous avons puis collaboration et soutien, ou simplement
eu d'intressants dbats ou discussions, ou encore accs des documents.
Citons, sans tre exhaustif, Mireille Bardos, Laurent Benzoni, Abdelhalim
Bouamaine, Bernard Burtschy, Pierre Cazes, Frderic Chateau, Jean-Pierre
Fnelon, Christian Mullon, Jrme Pags, Andr Salem, Michel
Tenenhaus, Gilbert Saporta et Wenhua Zhu.
Nous sommes heureux d'adresser ici nos remerciements Gisle Maus et
Jean-Marc Quilb, des ditions Dunod, pour l'accueil qu'ils ont rserv
cet ouvrage.
L. L., A. M., M. P.
Paris, Juillet 1995
Sommaire
Introduction gnrale
Chapitre 1
MTHODES FACTORIELLES
Introduction
Section 1.1 : Analyse gnrale,
dcomposition aux valeurs singulires
1.1.1 Notions lmentaires et principe d'ajustement
1.1.2 Ajustement du nuage des individus
a- Droites d'ajustement
b Caractristiques du sous-espace d'ajustement
1.1.3 Ajustement du nuage des variables
1.1.4 Relation entre les ajustements dans les deux espaces
1.1.5 Reconstitution des donnes de dpart
a Reconstitution exacte
b- Reconstitution approche
c- Qualit de l'approximation
1.1.6 Diversification de l'analyse gnrale
a- Analyse gnrale avec des mtriques
et des critres quelconques
b- Principe des lments supplmentaires
c- Autres approches
1.1.7 Annexe 1 - Dmonstration sur les extrema
de formes quadratiques sous contraintes quadratiques
Section 1.2 : Analyse en Composantes Principales
1.2.1 Domaine d'application
1.2.2 Interprtations gomtriques
a- Pour les n individus
b- Pour les p variables
1.2.3 Analyse du nuage des individus
a- Principe d'ajustement
b- Distance entre individus
c- Matrice diagonaliser
d- Axes factoriels
1.2.4 Analyse du nuage des points-variables
a- distances entre points-variables
b- Distance l'origine
c- Axes factoriels ou composantes principales
1
13
15
15
17
17
19
19
20
22
22
23
24
24
24
27
28
29
32
32
33
33
34
34
34
36
37
37
38
38
39
41
VJll Statistique exploratoire multidimensionnelle
1.2.5
1.2.6
1.2.7
1.2.8
1.2.9
1.2.10
1.2.11
Individus et variables supplmentaires
a- Individus supplmentaires
b- Variables continues supplmentaires
c- Variables nominales supplmentaires
Reprsentation simultane
a- Reprsentation spare des deux nuages
b- Justification d'une reprsentation simultane
Analyse en composantes principales non norme
a- Principe de l'analyse et nuage des individus
b- Nuage des variables
Analyses non-paramtriques
a- Analyse des rangs
b- Analyse en composantes robustes
Aperu sur les autres mthodes drives
Elments pour l'interprtation
a- Inertie lie aux facteurs
b- Aides l'interprtation
Exemple d'application
42
43
43
43
45
45
46
48
49
50
51
51
52
53
53
54
55
57
Section 1.3 : Analyse des correspondances
1.3.1 Domaine d'application
1.3.2 Dmarche et principe; une introduction lmentaire
a- Transformations du tableau de contingence
b- Hypothse d'indpendance
c- Construction des nuages
d- Critre d'ajustement
e- Choix des distances
f- Equivalence distribu tionnelle
g- Relations de transition ou pseudo-barycentriques
h- Justification de la reprsentation simultane
1.3.3 Schma gnral de l'analyse des correspondances
a- Gomtrie des nuages et lments de base
b- Critre maximiser et matrice il diagonaliser
c- Axes factoriels et facteurs
d- Relation entre les deux espaces
e- Relations de transition
f- Reprsentation simultane
g- Autre prsentation de J'analyse des correspondances
h- Formule de reconstitution des donnes
1.3.4 Rgles d'interprtation; inertie, formes de nuages
a- Inertie et test d'indpendance
b- Quelques formes caractristiques de nuages de points
1.3.5 Rgles d'interprtation: contributions et cosinus
a- Contributions
b- Cosinus carrs
c- Exemple numrique
1.3.6 Elments supplmentaires
67
67
68
69
70
71
72
73
74
75
78
79
79
82
84
84
85
86
87
89
89
89
92
94
94
95
97
99
Sommaire IX
1.3.7 Mise en uvre des calculs
a- Analyse par rapport l'origine
ou au centre de gravit du nuage
b- Symtrisation de la matrice diagonaliser
1.3.8 Exemple d'application
100
100
102
103
1.4.8
1.4.5
1.4.3
1.4.4
108
108
109
110
110
III
113
114
114
115
117
117
118
119
120
121
122
123
125
126
127
130
131
132
135
Section 1.4 : Analyse des correspondances multiples
1.4.1 Domaine d'application
1.4.2 Notations et dfinitions
a- Hypercube de contingence
b- Tableau disjonctif complet
c- Tableau des faces de l'hypercube de contingence
ou tableau de contingence de Burt
Principes de l'analyse des correspondances multiples
a- Critre d'ajustement et distance du X2
b- Axes factoriels et facteurs
c- Facteurs et relations pseudo-barycentriques
d- Sous-nuage des modalits d'une mme variable
e- Support du nuage des modalits
f- Meilleure reprsentation simultane
g- Inertie du nuage des modalits et consquences pratiques
h- Rgles d'interprtation
i- Principes du dcoupage en classes
Elments supplmentaires
a- Valeurs-test pour les modalits supplmentaires
b- Variables continues supplmentaires
Analyse du tableau de contingence de Burt:
quivalence avec l'analyse du tableau disjonctif complet
Cas de deux questions
Cas particuliers
a- Toutes les questions ont deux modalits
b- Sous-tableau d'un tableau de correspondances multiples
Exemple d'application numrique
1.4.6
1.4.7
Chapitre 2
QUELQUES MTHODES DE CLASSIFICATION
Introduction 145
Section 2.1 : Agrgation autour des centres mobiles
2.1.1 Bases thoriques de l'algorithme
2.1.2 Justification lmentaire de l'algorithme
2.1.3 Techniques connexes
2.1.4 Formes fortes et groupements stables
148
148
150
151
152
x Statistique exploratoire multidimensionnelle
155
155
156
156
157
159
159
159
161
163
164
165
165
166
167
168
170
171
172
173
173
174
175
Critre d'agrgation selon la variance
a- Notations et principe
b- Perte d'inertie par agrgation de deux lments:
le critre de Ward gnralis
Algorithme de recherche en chane des voisins rciproques
a Algorithme
b- Critre de la mdiane
Exemple numrique d'application
a- Classification des lignes (professions)
b- Classification des colonnes (mdias)
2.2.2
Section 2.2 : Classification hirarchique
2.2.1 Principe
a- Distances entre lments et entre groupes
b Algorithme de classification
c- Elments de vocabulaire
Classification ascendante selon le saut minimal et arbre
de longueur minimale
a- Dfinition d'une ultramtrique
b quivalence entre ultramtrique et hirarchie indice
c- L'ultramtrique sous dominante
d- Arbre de longueur minimale: dfinition et gnralits
e- Arbre de longueur minimale: algorithme de Kruskal
f Arbre de longueur minimale: algorithme de Prim
g- Arbre de longueur minimale: algorithme de Florek et Soli in
h- Lien entre l'arbre et le saut minimal
2.2.4
2.2.5
2.2.3
Section 2.3 : Classification mixte
et description statistique des classes 177
2.3.1 Stratgie de classification mixte 177
a- Les tapes de l'algorithme 177
b Choix du nombre de classes par coupure de l'arbre 179
c- Procdure de consolidation 180
2.3.2 Description statistique des classes 181
a- Valeurs-test pour les variables continues 181
b Valeurs-test pour les variables nominales 182
c- Variables caractristiques d'une classe 184
Section 2.4: Complmentarit entre analyse factorielle
et classification 185
2.4.1 Utilisation conjointe de l'analyse factorielle 185
a- Ncessit... et insuffisance des mthodes factorielles 185
b- Mise en uvre pratique dans le cas de la classification mixte 187
c- Autres aspects de la complmentarit 189
2.4.2 Aspects techniques et thoriques de la complmentarit 189
a- Classification des lignes ou colonnes d'un tableau de contingence 189
b- Un exemple de concidence entre les deux approches 190
Sommaire
2.4.3 Valeurs propres et indices de niveau
a- Quelques ingalits
b- Le cas des tables de contingence structures par blocs
c- Une tude empirique du lien entre valeurs propres et indices
2.4.4 La complmentarit en pratique: un exemple
a- Les tapes
b- L'espace des variables actives
c- Exemples de description automatique de trois classes
d- Projection de variables signaltiques (en supplmentaires)
Chapitre 3
LIENS AVEC
LES MTHODES EXPLICATIVES USUELLES,
MTHODES DRIVES
Introduction
Section 3.1 : Analyse canonique
3.1.1 Formulation du problme et notations
3.1.2 Les variables canoniques
a- Calcul des variables canoniques
b- Interprtation gomtrique
c- Cas de matrices non inversibles
3.1.3 Liens avec l'analyse des correspondances
a- Le cas de l'analyse des correspondances simples
b- L'analyse des correspondances multiples
Section 3.2 : Rgression multiple, modle linaire
3.2.1 Fonnulation du problme: le modle linaire
3.2.2 Ajustement par la mthode des moindres-carrs
a Calcul et proprits de l'ajustement des moindres-carrs
b- Approche gomtrique
c- Le coefficient de corrlation multiple
3.2.3 Lien avec l'analyse canonique
3.2.4 Qualit de l'ajustement
a- Spcification du modle
b- Moyenne et variance des coefficients
c- Tests sous l'hypothse de normalit des rsidus
3.2.5 Rgression rgularise
a- Principe de la rgression rgularise
b- Variables supplmentaires et rgression
c- Expression des coefficients dans la nouvelle base
3.2.6 Rgression sur variables nominales: analyse de la variance
a- Codage des variables nominales
XI
194
194
195
195
199
200
202
202
205
209
213
213
215
215
217
218
219
219
220
223
223
225
226
227
228
229
230
230
231
231
233
234
236
236
237
238
XII Statistique exploratoire multidimensionnelle
b- Modle linaire sans interaction
c- Modle linaire avec interaction
3.2.7 Rgression sur variables mixtes: analyse de la covariance
a- Modles d'analyse de la covariance
b- Test d'un effet diffrenci de x dans chaque classe k
c- Test de l'effet de la variable u
d- Test d'un "effet classe global"
e- Gnralisation de l'analyse de la covariance
3.2.8 Choix des variables, gnralisations du modle
a- Slection et choix des variables explicatives
b- Modles linaires gnraliss
3.2.9 Modles de variables latentes
a- Le modle
b- Estimation des paramtres inconnus
239
240
241
242
243
243
243
244
244
244
245
246
247
249
Section 3.3 : Analyse factorielle discriminante 251
3.3.1 Formulation du problme et notations 251
3.3.2 Fonctions linaires discriminantes 253
a- Dcomposition de la matrice de covariance 254
b- Calcul des fonctions linaires discriminantes 255
c- Diagonalisation d'une matrice symtrique 256
3.3.3 Cas de deux classes: quivalence avec la rgression multiple 257
3.3.4 Lien avec d'autres mthodes 259
a- L'analyse canonique 259
b- L'analyse des correspondances 260
c- Une analyse en axes principaux avec une mtrique particulire 262
3.3.5 Principes des rgles d'affectation (ou de classement) 263
a- Le modle baysien d'affectation 264
b- Le modle baysien dans le cas normal 265
c- Autres rgles d'affectation 266
d- Qualit des rgles de classement 268
3.3.6 Rgularisation en analyse discriminante 269
a- Analyse rgularise de Friedman 270
b- Analyse rgularise par axes principaux 270
3.3.7 Discrimination sur variables nominales 275
a- Analyse factorielle discriminante qualitative 275
b- Analyse discriminante barycentrique 276
c- Note sur le "scoring" 276
3.3.8 Discrimination et rseaux de neurones 277
a- Schma et modle du perceptIOn multi-couches 278
b- Modles non-superviss ou auto-organiss 280
c- Statistique et mthodes neuronales 282
Section 3.4 : Modles log-linaires 284
3.4.1 Formulation du problme et principes de base 284
3.4.2 Ajustement d'un modle log-linaire 285
Sommaire
a- Tableau de contingence deux entres
b- Tableau de contingence p entres
c- modles hirarchiques
3.4.3 Estimation et tests d'ajustement du modle
a- Estimation des paramtres
b- Tests d'ajustement
c- Choix du modle
3.4.4 La rgression logistique
a- Le modle logistique
b- Estimation et tests des coefficients
c- Comparaison de deux modles
d- Modle avec interaction
3.4.5 Modles log-linaire et analyse des correspondances
a- Des champs d'application diffrents
b- Liens thoriques entre l'analyse des correspondances
et les modles log-linaires
c- Difficults de l'articulation exploration-infrence
Section 3.5 : Segmentation
3.5.1 Formulation du problme, principe et vocabulaire
3.5.2 Construction d'un arbre de dcision binaire
a- Algorithme gnral de segmentation
b- Cas de la rgression
c- Cas de la discrimination
3.5.3 Slection du "meilleur sous-arbre"
a- Procdures de slection
b- Estimation de l'Erreur Thorique de Prvision
c- Estimation du Taux d'Erreur Thorique de classement
3.5.4 Divisions qui-rductrices et qui-divisantes
a- Divisions qui-rductrices
b- Divisions qui-divisantes
3.5.5 Lien avec les mthodes de classement
Section 3.6 : Analyses partielles et projetes
3.6.1 Dfinition du coefficient de corrlation partielle
3.6.2 Calcul des covariances et corrlations partielles
a- Cas de deux variables
b- Cas de p variables (X) et de q variables (Z)
3.6.3 Analyse du nuage rsiduel ou analyse partielle
3.6.4 Autres analyses partielles ou projetes
a- Analyse canonique des correspondances
b- Analyse non-symtrique des correspondances
Section 3.7 : Structures de graphe, analyses locales
3.7.1 Variance locale et covariance locale d'une variable
XIII
285
286
287
288
288
289
289
290
291
293
294
294
295
295
298
298
300
302
303
304
304
306
309
312
313
314
314
316
316
316
317
319
319
320
320
321
322
323
324
325
327
328
XN Statistique exploratoire multidimellsiOllllelle
3.7.2
3.7.3
3.7.4
3.7.5
3.7.6
Coefficient de contigut de Geary
Analyse locale
Analyse de contigut et projections rvlatrices
a- Analyse de contigut
b- Reprsentation de groupes par projection
c- Liens avec les analyses partielles
Extensions, gnralisations, applications
Cas particuliers: Structure de partition
a- Analyse inter-classes
b- Analyse intra-classes
329
331
331
331
332
333
334
335
335
336
Section 3.8 : Tableaux multiples, groupes de variables
3.8.1 Quelques travaux de rfrence
3.8.2 Analyses procrustennes
a- Analyse procrustenne orthogonale
b- Analyse procrustenne sans contrainte
c- Formulaire de quelques mthodes d'analyse
3.8.3 Mthode STATIS
a- Notations
b- Comparaison globale entre les tableaux: l'interstructure
c- Le nuage moyen ou compromis: l' intrastructure
d- Reprsentation simultane des nuages partiels:
les trajectoires
3.8.4 Analyse factorielle multiple
a- Une analyse en composantes principales pondre
b- Recherche de facteurs communs (intrastructures)
c- Reprsentation des groupes de variables (interstructure)
d- Reprsentations superposes des nuages partiels
des groupes actifs (trajectoires)
3.8.5 Analyse canonique gnralise
a- Formulation gnrale
b- Proprits de l'Analyse Canonique Gnralise
c- Utilisation en pratique de l'analyse canonique gnralise
Chapitre 4
VALIDIT ET PORTE DES RSULTATS
Introduction
Section 4.1 : Signification des valeurs propres
et des taux d'inertie
4.1.1 Travaux sur la loi des valeurs propres
4.1.2 Approximation de la distribution des valeurs propres
en analyse des correspondances
337
337
339
339
341
341
342
342
342
343
344
344
344
345
346
346
347
348
349
352
357
359
359
361
Sommaire xv
4.1.3
4.1.4
4.1.5
4.1.6
Indpendance des taux d'inertie et de la trace
Exemples d'abaques et tables statistiques
Taux d'inertie et information
a- Caractre partiel des taux d'inertie
b- Quelle infonnation?
Choix du nombre d'axes: quelques rsultats utiles
a- Rgles empiriques
b- Procdures externes
c- Critres de choix statistiques, rsultats asymptotiques
364
366
368
368
371
373
374
374
375
Section 4.2 : Stabilit des axes, des formes, des classes
4.2.1 Mthodes de validation empiriques
a- Calculs de stabilit et de sensibilit
b- Epreuves empiriques de stabilit
4.2.2 Mthodes de rchantillonnage
a- Technique de Jackknife
b- Technique de Bootstrap
c- Validation croise
4.2.3 Zones de confiance, zones de garde
a- Zones de confiance tablies par bootstrap
b- Autres types de simulation bootstrap
c- Zones de gilrde en analyse des correspondances
d - Autres rgions de confiances
4.2.4 Nombre de classes et validation des classifications
a- L'hypothse d'absence de structure, les modles
b- Combien de classes retenir ?
c- Les critres externes
Rfrences bibliographiques
Index des auteurs
Index des matires
379
379
379
382
385
385
387
388
389
389
392
396
398
399
400
402
404
405
429
434
Introduction
La statistique descriptive permet de reprsenter de faon vivante et
assimilable des informations statistiques en les simplifiant et les
schmatisant. La statistique descriptive multidimensionnelle en est la
gnralisation naturelle lorsque ces informations concernent plusieurs
variables ou dimensions.
Mais le passage au multidimensionnel induit un changement qualitatif
important. On ne dit pas en effet que des microscopes ou des appareils
radiographiques sont des instruments de description, mais bien des
instruments d'observation ou d'exploration, et aussi de recherche. La ralit
multidimensionnelle n'est pas seulement simplifie parce que complexe,
mais aussi explore parce que cache.
Le travail de prparation et de codage des donnes, les rgles
d'interprtation et de validation des reprsentations fournies par les
techniques utilises dans le cas multidimensionnel n'ont pas la simplicit
rencontre avec la statistique descriptive lmentaire. Il ne s'agit pas
seulement de prsenter mais d'analyser, de dcouvrir, parfois de vrifier et
prouver, ventuellement de mettre l'preuve certaines hypothses.
C'est pourquoi nous avons choisi de parler dans cet ouvrage de statistique
exploratoire multidimensionnelle.
La statistique et l'infonnatique
Ne au tout dbut du vingtime sicle, notamment la suite des travaux du
prcurseur l'astronome Qutelet et des dmographes et biomtriciens
Galton, Pearson, puis Fisher, la science statistique aura manipul des
chiffres pendant un demi-sicle sans disposer de vritables outils de calcul.
Les appareils que l'on trouve maintenant dans la poche des coliers et dans
tous les bureaux auraient combl les aspirations les plus insenses des
statisticiens jusqu'en 1960. "Il est impensable d'utiliser des mthodes
conues avant l'avnement de l'ordinateur, il faut compltement rcrire la
statistique", crivait en substance Jean-Paul Benzcri ds 1965 dans son cours
la Sorbonne sur l'Analyse des donnes et la reconnaissance des formes.
Cet auteur, qui a profondment marqu le dveloppement des recherches
statistiques au cours des annes rcentes, prconise aussi, de manire un
peu provocante pour une discipline o la notion de modle a jou un rle
central: "le modle doit suivre les donnes et non l'inverse".
2 Statistique exploratoire multidimensionnelle
Aux tats-Unis, John Tukey, le fondateur du courant dsign par
Exploratory Data Analysis (EDA), a une attitude aussi radicale (cf. Mallows
et Tukey, 1982). Il s'en faut cependant de beaucoup que ces deux pionniers
aient t unanimement entendus. A dfaut d'tre repense, la statistique
s'est cependant considrablement enrichie. La priode rcente a connu des
changements tout fait notables du fait de la diffusion des moyens de
calcul: les outils existants ont t amliors, de nouveaux outils sont
apparus, de nouveaux domaines d'application ont t explors.
Meilleurs graphiques
L'informatique, surtout la micro-informatique, a rendu familiers tous les
outils graphiques de la statistique descriptive lmentaire. Autrefois fruits
d'un travail laborieux et coteux, ces reprsentations sont immdiatement
accessibles dans pratiquement tous les logiciels intgrs. Les techniques de
statistique exploratoire multidimensionnelle mettent profit ces interfaces
graphiques pour reprsenter, par exemple, les espaces factoriels et les arbres
de classification: c'est l l'une de leurs fonctions iconographiques qui
gnralise effectivement la statistique descriptive usuelle au cas de variables
nombreuses.
Dsutude des tables statistiques
Classiquement, pour savoir si une quantit, dont la distribution est connue,
ne dpasse pas les limites que lui assignent certaines hypothses, on
consultait la table donnant les valeurs que cette quantit ne dpassera que
dans 5% ou 1% des cas. Le choix de seuils tait impos par la ncessit de
limiter le volume des tables. A partir du moment o la quantit tester est
elle-mme calcule sur ordinateur, il est facile d'adjoindre au programme
une procdure de calcul de la probabilit de dpassement de la valeur
calcule. On gagne en confort, mais aussi en performance, car on pourra
dsormais comparer et trier des statistiques diffrentes grce aux probabilits
de dpassement, comme celles lies aux tests fishriens, voqus au
paragraphe suivant (au del de la thorie classique des tests).
Emphase sur la robustesse, le non-paramtrique
La mise en uvre de la plupart des procdures infrentielles classiques est
hypothque par la pertinence des hypothses techniques
1
et par la
sensibilit ventuelle des rsultats la non-vrification de ces hypothses.
1 Contrairement aux hypothses gnrales qui sont les hypothses d'ordre scientifique
qui rgissent l'tude d'un phnomne, et qui prcdent la phase d'observation ou
d'exprimentation statistique, les hypothses techniques interviennent dans la mise en
uvre pratique des mthodes statistiques. Elles concernent principalement la
spcification des modles et des distributions statistiques impliques dans ces
modles. Certaines hypothses techniques n'ont aucun lien avec les hypothses
gnrales, mais sont au contraire des exigences du modle utilis (exemple: les rsidus
sont indpendants et suivent une loi nonnale dont la matrice des covariances doit tre
spcifie dans le cas de la rgression linaire multiple).
Introduction 3
L'un des principaux obstacles l'utilisation d'estimateurs robustes, c'est--
dire peu sensibles la prsence de points aberrants (vis--vis des
distributions tudies), tait la difficult des calculs mettre en uvre. La
plupart des panoplies existantes se sont donc enrichies de procdures plus
robustes ds l'apparition de moyens de calcul plus puissants. Pour des
raisons analogues, les techniques non-paramtriques qui s'affranchissent
des hypothses les plus lourdes ont connu un regain d'intrt, comme ce ft
le cas des techniques non-paramtriques de discrimination.
Les test "Fishriens", ou tests de permutation
1
, connaissent galement un
renouveau important. Les hypothses statistiques sont prouves par
permutations alatoires de l'ensemble fini des observations effectivement
disponibles: il y aura donc concidence entre les distributions marginales
thoriques et observes. Seul l'obstacle du calcul pouvait faire carter des
techniques fondes sur des hypothses qui pousent aussi troitement la
ralit. Mais les habitudes des praticiens (et aussi le cot de formation, la
matrise des mthodes) sont telles qu'on ne peut attendre une substitution
rapide des outils.
Taille et complexit des problmes
Il n'est pas rare maintenant de traiter des tableaux correspondant des
milliers d'observations et des centaines de variables. Bien sr, les donnes
les plus volumineuses et les plus complexes ont pu tre abordes l'aide
d'outils prexistants. Mais trs vite, l'adage: "c'est l'chelle qui fait le
phnomne" s'est trouv vrifi. Le changement d'chelle du volume des
donnes a rapidement conduit modifier les outils eux-mmes et
imaginer de nouveaux outils dans le cadre de nouvelles approches.
Mthodes algorithmiques
La leve de l'obstacle du calcul a eu pour effet de diffuser l'emploi des
techniques de type algorithmique, au premier rang desquelles se trouvent
les techniques de classification automatique et les mthodes impliquant des
algorithmes coteux (comme les diagonalisations de matrices par exemple).
D'autres techniques, comme les techniques de slection pas--pas, les
techniques d'estimation par la mthode du maximum de vraisemblance, de
programmation dynamique, connaissent des utilisations de plus en plus
frquentes.
Traitement des variables qualitatives
L'tude statistique des variables qualitatives est par nature plus complexe
que celle des variables numriques continues, qui s'appuie gnralement
sur la loi normale et sur les formalismes simples qui en drivent
(maximum de vraisemblance, moindres carrs, par exemple). li n'est donc
pas tonnant que les possibilits de calcul aient permis de fortes avances
1 Cf. sur les tests dits "exacts" : Mehta et al. (1991), Agresti (1992), Good (1994).
4 Statistique exploratoire multidimensionnelle
dans ce domaine: analyse des correspondances simples et multiples dans le
cas descriptif, modles log-linaires, modles logistiques dans le cas
infrentie!.
Mthodes de validation
Les techniques de simulation (ou de Monte-Carlo) connaissent des
applications grande chelle dans tous les domaines o les hypothses
distributionnelles usuelles sont inadaptes. La simulation permet de
construire de l'infrence "sur-mesure" en combinant des sources, des
formes et des niveaux de variabilit dans des processus complexes dont la
formalisation est rigoureusement impossible. Mais le sur-mesure est plus
coteux que le prt--porter.
Les techniques de rchantillonnage telle que les techniques de "Jackknife"
(la variabilit est tudie en procdant des prlvements sans remise dans
l'chantillon) et de "Bootstrap" (la variabilit est tudie en procdant des
tirages pseudo-alatoires avec remise dans l'chantillon) ont le mrite
d'avoir donn lieu des dveloppements thoriques. A l'heure actuelle, le
Bootstrap, qui prsente de notables avantages (taille d'chantillon
inchange, facilit de mise en uvre, proprits thoriques satisfaisantes)
est assez largement utilis.
Les techniques de validation croise sont surtout utilises en analyse
discriminante: pour estimer un vrai taux d'erreur, il convient de tester la
mthode sur des individus ne faisant pas partie de l'chantillon
d'apprentissage. D'o l'ide de procder n analyses discriminantes sur
(n -1) individus, en retirant chaque fois un individu de l'chantillon
d'apprentissage, puis en notant le succs ou l'chec de son affectation. Ces
principes de base peuvent tre ramnags et adapts, notamment au cas des
grands tableaux, mais on devine que le gain d'information ralis a sa
contrepartie en volume de calcul.
Rseaux neuronaux
Les techniques neuronales ou connexionnistes ont une large intersection
avec les mthodes classiques d'analyse des donnes 1, intersection peu
visible de prime abord en raison d'une terminologie et d'un cadre
conceptuel tout fait spcifiques. Inspires l'origine par des modles de
fonctionnement du cerveau, les mthodes connexionnistes peuvent tre
considres comme des mthodes d'analyse non-linaire des donnes.
L'analyse en composantes principales, les mthodes de classification du type
k-means ou nues dynamiques sont des mthodes neuronales non
supervises; la rgression, l'analyse discriminante linaire, des cas
particuliers de mthodes neuronales supervises.
1 L'expression anglaise data analysis a un sens trs gnral de statistique applique
(avec une connotation d'approche pragmatique et informatise). L'quivalent anglais
de l'analyse des donnes serait peu prs muItivariate data analysis.
Introduction 5
Les logiciels
Une des innovations de forme, sinon de fond, de ces dernires annes aura
t la matrialisation des mthodes et des techniques sous forme de
"produits", les logiciels, dvelopps avec des contraintes conomiques et
commerciales de conception, de production, de distribution. Comme tout
produit fini, le logiciel a l'avantage de diffuser et l'inconvnient de figer.
Comme tout produit coteux, il introduit une discrimination par les
moyens financiers disponibles. Comme tout produit l'usage de
spcialistes, il introduit de nouvelles divisions du travail, parfois peu
souhaitables dans un processus de connaissance. Enfin, si cette division du
travail se fait l'chelle internationale, de nouvelles dpendances sont
cres dans des secteurs sensibles: l'acquisition de connaissances, la
recherche fondamentale.
Ces avantages et inconvnients sont indissolublement lis dans les logiciels
statistiques. Les logiciels accessibles et faciles utiliser permettront une large
diffusion des mthodes, mais donneront parfois lieu des utilisa tions
inconsidres dans des domaines o une rflexion minutieuse et une
grande prudence seraient de mise. La mdiation des logiciels est un
nouveau paramtre dont il faut tenir compte
1
.
Nouveaux domaines d'application
L'informatisation et les outils qu'elle a suscit ou dont elle a stimul le
dveloppement (gestionnaires de base de donnes relationnelles, systmes
d'informations gographiques par exemple) ont pour effet le plus vident
de permettre le traitement statistique de recueils de donnes plus grands et
plus complexes, donnant lieu de vritables systmes d'information. Les
mthodes d'analyse des donnes peuvent tre des outils performants pour
exploiter au mieux la structure organise de ces systmes.
On peut citer parmi les domaines rcemment abords: les analyses
d'images, les analyses de squences d'images (donnes de tldtection par
exemple); les analyses de signaux, de processus, de systmes; la recherche
documentaire; les analyses de donnes textuelles; les analyses de grandes
enqutes.
1 Les activits d'un club comme MODULAD (domicili l'INRIA) doivent pallier
certains des inconvnients cits. Rassemblant des crateurs, des dveloppeurs, des
utilisateurs de logiciels, il doit faciliter certains types de communications et de
diffusions. Les tudiants ou chercheurs ont ainsi accs, dans la bibliothque de
programme MODULAD, au "source" des programmes. Naturellement, les faibles
moyens mis en oeuvre ne permettent pas de mener bien les coteuses oprations
d'habillage, d'assurer les qualits de convivialit ncessaires et des mises jour en
fonction des nouveaux matriels et langages. Cette bibliothque, ainsi que les listages
de programmes publies dans les ouvrages ''Techniques de la description statistique"
(L. Lebart, A. Morineau, N. Tabard. Dunod, 1977) et "Traitement des donnes
statistiques" (L. Lebart, A. Morineau, J.-P. Fnelon. Dunod, 1979) peuvent donner
accs la plupart des traitements proposs dans cet ouvrage. Les traitements
correspondant aux exemples ont t raliss l'aide du logiciel SPADN (Lebart et aI.,
1991), actuellement dvelopp et distribu par le C1SIA.
6 Statistique exploratoire multidimensionnelle
Panorama du contenu de ce manuel
Les avances et innovations qui viennent d'tre voques se retrouvent
des degrs divers dans le dveloppement et la mise en uvre de la
statistique exploratoire multidimensionnelle, laquelle est consacre le
prsent ouvrage.
La gamme des mthodes qui permettent de dcrire et d'explorer des
tableaux de donnes statistiques (tableaux mesures-observations, tableaux
de contingence ou tableaux croiss, tableaux de prsence-absence ou
tableaux d'incidence) est assez tendue.
Celles que nous retiendrons seront choisies en fonction de leur aptitude
traiter de tableaux volumineux, de la transparence de leur fonctionnement,
de leur bonne insertion dans l'ventail des mthodes rellement
applicables et appliques.
Deux grandes familles de mthodes rpondent ces exigences:
- [chapitre 1] : les mthodes factorielles l, fondes sur des recherches d'axes
principaux (l'analyse en composantes principales et les analyses des
correspondances simples et multiples sont les mthodes factorielles les plus
utilises) qui produisent essentiellement des visualisations graphiques
planes ou tridimensionnelles des lments dcrire.
- [chapitre 2]: les mthodes de classification qui produisent des
groupements en classes d'objets (ou en familles de classes hirarchises),
obtenus la suite de calculs algorithmiques. Les lments dcrire sont
groups de la manire la moins arbitraire possible partir de leurs vecteurs
de description.
Les points de vue fournis par ces deux types de mthodes sont en fait trs
complmentaires. On insistera sur cette complmentarit qui se
manifeste d'ailleurs plusieurs niveaux, qu'il s'agisse de la possibilit
d'apprhender des structures trs diverses, ou d'aider la lecture des
rsultats.
Lorsqu'on a peu d'information a priori sur les donnes (on parlera alors
de donnes non structures ou amorphes) l'application des techniques
exploratoires multidimensionnelles est gratifiante. Mais il est plus
difficile d'utiliser ce que l'on sait pour essayer d'en savoir plus. Et si
l'information a priori sur les donnes est considrable, d'autres
techniques faisant appel des modles qui utilisent effectivement cette
information sont alors comptitives.
1 Les techniques d'analyse factorielle comprennent dans la littrature statistique
franaise des vingt dernires annes toutes les techniques de reprsentation utilisant
des "axes principaux": analyse en composantes principales, des correspondances
simples et multiples, analyse factorielle dite classique ou des psychologues - alors
que l'expression correspondante en anglais (factor analysis) ne dsigne de faon assez
stricte que cette dernire technique: analyse en facteurs communs et spcifiques de
Spearman, Thurstone, utilise principalement par les psychologues et les
psychomtriciens.
Introduction 7
- [chapitre 3]: les liens avec les mthodes explicatives usuelles, claireront
les utilisateurs sur la vocation spcifique de chacune de ces mthodes. Les
cinq premires sections de ce chapitre prsentent successivement l'analyse
canonique, la rgression multiple et le modle linaire, l'analyse
discriminante, les modles log-linaires et logistiques, les mthodes de
segmentation. Cet ventail de techniques recouvre une part trs importante
des applications potentielles de la statistique.
Il n'existe cependant pas de mthodologie gnrale de mise en uvre des
mthodes exploratoires de base impliquant une articulation et une
synergie avec les mthodes dites explicatives. Chaque application
demande un travail original de codage, de slection et d'agencement
d'outils partictiers en fonction des domaines et des problmes.
Les mthodes d'analyse de tableaux ayant une structure a priori prsentes
dans les trois sections suivantes du chapitre 3 constituent le complment
naturel ou le prolongement des analyses exploratoires. Elles prsentent les
techniques qui tentent d'intgrer en leur sein mme une ventuelle
information externe: les analyses partielles ou conditionnelles permettent
de prendre en compte l'effet de certaines variables; les analyses de
contigut mettent profit des structures de graphes sur les observations
(contenant comme cas particulier les partitions et les sries chronologiques);
enfin les analyses de tableaux multiples tudient le cas de tableaux
comportant plusieurs groupes de variables.
- [chapitre 4] : la validit et la porte des rsultats sont deux thmes d'tudes
qui ont donn lieu des recherches nombreuses au cours des annes
rcentes. Dans une premire section, on fait le point sur les rsultats
thoriques disponibles (difficilement acquis et peu utilisables en pratique)
puis, dans la seconde section, on prsente quelques procdures plus
empiriques, plus souples, incluant les techniques de rchantillonnage,
parmi lesquelles le Bootstrap jouera un rle prdominant.
Les mthodes descriptives et exploratoires de base
Les mthodes tudies dans les deux premiers chapitres sont destines
fournir des reprsentations et des rductions, complmentaires, de
l'information contenue dans de volumineux tableaux de donnes
numriques. D'autres mthodes de description qui ne rentrent pas dans les
deux familles tudies ici ne seront voques que brivement, comme les
mthodes purement graphiques 1, dvolues la reprsentation de tableaux
1 Parmi les mthodes purement graphiques, citons la mthode des visages de Chemoff
(1973), pour laquelle chaque visage correspond un individu et chaque trait du visage
une variable; la mthode des courbes d'Andrews (1972), o les diffrents paramtres
des courbes sont les variables; la mthode des constellations de Wakimoto et Taguri
(1978), dans laquelle, aprs conversion de chaque Xij (valeur de la variable j pour
l'individu i) en un COSOij, chaque individu i est reprsent par un point du plan
complexe comme une somme de variables de modules constants et d'arguments Oij .
8 Statistique exploratoire multidimensionnelle
de petites dimensions, les mthodes de sriation 1, les mthodes de
multidimensional scaling 2.
Elles interviennent souvent dans des contextes particuliers d'application et
sont moins adaptes aux traitements des grands tableaux.
Le tableau de donnes sur lequel sont effectues les rductions ne sera pas
en gnral un tableau de valeurs numriques quelconques. Il doit en
particulier prsenter une certaine homognit de forme et de contenu.
Reprsentation gomtrique lmentaire d'un tableau de donnes
Le tableau de donnes dispose la masse d'information sous forme
rectangulaire.
Pour fixer les ides, les lignes (i=I, ... ,n) peuvent reprsenter les n
individus ou observations, appels plus gnralement units
statistiques; les colonnes (j=I, ... ,p) sont alors les p variables, qui
peuvent tre des mesures (numriques) ou des attributs ou caractres
observs sur les individus (cas de variables nominales)3.
Afin de comprendre le principe des mthodes de statistique exploratoire
multidimensionnelle, il est utile de reprsenter gomtriquement les n
lignes et les p colonnes du tableau de donnes par des points dont les
coordonnes sont prcisment les lments de ce tableau (figure 1).
Deux nuages de points sont alors construits:
- le nuage des n individus (le nuage des points-lignes) situ dans l'espace
p dimensions RP des variables (des colonnes); chacune des n lignes est
reprsente par un point p coordonnes.
- le nuage des p variables (le nuage des points-colonnes) situ dans l'espace
n dimensions Rn des individus (des lignes); chacune des p colonnes est
reprsente par un point n coordonnes.
Le tableau de donnes not X est donc une matrice dans laquelle chaque
vecteur, ligne ou colonne, reprsente un point soit dans RF' soit Rn.
1 Les mthodes de sriations visent faire apparatre des structures particulires de
tableaux par simple rordonnancement de lignes et de colonnes. Pour des exposs de
synthse sur ce sujet, cf. par exemple Arabie (1978), Caraux (1984), Marcotorchino
(1987).
2 Cf. Shepard (1974), Kruskal et Wish (1978), Schiffman et al. (1981).
3 Cette distinction entre variables et individus est commode parce qu'elle se rfre
une situation classique en statistique. Elle correspond au contexte de l'analyse en
composantes principales (section 1.2) qui prcde historiquement l'analyse des
correspondances et ses variantes. Cette distinction n'a videmment pas de sens dans
le cas de tables de contingence pour lesquelles lignes et colonnes jouent des rles
symtriques.
Introduction 9
Chacune des deux dimensions du tableau de donnes permet de dfinir des
distances (ou des proximits) entre les lments dfinissant l'autre
dimension.
L'ensemble des colonnes permet de dfinir, l'aide de formules
appropries, des distances entre lignes. De la mme faon, l'ensemble des
lignes permet de calculer des distances entre colonnes.
1 j P
1 [Er'valeur de la variable j
prise par l'individu i
x=
(n,p) i ....x,ij'" ..
It :
vecteur
:
+
n points dans R
P
..... .... -...
. -.-. . -.
. v;,;- .
. . ..
. . .
. .
RP '
+ It
Ppoints dans R.
.. .
..
. .. . ..
: . ...:.:
..
Rit
Figure 1
Principe de reprsentation gomtrique
Les proximits gomtriques usuelles entre points-lignes et entre points-
colonnes traduisent en fait des associations statistiques soit entre les
individus, soit entre les variables. Les tableaux de distances associs ces
reprsentations gomtriques (simples dans leur principe, mais complexes
en raison du grand nombre de dimensions des espaces concerns) pourront
alors tre dcrits par les deux grandes familles de mthodes que sont les
mthodes factorielles et la classification (figure 2).
Ces reprsentations gomtriques du tableau de dOlUles nous conduisent
naturellement utiliser les notions d'espaces vectoriels, de nuages de
points, de mtriques (permettant de calculer des distances entre points-
lignes ou entre points-colonnes) mais aussi de masses affectes aux points si
l'on ne leur accorde pas la mme importance dans le nuage.
Les dveloppements thoriques des mthodes de statistique exploratoire
multidimensiolUlelle vont reposer sur ces notions.
la Statistique exploratoire multidimellsiollllelle
. V; . ..
. .'
. .
. .
configuration du nuage
de points dans l'espace
~ "-
r ; ~ ; : { 1
visualisation dans
le meilleur espace rduit
(mthodes factorielles, chapitre 1
regroupements dans
tout l'espace
(mthodes de classification, chapitre 2
Figure 2
Les deux grandes familles de mthodes
Ces mthodes impliquent souvent de la mme manire les individus
(lignes) et les variables (colonnes). Les individus ne sont plus de simples
intermdiaires utiliss pour calculer des moyennes ou des corrlations sur
les variables, suivant le schma de la statistique traditionnelle o ils ne sont
que des ralisations d'preuves indpendantes. La confrontation des espaces
d'individus et de variables enrichira les interprtations.
Notations de base
Malgr leur partielle inadaptation aux lments mathmatiques
que l'on va traiter, les notations matricielles seront souvent
utilises par souci de cohrence et volont de communication
avec l'essentiel de la littrature statistique disponible.
Le tableau des donnes soumis l'analyse est dsign par la lettre
majuscule grasse X. La matrice X est d'ordre (n,p), autrement dit,
elle a n lignes et p colonnes. Son terme gnrique est Xij (i
me
observation de la jme variable). Une colonne de X sera dsigne
par la lettre minuscule grasse Xj.
La transpose de Xest note X'; cette matrice a donc p lignes et n
colonnes.
Sauf mention contraire, pour les notations utilisant des caractres
latins, les matrices sont reprsentes par des lettres majuscules
grasses; les vecteurs par des lettres minuscules grasses; et les
scalaires par des lettres minuscules en italique.
Chapitre 1
MTHODES FACTORIELLES
Introduction 13
Introduction
Les mthodes factorielles se proposent de fournir des reprsentations
synthtiques de vastes ensembles de valeurs numriques, en gnral sous
forme de visualisations graphiques.
Pour cela, on cherche rduire les dimensions du tableau de donnes en
reprsentant les associations entre individus et entre variables dans des
espaces de faibles dimensions.
Il est toujours possible de calculer des distances entre les lignes et entre les
colonnes d'un tableau rectangulaire de valeurs numriques, mais il n'est
pas possible de visualiser ces distances de faon immdiate (les
reprsentations gomtriques associes impliquant en gnral des espaces
plus de deux ou trois dimensions): il est ncessaire de procder des
transformations et des approximations pour en obtenir une reprsentation
plane.
C'est une des tches dvolues l'analyse factorielle au sens large: oprer
une rduction de certaines reprsentations "multidimensionnelles".
On recherchera donc des sous-espaces de faibles dimensions (une, deux ou
trois par exemple) qui ajustent au mieux le nuage de points-individus et
celui des points-variables, de faon ce que les proximits mesures dans
ces sous-espaces refltent autant que possible les proximits relles. On
obtient ainsi un espace de reprsentation, l'espace factoriel.
Mais la gomtrie des nuages de points et les calculs de proximits ou de
distances qui en dcoulent diffrent selon la nature des lignes et des
colonnes du tableau analys.
Les colonnes peuvent tre des variables continues ou des variables
nominales ou des catgories dans le cas des tables de contingences. Les lignes
peuvent tre des individus ou des catgories.
La nature des informations, leur codage, les spcificits du domaine
d'application vont introduire des variantes au sein des mthodes
factorielles.
On prsente ici trois techniques fondamentales:
l'analyse en composantes principales (section 1.2) s'applique aux tableaux
de type "variables-individus", dont les colonnes sont des variables
valeurs numriques continues et dont les lignes sont des individus, des
observations, des objets, etc. Les proximits entre variables s'interprtent
en termes de corrlation; les proximits entre individus s'interprtent
en termes de similitudes globales des valeurs observes. Elle peut donner
lieu de nombreuses variantes en s'appliquant par exemple un tableau
14 Mthodes factorielles - chapitre 1
de rangs (diagonalisation de la matrice de corrlation des rangs de
Spearman), ou encore aprs l'limination de l'effet de certaines variables
(analyses locales ou partielles).
l'analyse des correspondances (section 1.3) s'applique aux tableaux de
contingences, c'est--dire aux tableaux de comptages obtenus par le
croisement de deux variables nominales. Ces tableaux ont la particularit
de faire jouer un rle identique aux lignes et aux colonnes. L'analyse
fournit des reprsentations des associations entre lignes et colonnes de
ces tableaux, fondes sur une distance entre profils (qui sont des vecteurs
de frquences conditionneJles) dsigne sous le nom de distance du X
2
.
l'analyse des correspondances multiples (section 1.4) est une extension
du domaine d'application de l'analyse des correspondances, avec
cependant des procdures de calcul et des rgles d'interprtation
spcifiques. Elle fait l'objet d'une mention particulire en raison de
l'tendue de son champ d'application. Elle est particulirement adapte
la description de grands tableaux de variables nominales dont les fichiers
d'enqutes socio-conomiques ou mdicales constituent des exemples
privilgis. Les lignes de ces tableaux sont en gnral des individus ou
observations (il peut en exister plusieurs milliers); les coloIU1es sont des
modalits de variables nominales, le plus souvent des modalits de
rponses des questions.
Les techniques les plus utilises drivent des deux techniques
fondamentales que sont l'analyse en composantes principales et l'analyse
des correspondances. Quelle que soit la constitution du tableau de donnes,
toutes les techniques d'analyse factorielle ont un noyau commun que nous
dsignons sous le nom d'analyse gnrale (section 1.1) et que nous allons
prsenter maintenant.
Section 1.1
Analyse gnrale,
dcomposition aux valeurs singulires
Considrons un tableau de valeurs numriques X ayant n lignes et p
colonnes. Pour prendre un exemple, le tableau X a 1000 lignes et 100
colonnes. Il reprsente les 100 variables observes sur 1000 indi vid us
constituant un chantillon statistique.
Le tableau X possde donc 100 000 lments. Pour des raisons diverses, il
peut exister des liaisons fonctionnelles ou stochastiques entre certaines
variables. Peut-on rsumer ces 100 000 donnes par un nombre infrieur de
valeurs sans perte notable d'information compte tenu des liaisons et
interrelations entre les valeurs?
Nous recherchons en fait une technique de rduction s'appliquant de faon
systmatique divers types de tableaux et conduisant une reconstitution
rapide mais approximative du tableau de dpart.
1.1.1 Notions lmentaires et principe d'ajustement
On a vu prcdemment comment les lignes et les colonnes d'un tableau
rectangulaire permettaient de dfinir des nuages de points.
La position des points dans le nuage est donne par l'ensemble des distances
entre tous les points et dtermine la forme du nuage. C'est elle qui
caractrise la nature et l'intensit des relations entre les individus (lignes) et
entre les variables (colonnes) et rvle les structures de l'information
contenues dans les donnes.
forme allonge forme parabolique forme sphrique
Figure 1.1 - 1
Diffrentes formes de nuages
Par exemple, si le nuage de points est uniformment allong le long d'une
droite, il existe un support linaire dominant pour les points. Une forme
parabolique traduira une relation non linaire tandis qu'un nuage de forme
16 Mthodes factorielles - chapitre 1
sphrique marquera plutt une absence de relation (cf. figure 1.1 - 1). On
peut galement rencontrer, parmi les formes classiques de nuages, des
formes triangulaires ou un nuage compos de quelques amas de points
(figure 1.1 - 2).
forme triangulaire deux sous-nuages
[1.1 - 1]
Figure 1.1 - 2
Autres formes de nuages
Une faon simple de rendre compte visuellement de la forme d'un nuage
est de le projeter sur des droites, ou mieux sur des plans, en minimisant les
dformations que la projection implique. Pour cela, on peut chercher le
sous-espace une dimension H qui maximise la somme des carrs des
distances entre les projections sur H de tous les couples de points (k,k') :
Max{IId
2
(k,k'J}
(H) k k'
Si chaque point est muni d'un masse, c'est la somme pondre que l'on
pourra chercher maximiser:
Max{IIPk Pk' d
2
(k,k')j
(H) k k'
On calcule ainsi le sous-espace vectoriel qui ajuste au mieux le nuage de
points. Nous verrons plus loin, propos de l'analyse en composantes
principales, que ce dernier critre est quivalent au critre ci-dessous (o G
dsigne le point moyen ou centre de gravit des projections) :
Max{IPk
d2
(k,G)}
(H) k
Toutefois, on ne s'intresse pas toujours la forme d'un nuage, mais
quelques fois sa position par rapport l'origine. Ainsi, en analyse en
composantes principales, on s'intresse bien la forme du nuage des points-
observations dans un espace, mais c'est la position par rapport l'origine
des points-variables qui aura du sens dans l'autre espace.
Le modle d'analyse par rapport l'origine dsign ici sous le nom
d'analyse gnrale permet de rendre compte de ces diverses situations. Il
n'est qu'une prsentation sous forme gomtrique de la dcomposition aux
valeurs singulires prsente pour la premire fois par Eckart et Young
(1936, 1939) pour les tableaux rectangulaires, gnralisant les travaux de
Sylvester (1889) relatifs aux matrices carres. Gifi (1990) mentionne
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 17
galement les travaux antrieurs et indpendants de Beltrami (1873) et
Jordan (1874). Cf. galement Gower (1966), Gabriel (1971).
Le problme que l'on se propose de rsoudre est alors un problme de
rduction purement numrique, autrement dit, un problme de
compression de donnes.
Pour exposer cette technique de rduction factorielle, nous nous plaons
successivement dans les espaces vectoriels RP et Rn, avec pour notre
exemple: p =100, n =1000.
1.1.2 Ajustement du nuage des individus
dans l'espace des variables
On envisage ici le nuage de n points-individus dfinis dans l'espace des
variables IR.P et qui sont non pondrs (pour simplifier la formulation).
Chacune des n lignes du tableau X est considre comme un vecteur ou
encore un point de RP.
Si ce nuage est contenu dans un sous-espace vectoriel q dimensions de IIV
et si q est notablement infrieur p, autrement dit, si le tableau X est de rang
q, le problme d'approximation est pratiquement rsolu!.
a - Droites d'ajustement
Commenons par chercher un sous-espace vectoriel une dimension, c'est-
-dire une droite passant par l'origine, qui ralise le meilleur ajustement
possible du nuage de points.
espace IR?
Figure 1.1 - 3
Meilleur ajustement du nuage de points
1 Par exemple, si les 1000 points-individus se trouvent dans un sous-espace 10
dimensions (ou plus gnralement si leurs positions sont reconstitues de faon
satisfaisante partir de leurs positions dans ce sous-espace) il suffit, pour retrouver
les positions relatives de ces points dans IR.P, de connatre la nouvelle base (soit 10
vecteurs 100 dimensions) et les nouvelles coordonnes des points dans cette base
(soit 1000 vecteurs 10 dimensions). On pourrait dans ce cas reconstituer les 100000
nombres partir des 11 000 nombres ainsi dfinis (10x100 + 1000 x 10 = 11 000).
18 Mthodes factorielles - chapitre 1
Il faut pour cela dfinir le vecteur directeur unitaire de cette droite. Soit u ce
vecteur. On dsignera galement par u la matrice colonne associe, et par u'
sa transpose. On exprime que u est unitaire par la relation u'u = 1.
La longueur de la projection OHj d'un vecteur OMi sur le sous-espace une
dimension port par u (figure 1.1 - 3) n'est autre que le produit scalaire de
OMi par u, somme des produits terme terme
l
des composantes de OMi et
de u:
P
OHj = xiu = I,xijUj
j
Chacune des n lignes du tableau X est un vecteur-individu Xi dans RP. Or le
produit matriciel Xu est la matrice-colonne n lments, dont chaque terme
est le produit scalaire d'une ligne de X par u :
Xll xl
p
u
1
Xu= Xij
u.
=
I,xijUj
...
J
j
U
XIII
X
llp
P
Ce sont les n composantes de la matrice colonne Xu qui reprent sur u les n
projections OHj des points du nuage.
Parmi les critres d'ajustement d'un sous-espace un nuage de n points,
celui que l'on retient et qui conduit aux calculs analytiques sans doute les
plus simples, est le critre classique des moindres carrs. Il consiste
rechercher la droite d'allongement maximum du nuage de points et donc
rendre minimale la somme des carrs des carts
n
I,M
j
H
j
2
i=l
Le thorme de Pythagore appliqu chacun des n triangles rectangles du
type HjM
j
conduit la relation:
Comme I,OMj
2
est une quantit fixe, indpendante du vecteur u cherch,
i
il est quivalent de rendre maximale la quantit:
1 On suppose implicitement (et provisoirement) que la mtrique dont est muni cet
espace est la mtrique euclidienne usuelle.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires
qui s'exprime en fonction de X et u par:
IOH
j
2
=(Xu)'Xu =u'X'Xu
i
19
Pour trouver u, on est donc conduit chercher le maximum de la forme
quadratique u'X'Xu :
{
MaX(u) {u'X'Xu}
sous la contrainte: u'u = 1
Soit Ul le vecteur qui ralise ce maximum. Le sous-espace deux
dimensions s'ajustant au mieux au nuage contient ncessairement le sous-
espace engendr par Ul
1
. On cherche ensuite uz, le second vecteur de base de
ce sous-espace, orthogonal Ul et rendant maximal U2X'XU2.
On recherche de faon analogue le meilleur sous-espace au sens des
moindres carrs q dimensions (pour q ~ p).
b - Caractristiques du sous-espace d'ajustement
Les dmonstrations qui figurent en annexe ( 1.1.7 ci-aprs) conduisent
l'nonc suivant:
/ "le vecteur unitaire u 1 qui caractrise le sous-espace une
: dimension ajustant au mieux le nuage des n points-individus
dans RP, est le vecteur propre de la matrice X'X correspondant la
plus grande valeur propre/..1'"
u ~ gnralement, le sous-espace q dimensions qui ajuste au mieux (au
sens des moindres carrs) le nuage dans RP est engendr par les q premiers
vecteurs propres de la matrice symtrique X'X correspondant aux q plus
grandes valeurs propres. On diagonalisera, par consquent, la matrice X'X
d'ordre (p,p).
L'analyse gnrale effectue donc une rotation du repre autour de l'origine
a et fournit un systme de vecteurs orthonorms dont u 1 puis (u l,U2), ...,
(U1,U2, ... ,Uu,... ,u
p
) passent "au plus prs" du nuage.
1.1.3 Ajustement du nuage des variables dans l'espace des
individus
Plaons-nous maintenant dans l'espace des individus IR", o le tableau X
peut tre reprsent par un nuage de p points-variables dont les n
coordonnes reprsentent les colonnes de X.
1Le raisonnement par l'absurde prouve que s'il ne contenait pas U1, il en existerait un
meilleur contenant U1.
20 Mthodes factorielles - chapitre 1
La dmarche pour ajuster le nuage des p points-variables dans cet espace est
exactement la mme que pour le nuage des points-individus et consiste
rechercher le vecteur unitaire v, puis le sous-espace q dimensions dans Rn
qui ajuste au mieux le nuage de points.
Cela conduit rendre maximale la somme des carrs des p projections sur v,
qui sont les p composantes du vecteur X'v. On maximise la quantit:
(X'v)'X'v = v'XX'v avec la contrainte v'v = 1
Comme prcdemment, nous sommes amens retenir les q vecteurs
propres de XX' correspondant aux q plus grandes valeurs propres. La matrice
diagonaliser sera cette fois la matrice XX' d'ordre (n,n).
On notera Va le vecteur propre de XX' correspondant la valeur propre ~ a
1.1.4 Relation entre les ajustements dans les deux espaces
Recherchons les relations dites de transition entre les deux espaces.
Dans RP, nous avons:
[1.1 - 2]
[1.1 - 3]
et dans Rn:
XX'v
a
=~ a v a
En prmultipliant les deux membres de [1.1 - 2] par X, on obtient:
(XX' )Xu
a
=,a (Xu
a
)
Cette relation montre qu' tout vecteur propre ua de X'X relatif une
valeur propre ,a non nulle, correspond un vecteur propre XU
a
de XX',
relatif la mme valeur propre ,a. Comme on a appel ~ la plus grande
valeur propre de XX', on a ncessairement ,1 S; Ill,
En prmultipliant les deux membres de [1.1 - 3] (pour ex = 1) par X', on voit
de mme X'VI est vecteur propre de X'X relativement la valeur propre ~
d'o la relation III S; ,l, ce qui prouve finalement que ,1 = ~
On verrait de la mme faon que toutes les valeurs propres non nulles des
deux matrices X'X et XX' sont gales! (avec le mme ordre de multiplicit
ventuellement) :
1 Il est donc inutile de refaire les calculs de diagonalisation sur XX', puisqu'une simple
transformation linaire, associe la matrice Xde dpart, nous permet d'obtenir les
directions propres XUa cherches dans Rn. Il suffit de diagonaliser la matrice X'X (p,p)
ou XX' (n,n) ayant la plus petite dimension.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 21
Remarquons que le vecteur XUa a pour norme
a
(on a u'aXIXUa =
a
) et
donc le vecteur Va unitaire correspondant la mme valeur propre
a
est
facilement calculable en fonction de Ua. On obtient ainsi, pour
a
* 0, les
formules de transition entre les deux espaces, HP et Rn:
j
v
a
=j;;xu
a
1 XI
ua = f1 va
-V
a
[1.1- 4]
[1.1- 5]
X
(n,p)
U 1 liiWt)i'iIWiM- 1
U2 ntWWW't!:!'?4 2
Figure 1.1 - 4
Relations de transitions
Dans RP, Ua est le a
ime
axe factoriel et l'on calcule le vecteur 'Va des
coordonnes sur cet axe par:
'Va =XUa
De mme dans R n, Va est le a
ime
axe factoriel et l'on construit les
coordonnes CJla par:
CJla = X'va
Compte tenu de [1.1 - 4] et [1.1 - 5], les facteurs peuvent se calculer par:
{
'Va =va{f;;
CJla =ua{f;;
Sur le sous-espace de RP engendr par Ua les coordonnes des points du
nuage des individus sont les composantes de X Ua. Ce sont aussi les
composantes de v ~
Les coordonnes des points sur un axe factoriel dans RP sont donc
proportionnelles aux composantes de l'axe factoriel dans Rn correspondant
la mme valeur propre. Il en est de mme pour les coordonnes des points
du nuage des variables o l'on changera RPet Rn.
22 Mthodes factorielles - chapitre 1
Remarques
1) L'orientation des axes est arbitraire. En effet, les vecteurs propres sont dfinis
au signe prs. La figure 1.1 - 5, concernant trois points, montre que toutes les
images, obtenues suivant des orientations diffrentes des facteurs, respectent la
forme du nuage c'est--dire les distances entre les points.
Figure 1.1 - 5
Orientation arbitraire des axes
2) Les vecteurs de coordonnes dans IRP et IRIl ont pour norme:
, Il 2
Ij/alj/a = L<Jlai =,a
et
, P 2
<Pa <Pa = L<Jlaj = ,a
j
1.1.5 Reconstitution des donnes de dpart
Nous dsignons toujours par Ua le a
ime
vecteur propre de norme 1 de la
matrice X'X, correspondant la valeur propre Ica; Va le a
ime
vecteur propre
de norme 1 de XX'. Nous avons:
'Va = XU
a
=va.J,
a - Reconstitution exacte
Postmultiplions les deux membres de cette relation par u'a et sommons sur
l'ensemble des axes! :
1 Certains d'entre eux peuvent correspondre une valeur propre nulle; ils sont alors
choisis de faon complter la base orthonorme forme par les axes prcdents.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 23
Dsignons par U la matrice d'ordre (p,p) ayant en colonne les vecteurs
propres Ua de X'X. Ces vecteurs tant orthogonaux et de norme 1, on a :
UU' =1 et donc U'U =1
o 1 est la matrice unit. Mais:
p
= UU'
a=l
Les valeurs propres ,a tant toujours ranges par ordre dcroissant, la
formule prcdente devient:
p
X= [1.1-6]
a=l
et apparat comme une formule de reconstitution du tableau X, partir des
,a et des vecteurs Ua et Va associs (figure 1.1- 6).
Figure 1.1 - 6
Reconstitution exacte du tableau de donnes;
dcomposition aux valeurs singulires.
Remarque
Les mthodes d'analyse factorielle reposent toutes sur une proprit mathmatique
des tableaux (ou matrices) rectangulaires: la dcomposition aux valeurs singulires
[Eckart et Young, 1936]. Cela signifie principalement que, sous des conditions
assez gnrales, une matrice rectangulaire peut tre crite de faon unique conune
une "somme optimale" de matrices de rang 1 (produits d'une matrice ligne par une
matrice colonne). Que veut-on dire par somme optimale? que la premire matrice
de rl'mg 1 constitue la meilleure approximation de rang 1 de la matrice initiale (au
sens des moindres carrs), que la somme des deux premires constituent la
meilleure approximation de rang 2, etc!.
b - Reconstitution approche
Si les p-q plus petites valeurs propres sont trs faibles et juges
"ngligeables", on peut limiter la sommation aux q premiers termes
correspondant aux valeurs propres (,1,,2, ... ,,q):
] Cette proprit qui concerne le tableau de donnes lui-mme, et non pas seulement la
matrice de corrlation ou un tableau de distances construit partir des donnes, a ceci
de remarquable qu'elle implique de faon similaire les lignes et les colonnes du tableau.
24 Mthodes factorielles - chapitre 1
q
X"" X* = I,.jv0. u'a. [1.1-7]
0.=1
Si q est notablement infrieur p, on apprcie le gain ralis en comparant
les deux membres de cette relation: le vecteur .J.Vo. a n composantes et le
vecteur Uo. a p composantes.
Les np termes de X sont donc approchs par des termes construits partir
des q(n+p) valeurs contenues dans le membre de droite.
c - Qualit de l'approximation
La qualit de la reconstitution peut tre value par la quantit:
I,I,xij2
r =_i-=-_-;;-
q I,I,xi/
i
On a encore:
Ir X'' X
r q = -tr-X-'-X-
o tr dsigne l'oprateur trace.
Remplaant X et X" par leurs valeurs tires de [1.1 - 6] et [1.1 - 7], on obtient
immdiatement:
I, Ao.
0.5q
r
q
=-p--
I, Ao.
0.=1
Le coefficient rq, infrieur ou gal 1, sera appel taux d'inertie ou encore
pourcentage de variance relatif aux q premiers facteurs. Son interprtation
comme mesure de la qualit numrique de la reconstitution est assez claire,
mais nous verrons plus loin que le problme de sa signification statistique
est dlicat.
1.1.6 Diversification de l'analyse gnrale
La mtrique (c'est--dire la formule de distance) et le critre d'ajustement
(c'est--dire la pondration des points) varient suivant le problme et donc
suivant la nature des variables.
a - Analyse gnrale avec des mtriques et des critres quelconques
Jusqu' prsent, nous avons considr les espaces munis de la mtrique 1
(matrice identit) et nous avons suppos que tous les points du nuage
avaient la mme importance.
1.1 _ Analyse gnrale, dcomposition aux valeurs sillgulires 25
Cependant il arrive que l'on ait travailler avec une mtrique plus gnrale
et avec des individus dont les masses sont diffrentes (pondrations
calcules aprs un redressement d'chantillon, regroupements divers
d'individus, etc.). Ces masses vont intervenir dans les calculs de moyennes
et lors de l'ajustement des sous-espaces.
Gnralisons le principe d'analyse factorielle prsent ci-dessus des
mtriques et des critres quelconques.
Plaons-nous dans l'espace liVet considrons le nuage de n points-lignes
pesants.
Soit X la matrice d'ordre (n,p) des coordonnes c'est--dire le tableau de
donnes, M la matrice symtrique dfinie positive d'ordre (p,p) dfinissant
la mtrique dans RP, et N la matrice diagonale d'ordre (n,n) dont les
lments diagonaux sont les masses mi des n points.
X=
(n,p)
x'.
1
~
(n,n) ~
Figure 1.1 - 7
X, tableau de coordonnes et N, matrice diagonale des masses
Un vecteur unitaire u de R. P vrifie maintenant la relation de
normalisa tion u'Mu = 1.
La coordonne de la projection Hi du point i sur l'axe u va ut :
H
j
=X;Mu
et l'ensemble F des coordonnes des projections sur l'axe u des n points-
lignes s'exprime par:
F=XMU
Figure 1.1 - 8
Mtrique M dans llV
26 Mthodes factorielles - chapitre 1
Compte tenu du critre d'ajustement, on veut trouver le vecteur u qui
rende maximale la somme pondre des carrs des projections:
Max(ulIm;OH1} = Max(u){u'MX'NXMu}
i
sous la contrainte:
u'Mu = 1
Les rsultats de l'annexe de cette section nous montrent que u est le vecteur
propre de la matrice A=X'NXM correspondant la plus grande valeur
propre .
L'quation de l'axe factoriel u dans RP s'crit:
X'NXMu = u
et les coordonnes factorielles des n points sont donnes par la relation:
'l'=XMu
- Relation entre RPet Rn
Si les masses et les mtriques dans RP (N et M) et dans Rn (P, matrice des
masses des p points-colonnes et Q, mtrique dans R") n'ont pas de relations
privilgies entre elles, on perd les relations de transition et la formule de
recons ti tution.
En analyse en composantes principales, on utilise la mme mtrique dans
les deux espaces. En analyse des correspondances, on verra que la matrice
des masses dans un espace est lie la mtrique de l'autre espace, ce qui
permettra de conserver les relations de transition.
- Axes d'inertie
La quantit:
u'MX'NXMu = 'l"N'l' =Lmi'l'l
i
reprsente l'inertie du nuage de points pesants le long de l'axe
d'allongement maximal, l'axe factoriel u. Elle est gale la valeur propre
associe au vecteur propre u.
Les p vecteurs propres dfinissent donc des axes d'inertie du nuage de
points et on les obtient par ordre d'inerties dcroissantes.
La somme de toutes les valeurs propres donne l'inertie totale du nuage.
C'est la trace de la matrice diagonalise A = X'NXM :
P
Trace(A) = L
a
a=1
A est appele matrice d'inertie.
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires
b - Principe des lments supplmentaires
27
L'analyse factorielle permet de trouver des sous-espaces de reprsentation
des proximits entre vecteurs de description d'observations. Elle s'appuie,
pour cela, sur des lments (variables et individus) appels lments actifs.
Mais elle permet aussi de positionner, dans ce sous-espace, des lments
(points-lignes ou points-colonnes du tableau de donnes) n'ayant pas
particip l'analyse qui sont appels lments supplmentaires ou
illustratifs.
Les lments supplmentaires interviennent a posteriori pour caractriser
les axes. Leur introduction dans l'analyse factorielle constitue un apport
fondamental car elle permettra de conforter et d'enrichir l'interprtation
des facteurs.
[;lG
variables
X X+ -.- (ou colonnes)
supplmentaires
lments actifs
;
individus (ou lignes) supplmentaires
Figure 1.1 - 9
Reprsentation des lments supplmentaires
En effet, il est frquent, dans la pratique, que l'on dispose d'informations
complmentaires largissant le tableau de donnes. Ce peut tre de
nouveaux individus (lignes supplmentaires), par exemple un groupe
tmoin extrieur l'chantillon, et il est intressant alors de positionner ces
tmoins dans le nuage des individus analyss.
Trs souvent dans les applications, ce ne sont pas les individus par eux-
mmes qui sont intressants mais certaines de leurs caractristiques
connues par ailleurs; on cherchera alors reprsenter comme "individus"
supplmentaires les centres de gravit des classes d'individus appartenant
une mme catgorie. Ce peut tre aussi de nouvelles variables (colonnes
supplmentaires); on peut disposer d'un ensemble de variables nominales
qu'il est intressant de faire apparatre dans l'analyse ralise sur des
variables continues (et rciproquement). Par ailleurs de nouvelles variables
observes sur l'chantillon initial peuvent tre disponibles alors qu'on les a
volontairement cartes de l'analyse pour ne conserver qu'un corpus
homogne de caractristiques.
Les lments supplmentaires n'interviennent pas dans les calculs
d'ajustement et ne participent donc pas la formation des axes factoriels. On
28 Mthodes factorielles - chapitre 1
cherche uniquement les positionner dans le nuage des individus ou dans
celui des variables en calculant a posteriori leurs coordonnes sur les axes
factoriels.
Les coordonnes des nouvelles variables sur l'axe a sont les composantes
du vecteur:
et les coordonnes des nouveaux individus sur l'axe a sont:
(X+)Ua
Les lments actifs, dfinis dans un espace et servant calculer les plans
factoriels, doivent former un ensemble homogne en texture (c'est--dire
doivent tre de mme nature, continues ou nominales) pour que les
distances entre lments aient un sens. Mais pour interprter les similitudes
entre ces lments, ils doivent aussi tre homognes en contenu c'est--dire
relatifs un mme thme; on compare les objets selon un certain point de
vue et non pas en utilisant sans diffrenciation tous les attributs connus et
souvent disparates. Les variables supplmentaires, quant elles, ne sont pas
soumises cette condition d'homognit.
Cette dichotomie entre variables actives et variables illustratives est
analogue la distinction tablie entre les variables explicatives (exognes) et
les variables expliquer (endognes) dans les modles de rgression
multiple (cf. section 3.2).
D'un point de vue gomtrique, nous verrons que les deux situations sont
d'ailleurs trs similaires. Notons que les points supplmentaires peuvent
tre considrs comme des points actifs affects d'une masse nulle.
c - Autres approches
La dcomposition aux valeurs singulires est une proprit de tous les
tableaux rectangulaires. Elle fait appel des distances euclidiennes, c'est--
dire des formes quadratiques dfinies positives, et des ajustements de
sous-espaces vectoriels par minimisation d'un critre li ces distances.
D'autres approches sont possibles, qui modifient le type de distance, ou la
nature des sous-espaces, ou les deux. Il faut s'attendre perdre beaucoup des
proprits mathmatiques simples de l'analyse gnrale: unicit de la
dcomposition, symtrie des rles jous par les lignes et les colonnes,
simplicit de la formule de reconstitution, positionnement ais de variables
supplmentaires.
D'autres critres d'ajustements peuvent tout d'abord tre utiliss. A la
mthode des moindres carrs min{I,er J (norme dite "L
2
"), on peut par
exemple substituer celle des moindres valeurs absolues min{I,leilJ (norme
dite "LI")' Nous voquerons nouveau ces normes propos de la
rgression, chapitre 3, 3.2.1. Sur les mthodes d'analyse des donnes
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 29
utilisant la norme LI (dite aussi city-black distance) on consultera les
contributions et points de vue de Fichet (1987, 1988, ainsi que dans
Van Cutsem et al., 1994), Arabie (1991) et le recueil dit par Dodge (1987).
Dans un esprit un peu diffrent, Meyer (1994) donne un algorithme pour
ajuster (au sens des moindres carrs, c'est--dire de L2) une matrice de
distances de type L
p
une matrice de dissimilarit donne.
Pour tudier certaines tables de contingence, notamment les tableaux
d'changes, Domenges et Volle (1979) proposent d'utiliser la distance de
Hellinger: d
2
(x,y) = 'I;rJXi - J"Yd ("analyse factorielle sphrique").
Enfin, sans changer la mtrique ni le critre d'ajustement, on peut songer
ajuster d'autres surfaces que des hyperplans. Ainsi, dans le cas de l'analyse
en composantes principales norme qui est, dans l'espace Rn, l'analyse
gnrale de points situs sur une sphre (cf. 1.2.4), Falissard (1995) propose
d'ajuster une hypersphre.
1.1.7 Annexe 1- Dmonstration sur les extrema de formes
quadratiques sous contraintes quadratiques
Le problme est la recherche du vecteur u qui rend maximale la quantit
u'Au, avec la contrainte u'Mu =l, expression o A et M sont des matrices
symtriques; M est de plus dfinie non-ngative et dfinit la mtrique dans
RP.
On donnera deux dmonstrations lmentaires pour la solution de ce
problme. L'une fait appel aux multiplicateurs de Lagrange (calcul classique
d'extremum sous contrainte), l'autre suppose connues certaines proprits
spectrales des matrices symtriques!.
- Dmonstration directe
La forme quadratique u'Au s'crit:
u'Au = 'IaijUiUj
ij
En drivant cette quantit successivement par rapport aux p composantes
du vecteur u, on voit que le vecteur des drives partielles de u'Au s'crit
sous forme matricielle:
(u' Au) = 2Au
u
1 Le problme est ici un peu plus gnral que celui rencontr prcdemment, pour
lequel A =X'X et M = 1o 1 est la matrice unit. Mais cette formulation plus large,
avec une mtrique et des critres quelconques tels que des masses affectes aux points,
sera utile propos de l'analyse des correspondances et de l'analyse discriminante. Elle
n'introduit gure de difficult supplmentaire au niveau des dmonstrations.
30
De mme:
Mthodes factorielles - chapitre 1
a(u' Mu) =2Mu
au
La recherche d'un maximum li implique que s'annulent les drives du
Lagrangien:
L =u Au -(u' Mu-l)
tant un multiplicateur de Lagrange. Par suite:
aL = 2Au - 2Mu = 0
au
exprime la condition d'extremum. On en dduit la relation:
A u = M u [1.1 - 8]
Prmultipliant les deux membres de cette relation par u', et tenant compte
du fait que u'Mu = 1, il vient:
=u' Au
La valeur du paramtre est donc le maximum cherch.
Lorsque la matrice M est dfinie positive, donc inversible, la relation [1.1 - 8]
s'crit alors:
M-
1
A u = u
u est le vecteur propre de la matrice M-
1
A correspondant la plus grande
valeur propre (si celle-ci est unique, ce qui sera le cas gnral).
Appelons dsormais ul' le vecteur u correspondant la plus grande valeur
I telle que la relation [1.1 - 8] soit vrifie. Cherchons le vecteur u2' unitaire
et M-orthogonal ul (c'est--dire tel que u2M u2 =1 et ulM U2 =0), qui
rend maximale la forme quadratique u2A u2'
On est conduit annuler les drives du Lagrangien:
L =U2Au2 -2(U2Mu2
o
2
et 112 sont deux multiplicateurs de Lagrange.
La condition d'extremum s'crit pour u2 :
aL
- =2Au2 - 22Mu2 - Jl2Mul =0
aU2
En multipliant les divers membres de cette relation par u}, on voit que
=0 (puisque Ut A u2 =
1
ul M u2 = 0).
Il reste donc comme prcdemment:
A u2 =
2
M u2
1.1 _ Analyse gnrale, dcomposition aux valeurs singulires 31
Quand M est inversible, u
2
est le second vecteur propre de M-
I
A, relatif la
seconde plus grande valeur propre
2
si celle-ci est unique.
La dmonstration s'tend aisment au cas d'un vecteur unitaire ua pour
a :;; p (i.e.: u ~ ua = 1), M-orthogonal aux vecteurs u ~ trouvs
prcdemment u ~ u ~ = a pour ~ < a ) et rendant maximale la forme
u ~ A ua' On a alors:
Et si M est inversible:
- Seconde dmonstration
Nous ne ferons qu'esquisser cette dmonstration, dans le cas o M est
dfinie positive. On peut alors dcomposer cette matrice sous la forme
classique M = L'L, o L est inversible puisque M est suppose dfinie
positive.
Posant alors u = L-Iy, la contrainte de normalisation u'Mu = 1 s'crit
maintenant y'y =l, et la quantit rendre maximale u'Au devient y'S y,
avec S =L'-IAL-
I
.
Soit T la matrice orthogonale (p ,p) dont les colonnes sont les vecteurs
propres ta de S, norms et ordonns suivant les valeurs propres
a
dcroissantes, et soit A la matrice diagonale dont le a
ime
lment vaut
a
.
Posons encore z =T'y (ce qui implique y =T z car T' =T\ On a alors:
y'Sy = y'TAT'y = z'Az
avec la contrainte z'z =1.
La solution est alors proche. On remarque que }.,I;:: z'Az; en effet:

I
_ z'Az = z' (II - A) z ~ 0
Le maximum }.,I est effectivement atteint pour z' =(1,0,0,0, ...,0), donc pour
y =t
l
et pour u
1
=C\. De la relation S t
1
=
1
t
l
, on tire:
L
'-IAL-
I
~
t
l
= 11.1 t
l
D'o, finalement
l
:
IOn note au passage qu'il suffit ici de procder la diagonalisation d'une matrice
symtrique S (aprs avoir dcompos Msous la fonne : M=L'L), alors que la matrice
prcdente M-IA est en gnral non-symtrique. Cette proprit est utilise dans les
programmes de calcul (en particulier en analyse des correspondances), car la recherche
des lments spectraux est notablement plus rapide et fiable dans le cas des matrices
symtriques.
32
Section 1.2
Mthodes factorielles - chapitre 1
Analyse en Composantes Principales
Conue pour la premire fois par Karl Pearson en 1901, intgre la
statistique mathmatique par Harold Hotelling en 1933, l'analyse en
composantes principales n'est vraiment utilise que depuis l'avnement et
la diffusion des moyens de calculs actuels.
La technique d'analyse en composantes principales peut tre prsente de
divers points de vue. Pour le statisticien classique, il s'agit de la recherche
des axes principaux de l'ellipsode indicateur d'une distribution normale
multidimensionnelle, ces axes tant estims partir d'un chantillon. C'est
la prsentation initiale de Hotelling (1933), puis celle des manuels classiques
d'analyse multivarie, comme l'ouvrage fondamental d'Anderson (1958).
Pour les factorialistes classiques, il s'agit d'un cas particulier de la mthode
d'analyse factorielle des psychomtriciens (cas de variances spcifiques
nulles ou gales; cf. Horst, 1965; Harman, 1967; cf. galement 3.2.9).
Enfin, du point de vue plus rcent des analystes de donnes, il s'agit d'une
technique de reprsentation des donnes, ayant un caractre optimal selon
certains critres algbriques et gomtriques et que l'on utilise en gnral
sans rfrence des hypothses de nature statistique ni un modle
particulier. Ce point de vue, fort rpandu actuellement est peut-tre le plus
ancien. C'est celui qui avait t adopt par Pearson (1901). Bien entendu, il
ne s'agissait pas de l'analyse en composantes principales telle que nous la
prsentons, mais les ides essentielles de la mthode taient dj entrevues
par cet auteur. On trouvera une prsentation plus proche de nos
proccupations dans l'article de synthse de Rao (1964).
L'analyse en composantes principales prsente de nombreuses variantes
selon les transformations apportes au tableau de donnes: le nuage des
points-individus peut tre centr ou non, rduit ou non. Parmi ces
variantes, l'analyse en composantes principales norme (nuage centr-
rduit) est certainement la plus utilise et c'est celle-ci que nous choisirons
pour prsenter les principes de l'analyse en composantes principales.
1.2.1 Domaine d'application
L'utilisateur ventuel de l'analyse en composantes principales se trouve
dans la situation suivante: il possde un tableau rectangulaire de mesures,
dont les colonnes figurent des variables valeurs numriques continues
(des mensurations, des taux, etc.) et dont les lignes reprsentent les
individus sur lesquels ces variables sont mesures.
1.2 _ Analyse en Composantes Principales 33
En biomtrie, il est frquent de procder de nombreuses mensurations sur
certains organes ou certains animaux. En micro-conomie, on aura par
exemple relever les dpenses des mnages en divers postes.
D'une manire gnrale, la condition que doivent remplir ces tableaux
numriques pour tre l'objet d'une description par l'analyse en
composantes principales est la suivante: l'une au moins des dimensions du
tableau (les lignes en gnral) est forme d'units ayant un caractre
rptitif, l'autre pouvant tre ventuellement plus htrogne.
Dans les exemples cits, les lignes ont ce caractre rptitif: on les dsignera
en gnral sous le nom d'individus ou d'observations, les colonnes tant
dsignes sous le nom de variables. Quelquefois, ces lignes pourront tre
considres comme des ralisations indpendantes de vecteurs alatoires,
dont les composantes correspondent aux diffrentes variables.
Pour fixer les ides, nous considrons le tableau R des mesures prises sur
quelques milliers d'hommes actifs concernant leurs temps d'activits
quotidiennes. On dispose de 16 variables dcrivant des temps d'activits, en
minutes par jour (sommeil, repos, repas chez soi, etc.). Les personnes
enqutes sont regroupes en 27 groupes selon l'ge, le niveau d'ducation
et le type d'agglomration. Ce sont ces groupes qui sont observs et sont ici
considrs comme des "individus" (cf. tableau 1.2 - l, au 1.2 - 11). Il s'agit
de disposer d'un tableau de dimensions raisonnables dans le cadre d'un
expos pdagogique, et non pas d'un exemple ayant une porte
mthodologique gnrale, une des attitudes de base en analyse descriptive
des donnes tant au contraire "de ne pas rduire a priori le champ de
l'observable" .
Le tableau R aura en colonne les 16 mesures caractrisant les 27
observations. Le terme gnral rij de ce tableau dcrit la dure moyenne de
l'activit j de l'observation i (constituant un groupe d'individus).
Nous voulons avoir une ide de la structure de l'ensemble des 16 activits,
ainsi que des similitudes ventuelles de comportement entre les groupes
d'individus retenus.
1.2.2 Interprtations gomtriques
Les reprsentations gomtriques entre les lignes et entre les colonnes du
tableau de donnes permettent de reprsenter visuellement les proximits
entre les individus et entre les variables.
a - Pour les n individus
Dans RP, les n(n-l) distances attaches aux couples de points qui
reprsentent des individus ont une interprtation directe pour
l'utilisateur:
P
d
2
(i i') - "'(r." - r.., .)2
, - L..J /) 1 )
j=l
[1.2 -1]
34 Mthodes factorielles - chapitre 1
Il s'agit ici de la distance euclidienne classique. Deux points sont trs
voisins si, dans l'ensemble, leurs p coordonnes sont trs proches. Les
deux individus concerns sont alors caractriss par des valeurs presque
gales pour chaque variable. Dans l'exemple voqu ci-dessus, deux
individus reprsents par des points proches consacrent les mmes
temps aux mmes activits.
b - Pour les p variables
Si les valeurs prises par deux variables particulires sont trs VOlsmes
pour tous les individus, ces variables seront reprsentes par deux points
trs proches dans Rn. Cela peut vouloir dire que ces variables mesurent
une mme chose ou encore qu'elles sont lies par une relation
particulire.
Toutefois la dfinition de ces proximits dans les deux espaces est assez
fruste. Des problmes d'chelle de mesure se posent d'emble : le temps
consacr au sommeil est toujours beaucoup plus important que le temps
pass la lecture.
Par ailleurs, dans un cadre plus gnral, comment calculer la distance entre
deux variables si l'une est exprime en centimtre et l'autre en
kilogramme? Comment interprter un loignement moyen dans RP? Est-ce
que deux individus assez proches dans RP ont des valeurs assez voisines
pour chacune des variables, ou au contraire trs proches pour certaines et
loignes pour d'autres?
L'analyse en composantes principales norme permet de donner des
lments de rponses ces questions.
1.2.3 Analyse du nuage des individus
Nous considrons tout d'abord ici le nuage des n individus non pondrs.
Nous voulons, dans l'espace des variables, ajuster le nuage de n points par
un sous-espace une, puis deux dimensions, de faon obtenir sur un
graphique une reprsentation visuelle la plus fidle possible des proximits
existant entre les n individus vis--vis des p variables.
a - Principe d'ajustement
Ce n'est donc plus la somme des carrs des distances l'origine en
projection qu'il faut rendre maximum (cf. formule [1.1 -1]), mais la somme
des carrs des distances entre tous les couples d'individus:
{
Il Il }
Max L L d ~ i , i )
(H) i i'
1.2 _ Analyse en Composantes Principales 35
Autrement dit, la droite d'ajustement Hl ne doit pas tre astreinte passer
par l'origine, comme Ho dans l'analyse gnrale (figure 1.2 -1).
HO
espace RP
Figure 1.2 - 1
Droite d'ajustement du nuage de Il points
Si hi et hi' dsignent les valeurs des projections de deux points-individus i
et i' sur Hl, on a la relation classique:
n n 2 n n nn
Id
2
(i, i') = I(hj - 14.) = nIh? +nI 'li) - 2IhjIhj,
i,i' ;,i' i, i,i' i
= 2n
2
(!:. 14
2
_Ti
2
) = 2n(hj _Ti)2
n i i
o Ti dsigne la moyenne des projections des n individus:
_ 1 n
h=-Ihi
n i
et correspond la projection sur Hl du centre de gravit G du nuage dont la
jme coordonne vaut:
1 n
1'j =- I1j
n .
1
o
Figure 1.2 - 2
Projections sur Hl
Par consquent, on a :
n Il
Id
2
(i, i') = 2n Id
2
(i,G)
i,i'
36 Mthodes factorielles - chapitre 1
Rendre maximum la somme des carrs des distances entre tous les couples
d'individus revient maximiser la somme des carrs des distances entre les
points et le centre de gravit du nuage G :
MaX(H) ~ i A i i'))
l",
est quivalent :
Si l'origine est prise en G, la quantit maximiser sera nouveau la somme
des carrs des distances l'origine, ce qui correspond au problme de
l'analyse gnrale dans IIV (cf. 1.1.2).
Le sous-espace cherch rsulte de l'analyse gnrale du tableau transform
X, de terme gnral:
x - r,.. -r'
1) - 1) )
b - Distance entre individus
La distance entre deux individus i et i' est la distance euclidienne usuelle
donne par la formule [1.2 1].
Il peut exister des valeurs de j pour lesquelles les variables correspondantes
sont d'chelles trs diverses, (exemple: temps pass au sommeil, temps
pass la lecture); on veut que la distance entre deux points soit
indpendante des units sur les variables. On peut parfois dsirer, surtout
lorsque les units de mesures ne sont pas les mmes, faire jouer chaque
variable un rle identique dans la dfinition des proximits entre
individus: on parle alors d'analyse en composantes principales norme.
Pour cela on corrige les chelles en adoptant la distance:
P n-r,
d
2
( i, i') =If-.!L..!..l.)2
j=l sr
Jn
Sj dsignant l'cart-type de la variable j :
2 1 n 2
Sj = - I/r,j - ry)
n i=l
Finalement, nous retiendrons que l'analyse norme dans RP du tableau
brut R est l'analyse gnrale de X, de terme gnral:
n - r'
x .. - _')__) [1.2 - 2]
1) - sj..Jn
Toutes les variables ainsi transformes sont "comparables" et ont mme
dispersion:
1.2 _ Allalyse eIt Composalltes Prillcipales 37
Les variables sont centres rduites. On mesure l'cart la moyenne en
nombre d'carts-types de la variable j.
c - Matrice diagonaliser
En rsum, l'analyse du nuage des points-individus dans RY nous a amen
effectuer une translation de l'origine au centre de gravit de ce nuage et
changer, dans le cas de l'analyse norme, les chelles sur les diffrents axes.
L'analyse du tableau transform X nous conduit diagonaliser la matrice
C =X'x.
Le terme gnral Cjj' de cette matrice s'crit:
n
Cjj' = LXijXij'
i
soit:
1 n (r,' - rj )(7)" - r.)
c"'=-L J J J
JJ n. ss ..
1 J J
c'est--dire:
Cjj' = corO, j'Y
Cjj' n'est autre que le coefficient de corrlation empirique entre les variables j
et j' (d'o l'utilit du coefficient ...;n introduit au dnominateur de la
relation [1.2 - 2]),
La matrice diagonaliser est donc la nultrice de corrlations.
d - Axes factoriels
Les coordonnes des n points-individus sur l'axe factoriel Ua (a
ime
vecteur
propre de la matrice C associ la valeur propre -
a
) sont les n composantes
du vecteur:
'Va = XUa
Le facteur 'Va est une combinaison linaire des variables initiales.
Puisque le nuage des individus est centr sur le centre de gravit, la
moyenne du facteur est nulle:
et sa variance vaut:
var('Va) =-
a
La coordonne du point-individu i sur cet axe s'crit explicitement:
p p 1'," - r
'liai = LUajXij = LUaj.L.,J-
j=1 j=1 sj".Jn
38
1.2.4
Mthodes factorielles - chapitre 1
Analyse du nuage des points-variables
L'analyse gnrale dveloppe dans la section prcdente nous a montr
qu'en effectuant un ajustement dans un espace, on effectuait implicitement
un ajustement dans l'autre espace. Nous avons volontairement choisi de
commencer en travaillant dans ]RP. Dans cet espace, la transformation du
tableau R initial selon la relation [1.2 - 2] avait deux objectifs:
- d'une part obtenir un ajustement qui respecte dans la mesure du possible
les distances entre points-individus;
- d'autre part, faire jouer des rles similaires toutes les variables dans la
dfinition des distances entre individus.
Notons que la formule [1.2 - 2] ne fait pas intervenir de faon symtrique les
lignes et les colonnes du tableau initial R.
Que signifie, dans ]RI1, la proximit entre deux points-variables j et j' si l'on
prend comme coordonnes de ces variables les colonnes du tableau
transform X ?
a - distances entre points-variables
La distance entre variables dcoule de l'analyse dans ]RP. Calculons la
distance euclidienne usuelle entre deux variables j et j':
Il
d
2
(j, j') ='lJXij - Xij'/
;=1
soit:
2 Il 2 Il 2 n
d (J' J") - 'x" + 'x'" - 2' XX'
, - L 1) L 1) L 1) 1)
i=1 i=1 i=1
Remplaant Xij par sa valeur tire de [1.2 - 2] et tenant compte du fait que:
Sf -1~ r ; n 2
) - n L 1) )
;=1
Il 2 Il Il
on obtient: IX;j =Ix' =1 et galement: Ix;jXij' =Cjj'
;=1 ;=1 ;=1
D'o la relation liant la distance dans R. Il entre deux points-variables j et j'
et le coefficient de corrlation Cj{ entre ces variables:
ce qui implique:
d
2
(j, j'Y = 2 (1 - Cjj' )
o 5 d
2
(j, j'Y 5 4
[1.2 - 3]
Dans l'espace ]Rn, le cosinus de l'angle de deux vecteurs-variables est le
coefficient de corrlation entre ces deux variables (Cjj' =cos (j, j'Y). Si ces deux
1.2 _ Analyse en Composantes Prillcipales 39
variables sont la distance 1 de l'origine (i.e. si elles sont de variance unit),
le cosinus n'est autre que leur produit scalaire.
Figure 1.2 - 3
Systme de proximits entre deux points-variables
Le systme de proximits entre points-variables induit par la relation [1.2 - 3]
est familier au statisticien:
- Deux variables fortement corrles sont trs proches l'une de l'autre
(Cjj' =1) ou au contraire les plus loignes possible (Cjj' =-1) selon que la
relation linaire qui les lie est directe ou inverse:
- Deux variables orthogonales (Cjj' = 0) sont distance moyenne.
Les proximits entre points-variables s'interprtent donc en termes de
corrlations.
Co., -1
J} -
d(j, j') "" 0
Cjj' "" 0
d(j, j'Y "" o[i
Cjj' ",,-1
d(j, j')"" 2
Figure 1.2 - 4
Corrlations et distances entre points-variables
b - Distance l'origine
L'analyse dans ]Rn ne se fait pas par rapport au centre de gravit du nuage de
points-variables, contrairement celui des points-individus, mais par
rapport l'origine.
La distance d'une variable j l'origine 0 s'exprime par:
40 Mthodes factorielles - chapitre 1
2 n 2
d (O,j) =LXij =1
i=1
Tous les points-variables sont sur une sphre de rayon 1 centre l'origine
des axes, la sphre des corrlations.
Les plans d'ajustement couperont la sphre suivant de grands cercles (de
rayon 1), les cercles des corrlations, l'intrieur desquels se trouveront les
points-variables.
projection de 4 variables
Plan factoriel
"cercle des corrlations"
Figure 1.2 - 5
Reprsentation de la sphre et du cercle des corrlations
Remarque
La transformation analytique simple [1.2 - 2] a dans les espaces R. P et Rn des
interprtations gomtriques diffrentes. Considrons par exemple l'opration de
centrage des variables Tij ( Tij - fj) :
Dans RP, cette transformation quivaut une translation de l'origine des axes
au centre de gravit (ou point moyen) du nuage (cf. figure 1.2 - 6).
Dans R. n, cette transformation est une projection paralllement la premire
bissectrice des axes sur l'hyperplan qui lui est orthogonaP (cf. figure 1.2 -7).
o
Figure 1.2 - 6
Transformation dans R. P
1 La matrice P d'ordre (n,n) associe cette transformation a pour terme gnral
Pii' = 0;;, - o 8;;, = 1 si i = i', et 0 sinon. P est idempotente: p2 = P.
n
1.2 _ Analyse en Composantes Principales
ind2
IR
n
avec n=2
Figure 1.2 - 7
Transformation dans IRn
41
c - Axes factoriels ou composantes principales
Nous avons vu dans l'analyse gnrale ( 1.1.4.) qu'il est inutile de procder
la diagonalisation de la matrice XX' d'ordre (n,n) une fois connus les
vecteurs propres Ua et les valeurs propres
a
de la matrice C = X'X.
Le vecteur va = ~ u est en effet un vecteur propre unitaire de XX',
-y
a
relativement la mme valeur propre
a
. Le aime facteur dans IR
n
s'crit:
q>a = X' va = ~ X' XUa = uaJ
-y
a
comme \jfa = XUa' on a:
1 X'
<Pa =r:;= \jf a
'lJ
a
alors les coordonnes factorielles <Pal' des points-variables sur l'axe 0: sont
les composantes de X'va soit encore! de ua.ji:;; :
et l'on a :
l/'aj = cor(j, If! a) [1.2 - 4]
La coordonne d'un point-variable sur un axe n'est autre que le coefficient
de corrlation de cette variable avec le facteur \jf a (combinaison linaire des
variables initiales) considr lui-mme comme variable artificielle dont les
coordonnes sont constitues par les n projections des individus sur cet axe.
1 Ce sont en quelque sorte des sous-produits des calculs dj effectus dans l'autre
espace.
42 Mthodes factorielles - chapitre 1
Les axes factoriels tant orthogonaux deux deux, on obtient ainsi une srie
de variables artificielles non corrles entre elles, appeles composantes
principales, qui synthtisent les corrlations de l'ensemble des variables
initiales.
Remarques
1) L'analyse en composantes principales ne traduit que des liaisons linaires entre
les variables. Un coefficient de corrlation faible entre deux variables signifie donc
que celles-ci sont indpendantes linairement alors qu'il peut exister une relation de
degr suprieur 1 (liaison non linaire).
2) La coordonne d'un point-variable sur l'axe Ct est ncessairement infrieure 1
en valeur absolue:
P 2.
et: L,cor (j,'JIa)=l
a=l
3) Le nuage de points-variables dans IR." n'est pas centr sur l'origine.
1.2.5 Individus et variables supplmentaires
On dispose d'informations complmentaires que l'on veut rapporter
l'analyse des temps d'activits des hommes actifs regroups en catgories.
Par exemple, on veut enrichir cette analyse par une srie d'indicateurs
d'habitudes de frquentation-mdia, constituant des variables continues et
par le niveau d'ducation et l'ge qui sont des variables nominales. On
dsire galement positionner, dans le nuage analys, des groupes de femmes
actives, que l'on va mettre en lignes supplmentaires.
Le tableau de donnes R peut tre ainsi complt en colonne par un tableau
n lignes et Ps colonnes R+ et en ligne par un tableau R+ n
s
lignes et p
colonnes. Il n'est pas ncessaire de connatre le tableau R1 n
s
lignes et Ps
colonnes croisant individus et variables supplmentaires (cf. figure 1.2 - 8).
P P5
n
R
R+
R+ Rt
'-
x
x+
Figure 1.2 - 8
Lignes et colonnes supplmentaires
Les tableaux R+et R+ vont tre respectivement transforms en tableaux X+ et
X+ de faon rendre ces nouvelles lignes et colonnes comparables celles de
X.
1.2 _ A/lalyse ell Composalltes Prillcipales 43
Dans l'espace Rn les ps points-variables supplmentaires peuvent tre
continues ou nominales
1
.
a - Individus supplmentaires
Pour situer les individus supplmentaires par rapport aux autres dans
l'espace R.P il est ncessaire de les positionner par rapport au centre' de
gravit du nuage (dj calcul sur les n individus) et de diviser les
coordonnes par les carts-types des variables (dj calculs sur les n
individus). D'o la transformation:
r+ij - ~
x+ij=---
Sj
Les coordonnes des nouveaux points-individus sont donc les n
s
lignes du
vecteur X+u
u
'
En appelant X
s
le tableau [ ~ ] on obtient simultanment les n + n
s
coordonnes des individus analyss et supplmentaires en effectuant le
produit Xsu
u
.
b - Variables continues supplmentaires
Dans R. n, pour que les distances entre variables s'interprtent encore en
termes de corrlations, ces variables doivent tre valeurs numriques
continues et il est indispensable d'effectuer la transformation:
+ -+
+ r ij - rj
X i j ~
J
On calcule donc les nouvelles moyennes et les nouveaux carts-types
correspondant aux variables supplmentaires, pour positionner celles-ci sur
la sphre de ra yon unit.
Les coordonnes des ps variables supplmentaires sur cet axe sont donc les
ps lignes du vecteur X+'vu et correspondent chacune au coefficient de
corrlation entre la variable et le facteur (cf. formule [1.2 - 4]).
c - Variables nominales supplmentaires
Si la variable mettre en supplmentaire est nominale, on ne peut plus
effectuer la mme transformation.
Dans ce cas, on ramne la variable nominale ayant m modalits, m
groupes d'individus dfinis par les modalits de la variable. On traite
1 L'homognit de nature des variables supplmentaires n'est plus exige sous rserve
des transformations indiques.
44 Mthodes factorielles - chapitre 1
ensuite ces m groupes d'individus comme des individus supplmentaires.
Ce sont les centres de gravit de ces groupes d'individus qui vont tre
positionns dans l'espace RP.
Supposons, par exemple, que l'on mesure la taille et le poids de 10
individus et que l'on dsire mettre en supplmentaire la variable sexe.
Nous disposons du tableau de mesures reprsent figure 1.2 - 9.
variables variable nominale
continues

supplmentaire
modalit 1 modalit 2
actives 2 modalits
(homme) (femme)
taille poid sexe
1taille lPoidsl taille poids
----
1
150 45 2
150 45
168 68 1
168 68
175 72 1
175 72
178 70 2
178 70
i
185 70 1
==>
185 70
160 53 2
160 53
165 49 2
165 49
180 90 1
180 90
175 65 2
175 65
10
174 72 2
174 72
-
lignes 1 177 1 75 1
= 1
177
1
75
1
1167
1
59
1
supplm.
167 1 59 1
Figure 1.2 - 9
Les modalits de la variable nominale supplmentaire
sont des individus supplmentaires
On calcule alors la taille et le poids moyens des hommes (177; 75) et celui des
femmes (167; 59). Ce sont ces points moyens qui vont tre positionns parmi
les points-individus.
F
2
j
F
2
lo:hom 1

*
0
*
*: fem


0
* * * *

0 0
0

0 0 Oc ,..

0
0*
,..* .2,..

G



0

G

FI
0c1o.O 0 *
* *
F
1

0
*

0 0 0
* *
*
0
*



0 0
*


0
0

0
Figure 1.2 - 10
Reprsentation d'une variable nominale supplmentaire
La reprsentation par deux points G
1
et G
2
d'une variable nominale deux
modalits est esquisse sur la figure 1.2 - 10.
1.2 _ Analyse en Composait tes Principales 45
L'analyse d'une variable nominale supplmentaire ne se fait donc pas dans
Rn mais dans IfV .
La figure 1.2 - 11 schma tise le posi tionnement des variables
supplmentaires :
F
2
lments actifs
F
2


---
.....,.."' ..........."".....

j'

./
li
l
'\
/

!
~ \ 3



!


FI
\/
............... ~ 2
FI



\}\,



w "'.///






.v"X.



t ~ ...

...
nuage des individus
'(
variables nominales
supplmentaires

nuage des variables


'f
1.2.6
Figure 1.2 - 11
Reprsentation des variables supplmentaires
Reprsentation simultane
L'analyse du nuage des variables est dduite de celle du nuage des
individus: la reprsentation des variables sur les axes factoriels dans ]Rn aide
l'interprtation des axes factoriels dans RP et rciproquement.
a - Reprsentation spare des deux nuages
Mais les deux nuages ne sont pas dans le mme repre, ce qui rend
impossible la reprsentation simultane des individus et des variables.
46 Mthodes factorielles - chapitre 1
Dans l'espace RP Dans l'espace Rn
L'analyse du nuage des n points- L'analyse du nuage des p points-
individus se fait dans le repre: variables se fait dans le repre:
{G, uI""'u
cv
"" upl {O,vI"'" V cv''''v
n
}

/ / / ~ t ; ; ~
~

u
2

i 0
,
G
l
~
vI!


ul
\

//


\,

~ ...... ~ ..... ~
../
... ...v
.............
......
La reprsentation des individus sur les
La reprsentation des variables sur les
axes factoriels fournit la meilleure
axes factoriels fournit une synthse
visualisation approche des distances
graphique de la matrice de corrlations.
entre les individus.
Figure 1.2 - 12
Nuage des individus dans RP
Figure 1.2 - 13
Nuage des variables dans IRn
Les proximits entre individus s'interprtent en termes de similitudes de
comportement vis--vis des variables et les proximits entre variables en
termes de corrlations. Il faut bien se garder d'interprter la distance
sparant un point-variable d'un point-individu car ces deux points ne font
pas partie d'un mme nuage dans un mme espace: la superposition de ces
deux plans factoriels est dnue de sens.
b - Justification d'une reprsentation simultane
Cependant si l'on considre non plus des points-variables mais des
directions de variables dans IRP, on peut alors envisager de reprsenter
simultanment, dans cet espace, la fois les points-individus et des vecteurs
reprsentant les variables.
Dans l'espace IRP des n points-individus, aprs transformation du tableau de
donnes, on dispose de deux systmes d'axes:
- les anciens axes unitaires (el,e2,. .. ,ej,... ep) correspondant aux p variables
avant l'analyse o :
ej' =(0,0, ...,1,0,...,0)
{ej, (j = l, ..., p)} est le systme d'axes de rfrence pour les coordonnes
initiales des individus.
- les nouveaux axes unitaires {ua, (ex =l, .. .,p)} constitus des axes factoriels.
La possibilit d'une reprsentation simultane rside alors dans la
projection (en ligne supplmentaire) de l'ancien axe ej sur le nouvel axe uu.
1.2 _ Analyse eu Composantes Principales
La coordonne de la projection de ej sur Ua. vaut:
ej Ua. = ua.j
47
individui
x =
('l.p)
variable il o... 0 1 0 ... 01 ancien axe ej dans RP
Figure 1.2 - 14
Ancien axe dans RP en supplmentaire
La variable j est lin individu particulier
Il est ainsi possible de reprsenter dans RP les directions donnes par les
variables d'origine sur le plan factoriel du nuage des individus; ces
directions peuvent tre matrialises par des vecteurs unitaires. Ces
vecteurs constituent le repre d'origine dans lequel on a construit le nuage
des individus. Ils sont donc orthogonaux deux deux 1.
Ce qui s'appellera reprsentation simultane est donc "l'crasement" du
repre orthonorm des axes d'origine sur le plan factoriel du nuage des
individus.
F
2
.//'....

/'

l
j

F
1
"
\ ..

"\;."
Figure 1.2 - 15
Projection des anciens axes sur le plan factoriel
du nuage des individus
Rappelons que, dans R/l, la coordonne de la variable j sur l'axe ex est gale
au coefficient de corrlation (cf. formule [1.2 - 4]) entre la variable et le
facteur et vaut:
1 Il apparat donc clairement que cette reprsentation des variables est distincte du
nuage de variables dcrit prcdemment.
48 Mthodes factorielles - chapitre 1
<l'aj ={f;;Uaj
Les deux nuages des variables ne concident donc pas. Ils diffrent l'un de
l'autre par une dilatation dfinie sur chaque axe par le coefficient {f;;.
Dans le cas de la reprsentation simultane, qui est en fait une
reprsentation dans H.P, on n'interprte pas la distance entre deux variables
en terme de corrlation, puiqu'il s'agit en ralit des extrmits de deux
vecteurs unitaires orthogonaux
1
. L'interprtation de la distance entre deux
variables (en terme de corrlation) ne peut se faire
2
que dans IR. n. En tenant
compte de ces considrations, il est licite de comparer, sur la reprsentation
simultane, les positions respectives de deux individus vis--vis de
l'ensemble des variables, ou de deux variables vis--vis de l'ensemble des
individus.
On dispose ainsi d'une perspective dforme du systme d'axes originel
tenant compte des liaisons existant entre les variables initiales.
La direction d'une variable dfinit des zones pour les individus: d'un ct,
ceux qui prennent des fortes valeurs pour cette variable et, l'oppos, ceux
qui prennent des valeurs faibles. On s'intressera l'loignement des
individus dans la direction de la variable. A l'intersection des axes se
trouvent les valeurs moyennes de toutes les variables.
Remarques:
1) Si l'chelle des coordonnes des points-variables a une interprtation en termes
de corrlations, il n'en est pas de mme pour les points-individus. On appliquera il
leurs coordonnes un coefficient de dilatation convenable. La valeur JiilP assure
souvent un positionnement dans le plan compatible avec la rpartition des points-
variables et permet ainsi une reprsentation quilibre des deux nuages.
2) Dans la reprsentation simultane, il ne peut y avoir de variables continues
supplmentaires (elles ne constituent pas des axes d'origine pour le positionnement
des individus). Il peut y avoir des variables nominales supplmentaires car ce sont
des individus supplmentaires.
1.2.7 Analyse en composantes principales non norme
L'analyse en composantes principales non norme revient considrer le
nuage de points centr et non rduit. On gnralisera l'analyse en faisant
jouer maintenant chaque point-individu un rle proportionnel sa masse
(ce que l'on aurait videmment pu faire propos de l'analyse norme).
1 Toutes ces distances sont gales ...[2 dans l'espace complet.
2 On note toutefois que le nuage projet des extrmits des vecteurs unitaires dans lRP
et le nuage des extrmits des vecteurs variables dans Rn ont gnralement des allures
voisines, surtout si les valeurs propres sont presque gales, car alors la dilatation est
peu dformante.
1.2 _ Analyse en Composantes Principales 49
a - Principe de l'analyse et nuage des individus
Plaons-nous dans l'espace RP et considrons le nuage des points-individus
pesants, centr sur le centre de gravit G. L'analyse en composantes
principales revient effectuer une analyse gnrale de points pondrs avec
comme origine le centre de gravit du nuage.
Le tableau de donnes initiales R subit plusieurs transformations: on
construit le tableau X de donnes centres et chaque individu i est affect
d'une masse ou d'un poids
1
Pi lments diagonaux de la matrice diagonale
N.
Le tableau Z soumis l'analyse en composantes principales non norme est
par consquent de la forme:
R =
(n,p)
~
(n,n) ~
Z =
(n,p)
donnes
initiales
1j
donnes
centres
Xij = rij -'j
matrice
des poids
Pi
donnes
transformes
Zij =#j(rij -j)
Figure 1.2 - 16
Transformation du tableau de donnes
en analyse en composantes principales non norme
La matrice diagonaliser est la matrice d'inertie autour du centre de gravit
du nuage G:
A =Z'Z =X'NX
de terme gnral:
n
ajj' = "iPi(rij - j )(rij' - 'j')
;=1
Si les masses reprsentent des frquences, alors la matrice diagonaliser est
la matrice des covariances.
A partir de l, on dtermine les axes factoriels Ua tels que u ~ u a = 1. Les
coordormes factorielles sur ces axes sont donnes par:
'l'a = XUa
dont les composantes s'crivent:
P
li!ai = I.<'ij -'j )uaj
j=l
1 Les termes de masse et de poids sont utiliss indiffremment en statistique. Ils
dsignent souvent des frquences relatives ou des probabilits a priori.
50
avec:
Mthodes factorielles - chapitre 1
n 2
L Pil/!;a =
a
i=1
b - Nuage des variables
L'analyse du nuage des Pvariables dans IR
n
revient faire l'analyse gnrale
du tableau Z :
avec:
n n
LP; =1 et rj =LPir;j
;=1 ;=1
La distance induite entre deux variables s'exprime par:
n
d
2
(j,j') = IJz;j - Zif)2
;=1
soit:
n n n
d
2
(J' J") = z? + "z?, - ZZ'
, L 'l LJ 'l L 'l 'l
;=1 ;=1 ;=1
Par consquent! :
d
2
(j, j') = var( j) +var( j') - 2cov(j, j') [1.2 - 5]
cov(j,j') > 0
...:"d 20,j')
..jVar(j')
o ..... i

cov(j,j') = 0
i'\ : .
""i
cov(j,j') < 0
Figure 1.2 -17
Distance entre deux variables
La distance entre deux variables s'exprime en terme de covariance et
augmente avec les variances. Elle diminue si la liaison est positive et
augmente si la liaison est ngative.
La distance d'une variable l'origine des axes est sa variance:
2 n 2 Il 2
d (0, j) = var(j) =IZ;j =LP;(r;j - rj)
;=1 ;=1
1 La formule [1.2 - 3] est un cas particulier lorsque varO)=varQ')=l, c'est--dire lorsqu'il
s'agit d'une analyse en composantes principales norme.
1.2 _ Analyse ell Composantes Principales 51
Par consquent, pour l'analyse en composantes principales non norme, la
sphre de corrlations n'est plus l'espace de dpartI.
1.2.8 Analyses non-paramtriques
Ces mthodes ne diffrent de la prcdente que par une transformation
prliminaire des donnes. Elles sont recommandes lorsque les donnes de
base sont htrognes. Elles donnent des rsultats d'une grande robustesse,
se prtant par ailleurs des interprtations simples en termes statistiques.
a - Analyse des rangs
Le tableau initial des donnes est transform en tableau de rangs.
L'observation i de la variable j consiste alors en un classement qij : c'est le
rang de l'observation i lorsque les n observations sont classes par ordre de
grandeur. Dans ces conditions, la distance entre deux variables jet j'est
dfinie par la formule
2
:
d
2
(j, j') = ( ~ 1) (qij - qij' /
n n - n+ i=l
L'utilisation des rangs sera justifie dans les contextes suivants:
- Les donnes de base peuvent tre elles-mmes des classements, auquel
cas ce type d'analyse s'impose.
- Les chelles de mesure des variables peuvent tre si diffrentes que
l'opration de rduction pratique par l'analyse en composantes
principales norme reste insuffisante. De plus cette opration ne remdie
pas par exemple la dissymtrie des distributions. Il parat enfin plus
justifi de synthtiser une famille de classements qu'un ensemble trs
htrogne de mesures.
- Les hypothses a priori faites implicitement sur les mesures sont plus
faibles et par consquent moins arbitraires: la loi des distances est
maintenant non-paramtrique; nous disposerons donc de seuils de
confiance qui ne dpendront que de l'hypothse de continuit des lois
des observations, plus plausible que celle de normalit.
- Enfin, les reprsentations fournies sont robustes, trs peu sensibles
l'existence de valeurs aberrantes, ce qui sera souvent une qualit
apprciable.
Les rgles d'interprtation se dduisent de celles de l'analyse en
composantes principales puisque c'est cette analyse que l'on effectue aprs
1 Dans une reprsentation simultane, les anciens axes (distance 1 de l'origine) seront
toujours dans un cercle de corrlations (cf. 1.2.6.).
2 On reconnat dans cette formule le complment 1 du coefficient de corrlation de
Spearman (cf. Kendall, 1962).
52 Mthodes factorielles - chapitre 1
l'opration de transformation en rangs
1
. La proximit entre deux variables
s'interprte en terme de corrlation de rangs: deux variables seront trs
proches pour des classements voisins des observations; au contraire, deux
variables loignes correspondront des classements pratiquement
inverses. Deux observations seront proches si elles ont des rangs similaires
pour chacune des variables. Enfin, dans la reprsentation simultane, on a
une ide de l'ensemble du classement des observations pour une variable
en examinant les positions respectives de cette variable et de l'ensemble des
observations 2.
b - Analyse en composantes robustes
Le critre d'ajustement des moindres-carrs est particulirement bien adapt
la distribution normale. Dans le cas d'une distribution uniforme (cas de
l'analyse des rangs), il tend donner une importance excessive aux
observations extrmes. On rendra donc plus robuste l'analyse par une
transformation qui "normalise" la distribution uniforme des rangs.
Considrons la k
ime
observation de n observations ranges et soit F la
fonction de rpartition de la loi Normale. On remplacera l'observation de
rang k par la valeur yk tire de la jonction de rpartition inverse de la loi
Normale
3
:
Yk =F-
1
(_k_)
n+1
F
o !k
Figure 1.2 - 18
Transformation suivant la fonction de rpartition inverse de la loi Normale
Pour n grand, la transformation est quivalente au remplacement de la
k
ime
observation par l'esprance de la k
ime
observation dans un
chantillon rang de n valeurs normales.
1 Notons qu'il n'est pas indispensable ici de rduire en terme d'cart-type car tous les
rangs ont la mme variance.
2Ajoutons enfin que le caractre non-paramtrique de la reprsentation obtenue permet
de procder des tests de validit sur les valeurs propres. La loi des valeurs propres
issues de l'analyse d'un tableau de rangs ne dpend en effet que des paramtres n et p,
nombres de lignes et de colonnes du tableau. Il est donc possible de procder une
tabu lation permettant de connatre les seuils de signification des valeurs propres.
3 On trouve dj ce type de transformation dans Fisher et Yates (1949).
1.2 _ Analyse ell Composantes Principales
1.2.9 Aperu sur les autres mthodes drives
53
De nombreuses techniques sont directement drives de l'analyse en
composantes principales. Les variantes non-paramtriques du paragraphe
prcdent en sont des exemples.
Certaines prsentations de l'analyse des correspondances (cf. section 1.3)
considrent cette mthode comme une analyse en composantes principale
particulire. Cela est possible si l'on traite les deux espaces (lignes et
colonnes) sparment, ce qui n'est pas l'optique choisie ici. Ce traitement
spar masque un des apports mthodologiques fondamentaux des analyses
factorielles descriptives. L'analyse en composantes principales, qu'il s'agisse
d'analyse norme ou non-norme, analyse les individus par rapport leur
centre de gravit et les variables par rapport l'origine des axes. Cette
dissymtrie de traitement des lignes et des colonnes correspond des
domaines d'applications spcifiques et induit des rgles d'interprtation
particulires. La dcomposition aux valeurs singulires (ou encore analyse
gnrale, ou thorme d'Eckart et Young) est bien le noyau thorique
commun aux deux mthodes.
Citons parmi les mthodes drives l'analyse des corrlations partielles ou
analyse avec variables instrumentales (Rao, 1964), qui sera aborde au
chapitre 3, section 3.6. Dans ce cas, on ne se contente plus d'liminer les
effets de l'htrognit des variables (oprations de centrage et de
rduction) mais on se propose d'liminer galement l'effet d'autres
variables, en procdant une rgression multiple pralable. L'analyse
logarithmique (Kazmierczak,1985) est une analyse en composantes
principales non-norme du tableau (doublement centr en lignes et en
colonnes) des logarithmes des variables initiales. Cette variante possde
d'intressantes proprits de stabilit et de robustesse.
D'autres techniques enfin, comme la rgression sur composantes
principales ( 3.2.5) ou la classification sur facteurs (section 2.4) sont plutt
des techniques complmentaires que drives.
1.2.10 Elments pour l'interprtation
Les axes factoriels permettent d'obtenir la meilleure visualisation approche
(au sens des moindres carrs) des distances entre les individus d'une part et
entre les variables d'autre part. Pour interprter les facteurs, il faut apprcier
correctement cette approximation. On procdera dans un premier temps
un examen de l'inertiel de chaque facteur puis on s'intressera aux
lments contribuant construire et dfinir les facteurs.
1 Inertie, terme emprunt la mcanique, est ici synonyme de variance, terme
statistique.
54 Mthodes factorielles - chapitre 1
a - Inertie lie aux facteurs
Rappelons que la valeur propre (ou l'inertie lie un facteur) est la variance
des coordonnes des points-individus sur l'axe correspondant. C'est un
indice de dispersion du nuage des individus dans la direction dfinie par
l'axe.
Il n'existe pas de critres simples et dfinitifs qui permettent de se prononcer
sur l'importance d'une valeur propre. Les problmes de validit des
rsultats communs l'ensemble des mthodes factorielles seront tudis
plus systmatiquement dans le chapitre 4. On mentionnera ici simplement
les rgles pratiques les plus courantes.
Dans une analyse norme, la somme des inerties est gale au nombre de
variables et donc l'inertie moyenne vaut 1. Chaque axe tant une
combinaison particulire des variables d'origine, on s'intresse en gnral
aux axes ayant une inertie "notablement" suprieure la moyenne!. On
observe souvent une dcroissance assez irrgulire des premires valeurs
propres (Figure 1.2 - 19).
Si les donnes sont peu structures (les variables ne sont pas fortement
corrles entre elles), le nuage a une forme "rgulire". Dans ce cas, les
valeurs propres sont rgulirement dcroissante" (Figure 1.2 - 20) et
l'analyse factorielle ne fournira pas des rsultats intressants.
l""'A*A*Io"'* AAA"*"""'A;U
1" "
I-
I-
I-
I-
I-
l''
l'
1* liA A,,,,,,,,, IiIiAI"UItU U A'" >UA/tH
IAA"*UA* AltA __ /<AHA " ... "
1*"* A'***AAAAAUUUAUHU**UA--.
l'
.............,_.................-.....-
1" .... " AA'*' Ji ... JI ViA' Ali'
1 ... ", ... AH "
1
.........
I-
I-
I-
I......
,-
1'-
1....
I-
i'
Figure 1.2 - 19
Paliers dans la dcroissance
des valeurs propres
Figure 1.2 - 20
Dcroissance rgulire
des valeurs propres
Les pourcentages d'inertie des axes dfinissent les "pouvoirs explicatifs" des
facteurs: ils reprsentent la part de la variance (ou inertie) totale prise en
compte par chaque facteur. Son apprciation doit cependant tenir compte du
nombre de variables et du nombre d'individus. Un taux d'inertie (relatif
un axe) gal 10% peut tre une valeur importante si le tableau possde 100
variables et faible s'il n'en a que 10. Comme nous le signalerons propos de
l'analyse des correspondances (section 1.3) et sur la validit des rsultats
1 Cette rgle, toute empirique, est adopte par certains utilisateurs.
1.2 _ Analyse en Composantes Principales 55
(chapitre 4), l'inertie est une mesure pessimiste du pouvoir explicatif des
facteurs, lie parfois de faon assez arbitraire au codage des donnes.
L'importance d'un facteur peut dpendre d'informations exognes
(variables supplmentaires par exemple).
11 existe d'autres aides l'interprtation qui permettent d'apprcier les rles
respectifs des lignes, des colonnes, des axes en analyse en composantes
principales.
b - Aides l'interprtation
On procde axe par axe pour dfinir les composantes principales. L'examen
du plan factoriel permet de visualiser les corrlations entre les variables et
d'identifier des groupes d'individus ayant pris les mmes valeurs pour les
mmes variables.
Considrons le cas de l'analyse en composantes principales norme.
- les variables
Nous ne nous plaons pas ici dans le cas de la reprsentation simultane
mais dans le nuage des variables (p points de IR
n
).
Les variables fortement corrles avec un axe vont contribuer la dfinition
de cet axe. Cette corrlation se lit directement sur le graphique puisqu'il
s'agit de la coordonne du point-variable j sur l'axe a (formule [1.2 - 4]).
On s'intresse par consquent aux variables prsentant les pl us fortes
coordonnes (ce qui les situent proches du cercle de corrlations) et l'on
interprtera les composantes principales en fonction des regroupements de
certaines de ces variables et de l'opposition avec les autres.
Rappelons que le cosinus de l'angle sous lequel on voit deux points-
variables actives dans Rn n'est autre que le coefficient de corrlation de ces
deux variables. Selon la qualit de l'ajustement, cette proprit sera plus ou
moins bien conserve en projection. On se gardera d'interprter la distance
entre deux variables actives qui ne sont pas proches du cercle de corrlation.
Ainsi l'examen du plan factoriel permet de visualiser les distances relles et
donc les corrlations entre les variables actives et d'apprcier la qualit de
leur reprsentation. La figure 1.2 - 22 du paragraphe suivant donne un
exemple de cercle des corrlations dans le plan des deux premiers facteurs.
Dans le cas des variables continues supplmentaires, les corrlations n'tant
pas transitives, il est prudent de ne pas interprter abusivement les
proximits entre variables en terme de corrlation, bien que celles-ci en
soient souvent de bonnes images. Ceci sera comment plus loin au 1.2.11.
- Les individus
Si les points-individus ne sont pas anonymes pour l'tude, on s'intresse
ceux qui participent la formation des axes. On calcule la contribution de
56 Mthodes factorielles - chapitre 1
chaque point i (de masse mi) l'inertie de l'axe Ct. Celle-ci s'exprime par la
formule:
2
C
(
') - mi lJfai
ra 1 -

a
o
a
est l'inertie de l'axe Ct et est la contribution de l'individu i
l'inertie de cet axe. On a:
n
I,Cra(i) = 1
i=l
On s'intressera surtout aux individus qui ont les plus fortes contributions
relatives aux axes.
Lorsque les n individus sont affects d'une mme masse gale 1/ n,
l'inertie d'un point varie comme sa distance au centre de gravit, Les
individus qui contribuent le plus la dtermination de l'axe sont les plus
excentrs et l'examen des coordonnes factorielles ou la lecture du
graphique suffisent interprter les facteurs dans ce cas. La reprsentation
des individus sur le plan factoriel permet d'apprcier leur rpartition et de
reprer des zones de densits plus ou moins fortes.
- Possibilit d'apparition de facteur "taille"
L'analyse du nuage des variables se faisant partir de l'origine, les variables
peuvent tre toutes situes du mme ct d'un axe factoriel. Une telle
disposition apparat lorsque toutes les variables sont corrles positivement
entre elles. Si pour un individu, une variable prend une valeur forte, toutes
les autres variables prennent galement des valeurs fortes. Cette
caractristique apparat le plus souvent sur le premier axe, que l'on appelle
alors "facteur taille" .
-ind3
.. ; ; , ..
......."........,.
o
oind4
oindS
Figure 1.2 - 21
Exemple de Facteur taille
o
ind7-
oind8
-indl
ind2
0
-ind6
On peut lire, par exemple sur la figure 1.2 - 21, que les individus 4 et 5 ont
des comportements semblables caractriss par des valeurs faibles pour les
1.2 _ Analyse en Composantes Principales 57
trois variables, alors que les individus 2 et 8 ont au contraire simultanment
des bons "scores" pour ces mmes variables. L'orthogonalit des axes fait
qu'il ne peut exister qu'un seul facteur taille.
1.2.11 Exemple d'application
Nous prsentons ici l'exemple (cf. tableau 1.2 - 1) relatif aux temps
d'activits quotidiennes voqu au paragraphe 1.2.1.
Le CESP (Centre d'tude des Supports de Publicit) a relev, dans son
Enqute Budget-temps Multimdia de 1991/1992 auprs de 17 665 personnes,
des descripteurs de frquentation de divers mdias (radio, tlvision, presse)
et des temps d'activits quotidiennes (cf. Boeswillwald, 1992). Ont t
galement releves de nombreuses caractristiques socio-conomiques,
parmi lesquelles l'ge, le sexe, l'activit, le niveau d'ducation, et le lieu de
rsidence de ces personnes, ce qui a conduit crer 96 catgories en croisant
ces divers critres.
Nous nous intressons seulement ici la sous-population des hommes
actifs, soit 27 groupes qui seront, pour cet exemple, les "individus". On
cherche connatre les associations entre les temps consacrs diffrentes
activits par les "individus" observs et tudier les liens entre ces familles
d'activits et les caractristiques de base des individus.
Enfin, on se propose d'tudier le lien entre les activits quotidiennes et la
frquentation de divers mdias (presse, radio, tlvision, cinma). Pour ce
faire, on fera intervenir les caractristiques socio-conomiques (variables
nominales) et les habitudes de frquentation des mdias (variables
numriques continues) en tant que variables supplmentaires.
Lecture du tableau 1.2 - 1
(16 variables continues actives)
Les 27 "individus" (qui sont en ralit dans le cadre de cet exemple des
groupes d'individus) sont reprs par un identificateur en 4 caractres:
-le 1er caractre est l'ge du groupe (l=jeune, 2=moyen, 3=g)
- le 2me caractre est ici toujours gal 1 (car il s'agit ici d'une slection
d' hommes actifs) .
- le 3me est le niveau d'ducation (l=primaire, 2=secondaire,3=suprieur)
-le 4me est le type d'agglomration (l=communes rurales; 2=villes
moyennes; 3=villes importantes; 4=agglomration parisienne;
5,6,7 =groupes mixtes).
(On trouvera des libells plus dtaills des variables dans le tableau 1.2 - 2
ci-aprs.)
On lit par exemple sur la premire ligne du tableau 1.2 - 1 que le groupe
'1111' Ueunes, actifs, peu instruits, ruraux) consacre en moyenne par jour
463.8 minutes au "sommeil", 23.8 minutes des activits regroupes sous la
rubrique "repos", 107.3 minutes pour les "repas chez soi", etc.
Tableau 1.2 - 1: Budget-temps agrg quotidien de 27 groupes d'hommes actifs
1DENT Somm Repo Reps Repr Trar Mna Visi Jard Lois Disq Lect Cour Prom A pi Voit Frq
U1
00
1111
1115
1121
1122
1123
1124
1136
1133
1134
2111
2112
2117
2121
2122
2123
2124
2131
2132
2U3
2134
3116
3117
3121
3122
3123
3136
3137
463.8
515.6
463.3
456.4
478.0
465.1
458.4
457.2
465.2
449.0
450.2
455.2
461. 9
453.7
433.1
438.3
457.7
455.0
467.3
433.5
473 .0
461. 9
453.4
485.1
456.7
444.2
438.4
23.8
58.5
34.2
43.1
44.2
41.6
47.4
30.7
40.2
42.1
63.
47.
39.3
44.7
49.8
32.8
44.0
47.0
37.5
35.6
51.5
60.0
45.6
53.5
43.2
53.6
50.7
107.3
102.7
84.8
74.2
76.7
85.2
94 .7
82.0
78.6
86.2
86.7
95.6
90.3
97.5
91. 7
102.3
87.9
78.9
86.9
76.1
99.3
103.7
86.2
86.0
94.6
90.7
81. 0
4.8
10.4
17 .1
21.9
15.2
23.7
15.1
26.2
31.1
7.9
9.8
9.0
8.5
18.7
12.6
11.1
6.9
31.6
21.9
17 .1
6.3
9.
7.8
.3
12.1
7.2
11.2
300.0
208.8
298.3
239.0
212.3
226.0
314.3
269.8
268.6
312.5
249.6
250.8
323.5
269.0
283.7
)J8.3
313.0
380.6
264.0
355.0
356.3
240.5
358.7
222.
265.3
302.4
306.6
21.3
41.9
18.1
26.0
22.3
37.0
25.3
52.1
36.3
15.1
40.4
30.4
14.9
23.1
22.4
28.0
24.4
23.9
40.8
34.1
21.2
35.3
12.9
24.7
30.5
31.7
19.3
51. 0
30.0
37.8
51.2
42.0
42.5
39.1
37.6
21.6
16.1
55.6
13.5
21.7
39.6
21.0
6.5
23.2
7.
27.6
13.4
27.6
14.5
18.5
23.2
23.7
16.4
23.8
82.3
32.9
55.8
59.7
43.7
16.3
42.4
35.6
4.0
112.9
83.3
57.3
81. 8
93.5
62.9
64.8
63.8
40.0
33.4
31.7
82.1
83.4
54.4
91.9
61.1
97.6
10.5
10.0
2.1
18.4
18.4
18.4
10.7
16.9
25.6
19.4
15.4
3.0
7.9
15.4
3.1
13.1
13.8
9.2
13.0
11.9
12.6
8.6
1.4
4.2
8.5
9.1
4.7
13.6
1.2
4.6
5.9
3.6
2.3
8.7
.9
6.0
6.0
.0
2.2
.9
1.2
3.4
6.2
1.4
.6
.0
1.6
.2
.0
.0
.0
.0
2.
2.4
.0
.0
.6
2.6
.6
6.4
9.4
16.7
8.0
14.8
2.2
.0
.0
5.3
12. 1
7.3
19.8
11.8
10.3
10.8
13.2
1.5
7.
.9
3.7
11.
4.3
18.
41.3
33.7
30.7
52.2
48.3
44.3
34.5
42.8
46.9
32.1
45.0
52.2
26.0
42.0
38.1
34 .9
30.0
23.3
5 . j
37.5
35.7
46.1
34.3
52.9
50.1
38.8
67.6
6.9
8.3
5.9
9.5
14.7
13.7
4.6
10.4
10.7
7.6
9.
15.1
3.8
12.1
11.6
7.4
7.3
1.4
6.7
8.
13.4
5.7
3.3
7.1
17.
13.6
8.
7.1
24.6
8.8
10.8
15.5
19.8
6.4
12.0
21. 9
8.1
10.4
15.7
7.4
10.6
Il.7
14 . 1
7.5
9.
lu.7
22.3
7.1
16.6
10.3
9.9
13.2
Il.4
18.6
52.
29.
56.
72.7
72.8
59.0
61.5
81.4
48.3
60.1
61. 9
49.1
59.6
62.4
47.6
53.2
69.7
59.4
72.8
57.5
40.6
53.3
48.7
75.
46.3
61.8
63.1
135.8
225.8
135.8
142.3
167.7
145.1
103.4
107.6
82.4
153.9
145.4
194.8
130.8
129 .1
168.6
130.5
108.3
100.0
135.2
96.5
107.7
183.7
143.1
166.3
185.3
127.2
143.3
1.2 _ Analyse en Composantes Principales 59
L'analyse du tableau de donnes (tableau 1.2 -1) nous conduit tout d'abord
calculer les paramtres descriptifs lmentaires regroups dans le tableau
1.2 - 2. Les moyennes et cart-types vont servir transformer les variables de
base et n'interviendront plus directement dans la suite. Il importe donc de
prendre connaissance de ces mesures de niveau et de dispersion. Les valeurs
extrmes sont galement utiles pour apprcier la qualit de l'information
recueillie.
Ce tableau donne les mmes paramtres pour les variables continues
supplmentaires. Pour le thme "budget-temps", trois variables seront
projetes a posteriori: autres activits, total des activits domicile, total des
activits dclares en dplacement, ces deux dernires tant des
regroupements de variables actives; pour le thme "frquentation mdia"
(qui donne lieu une mesure de dure globale au niveau des variables
actives) six variables dcrivent les intensits de contacts avec le cinma, la
radio, la tlvision, les presses quotidiennes et magazines, en isolant dans
celle-ci les hebdomadaires dits "News".
Tableau 1.2 - 2
Statistiques sommaires des variables continues
effectif total: 27
IDEN - LIBELLE
variables actives
MOYENNE ECART- MINIMUM MAXIMUM
TYPE
Somm - Sorruneil
Repo Repos
Reps - Repas chez soi
Repr - Repas restaurant
Trar - Travail rmunr
Mna - Mnage
Visi - Visite amis
Jard - Jardinage, Bricolage
Lois - Loisirs extrieur
Disq - Disque cassette
Lect - Lecture livre
Cour - Courses dmarches
Prom - Promenade
A pi - Dplacement a pied
Voit - Dplacement en Voiture
Frq - Frquentation Mdia
458.91
44.63
89.18
13.87
286.27
27.90
27.64
58.49
11. 42
2.54
7.95
40.99
9.06
12.66
58.38
140.58
16.47
8.90
8.90
7.82
46.75
9.29
13.26
27.39
5.95
2.32
5.47
9.47
3.88
5.01
11.29
32.56
433.10
23.80
74.20
.30
208.80
12.90
6.50
4.00
1. 40
.00
.00
23.30
1. 40
6.40
29.40
82.40
515.60
63.10
107.30
31. 60
380.60
52.10
55.60
112.90
25.60
8.70
19.80
67.60
17.60
24.60
81.40
225.80
Variables continues supplmentaires
Autr - Autres activits
Domi - Total Domicile
Tdep - Total Dplacement
Habitudes Cinema
Habitudes Radio.
Habitudes Tlvision
Habitudes Presse Quotidienne
Habitudes Presse magazine
Habitudes Hebdomadaires News
12.71
928.73
88.45
.14
1. 92
3.20
.18
3.56
.31
5.70
49.92
14.65
.14
.23
.37
.14
.74
.18
2.10
826.00
67.50
.00
1.49
2.13
.03
2.00
.00
25.90
1034.00
122.10
.60
2.64
3.90
.53
5.31
.67
Tableau 1.2 - 3 : Matrice des corrlations, et valeurs propres correspondantes
0'\
0
Sommei 1 1 1.00
Repos .21 1. 00
Repas c. .21 .10 1. 00
Repas r. -.08 -.30 -.53 1. 00
T'ravail -.52 -.28 -.02 -.01 1. 00
Mnage .20 .08 -.01 .39 -.46 1. 00
Visites .27 -.08 -.07 .10 -.47 .15 1.00
Jardin. -.09 .19 .43 -.64 .08 -.37 -.02 1. 00
Loisirs -.17 -.61 -.55 .52 .10 -.01 .12 -.39 1. 00
Disques .07 -.17 -.15 .52 -.46 .50 .30 -.42 .25 1. 00
Lecture -.44 -.21 -.15 .3B .24 .OB -.36 -.51 .27 -.01 1.00
Courses -.04 .1B -.17 -.03 -.56 .23 .24 -.24 -.01 .OB .18 1.00
Promen. .00 .09 .04 -.02 -.45 .27 .18 -.01 -.05 .40 -.03 .48 1. 00
A pied .17 .15 -.14 .28 -.38 .49 -.18 -.62 -.09 .48 .27 .37 .30 1. 00
Voiture -.19 -.22 -.55 .21 -.15 .10 .27 .03 .44 -.09 .15 .23 -.11 -.33 1. 00
Frq.medl .40 .42 .37 -.44 -.62 .05 .01 .18 -.45 .07 -.38 .30 .28 .28 -.33 1.00
Somm Repo Reps Repr Trar Mna Visi Jard Lois Disq Lect Coue Prom A pi Voit Frq
+---+
1i'lUMER. 1 VALEUR 1POURCENTAGES 1POURCENTAGES
1 1 PROPRE 1 1CUMULES
1 3.871 24.20 24.20
2 3.660 22.88 47.07
3 2.006 12.54 59.61
4 1.514 9.47 69.08
5 1.126 7.04 76.12
6 . 837 5.23. 81.35
7 .766 4.79 86.15
8 . 596 3.73 89.87
9 .444 2.78 92.65
10 .374 2.34 94.99
11 .246 1. 54 96.53
12 .222 1. 39 97.92
13 .161 1. 01 98.93
14 .114 .72 99.64
15 .037 .23 1 99.88
16 .019 .12 1100.00
HISTOGRAMME DES 16 PREMIERES VALEURS PROPRES
1 ** *.* ~ ~ t t t _ t __ t __ ._ _
f tt.tttt __ t _ _ _ _tt.*t _t. __ ll _
1 .t'.tt._ ,._ _ _ _ _ _._
1 * *_ ,
1 tt_.*.t.*
1 .t.k*ttt_tt _._
1 ..... ,.. * li"" * li II * ...
1 *.******:1110***
1 :1;.,.. * "' "'.,.. .. .,.. 11" *
1
1
1
1
1
1
1
1.2 _ Analyse en Composantes Prillcipales 61
La matrice des corrlations (tableau 1.2 - 3) nous fournit des lments de
description des associations entre variables actives. Sa lecture nous donne
une premire ide du rseau d'interrelations existant entre les variables,
mais l'analyse en composantes principales va permettre d'obtenir une
synthse de ces liaisons.
Le premier rsultat est constitu par la liste des valeurs propres et des
pourcentages de variance (cf. tableau 1.2 - 3). La somme des valeurs propres
est gale au nombre de variables soit 16. Les deux premiers axes fournissent
presque la moiti de l'inertie (47%) mais l'on sait que ces quantits sont
d'interprtation dlicate. On note cependant, la vue de l'histogramme,
qu'il existe une concentration nette du nuage dans un sous-espace deux
dimensions, le plan factoriel principal.
On lira sur le tableau 1.2 - 4 les coordonnes des points variables sur les trois
premiers axes ainsi que les coordonnes des extrmits des axes unitaires (cf.
1.2.6) destins une ventuelle reprsentation simultane des individus
et des variables. Les deux premires valeurs propres tant voisines (3.871 et
3.660), leurs racines carres le sont galement (1.97 et 1.91) et donc les
nuages bidimensionnels des points variables et des anciens axes unitaires
auront des allures trs voisines (cf. 1.2 - 6).
Tableau 1.2 - 4
Coordonnes des variables actives sur les axes 1 3
VARIABLES COORDONNEES ANCIENS AXES UNIT.
1 2 3 1 2 3
Sommeil .22 -.52 .18 .11 -.27 .13
Repos .46 -.40 -.17 .23 -.21 -.12
Repas chez soi .67 -.15 -.23 .34 -.08 - .17
Repas restaurant -.84 .00 -.07 -.43 .00 -.05
Travail rmunr .05 .88 -.34 .03 .46 -.24
Mnage -.40 -.57 -.08 -.20 -.30 -.06
Visite amis -.13 -.33 .73 -.07 -.17 .52
Jardinage, Bricolage .76 .22 .35 .39 .11 .25
Loisirs extrieur -.72 .30 .30 -.37 .16 .21
Disque cassette -.53 -.53 .01 -.27 -.27 .01
Lecture livre -.54 .24 -.50 -.27 .12 -.36
Courses dmarches -.21 -.54 .11 - .11 -.28 .08
Promenade -.10 -.58 .04 -.05 -.30 .03
A pied -.37 -.62 -.57 -.19 -.33 -.40
En Voiture -.41 .22 .65 -.21 .11 .46
Frquentation Mdia .49 -.68 -.05 .25 -.36 -.03
La figure 1.2 - 22 donne une reprsentation des variables sur les deux
premiers axes factoriels. Les donnes tant ici centres rdui tes, les
coordonnes des variables sur les axes sont les coefficients de corrlations
entre ces variables et les facteurs.
Le premier axe oppose les activits extrieures ou d'ouverture (lecture,
loisir extrieur, repas restaurant, dplacement en voiture) des activits
plus intrieures Oardinage, jeux, bricolage, repas chez soi). Le deuxime axe
oppose essentiellement l'activit professionnelle (travail rmunr) aux
62 Mthodes factorielles - chapitre 1
activits de temps disponible ou libre (promenade, disque cassette,
frquentation mdia) mais aussi le temps pass au mnage et au sommeil.
F2
-1
-1
+1
FI
Figure 1.2 - 22
Reprsentation des 16 variables actives dans le plan des facteurs 1 et 2
Les variables supplmentaires (tableau 1.2 - 5 et figure 1.2 - 23) relatives aux
dplacements et aux mdias illustrent ces propos. Les activits "total
dplacement" et "total domicile" caractrisent bien le premier axe. La presse
quotidienne et surtout le cinma sont corrls aux activits dites
d'ouvertures, pour lesquelles le temps pass en dplacement est important.
Le temps pass au domicile est pratiquement au centre de gravit des
activits Repos, Jardinage-bricolage, Repas chez soi, Tlvision, qui est le
media dominant en dure.
Tableau 1.2 - 5
Coordonnes des variables supplmentaires
(ou illustratives) sur les axes 1 3
VARIABLES COORDONNEES
1 2 3
Autres activits .08 .16 .04
Total Domicile .67 -.50 -.21
Total Dplacement -.72 .05 .14
Habitudes Cinema -.87 - .11 -.14
Habitudes Radio. -.27 -.57 .07
Habitudes Tlvision .04 -.55 .34
Habitudes Presse Quot -.39 .01 -.70
Habitudes Presse mag -.24 -.38 -.26
Habitudes Hebdo-News -.46 .20 -.48
1.2 _ Analyse ell Composalltes Prillcipales
+1
63
Hab. News
-1
\.
\

1+1
1
i
1
/
/
Figure 1.2 - 23
Positionnement des variables supplmentaires
(plan de la figure 1.2 - 22)
On pressent le rle de certaines caractristiques sodo-conomiques, qui
seront positionnes dans l'espace des individus. Les positions des individus
dans le plan factoriel (tableau 1.2 - 6 et figure 1.2 - 24) vont permettre
d'expliquer certaines des corrlations observes.
Ainsi, deux groupes (1133 et 1134) se distinguent l'extrme gauche du
premier axe: il s'agit de jeunes actifs instruits des grandes mtropoles
rgionales ou de Paris, qui ont un profil d'activit typ (lecture, repas au
restaurant, .... ), expliquant eux deux 35% de la variance le long de cet axe.
Le second groupe (1115 : jeunes peu instruits habitant dans des communes
de profils varis) se distingue sur le deuxime axe (contribution de 26%).
Remarquons aussi que ce mme groupe a une distance l'origine des axes
(colonne Dl5TO, c'est--dire carr de la distance l'origine) anormalement
leve (47.51) qui confirme son atypicit.
On vrifie sur le tableau de donnes 1.2 - 1 que ce groupe a un temps de
travail moyen exceptionnellement faible (208.8, valeur qui est d'ailleurs le
minimum de cette variable donn par le tableau 1.2 - 2) et des temps
maxima pour "dplacement pied" et "frquentation mdia" (il s'agit
essentiellement d'coute tlvision).
Souvent, dans les applications en vraie grandeur, les individus sont
beaucoup plus nombreux et les identificateurs renvoient en gnral un
64 Mthodes factorielles - chapitre 1
numro de questionnaire ou d'observation. Les variables nominales sont
alors projetes selon la procdure indique au paragraphe 1.2.5.c.
Tableau 1.2 - 6
Coordonnes, contributions et cosinus carrs
des individus sur les axes 1 et 2
INDIVIDUS COORDONNEES CONTRIBUT. COS. CARRE
IDENTIF. DISTO 1 2 1 2 1 2
1111 19.89 2.01 .85 3.8 .7 .20 .04
1115 47.51 2.26 -5.11 4.9 26.4 .11 .55
1121 10.55 -.71 1. 01 .5 1.0 .05 .10
1122 13.29 -1.86 -.64 3.3 .4 .26 .03
1123 14.49 -1.28 -1. 81 1.6 3.3 .11 .23
1124 19.06 -2.72 -2.93 7.1 8.7 .39 .45
1136 10.68 -.56 1. 97 .3 3.9 .03 .36
1133 27.04 -4.21 -.30 17.0 .1 .66 .00
1134 25.35 -4.29 -.91 17.6 .8 .73 .03
2111 12.86 1. 91 2.12 3.5 4.5 .28 .35
2112 17.27 1. 43 -1. 68 2.0 2.8 .12 .16
2117 10.89 1. 03 -2.16 1.0 4.7 .10 .43
2121 10.96 1. 27 2.55 1.5 6.6 .15 .59
2122 7.92 .62 -.21 .4 .0 .05 .01
2123 8.33 .30 -.33 .1 .1 .01 .01
2124 15.54 -.12 2.06 .0 4.3 .00 .27
2131 7.39 .55 2.03 .3 4.2 .04 .56
2132 24.45 -1.17 3.53 1.3 12.6 .06 .51
2133 7.85 -1.63 - .11 2.5 .0 .34 .00
2134 17.19 -2.54 1. 36 6.2 1.9 .37 .11
3116 16.19 2.68 .96 6.9 .9 .45 .06
3117 15.96 2.43 -1. 84 5.7 3.4 .37 .21
3121 13.00 1. 90 2.11 3.4 4.5 .28 .34
3122 17.31 2.12 -.95 4.3 .9 .26 .05
3123 10.26 .56 -1. 74 .3 3.1 .03 .30
3136 9.09 1. 56 .09 2.3 .0 .27 .00
3137 21. 68 -1.55 .08 2.3 .0 .11 .00
Le tableau 1.2 - 7 fournit les coordoJU1es des modalits (ou catgories) de ces
variables qui sont, rappelons-le, les centres de gravit des individus
concerns.
Ces centres de gravit ont t ports sur la figure 1.2 - 24 et les modalits
contigus d'une mme variable nominale (il s'agit en fait de variables
ordinales) ont t jointes par des lignes polygonales. Dans l'hypothse o
les groupes correspondant une modalit particulire pourraient tre
considrs comme tirs au hasard parmi les 27 groupes, ces centres de
gravit ne devraient pas s'loigner beaucoup du centre de gravit du nuage
(origine des axes factoriels).
On peut convertir cette distance au centre de gravit en "valeur-test"!, qui
sera alors la ralisation d'une variable normale centre rduite (deux
premires colonnes du tableau 1.2 - 7).
1 Ces aides l'interprtation sont abordes dans un cadre plus gnral l'occasion de
l'analyse des correspondances multiples, au paragraphe 1.4.4.a.
......
2132
F2
N
1

;::
2121
l:l

2111
!Il
<Il
21 4
Agglol
3121
<Il
1136 2131

;::
rJ
/ c
/
;:!

/
C
2134
!Il
/

1121
/
...
<Il
/
3116
!Il
1111
'"

n
3137
-ii.
l:l

3.6 2.4 2.4


!Il
FI
1133
2123
1122
1134
-1.2
3123 2112
1123 3117
2117
1124 1115
0'>
U1
Figure 1.2 - 24 : Positionnement des individus (symboles 4 chiffres) et des variables nominales (Age, niveau d'ducation, catgories d'agglomration)
66 Mthodes factorielles - chapitre 1
Tableau 1.2 - 7
Valeurs-test et coordonnes des modalits
supplmentaires sur les axes 1 et 2
MODALITES VALEURS-TEST COORDONNEES
IDEN - LIBELLE EFFECT. 1 2 1 2
AGE
A-35 - Jeunes 9 -2.3 -1. 6 -1.26 -.87
A+35 - Age-Moy 11 .3 1.8 .15 .83
A+50 - Ages 7 2.1 -.3 1. 39 -.18
Education
prim
-
primaire 7 3.0 -1.5 1. 96 -.98
seco
-
secondaire 11 .0 -.2 .01 -.08
supe
-
superieur 9 -2.8 1.6 -1. 54 .86
Agglomration (EXTRAITS)
AGG1
- -
de 20 000 6 1.6 2.5 1.15 1.78
AGG2 - de 20 a 100 000 5 .3 .0 .23 .01
AGG3
-
Plus de 100 000 5 -1.5 -1.1 -1. 25 -.86
AGG4 - Paris 4 -2.6 -.1 -2.42 - .11
Autrement dit, dans l'hypothse d'un tirage au hasard, la valeur-test d'une
catgorie supplmentaire a 95 chances sur 100 d'tre comprise dans
l'intervalle [-1.96 et +1.96]1. Comme on le lit sur le tableau 1.2 -7, la valeur-
test du point "Paris" sur l'axe horizontal est de -2.6. C'est une modalit dont
la position est significativement diffrente de l'origine.
La figure 1.2 - 24, tout comme le tableau 1.2 - 7, montrent que les trois
variables nominales permettent surtout d'identifier le premier axe,
opposant les jeunes instruits urbains aux personnes plus ges et moins
instruites. Seules les communes rurales (Agglol) semblent lies au second
axe.
Le lecteur de ces graphiques doit garder l'esprit le fait qu'il s'agit ici
d'identification passive par des variables nominales d'une analyse ralise
uniquement partir des temps d'activit. 11 ne s'agit pas d'une tude des
liaisons existant entre ces variables nominales, mme si certaines
proximits peuvent paratre familires.
1 Naturellement, l'intervalle de confiance prcdent est trop troit, car le test est rpt
sur plusieurs modalits; il convient de ne le considrer que comme donnant un ordre
de grandeur.
Section 1.3
Analyse des Correspondances
L'analyse des correspondances, prsente sous ce nom et dveloppe par
Benzcri (1969), a un certain nombre de prcurseurs, parmi lesquels il fa ut
citer Guttman (1941), Hayashi (1956).
Comme l'analyse en composantes principales, l'analyse des
correspondances peut tre prsente selon divers points de vue. Il est
d'ailleurs difficile de faire l'historique prcis de cette mthode. Les principes
thoriques remontent probablement aux travaux de Fisher (1940) sur les
tables de contingences, dans un cadre de statistique infrentielle classique.
Depuis les travaux de Benzcri (1973) et de Escofier-Cordier (1965), on utilise
surtout les proprits algbriques et gomtriques de l'outil descriptif que
constitue l'analyse
1
. Cette mthode n'est pas un cas particulier de l'analyse
en composantes principales bien que l'on puisse se ramener cette
technique en faisant des changements de variables appropris ( condition
de traiter chaque espace sparment). On peut la prsenter comme un cas
particulier de l'analyse canonique (cf. section 3.1) lorsque les donnes ont un
codage "disjonctif" et galement comme un cas particulier de l'analyse
discriminante (cf. section 3.3). On peut enfin montrer qu'il s'agit de la
recherche de la meilleure reprsentation simultane de deux ensembles
constituant les lignes et les colonnes d'un tableau de donnes (cf. 1.3.3).
1.3.1 Domaine d'application
L'analyse des correspondances a un domaine d'application diffrent de
l'analyse en composantes principales. Alors que l'on rserve cette dernire
aux tableaux de mesures ventuellement htrognes et au traitement de
variables numriques continues, l'analyse des correspondances est une
mthode adapte aux tableaux de contingence et permet d'tudier les
ventuelles relations existant entre deux variables nominales. Nous
verrons la section suivante (1.4) qu'elle fournit, par extension, des
descri ptions satisfaisantes de certains tablea ux de codages discontinus.
Le tableau de contingence (dit aussi de dpendance, ou tableau crois) est
obtenu en ventilant une population selon deux variables nominales.
1 Les anctres les plus lointains de l'analyse des correspondances seraient, de faon
tout fait indpendante, Richardson et Kuder (1933) et Hirschfeld (1935). Les
premiers auteurs visaient une meilleure slection des vendeurs de la socit Practer and
Gambie, alors que le dernier tudiait une proprit de statistique mathmatique. Cette
varit de contextes est caractristique de l'analyse des correspondances, mthode
aussi utile en pratique que stimulante du point de vue thorique. Cf. les rfrences
historiques de Hill (1974), Benzcri (1982 a).
68 Mthodes factorielles _ chapitre 1
L'ensemble des colonnes du tableau dsigne les modalits d'une variable et
l'ensemble des lignes correspond celles de l'autre variable. De ce fait, les
lignes et les colonnes, qui dsignent deux partitions d'une mme
population, jouent des rles symtriques et sont traites de faon analogue.
1.3.2 Dmarche et principe: une introduction lmentaire
Nous allons utiliser, pour illustrer notre propos, une table de contingence
de faible dimension pour laquelle le recours l'analyse des correspondances
ne se justifie pas vraiment, mais qui va permettre de prsenter de faon
simple les principes de cette mthode et les proprits qui en dcoulent
1
.
Bien que les lignes et les colonnes jouent un rle similaire, nous
conservons les mmes notations que pour l'analyse gnrale.
Considrons le tableau de contingence K n lignes et p colonnes obtenu en
ventilant une population de 592 femmes suivant leurs couleurs des yeux et
des cheveux.
Tableau 1.3 - 1
Tableau de contingence,
rpartition de 592 femmes suivant les couleurs des yeux et des cheveux.
couleur des cheveux
brun chtain roux blond Total
marron 68 119 26 7 220
couleur noisette 15 54 14 10 93
des vert 5 29 14 16 64
veux bleu 20 84 17 94 215
Total 108 286 71 127 592
Source: Snee (1974)
En lignes est prsente la variable "couleur des yeux" n =4 modalits (ou
catgories) et en colonnes est donne la variable "couleur des cheveux"
p = 4 modalits.
A l'intersection d'une ligne et d'une colonne, nous avons le nombre k
ij
de
femmes ayant simultanment la couleur i des yeux et la couleur j de
cheveux. Le total marginal k
i
. est le nombre de femmes ayant les yeux de
couleur i, alors que le total marginal k.
j
est le nombre de femmes ayant les
cheveux de couleur j.
On a les relations suivantes:
P
ki. = I,kij
j
1 Une prsentation technique plus dtaille sera l'objet des paragraphes suivants de la
mme section.
1.3 _ Analyse des correspondances
qui, en termes de frquences relatives, donnent lieu aux relations:
69
I,f;j = 1
i,j
Y-a-t-il indpendance entre la couleur des yeux et celle des cheveux? Sinon
quels types d'associations existent entre ces couleurs?
a - Transfonnations du tableau de contingence
Pour analyser un tableau de contingence, ce n'est pas le tableau d'effectifs
bruts qui nous intresse mais les tableaux des profils-lignes et celui des
profils-colonnes c'est--dire les rpartitions en pourcentage l'intrieur
d'une ligne ou d'une colonne.
On note les profils-lignes:
f;j k
ij
-=-
f. k.
JI. 1.
et les profils-colonnes:
Tableau 1.3 - 2
Profils-lignes (pourcentages-lignes arrondis)
couleur des cheveux
brun chtain roux blond total
couleur marron 31 54 12 3 100
des noisette 16 58 15 11 100
yeux vert 8 45 22 25 100
bleu 9 39 8 44 100
profil moyen 18 48 12 22 100
f;j kij
-=-
Ji k.j
Le tableau 1.3 - 2 des profils-lignes (multiplis par 100) indique la rpartition
de la couleur des cheveux pour chaque modalit de couleur des yeux. Ce
sont en somme les probabilits conditionnelles d'avoir les cheveux de la
couleur j sachant que les yeux ont la couleur i. Cette rpartition sur
l'ensemble de la population tudie donne le profil moyen:
k
fj =1-
Tableau 1.3 - 3
Profils-colonnes (pourcentages-colonnes arrondis)
couleur des cheveux profil
brun chtain roux blond moyen
couleur marron 63 42 37 6 37
des noisette 14 19 20 8 16
yeux vert 5 10 20 13 11
bleu 19 29 24 74 36
total 100 100 100 100 100
70 Mthodes factorielles _ chapitre 1
Le tableau 1.3 - 3 des profils-colonnes (multiplis par 100) fournit la
rpartition de la couleur des yeux suivant chaque modalit de couleur des
cheveux et le profil moyen de la couleur des yeux:
k
Ji. =1:
b - Hypothse d'indpendance
On s'intresse aux liens ventuels entre couleurs des yeux et des cheveux.
On sait qu'il y a indpendance entre deux variables alatoires i et j prenant
leurs valeurs sur deux ensembles de tailles n et p, dont la loi jointe est Pij et
les lois marginales Pi. et P.j' si pour tout i et pour tout j on a (avec les
notations usuelles) :
Pij = Pi. P.j
La traduction de cette relation en termes d'estimations empiriques est la
suivante:
fij = Afj
Naturellement, mme sous l'hypothse d'indpendance, une telle relation
n'est qu'approximativement vraie. Le classique test du X
2
de Karl Pearson
pour les tables de contingence permet prcisment d'apprcier l'cart entre
les lois empiriques fij etfJj'
Consultons le tableau 1.3 - 4 des frquences observes f;j qui n'est autre que
la tableau 1.3 - 1 divis par sa somme (592) et multipli par 100 pour plus de
lisibilit.
Tableau 1.3 - 4
Tableau de frquences observes
couleur des chevetlx profil
brun chtain roux blond moyen
couleur marron 11 20 4 1 37
des noisette 3 9 2 2 16
yeux vert 1 5 2 3 11
bleu 3 14 3 16 36
profil moyen 18 48 12 21 100
Parmi les 37% de femmes aux yeux marrons par exemple, on devrait
observer, sous l'hypothse d'indpendance, 18% de femmes brunes (ce qui
ferait alors 7% de l'ensemble des femmes, au lieu des 11 % rellement
observs), 48% aux cheveux chtains (ce qui ferait 18% au lieu de 20%), etc.
Construisons le tableau de "frquences thoriques" Afj sous l'hypothse
d'indpendance (cf. tableau [1.3 - 5]) :
1.3 _ Analyse des correspondances
Tableau 1.3 - 5
Tableau de frquences thoriques
couleur des cheveux profil
brun chtain roux blond moyen
couleur marron 7 18 4 8 37
des noisette 3 8 2 3 16
yeux vert 2 5 1 2 Il
bleu 7 18 12 8 36
profil moyen 18 48 12 21 100
71
Cette hypothse s'exprime aussi sur les profils-lignes. En effet, il en dcoule
que, quelque soit j :
/1. =fj
JI.
Si tous les profils "couleurs des yeux" sont identiques entre eux, et par
consquent identiques au profil moyen correspondant, il y a indpendance
entre les couleurs des yeux et celles de cheveux puisque la connaissance
d'une couleur des yeux ne change pas la rpartition de la couleur des
cheveux.
Il en est de mme pour les profils-colonnes o, quelque soit i :
fi - (.
fj - JI.
Ainsi, examiner les proximits entre les profils revient examiner la
proximit entre chaque profil et son profil moyen, ce qui permet d'tudier la
liaison entre deux variables nominales, c'est--dire l'cart l'indpendance.
Sur un tableau de dimension importante, la lecture directe des profils-lignes
et des profils-colonnes est difficile, ainsi que la comparaison de ces profils
avec leur profil moyen.
Nous allons voir comment la construction du nuage, le choix du critre
d'ajustement et celui de la distance, s'imposent de par la nature mme des
donnes analyses.
c - Construction des nuages
Pour l'analyse d'un tableau de contingence, nous raisonnerons en termes de
profils, ce qui permet de rendre comparables les modalits d'une mme
variable. Les proximits entre les points s'interprteront en terme de
similitude.
- Nuage des n lignes
L'ensemble des profils-lignes forme un nuage de n points dans l'espace des
p colonnes et reprsente ici le nuage des 4 modalits de couleurs des yeux.
Chaque point i a pour coordonnes dans RP:
{
lij .. -1 2 }
/i.,J- , ,...,p
72 Mthodes factorielles _ chapitre 1
Il est affect d'une masse li. qui est sa frquence relative.
Pk
Puisque L.!L =1, les n points du nuage sont situs dans un sous-espace
j=1 fi.
P-1 dimensions.
Le centre de gravit de ce nuage est la moyenne des profils-lignes affects de
leurs masses et correspond au profil moyen, c'est--dire au profil de la
couleur des cheveux sur l'ensemble de la population. Sa jme composante
vaut:
n fij_
Iii. T - fj
1=1 JI.
C'est la frquence marginale des colonnes.
- Nuage des p colonnes
De la mme faon, l'ensemble des p profils-colonnes constitue un nuage de
p points dans l'espace des n lignes et reprsente ici le nuage des 4 modalits
de couleur des cheveux.
Les coordonnes dans Rn du point j sont donnes par:
!
fi
j
.. _ 1 2 }
f
.'z- 1 ""In
-J
Chaque point est affect d'une masse fi'
Les p points du nuage sont situs dans un sous-espace n-l dimensions
nk
puisque I.!L= 1.
i=J!j
Le centre de gravit du nuage des profils-colonnes est le profil moyen de la
couleur des yeux. Sa i
me
composante vaut:
P k
.-!!L. - r.
-Jf- -JI.
J=1 .J
C'est la frquence marginale des lignes.
d - Critre d'ajustement
On cherche reprsenter gomtriquement les similitudes entre les
diffrentes modalits d'une mme variable, ce qui nous conduit
reprsenter les proximits entre les profils et le profil moyen dfini sur
l'ensemble de la population!. Ceci nous amne, comme en analyse en
1 Un nuage de points concentr autour de son centre de gravit est un nuage dont les
points-profils sont proches du profil moyen, et donc traduira une certaine
indpendance entre les deux variables nominales.
1.3 _ Analyse des correspondances 73
[1.3 - 2]
composantes principales dans le cas des points-individus, considrer le
nuage de points centr sur son centre de gravit.
Dans la construction des nuages de RP et de Rn (cf. tableaux 1.3 - 2 et 1.3 - 3),
le choix des profils comme coordonnes donne toutes les modalits de
couleur des yeux et celles de cheveux la mme importance. L'importance est
cependant restitue au travers de la masse affecte chaque point
(proportionnelle sa frquence), afin de ne pas privilgier les classes
d'effectifs faibles et de respecter la rpartition relle de la population. Cette
masse interviendra d'une part lors du calcul des coordonnes du centre de
gravit du nuage et d'autre part dans le critre d'ajustement.
Pour le calcul de l'ajustement, la quantit rendre maximale sera donc la
somme pondre des carrs des distances entre les points et le centre de
gravit du nuage (c'est--dire l'inertie de la droite d'allongement maximum
du nuage) en utilisant une distance entre profils qu'il reste dfinir.
e - Choix des distances
La distance euclidienne usuelle entre deux points-lignes exprime sur le
tableau d'effectifs bruts ne ferait que traduire les diffrences d'effectifs entre
deux modalits de couleurs des yeux. En revanche, la distance euclidienne
usuelle entre deux profils-lignes traduit bien la ressemblance ou la
diffrence entre les deux couleurs des yeux sans tenir compte des effectifs
totaux de ces modalits:
<l2(i,i') = ~ l i j _li.-:)2
J=l ft. Ji.
Cependant, cette distance favorise les colonnes qui ont une masse fj
importante c'est--dire les couleurs de cheveux qui sont bien reprsentes
dans la population tudie.
Pour remdier cela, et aussi pour d'autres proprits qui seront
dveloppes ci-dessous, on pondre chaque cart par l'inverse de la masse
de la colonne et l'on calcule une nouvelle distance appele! la distance du
X
2
:
d
2
(i,i') =~ ~ I i : _li.-:)2 [1.3-1]
J=lf
J
li. Ji .
On dfinit de la mme manire la distance entre les profils-colonnes par:
d
2(. .') _~ 1 [Iii Jir )2
J,J - ~ ---
i=l!i. f j fr
1 L'inertie totale des nuages de points lignes (ou de points colonnes) calcule avec cette
distance est proportionnelle au classique X
2
de Karl Pearson utilis pour prouver
l'indpendance des lignes et des colonnes d'une table de contingence. D'o le nom de
distance du X
2
.
74 Mthodes factorielles _ chapitre 1
profil i :
{!!J..
k
"couleur des
(i)
cheveux noisette"
li. J}
profil i':
{!il
"
couleur des
cheveux bleu"
li'. kp
poids des colonnes f.j
Figure 1.3 - 1
Distance du X
2
C'est cette distance pondre, ainsi que le rle symtrique jou par les lignes
et les colonnes du tableau de contingence, qui particularisent l'analyse des
correspondances et lui assurent des proprits remarquables que ne possde
pas l'analyse en composantes principales; l'quivalence distributionnelle et
les relations de transition.
f - Equivalence distributionnelle
La proprit d'quivalence distributionnelle permet d'agrger deux
modalits d'une mme variable ayant des profils identiques en une
nouvelle modalit affecte de la somme de leurs masses, sans rien changer,
ni aux distances entre les modalits de cette variable, ni aux distances entre
les modalits de l'autre variable.
Si par exemple les deux profils-lignes i' et i" sont identiques dans !IV, on les
agrge en un profil-ligne i dont la masse sera la somme des frquences des
deux profils i' et i". Les deux points i' et i" tant confondus cela ne modifie
pas la configuration du nuage de points dans RP.
JRP R!

e. . e.
fr.)
.

Il

Il (i"; fo .. )

Il. 1

,. 1. 1-
/'

0
1
/"
Figure 1.3 - 2
Equivalence distributionnelle: points-lignes confondus
1.3 _ Analyse des correspondances 75
Mais surtout, les distances entre colonnes restent inchanges. Il en est de
mme pour des profils-colonnes dans Rn ayant les mmes proprits.
Cette proprit est fondamentale puisqu'elle garantit une certaine
invariance des rsultats vis--vis de la nomenclature choisie pour la
construction des modalits d'une variable, sous condition de regrouper des
modalits aux profils semblables.
On ne perd pas d'information en agrgeant certaines classes et l'on n'en
gagne pas en subdivisant des classes homognes.
j'
Figure 1.3 - 3
Equivalence distributionnelle: invariance des distances entre colonnes
vis--vis de l'agrgation des lignes
Prenons le cas de deux tables de contingences issues du recensement de la
population, l'une croisant professions et dpartements, l'autre professions
et rgions. Sous l'hypothse d'homognit des dpartements d'une mme
rgion par rapport aux professions, il sera quivalent de raliser l'analyse
des correspondances sur les dpartements et sur les rgions. Les
configurations du nuage des professions, pour les deux analyses, seront
semblables (voir la dmonstration au 1.3.3.a).
g - Relations de transition ou quasi-barycentriques
Une des caractristiques de l'analyse des correspondances est l'existence de
relations de type barycentrique qui lient graphiquement les deux variables
reprsentes en ligne et en colonne.
L'ide est simple et revient reprsenter les histogrammes des profils-
colonnes dans le nuage des profils-lignes et rciproquement.
Supposons fix le nuage des couleurs des yeux (nuage des profils-lignes)
dans un espace 2 dimensions comme reprsent sur la figure 1.3 - 4. Le
centre du graphique reprsente le profil moyen (la distribution marginale)
des couleurs des yeux.
76 Mthodes factorielles _ chapitre 1
axe 2
y ~
.
y.NOISETTE
y.VERT
y.B;EU
axe 1
Figure 1.3 - 4
Nuage des couleurs des yeux
Considrons maintenant l'histogramme dcrivant le profil des cheveux
bruns suivant la couleur de yeux (cf. tableau 1.3 - 3 des profils-
colonnes) reprsent figure 1.3 - 5..
80
60
40
20
o
cheve/lx bruns
Figure 1.3 - 5
Histogramme des cheveux bruns
Cet histogramme va permettre de positionner le point-colonne "cheveux
bruns" dans le nuage des points-lignes (le nuage des couleurs des yeux) :
chaque point i reprsentant une couleur des yeux est pondr par sa
frquence relative telle qu'elle est dcrite par l'histogramme.
y.VERT
Figure 1.3 - 6
Position du point "cheveux bruns"
comme barycentre des points "couleurs des yeux"
1.3 _ Analyse des correspondances 77
On construit ainsi le barycentre de ces points qui correspond au point
"cheveux bruns". Il est contenu dans une enveloppe convexe constitue par
l'ensemble des points pondrs (cf. figure 1.3 - 6). Cette modalit sera attire
par les yeux marrons, compte tenu de sa masse plus leve. Elle sera par
contre loigne des yeux verts.
Chaque point j "couleur des cheveux" est ainsi un barycentre particulier des
points i "couleur des yeux", le point i tant affect de la masse "part de la
couleur i des yeux sachant que la couleur des cheveux est j", (c'est--dire le
profil-colonne fij / fj)'
axe2
axe 1
y.VERT
Figure 1.3 - 7
Reprsentation des points "couleurs des yeux" et positionnement
des points "couleurs des cheveux" en barycentres
Si l'on considre maintenant le nuage des profils-colonnes, c'est-dire le
nuage des couleurs des cheveux, il est naturel de procder de la mme faon
et de reprsenter l'histogramme de chaque couleur des yeux dans ce nuage.
On positionne donc chaque point-ligne i "couleur des yeux" comme
barycentre des points j "couleurs des cheveux" pondrs par la part de la
couleur j des cheveux dans la couleur i des yeux, donne par les profils-
lignes {f
ij
/ fi) (cf. figure 1.3 - 8).
ch.BRUN
Figure 1.3 - 8
Reprsentation des points "couleurs des cheveux" et positionnement
des points "couleurs des yeux" en barycentres
78 Mthodes factorielles _ chapitre 1
Les relations barycentriques vont justifier et donner un sens la
reprsentation simultane des deux nuages dfinis dans les deux espaces.
h - Justification de la reprsentation simultane
D'aprs le schma de l'analyse gnrale, on pourrait envisager l'analyse des
deux nuages de points de manire indpendante et l'interprter comme une
analyse en composantes principales o toute l'information entre les deux
nuages transite par les facteurs de mmes rangs. Compte tenu des relations
barycentriques, il en est autrement en analyse des correspondances.
Ces relations montrent qu'il existe une possibilit de reprsentation
particulire! : il est possible de positionner chaque point d'un nuage parmi
l'ensemble des points de l'autre nuage.
Ainsi, dans le nuage des profils-lignes, chaque profil-colonne est au
barycentre des points du nuage. Projet sur un plan, nous disposons d'une
premire reprsentation simultane (cf. figure 1.3 -7). De mme, chaque
profil-ligne est barycentre de l'ensemble des profils-colonnes et constitue,
avec les axes de mmes rangs, une deuxime reprsentation simultane (cf.
figure 1.3 - 8).
Mais nous voulons une seule reprsentation simultane des deux nuages
de points et la situation idale serait de les superposer.
ch.BRUN
y.MARRON
ch.CHATAI
y.NOISETTE
ch.ROUX
axe 2
y.VERT
.
y.BLEU
ch.BLOND
axe 1
Figure 1.3 - 9
Reprsentation simultane;
Relations quasi-barycentriques
Ceci est a priori impossible par dfinition mme du barycentre puisque
chaque ensemble devrait alors tre contenu dans l'autre. Il est cependant
possible de forcer cette reprsentation en dilatant (sur chaque axe) les centres
de gravit (figure 1.3 - 9). On pourra alors reprsenter sur de mmes axes (et
1 Cette possibilit est due au fait que les coordonnes d'origine (les profils) sont des
nombres positifs dont la somme vaut 1.
1.3 _ Allalyse des correspolldallces 79
donc sur un mme plan) l'ensemble des lignes et des colonnes afin
d'approcher au mieux la situation idale. Les relations seront quasi-
barycentriques (cf. 1.3.3).
Les yeux bleus s'associent aux cheveux blonds, les yeux marrons aux
cheveux bruns. Les cheveux roux sont attirs par les yeux noisettes et verts
qui les caractrisent. La catgorie des cheveux chtains est assez proche de
l'origine du plan reprsentant le profil moyen et n'est spcifique d'aucune
couleur des yeux
l
.
Nous verrons que le droulement de l'analyse des correspondances, compte
tenu des rles symtriques des lignes et des colonnes du tableau de
contingence et des proprits de la distance du X
2
, aboutit naturellement
aux relations barycentriques ( un coefficient prs qui est le coefficient de
dilatation permettant la reprsentation simultane unique).
1.3.3 Schma gnral de l'analyse des correspondances
L'analyse des correspondances revient effectuer l'analyse gnrale d'un
nuage de points pondrs dans un espace muni de la mtrique du X
2
. On
fera donc rfrence l'analyse gnrale avec des mtriques et des critres
quelconques (cf. 1.1.6.a).
a - Gomtrie des nuages et lments de base
Contrairement l'analyse en composantes principales, le tableau de
donnes subit deux transformations, l'une en profils-lignes, l'autre en
profils-colonnes, partir desquelles vont tre construits les nuages de points
dans HP et dans Rn (figure 1.3 - 10).
Pour faire le lien avec l'analyse gnrale (cf. section 1.1), nous adopterons
des notations matricielles (figure 1.3 -11).
Les transformations opres sur le tableau des donnes peuvent s'crire
partir des trois matrices F, D
n
et Op qui dfinissent les lments de base de
l'analyse.
F d'ordre (n,p) dsigne le tableau des frquences relatives; D
n
d'ordre (n,n)
est la matrice diagonale dont les lments diagonaux sont les marges en
lignes fi. ; D
p
est la matrice diagonale d'ordre (p,p) des marges en colonnes
fi"
1 On dispose le plus souvent d'un tableau de donnes de dimension importante et la
reprsentation du nuage des points non dilat et des barycentres correspondants, dans
un des espaces, fournit un graphique confus puisque les barycentres seront souvent
rassembls prs de l'origine du plan. Une seule reprsentation simultane, la
reprsentation dite quasi-barycentrique, du fait de la dilatation des nuages de points
qu'elle ncessite, offre l'avantage d'une lecture plus facile du graphique.
80
Mthodes factorielles _ chapitre 1
Tableau de contingence K
nuage des n points
dans IIV
. .
. .
..
..~ 1. : :
R P ~
nuage des ppoints
dans Rn
Figure 1.3 -10
Transformations du tableau de contingence
j
Marges-lignes 0 n
i fij --t----+"f
Frquences
relatives F
-< n
~ Profils-lignes O ~
(!!LI
k l(j)
Marges-colonnes Op
-.. Profils-colonnes utF '
k
( .!.!L
f
l
, ~ i
.)
Figure 1.3 - 11
Frquences, marges, profils
1.3 _ Analyse des correspondances 81
Les deux nuages de points (dans l'espace des colonnes et dans l'espace des
lignes) sont construits de manire analogue. Nous rcapitulons ici les
lments de base de l'analyse qui vont permettre la construction des
facteurs.
Tableau 1.3 - 6
Les lments de base de l'analyse: rcapitulation
Nuage de n points-lignes
Elments
Nuage de p points-colonnes
dans l'espace lRP
de base
dans l'espace R
I1
X = X= D
p
I
F'
Pcoordonnes (point-ligne i )
Analyse du
n coordonnes (point-colonne j )
lij . 1 2
tableau X
lij . 1 2
-, pour J= , , ... ,p. -, pourl= , , ... ,n.
li.
fj
M=D
p
I

avec
d
2
(i,i') = _Ii': r
la mtrique M
d'(j, j = i -,-[h
j
- hi' J
J=lf
J
li. Ii .
'-li; J. J..
1- l. .J .j
N=D
n
et le critre N
N=D
p
masse du point i :
li.
masse du point j :
fj
Remarques
1) La matrice N des masses dans un espace est lie la mtrique M utilise dans
l'autre espace.
2) Il existe une diffrence fondamentale avec l'analyse en composantes principales:
les transformations faites sur les donnes brutes dans les deux espaces sont
identiques (car les ensembles mis en correspondance jouent des rles analogues).
Elles correspondent des transformations analytiques diffrentes: le tableau des
nouvelles coordonnes dans l'espace des colonnes n'est pas le simple transpos de
celui des nouvelles coordonnes dans l'espace des lignes. En composantes
principales, des transformations trs diffrentes conduisaient une mme formle
analytique.
Dmonstration de l'quivalence distributionnelle
La distance du X
2
a pour effet d'accorder une mme importance, d'W1e part
aux colonnes quelles que soient leurs frquences relatives dans le calcul de
la distance entre deux profils-lignes, et d'autre part aux lignes s'il s'agit du
calcul de la distance entre profils-colonnes.
Elle offre l'avantage de vrifier le principe d'quivalence distributionnelle
l
(cf. figure 1.3 - 2). Ce principe assure la robustesse des rsultats de l'analyse
1 La distance euclidienne usuelle entre profils ne possde pas la proprit
d'quivalence distributionnelle, mais d'autres distances possdent cette proprit (cf.
Escofier, 1978).
82 Mthodes factorielles _ chapitre 1
[1.3 - 3]
des correspondances vis vis de l'arbitraire du dcoupage en modalits des
variables nominales. Il s'exprime de la faon suivante dans RP;
si deux points-lignes 1 et i2 sont confondus dans IRl, on a pour tout j :
& = fi 2j = fioj
/;1' /;2' /;0'
On a en particulier;
fid +fi
2
j = fioj
/;1' +/;2' fia.
D'o, puisque les dnominateurs sont gaux, on a pour tout j :
filj +fi
2
j = fioj
Les calculs des quantits fj = lfij ne sont donc pas affects et les distances
i
i(i,i') donnes par la formule [1.3 -1] sont invariantes.
Montrons maintenant que les distances entre colonnes ne changent pas. La
distance d
2
(j,j') donne par la formule [1.3 - 2] contient entre autres les deux
termes A(il) et A(i2) correspondant aux indices il et i2 :
A(
') A(')- ljfid fi d,)2 ljfi2
j
fi 2r )2
11 + 12 -- --- +- ----
fil' fj fr fi
2
. h fr
Ces deux termes sont remplacs par un seul terme A(iO) tel que:
A(
' ) _ 1 jfi
o
j
fi
o
])2
la -- ---
1;0' fj fr
Remarquons par exemple que;
A(i
1
)=2-J fi1j _ filr )2
fil.lfiJj fiJ]
A(il) et A(i2Y s'crivent de la mme faon et les quantits entre accolades
sont gales, d'aprs la relation [1.3 - 3], un mme nombre que l'on notera
B. On a donc:
A(il) + A(i2) = {. B+ r. B= (. B=A(io)
)11' )/2' )/0'
D'o l'invariance de la distance d
2
(j,j').
b - Critre maximiser et matrice diagonaliser
Nous voulons reprsenter graphiquement les proximits entre profils.
Nous nous plaons donc, dans les deux espaces, aux centres de gravit des
nuages. Cependant, et c'est l une des particularits de l'analyse des
correspondances, il est quivalent de procder l'analyse par rapport
1.3 _ Analyse des correspondances 83
l'origine ou par rapport aux centres de gravit, condition de ngliger dans
le premier cas l'axe factoriel qui joint l'origine au centre de gravit
l
.
Nous commencerons par effectuer l'analyse gnrale par rapport l'origine,
l'expression des formules tant plus simple, puis nous montrerons, au
paragraphe 1.3.7, l'quivalence avec l'analyse effectue par rapport aux
centres de gravit.
Plaons-nous dans l'espace des colonnes
2
RP et cherchons l'axe d'inertie
maximum du nuage des points-lignes passant par l'origine 0 et engendr
par un vecteur-unitaire u pour la mtrique DpI. Ceci nous amne
maximiser la somme pondre des carrs des projections sur l'axe (cf.
1.1.1) c'est--dire:
Max{If;. d
2
U, a)}
u .
et rendre maximale la quantit:
, 0-1F'0-I
FO
-l
u p n pU
avec la contrainte:
U'O-I
U
= 1
P
U est vecteur propre de la matrice:
S=F'O-I
FO
-l
n p
associ la plus grande valeur propre . diffrente de 1.
La matrice diagonaliser est donc la matrice S de terme gnral:
n kk'
S"- 13....!L
JJ - ('f"
i=1J/. .)
De la mme faon, on doit rendre maximum dans Rn, la quantit:
v'
avec la contrainte:

n
V est vecteur propre de la matrice:
T = FO-
1
F' 0-
1
P n
1 Cet axe est associ la valeur propre gale l, appele valeur propre triviale.
2 Compte tenu de la symtrie du tableau de contingence, les dmonstrations dans
l'autre espace se dduisent par pennutation des indices i et j (c'est--dire transposition
de Fet permutation des matrices D
p
et D
n
).
84 Mthodes factorielles _ chapitre 1
c - Axes factoriels et facteurs
Nous supposons ici que p correspond la plus petite dimension du tableau
de donnes. Aprs avoir cart la valeur propre triviale gale 1 et le
vecteur propre associ, nous retenons, de la diagonalisation de la matrice,
les p-l valeurs propres non nulles et les vecteurs propres associs. Nous
obtenons ainsi au plus p-l axes factoriels.
Tableau 1.3 - 7
Elments de construction de l'analyse
Dans RP
t- Elments de construction
Dans Rn
S = F' 0-l
FO
-l
Matrice diagonaliser
T = rn-IF' 0-
1
n p p n
SUa = aua
Axe factoriel TVa = av
a
0-l
FD
-l
0-1F' 0-
1
"'a = n p Ua
Coordonnes factorielles
<Pa = p n va
P k
n k
lJIai = l
qJ aj = l --!Lvai
j=lfi.f
J
i=lfi.f
J
Les coordonnes factorielles sont centres :
n P
LAlJIai =Ifj({Jaj =0
i=l j=l
et de variance gale a. :
[1.3 - 4J
[1.3 - 5J
d - Relation entre les deux espaces
L'analyse gnrale a montr que les matrices Set T ont les mmes valeurs
propres non nulles
a
et qu'entre le vecteur propre unitaire Ua de S associ

a
et le vecteur propre unitaire Va de T relatif la mme valeur propre, il
existe les relations dites de transition:
[1.3 -6J
[1.3-7J
La comparaison de ces
factorielles:
{
Va = :ft:;FDp
1
U
a
ua
'IJ
a
relations avec les expressions des coordonnes
et
0
-I
FO
-l
"'a= n pUa
0
-I
F
, D-l
<Pa = p n Va
[1.3 - 8J
[1.3 - 9]
1.3 _ Analyse des correspondances 85
montre que celles-ci sont lies aux composantes des axes de l'autre espace
par les formules:
[1.3 -10]
[1.3 -11]
[1.3 -12]
[1.3 -13]
e - Relations de transition (ou quasi-barycentriques)
Les substitutions dans la relation [1.3 - 9) de Va par sa valeur tire de [1.3 - 10)
et dans la relation [1.3 - 8] de Ua par sa valeur tire de [1.3 - 11] conduisent
aux relations fondamentales existant entre les coordonnes des points-
lignes et des points-colonnes sur l'axe ex, les relations quasi-barycentriques:
!
lfIai = ,f !p-'Paj
'V"'a J=1 JI.
1 n k
'Paj = FA .L
f
J
. lfIai
'V"'a 1=1 .J
1
Ainsi, au coefficient de dilatation -- prs, les projections des points

reprsentatifs d'un nuage sont, sur un axe, les barycentres des projections
des points reprsentatifs de l'autre nuage.
(
k) La matrice de terme gnral permettant de calculer les coordonnes
Ji.
d'un point i partir de tous les points j (relation [1.3 - 12)) n'est autre que le
tableau des profils-lignes.
La coordonne de la modalit i d'une des variables est la moyeIUle des
modalits j de l'autre variable pondres par les frquences conditioIUlelles
du profil de i. De mme, la relation [1.3 - 13) montre que la coordonne de la
modalit j est la moyenne de l'ensemble des modalits i pondres par les
frquences conditionnelles du profil de j.
Remarques
1) Toutes les valeurs propres sont ncessairement infrieures ou gales 1. En effet
puisque:
on a:
et finalement:
86 Mthodes factorielles _ chapitre 1
min{ Ip(1.J.} $ {i;1jI(1.; $ 71'Ulx{ Ip(1.J}
(j) (j)
d'o:
max{..[f;; 1jI(1.;} $ 71'Ulx( Ip(1.J.}
(i) (j)
De la mme manire, on a :
71'UlX [..[f;;Ip(1.J. J $ 71'Ulx{ ljIa;}
(j) (i)

71'Ul X{..[f;;Ip(1.J. }$ 71'UlX{Ip(1.J. }
(il (j)
u $. J
2) Les relations quasi-barycentriques ne sont pas des cas particuliers des relations
de transitions tablies lors de l'analyse gnrale car les matrices "de passage" ne
sont pas transposes l'une de l'autre.
<
1
pcolonnes
tableau
de
contingence
nuage de p points
dans Rn
f - Reprsentation simultane
Les relations quasi-barycentriques justifient la reprsentation simultane
des lignes et des colonnes. La figure 1.3 - 12 illustre schmatiquement le
processus de l'analyse des correspondances.
nligr-
nuage de n points
dans R
P


!J...... *C:
. ..
\

1
relations quasi-barycentriques
t
reprsentation simultane
Figure 1.3 - 12
Schma de la reprsentation simultane
1.3 _ Analyse des correspondances 87
soit
Si les mthodes factorielles sont fondes sur le calcul des distances entre
points-lignes et entre points-colonnes, la distance entre un point-ligne et un
point-colonne n'a pas de sens puisque ces points sont dans des espaces
diffrents. L'analyse des correspondances offre cependant la possibilit de
positionner et d'interprter un point d'un ensemble relatif un espace par
rapport l'ensemble des autres points dfinis dans l'autre espace.
g - Autre prsentation de l'analyse des correspondances
La recherche de la meilleure reprsentation simultane des ensembles
lignes et colonnes, introduite au paragraphe 1.3.2, est une faon de prsenter
l'analyse des correspondances qui conduit directement aux formules de
calculs analytiques des facteurs. Nous cherchons reprsenter sur un
mme axe l'ensemble des lignes et l'ensemble des colonnes, pour approcher
la situation idale suivante:
li] Chaque point-colonne j est barycentre des points-lignes i, ceux-ci tant
affects d'une masse Pi proportionnelle leur importance dans la
modalit j c'est--dire de la masse: Pi = f f i ~
.j
Ces masses constituent, pour chaque colonne j, les profils-colonnes du
Il
tableau de donnes avec LPi = 1.
i=1
[ii] Chaque point-ligne i est barycentre des points-colonnes j, chaque point-
colonne tant affect de la masse qj reprsentant la part de la modalit j
dans la modalit i c'est--dire: qj =li
fi
!
1.
Ces masses constituent, pour chaque ligne i, les profils-lignes du tableau
p
de donnes avec Lqj = 1.
j=l
Nous dfinissons ainsi des relations strictement barycentriques entre les
deux ensembles. Si <Pj dsigne la coordonne du point-colonne j sur un axe,
et si 'JI i dsigne la coordonne du point-ligne i sur ce mme axe, les
conditions li] et [ii] s'crivent respectivement:
[
Il k
Cl'j =L~ lfIi
i=lfj
Pk
lfIi =L~ I j
j=lfi.
Ces relations sont en gnral impossibles raliser simultanment, car elles
impliquent que chaque ensemble soit contenu dans l'autre. (Il existe une
solution triviale, pour laquelle tous les points des deux ensembles sont
confondus avec le point d'abscisse 1).
88 Mthodes factorielles _ chapitre 1
Pour approcher cette situation idale, nous cherchons un coefficient P
positif et le plus proche possible de l, tel que l'on ait les relations:
[1.3 -14]
[13 -15]
Remarquons que P est ncessairement suprieur (ou gal) 1 sinon les
relations [1.3 - 14] et [1.3 - 15] impliqueraient encore que chacun des deux
ensembles recouvre un intervalle de l'axe strictement contenu dans
l'intervalle recouvert par l'autre. On est donc conduit chercher le plus
petit P positif tel que [1.3 - 14] et [1.3 - 15] soient vrifies.
Dans [1.3 - 14], par exemple, remplaons '" par sa valeur tire de [1.3 - 15] :
D-
1
F' D-
1
F =J...
p n q> p2 q>
Prmultipliant l'quation de l'axe factoriel u dans llV par D
r
/ :
Dp1F' ~ l F p l u = Dp1u
On rappelle que les coordonnes factorielles dans Rn valent (cf. formule
[1.3 - 11]):
On a donc:
Dp1F' ~ l F q =<p
Et par identification, on obtient:
relations quasi-
1
P="Jf
d'o
1
=2"
P
Les relations [1.3 - 14] et [1.3 - 15] ne sont autres que les
barycentriques [1.3 - 12] et [1.3 - 13] dfinies prcderrunent
1
.
On peut tendre la recherche de la meilleure reprsentation p-barycentrique
sur un axe, celle de la meilleure reprsentation (Pl,P2)-barycentrique dans
un plan repr par deux axes orthogonaux, puis gnraliser un sous-espace
de dimension quelconque. On trouve alors la reprsentation simultane
fourme par l'analyse des correspondances 2.
1 Puisque le coefficient ~ doit tre suprieur ou gal l, on dmontre galement de
cette faon le rsultat dj tabli au paragraphe (e) ci-dessus selon lequel, en analyse
des correspondances, toutes les valeurs propres sont infrieures ou gales 1.
2 Nous verrons galement au chapitre 3 d'autres prsentation de l'analyse des
correspondances (cas particulier des analyses canoniques, discriminantes). D'autres
points de vue complmentaires sont dvelopps par Escoufier (1985,1988).
1.3 _ Analyse des correspondances 89
[1.3 -17]
h - Fonnule de reconstitution des donnes
Les calculs du paragraphe 1.1.5 s'appliquent galement au cas de l'analyse
des correspondances, en notant toutefois que les vecteurs Ua et Va sont
maintenant orthonorms pour les mtriques DpI et ~ I En partant des
relations [1.3 - 6] et [1.3 - 7] (cf. 1.3.3.d), et en suivant un raisonnement
analogue celui du paragraphe 1.1.5, on obtient la formule:
p
fij = fi,fj L~ 'Pajlflai [1.3 - 16]
a=l
qui s'crit aussi, en faisant intervenir la premire valeur propre qui vaut 1,
et les facteurs correspondants (voir plus bas, paragraphe 1.3 - 7a) :
p
fij =fifj(l+ L ~ 'Pajlflai)
a=2
1.3.4 Rgles d'interprtation: inertie, fonnes de nuages
Les nuages de points-lignes et de points-colonnes vont tre reprsents dans
les plans de projection forms par les premiers axes factoriels pris deux
deux. La lecture des graphiques ncessite cependant des rgles
d'interprtation, en particulier pour apprcier les proximits, identifier les
lments responsables de la formation des facteurs et ceux qui en sont des
caractristiques. Ces rgles s'appuient sur le bilan de l'opration de
rduction que constitue la squence des valeurs propres et des pourcentages
d'inertie, ainsi que sur un ensemble de coefficients classiques: les
contributions absolues et les cosinus carrs, qui seront tudis au paragraphe
1.3.5.
La valeur de l'inertie globale n'a pas toujours une interprtation
intressante. En analyse en composantes principales norme (section 1.2) et,
nous verrons, en analyse des correspondances multiples (section 1.4),
l'inertie totale dpend uniquement du nombre de variables. On interprte,
en revanche, les pourcentages d'inertie de chaque axe les uns par rapport
aux autres.
Les problmes de validit et de porte des rsultats seront abords au
chapitre 4 dans un cadre gnral. On se bornera dans cette section quelques
considrations gnrales.
a - Inertie et test d'indpendance
En analyse des correspondances, nous l'avons vu ( 1.3.2.e), la valeur de
l'inertie globale est lie au test classique du X
2
.
L'inertie totale l du nuage de points par rapport au centre de gravit s'crit
par dfini tion :
90 Mthodes factorielles _ chapitre 1
1 = ikd
2
(i,G) = ffl
2
(j,G) = f i/i
j
Ji,li)2
i=1 j=1 j=1i=1 fif]
L'effectif total tant k, on reconnat en kI la statistique qui est
asymptotiquement distribue suivant la loi du X
2
(n-l)(p-l) degrs de
libert (sous l'hypothse d'indpendance) :
X
2
=kI
L'inertie s'exprime galement par:
p-1
1= L,.
a
a=1
La somme des valeurs propres non triviales d'une analyse des
correspondances a donc une interprtation statistique simple. On pourra
rejeter l'hypothse nulle d'indpendance des variables en lignes et en
colonnes si la valeur observe X
2
dpasse la valeur xt qui a une probabilit
d'tre dpasse infrieure un seuil fix au pralable!.
La valeur de l'inertie est un indicateur de la dispersion du nuage et mesure
la liaison entre les deux variables.
Cependant, on ne s'intresse pas seulement la dispersion du nuage mais
surtout l'existence de directions privilgies dans ce nuage.
On consulte les inerties de chaque axe (valeurs propres) ainsi que les taux
d'inertie correspondants. Cet examen nous renseigne sur la forme du
nuage: forme "sphrique" (pas de direction privilgie) ou forme non
sphrique (directions privilgies).
Tableau 1.3 - 8
Valeurs propres, pourcentages d'inertie pour la table 1.3 - 1
NO VALEUR POUR- POURCENT.
PROPRE CENTAGE CUMULE
1 .2088 89.37 89.37
*******************************
2 .0222 9.51 98.89
***
3 .0026 1.11 100.00
*
Trace .2336
=
INERTIE TOTALE)
Le tableau 1.3 - 8 donne les valeurs des trois valeurs propres non nulles de
l'analyse de la table 1.3 -1. L'inertie totale (0.2336), somme des trois valeurs
propres, multiplie par l'effectif total de la table (592) donne la valeur 138.29
1 Cette faon d'oprer un test d'hypothse correspond l'usage classique des tables
statistiques donnant les valeurs X5 pour chaque degr de libert et pour certains seuils
conventionnels (0.05 ou 0.01 en gnral). Souvent les logiciels donnent directement la
probabilit que le X
2
calcul soit dpass. Il suffit alors, sans recours une table, de
comparer cette probabilit aux seuils prcdents.
1.3 _Analyse des correspondallces 91
qui doit tre une ralisation d'un X
2
9 degrs de libert dans l'hypothse
d'indpendance des lignes et des colonnes de la table. Un tel X
2
ne dpasse.
21.7 que dans 1% des cas (seuil 0.01) .
L'hypothse d'indpendance des couleurs des yeux et des cheveux est donc
rejete. C'est dans une telle circonstance qu'interviendra utilement
l'analyse des correspondances, pour dcrire cette dpendance entre lignes et
colonnes.
D'une faon gnrale, deux variables sont indpendantes si les profils de
leurs modalits sont identiques (aux fluctuations d'chantillonnage prs)
aux profils moyens (cf. 1.3.3.b) : l'inertie totale est faible et il n'existe pas de
direction privilgie. Gomtriquement, cela signifie que tous les points
sont concentrs autour du centre de gravit du nuage suivant une forme
sphrique. Ceci se traduit par le schma de la figure 1.3 - 13.

Figure 1.3 - 13
Situation d'indpendance
Ces indicateurs, portant d'une part sur l'inertie totale et d'autre part sur
l'inertie des axes et leurs taux d'inertie, ont donc un intrt au moment de
l'interprtation.
On schmatise les principaux cas sur la figure 1.3 - 14. On remarque que,
dans les situations 2 et 4, les nuages ont des taux d'inertie identiques mais
une inertie totale diffrente. Par ailleurs, les situations 3 et 4 rvlent deux
nuages de mme inertie totale et des taux d'inertie diffrents.
Le test du X
2
permet de dtecter ces deux dernires situations, mais ne
permet pas de mettre en vidence la situation 2 (cf. section 4.1 pour l'tude
de cette question).
Enfin, l'inertie d'un facteur mesure la liaison qu'il met en vidence. Elle ne
peut tre suprieure 1 (cf. 1.3.3.f). Une valeur propre qui tend vers 1
indique une dichotomie au niveau des donnes; on obtient pour chaque
variable deux groupes de modalits sparant le nuage de points en deux
sous-nuages. Cela peut signifier galement l'existence d'un groupe de points
isols des autres points (constituant alors l'autre groupe).
92 Mthodes factorielles _ chapitre 1
Directions
Taux d'inerties des axes
Nuage
Faible
inertie
Inertie
Forte
inertie
Forme "sphrique"
1- INDPENDANCE
faible inertie totale
pas de direction privilgie
3- DPENDANCE
forte inertie totale
pas de direction privilgie
Forme "non-sphrique"
2- DPENDANCE
faible inertie totale
direction privilgie
4- DPENDANCE
forte inertie totle
direction privilgie
Figure 1.3 - 14
Indpendance et dpendances
Lorsque deux valeurs propres sont proches de l, on obtient trois sous-
nuages et les modalits des variables se dcomposent en trois groupes. Si
toutes les valeurs propres sont proches de l, chaque modalit d'une variable
est en correspondance presque exclusive avec une seule modalit de l'autre
variable.
Cependant des valeurs propres faibles (signifiant que les profils sont proches
du profil moyen) ne doivent pas empcher une interprtation des axes
d'inertie associs. Ceux-ci peuvent rvler une structure intressante et plus
difficilement perceptible. Ce point sera repris au chapitre 4, 4.1.3.
b - Quelques fonnes caractristiques de nuages de points
Envisageons quelques formes classiques de nuages afin de montrer
comment la configuration du nuage de points projet permet de rorganiser
le tableau de donnes, par permutation des lignes et des colonnes et ainsi de
mieux l'interprter.
1.3 _ Analyse des correspondances 93
- Le nuage de points est scind en deux sous-nuages
Le tableau de donnes peut tre rorganis en ordonnant les coordonnes
des lignes et des colonnes sur le premier facteur. On obtient de faon
schmatique:
...
.
G
FI
Figure 1.3 -15
Nuage de points scind en deux sous-nuages
Il peut tre intressant d'analyser sparment les deux sous-nuages dfinis
par les deux tableaux de correspondances (II,JI) et (I2,h)
- Le nuage se dcompose en trois sous-nuages de points
On rorganise de la mme manire le tableau de donnes par permutation
des lignes et des colonnes. Les trois sous-nuages peuvent galement faire
l'objet d'analyses spares.
.
. .
..
.
.
.
...
..
..
Figure 1.3 - 16
Nuage de points scind en trois sous-nuages
- "L'effet Guttman"
On peut aboutir ainsi la situation o le nuage de points a une forme
parabolique. Le tableau correspondant est rordonn suivant une diagonale
relativement charge:
...
.
.. .
. .
.
..
. :.
..
..
Figure 1.3 - 17
Effet Guttman et structure possible du tableau
94 Mthodes factorielles _ chapitre 1
Cette situation met en vidence "l'effet Guttman" qui traduit une
redondance des deux variables: de la connaissance de la ligne i, on en
dduit la colonne j. Toute l'information est quasiment donne par le
premier facteur.
Pourtant le tableau n'est pas de rang 1 et l'on disposera de p-l facteurs. Mais
le deuxime facteur est une fonction du second degr du premier facteur, le
troisime est une fonction du troisime degr, etc. L'information donne
par les axes de rang ultrieurs traduit le mme phnomne. Cependant
l'examen du deuxime facteur affine l'interprtation du premier axe!.
Gnralement l'effet Guttman apparat lorsque les variables sont ordonnes
(variables continues transformes en variables nominales). Un axe (souvent
le premier) oppose les valeurs extrmes et un autre axe oppose les valeurs
intermdiaires aux valeurs extrmes. L'effet Guttman met parfois en
vidence une structure triviale qui pourra cependant tre intressante si la
forme parabolique n'est pas parfaite. Les points de rupture sont alors
intressants analyser.
1.3.5 Rgles d'interprtation: contributions et cosinus
Deux sries de coefficients apportent une information supplmentaire par
rapport aux coordonnes factorielles:
- les contributions, parfois appeles contributions absolues, qui expriment
la part prise par une modalit de la variable dans l'inertie (ou variance)
"explique" par un facteur;
- les cosinus carrs, parfois appels contributions relatives ou qualit de
reprsenta tion, qui expriment la part prise par un facteur dans la
dispersion d'une modalit de la variable.
C'est aprs l'examen de ces coefficients que l'on pourra interprter les
graphiques factoriels en tenant compte des relations de transition.
a - Contributions
On cherche connatre les lments responsables de la construction de l'axe
a. Calculons la variance des coordolU1es des n points-lignes i sur l'axe a,
chacun d'eux tant muni de la masse f;..
L'origine tant prise au centre de gravit, les coordonnes factorielles sont
centres (cf. formule [1.3 - 4]) et la variance vaut -
a
(cf. formule [1.3 - 5]).
Ainsi le quotient:
! Sur l'effet Guttman en analyse des correspondances, cf. 8enzcri (1973, chapitre H.8-
7 et 11.8-10), Heiser (1986), Van RijckevorseI (1987) ; Tenenhaus (1994, chapitre 7, 9).
1.3 _ Analyse des correspondances 95
C
(
.) - f;.l{I?n
ra 1 -

a
mesure la part de l'lment i dans la variance prise en compte sur l'axe Cl.
Ce quotient est appel contribution de l'lment i l'axe Cl et permet de
savoir dans quelle proportion un point i contribue l'inertie
a
du nuage
projet sur l'axe a.
On notera que pour tout axe a:
n
I,Cra(i) = 1
i=l
G
i
G
i
-0
ft
..
-0
ft
..
G i' G
i'
-0

..
-0
ft
..
Cr
a
(i) < Cra(i')
CraU) < CraU')
Ji <k
l{Iai < l{Iai
1. 1.
G
J ,..
-
G
i'
,..
-
Cr
a
(i) = CraU')
f i . ~ = k . ~
Figure 1.3 - 18
Contributions l'axe Cl : trois cas de figure.
De la mme faon on dfinit la contribution de l'lment j l'axe a par:
frp2.
C
(
.) - .) a)
ra] ---

a
avec la relation:
p
I,Cra(j) = 1
j=l
Pour trouver une ventuelle signification un axe, on s'intresse d'abord
aux points ayant une forte contribution. Ce sont eux qui fixent la position de
l'axe (dans RP pour les points i, et dans Rn pour les points j).
b - Cosinus carrs
On cherche apprcier si un point est bien reprsent sur un sous-espace
factoriel.
Les axes factoriels de chaque espace constituent des bases orthonormes. Le
carr de la distance d'un point au centre de gravit se dcompose en somme
de carrs des coordonnes sur ces axes.
Pour un point i de RF, on a :
96 Mthodes factorielles _ chapitre 1
d
2
(j, G) = f -l(/;j - J'J2
J
' r. )
j=l.j )1.
On remarque que la distance s'annule lorsque le profil du point est gal au
profil moyen.
Le carr de la projection de la variable i sur l'axe CI. vaut
(j, G) =
Notons que:
L = d
2
(j,G)
a
Un point i dans RP est plus ou moins proche de l'axe CI.. La proximit entre
deux points projets sur l'axe CI. correspond d'autant mieux leur distance
relle que les points sont plus proches de l'axe.
G
Figure 1.3 -19
Projection du point i sur l'axe a
La "qualit" de la reprsentation du point i sur l'axe a peut tre value par
le cosinus de l'angle entre l'axe et le vecteur joignant le centre de gravit du
nuage au point i :


d
2
(i,G)
Cette quantit, appele cosinus carr, reprsente la part de la distance au
centre prise en compte dans la direction CI.. On l'appelle aussi la contribution
relative du facteur la position du point i.
Plus le cosinus carr est proche de 1, plus la position du point observ en
projection est proche de la position relle du point dans l'espace (figure 1.3-
20).
On apprcie la qualit de la reprsentation d'un point dans un plan en
faisant la somme des cosinus carrs sur les axes tudis.
Notons que pour tout i :
1.3 _ Analyse des correspondances 97
G
a
i

'" 0
mal reprsent sur l'axe a
'" 1
bien reprsent sur l'axe Ct
Figure 1.3 - 20
Qualit de reprsentation d'un point j sur l'axe lX
Ce qui vient d'tre dit des n points-lignes peut tre transpos aux p lments
de l'autre ensemble. On mesure la contribution relative du facteur Ct la
position du point j par le cosinus carr de j :
'P
2
.
Cos
2
<J) = aj
a d
2
<j,G)
et l'on a galement pour tout j :
= 1
a
Pour analyser les proximits entre points, on s'intresse surtout aux points
ayant un cosinus carr lev. Les proximits entre ces points, observs dans
le sous-espace factoriel, donnent une bonne image de leurs proximits
relles.
Remarque
Pour les contributions ainsi que pour les cosinus carrs, il n'y a pas de valeurs
"seuils" partir desquelles on peut dire que telle ou telle valeur est "forte" ou
"faible". Les apprciations se font empiriquement, en fonction de l'ensemble des
valeurs calcules et varient d'un jeu de donnes un autre!.
c - Exemple numrique
L'exemple concerne toujours l'analyse des correspondances de la table 1.3-
1. Les coordonnes sur le premier axe (tableau 1.3 - 9) montrent que la
couleur des cheveux "blond" s'oppose toutes les autres sur le premier axe,
mais surtout "brun". Le point "blond" a une contribution de 71.7% au
premier axe et un cosinus carr de 0.99 : il est pratiquement sur cet axe et ne
pourra donc pas caractriser les axes ultrieurs. Notons que le point "roux" a
une contribution trs faible sur le premier axe (1.0%).
1 Notons qu'il est usuel de multiplier par 100 les contributions, de faon exprimer en
pourcentage la participation de chaque point.
98 Mthodes factorielles _ chapitre 1
Tableau 1.3 - 9
Coordonnes, contributions, cosinus carrs
pour l'analyse des correspondances de la table 1.3-1
COLONNES COORDONNEES CONTRIBUTIONS COSINUS CARRES
123 123 123
-.50 .21 -.06 22.2 37.9 21.6 .84 .15 .01
-.15 -.03 .05 5.1 2.3 44.3 .86 .04 .09
-.13 -.32 -.08 1.0 55.1 31.9 .13 .81 .05
.84 .07 -.02 71.7 4.7 2.2 .99 .01 .00
COORDONNEES CONTRIBUTIONS COSINUS CARRES
1 2 3 1 2 3 1 2 3
-.49 .09 -.02 43.1 13 .. 0 6.7 .97 .03 .00
-.21 -.17 .10 3.4 19.8 61.1 .54 .34 .12
.16 -.34 -.09 1.4 55.9 31.9 .18 .77 .05
.55 .08 .00 52.1 11.2 .3 .98 .02 .00
YEUX
y.marron
y.noisette
y.vert
y.b1eu
CHEVEUX
Ch.Brun
Ch.chatain
Ch.roux
Ch.blond
LIGNES
Le second axe (dont on a vu qu'il correspondait une valeur propre prs de
dix fois plus petite que le premier) est essentiellement construit par la
couleur "roux" (55.1 %) qui s'oppose simultanment "brun" et "blond". La
couleur "roux" est le seul point bien reprsent sur l'axe 2 (cosinus carr de
0.81). Pour les points-lignes, le premier axe est construit presque
exclusivement par les yeux "marrons" et "bleus" (contributions de 43.1% et
52.1%), points situs pratiquement sur l'axe (cosinus carrs de 0.97 et 0.98), le
second axe tant surtout li aux yeux "verts".
) axe 2 (9.5%)
0.6
ch.brun 0.3
X
y.marron
ch.chatain
y.bleu

ch.blond
x
_0.6 _0.3 X 0

0.3 0.6
axe 1 (89.4%)
y.noisette
x
ch.roux

y.vert
- 0.6
Figure 1.3 - 21
Premier plan factoriel pour l'analyse de la table 1.3 -1
On note que la consultation des coordonnes pouvait faire penser que les
yeux "noisettes" et "verts" jouaient un certain rle dans la construction du
1.3 _ Analyse des correspondances 99
premier axe. La figure 1.3 - 21 qui utilise les deux premires coordonnes,
montre le caractre suggestif de la reprsentation graphique simultane des
lignes et des colonnes. Elle permet d'interprter les proximits ou distances
entre points d'un mme ensemble par leur association avec ceux de l'autre
ensemble.
Pourquoi par exemple le point "ch.blond" est-il plus excentr que le point
"y.bleu" sur ce premier axe trs dominant? Parce que les cheveux blonds
sont beaucoup mieux caractriss par les yeux bleus que l'inverse: d'aprs le
tableau 1.3 - 3 (profils colonnes), 74% des blonds ont les yeux bleus, alors que
d'aprs le tableau 1.3 - 2 (profils lignes) 44% des personnes ayant les yeux
bleus ont des cheveux blonds.
En d'autres termes, dans la relation quasi-barycentrique qui permet de
positionner le point "ch.blond", le point "y.bleu" a un poids relatif de 0.74,
alors que dans la relation quasi-barycentrique qui permet de positionner le
point "y.bleu", le point "blond" n'a qu'un poids relatif de 0.44.
1.3.6 Elments supplmentaires
On dispose par exemple de Ps colonnes supplmentaires qui concernent des
modalits de variables nominales, analogues aux colonnes de la table de
contingence.
Il s'agit de situer ces nouveaux points-colonnes par rapport aux p points
analyss. Soit kif la i
me
coordonne de la jme colonne supplmentaire. Son
profil est donn par:
{
kif . 1 + ~ k
+;l =l,2, ... ,n avec k.
j
=L. ij
k
j
i=1
On projette ce point j sur l'axe a en utilisant la mme formule de transition
[1.3 - 13] que pour les colonnes du tableau de frquences:
+ 1 ~ kif
qJaj = ~ L. e l/Iai
V/'o,a 1=1 .J
Pour une modalit i d'une variable porte en ligne supplmentaire, on aura
de faon analogue (formule de transition 1.3 - 12) :
1 p k*
III ~ - '" IJ in .
'rOM - ~ - - e't"aJ
V/'o,a J=l l.
A l'instar des lments analyss, les modalits supplmentaires se calculent
et s'interprtent comme des quasi-barycentres.
100 Mthodes factorielles _ chapitre 1
Remarques
1) Les lments en supplmentaires, n'intervenant pas dans la construction du
nuage, sont affects d'un poids nul et leur contribution est donc nulle. En revanche,
les cosinus carrs restent des aides l'interprtation de ces lments 1.
2) La somme des cosinus carrs d'un lment supplmentaire sur l'ensemble des
facteurs peut tre infrieure 1 alors que pour les lments actifs elle est
exactement gale 1.
En effet, supposons n>p et plaons-nous dans l'espace des lignes. Un point-
colonne actif j est dfini dans Rn mais il est situ, par l'analyse, dans l'espace
factoriel p - 1 dimensions. Il suffit de p - 1 coordonnes pour positionner cet
lment. Un lment-colonne supplmentaire j+ sera positionn dans l'espace
p - 1 dimensions construit par l'analyse alors qu'il appartient RP. Les lments
supplmentaires ne sont donc pas entirement contenus dans l'espace factoriel
2
.
1.3.7 Mise en uvre des calculs
La distance du X
2
ne diffre en fait de la mtrique euclidienne usuelle que
par l'introduction d'une pondration. On peut se ramener la mtrique
euclidienne usuelle par un changement de coordonnes initial. Les calculs
en sont simplifis et, notamment, la matrice diagonaliser devient
symtrique. Par ailleurs, l'analyse par rapport aux centres de gravit est
quivalente l'analyse par rapport l'origine.
a - Analyse par rapport l'origine ou au centre de gravit du nuage
Nous raisonnerons, pour fixer les ides, dans RP.
Le centre de gravit G du nuage des profils-lignes a pour jime composante:
n li'
gj = .Iii. 0/.- =fj
1=1 )/.
k li'
L'analyse par rapport au centre de gravit revient remplacer 1. par...!L - fj
)/. Ii.
c'est--dire par lij - IiJj .
li.
Remarquons que le nuage est contenu dans un hyperplan J{ P -1
dimensions dfini pour tout i par la relation:
f lij 1
j=1
k
1 Pour une vue d'ensemble sur le rle et l'utilisation des variables supplmentaires en
analyse des correspondances, cf. Cazes (1982).
2 Cette remarque vaut galement pour l'analyse en composantes principales.
1.3 _Analyse des correspondances 101
Ce sous-espace contient le centre de gravit G et les axes factoriels de
l'analyse par rapport G. La somme des composantes de ces facteurs est
nulle.
Analyse par rapport il
l'origine des axes initiaux
Analyse par rapport au
centre de gravit du nuage
Figure 1.3 - 22
Analyse dans ]R3
Dans l'analyse par rapport l'origine, la premire direction u 1 est l'axe
joignant l'origine au centre de gravit du nuage orthogonalement J{.
L'inertie projete sur cet axe vaut l, gale la distance entre l'origine et le
centre de gravit, puisque la projection des points du nuage sur cet axe est
confondue avec le centre de gravit. Les p -1 axes suivants (U2, ...,Ua, ...,u
p
)
contenus dans Jf constituent une base dfinissant des directions de droites
d'inertie maximum du nuage. Ils concident avec les p-1 premiers axes de
l'analyse par rapport au centre de gravit (Ul, ... u ~ ... ,Up_1)'
Le pime axe correspond U1 et n'indique aucune direction dans Jfpuisqu'il
n'est pas contenu dans J{. Son inertie (valeur propre) associe, est nulle.
S tant la matrice diagonaliser du nuage non centr et So celle du nuage
centr, on a les relations: 1
sJr = sj] - fi
et pour 1 < a < p - 1 :
et
~ =u
1
et ~ =a et 1..
1
=1
Ainsi dans RP (et il en est de mme dans Rn), il est quivalent de raliser
l'analyse des correspondances sur le tableau de donnes centres de terme
gnral:
hj - f.
/; -1
l.
ou sur le tableau de donnes non centres de terme gnral:
102
f;j
/;
/.
Mthodes factorielles _ chapitre 1
On peut donc diagonaliser la matrice S de l'analyse par rapport l'originel,
en prenant soin d'liminer le premier vecteur propre reliant l'origine au
centre de gravit du nuage et la valeur propre associe gale 1.
b - Symtrisation de la matrice diagonaliser
La matrice diagonaliser S = F' dans RP, n'est pas en gnral
symtrique. Son terme gnral s'crit:
_ n f;jf;j'
s"'-L -
JJ . 1 /; f Of
1. .J
Considrons la matrice = F' symtrique et la matrice diagonale.
On exprime alors S de la manire suivante:
S =O-l/2
0
-l/
2
P P
Partant de la relation Su = ,u, il vient:
O-l/2
0
-l/2
u
=,u
p p
Prmultiplions les deux membres par et en posant = w, on
obtient:
La matrice A est symtrique
A =0-l/2O-l/2 =0-l/2
F
, 0-l
FO
-l/2
ppp n p
et:
Aw = ,w
Les matrices S et A ont mmes valeurs propres ,. Leurs vecteurs propres
sont lis par la relation:
u =0-l/2
w
P
Il est plus facile de diagonaliser la matrice A de terme gnral:
n f;jf;j'
a, = L --i;==f==
JJ r. Iff,
1 JiV .J .J
1 Compte tenu du critre d'ajustement, on considre l'inertie totale du nuage centr,
gale la trace tr(5) de 5 et l'on a: tr(5 )-1.
1.3 _ Analyse des correspondances 103
(j=l, ... ,p)
Remarque:
C'est la matrice diagonaliser si l'on choisit de prendre comme coordonnes
initiales du point i, les p quantits:
f;j
Xij =TV
J;'\Vj
Dans ce cas, la distance du X
2
entre deux points i et i' devient, avec les nouvelles
coordonnes, la distance euclidienne usuelle:
p [/;. /;,.]2
d
2
(i,i')=L, I} _ I}
j=l f;.F; k.:P;
Cette transformation du tableau des frquences relatives conduit la
diagonalisation d'une matrice symtrique.
Notons que les coordonnes du centre de gravit Gsont alors:
G
i
= ..jTj
et les coordonnes du point i aprs recentrage;
f;j _ {T; = f;j - f;/j
f;. :.[l; -1 f;. {f;
1.3.8 Exemple d'application
L'exemple concerne l'analyse d'un tableau de contingence qui croise 8
professions et catgories socioprofessionnelles (PCS) et 6 types de mdias
pour un chantillon de 12 388 "contacts mdia" relatifs 4433 personnes
interroges. L'individu statistique sera pour nous le "contact mdia" et non
la personne interroge dans l'enqute. Comme ce fut le cas pour l'exemple
trait au paragraphe 1.2.11, les donnes sont extraites de l'Enqute Budget-
temps MuItimditl 1991-1992 du CESP.
Afin d'interprter plus efficacement les reprsentations obtenues, on
projettera en lments supplmentaires certaines autres caractristiques de
la population enqute telles que le sexe, l'ge, le niveau d'instruction.
Nous disposons des tables de contingence suivantes (cf. tableau 1.3 - 10).
Pour le premier blocs K de 8 lignes (lignes actives) on trouve,
l'intersection de la ligne i et de la colonne j le nombre kij d'individus
appartenant la catgorie i et ayant eu la veille (un jour de semaine) au
moins un contact avec le type de mdia j. Les blocs suivants (lignes
supplmentaires) s'interprtent de faon analogue. Une personne
interroge pouvant avoir des contacts avec plusieurs mdias, les sommes en
ligne reprsentent des "nombres de contacts"l.
1 Il Ya 12388 contacts pour 4433 individus concerns. Les chiffres publis ici ayant
t arrondis aprs un redressement, les totaux relatifs aux diffrentes partitions de la
population peuvent ne pas concider.
104 Mthodes factorielles _ chapitre 1
Tableau 1.3 - 10
Tables de contingence croisant les types de contacts-mdia (colonnes)
avec professions, sexe, ge, niveau d'ducation (lignes).
Radio Tl. Quot.N. Quot R. P.Mag. P.TV
Professions
Agriculteur 96 118 2 71 50 17
Petit patron 122 136 11 76 49 41
Prof. Cad. S. 193 184 74 63 103 79
Prof. interm 360 365 63 145 141 184
Employ 511 593 57 217 172 306
Ouvrier quaI 385 457 42 174 104 220
Ouvrier n-q 156 185 8 69 42 85
Inactif 1474 1931 181 852 642 782
Sexe
Homme 1630 1900 285 854 621 776
Femme 1667 2069 152 815 683 938
Age
15-24 ans 660 713 69 216 234 360
25-34 ans 640 719 84 230 212 380
35-49 ans 888 1000 130 429 345 466
50-64 ans 617 774 84 391 262 263
65 ans ou + 491 761 70 402 251 245
Education
Primaire 908 1307 73 642 360 435
Secondaire 869 1008 107 408 336 494
Techn. prof. 901 1035 80 140 311 504
suprieur 619 612 177 209 298 281
On cherche dcrire les ventuelles affinits entre les groupes
socioprofessionnels et les diffrents types de mdias.
L'analyse des correspondances de la table K conduit aux valeurs propres
consignes dans le tableau 1.3 -11.
Tableau 1.3 - 11
Valeurs propres, pourcentages d'inertie pour la table K
"Professions-Contacts mdia" (8 premires lignes de la table 1.3 -11)
NUM. VALEUR POURCENT. POURCENT.
PROPRE CUMULE
1 . 0139
2 . 0072
3 .0008
4 .0003
5 .0001
SOMME .0223
62.20
32.37
3.70
1. 36
.37
62.20
94.56
98.26
99.63
100.00
Le produit de la trace t =0.0223 par l'effectif total k =12388 vaut:
kt = 276.25
Dans l'hypothse d'indpendance des lignes et des colonnes de la table, cette
quantit serait une ralisation d'un X
2
35 degrs de libert (not Xs)
[35 = (8-1) (6-1)].
1.3 _ Allalyse des correspolldallces 105
Lorsque le nombre de degrs de libert n dpasse 30, on considre que la
X
2
-n
variable u = n
0L
est une variable normale (de Laplace-Gauss) centre
"I/2n
rduite. Ici, u = 28.8 (28.8 carts-types de la moyenne). L'hypothse
d'indpendance est videmment rejete.
Deux facteurs sont dominants et reprsentent prs de 95% de l'inertie totale.
Les coordOIUles et les aides l'interprtation correspondants figurent dans
le tableau 1.3 - 12. Celui-ci dOIUle galement les coordonnes et les cosinus
carrs des lignes supplmentaires.
Tableau 1.3 - 12
Poids relatifs (P.REt>, Distances l'origine (DIS), coordonnes, contributions et
cosinus carrs des lments sur les trois premiers axes
FREQUENCES
LIBELLES P.REL DIS
COORDONNEES
3
CONTRIBUTIONS
3
COSINUS CARRES
3
COLONNES ACTIVES
Radio
Tlvision
Quotidien nat.io
Quotidien regio
Presse Magazine
Presse Mag. T.V.
LIGNES ACTIVES
Agriculteur
Pet i t pat ran
Prof. Cadre Sup
Prof. int.erm
Employ
Ouvrier quaI
Ouvrier n-q
Inaet i f
26.61
32.04
3.54
13.46
10.52
13.84
2.86
3.51
5.62
10.15
14.98
11.16
4.40
47 .32
.00
.00
.29
.02
.03
.03
.13
.03
.19
.01
.01
.01
.02
.00
-.01
.05
-.54
.11
-.09
.01
.17
.07
-.43
-.11
.02
.04
.12
.03
.02
.00
-.01
-.11
-.13
.16
-.31
-.14
-.06
.03
.10
.10
.09
-.03
-.05
.02
.02
.01
.02
.03
-.07
-.06
.00
-.03
-.01
-.02
-.04
.03
.4 1. 8
6.6 .0
74.6 .0
11.5 22.4
6.8 25.6
.1 50.1
5.7 38.0
1.2 10.0
75.0 2.9
8.3 1.5
.3 18.9
1.5 15.9
4.4 5.5
3.6 7.3
70.4
10.5
1.8
.4
4.5
12.4
17.9
17.7
.1
11.8
.5
5.1
8.4
38.7
.08
.85
.99
.49
.32
.00
.21
.15
.98
.80
.03
.14
.56
.37
.17
.00
.00
.49
.62
.96
.74
.67
.02
.08
.93
.74
.36
.39
.75
.OB
.00
.00
.01
.03
.04
.14
.00
.07
.00
.03
.06
.24
LIGNES ILLUSTRATIVES (SUPPLEMENTAIRES)
Homme
Femme
15-24 ans
25-34 ans
35-49 ans
50-64 ans
6S ans ou +
Primaire
Secondaire
Teehn. pro f .
Suprieur
48.97 .01
51. 05 .00
18.18 .02
18.28 .02
26.30 .00
19.30 .01
17.92 .03
30.07 .03
26.01 .00
23.98 .07
17.73 .09
-.05
.05
-.02
-.03
-.03
.02
.07
.13
.00
-.03
-.29
-.02
.02
.10
.12
.01
-.10
-.14
-.08
.04
.18
-.02
-.01
.01
-.04
-.01
-.01
.00
.07
.02
.00
-.04
-.01
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.48
.49
.02
.05
.61
.05
.14
.63
.00
.01
.99
.11
.10
.56
.87
.10
.80
.58
.24
.69
.46
.00
.02
.02
.08
.01
.07
.00
.16
.02
.00
.02
.00
On note que l'lment "Quotidien national" dont la frquence relative
(colonne P.REL) est trs faible (3.54%) a une distance au point moyen
(colonne DIS) trs leve: le profil correspondant est donc atypique. Il
contribue pour 74.6% la construction du premier axe, qui en est trs proche
(cosinus carr: 0.99). Ce mme premier axe est caractris par la ligne active
106 Mthodes factorielles _ chapitre 1
"Prof.Cadre" (profession librale, cadres suprieurs) et par la ligne
supplmentaire "Suprieur" (niveau d'tude suprieur).
Le second axe spare la "Presse Magazine de Tlvision" (associe aux
catgories employs et ouvriers, et aux classes d'ges plutt jeunes) de la
presse magazine (Presse TV exclue) et de la presse quotidienne rgionale,
toutes deux associes aux agriculteurs et aux petits patrons, et des
catgories d'ge plus leves.
Les figures 1.3 - 23 et 1.3 - 24 rsument ce rseau d'associations.
" axe 2 (32.4%)
0.30
axe 1 (62.2%)
-

Quot.Reg.
x
Petits Patrons
o
~ c t i f s 0.15
Press, Mag
-0.15
Pr.Mag.TV
0.15
.j:Juvriers
x x Ouvriers n.q.
Employs
Prof. Interm.
x ~ dia Ilv.
-0.15 - 0.45 - 0.30
x
Prof. Cad. Sup.

Quot.Nat.
- 0.30
A&liculteurs
Figure 1.3 - 23
Variables actives dans le premier plan factoriel
Il est clair dans une analyse de ce type que le premier axe correspond une
interprtation ponctuelle: les contacts mdia avec la presse quotidienne
nationale sont, de faon significative, surtout le fait de cadres suprieurs
et/ou de personnes d'un haut niveau d'ducation. Ce rsultat n'est
cependant pas d'emble visible sur le tableau 1.3 - 10.
En revanche, les positions des points sur les deux figures donnent une
interprtation plus nuance du second axe: les professions salaries, de
niveau d'ducation moyen, composes surtout de jeunes (contact mdia:
Presse magazine TV), s'opposent aux petits patrons et agriculteurs, en
moyenne sensiblement plus gs et moins instruits (contacts: presse
magazine autre que TV, et presse quotidienne rgionale).
Que se passe-t-il si l'on supprime, au sein des colonnes actives, la colonne
"Quot. N." dont le rle est prdominant, pour la positionner en lment
supplmentaire?
1.3 _Analyse des correspolldallces
J ~ axe 2 (32.4%)
0.30
107
- 0.45 - 0.30
Suprieur x
Teclul. prof.
x
25-34 ans
x
15-24 ans
x
35-49 ans Femme
x x 0.15
o x
-0.1 5 o ~ m Secondaire
x x Primaire
50-64 ans
-0.15 65 Js ou +
- 0.30
axe 1 (62.2%)
"'"
Figure 1.3 - 24
Variables supplmentaires ou iIIustralives dans le premier plan factoriel
On a vu que cette colonne est presque situe sur l'axe 1 (cosinus carr de
0.99). Sa suppression enlverait 74.6% de l'inertie dans cette direction
(valeur de la contribution), et donc l'inertie dans cette direction serait
infrieure celle du second axe actuel! sur lequel la colonne supprime a
d'ailleurs une contribution nulle. Donc le nouveau premier axe d'inertie
maximale sera trs voisin de l'ancien second axe. Tous calculs faits, on
trouve, aprs suppression de la colonne en question, une premire valeur
propre de 0.0074 (la seconde valeur propre valait 0.0072) et des coordonnes
sur ce nouveau premier axe qui diffrent d'au plus de 0.01 de celles de
l'ancien second axe. Le nouveau second axe (sur lequel la colonne
supplmentaire "Presse Quot." a une coordonne de 0.54 et un cosinus carr
de 0.88) est trs voisin de l'ancien premier axe.
Cet exemple aura illustr le positionnement de lignes supplmentaires et de
colonnes supplmentaires, l'usage simultan des trois types d'aides
l'interprtation (valeurs propres, contributions, cosinus carrs) ainsi que le
caractre itratif de l'analyse, qui fait penser un "pluchage" progressif des
nuages de points profils. L'exemple du paragraphe 2.4.4 illustrera aussi cette
dmarche en montrant la complmentarit de l'analyse factorielle avec la
classification automatique.
1 25.4 %(complment 100 de 74.6 %) de 0.0139 (premire valeur propres q) est en
effet trs infrieur 0.0072 (seconde valeur propre
Section 1.4
Analyse des Correspondances Multiples
L'analyse des correspondances introduite dans la section prcdente peut se
gnraliser de plusieurs faons au cas o plus de deux ensembles sont mis
en correspondance. Une des gnralisations la plus simple et la plus utilise
est l'analyse des correspondances multiples qui permet de dcrire de vastes
tableaux binaires, dont les fichiers d'enqutes socio-conomiques
constituent un exemple privilgi: les lignes de ces tableaux sont en gnral
des individus ou observations (il peut en exister plusieurs milliers) ; les
colonnes sont des modalits de variables nominales, le plus souvent des
modalits de rponses des questions. Il s'agit en fait d'une simple
extension du domaine d'application de l'analyse des correspondances, avec
cependant des procdures de calcul et des rgles d'interprtation spcifiques.
On peut faire remonter les principes de cette mthode Guttman (1941),
mais aussi Burt (1950) ou Hayashi (1956). D'autres types d'extension ont
t proposs par Benzcri (1973), Escofier-Cordier (1965), et par Masson (1974)
qui s'appuie notamment sur les travaux de Carroll (1968), Horst (l961) et
Kettenring (1971)1.
1.4.1 Domaine d'application
L'analyse des correspondances multiples est une analyse des
correspondances simple applique non plus une table de contingence,
mais un tableau disjonctif complet. Les proprits d'un tel tableau sont
intressantes, les procdures de calculs et les rgles d'interprtation des
reprsentations obtenues sont simples et spcifiques.
L'extension du domaine d'application de l'analyse des correspondances se
fonde sur l'quivalence suivante: si pour n individus, on dispose des
valeurs (rponses) prises par deux variables nominales ayant
respectivement Pl et P2 modalits, il est alors quivalent de soumettre
l'analyse des correspondances le tableau de contingence (Pl, P2) croisant les
deux variables ou d'analyser le tableau binaire n lignes et (Pl + P2)
1 L'analyse des correspondances multiples a t dveloppe galement sur le nom
d'Homogeneity Analysis par l'quipe de J. de Leeuw depuis 1973 (cf. Gifi, 1990) et sous
le nom de Dual Scaling par Nishisato (1980). Une application de l'analyse des
correspondances un tableau disjonctif complet se trouve dans Nakache (1973).
L'ensemble des rsultats et proprits prsents dans cette section figurent, avec des
programmes et des exemples, dans Lebart et Tabard (1973). Le nom d'analyse des
correspondances multiples figure pour la premire fois dans Lebart (1975 a). Un expos
synthtique de ces diverses approches a t ralise par Tenenhaus et Young (1985).
1.4 _ Analyse des Correspondances Multiples 109
colonnes dcrivant les rponses. L'analyse de ce dernier tableau est plus
coteuse, mais plus intressante, car elle se gnralise immdiatement au
cas de plus deux variables nominales.
1.4.2 Notations et dfinitions
3- de 30 34 ans;
6- de 45 49 ans;
Une partie gnralement importante des fichiers d'enqute se compose de
rponses des questions mises sous forme disjonctive complte: les
diverses modalits de rponses s'excluent mutuellement et une modalit
est obligatoirement choisie.
Par exemple la question:
Etes-vous?
1- clibataire, 2- mari(e) ou vivant maritalement,
3- veuj(ve), 4- divorc(e), 5- non rponse,
cinq modalits de rponses (dont une non-rponse) sont possibles.
Une variable continue peut tre transforme en variable nominale par le
dcoupage en classes des valeurs de la variable. Par exemple, la question
"ge de l'enqut", on prvoit 8 modalits de rponse:
1- moins de 25 ans; 2- de 25 29 ans;
4- de 35 39 ans; 5- de 40 44 ans;
7- de 50 ans et plus; 8- non-rponse.
Si l'on dsigne par s le nombre des questions poses n individus, on
dispose ainsi d'un tableau de donnes Rayant n lignes et s colonnes mis
sous forme de codage condens, illustr sur la figure 1.4 - 1 par un tableau
pour lequel s :: 3 et n :: 12.
Le terme gnral riq dsigne la modalit de la question q choisie par le sujet
i. En notant Pq le nombre des modalits de rponses une question q, on a:
riq .;, Pq .
Mais un tel tableau n'est pas exploitable: les sommes en ligne et en colonne
n'ont pas de sens. Il faut recoder les variables.
R=
(n,s)
n
Figure 1.4 - 1
Tableau de donnes sous forme de codage condens
110 Mthodes factorielles _ chapitre 1
a - Hypercube de contingence
Pour disposer de toute l'information, on peut construire l'hypercube de
contingence H croisant les 5 questions et dont les lments constituent
l'ventail des rponses possibles des sujets enquts. On dispose d'un
ensemble-produit des modalits des 5 questions dont les lments sont
constitus des suites de 5 modalits, chacune tant prise dans une question
diffrente.
Pour 5=3 questions ayant respectivement 3,2 et 4 modalits, il existe 24
combinaisons possibles de rponses selon lesquelles sont rparties les
individus. Dans le cas de deux questions, l'hypertable est le tableau de
contingence. Pour un nombre important de questions, l'hypertable sera en
gnral presque vide. Si l'on pose 1000 individus 12 questions ayant
chacune 10 modalits de rponse, le nombre de rponses possibles distinctes
vaut 10
12
. Au plus une case sur un milliard de l'hypertable ne sera pas vide.
b - Tableau disjonctif complet
On dsigne par 1 l'ensemble des n sujets ayant rpondu au questiOImaire et
par P le nombre total des modalits des 5 questions. On a :
s
P = IP
q
q=1
On construit, partir du tableau de donnes R, le tableau Z n lignes et P
colonnes dcrivant les 5 rponses des n individus par un codage binaire. Le
tableau Z est la juxtaposition de 5 sous-tableaux:
Z = (Z}, Z2, ... , Zq, ... , Zsl
1
n
5=3 p=9

<--- >-
2

4
0 1

0 Il 0 0 0 1

oi 2

1

3 0 1 1 0 0 1 0
>;
3

1 2
0 0
1
d 0 0 0

1 1
1 2

4
1 0 0
li
0 0 0 1

1
*
,
1
,
2 3
1 0
0*
0
Il 0 0 1 0
R=
2
1
2 3
ltri+"
Z=
0 1 0]
0
li
0 0 1 0
(n,s)
3 1

1
(n,p) 0 0
1 0: 1 0 0 0
1
l,
1
,
1 1 0

1
oi
1 0 0 0

,
2 1

2
0 1 Ot 1
0;
0 1 0 0
2

2 3
0 1 O
0 0 0 1 0

l' ,
\
11
li
3
,
2 2
0 0 0 0 1 0 0
<-
,
1

1

4
1 0
0\
0
1
0 0 0
,
1 1
Figure 1.4 -.2
Construction du tableau disjonctif complet Z
Le sous-tableau Zq, n lignes et Pq colonnes, est tel que sa ligne contient
Pq - 1 fois la valeur 0 et une fois la valeur 1 dans la colonne correspondant
la modalit de la question q choisie par le sujet i. Autrement dit le tableau
Zq dcrit la partition des n individus induite par les rponses la question q.
1.4 _ Analyse des Correspondances Multiples 111
Le tableau Z est appel tableau disjonctif complet dont le terme gnral
s'crit :
Zij = 1 ou Zij = 0
selon que le sujet i a choisi la modalit j de la question q ou non.
Les marges en ligne du tableau disjonctif complet sont constantes et gales
p
au nombre s de questions: Zi. = L Zij = s
j=l
n
Les marges en colorme : Z = L Z correspondent au nombre de
-J ;=1 IJ
sujets ayant choisi la modalit j de la question q.
On vrifie que, pour chaque sous-tableau Zq, l'effectif total est bien:
Zq = z.j = n
JEq
La somme des marges dorme l'effectif total Z du tableau Z soit:
n p
Z = L LZ = ns
. 1 . 1 J
1= J=
c - Tableau des faces de l'hypercube de contingence ou tableau de
contingence de Burt
L'ensemble des Pq modalits de rponse une question permet de
partitionner l'chantillon en au plus Pq classes. La donne de deux
questions mises sous forme disjonctive complte permet de raliser deux
partitions de l'ensemble des individus enquts et l'on obtient un tableau
de contingence. L'analyse du tableau croisant les deux partitions peut tre
gnralise au cas de s partitions, s tant un entier suprieur 2.
On construit, partir du tableau disjonctif complet Z, le tableau symtrique
B d'ordre (p,p) qui rassemble les croisements deux deux de toutes les
variables:
B=Z'Z
B est appel tableau de contingence de Burt
1
associ au tableau disjonctif
complet Z.
n
Le terme gnral de B s'crit: bjj' = ZijZij'
1=1
B est une juxtaposition de tableaux de contingence.
1 Sir Cyril Burt a t un incontestable innovateur au point de vue mthodologique (cf.
son article prcit de 1950, dans lequel il prconise le calcul de B, et sa diagonalisation
aprs une normalisation qui correspond celle de l'analyse des correspondances
multiples). Il est peut-tre encore plus clbre pour les falsifications d'observations et
les graves fraudes scientifiques et dontologiques dont il a t l'auteur.
112
Les marges sont pour tout j p
Mthodes factorielles _ chapitre 1
et l'effectif total b vaut:
b = 52
n
Le tableau B est form de 52 blocs o l'on distingue:
le bloc Z'qZq' indic par (q,q'), d'ordre (Pq ,pq') qui n'est autre que la table
de contingence croisant les rponses aux questions q et q'.
le qime bloc carr Z'qZq obtenu par le croisement d'une variable avec
elle-mme. C'est une matrice d'ordre (pq, Pq), diagonale puisque deux
modalits d'une mme question ne peuvent tre choisies
simultanment. Les termes diagonaux sont les effectifs des modalits de
la question q.
1 1 1 1
Zj
Zq Zs
...... -
---
..........
0100 100 00001
- _....
---
-_......
Z =
(Il,p)
p
>
n
B =Z'Z =
(P,p)
Figure 1.4 - 3
Construction du tableau des faces de l'hypercube (tableau de Burt) B
partir du tableau disjonctif complet Z
Nous dsignerons par D la matrice diagonale, d'ordre (p,p) ayant les mmes
lments diagonaux que B ; ces lments sont les effectifs correspondant
chacune des modalits (cf. figure 1.4 - 4) :
djj =bjj =z.j
dj) = 0 pour tout j' *j
La matrice D peut tre galement considre comme forme de 52 blocs.
Seules les 5 matrices diagonales D
q
= Z'qZq (q =1, .. 5) constituant les blocs
diagonaux de B sont des matrices non nulles.
1.4 _ Analyse des Correspondances Multiples 113
B=
(p,p)
p=9
<1( >-

osd2310131
1200
..... .... .....t...... ..,.;",.... .. ..... ....
222!60;2211

,, J 1.. ....
10112;2000
012 21j 0300
130;,13,0040
21011210003
D=
(p,p)
400; OO'! 0000
OSO! 00,,0000
003l 00; 0000
..">'.. ..:.olV'hX.""N' ..
000160; 0000
'M;":
000\ OO! 0300
ooo! 0010040
OOOi 0003
1.4.3
Figure (1.4 - 4 )
Tableau de Burt B et matrice diagonale D associe
(donnes des figures 1.4 - 1 et 1.4 - 2)
Principes de l'analyse des correspondances multiples
L'analyse des correspondances multiples est l'analyse des correspondances
d'un tableau disjonctif complet.
00 010(10
n
tableau disjonctif complet

analyse des
correspondances
nuage des nuage des modalits
(points-colonnes)
..
* *
.
: .

.:

..
11
-...
o
.11
....
.- ,..
* . .
Figure 1.4 - 5
Analyse des correspondances multiples
Ses principes sont donc ceux de l'analyse des correspondances savoir:
114 Mthodes factorielles _ chapitre 1
mmes transformations du tableau de donnes en profils-lignes et en
profils-colonnes;
mme critre d'ajustement avec pondration des points par leurs profils
marginaux;
mme distance, celle du X
2
.
L'analyse des correspondances multiples prsente cependant des proprits
particulires dues la nature mme du tableau disjonctif complet. Nous
allons noncer les principes de cette analyse partir du tableau disjonctif
complet puis nous montrerons l'quivalence avec l'analyse du tableau de
Burt.
a - Critre d'ajustement et distance du X
2
Les individus sont tous affects d'une masse identique gale mi
1
et
n
Z
chacune des modalits j est pondre par sa frquence m. = -l
) ns
La distance du X
2
applique un tableau disjonctif complet conserve un
sens. En effet, dans Rn, la distance entre modalits s'crit :
2
d
2
(. ") _ [Zi
j
Zi
j
']
J,] - ""n ---
i=l z.j z.j'
Ainsi deux modalits choisies par les mmes individus concident. Par
ailleurs, les modalits de faible effectif sont loignes des autres modalits.
Dans RP, la distance entre deux individus i et i' s'exprime par:
d
2 (' ") 1 -t. n ( )2
1,1 = - ",,- z.. -Z,
S . 1z. 1) / )
)= .)
Deux individus sont proches s'ils ont choisi les mmes modalits. Ils sont
loigns s'ils n'ont pas rpondu de la mme manire
l
.
b - Axes factoriels et facteurs
En reprenant les rsultats de l'analyse des correspondances et les notations
adoptes (cf. 1.3.3.b), on pose
2
:
1
F=-Z
ns
de terme gnral
z..
h' =...!J...
/) ns
1 On note qu'une modalit j intervient d'autant plus dans le calcul de la distance entre
deux individus que sa masse est plus faible.
2 In est la matrice identit d'ordre (n,n) et ij est tel que:
8ij = 1 si i = j et 8ij = 0 si i '* j
1.4 _ Analyse des Correspondances Multiples
1
Z
o =-0 de terme gnral
J.=
8..
2
P ns
.J IJ ns
1
8..
0 = -1 de terme gnral
li =

n
n
n l.
n
115
Pour trouver les axes factoriels Ua on diagonalise la matrice:
S = F' ~ F O p =2Z' Z 0-
1
s
de terme gnral (attention, s [sans indice] dsigne le nombre de questions
dans ce chapitre):
1 n
s.. , - --LZ"z",
JJ - s Z ". IJ IJ
.J 1=1
Dans RF, l'quation du a
ime
axe factoriel Ua est:
1 Z' 0-
1
~
- Z Ua =lI.aU
a
S
L'quation du a
ime
facteur <Pa = 0-1
ua
s'crit :
2O-lZ' Z <Pa = A.a<Pa
s
De mme, l'quation du a
ime
facteur \Va dans IR
n
s'crit:
2
Z0
-
1
Z
' \Va = A.a'JI
a
s
Les facteurs <Pa et 'JIa (de norme A.a) reprsentent les coordonnes des
points-lignes et des points-colonnes sur l'axe factoriel a.
Les relations de transition entre les facteurs <Pa et 'JIa sont:
c - Facteurs et relations quasi-barycentriques
La coordonne factorielle de l'individu j sur l'axe a est donne par:
_ 1 *' Zij
li!ai - ~ L. -;;CPaj
""'a J=l 1.
c'est--dire:
1 P
li!ai = rl LCPaj
s"a jep(i)
[1.4 -1]
[1.4 - 2]
[1.4 -3]
116 Mthodes factorielles _ chapitre 1
[1.4 - 4]
o pm dsigne l'ensemble des modalits choisies par l'individu i.
Au coefficient + prs, l'individu i se trouve au point moyen du nuage
-yAo.
des modalits qu'il a choisies.
F
2
+
....
individui
Figure 1.4 - 6
Projection d'un individu
au point moyen des modalits choisies
De mme, la coordoIU1e de la modalit j sur l'axe n est donne par:
1 n Zij
({Jaj = rr- L -;:lJfai
-y "'0. 1=1 -J
c'est--dire:
1 n
({Jaj = ..j[; LlJfai
z-J 0. iE[(j)
o l(j) dsigne l'ensemble des individus ayant choisi la modalit j.
Avant la dilatation sur l'axe n, la modalit j se trouve au point moyen du
nuage des individus qui l'ont choisie comme rponse.
modalit j
G
Figure 1.4 - 7
Projection d'une modalit
au point moyen des individus concerns
Dans le calcul des relations quasi-barycentriques [1.4 - 4], les individus ne
sont pas pondrs. Il s'agit de simples calculs de moyeIU1es arithmtiques de
coordonnes.
1.4 _ Analyse des Correspondances Multiples 117
d - Sous-nuage des modalits d'une mme variable
Le nuage des modalits dans RI! peut tre dcompos en 5 s o u s n ~ e s le
qme correspondant l'ensemble des Pq modalits de la variable q. Ces sous-
nuages ont mme centre de gravit G qui est celui du nuage global.
En effet, les coordonnes des points du sous-nuage relatif la variable qsont
les colonnes de ZqOql et les lments diagonaux de lOq sont les masses
n
relatives des Pq points de ce sous-nuage. Puisque:
LZij =1
jepq
alors la i
me
composante du centre de gravit du sous-nuage vaut:
d Z 1
G
. - ~ .J1.....!l... - - - G
ql - L.J .. - - 1
jepq n dIJ n
o il apparat que Gqi ne dpend pas de q.
Les composantes <Pq des modalits d'une variable q (relatives aux facteurs
non-triviaux <p) sont centres puisque ces facteurs correspondent une
analyse du nuage aprs translation de l'origine en G. Les facteurs opposent
les modalits d'une mme variable.
Figure 1.4 - 8
Composantes centres
Remarques
1) Si le tableau disjonctif n'est pas complet (c'est--dire si, pour au moins un
individu, aucune modalit de rponse une question n'a t choisie), les modalits
d'une mme variable ne sont plus centres sur le centre de gravit du nuage global.
2) Le codage disjonctif complet permet de transformer une variable continue en une
variable nominale dont les modalits sont des classes ordonnes. Il est alors utile
de tracer la trajectoire qui relie les classes, trajectoire qui peut suggrer des liaisons
non linaires entre cette variable et les axes.
e - Support du nuage des modalits
Les coordonnes des modalits dans IR
n
sont les colonnes de Z 0-
1
. Elles
engendrent un sous-espace dont la dimension est le rang de ZD-l, donc le
rang de Z = [Zl,Z2,...,Zq,...,Zs].
118 Mthodes factorielles _ chapitre 1
Tous les sous-espaces engendrs par les Zq ont en commun la premire
bissectrice note Ll. Le rang maximum de Z est donc:
Pl + (P2 - 1) + ... + (Ps - 1) = P - s + 1
Le rang maximum de la matrice diagonaliser 0-l Z'Z sera donc P - s + 1
Mais dans l'analyse du nuage par rapport l'origine 0, la premire
bissectrice est vecteur propre correspondant la valeur propre 1 (le nuage
est contenu dans le sous-espace 0-1-orthogonal Ll).
Dans l'analyse par rapport au centre de gravit G, on trouvera donc P- s
valeurs propres non nulles. En choisissant une base dans le support du
nuage, on pourra se ramener la recherche d'lments propres d'une
matrice d'ordre p - s .
f - Meilleure reprsentation simultane
La prsentation de l'analyse des correspondances peut tre formule ici de
faon particulire en raison du codage spcifique au tableau disjonctif
complet.
Nous cherchons sur un mme axe les coordonnes des n individus et des p
modalits de faon que:
la coordonne d'un individu i soit la moyenne arithmtique des
coordonnes des modalits qu'il a choisies ( une dilatation Pprs, que
l'on s'efforcera de rendre minimale).
la coordonne d'une modalit j soit la moyenne arithmtique des
coordonnes des individus qui l'ont choisie ( une mme dilatation P
prs).
Bien entendu, on obtient les relations dite quasi-barycentriques issues de
l'analyse du tableau disjonctif complet Z avec, pour le coefficient de
dilatation (3, la valeur minimale P=J>: :

l'JI = s.fA. Z cp
La reprsentation simultane des individus et des modalits est importante
pour l'interprtation des rsultats. Cependant elle n'est pratiquement pas
utilise, d'une part pour des raisons d'encombrement graphique (on dispose
souvent de plusieurs centaines voire de plusieurs milliers d'individus) et
d'autre part parce que les individus sont, dans la plupart des applications,
anonymes. Ils ne prsentent de l'intrt que par l'intermdiaire de leurs
caractristiques. On peut cependant vouloir projeter les individus sur un
plan factoriel afin d'apprcier leur rpartition et les zones de densit.
1.4 _ Analyse des Correspondances Multiples 119
g - Inertie du nuage des modalits et consquences pratiques
On rappelle que la distance du X
2
dans Rn est la mtrique
La distance entre la modalit j et le centre de gravit du nuage G, dont toutes
les n coordonnes valent 2, s'crit:
n
[
)
2
2 . n zij 1 n
d (j,G)=nL --- =--1
;=1 Zj n z.j
La distance d'une modalit au centre de gravit est d'autant plus grande que
l'effectif est plus faible.
- Inertie d'une modalit
L'inertie I(j) de la modalit j vaut:
I(j) =m
j
d
2
(j,G)
avec:
Z
m=2
1 ns
d'o:
z.j)
5 n
La part d'inertie due une modalit de rponse est d'autant plus grande que
l'effectif dans cette modalit est plus faible.
Le maximum 1 serait atteint par une modalit d'effectif nul. En
5
consquence, on vite, au moment du codage, les modalits faibles effectifs
susceptibles de perturber les directions des premiers axes factoriels.
- Inertie d'une question
L'inertie de la question q, note l (q), vaut:
Pq 1
I(q)= LI(j)=-(Pq-1)
j=l 5
Ainsi la part d'inertie due une question est fonction croissante du nombre
de modalits de rponse.
La part minimale 1 correspond aux questions 2 modalits. D'o l'intrt
5
d'quilibrer le systme des questions, c'est--dire le dcoupage des variables
modalits, si on veut faire jouer le mme rle toutes les questions.
120 Mthodes factorielles _ chapitre 1
- Inertie totale
On en dduit que l'inertie totale l vaut:
Pz
1= "" 1(q) = "" ~ l , i , G )
L L ns ]
q j=l
d'o:
I=P..-l
S
En particulier, elle vaut 1 dans le cas o toutes les questions ont deux
modalits de rponse (cas o p=2s). On verra au paragraphe 1.4.7.a que dans
ce cas, analyse des correspondances multiples et analyse en composantes
principales donnent des rsultats quivalents.
L'inertie totale dpend uniquement du nombre de variables et de modalits
et non des liaisons entre les variables. C'est une quantit qui, dans le cadre
de l'analyse des correspondances multiples (comme dans celui de l'analyse
en composantes principales norme), n'a pas de signification statistique.
h - Rgles d'interprtation
Dire qu'il existe des affinits entre rponses, c'est dire aussi qu'il existe des
individus qui ont choisi simultanment toutes ou presque toutes ces
rponses.
L'analyse des correspondances multiples met alors en vidence des types
d'individus ayant des profils semblables quant aux attributs choisis pour les
dcrire. Compte tenu des distances entre les lments du tableau disjonctif
complet et des relations barycentriques particulires, on exprime:
la proximit entre individus en terme de ressemblances:
deux individus se ressemblent s'ils ont choisi globalement les mmes
modalits.
- la proximit entre modalits de variables diffrentes en terme
d'association:
ces modalits correspondent aux points moyens des individus qui les ont
choisies et sont proches parce qu'elles concernent globalement les mmes
individus ou des individus semblables.
- la proximit entre deux modalits d'une mme variable en terme de
ressemblance:
par construction, les modalits d'une mme variable s'excluent. Si elles
sont proches, cette proximit s'interprte en terme de ressemblance entre
les groupes d'individus qui les ont choisies (vis--vis d'autres variables
actives de l'analyse).
Les rgles d'interprtation des rsultats (coordonnes, contributions, cosinus
carrs) concernant les lments actifs d'une analyse des correspondances
multi pIes sont sensiblement les mmes que celles d'une analyse des
1.4 _Analyse des Correspondances Multiples
] 2]
correspondances simple (cf. 1.3.5). On calcule la contribution et la qualit
de reprsentation de chaque modalit et de chaque individu, si ceux-ci ne
sont pas anonymes pour l'analyse.
Cependant, la notion de variable doit tre prise en compte au moment de
l'interprtation, ceci au travers de ses modalits. Compte tenu de la
dcomposition de l'inertie du nuage des modalits, on calcule la
contribution d'une variable au facteur a en sommant les contributions de
ses modalits sur ce facteur:
Cra(q) ='LCra(j)
jeq
On repre ainsi, en plus des modalits responsables des axes factoriels, les
variables qui ont particip la dfinition du facteur. On obtient un
indicateur de liaison entre la variable et le facteur [cf. Escofier, 1979 cJ.
En revanche, les rgles d'interprtation des valeurs propres et des taux
d'inertie sont diffrentes (on a vu que la trace n'avait plus d'interprtation
statistique). On se reportera au chapitre 4 sur la validit et porte des
rsultats pour plus de dtails.
i - Principes du dcoupage en classes
Les variables continues, pour tre actives dans une analyse des
correspondances multiples, doivent tre soit rendues nominales (dcoupes
en classes), soit recodes selon deux colonnes numriques
1
.
Lorsque l'on cherche ainsi dcouper une variable en classes, on est
confront plusieurs problmes: combien de classes choisir et comment les
choisir? O placer les bornes des classes d'une variable continue? La
consultation de la distribution de chaque variable (tris--plat et
histogrammes) est indispensable pour effectuer ces choix.
Certains principes, dduits des proprits de l'analyse des correspondances
multiples (cf. 1.4.3.g), peuvent tre utiliss pour guider la phase de
recodage: constituer des modalits d'effectifs semblables, dcouper les
variables de manire avoir un nombre comparable de modalits. Pour
donner un ordre de grandeur, un dcoupage entre 4 8 modalits convient
dans la plupart des applications.
Il s'agit par consquent de trouver un compromis entre un dcoupage
techniquement acceptable selon ces principes et un dcoupage qui exhibe au
mieux l'information retenir. On ne peut gnralement pas avoir recours
des algorithmes aveugles pour laborer un dcoupage satisfaisant 2. On
1 Cf. le recodage prconis par Escofier (] 979 b) prsent au 3.8.5.c.
2 L'algorithme de Fisher (] 958) fournit W1e partition optimale exacte (critre variance
inter /variance totale maximal), mais ce critre rend trs mal compte des mlanges de
distributions ayant des variances trs ingales et ne spare donc pas des classes
qU'W1e inspection visuelle d'histogramme distinguerait sans hsiter.
122 Mthodes factorielles _ chapitre 1
retiendra par exemple une modalit de faible effectif si celle-ci est
importante pour l'tude. De mme pour slectionner les bornes des classes
d'une variable continue, on respectera un ou plusieurs seuils naturels dans
le contexte de l'tude, ou significatifs aprs examen de l'histogramme (le
dcoupage en classes d'amplitudes gales est parfois inappropri).
Ces principes sont moins rigoureux pour une variable supplmentaire.
N'intervenant pas dans la formation des facteurs ou des classes, on a parfois
intrt effectuer un dcoupage fin pour les variables supplmentaires.
La transformation de variables continues en variables nominales
occasionne une perte de l'information brute mais prsente certains
avantages: exploiter simultanment des variables nominales et continues
en correspondances multiples; valider a posteriori les donnes en
permettant d'observer l'ventuelle contigut des classes voisines; et mettre
en vidence les ventuelles liaisons non linaires entre variables continues.
Pour un expos de synthse sur les mthodes de codage, on consultera Cazes
(1990), Grelet (1993). L'article prcit de Cazes et les travaux de Gallego
(1982), van Rijckevorsel (1987) portent en particulier sur l'utilisation du
codage flou en analyse des correspondances.
1.4.4 Elments supplmentaires
L'utilisation des lments supplmentaires en analyse des correspondances
multiples permet de prendre en compte toute l'information susceptible
d'aider comprendre ou interprter la typologie induite par les lments
actifs.
Ceci est particulirement intressant lorsque l'ensemble des variables se
dcompose en thme, c'est--dire en groupes de variables homognes quant
leur contenu.
Dans l'analyse du tableau disjonctif complet, on fera intervenir des
lments supplmentaires pour:
Enrichir l'interprtation des axes par des variables n'ayant pas particip
leur construction. On projettera alors dans l'espace des variables les
centres de groupes d'individus dfinis par les modalits des variables
supplmentaires.
Adopter une optique de prvision en projetant les variables
supplmentaires dans l'espace des individus. Celles-ci seront
"expliques" par les variables actives. On peut projeter des individus
supplmentaires dans l'espace des variables, pour les situer par rapport
aux individus actifs ou par rapport des groupes d'individus actifs dans
une optique de discrimination (cf. section 3.3).
.
Suivant la nature des variables supplmentaires, nominales ou continues,
on interprte diffremment leur position sur les axes factoriels.
1.4 _Analyse des Correspondances Multiples
lments actifs lments supplmentaires
0( "'
123
variables
nominales
variables
nominales
variables
continues
tableau de donnes
individus
F
2
F
2
variables
nominales

.
.


+

.


+

.

.

. .
.
F)

FI

..
.

.

.

.
+
+
.

.. .

.
.


.
.
lments actifs
/
variables F
2
continues ,.
'"
xl.......
0\
a
F
2
variables
nominales
il
...
;-"""-""'.1 FI
\ ."" I
X4

........w ..b
lments
Figure 1.4 - 9
Reprsentation des variables supplmentaires
en analyse des correspondances multiples
a - Valeurs-test pour les modalits supplmentaires
Tout comme pour l'analyse des correspondances simples, il n'est pas
ncessaire de projeter en supplmentaire toutes les modalits d'une
variable nominale.
La coordonne factorielle qJaj d'une modalit j sur un axe ex (que cette
modalit figure parmi les variables actives ou qu'eUe soit supplmentaire)
est le produit par le coefficient + de la moyenne arithmtique des
.../a.
coordonnes lfIai des individus ayant choisi cette modalit j de rponse:
1 n
qJ aj = ...p:;; L lfIai
z.j a ieI( j)
124 Mthodes factorielles _ chapitre 1
o /(j) est l'ensemble des individus ayant choisi la modalit j. Ceci suggre
alors le test d'hypothse suivant.
Supposons qu'une modalit supplmentaire j concerne nj individus
(nj =z-j). Si ces nj individus sont tirs au hasard (hypothse nulle Ho) parmi
les n individus analyss (tirage suppos sans remise), la moyenne de nj
coordonnes tires au hasard dans l'ensemble fini des n valeurs If/ai est une
variable alatoire Xaj :
avec pour esprance :
E(Xaj)= 0
et pour variance) :
n-n' .
VarHo(Xaj)=-_J ---!J...
n -1 nj
La coordonne ({)aj de la modalit supplmentaire est lie la variable
alatoire Xaj par la relation:
On a donc:
et:
n-n' 1
Var(({)aj) = __J
n -1 nj
La quantit taj :
taj = ~ nn-_nj ({)aj
mesure en nombre d'cart-types la distance entre la modalit j, c'est--dire le
quasi-barycentre des nj individus, et l'origine sur l'axe factoriel a.. On
appelle cette quantit "valeur-test". D'aprs le thorme de la limite
centrale, sa distribution tend vers une loi de Laplace-Gauss centre rduite.
Ainsi, la position d'une modalit est intressante dans une direction ex
donne si le sous-nuage qu'elle constitue occupe une zone troite dans cette
direction et si cette zone est loigne du centre de gravit du nuage.
La valeur-test est un critre qui permet d'apprcier rapidement si une
modalit a une position "significative" sur un axe. On considre
gnralement comme occupant une "position significative" les modalits
dont les valeurs-test sont suprieures 2 en valeur absolue, correspondant
approximativement au seuil 5%.
1 Il s'agit de la fonnule classique donnant la variance d'une moyenne lors d'un tirage
sans remise de nj objets parmi n, en fonction de la variance totale ,a.
1.4 _ Analyse des Correspondances Multiples 125
Le calcul simultan de plusieurs valeurs-test ou de plusieurs seuils de
probabilits se heurte l'cueil des comparaisons multiples, bien connu des
statisticiens.
Supposons que l'on projette 100 modalits supplmentaires qui soient
vraiment tires au hasard. Les valeurs-test attaches ces modalits sont
alors toutes des ralisations de variables alatoires normales centres
rduites indpendantes.
Dans ces conditions, en moyenne, sur 100 valeurs-test calcules, 5 seront en
dehors de l'intervalle [-1.96, +1.96], et 5 dpasseront la valeur 1.65 (test
unilatral ). Le seuil de 5% n'a de sens en fait que pour un seul test, et non
pour des tests multiples. On rsout de faon pragmatique cette difficult en
choisissant un seuil plus svre
l
.
On note que les valeurs-test n'ont de sens que pour les modalits
supplmentaires ou encore pour les modalits actives ayant des
contributions absolues faibles, c'est--dire se comportant comme des
modalits supplmentaires
2

Lorsque l'on dispose d'un nombre important de modalits


supplmentaires, les valeurs-test permettent de reprer rapidement les
modalits utiles l'interprtation d'un axe ou d'un plan factoriel.
b - Variables continues supplmentaires
Il est possible de positionner des variable continues en lment
supplmentaire (sans transformation au pralable en variable nominale par
dcoupage en classes).
On calcule, comme dans l'analyse en composantes principales norme, le
coefficient de corrlation de ces variables avec le facteur. Celui-ci fournit la
coordonne de la variable continue sur l'axe factoriel (cf. la schmatisation
de la figure 1.4 - 9). Les carrs des coefficients obtenus sont l'quivalent des
cosinus carrs.
La position d'une variable sur un plan dfinit donc la direction o se
situent les fortes valeurs de la variable. Ceci est d'autant plus vrai que la
variable est proche du cercle de corrlations (de rayon 1) : il existe dans ce cas
une liaison forte et linaire entre la variable et les facteurs 3.
1 Les valeurs-tests permettent surtout de classer les modalits supplmentaires par
ordre d'intrt dcroissant, ce qui constitue une aide prcieuse l'interprtation des
facteurs.
2 Les coordonnes sur un axe des individus correspondant une modalit active ne
peuvent tre considres comme tirs au hasard, puisque cette modalit aura contribu
construire l'axe.
3 La lecture de la trajectoire des classes d'une variable continue transforme en variable
nominale apporte souvent plus de prcision que la seule position de la variable
considre comme continue (dtection ventuelle de liaisons non linaires).
126 Mthodes factorielles _ chapitre 1
1.4.5 Analyse du tableau de contingence de Burt :
Equivalence avec l'analyse du tableau disjonctif complet
Le tableau B de correspondance multiple, obtenu partir d'un tableau
disjonctif complet, est un assemblage particulier des tableaux de contingence
qui sont les faces de l'hypercube de contingence.
L'analyse des correspondances applique un tableau disjonctif complet Z
est quivalente l'analyse du tableau de Burt B et produit les mmes
facteurs.
L'analyse des correspondances du tableau de Burt B, tableau symtrique
d'ordre (p,p), se ramne l'analyse d'un nuage de p points-modalits dans
RP. Les marges de ce tableau, en ligne comme en colonne, sont les lments
diagonaux de la matrice s o.
Compte tenu de l'quation [1.4 - 2] donnant le cx.
ime
facteur <Pa de l'analyse
du tableau disjonctif complet Z, la matrice diagonaliser est:
S =2
0
-
1
Z
'z =2
0
-
1
B
s s
Pour l'analyse du tableau de 8 associ Z, le tableau des frquences relatives
F s'crit:
1
F=-B
ns
2
et
On diagonalise la matrice:
ce qui donne:
S"=S2
En prmultipliant les deux membres de [1.4 - 2] par 20 -
1
8, on obtient:
s
1 0-l
BO
-1
8
12
2" <Po. =l\.a<Pa
S
Les facteurs des deux analyses sont donc colinaires dans RF mais les
valeurs propres associes diffrent. Celles issues de l'analyse de B, notes B,
sont le carr de celles issues de l'analyse de Z :

B
=
2
[1.4 - S]
Les facteurs <Pa issus de l'analyse de Z, reprsentant les coordonnes
factorielles des modalits, ont pour norme , alors que le facteur
correspondant de l'analyse de B, not <PBo., aura pour norme 2.
1.4 _Analyse des Correspondances Multiples 127
D'o la relation liant les deux systmes de coordonnes factorielles:
<PB = <P {f;; [1.4 - 6]
1.4.6 Cas de deux questions
Dans le cas de deux questions q1 et q2, le tableau disjonctif complet s'crit:
Z = [ZI, Z2]
et nous ramne directement l'analyse du tableau de contingence.
Il est alors quivalent, au point de vue de la description des associations
entre modalits, d'effectuer:
[1] l'analyse des correspondances du tableau Z d'ordre (n,p);
[2] l'analyse des correspondances du tableau B d'ordre (p,p);
[3] l'analyse des correspondances du tableau K =Z
l
Z2 d'ordre (Pl, PZ).
L'quivalence entre l'analyse des correspondances du tableau disjonctif
complet Z et celle du tableau des correspondances multiples B a t donne
dans le cas gnral de plusieurs questions.
q2
~
tableau disjonctif
complet,Z
"'-
tableau de
Burt, ZZ
)

* *

0
1'1
1'1

0
*
0
tableau de
contingence, Z';Z 2
J
Figure 1.4 - 10
Equivalence des trois analyses des correspondances
Intressons-nous maintenant l'quivalence entre l'analyse des
correspondances du tableau disjonctif complet Z = [ZI, Z2] d'ordre (n,p) et
celle du tableau de contingence K =Z
l
Z2 d'ordre (Pl, PZ) avec P =Pl + pz .
128 Mthodes factorielles _ chapitre 1
Montrons que, pour tout couple de facteurs ("'a, (jla) relatifs une mme
valeur propre Ila issus de l'analyse du tableau de contingence Z
I
Z2, il
correspond un facteur <1>a de l'analyse de Z (ou celle de B), avec:
Rappelons que l'on note 01 =ZIZI et O
2
=Z2Z2 et que:

Les lments diagonaux de 0
1
et O
2
sont respectivement les marges en ligne
et en cololU1e du tableau ZZ2'
L'analyse de ce tableau nous conduit aux relations de transition:
j
"'a = k Ol Zi
Z
2 <Pa
1 0-
1
Z'Z
(jla = 2 2 1"'a
vila
On peut crire ces relations sous la forme du systme:
JOlI (Ol"'a +Z
I
Z2(jla) =
102"1 (02(jla +Z2
Z
1"'a) =
soit encore:
[
0
01
0 ]-1 [0
1
Zi
Z
2] ["'a] = (1 +
02 Z2
Z
1 O
2
(jla (jla
Cette quation s'crit de faon plus condense:
0-lZ'Z <%la = (1 <%la
[1.4 -7]
[1.4 - 8]
[1.4 - 9]
Aprs multiplication des deux membres par 2, soit ici!:. , il vient:
s 2
2
0
-
1
Z
'z <%la =(1 +..jl;; )<%la
s 2
On y recolU1at la relation [1.4 - 2] avec:

2
Si Ila est la a
ime
plus grande valeur propre issue de l'analyse du tableau de
contingence ZlZ2, alors
a
est la a
ime
plus grande valeur propre issue de
l'analyse de Z.
1.4 _ Analyse des Correspondances Multiples 129
Si par exemple Pl P2, l'analyse de Z conduit :
[
'V ] .
- Pl facteurs du type CP:' correspondant la valeur propre 2 '
- Pl facteurs du type [ 'l'a ], correspondant la valeur propre 1-
-CPa 2
- P2 -Pl facteurs du type
1
[:J correspondant la valeur propre %.
Les rsultats relatifs aux trois analyses quivalentes sont rassembls dans le
tableau 1.4 -1.
Tableau 1.4 - 1
Equivalence des analyses des trois tableaux
dans le cas de deux questions
Tableau analys Dimension Facteur Valeur propre
Z
l
Z2
(Pl, P2)
'v dans R
P
I
tableau de contingence
cP dans R
P
2

Z = [Zl, Z2]
(p,n)
$ = [:J

tableau disjonctif op = Pl + p2
2
complet
B =Z'Z
<l1l = $..f):.
')...2
Tableau de Burt
(p,p)
Remarques:
1) Les analyses de correspondances appliques ces trois types de tableaux,
reposant sur la mme information brute, donnent les mmes axes factoriels, mais
avec des valeurs propres diffrentes, donc des taux d'inertie diffrents. Les
relations existant entre les taux d'inertie nous montrent que ceux-ci seront toujours
plus levs pour l'analyse du tableau de contingence ZlZ2 que pour l'analyse du
tableau disjonctif complet Z.
Ainsi, la somme des valeurs propres non triviales issues de l'analyse de Z vaut:
Pl +P2 -1
2
Comme les valeurs propres sont infrieures ou gales l, aucun facteur ne peut
avoir un taux d'inertie suprieur en pourcentage :
2x100
Pl +P2-
2
Prenons l'exemple du tableau de contingence croisant les 8 professions et les 6
mdias (cf. 1.3.8). Le premier facteur prend en compte 50% de l'inertie totale. La
remarque ci-dessus montre que l'analyse du tableau disjonctif correspondant ne
1 Les axes compltent la base des 'l'a dans JRP
130 Mthodes factorielles _ chapitre 1
peut pas donner un premier facteur expliquant plus de =16,6%. Les taux
8+6-2
d'inertie sont donc dpendants du codage prliminaire de l'information brute. Il
faut donc viter de les interprter en termes "d'information". On reviendra sur ce
point la section 4.1.
2) Dans l'analyse du tableau disjonctif complet Z, les points reprsentant les
diverses modalits de rponses aux deux questions sont les lments d'un mme
ensemble, l'ensemble des colonnes de Z.
Au contraire dans l'analyse du tableau de contingence ZlZ2, ils se scindent en
points-lignes et en points-eolonnes (cf. figure 1.4 -11).
Tableau
disjonctif
(n,p)
ql q2
d(j,j') dans lIf
Tableau de
contingence
(pl'P2 )
q2
j est au barycentre des p2
modalits de l'autre variable
Figure 1.4 - 11
Proximit entre deux modalits de variables diffrentes
Le fait que les reprsentations obtenues dans l'espace des premiers facteurs
soient identiques ( une dilatation prs, due au fait que les valeurs propres
ne sont pas les mmes) montre que la reprsentation simultane des points-
lignes et des points-colonnes en analyse des correspondances n'est pas un
simple artifice graphique.
L'interprtation de la position de deux modalits relatives deux variables
diffrentes dpend du tableau d'analyse. Dans le tableau disjonctif complet,
cette position s'interprte en terme de distance. Dans le tableau de
contingence, la distance entre une ligne et une colonne n'a pas de sens et
une modalit est au "quasi-barycentre" des modalits de l'autre variable.
L'analyse de ces deux tableaux fournit des reprsentations similaires.
1.4.7 Cas particuliers
Dans le cas o toutes les variables ont deux modalits, l'analyse des
correspondances multiples se ramne l'analyse en composantes
principales des variables caractrises par une seule de leurs modalits. Dans
le cas o l'ensemble des questions peut tre partitionn en deux groupes
l'intrieur desquels les questions sont indpendantes, l'analyse des
correspondances multiples se ramne l'analyse de la correspondance entre
1.4 _ Analyse des Correspolldallces Multiples 131
les deux groupes: juxtaposition de tables de contingences constituant un
sous-tableau du tableau de Burt.
a - Toutes les questions ont deux modalits
Les variables n'tant reprsentes que par une seule de leurs modalits
p - s = f, on obtient directement la matrice diagonaliser qui n'est autre que
2
la matrice des corrlations entre variables (Nakhl, 1976). Rappelons que
d'aprs [1.4 - 2] :
[1.4 -10]
Explicitons cette relation o 0 dsigne la matrice diagonale ayant les mmes
lments diagonaux que B et o 1et j dsignent deux modalits:
2l b
lj
cPj = ~ [1.4 -11]
s jEpbu
L'ensemble p des p modalits est partitionn en deux sous-ensembles pl et
p2 forms respectivement des premires et des deuximes modalits de
chacune des s questions:
Pour tout q ES:
(
.1 .2}
Pq = Jq,Jq
avec ~ E pl et ~ E p2. Notons les relations, pour tout q ES:
l ~ + l ~ =bU pour tout 1E P
Cette relation exprime que ceux qui ont choisi la rponse 1 et l'une 0 U
l'autre des deux modalits de la question Jq sont simplement ceux qui ont
choisi la rponse 1.
b'
H
+b. 22 = n et b.J.1cP. 1 = -b'2'2cP.2
JqJq JqJq JqJq Jq JqJq Jq
La premire relation exprime que tous les individus doivent choisir au
moins une modalit de rponse pour chaque question, et la seconde traduit
le fait que les coordonnes sont centres pour chaque question.
Il suffit donc de restreindre la sommation de la relation [1.4 - 11] au seul
ensemble pl, dont l'lment courant sera dsormais not j :
_1 l (br _ (bu - blj)bjj ) cP = ~
sbu. 1 J n - b.. J
JEP JJ
Ce qui peut s'crire:
n br - bu b..
L J JJ cP = ~
. 1 S (n - bu ) bu J
JEP
[1.4 -12]
132 Mthodes factorielles _ chapitre 1
Calculons les moments empiriques centrs du second ordre des 5 variables
caractrises par leurs premires modalits:
1 bub
Cov([, j) = -(br - _JJ)
n J n
1 b4.
Var(j)=-(b .. _-.ll...)
n JJ n
Le terme gnral de la matrice des corrlations des 5 variables s'crit:
n bJj _ bu bjj
Cor([, j) =
bjj (n-b
u
) bu
Il est clair que si (f!>, ) est la solution de l'quation [1.4 -12] alors (cP*, *) est
la solution de:
L Cor(l,j)f!>l = *f!>t
j
Ep
l
avec:
et:
* = s
Les facteurs et les valeurs propres d'une analyse des correspondances
multiples de 5 variables deux modalits (p =25) sont bien relis par une
relation simple ceux d'une analyse en composantes principales normes
effectues sur les premires (ou les secondes) modalits de' chacune des 5
questions (slection de 5 colonnes du tableau disjonctif complet).
b - Sous-tableau d'un tableau de correspondances multiples
Lorsque l'ensemble des 5 questions est partitionn en au moins deux sous-
ensembles S} et S2 totalisant respectivement Pl et PZ modalits (avec
Pl + pz =p), on peut vouloir analyser le sous-tableau B12 croisant ces deux
sous-ensembles obtenu partir du tableau de correspondances multiples.
- Analyse du sous-tableau
L'analyse du tableau des correspondances multiples B permet d'tudier les
liaisons entre toutes les questions.
L'analyse du sous-tableau B12 permet d'tudier les relations existant entre
les lments de s} et ceux de S2 sans tenir compte des dpendances internes
SI, ni des dpendances internes S2. Le groupe de questions s} est caractris
par ses associations avec les questions de S2 et rciproquement (cf. Leclerc,
1975).
1.4 _ Analyse des Correspondances Multiples 133

Sous-tableau B12
Tableau de Burt B
Figure 1.4 - 12
Sous-tableau B
12
du tableau de contingence de Burt B
Lorsqu'un des groupes est rduit une seule question qo' le tableau de
donnes est une bande du tableau des correspondances multiples croisant la
variable % avec un groupe de variables ne contenant pas %.
C'est aussi le tableau des barycentres des groupes d'individus dfinis par les
modalits de %.
Nous verrons ( 3.3.8.b) que l'analyse d'une bande d'un tableau de
correspondances multiples constitue une mthode de discrimination
appele analyse discriminante barycentrique.
Les rsultats obtenus par l'analyse des correspondances du tableau de Burt B
et celle de la tranche B}2 sont en gnral diffrents (les nuages relatifs ces
tableaux ne sont pas dans le mme espace). Ce sont les objectifs de l'tude
qui doivent guider le choix du tableau analyser.
... ": :
'
',',.
Figure 1.4 -13
Bande du tableau
des correspondances multiples
Cependant, si les variables de chaque sous-ensemble sont indpendantes
entre elles, les analyses ralises partir des tableau B et Bu sont
quivalentes et celles de chaque sous-ensemble SI et S2 ne prsentent pas
d'intrt.
134 Mthodes factorielles _ chapitre 1
- Cas o l'analyse multiple se ramne une correspondance binaire
Le cas d'une correspondance binaire s'est rvl particulirement
intressant du point de vue des calculs mettre en uvre. En effet,
l'analyse du tableau des correspondances multiples d'ordre (p,p) est
quivalente l'analyse des correspondances du tableau de contingence
croisant les modalits des deux questions, ce qui conduit diagonaliser une
matrice dont l'ordre est dtermin par le plus petit des nombres Pl et p2.
Nous retiendrons la proprit suivante. Si l'intrieur des deux sous-
ensembles SI et S2 les questions sont indpendantes, l'analyse des 5 questions
se ramne celle d'une correspondance binaire, et donc la diagonalisation
d'une matrice d'ordre Inf(pl, p2).
Nous dirons ici que deux questions q et q' sont indpendantes si la table de
contingence correspondante vrifie la relation
l
;
ZqZq' =l.dqd
q
'
n
o les vecteurs d
q
et d
q
' ont respectivement pour composantes les lments
diagonaux de ZqZq et Zq'Zq' (c'est--dire les lments diagonaux de Oq et
Oq' par dfinition de ces matrices).
Ecrivons de nouveau la relation [1.4 -la] en partitionnant <l> en deux blocs
<l>sl et <l>S2; on dcoupe galement les matrices B et 0 en quatre blocs, de
faon faire apparatre la partition s = SI V S2 :
B=[B
11
B
12
] 0 =[0
1
0]
B
21
B
22
0 O
2
On obtient les deux relations:
Remarquons que les SI (respectivement S2) blocs diagonaux de 011B11
(respectivement 021B22) sont des matrices unit dont les ordres
correspondent aux cardinaux de chacune des questions.
On a d'autre part, pour k E{l, 2} ;
, , 0-I
Z
' Z 10-l
d
d'
qEsk;q ESk;q:;tq q q q'=- q q q'
n
En dsignant par e
q
un vecteur dont les q composantes valent 1 ;
1 Bien entendu, l'indpendance thorique entre les deux questions n'implique pas que
cette relation soit exactement vrifie sur l'chantillon.
1.4 _ Analyse des Correspondances Multiples
0
-1
Z
' Z 1 d'
q' q q' =-e
q
q'
n
135
Les relations =0 (centrage des modalits relatives chaque question)
impliquent finalement;
= et
1 1
Le systme ci-dessus s'crit alors;
l01"1B12 = (s -1)
l02
1B
21 =(s -1)
D'o par substitution;
021B21011B12<%>S2 =(.s _1)2
Ainsi <%>S2 est obtenu par diagonalisation d'une matrice d'ordre (51, 52). On
en dduit facilement <%>Sl'
Remarquons que B12 est obtenu par juxtaposition des tableaux de
contingence croisant l'ensemble des modalits des questions du premier
groupe avec celles relatives au second groupe. Les marges du tableau B12
sont les lments diagonaux de 52B1 et 5182.
Les facteurs issus de l'analyse des correspondances directe du tableau B12
considr comme un tableau de contingence vrifient la relation;
-1-01B2P11B12'J1 = 'JI
5
1
5
2
Ils sont donc proportionnels aux facteurs trouvs prcdemment
1
.
1.4.8 Exemple d'application numrique
L'exemple qui va suivre concerne un petit sous-chantillon (105 individus,
9 questions) de l'enqute "Conditions de vie et aspirations des Franais" 2.
Le tableau 1.4 - 2 est le tableau de donnes proprement dit, en codage
condens (cf. section 1.4.2 ci-dessus), l'exception de la variable V2 (ge) qui
est numrique.
1 Ces proprits concernant les sous-tableaux de tableaux de Burt ont t tudies par
A. Leclerc (1975), puis gnralises par P. Cazes (cf. Cazes, 1977, 1980, 1981).
2 Pour une prsentation gnrale, des rfrences relatives cette enqute et des
exemples d'application en vraie grandeur, cf. 2.4.4.
136 Mthodes factorielles _ chapitre 1
Tableau 1.4 - 2
Tableau de donnes R en codage condens
nO
VI V2 V3 V4 V5 V6 V7 V8 V9
nO
VI V2 V3 V4 V5 V6 V7 V8 V9
1 2 27 1 2 2 1 1 2 1 54 2 54 1 2 2 2 1 1 1
2 2 42 1 3 2 2 1 1 3 55 2 48 1 3 2 2 1 1 1
3 1 71 1 2 2 2 2 1 1 56 2 30 1 3 2 1 1 1 1
4 1 52 1 2 2 1 1 2 1 57 2 50 1 2 2 2 2 1 1
5 2 36 1 2 2 2 2 1 3 58 1 21 1 2 1 2 2 2 2
6 1 22 2 2 2 2 1 2 3 59 2 47 1 2 2 2 2 1 2
7 1 26 2 2 2 2 2 2 2 60 1 51 2 2 2 2 1 1 2
8 2 43 1 2 1 1 2 2 1 61 1 27 2 3 2 1 2 1 2
9 2 33 1 2 2 2 2 1 1 62 2 37 2 3 2 1 2 1 2
10 2 54 2 4 2 2 1 1 3 63 1 67 1 4 2 2 1 1 1
11 1 57 1 3 2 1 1 2 3 64 2 30 2 3 2 2 1 1 3
12 1 33 1 2 2 1 1 1 1 65 1 40 2 2 2 2 2 1 2
13 1 65 1 2 2 2 1 2 1 66 1 67 1 4 2 2 2 1 1
14 2 58 1 2 2 2 2 2 2 67 2 51 1 2 2 2 2 2 1
15 2 33 1 3 2 1 2 1 1 68 1 35 2 2 2 1 1 1 2
16 1 37 1 4 2 2 2 1 1 69 1 24 1 2 2 2 1 1 3
17 1 46 1 3 2 2 1 1 2 70 1 34 2 4 2 2 2 1 4
18 2 30 2 3 2 1 2 1 1 71 1 55 1 4 2 1 1 2 2
19 1 64 1 2 2 2 1 2 1 72 1 41 1 2 2 1 1 1 1
20 2 64 1 2 2 2 2 2 1 73 1 32 1 2 2 1 2 1 2
21 1 41 1 3 2 2 2 2 1 74 1 35 1 2 1 2 1 1 1
22 1 56 1 3 2 2 1 1 1 75 2 27 2 2 2 2 2 1 2
23 2 21 1 3 1 1 1 2 1 76 2 22 2 2 2 2 1 1 2
24 2 49 1 2 2 1 1 1 1 77 2 31 2 2 2 2 1 1 1
25 1 60 2 2 1 2 2 2 2 78 1 35 2 3 2 2 2 1 3
26 1 63 1 1 2 1 1 2 1 79 2 33 2 2 1 1 1 2 1
27 2 46 1 3 1 1 2 1 1 80 1 39 1 2 2 1 2 1 4
28 2 53 2 2 2 2 2 1 3 81 2 21 1 2 2 2 2 2 3
29 2 29 2 3 2 2 1 1 2 82 2 51 1 3 2 2 2 1 3
30 1 59 1 3 2 2 2 1 1 83 2 35 1 3 2 2 1 1 1
31 2 48 1 3 2 2 2 1 3 84 1 58 2 2 2 2 2 1 3
32 2 19 2 2 2 2 2 1 3 85 1 54 1 1 2 1 1 2 3
33 1 56 1 2 2 2 2 2 1 86 2 21 2 3 2 1 2 2 2
34 1 30 1 4 1 2 2 1 3 87 1 29 2 2 2 2 2 1 1
35 2 66 2 3 2 1 1 1 1 88 2 32 1 1 2 2 1 1 3
36 2 30 1 3 2 1 1 1 1 89 2 40 1 2 1 1 2 2 1
37 2 39 1 3 1 1 1 1 1 90 1 34 2 2 1 2 2 2 2
38 1 52 1 2 2 2 2 1 3 91 1 33 2 3 2 2 2 1 2
39 1 23 1 1 2 1 1 1 1 92 2 82 1 1 2 2 1 2 1
40 1 52 1 1 1 2 2 2 3 93 1 69 1 3 2 2 1 2 1
41 1 47 1 1 1 1 2 1 1 94 2 38 2 2 2 2 1 1 3
42 1 47 1 3 2 2 1 1 1 95 1 80 1 3 2 1 1 1 1
43 2 71 2 2 1 2 2 2 1 96 2 39 1 2 1 1 1 1 4
44 2 64 1 2 2 1 1 2 1 97 2 61 1 1 1 2 1 2 1
45 1 37 2 2 1 2 2 2 3 98 1 67 1 2 2 2 1 2 3
46 2 62 1 2 2 2 2 2 1 99 1 24 1 2' 1 2 2 2 2
47 1 45 2 1 2 2 2 1 2 100 2 43 1 3 2 2 2 1 1
48 1 26 2 2 2 2 1 2 2 101 1 54 2 1 2 2 2 2 2
49 2 40 1 2 1 1 1 1 1 102 2 76 1 2 2 2 2 2 1
50 1 23 1 3 2 2 2 1 2 103 2 45 1 1 1 1 1 2 2
51 2 28 1 2 1 2 2 1 2 104 2 24 1 2 2 2 2 2 1
52 1 40 2 2 1 2 2 2 2 105 2 80 1 2 2 2 1 2 1
53 1 40 1 2 2 2 1 1 1
Les libells des questions figurent dans le tableau 1.4 - 3, les libells des
modalits correspondantes se retrouveront dans les listages de rsultats plus
bas. Les libells abrgs en 4 caractres seront utiliss pour les
reprsentations graphiques. Les 4 variables actives servent calculer les
1.4 _ Analyse des Correspondaltces Multiples 137
distances et les axes, les 4 variables illustratives et la variable continue
illustrative servent interprter a posteriori les axes et les proximits.
Tableau 1.4 - 3
Description des libells des 9 questions
4 questions actives 13 modalits associes
-V3- La famille est le seul endroit ou l'on se sent bien (2 modalits)
FADI = oui, FAD2 = non.
-V4- Les dpenses de logement sont pour vous une charge (4 modalits)
DLDI = ngligeable, DLD2 = sans gros problme,
DL03 = une lourde charge, DL04 = Une trs lourde charge.
-V7- Avez-vous souffert rcemment de mal au dos (2 modalits)
MADI = oui, MAD2 = non.
-VB-Vous imposez-vous rgulirement des restrictions (2 modalits)
REDI = oui, RE02 = non.
4 questions illustratives 10 modalits associes
-VI- Sexe de l'enqut(e) (2 modalits)
MASC = masculin, FEMI = fminin.
-VS Disposez-vous d'un magntoscope (2 modalits)
MAGI = oui, MAG2 = non.
-V6- Avez-vous souffert rcemment de maux de tte (2 modalits)
MWI =oui, MT02 = non.
-V9- Regardez-vous la tlvision? (4 modalits)
TVDI = tous les jours, TV02 = assez souvent,
TV03 = pas trs souvent, TV04 = jamais.
1 variable continue ill ustratives
-V2- Age de l'enqut(e) (continue)
Les tableaux disjonctifs complets correspondant aux variables nominales ne
sont pas prsents et ne sont jamais dvelopps tels quels dans les calculs. Le
tableau de Burt (tableau 1.4 - 4) est calcul directement partir du codage
condens
1
. Le tableau 1.4 - 4 ne reprsente que la moiti infrieure du
tableau de Burt relatif aux 4 questions actives. On trouve dans ce tableau les
6 tableaux de contingence croisant les 4 questions actives deux deux. Sur la
diagonale se trouvent les questions croises avec elles-mmes, et donc les
effectifs correspondant chaque modalit.
On vrifie ensuite (tableau 1.4 - 5) qu'il y a 6 valeurs propres non nulles
(6 = P- s), et on peut constater que les taux d'inertie correspondant chaque
valeur propre sont modestes, malgr la petite taille de cet exemple
pdagogique. Il s'agit l d'une proprit propre cette mthode: les taux
d'inertie sont toujours des mesures trs pessimistes de l'information
extraite, car le codage disjonctif induit une orthogonalit artificielle des
colonnes du tableau. Plusieurs indicateurs de remplacement ont t
proposs.
1 Cette procdure divise le nombre d'oprations par le coefficient (s/p)2, s tant le
nombre de questions actives et p le nombre total de modalits correspondantes. Dans
le cas d'applications courantes (p > 100, n> 1000, n tant le nombre d'individus) ce
gain est trs apprciable.
138 Mthodes factorielles _ chapitre 1
Tableau 1.4 - 4
Tableau de Burt des s = 4 questions actives
1 FAOl FA02 1 DLOI DL02 DL03 DL04 1 MAOl MA02 1 REOI RE02 1
FAOl 1 72 0 1
FA02 1 0 33 1
-----+-----------+---------------------+
DLOI 1 9 2 1 Il 0 0 0 1
DL02 1 37 20 1 0 57 0 0 1
DL03 1 21 9 1 0 0 30 0 1
DL04 1 5 2 1 0 0 0 7
1
MAO 1 1 38 12 1
MA02 1 34 21 1
REO 1 1 42 22 1
RE02 1 30 Il 1
24 16
33 14
29 25
28 5
3 1 50 0 1
4 1 0 55 1
6 1 31 33 1 64 0 1
1 1 19 22 1 0 41 1
1 FA01 FA02 1 DL01 DL02 DL03 DL04 1 MA01 MA02 1 RE01 RE02 1
On peut considrer les carrs des valeurs propres, qui sont les valeurs
propres de l'analyse des correspondances du tableau de Burt considr
comme tableau de donnes (cf. 1.4.5) et qui fournissent des taux d'inertie
un peu moins pessimistes. On peut galement prendre en compte des
fonctions particulires des valeurs propres comme mesures de l'inertie
(Benzcri, 1979)1.
Tableau 1.4 - 5
Valeurs propres et taux d'inertie
POURCENT. POURCENT.
CUMULE
NUMERO
l
2
3
4
5
6
Total
VALEUR
PROPRE
.3416
.3175
.2520
.2232
.2075
.1582
1.5000
22.77
21.17
16.80
14.88
13 .84
10.54
100.00
22.77 www.w_ w ** * __ *_*
43.94 **********ff**********_********
60.74 ********.*.*****.***
75.62 ****** "'.*
89 .. 46 --.- _._ _-
100.00 *._*--*---
Le tableau 1.4 - 6 fournit les indicateurs ncessaires pour interprter les
positions des modalits actives.
Les rgles de lecture sont semblables celles du tableau 1.3 - 13 relatif
l'analyse des correspondances simple. Seuls les calculs de contributions
cumules pour les modalits de chaque question ont t ajouts. Leur
interprtation est immdiate. li est clair, par exemple, que les deux questions
relatives aux dpenses de logement et aux restrictions dfinissent
entirement le premier axe.
l Benzcri a propos la quantit qui est voisine de ')..2 si le nombre
5-1 5
de questions 5 est grand, et qui correspond, dans le cas 5 = 2, la valeur propre Il de
l'analyse des correspondances de la table de contingence croisant les deux questions
[dans ce cas, en effet, pO.) =Ji = (n -1 )2). (voir aussi 4.1.5.a).
--------------------------------------------+--------------------+-----------------+-----------------
---------------------------------------------+--------------------+-----------------+------------------
FMI oui 17.14 .46
1 .14 -.42 .12 1.0 9.3 .9 .05 .38 .03
FA02 non 7.86 2.18
1
-.31 .91 -.26 2.3 20.4 2.1 .05 .38 .03
--------------------------------------------+--------- CUMUL 3.3 29.7 3.0 +-----------------
3 2 1
1 COSINUS CARRES
3 2 1
1 CONTRIBUTIONS
3 2
COORDONNEES
1 P.REL DISTO 1
MODALITES
Tableau 1.4.6
Coordonnes, contributions et cosinus carrs des modalits actives sur les axes 1 3
- les dpenses de logement sont pour vous une charge
- la famille est le seul endroit ou l'on se sent bien
roEN - LIBELLE
DL01 - ngligeable 2.62 8.55 1.32 -1. 32 .33 -1 13 .4 14.4 1.2 .20 .20 .01
DL02 - sans gros problme 13 .57 .84 .41 .52 - .11
1
6.7 11.8 .6 .20 .33 .01
DL03 - une lourde charge 7.14 2.50 -1. 00 -.50 -.72 1 21.1 5.7 14.8 .40 .10 .21
DL04 - trs lourde charge 1. 67 14.00 -1.11 -.05 3.45
1
6.0 .0 78.7 .09 . :00 .85
--------------------------------------------+--------- CUMUL 47.2 31.9 95.2 +-----------------
- avez-vous souffert rcemment de mal au dos
MAO 1 oui 11. 90 1.10
1
.03 -.73 -.14 .0 19.8 .9 .00 .48 .02
MA02 non 13 .10 .91
1 -.02 .66 .13 .0 18.0 .8 .00 .48 .02
--------------------------------------------+--------- CUMUL .0 37.9 1.86 +-----------7-----
- vous imposez-vous rgulierement des restrictions
--------------------------------------------+---------
RE01
RE02
oui
non
15.24
9.76
.64 1 -.66 -.06
1.56 1 1.03 .10
.01
-.01
CUMUL
19.3 .2 .0 .68 .01 .00
:i0.2 .3 .0 .68 .01 .00
49.5 .5 .0 +-----------------
140 Mthodes factorielles _ chapitre 1
Le tableau 1.4 - 7 donne les valeurs-test (cf. section l.4.4.a ci-dessus) et les
coordonnes des modalits supplmentaires sur les trois premiers axes. On
note que les seules coordonnes significatives sur le premier axe sont
relatives la possession d'un magntoscope (valeurs-test de 2.S). Les
mentions de maux de ttes et l'coute de la tlvision - toutes deux lies
l'ge - sont caractristiques du deuxime axe.
Le tableau 1.4 - 8 est relatif la variable continue "ge". On y lit sa moyenne,
son cart-type, et ses coefficients de corrlation avec les trois premiers axes.
La structure du nuage des modalits actives est dcrite par le plan factoriel
de la figure 1.4 - S, qui rsume donc les 6 tables de contingence.
Le petit nombre de questions et le faible nombre d'individus limitent
l'intrt des rsultats, mais permettent en revanche de comprendre le
mcanisme de la mthode. Les deux questions les plus lies (dpenses de
logements et restrictions) emportent le premier axe, la question relative aux
dpenses de logement intervenant avec un poids double compte tenu du
nombre de ses modalits (cf. 1.4 .3-g). Les deux questions restantes, plus
faiblement lies, caractrisant le deuxime axe.
La reprsentation simultane des lignes et des colonnes lie l'analyse des
correspondances n'est pas utilise sur la figure 1.4 - 5. Les 105 points-lignes
correspondent des individus anonymes; seules leurs caractristiques
prsentent de l'intrt. Les individus n'interviennent donc que par le
truchement des variables supplmentaires.
Les positions des modalits supplmentaires doivent tre tempres par
leurs valeur-tests. Dans les tudes en vraie grandeur o ces modalits
peuvent tre trs nombreuses, seules celles ayant des valeurs-test
significatives sont portes sur les graphiques. Ainsi, la variable sexe
(valeurs-test 0.5 et 0.4 sur les axes 1 et 2) pourrait ne pas figurer dans ce plan
factoriel. De mme, la modalit TV04, (ne regarde jamais la tlvision)
malgr sa position relativement excentre gauche, n'est pas non plus
significative (valeur-test = -1.0) car elle ne concerne que 3 individus.
Remarquons que la seule phase du processus permettant de procder une
infrence statistique est prcisment le calcul des valeurs-test relatives aux
modalits supplmentaires. Malgr la taille modeste de l'chantillon et le
petit nombre de variables, on peut rejeter l'hypothse d'indpendance entre
la possession d'un magntoscope (point MAC2) et l'aisance financire telle
qu'elle est dcrite par les modalits (OLOl, DL02, RE2).
La variable continue ACE est reprsente comme un axe, en pointill. Cette
direction a une certaine cohrence, malgr la faible taille de l'chantillon
(les individus plus gs ont des ides plus traditionalistes sur la famille,
sont plus souvent propritaires de leur logements, plus frquemment
tlspectateurs).
Tableau 1.4.7
Coordonnes et valeurs-test des modalits illustratives sur les axes 1 3.
---------------------------------------------+--------------------+-----------------------+----------
- avez-vous souffert rcemment de maux de tete
---------------------------------------------+--------------------+-----------------------+----------
- regardez-vous la tlvision ?
.98
1. 02
3.77
.27
2.18
.46
-.19
.09
.21
-.21
.09
-.02
.13
-.03
.04
-.04
-.45
.21
.01
.00
.05
-.05
.54
-.14
.5
-.5
.7
-.7
.4 2.1
-.4 -2.1
.0 -3.1 -1.3
.0 3.1 1.3
.5
-.5
2.8
-2.8
53.00
52.00
22.00
83.00
33.00
72.00
53
52
22
83
33
72
MAG1 - oui
MAG2 - non
MT01 - oui
MT02 - non
HASC - masculin
FEMI - feminin
---------------------------------------------+--------------------+-----------------------+----------
-sexe de l'enqut(e)
---------------------------------------------+--------------------+-----------------------+----------
- disposez-vous d'un magntoscope
MODALITES 1 VALEURS-TEST 1 COORDONNEES 1
---------------------------------------------1--------------------1-----------------------1----------
IDEN - LIBELLE EFF. P. ABS 1 1 2 3 1 1 2 3 1 DISTO.
TV01 -
tous les jours 53 53.00 .7 -3.4 -.2 .07 -.33 -.02
TV02 - assez souvent 27 27.00 .1 3.3 -.9 .02 .56 -.16
TV03 - pas trs souvent 22 22.00 -.6 .3 .4 - .11 .07 .08
TV04 - jamais 3 3.00 -1.0 .7 1.9 -.56 .39 1.11
.98
2.89
3.77
34.00
Tableau 1.4.8
Coordonnes (corrlations) de la variable continue illustrative sur les axes 1 3.
VARIABLE CONTINUE CARACTERISTIQUES CORRELATIONS
-------------------------------+------------------------------------+----------------------
-------------------------------+------------------------------------+----------------------
-(age) age de l'enquete(e) 105 43.89 15.50 1 .23 -.23 .15
(IDEN) LIBELLE COURT EFFECTIF MOYENNE EC.TYPE 1 1 2 3
......

......
Figure 1.4.5
Position des modalits actives et illustratives sur le premier plan factoriel.
Les modalits "conscutives" des questions actives sont jointes par des lignes polygonales. On vrifie que l'origine est bien un
centre de gravit pour les modalits de chaque question, ce qui implique un alignement avec l'origine pour les questions 2
modalits. Les variables "restrictions" (RE2 = ne s'impose pas de restriction) et "dtpense de logement" (Dun = ngligeables, DL02 = sans
gros problme) dterminent le premier axe, illustr a posteriori par la position du point MAG2 (possession d'un magntoscope). La
variable continue AGE est repre par ses coefficients de corrlation avec les axes (flche en pointill).
Modalits actives
C Modalitsillustratives
MAOl
Chapitre 2
QUELQUES MTHODES
DE CLASSIFICATION
Introduction 145
Introduction
Les techniques de classification automatique sont destines produire des
groupements de lignes ou de colonnes d'un tableau. Il s'agit le plus souvent
d'objets ou d'individus dcrits par un certain nombre de variables ou de
caractres. La classification est une branche de l'analyse des donnes qui a
donn lieu des publications nombreuses et diversifies. Les ouvrages
spcialiss (notamment, en langue franaise, le tome 1 du trait d'analyse
des donnes de Benzcri, 1973) contiennent en gnral d'importantes
considrations historiques et de rigoureux dveloppements formels sur la
notion de classification. L'ouvrage de base, historique, est celui de Sokal et
Sneath (1963). Les premiers manuels publis furent ceux de Lerman (1970),
Anderberg (1973), Benzcri (1973), Hartigan (1975), Lerman (1981) et Gordon
(1981) auxquels nous ne pouvons que renvoyer le lecteur pour des
pralables fondamentaux
I
. Nous nous bornerons ici aux principes de base
des mthodes les plus largement utilises.
Les circonstances d'utilisation sont sensiblement les mmes que celles des
mthodes d'analyse factorielle descriptive prsentes au chapitre 1:
l'utilisateur se trouve face un tableau rectangulaire de valeurs
numriques. Ce tableau peut tre un tableau de valeurs numriques
continues (valeur de la variable j pour l'individu i, l'intersection de la
ligne i et de la colonne j du tableau), un tableau de contingence (croisant
deux partitions d'une mme population), ou encore un tableau de prsence-
absence (valeurs aou 1 selon que tel individu ou objet possde tel caractre
ou attribut). Dans certaines applications, l'utilisateur peut disposer d'un
tableau carr symtrique de similarits ou de distances.
Le recours aux techniques de classification automatique est sous-tendu par
quelques ides gnrales concernant le champ d'observation. On suppose
que certains regroupements doivent exister, ou au contraire on exige que
certains regroupements soient effectus. Autrement dit, on ne se satisfait
pas d'une visualisation plane et continue des associations statistiques et l'on
manifeste, implicitement ou explicitement, un intrt pour la mise en
vidence de classes d'individus ou de caractres. Les reprsentations
synthtiques se manifestent soit sous la forme de partitions des ensembles
tudis (lignes ou colonnes du tableau analys), soit sous la forme de
hirarchie de partitions que nous dfinirons de faon plus prcise
ultrieurement. Quelquefois, il s'agira d'arbres au sens de la thorie des
1 Une des premires synthse historique sur le sujet est celle de Cormack (1971). Une
synthse de travaux plus rcents en classification hirarchique a t faite par Gordon
(1987). Cf. galement les manuels gnraux de Chandon et Pinson (1981), Jambu et
Lebeaux (1978), Murtagh (1985), Roux (1985), Kaufman et Rousseeuw (1990).
146 Quelques mthodes de classificatioll _ Chapitre 2
graphes, arbres dont les sommets sont les objets classer. Enfin on pourra
rechercher des classes empitantes ou simplement mettre en vidence des
zones forte densit, laissant de nombreux individus ou caractres non
classs.
A une mme famille de rsultats correspond parfois des dmarches et des
interprtations diffrentes. Il peut s'agir de dcouvrir une partition ayant
une existence relle (cette existence tant conjecture avant l'analyse
statistique ou tant rvle l'issue des calculs) ou l'on veut au contraire
utiliser les partitions produites comme des outils ou des intermdiaires de
calculs permettant une exploration des donnes 1.
Pour l'essentiel, les techniques de classification font appel une dmarche
algorithmique et '1.on aux calculs formaliss usuels. Alors que les valeurs
des composantes des axes factoriels, par exemple, sont la solution d'une
quation pouvant s'crire sous une forme trs condense (mme si sa
rsolution est complexe), la dfinition des classes ne se fera qu' partir d'une
formulation algorithmique: une srie d'oprations est dfinie de faon
rcursive et rptitive. Il en dcoule que la mise en uvre de la plupart des
techniques de classification ne ncessite que des notions mathmatiques
relativement lmentaires.
Il existe plusieurs familles d'algorithmes de classification: les algorithmes
conduisant directement des partitions comme les mthodes d'agrgation
autour de centres mobiles; les algorithmes ascendants (ou encore
agglomratifs) qui procdent la construction des classes par agglomration
successive des objets deux deux, et qui fournissent une hirarchie de
partitions des objets; enfin les algorithmes descendants (ou encore divisifs)
qui procdent par dichotomies successives de l'ensemble des objets, et qui
peuvent encore fournir une hirarchie de partitions. On se limitera ici aux
deux premires techniques de classification:
les groupements peuvent se faire par recherche directe d'une partition,
en affectant les lments des centres provisoires de classes, puis en
recentrant ces classes, et en affectant de faon itrative ces lments. Il
s'agit des techniques d'agrgation autour de centres mobiles, apparentes
la mthode des "nues dynamiques", ou mthode "k-means", qui sont
particulirement intressantes dans le cas des grands tableaux (section
2.1)
les groupements peuvent se faire par agglomration progressive des
lments deux deux. C'est le cas de la classification ascendante
hirarchique qui est prsente ici suivant plusieurs critres
d'agrgations. Nous envisagerons d'une part la technique "du saut
minimal" quivalente, d'un certain point de vue, la recherche de
l'arbre de longueur minimale, et d'autre part la technique d'agrgation
1 Cette dernire dmarche gnralise en quelque sorte la construction d'histogrammes
de la statistique unidimensionnelle: en vue d'une tude plus aise, les observations
sont regroupes par paquets homognes, mme si la construction de ces paquets
implique un dcoupage quelque peu arbitraire d'un ensemble continu.
Introduction 147
"selon la variance", intressante par la compatibilit de ses rsultats avec
certaines analyses factorielles (section 2.2).
Ces techniques prsentent des avantages diffrents et peuvent tre utilises
conjointement. Il est ainsi possible d'envisager une stratgie de
classification base sur un algorithme mixte, particulirement adapt au
partitionnement d'ensembles de donnes comprenant des milliers
d'individus classer (section 2.3).
Un des avantages des mthodes de classification est de donner lieu des
lments (les classes) souvent plus faciles dcrire automatiquement que
les axes factoriels. Les outils de description seront voqus la section 2.3.
Enfin, la pratique montre que l'utilisateur a intrt utiliser de faon
conjointe les mthodes factorielles et les mthodes de classification. Les
aspects thoriques et pratiques de la complmentarit entre ces deux
familles de mthodes exploratoires seront abords la section 2.4
Section 2.1
Agrgation autour des centres mobiles
Bien qu'elle ne fasse appel qu' un formalisme limit et que son efficacit
soit dans une large mesure atteste par les seuls rsultats exprimentaux, la
mthode de classification autour de centres mobiles est probablement la
technique de partitionnement la mieux adapte actuellement aux vastes
recueils de donnes ainsi que la plus utilise pour ce type d'application.
Prod uisant des partitions des ensembles tudis, elle est utilise aussi bien
comme technique de description et d'analyse que comme technique de
rduction, gnralement en association avec des analyses factorielles et
d'autres mthodes de classification.
L'algorithme peut tre imput principalement Forgy (1965), bien que de
nombreux travaux (parfois antrieurs: Thorndike, 1953), le plus souvent
postrieurs (MacQueen,l967; Bali and Hall, 1967) aient t mens
paralllement et indpendamment pour introduire des variantes ou des
gnralisations. Cette mthode peut tre considre comme un cas
particulier de techniques connues sous le nom de nues dynamiques
tudies dans un cadre formel par Diday (1971).
Elle est particulirement intressante pour les gros fichiers numriques car
les donnes sont traites en lecture directe: le tableau des donnes, conserv
sur une mmoire auxiliaire (disque, CD-ROM), est lu plusieurs fois de faon
squentielle, sans jamais encombrer de zones importantes dans la mmoire
centrale de l'ordinateur. La lecture directe permet galement d'utiliser au
mieux les particularits du codage des donnes, ce qui rduit le temps de
calcul dans le cas des codages disjonctifs.
2.1.1 Bases thoriques de l'algorithme
Soit un ensemble 1 de n individus partitionner, caractriss par p
caractres ou variables. On suppose que l'espace RP supportant les n points-
individus est muni d'une distance approprie note d (souvent distance
euclidienne usuelle ou distance du X
2
). On dsire constituer au maximum q
classes. Les tapes de l'algorithme sont illustres par la figure 2.1 - 1.
tape 0: On dtermine q centres provisoires de classes (par exemple, par
tirage pseudo-alatoire sans remise de q individus dans la
population classifier, selon une prconisation de MacQueen).
Les q centres:
{cf, ... ~ ... ,Cn
2.1 _ Classification autour de celttres mobiles 149
CO


le


0 .
.

CO
2




[0



1



[0
2
Tirage au hasard
des centres
cf et d
Constitution des classes
~ et Ig

Nouveaux centres
ci et d
et nouvelles classes
Il et d
Nouveaux centres
d et ci
et nouvelles classes
If et d
Figure 2.1 - 1
Etapes de l'algorithme
induisent une premire partition pO de l'ensemble des individus l
en q classes:
{Ir ... ~ ... ,In
Ainsi l'individu i appartient la classe ~ s'il est plus proche de
cZ que de tous les autres centres
1
.
tape 1: On dtermine q nouveaux centres de classes:
{cl, ...,cl, ... ,Cn
en prenant les centres de gravit des classes qui viennent d'tre
obtenues:
{ ~ ...,If,... ,In
Ces nouveaux centres induisent une nouvelle partition pl de l
construite selon la mme rgle que pour pO.
l Les classes sont alors dlimites dans l'espace par les cloisons polydrales convexes
formes par les plans mdiateurs des segments joignant tous les couples de centres.
150 Quelques mthodes de classificatioll _ Chapitre 2
La partition pl est forme des classes notes:
{
1 1 1}
11, ... ,lk"'" lq
tape rn: On dtermine q nouveaux centres de classes:
{Cin, ...,Cr, ... ,qn}
en prenant les centres de gravit des classes qui ont t obtenues
lors de l'tape prcdente,
{l
m-1 lm-1 lm-1}
1 , ... , k , ... , q
Ces nouveaux centres induisent une nouvelle partition pm de
l'ensemble 1 forme des classes:
{l
m lm lm}
1 , ... , k , ... , q
Le processus se stabilise ncessairement (voir paragraphe suivant) et
l'algorithme s'arrte soit lorsque deux itrations successives conduisent la
mme partition, soit lorsqu'un critre convenablement choisi (par exemple,
la mesure de la variance intra-classes) cesse de dcrotre de faon sensible,
soit encore parce qu'un nombre maximal d'itrations a t fix a priori.
Gnralement, la partition obtenue finalement dpend du choix initial des
centres.
2.1.2 Justification lmentaire de l'algorithme
On va montrer que la variance intra-classes ne peut que dcrotre (ou rester
stationnaire) entre l'tape m et l'tape rn + 1. Des rgles d'affectation
1
permettent de faire en sorte que cette dcroissance soit stricte et donc de
conclure la convergence de l'algorithme puisque l'ensemble de dpart 1 est
fini
2
.
Supposons que les n individus de l'ensemble classer 1 soient munis de
masses relatives Pi (leur somme vaut 1) et soit d
2
(i,Cr) le carr de la
distance entre l'individu i et le centre de la classe k l'tape m. Nous nous
intressons la quantit critre:
vern) = f JP;d
2
(i,qn)j
k=11 ;eI!cn
1 Ces rgles sont des conventions de programmation propres chaque variante ou
spcification de l'algorithme.
2 Bien entendu ce n'est pas la convergence, mais la vitesse de convergence qui
justifierait en pratique l'utilisation de la mthode.
2.1 _ Classificatioll autour de celltres mobiles 151
Rappelons qu' l'tape m, la classe Ir est forme des individus plus proches
de Cr que de tous les autres centres (ces centres tant des centres de gravit
des classes I;r-l de l'tape prcdente).
La variance intra-classes l'tape m est la quantit:
V(m) = f f iPid2(i,qn+l))
k=ll iElr
o Cle
n
+
1
est le centre de gravit de la classe lien. A l'tape m + 1, la quantit
critre s'crit:
On va montrer que:
v(m) V(m) v(m+l)
ce qui tablira la dcroissance simultane du critre et de la variance intra-
classes. En notant Pk la somme des Pi pour i E lien, remarquons tout d'abord
d'aprs le thorme de Huygens:
q
v(m) = V(m)+ LPkd2(Clen+1,Cn
k=l
ce qui tablit la premire partie de l'ingalit.
La seconde partie dcoule du fait qu'entre les accolades qui apparaissent
dans les dfinitions de V(m) et v(m), seules changent les affectations des
points aux centres. Puisque lfc
n
+
1
est l'ensemble des points plus proches de
Cle
n
+
1
que de tous les autres centres, les distances n'ont pu que dcrotre (ou
rester inchanges) au cours de cette raffectation.
2.1.3 Techniques connexes
Il existe de nombreux algorithmes dont le principe gnral est voisin de
l'algorithme d'agrgation autour de centres mobiles mais qui en diffrent
cependant sur certains points
l
.
Ainsi, dans la technique des nues dynamiques (Diday, 1972, 1974), les
classes ne sont pas caractrises par un centre de gravit, mais par un certain
nombre d'individus classer, dnomms "talons", qui constituent alors
un "noyau" ayant pour certaines utilisations un meilleur pouvoir descriptif
1 Pour des informations plus dtailles sur les techniques d'agrgation autour des
centres mobiles, on pourra consulter les ouvrages de Benzcri (1973) et Anderberg
(1973).
152 Quelques mthodes de classification _ Chapitre 2
que des centres ponctuels. Ce formalisme a permis plusieurs gnralisations
de la mthode.
La mthode dite des k-means (k-moyennes) introduite par MacQueen (1967)
commence effectivement par un tirage pseudo-alatoire de centres
ponctuels. Cependant la rgle de calcul des nouveaux centres n'est pas la
mme. On n'attend pas d'avoir procd la raffectation de tous les
individus pour modifier la position des centres: chaque raffectation
d'individus entrane une modification de la position du centre
correspondant. En une seule itration, cette procdure peut ainsi donner
une partition de bonne qualit. Mais celle-ci dpendra de l'ordre des
individus sur le fichier, ce qui n'est pas le cas pour la technique expose
prcdemment 1.
2.1.4 Fonnes fortes et groupements stables
Les algorithmes d'agrgation autour de centres mobiles convergent vers des
optima locaux. Le problme de la recherche d'une partition optimale en q
classes (en prenant comme critre la variance intra-classes, qu'il faut alors
rendre minimale sur l'ensemble des partitions possibles en q classes) n'a pas
jusqu' prsent dorm lieu un algorithme satisfaisant
2
. Les partitions
obtenues dpendent en gnral des premiers centres choisis.
La procdure de recherche de groupements stables (ou encore formes fortes),
suggre pour l'essentiel par E. Diday (1972), permet de remdier au moins
partiellement cet inconvnient. Elle a surtout l'avantage de nuancer les
rsultats souvent trop frustes que l'on obtient dans le cadre rigide d'une
seule partition, en mettant en vidence les zones forte densit du nuage
des points-individus. Cette technique consiste effectuer plusieurs
partitions partir de plusieurs ensembles diffrents de centres, et retenir
comme groupements stables les ensembles d'individus qui ont toujours t
affects une mme classe dans chacune des partitions (cf. figure 2.1 - 2).
Supposons que l'on effectue s partitions {Pl, P2, ..., Psl en q classes chacune.
Dans la partition-produit, la classe indexe par {k], k2, ..., ksl contient les
individus ayant appartenu la classe k] de Pl, puis la classe k
2
de P2, etc.,
enfin la classe k
s
de P
s
. Les classes contenant plus d'un individu de la
partition-produit constitueront les groupements stables.
1 D'autres mthodes diffrent par le choix initial des centres (individus quidistants
pour Thorndike (1953), par l'introduction de seuils ou de protections destins modifier
ventuellement le nombre des classes. Ainsi la technique propose sous le nom lsodata
par Bail et Hall (1965) met en jeu plusieurs paramtres destins piloter l'laboration
de la partition.
2 Dans le cas o les individus ne sont dcrits que par un seul paramtre, le calcul d'une
partition optimale exacte est possible car il existe une relation d'ordre entre les
individus, ce qui limite considrablement l'ventail des partitions examiner (cf. W.D.
Fisher, 1958).
2.1 _ Classification autour de centres mobiles 153
En pratique, le nombre de groupements stables ayant un effectif notable sera
trs infrieur qS.
Premire partition
i i
I:::!!l::l 1 38 1 35 1 40 1
. [ ~ 1 5 1 251 0 1
e u ~ m e 43 1 30 1 8 1 5 1
partitIOn 40 1 3 1 2 1 35 1
Partition-produit
Figure 2.1 - 2
Groupements stables dans la partition-produit
Sur les 38 individus de la classe 1 de la partition l, on en retrouve 30 dans la
classe 2 de la partition 2.
Pour fixer les ides, on obtient sur 1000 individus une premire partition en
6 classes autour de centres mobiles (15 itrations ont t ncessaires pour
assurer une stabilit des groupes). On rpte deux fois cette procdure. Le
tableau 2.1 - 1 donne les effectifs des 6 classes des 3 partitions de base
successives.
Tableau 2.1 - 1
Trois partitions de base en 6 classes
1 2 3 4 5 6
Partition 1 127 188 229 245 151 60
Partition 2 232 182 213 149 114 110
Partition 3 44 198 325 99 130 204
Ces 3 partitions sont, l'tape suivante, croises entre elles et l'on obtient
3
6
= 216 classes. Les individus de chacune de ces 216 classes sont ceux qui ont
toujours t regroups ensemble dans les 3 partitions de base. Ils constituent
les groupements stables. En fait seulement 50 groupes ne sont pas vides et
seulement 10 ont plus de 15 individus.
La distribution de ces individus est donne dans le tableau 2.1- 2.
Tableau 2.1 - 2
Groupements stables
rangs par effectifs dcroissants
Groupes 1 10 168 118 114 107 88 83 78 26 22 16
Groupes Il 20 15 14 12 12 12 11 10 7 7 7
Groupes 21 30 6 6 4 4 4 4 3 3 3 3
Groupes 31 40 3 3 3 2 2 2 2 2 2 2
Groupes 41 50 1 1 1 1 1 1 1 1 1 1
154 Quelques mthodes de classification _ Chapitre 2
Remarque
La recherche des groupements stables constitue une exploration des
zones de fortes densit dans l'espace, mais ne fournit pas une partition
utilisable en pratique, car le nombre de classes est en gnral trop lev,
et corrlativement les effectifs de certaines classes sont trop faibles (cf. les
50 groupements du tableau 2.1 - 2). De faon pragmatique, on peut
utiliser les premiers groupements stables pour dfinir une partition de la
faon suivante: le nombre de classes pourra tre suggr par le nombre
de groupements d'effectifs notables: ainsi, les 7 premiers groupements
du tableau 2.1 - 2 ont des effectifs importants (il y a de plus un cart
important entre 78 et 26). Les classes seront obtenues par raffectation des
individus restants aux groupements retenus les plus proches (affectation
des individus des groupements 8 50 autour des centres des 7 premiers
groupements pour notre exemple). Mais nous verrons que les mthodes
mixtes de la section 2.3 permettent de perfectioIU1er cette dmarche.
Section 2,2
Classification hirarchique
Les principes gnraux communs aux diverses techniques de classification
ascendante hirarchique sont galement extrmement simples. Il est
difficile de leur trouver une paternit car ces principes relvent plus du bon
sens que d'une thorie formalise. Les exposs les plus systmatiques et les
plus anciens sont peut-tre ceux de Sokal et Sneath (1963), puis de Lance et
Williams (1967). Pour une revue synthtique, cf. Gordon (1987).
2.2.1 Principe
Le principe de l'algorithme consiste crer, chaque tape, une partition
obtenue en agrgeant deux deux les lments les plus proches. On
dsignera alors par lment la fois les individus ou objets classer eux-
mmes et les regroupements d'individus gnrs par l'algorithme. Il y a
diffrentes manires de considrer le nouveau couple d'lments agrgs,
d'o un nombre important de variantes de cette technique.
L'algorithme ne fournit pas une partition en q classes d'un ensemble de n
objets mais une hirarchie de partitions, se prsentant sous la forme
d'arbres appels galement dendrogrammes et contenant n - 1 partitions.
L'intrt de ces arbres est qu'ils peuvent donner une ide du nombre de
classes existant effectivement dans la population.
Figure 2.2 - 1
Dendrogramme ou arbre hirarchique
Chaque coupure d'un arbre fournit une partition, ayant d'autant moins de
classes et des classes d'autant moins homognes que l'on coupe plus haut.
156 Quelques mthodes de classification _ Chapitre 2
a - Distances entre lments et entre groupes
On suppose au dpart que l'ensemble des individus classer est muni d'une
distance
l
. Ceci ne suppose donc pas que les distances soient toutes calcules
au dpart: il faut pouvoir les calculer ou les recalculer partir des
coordonnes des points-individus, celles-ci devant tre accessibles
rapidement. On construit alors une premire matrice de distances entre tous
les individus.
Une fois constitu un groupe d'individus, il convient de se demander
ensuite sur quelle base on peut calculer une distance entre un individu et
un groupe et par la suite une distance entre deux groupes. Ceci revient
dfinir une stratgie de regroupements des lments, c'est--dire se fixer des
rgles de calcul des distances entre groupements disjoints d'individus,
appeles critres d'agrgation. Cette distance entre groupements pourra en
gnral se calculer directement partir des distances des diffrents lments
impliqus dans le regroupement.
Par exemple, si x, y, z sont trois objets, et si les objets x et y sont regroups en
un seul lment not h, on peut dfinir la distance de ce groupement z par
la plus petite distance des divers lments de h z :
d(h,z) = Min {d(x,z), d(y,z) }
Cette distance s'appelle le saut minimal (single linkage) (Sneath,1957 ;
Johnson,1967) et constitue un critre d'agrgation.
On peut galement dfinir la distance du saut maximal (ou diamtre) en
prenant la plus grande distance des divers lments de h z :
d(h,z) = Max (d(x,z), d(y,z) }
Une autre rgle simple et frquemment employe est celle de la distance
moyenne; pour deux objets x et y regroups en h :
d(h z)= (d(x,z)+d(y,z)}
, 2
Plus gnralement, si x et y dsignent des sous-ensembles disjoints de
l'ensemble des objets, ayant respectivement nx et ny lments, h est alors un
sous-ensemble form de n
x
+ ny lments et on dfinit:
(nxd(x,z) +nyd(Y,z)}
d( h, z) =------"---
n
x
+n
y
b - Algorithme de classification
L'algorithme fondamental de classification ascendante hirarchique se
droule de la faon suivante:
1 Il s'agira parfois simplement d'une mesure de dissimilarit. Dans ce cas, l'ingalit
triangulaire d(x,y) d(x,z) + d(y,z) n'est pas exige).
2.2 _ Classification hirarchique 157
tape 1: il yan lments classer (qui sont les n individus);
tape 2: on construit la matrice de distances entre les n lments et l'on
cherche les deux plus proches, que l'on agrge en un nouvel
lment. On obtient une premire partition n-l classes;
tape 3: on construit une nouvelle matrice des distances qui rsultent de
l'agrgation, en calculant les distances entre le nouvel lment et
les lments restants (les autres distances sont inchanges). On se
trouve dans les mmes conditions qu' l'tape l, mais avec
seulement (n-l) lments classer et en ayant choisi un critre
d'agrgation. On cherche de nouveau les deux lments les plus
proches, que l'on agrge. On obtient une deuxime partition avec
n-2 classes et qui englobe la premire;
tape m : on calcule les nouvelles distances, et l'on ritre le processus
jusqu' n'avoir plus qu'un seul lment regroupant tous les
objets et qui constitue la dernire partition.
Nous illustrons cette procdure en prenant comme objets classer cinq
points (figure 2.2 - 2).
Etape 1 Etape 2
Etape 4
Etape 3
Etape 5
Figure 2.2 - 2
Agglomration progressive de 5 points
Les regroupements successifs peuvent tre reprsents par un arbre ou
dendrogramme, comme le montre la figure 2.2 - 3 o l'on a port en
ordonne les valeurs des indices ou encore distances correspondant aux
diffrents niveaux d'agrgation.
c - Elments de vocabulaire
Quelques remarques vont nous permettre d'introduire les notions et la
terminologie habituellement utilises en classification ascendante
hirarchique. Le fonctionnement de l'algorithme nous montre que les
distances (avec ces rgles de calcul) n'interviennent que par les ingalits
158 Quelques mthodes de classificatiolt _ Chapitre 2
qui existent entre elles. Le mme arbre ( une dilatation prs des ordoIU1es)
aurait t obtenu partir d'un simple classement des couples d'objets dans
l'ordre des distances croissantes. Un tel classement s'appelle une
ordonnance (unE: prordonnance s'il y a des distances gales). Dans ce cas on
tracera conventionnellement l'arbre avec des niveaux quidistants.
La famille H des parties de l'ensemble l des objets construite partir
d'algorithmes ascendants forme ce que l'on appelle une hirarchie. Cette
famille a pour proprit de contenir l'ensemble tout entier (l E H) ainsi que
chacun des objets pris isolment (i E l => (il EH). Les autres couples de
parties h, h' de H sont alors soit disjointes (h n h' = 0), soit incluses l'une
dans l'autre (h ch'). En effet lors du fonctionnement de l'algorithme,
chaque fois qu'une classe se forme partir d'lments disjoints, elle est elle-
mme considre comme un nouvel lment, donc strictement incluse
dans une classe ultrieure (cf. figure 2.2 - 2).
Les objets ou individus (l, 2, 3, 4, 5) sont les lments terminaux de l'arbre
(ou de la hirarchie). Les classes 6,7,8,9 sont les nuds de l'arbre: ce sont
des classes issues de regroupements de deux lments (terminaux ou non)
numrots la suite des lments terminaux et dont chacune dtermine
une nouvelle partition. On appelle arbitrairement an et benjamin, les
deux lments groups constituant un nud (cf. figure 2.2 - 3).
~ :Jo
ft>
~
arbre hirarchique indice
;;:
01
:>
p'"
f"l
5'
1;;'
ou dendrogramme
1
::r.
11>0
3
-.
:;'
-----
9 6 8
(9)
7
---- .. _-
-- -- -
8 3 4 6
(8)
(7)
(6)
~ ~
7 2 5 2
rl----
6 2 3 4
(1) (3) (4)
(2)
(5)
,
!
lments terminaux
Figure 2.2 - 3
Arbre hirarchique et lments de vocabulaire
On a une hirarchie indice si toute partie h de la hirarchie est associe
une valeur numrique v(ll) ~ 0 compatible avec la relation d'inclusion au
sens suivant:
si h c h' alors v(ll) < v(h')
La hirarchie de la figure 2.2 - 3 est indice de faon naturelle par les valeurs
des distances correspondant chaque tape d'agrgation (ces distances sont
2.2 _ Classificatioll hirarchique 159
portes en ordonnes). L'indice est la distance dterminant le
regroupement.
En "coupant" l'arbre de la figure 2.2 - 3 par une droite horizontale, on
obtient une partition, d'autant plus fine que la section est proche des
lments terminaux. Si par exemple l'indice est suprieur 4 et infrieur
9, on obtient une partition en deux classes {l,3,4} et {2,5}. Si il vaut 3, on
obtient trois classes {l,3}, {4} et {2,5}. Une hirarchie permet donc de fournir
une chane de n partitions ayant de 1 n classes.
2.2.2 Classification ascendante selon le saut minimal et arbre de
longueur minimale
Ce mode de classification hirarchique, prsent lors de l'illustration du
paragraphe prcdent, est particulirement simple mettre en uvre et
possde des proprits intressantes que nous allons noncer et tudier.
a - Dfinition d'une ultramtrique
Nous allons montrer que la notion de hirarchie est troitement lie une
certaine classe de distances entre individus, que l'on appelle les distances
ultramtriques. Pour la hirarchie produite par l'algorithme du saut
minimal, on montrera que la distance ultramtrique correspondante est,
dans un certain sens, la plus proche de la distance initiale. Ce sera
l'ultramtrique infrieure maximale, appele encore sous-dominante. On
montrera ensuite que l'application de cette mthode est pratiquement
quivalente la rsolution d'un problme classique de recherche
oprationnelle: la mise en vidence de l'arbre de longueur minimale sur
un graphe. Rappelons qu'un ensemble E est muni d'une mtrique ou
distance d, si d est une application valeurs positives ou nulles obissant
aux conditions suivantes:
1. d(x,y) = 0 si et seulement si x = y.
2. d(x,y) = d(y,x) (symtrie)
3. d(x,y) d(x,z) + d(y,z) (ingalit triangulaire)
Cette distance sera dite ultramtrique si elle vrifie la condition suivante,
plus forte que l'ingalit triangulaire:
4. d(x,y) Max ( d(x,z), d(y,z) }
b - quivalence entre ultramtrique et hirarchie indice
Il est quivalent de munir un ensemble fini E d'une ultramtrique ou de
dfinir une hirarchie indice de parties de cet ensemble. Montrons tout
d'abord que toute hirarchie indice permet de dfinir une distance entre
lments ayant les proprits requises. On prendra comme distance d(x,y) la
160 Quelques mthodes de classificatioll _ Chapitre 2
valeur de l'indice correspondant la plus petite partie contenant la fois x
et y.
En remplissant ainsi le tableau des valeurs de d correspondant la
hirarchie de la figure 2.2 - 3, on obtient la matrice des distances du tableau
2.2 - 1. On peut noter que l'ingalit 4 ci-dessus est vrifie par toutes les
distances de ce tableau. Ainsi par exemple:
d(1,2) ::; Max ( d(1,5), d(2,5) )
Tableau 2.2 1
Matrice des distances
(1) (2) (3) (4) (5)
(1) 0 9 1 4 9
(2) 9 0 9 9 2
(3) 1 9 0 4 9
(4) 4 9 4 0 9
(5) 9 2 9 9 0
Montrons plus gnralement que l'on a toujours:
d(x,y) ::; Max ( d(x,z) + d(y,z) )
Rappelons que deux parties de la hirarchie H sont soit disjointes, soit lies
par une relation d'inclusion. Appelons Mx, z) la plus petite partie de H
contenant x et z (dont l'indice est par consquent d(x, z)). Puisque Mx, z) et
My, z) ne sont pas disjointes, on a par exemple Mx, z) c My, z). Et x, y, z
tant tous trois contenus dans My, z), on a obligatoirement:
Mx, y) c h(y, z) d'o d(x,y) d(y,z)
ce qui tablit l'ingalit.
Rciproquement, toute ultramtrique d on peut faire correspondre une
hirarchie indice dont d soit l'indice associ. Il suffit d'appliquer
l'algorithme du saut minimal au tableau des distances correspondant. On
s'aperoit alors qu'il est inutile de procder au calcul des distances chaque
tape: il suffira de rayer l'un des deux lments agrgs.
En effet, si x et y sont agrgs en t, il faut en principe calculer les distances au
nouvel lment t (cf. figure 2.2 - 4). Or on a obligatoirement, pour tout
lment z non encore agrg, d(z,x) d(x,y) et d(z,y) d(x,y) , sinon (z,x) ou
(z,y) auraient t agrgs la place de (x,y).
Pour une ultramtrique, cela implique la fois d(z,x) d(z,y), et
d(z,y) d(z,x) c'est--dire d(z,x) =: d(z,y), ce que l'on exprime de faon image
2.2 _ Classification hirarchique 161
en disant que, pour une ultramtrique, tous les triangles sont isocles, avec
le plus petit cot pour base (figure 2.2 - 4).
z
Figure 2.2 - 4
Agrgation de x et y en un nouvel lment t
Il est en effet facile de montrer que si une distance est ultramtrique, tous les
triangles sont isocles.
On a les ingalits:
d(z, x) :; Max ( d(x,y), d(y,z) ) donc d(z, x) :; d(y, z)
De la mme faon:
d(y, z) :; Max (d(x,y), d(z, x) ) donc d(y, z) :; d(z, x)
Il s'ensuit que:
d(z, x) =d(y, z)
Le calcul des distances de z t est finalement inutile puisque les deux
distances mises en cause sont gales. Ceci nous montre comment
l'algorithme du saut minimal a opr sur la matrice des distances: il a
transform la mtrique initiale en ultramtrique en diminuant certaines
distances chaque tape.
c - L'ultramtrique sous dominante
Le passage d'une mtrique une ultramtrique (ou, de faon quivalente,
une hirarchie) s'est effectu par diminution des valeurs de certaines
distances. On peut se poser la question suivante: existe-t-il une
ultramtrique plus proche (en un sens prciser) de la mtrique?
On peut donner l'lment de rponse suivant. On dira qu'une mtrique dl
est infrieure
1
une mtrique d
2
si, pour tout x et tout y :
d
l
(x y) :; dix, y)
La plus grande ultramtrique infrieure une mtrique d, au sens
prcdent, est appele ultramtrique infrieure maximale ou sous-
dominante. C'est elle qui est fournie par l'algorithme du saut minimal.
Pour le dmontrer nous allons successivement:
1 Cette dfinition permet de munir l'ensemble des mtriques dfinies sur un ensemble E
d'une relation d'ordre partiel.
162 Quelques mthodes de classificatioll _ Chapitre 2
1. dfinir, partir d'une distance d, une nouvelle distance dite du
plus petit saut maximal;
2. montrer que cette distance est une ultramtrique;
3. montrer que cette ultramtrique est la sous-dominante;
4. montrer enfin que cette distance correspond l'ultramtrique
fournie par l'algorithme du saut minimal.
1. La distance du plus petit saut maximal:
Soit un ensemble E muni d'une distance d. Soit x et y deux lments de E.
Le couple (x,y) sera appel arte de longueur d(x,y) du graphe complet
1
dont les sommets sont les lments de E. Toujours en utilisant le
vocabulaire de la thorie des graphes, on appelle chemin de x y une
succession d'artes de types (x, t (tI, t2)1 (t21 t3,) ... , (tk-ll tk), (tb y), o
tI, ... , tk sont des lments de E. tant donn un chemin de x y, on
appelle saut maximal la longueur de la plus grande arte du chemin de x
y.
A tout chemin joignant x y correspond un saut maximal. L'ensemble
des sommets tant fini, il existe un plus petit saut maximal sur
l'ensemble des chemins allant de x y; nous le noterons d*(x,y).
2. Le plus petit saut maximal entre x et y est une ultramtrique:
Il est clair que les deux premiers axiomes d'une distance sont vrifis par
d*. Pour vrifier que cette distance est une ultramtrique, considrons
trois lments quelconques x, y, z de E (figure 2.2 - 5). Le plus petit saut
maximal de x y, en s'astreignant passer par z est Max (d*(x, z), d*(z, y)).
Le plus petit saut maximal de x y sans la contrainte de passer par z ne
peut qu'tre infrieur ou gal cette quantit, d'o:
d*(x,y) Max (d*(x,z), d*(y,z))
et d* est donc bien une ultramtrique.
x
Figure 2.2 - 5
Chemin de x y contenant z
3. La distance d* est la sous-dominante:
Pour montrer que d* est la sous-dominante, on montrera que d* est
infrieure d, et que d* est suprieure toute ultramtrique infrieure
d.
1 L'appellation graphe complet est due au fait que tout couple de sommets est joint par
W1e arte.
2.2 _ Classification hirarchique 163
Tout d'abord, il est clair que l'arte (x,y) est un chemin particulier allant
de x y, donc d*(x,y) ::; d(x,y) et d* est infrieure d.
Soit maintenant dl une ultramtrique infrieure d. On a videmment
pour tout triplet xl' x2' x3 :
dl(Xl,X3) :s; Max (dl(XJ, xz), dl (X2, X3)}
En appliquant de faon successive cette ingalit un chemin :
(xl' x2)' (x2' x3)' ..., (xp_l' x
p
)
on obtient:
Puisque dl :s; d, on a ;
dl (xl' xp):S; !-1ax( d( x j'Xj+l)}
J<p
Cette ingalit est valable pour tout chemin joignant xl x
p
' Pour l'un
au moins d'entre eux, on a par dfinition de d* :
!-1ax( d( xj,Xj+l)} = d * (xj' Xj+l)
J<p
Cette dernire relation tablit l'ingalit annonce.
4. La distance ultramtrique du produite par l'algorithme du saut minimal
n'est autre que la distance d* plus petit saut maximal:
Soit du(x, y) la valeur de la distance l'tape o les points x et y sont
runis pour la premire fois. Auparavant ces deux points taient dans des
classes distinctes (ventuellement rduites aux points eux-mmes). Le
mode de calcul des distances chaque agrgation nous assure que du(x, y)
est la plus petite distance entre deux lments appartenant chacun une
classe. Les distances l'intrieur des classes sont infrieures du(x, y)
puisque l'agrgation est antrieure; et les distances avec des lments
n'appartenant pas aux deux classes sont suprieures puisque ceux-ci
seront agrgs une tape ultrieure. Les chemins joignant x et y auront
donc des artes internes aux deux classes, de longueur infrieure du(x, y)
et des artes externes ncessairement suprieures ou gales du(x, y).
Ainsi du(x, y) est bien le plus petit saut maximal d* (x, y).
d - Arbre de longueur minimale: dfinition et gnralits
L'ensemble des n objets classer peut tre considr comme un ensemble de
points d'un espace. Cette reprsentation est classique si les objets sont dcrits
par une srie de p variables: on a n points dans l'espace RP. On peut alors
calculer une distance pour chaque paire de points. Plus gnralement, si
l'on ne dispose que des valeurs d'un indice de dissimilarit (ne vrifiant pas
obligatoirement tous les axiomes d'une distance), on peut reprsenter les
objets par des points (d'un plan par exemple), chaque couple d'objets tant
164 Quelques mthodes de classificatioll _ Chapitre 2
joint par une ligne continue, laquelle est attache la valeur de l'indice de
dissimilarit.
On reprsente ainsi l'ensemble des objets et des valeurs de l'indice par un
graphe complet valu
1
. Mais si le nombre d'objets dpasse quelques units,
ce type de reprsentation devient inextricable. On cherchera alors extraire
de ce graphe un graphe partiel (ayant les mmes sommets, mais moins
d'artes) plus ais reprsenter, et permettant nanmoins de bien rsumer
les valeurs de l'indice.
Parmi tous les graphes partiels, ceux qui ont une structure d'arbre
2
sont
particulirement intressants, car ils peuvent faire l'objet d'une
reprsentation plane. Un arbre est un graphe connexe (il existe un chemin
reliant tout couple de sommets) sans cycle (un cycle est un chemin partant
et aboutissant au mme point sans emprunter deux fois la mme arte). On
peut dfinir de faon quivalente un arbre n sommets soit comme un
graphe sans cycle ayant n -1 artes, soit comme un graphe connexe ayant
n-1 artes
3
. La longueur d'un arbre sera la somme des "longueurs"
(valeurs de l'indice) de ses artes. Parmi tous les graphes partiels qui sont
des arbres, l'arbre de longueur minimale a retenu depuis longtemps
l'attention des statisticiens en raison de ses bonnes qualits descriptives, qui
ne sont pas trangres sa parent avec les classifications hirarchiques. Si
l'on dsire par exemple dceler rapidement sans ordinateur les traits de
structure que peut cacher une matrice de corrlations relative une
trentaine de variables, c'est probablement la plus aise des procdures
mettre en uvre. Nous allons tout d'abord prsenter les algorithmes de
recherche de l'arbre de longueur minimale, puis nous montrerons les
quivalences avec la classification selon le saut minimal. Nous supposerons
que toutes les artes du graphe ont des longueurs diffrentes (valeurs de
l'indice ou de la distance) car dans ces conditions l'arbre cherch est unique
et ceci simplifie l'expos des algorithmes.
e - Arbre de longueur minimale: algorithme de Kruskal (1956)
On range les n(n - V/2 artes dans l'ordre des valeurs croissantes de l'indice.
On part des deux premires artes, puis on slectionne successivement
toutes les artes qui ne font pas de cycle avec les artes dj choisies. On
interrompt la procdure ds que l'on a n -1 artes. De cette faon, on est sr
d'avoir obtenu un arbre (graphe sans cycle ayant n -1 artes).
1 Les objets classer sont alors les nuds du graphe (non orient); les lignes continues
joignant les paires de points sont les artes; et les indices, les valuations de ces artes.
2 On ne confondra pas un tel arbre, entendu au sens de la thorie des graphes, et dont
les sommets sont les objets classer, avec l'arbre des parties d'un ensemble
(dendrogramme) produit par les techniques de classification hirarchique, dont les
sommets sont des parties ( l'exception des lments terminaux qui sont les objets
classer eux-mmes).
3 On trouvera la dmonstration de ces proprits dans les manuels classiques tels que
ceux de Berge (1963, 1973).
2.2 _ Classification hirarchique 165
Montrons en effet que si Vk dnote le graphe obtenu l'tape k, aprs avoir
slectionn les artes V1, V2, ... , Vk, alors Vn-I est de longueur minimale.
Supposons qu'il existe un arbre distinct U, de longueur minimale (figure
2.2 - 6). Soit Vk la premire arte slectionne dans la construction de Vn-I et
qui n'appartienne pas U (les artes de Vk-1 sont donc galement des artes
de U). En ajoutant cette arte U on cre ncessairement un cycle (car U est
connexe) et un seul (car U est sans cycle). TI existe donc une arte u de ce
cycle qui n'appartient pas Vn-I (puisque Vn-I n'a pas de cycle). Alors l'arbre
U" obtenu partir de U en ajoutant Vk et en supprimant u est plus court
que U. En effet, le graphe obtenu en ajoutant u Vk-1 est sans cycle (c'est
une partie de U); donc u est plus long que Vk, par dfinition de Vk, et par
consquent U" est plus court que U. Mais ceci contredit le dfinition de U.
Donc V
n
-1 est bien de longueur minimale.
Figure 2.2 - 6
Reprsentation de l'arbre U
f - Arbre de longueur minimale: algorithme de Prim (1957)
On part d'un objet quelconque (sommet du graphe). L'tape 1 consiste
chercher l'objet V1 le plus proche, c'est--dire l'arte la plus courte. L'tape k
consiste adjoindre au recueil d'artes dj constitu Vk-I la plus courte
arte Vk qui touche un des sommets de Vk-I. TI ya n-l tapes. Cet algorithme
est plus rapide que le prcdent. L'arbre obtenu est de longueur minimale
car Vk est tout moment un arbre de longueur minimale sur les k sommets
concerns.
g - Arbre de longueur minimale:
algorithme de Florek (1951)
A la premire tape, on joint chaque sommet son voisin le plus proche.
Cela revient prendre la plus petite distance dans chaque ligne du tableau
des distances. Cette opration rapide produit une fort FI (famille d'arbres,
c'est--dire simplement: graphe sans cycle). A l'tape k, chaque arbre de la
fort Fk-1 (chaque composante connexe du graphe sans cycle) est joint son
plus proche voisin en prenant comme distance entre arbres la plus petite
distance entre un sommet quelconque de l'un et un sommet quelconque de
166 Quelques mthodes de classification _ Chapitre 2
l'autre. Le processus s'arrte ds que le graphe Fk est connexe. Cet
algorithme est plus rapide mettre en uvre manuellement sur des
tableaux de distances assez grands. En gnral, il n'y a que 2 ou 3 tapes.
Montrons que l'on obtient un arbre, ce qui se ramne prouver que la
premire tape fournit bien une fort. Il n'y a pas de sommet isol car
chaque sommet admet effectivement un plus proche voisin. Montrons par
l'absurde que l'on ne peut pas crer de cycle. Supposons qu'il en existe un et
orientons les artes de chaque sommet vers son plus proche voisin. Si les
artes du cycle sont toutes orientes dans le mme sens, le rsultat est
absurde, car celles-ci seraient ncessairement de plus en plus courtes. Sinon
la figure serait galement absurde, car deux artes partiraient d'un mme
sommet, alors que chaque sommet n'a qu'un seul plus proche voisin.
Il reste montrer que cet arbre est de longueur minimale. Notons que toute
arte trace la premire tape appartient l'arbre de longueur minimale
V. En effet, s'il n'en tait pas ainsi, il existerait y, plus proche voisin de x, tel
que l'arte (x,y) n'appartienne pas V. En ajoutant cette arte V, on cre
un cycle. En supprimant l'autre arte du cycle issue de x, on obtient un
nouvel arbre plus court que V, ce qui contredit la dfinition de V. De la
mme faon, toute arte trace l'tape k appartient V, sachant que la fort
Fk-l est une partie de V. Le raisonnement est en tout point analogue au
prcdent.
h - Lien entre l'arbre et le saut minimal (Gower et Ross, 1969)
Soit V un arbre de longueur minimale construit partir du tableau des
distances entre n objets. V tant connexe et n'ayant pas de cycle, il existe un
chemin et un seul joignant deux sommets x et y. Appelons dv(x, y) la
longueur de la plus grande arte rencontre sur ce chemin. Nous allons
montrer que dv(x, y) n'est autre que d'(x, y), la distance ultramtrique du
plus petit saut maximal entre x et y.
En effet, soit v la plus grande arte rencontre entre x et y. La suppression de
v entrane la division de V en deux composantes connexes spares. S'il
existe un chemin (n'empruntant pas obligatoirement des artes de V) de x
y dont la plus grande arte est plus courte que v, il existe une arte u
distincte de v, et plus courte qui joint les deux composantes connexes. Le fait
de remplacer v par u donnerait un arbre de longueur infrieure celle de V,
ce qui contredit la dfinition de V. Ainsi dv(x, y), longueur de v, est bien le
plus petit saut maximal.
Le raisonnement fournit un mode de construction de la hirarchie associe
au saut minimal, partir de l'arbre de longueur minimale V. Cette
construction, descendante, s'opre de la faon suivante. On rompt la plus
grande arte de V; on obtient ainsi les deux groupes les plus loign, l'indice
correspondant leur fusion tant la longueur de cette arte. On rompt
ensuite successivement les artes par ordre de grandeur dcroissantes, ce qui
fait descendre dans la hirarchie jusqu'aux lments terminaux qui sont les
2.2 _ Classification hirarchique 167
objets eux-mmes. La dernire arte rompue correspond aux deux objets
agrgs en premier dans l'algoritlune ascendant.
On peut reprsenter simultanment la hirarchie et l'arbre de longueur
minimale en perspective comme le montre la figure 2.2 - 7.
(9)
(4)
(Sr
,
,
(2)
Figure 2.2 - 7
Reprsentation simultane de la hirarchie
et de l'arbre de longueur minimale
Quelques informations complmentaires sont apportes la reprsentation
de la figure 2.2 - 3 (cf. Benzcri et Jambu, 1976). En particulier les positions
relatives des points sont mieux respectes. Pour le praticien de l'analyse
factorielle, il sera souvent intressant de porter l'arbre de longueur
minimale sur les plans factoriels de faon remdier, dans une certaine
mesure, aux possibles dformations imputables l'opration de projection.
2.2.3 Critre d'agrgation selon la variance
Les techniques de classification selon le saut minimal ont l'avantage de
conduire des calculs simples (pas de recalcul numrique des distances) et
possdent des proprits mathmatiques intressantes.
Pour certaines applications les rsultats sont cependant critiquables. En
particulier, le saut minimal a le dfaut de produire des "effets de chane".






(A) (B)
Figure 2.2 - 8
"Effets de chane"
(C)
168 Quelques mthodes de classification _ Chapitre 2
Ainsi pour le nuage de points reprsent par la figure 2.2 - 8 les groupes A et
B ne seront pas facilement discernables dans l'arbre hirarchique; de plus,
les quelques sommets qui les relient seront agrgs au niveau le plus bas.
D'autres critres d'agrgation donnent ventuellement des rsultats plus
fiables, par exemple la distance moye1U1e (cf. galement Wishart, 1969).
Les techniques d'agrgation selon la variance cherchent optimiser,
chaque tape, selon des critres lis des calculs d'inertie, la partition
obtenue par agrgation de deux lments. Cette technique est
particulirement aise mettre en uvre lorsque l'agrgation est effectue
aprs une analyse factorielle, les objets classer tant reprs par leurs
coordonnes sur les premiers axes factoriels.
a - Notations et principe
Nous considrons ici les n objets classer comme un nuage de points (le
nuage des individus) d'un espace p dimensions (espace des variables).
Chaque point Xi (vecteur p composantes) est muni d'une masse m;. On
note m la masse totale du nuage:
Il
m='L
m
;
Le carr de la distance entre les points Xi et Xi' est note:
Ilx; - x;f = d
2
(x;,xj.)
L'inertie totale 1 du nuage est la quantit:
Il 2
1= I,mjllxj -gll
o g dsigne le centre de gravit du nuage:
1 Il
g = - 'LmjXj
m;
S'il existe une partition de l'ensemble des lments en s classes, la qime
classe a pour masse:
m
q
= 'Lmj
jeq
et pour centre de gravit:
1
gq=-'LmjX;
mq ieq
La relation de Huygens fournit une dcomposition de la quantit 1en
inerties intra-classes et inter-classes suivant la formule:
1 ='Lmqllgq- gl12 + 'L 'LmjllXj - gql12 [2.2 -1]
q q jeq
2.2 _ ClassificatiOlt hirarchique 169
Inertie totale Inertie inter-classes + Inertie intra classes
Figure 2.2 - 9
Dcomposition de l'inertie selon la relation de Huygens
La qualit globale d'une partition est lie l'homognit l'intrieur des
classes (et donc l'cartement entre les classes). 1 tant une quantit
constante, il s'agit par consquent de minimiser la quantit relative
l'inertie intra-classes :
lin/ra = LL11ljllxi _gql12
q ieq
soit encore maximiser celle relative l'inertie inter-classes:
00
--
.- .

Inertie intra-classes faible



Inertie intra-classes leve
Figure 2.2 - 10
Qualit globale d'une partition
A l'tape initiale, l'inertie intra-classes est nulle et l'inertie inter-classes est
gale l'inertie totale du nuage puisque chaque lment terminal constitue
ce niveau une classe. A l'tape finale, c'est l'inertie inter-classes qui est
nulle et l'inertie intra-classes est quivalente l'inertie totale puisque l'on
dispose ce niveau d'une partition en une seule classe (cf. l'tape 5 de la
figure 2.2 - 2). Par consquent, au fur et mesure que l'on effectue des
regroupements, l'inertie intra-classes augmente et l'inertie inter-classes
diminue.
Le principe de l'algorithme d'agrgation selon la variance consiste
rechercher chaque tape une partition telle que la variance interne de
chaque classe soit minimale et par consquent la variance entre les classes
soit maximale.
170 Quelques mthodes de classification _ Chapitre 2
b - Perte d'inertie par agrgation de deux lments:
le critre de Ward gnralis
Faire varier le moins possible l'inertie intra-classes chaque tape
d'agrgation revient rendre minimale la perte d'inertie inter-classes
rsultant de l'agrgation de deux lments.
Soit xi et xi' deux lments de masses mi et mi" appartenant une partition
Ps s classes, que l'on agrge en un seul lment x de masse m/ = mi + mi' '
produisant la partition P
S
-1 s - 1 classes, avec:
mx+m,x ..
x = 1 1 1 1
mi+mi'
x est le centre de gravit de Xi et xi"
On peut dcomposer l'inertie 1;;' de xi et xi' par rapport g suivant la
relation de Huygens:
Iii' =mdlxi - gl12 + mdlxi' - gl12 =millxi - xf +11lj'llxi' - xl1
2
+m/llx _ gl12
Seul le dernier terme subsiste si xi et xi' sont remplacs par leur centre de
gravit x. La perte d'inertie inter-classes &ii' due au passage de la partition
s classes la partition s - 1 classes quivaut :
Lis =Li Iii , = lill/er(P
s
) - lill/er(P
s
.
1
)
et vaut donc:
Lilii' =millxi - xl1
2
+md/xi' - xl1
2
En remplaant x par sa valeur en fonction de xi et xi' il vient, tous calculs
faits:
rrlirrli' 2 mm, 2
Lil
ii
, = Il xi - xd = 1 1 d (xi, xi' )
rrli + rrli' rrli + mi'
La stratgie d'agrgation fonde sur le critre de la perte d'inertie minimale,
dit critre de Ward gnralis, est donc la suivante: au lieu de chercher les
deux lments les plus proches, on cherchera les lments xi et xi'
correspondant L1Iii' minimale. Ainsi chaque tape l'inertie inter-classes
augmente de la quantit .1Iii' (et l'inertie intra-classes diminue de cette
mme quantit). Ceci revient considrer les L1Iii' comme de nouveaux
indices de dissimilarits
1
appels aussi "indices de niveau".
On vrifie que la somme des indices de niveau dans la hirarchie est gale
l'inertie totale du nuage 1:
Il Il
L Lis = L linter( P
s
) - lill/er( P
s
.
1
) = 1
s=2 5=2
[2.2 -2]
1 Par cette transfonnation de la matrice des distances, les points les plus lgers seront
plus facilement agrgs.
2.2 _ Classification hirarchique 171
Si l'on travaille sur les coordonnes des points, on effectuera les calculs des
centres de gravit (x pour xi et xi')' Par contre si l'on travaille sur les
distances, il est commode de pouvoir calculer les nouvelles distances
partir des anciennes (comme cela tait le cas pour les techniques
prcdentes). Le carr des distances entre un point quelconque z et le centre
de classe x s'crit, en fonction des distances xi et xi' :
1 ( mm, J
d2(x,z)= m.d
2
(x.,z)+m.,d
2
(x .. ,z)- 1 1 d
2
(x.,x.,)
m.+m., 1 1 1 1 m.+m., 1 1
1 1 1 1
Figure 2.2 - 11
Thorme de la mdiane
Cette formule (thorme de la mdiane) s'tablit en dcomposant l'inertie
du doublet (Xi, xi' ) par rapport z en inertie par rapport x, et en inertie de
x par rapport z :
millxi - zl12 + mi'lIxj' - zl12 = (mi +mi' )llx - zl12 + m ~ ~ m ~ Ilxi - xd
2
1 1
L'expression de d
2
(x, z) s'en dduit immdiatement. On ritre le processus
sur les lments restants et le nouvel lment construit par agrgation
l
.
2.2.4 Algorithme de recherche en chane des voisins rciproques
La principale difficult dans la construction d'un arbre hirarchique est le
nombre important d'oprations. A chaque tape de l'algorithme est
construit un nud regroupant deux lments, ce qui ncessite des calculs et
des comparaisons de distances entre tous les lments restant classer. Le
nombre d'oprations effectuer est de l'ordre de n
3
s'il yan objets classer.
1 II existe des variantes de cette mthode qui font appel des formules de calcul
lgrement diffrentes. On peut par exemple rechercher les classes ayant une inertie
interne minimale; on peut aussi utiliser le critre de la variance interne minimale, en
dsignant par variance l'inertie divise par la masse. On trouvera des prcisions sur
ces techniques dans Benzcri (1973).
172 Quelques mthodes de classification _ Chapitre 2
Les nouveaux algorithmes runissent chaque tape non plus deux
lments mais plusieurs couples d'lments. Ceci rduit considrablement
le nombre des oprations qui passe de n
3
n
2
permettant ainsi la
classification de plusieurs milliers d'objets en un temps raisonnable.
Ces algorithmes utilisent le concept de voisins rciproques introduits par
McQuitty (1966) : deux lments xi et xi' sont voisins rciproques si xi est le
plus proche voisin de xi' et si xi" est le plus proche voisin de xi'
Ils utilisent galement la proprit d'une agrgation hirarchique selon
laquelle, une tape donne, deux lments agrgs pour constituer un
nud sont ncessairement des voisins rciproques (sinon, ils ne
constitueraient pas la paire distance minimale).
Enfin ils utilisent la proprit plus forte (valable seulement si le critre
d'agrgation vrifie le critre de la mdiane, explicit plus loin) selon
laquelle tous les voisins rciproques, une tape donne, seront
ultrieurement des nuds de la hirarchie
1
.
A chaque tape de l'algorithme, au lieu d'agrger seulement les deux plus
proches voisins, il y a donc autant de nuds crs qu'il y a de voisins
rciproques. A l'tape finale, tous les lments sont regroups en une seule
classe et l'arbre est construit.
Le problme de l'algorithme est alors ramen une recherche efficace des
voisins rciproques. Nous allons dcrire l'algorithme de cette recherche qui
s'effectue en chane (Benzcri, 1982c).
a - Algorithme
Le principe des voisins rciproques peut s'noncer de la manire suivante:
si xi est plus proche voisin de Xi' (Xi ---7 Xi") et si xi' est plus proche voisin de
xi (Xi' ---7 xi ) alors xi et xi' sont voisins rciproques (Xi H xi')
Etape 1: on part d'un objet quelconque xl et on cherche son plus proche
voisin, not X2 puis le plus proche voisin de X2, not x3, etc.. On
cre ainsi une chane d'lments successifs:
Xl x2 x3 ... xi-2 xi-1 xi ...
Une telle chane s'arrte ncessairement lorsque deux lments
successifs sont voisins rciproques:
.. ---7 xi ---7 ... "1<-1 H "1<
La chane s'arrtera ici sur l'lment xk si xk-1 est aussi le plus
proche voisin de Xk. xk-1 et Xk sont voisins rciproques et sont
agrgs pour former un nud.
1 Le critre de la mdiane assure qu'ils resteront toujours voisins rciproques.
2.2 _ Classification hirarchique 173
- Critre de Ward:
Etape 2: si k = 2 alors la chane commence avec un lment qui possde un
voisin rciproque:
xl HX2
Nous choisissons un nouvel lment partir duquel une chane
est construite et qui s'arrte sur de nouveaux voisins rciproques
dont l'agrgation fournit un nud.
Etape 3: si k > 2, on continue la recherche des voisins rciproques par
extension de la chane commenant l'lment xk-2'
L'algorithme se termine lorsque n - 1 nuds ont t crs.
b - Critre de la mdiane
Afin de pouvoir utiliser cet algorithme, la chane doit pouvoir tre
prolonge au del de xk-2 lorsque les voisins rciproques xk-l et xk ont t
agrgs. Il est indispensable que cette agrgation ne dtruise pas la relation
du voisin le plus proche qui existait au pralable entre xi-l et xi avec
i =2, 3, ... , k-2. Cette proprit est assure si le critre d'agrgation utilis
pour construire l'arbre ne cre pas une inversion.
Il n'y a pas inversion si le nud n, cr par agrgation de a et b, ne peut tre
plus prs d'un quelconque autre lment c que ne le sont l'lment a ou
l'lment b. Cette condition! dite de "la mdiane" s'crit:
si d(a, b) < inf {d(a, c), d((b, c)} alors inf {d(a, c), d(b, c)} < d(n, c)
Cette proprit est vrifie par plusieurs critres d'agrgation
2
:
- Saut minimal: d(a,b) = in! {d(u, v) 1u E a, v E b}
- Saut maximal: d(a,b) = sup {d(u, v) 1u E a, v E b}
1
- Distance moyenne: d(a,b)=--{I, I,mulnvd(u,v)}
mamb UEa VEb
mamb d
d(a,b) = (ga,gb)
ma+mb
o ga et gb sont les centres de gravit des groupes a et b.
2.2.5 Exemple numrique d'application
L'exemple d'application qui suit comprend deux classifications
hirarchiques effectues sur les lignes et les colonnes de la table de
1 Cette condition a t prsente par Bruynooghe (1978) sous le nom d'axiome de
rductibilit. Elle permet en effet la mise d'un oeuvre d'un autre algorithme, dit des
voisinages rductibles, qui permet d'acclrer l'algorithme de base de la classification
hirarchique par l'utilisation de seuils de distances.
2 On dsignera ici la fois par a (ou b) un lment ou un nud une certaine tape de
l'agrgation, et l'ensemble des lments constituant ce nud.
174 Quelques mthodes de classification _ Chapitre 2
contingence 1.3 - 10 prsente la section sur l'analyse des correspondances
(cf. 1.3.8). Les distances entre lments sont les distances du X
2
entre
points-profils et l'agrgation se fait en utilisant le critre de Ward gnralis
prsent au paragraphe 2.2.3. Seuls les lments actifs de l'analyse des
correspondances ont t retenus: il s'agit d'une table (8,6) croisant 8
catgories socioprofessionnelle et 6 types de mdias, l'unit statistique tant
le "contact mdia".
Comme ce fut le cas pour l'analyse des correspondances de cette mme table,
la fonction de ce traitement n'est pas la rduction d'un tableau de donnes
trop grand et complexe (fonction principale des techniques d'analyse
descriptive multidimensionnelle) mais une prsentation pdagogique des
diffrentes tapes de calcul.
a - Classification des lignes (professions)
Les principales tapes de la classification des lignes sont rsumes sur la
figure 2.2 - 12, qu'il faut lire de la faon suivante: la premire colonne
(NUM) donne les numros des nuds, qui sont donc des nouveaux
lments classer et prennent la suite des 8 lments classer. La
terminologie Ain et Benjamin (deuxime et troisime colonnes)
s'applique aux deux lments qui sont agrgs une tape donne (c'est--
dire les plus proches cette tape au sens de l'indice d'agrgation retenu).
CLASSIFICATION HIERARCHIQUE
,
DESCRIPTION DES 7 NOEUDS (de 9 15)
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
9 6 7 2 1927 .00024
10 9 5 3 3783 .00038
11 2 1 2 789 .00064
12 10 4 4 5041 .00208
*********
13 8 11 3 6651 .00276
*********111***_
14 12 13 7 11692 .00493
*******************.*.*
15 3 14 8 12388 .01125
******** ********* **.*****************.*
SOMl-lE DES INDICES . 02228
Figure 2.2 - 12
Description des tapes de la classification hirarchique
(lignes actives de la table de contingence 1.3 - 10, section 1.3)
On lit ainsi sur la premire ligne que le nud nog est form des lments
terminaux 6 et 7, il est donc form de 2 lments (colonne: EFF.) dont le
poids total (colonne POlOS) est de 1927. La valeur de l'indice d'agrgation
correspondant est de 0.00024. Les valeurs croissantes de l'indice seront
illustres par une esquisse d'histogramme droite des colonnes
numriques
1
On vrifie que la somme des indices est gale la somme des
valeurs propres issues de l'analyse des correspondances de la mme table
(tableau 1.3 - 11 du 1.3.8).
1 Comme l'indiquait la figure 2.2 - 3, ces histogrammes peuvent donner une ide du
nombre de classes d'une bonne partition, qui correspond un saut important de
J'indice.
2.2 _ Classification hirarchique 175
Le dendrogramme de la figure 2.2 - 13 donne en fait la mme information,
prsente de faon plus suggestive, car la composition des nuds partir
des lments terminaux est maintenant lisible. On note la grande
homognit des ouvriers (N.Q. et Qua!.) et employs (indice trs bas), les
agriculteurs, petits patrons et inactifs constituant un deuxime groupe
moins homogne, alors que les professions intermdiaires occupent une
position mdiane. Enfin les cadres suprieurs et professions librales ne se
rattachent l'ensemble des autres catgories que beaucoup plus tard.
IDEN DENDROGRAMME (INDICES EN POURCENTAGE DE LA SOMME DES INDICES)
1 2.88
2 12.39
8 22.13
4 9.32
5 1.71
6 1.07
7 50.50
3 -----
Agricult. ------'t"
1
Pet. Pat ----------------------.
Inact i Es - - - -- - - - - - - - -- - ~ - - -_. -- --- - - - - - - --- ...
1
Prof Inter ---------------,
1
Employs
1
Ouvr. Qual --+1
Il
Quvr. N. Q -- ----- - - - - - _. - --- - - - - -- - - - - - - -- - - -., - ------ -- - - -- - - - - - - - --- - - - - --- - ...
Pro f /CSup - - --- - - - - - - - - - - - - - - -- - - - ---- - - - - - -- - -- - -- -- --- -- --- - - - - - ---- - - - - - - --_.
Figure 2.2 - 13
Dendrogramme
(lignes actives de la table de contingence 1.3 -10, section 1.3)
On retrouve donc les regroupements visibles sur la figure 1.3 - 23 (section
1.3.8)1. Notons ici que le plus grand indice correspond au premier facteur de
l'analyse de la section 1.3.8 (opposition des cadres suprieurs et de
l'ensemble des catgories), et que le second plus grand indice correspond au
second facteur (opposition entre les deux groupes ouvriers/employs et
agriculteurs/petits patrons). Cette correspondance entre nuds et facteurs
n'est pas gnrale, mais frquente 2.
b - Classification des colonnes (mdias)
La mthode d'agrgation est la mme et conduit videmment la mme
somme des indices (inertie totale). Les rgles de lectures des figures 2.2 - 14 et
2.2 - 15 sont les mmes que prcdemment.
Les deux plus grands indices correspondent encore aux principales
oppositions visibles sur les deux premiers facteurs de l'analyse des
correspondances.
1 La complmentarit entre les deux approches sera dveloppe section 2.4.
2 On note galement que les deux plus grands indices (0.0112,0.0049) sont ici
infrieurs aux deux plus grandes valeurs propres (0.0139,0.0072). La section 2.4
prcisera quelques relations et ingalits entre ces grandeurs.
176 Quelques mthodes de classificatiolt _ Chapitre 2
La structure observable sur le dendrogramme est celle d'un effet de chane,
ou de classe absorbante: l'agrgation se fait en ajoutant un lment
terminal la classe de l'tape prcdente. Il ne s'agit pas d'un artefact de la
mthode
1
. Cela traduit plutt les diffusions trs ingales des diffrents
mdias considrs.
CLASSIFICATION HIERARCHIQUE, DESCRIPTION DES 5 NOEUDS (de 7 11)
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
7 2 1 2 7266 .00135
8 4 7 3 8933 .00251
9 5 8 4 10236 .00323
*************
10 6 9 5 11950 .00439
*******************
11 3 10 6 12388 .01079 *************************************w******
SOMME DES INDICES .02228
Figure 2.2 - 14
Description des tapes de la classification hirarchique
(colonnes de la table de contingence 1.3 - 10, section 1.3)
1 6.08
2 11.27
4 14 51
5 19 71
6 48.43
3 -----
IDEN DENDROGRAMME (INDICES EN POURCENTAGE DE LA SOMME DES INDICES
Radi --+
1
'1'ele . ~
QUOR Il ,.
Pmag - - -- --- - - - - - - - - -- --- ~ ... -. - -- - - - - ---+
Ma'fV - ---- - - - - - - - -- - - - - -- --- - --- - - -- - - - - -*- - - ------ --- --- -- - -- -- - - - ---- ----- - - - -- - - --.
QUON --- --- - -- - ---- ---- --- -- - --- - - - - - - - - - - - - - - - - - - - -- - - - - -- - - - - - - - - - -- - --- -- - -- -- - - - -.
Figure 2.2 - 15
Dendrogramme
(colonnes de la table de contingence 1.3 -10, section 1.3)
Notons que si la classification apporte (dans le cas de tableaux en vraie
grandeur) certaines informations supplmentaires par rapport l'analyse
des correspondances (les distances sont ici calcules dans tout l'espace),
l'absence de reprsentation simultane des lignes et des colonnes limite
cependant les possibilits d'interprtation.
1 Contrairement l'agrgation suivant le saut minimal, le critre de Ward gnralis ne
provoque pas facilement d'effets de chane.
Section 2.3
Classification mixte et
description statistique des classes
2.3.1 Stratgie de classification mixte
Les algorithmes de classification sont plus ou moins bien adapts la
gestion d'un nombre important d'objets classer. La mthode d'agrgation
autour des centres mobiles offre des avantages incontestables puisqu'elle
permet d'obtenir une partition sur un ensemble volumineux de donnes
un faible cot, mais elle prsente l'inconvnient de produire des partitions
dpendant des premiers centres choisis et celui de fixer a priori le nombre de
classes. Au contraire, la classification hirarchique est une famille
d'algorithmes que l'on peut qualifier de "dterministes" (i.e. qui donnent
toujours les mmes rsultats partir des mmes donnes). De plus, ces
algorithmes donnent des indications sur le nombre de classes retenir mais
sont mal adapts aux vastes recueils de donnes.
La classification autour des centres mobiles peut en fait tre utilise comme
auxiliaire d'autres mthodes de classification. En fournissant des partitions
de vastes ensembles de donnes, elle permet de rduire la dimension de
l'ensemble des lments classer en oprant des regroupements pralables.
De ce fait, l'algorithme de classification qui parat actuellement bien adapt
au partitionnement d'un ensemble comprenant des milliers ou des dizaines
de milliers d'individus est un algorithme mixte. L'ide repose sur la
combinaison des deux techniques de classification prsentes
prcdemment. Cette ide, qui relve du bon sens, a t mise en uvre
spontanment par de nombreux praticiens; elle se trouve, par exemple,
sous le nom de hybrid clustering dans Wong (1982).
a - Les tapes de l'algorithme
L'algorithme de classification mixte procde en trois phases: l'ensemble des
lments classer subit un partitionnement initial (centres mobiles) de
faon obtenir quelques dizaines, voire quelques centaines de groupes
homognes; on procde ensuite une agrgation hirarchique de ces
groupes, dont le dendrogramme suggrera ventuellement le nombre de
classes finales retenir; et enfin, on optimise (encore par la technique des
centres mobiles) la ou les partitions correspondant aux coupures choisies de
l'arbre.
La figure 2.3 - 1 schmatise les diffrentes tapes de l'algorithme de
classification mixte.
178 Quelques mthodes de classification _ Chapitre 2
Donnes
avant la classification
1. Partition prliminaire:
- centres mobiles
- groupements stables
o 0
. e.. .
o
.. ..
0.
2. Classification ascendante
hirarchique sur les centres
3 a. Partition finale en 3 classes
par coupure de l'arbre
3 b. "Consolidation"
par raffectation
Figure 2.3 - 1
Schma de la classification mixte
1 - Partitionnement initial
Cette premire tape vise obtenir, rapidement et un faible cot, une
partition des n objets en k classes homognes, o k est largement plus
lev que le nombre 5 de classes dsir dans la population, et largement
plus petit que n. Nous utilisons, pour ce partitionnement initial en
quelques dizaines de classes, l'algorithme d'agrgation autour de
centres mobiles. Cette procdure augmente l'inertie entre les classes
chaque itration et produit une partition en un nombre fix au
pralable de classes mais qui dpend du choix initial des centres.
L'optimalit ne peut tre atteinte, mais la partition obtenue peut tre
amliore partir de groupements stables (section 2.1). Ces groupes
d'individus ou d'lments qui apparaissent toujours dans les mmes
classes seront les lments de base de l'tape suivante.
2 - Agrgation hirarchique des classes obtenues
La seconde tape consiste effectuer une classification ascendante
hirarchique o les lments terminaux de l'arbre sont les k classes de
2.3 _ Classification mixte et description statistique des classes 179
la partition initiale. Quelques uns de ces groupements peuvent tre
proches les uns des autres. Ils correspondent un groupe "rel" qui
aurait t coup artificiellement par l'tape prcdente. D'autre part, la
procdure cre, en gnral, plusieurs petits groupes ne contenant
parfois qu'un seul lment. Le but de l'tape d'agrgation hirarchique
est de reconstituer les classes qui ont t fragmentes et d'agrger des
lments apparemment disperss autour de leurs centres d'origine.
L'arbre correspondant est construit selon le critre de Ward qui tient
compte des masses au moment des choix des lments agrger.
3 - Partitions finales
La partition finale de la population est dfinie par coupure de l'arbre de
la classification ascendante hirarchique. L'homognit des classes
obtenues peut tre optimise par raffectations.
b - Choix du nombre de classes par coupure de l'arbre
Le choix du niveau de la coupure, et ainsi du nombre de classes de la
partition, peut tre facilit par une inspection visuelle de l'arbre (cf. figures
2.3 - 1 et 2.3 - 2): la coupure doit tre faite aprs les agrgations
correspondant des valeurs peu leves de l'indice, qui regroupent les
lments les plus proches les uns des autres, et avant les agrgations
correspondant des valeurs leves de l'indice, qui dissocient les groupes
bien distincts dans la population.
D'une manire gnrale, plus on agrge des lments, autrement dit plus
on se rapproche du sommet de l'arbre, plus la distance entre les deux classes
les plus proches est grande et plus l'indice de niveau est lev. En coupant
l'arbre au niveau d'un saut important de cet indice, on peut esprer obtenir
une partition de bonne qualit, car les individus regroups auparavant
taient proches, et ceux regroups aprs la coupure sont ncessairement
loigns, ce qui est la dfinition d'une bonne partition.
En pratique, la situation n'est pas aussi clairement dfinie que le montre la
figure 2.3 - 2. L'utilisateur pourra choisir entre deux ou trois niveaux de
coupure possibles et donc entre deux ou trois partitions finales.
Figure 2.3 - 2
Coupure visuelle de l'arbre
180 Quelques mthodes de classification _ Chapitre 2
La coupure de l'arbre peut tre facilite par l'examen de l'histogramme des
indices croissants de niveau et l'on coupera au niveau pour lequel cet
histogramme marque un palier important. Toute barre de cet histogramme
indique la valeur de l'indice d'une agrgation c'est--dire la perte d'inertie
obtenue en passant d'une partition en s classes la partition en s - 1 classes.
La situation idale est montre par la figure 2.3 - 3.a o l'on observe un
palier vident entre le 4
me
et le sme indices suggrant ainsi une bonne
partition en cinq classes. La figure 2.3 - 3.b est typique de la situation o il est
difficile de dcider d'un nombre "rel" de groupes dans la population. Mais
une telle partition, en 5 classes par exemple, n'est pas la meilleure possible,
car l'algorithme de classification hirarchique n'a pas la proprit de donner
chaque tape une partition optimale.
****
*******
(a)
****
*******
(b)
*********** 1
***************** ..."'.
**************.***
*****************
****************** *'111_*.***
**************
Figure 2.3 - 3
Histogrammes des indices de niveau
Cela tient en particulier la contrainte impose pour la construction de
l'arbre: la partition en s classes contient la partition en s - 1 classes et est
contenue dans la partition en s + 1 classes, l'algorithme ne remettant jamais
en cause une agrgation effectue. On peut donc amliorer encore la
partition obtenue si on s'affranchit de cette contrainte.
c - Procdure de consolidation
Pour amliorer la partition obtenue, on utilise de nouveau une procdure
d'agrgation autour des centres mobiles dont on sait qu'elle ne peut
qu'augmenter l'inertie entre les classes chaque itration.
Au dpart, les centres de classes sont ceux obtenus par coupure de l'arbre. A
la premire itration, on affecte les lments leur centre de gravit le plus
proche, ce qui cre de nouvelles classes dont on calcule les centres. A la
deuxime itration et aux suivantes, on raffecte les lments leur centre
le plus proche. Aprs un certain nombre d'itrations, il n'y a plus de
raffectation oprer et le calcul est arrt. En pratique, la procdure est
arrte ds que l'inertie entre les classes cesse de crotre de faon sensible.
Cette procdure de consolidation a pour effet d'optimiser, par raffectation,
la partition obtenue par coupure de l'arbre hirarchique. Malgr la relative
complexit de la procdure, on ne peut toujours pas tre assur d'avoir
2.3 _ Classificatioll mixte et descriptioll statistique des classes 181
trouv la "meilleure partition en k classes" mais on s'en approche
vraisemblablement dans beaucoup de situations courantes.
2.3.2 Description statistique des classes
Les lments d'une mme classe se ressemblent vis--vis de l'ensemble des
critres choisis pour les dcrire. li reste maintenant prciser quels sont les
critres qui sont l'origine des regroupements observs. On procde une
description automatique des classes qui constitue en pratique une
indispensable tape de toute procdure de classification 1.
Les aides l'interprtation des classes sont gnralement fondes sur des
comparaisons de moyennes ou de pourcentages l'intrieur des classes avec
les moyennes ou les pourcentages obtenus sur l'ensemble des lments
classer
2
. Pour slectionner les variables continues ou les modalits des
variables nominales les plus caractristiques de chaque classe, on mesure
l'cart entre les valeurs relatives la classe et les valeurs globales. Ces
statistiques peuvent tre converties en un critre appel va leu r- tes t
permettant d'oprer un tri sur les variables, et de dsigner ainsi les variables
les plus caractristiques (cf. Morineau, 1984).
Parmi les variables figurent galement celles qui n'ont pas contribu la
construction des classes mais qui peuvent participer leur description sur le
mme principe que les variables supplmentaires dans une analyse
factorielle. Ces variables permettent a posteriori d'identifier et de
caractriser les regroupements tablis partir des variables actives.
a - Valeurs-test pour les variables continues
Pour caractriser une classe par les variables continues, on compare X
k
, la
moyenne d'une variable X dans la classe k, la moyenne gnrale X et on
value l'cart en tenant compte de la variance s ~ X de cette variable dans la
classe. La valeur-test est ici simplement la quantit:
t (X)= Xk-X
k sk(X)
avec:
1 Il existe galement des possibilits purement graphiques de reprsentation des
classes (graphiques de densit, arbres, dendrogrammes) qui peuvent complter les
descriptions statistiques de ce paragraphe. Sur ce point, cf. Ohsumi (1988).
2 Ce qui est quivalent comparer moyennes (ou pourcentages) dans la classe et hors
de la classe.
182 Quelques mthodes de classification _ Chapitre 2
o s2(X) est la variance empirique de la variable X. On reconnat en s ~ X la
variance d'une moyenne dans le cas d'un tirage sans remise des k lments
concerns.
Interprtation en tenues de probabilits (variables supplmentaires)
Sous l'hypothse "nulle" d'un tirage au hasard sans remise des nk
individus de la classe k, la variable X
k
reprsentant la moyenne dans la
classe a pour esprance Xet pour variance thorique s ~ X .
La valeur-test tk(X) suit donc approximativement une loi de Laplace-Gauss
centre et rduite (thorme de la limite centrale). Elle value la distance
entre la moyenne dans la classe et la moyenne gnrale en nombre d'carts-
types d'une loi normale.
Il va de soi que cette interprtation n'a de sens que pour une variable X
supplmentaire, c'est--dire n'ayant pas particip la construction des
classes. On ne peut en effet stipuler une indpendance entre les classes
d'une partition et une des variables ayant servi dfinir cette partition.
On calcule ensuite la probabilit que la variable dpasse la valeur absolue de
la diffrence observe. Plus la valeur-test est forte (plus la probabilit est
faible), plus l'hypothse d'avoir les n valeurs de la variable X tires au
hasard parmi les valeurs possibles est discutable. Dans ce cas, la moyenne
dans la classe diffre de la moyenne gnrale, et la variable est
caractristique de la classe. Le classement des variables par probabilits de
dpassement croissantes est le mme que le classement par valeurs-test
dcroissantes. Du point de vue de la dsignation des variables les plus
caractristiques, les deux informations sont quivalentes.
Extension aux variables actives
S'il n'est pas licite d'interprter de faon probabiliste les valeurs-test
calcules sur les variables actives, il est possible de les utiliser pour obtenir
un classement de celles-ci en vue de caractriser chaque classe. Les valeurs
absolues des valeurs-test constituent alors de simples mesures de similarit
entre variables et classes.
b - Valeurs-test pour les variables nominales
Une modalit (ou catgorie) d'une variable nominale est considre comme
caractristique de la classe si son abondance dans la classe est juge
significativement suprieure ce qu'on peut attendre compte tenu de sa
prsence dans la population. En notant nkj le nombre d'individus ayant la
modalit j parmi les nk individus de la classe k, nj le nombre d'individus
ayant la modalit j et n l'effectif total, l'abondance de la modalit j est
dfinie, en premier lieu, en comparant son pourcentage dans la k me classe:
~ n
son pourcentage dans la population ..J...
n
k
n
2.3 _ Classification mixte et description statistique des classes
La valeur-test prend en compte tous les lments du tableau 2.3 - 1.
Tableau 2.3 -1
Modalits de variables nominales et classes d'individus
183
classe k
autres classes
population
modalit j
nkj
..
n-
J
autres modalits
.. .. ..
population
nk
..
n
Sous l'hypothse "nulle"l o les nk individus de la classe k sont tirs au
hasard sans remise parmi la population des n individus, le pourcentage
d'individus de la classe k ayant la modalit j d'une part, et le pourcentage
d'individus ayant la modalit j dans la population d'autre part, devraient
concider aux fluctuations alatoires prs:
nk' n
_J =--.L
nk n
C'est l'hypothse d'indpendance sous laquelle le nombre N d'individus de
la classe k ayant la modalit j est une variable alatoire qui suit une loi
hypergomtrique dont les trois paramtres apparaissent dans les marges du
tableau 2.3 - 1. On calcule donc la probabilit d'obtenir une valeur N
suprieure nkj :
Pk(j) = Prob(N ~ nkj)
Plus cette probabilit
2
Pk(j) est faible, plus l'hypothse d'un tirage au hasard
est difficile accepter. On se sert de cette probabilit pour ranger les
modalits caractristiques de la classe (la plus caractristique correspondant
la plus petite probabilit).
Cette probabilit est souvent trs faible. li est commode de lui substituer la
valeur tk(N) de la variable de Laplace-Gauss correspondant la mme
probabilit. C'est la valeur-test. Elle mesure l'cart entre la proportion dans
la classe et la proportion gnrale, en nombre d'carts-types d'une loi
normale. La valeur-test, pour une modalit d'une variable nominale, est
1 Comme dans le cas des variables continues, cette hypothse nulle n'a de sens que
pour des variables nominales supplmentaires. Mais les valeurs-test que l'on va
calculer pourront encore jouer le rle d'indices de similarits entre modalits actives et
classes et donc servir ranger ces modalits par ordre d'intrt pour chaque classe.
2 Si l'on dsigne par ~ le nombre de parties distinctes de b lments que l'on peut
extraire d'un ensemble de a lments, la probabilit Prob (N = x) s'crit ici:
c ~ c ~ ~ x x=nk
Prob(N=x)= J J et la probabilitpk(j) vaut alors:Pk(j)= IProb(N=x)
C;k
184 Quelques mthodes de classification _ Chapitre 2
donc un critre statistique associ la comparaison des effectifs dans le cadre
d'une loi hypergomtrique
l
.
c - Variables caractristiques d'une classe
La valeur-test revient effectuer un changement de mesure en
transformant la probabilit d'une distribution quelconque en nombre
d'cart-types d'une loi normale centre rduite.
Que ce soit pour la recherche des variables continues ou des modalits des
variables nominales caractristiques d'une classe, la valeur absolue de la
valeur-test est l'analogue de la valeur absolue d'une variable normale
centre rduite
2
.
Les variables sont d'autant plus intressantes que les valeurs-test associes
sont fortes en valeur absolue. On peut alors ranger ces variables suivant les
valeurs-test dcroissantes et ne retenir que les lments les plus significatifs,
ce qui permet de caractriser trs rapidement les classes.
En slectionnant, pour chaque classe, les variables les plus caractristiques,
et en calculant leur moyenne ou leur pourcentage dans la classe, on
constitue ainsi le "profil-type" de la classe. Rappelons que la valeur-test ne
correspond un vrai test d'hypothse
3
que si la variable laquelle elle est
associe est supplmentaire.
Mentionnons enfin, comme cela a t fait la section 1.2 propos de
l'analyse en composantes principales, que le fait de calculer simultanment
plusieurs valeurs-test met l'utilisateur dans une situation de "comparaisons
multiples", qui impose de prendre des seuils de signification plus svres
que ceux mis en uvre lors d'un test unique.
1 Notons qu'une estimation approche de la valeur-test peut tre obtenue de faon plus
simple en prenant en compte l'esprance de N :
n n-n n ( n.]
E(N)=nk-L etlavariancedeX sl(N)=n
k
--
k
-L 1--1..,
n n-1 n n
et en calculant la quantit Ik(N) = N - E(N) qui donne directement la variable centre,
sk(N)
rduite et normale si l'on peut appliquer l'approximation de Laplace-Gauss de la loi
hypergomtrique Cette approximation est suffisante dans les applications qui ne
mettent pas en jeu des effectifs faibles.
2Dans le cadre de tests classiques, on dira qu'elle est significative au seuil usuel 5% si
elle dpasse la valeur 1,96 : l'hypothse "nulle" est rejete et la moyenne ou la
proportion d'une variable sur la population globale et celle dans la classe diffrent
significativement.
3 Ici on a l'hypothse qu'une variable continue ou une modalit d'une variable nominale
est indpendante de la partition.
Section 2.4
Complmentarit entre
analyse factorielle et classification
Les mthodes factorielles (notamment l'analyse des correspondances
multiples) sont particulirement bien adaptes l'exploration de grands
tableaux de donnes individuelles tels que ceux produits par les enqutes.
Mais elles ne suffisent pas toujours fournir une vue satisfaisante de
l'ensemble des donnes. Non seulement les visualisations ne vhiculent
qu'une partie de l'information, mais elles sont parfois elles-mmes trop
complexes pour tre interprtes facilement.
Dans ces circonstances, les techniques de classification peuvent complter et
nuancer les rsultats des analyses factorielles. La complmentarit entre
analyse factorielle et classification concerne la comprhension de la
structure des donnes et celle des aides pratiques dans la phase
d'interprtation des rsultats.
Dans une premire partie, on justifiera cette utilisation conjointe du point
de vue de l'utilisateur confront un ensemble complexe de donnes. Puis
on examinera quelques aspects techniques et thoriques de cette
complmentarit.
2.4.1 Utilisation conjointe de l'analyse factorielle
et de la classification
Face de trs grands tableaux de donnes, il est indispensable de disposer
d'une vue d'ensemble de la base d'information. De ce point de vue, les
mthodes factorielles sont certainement les techniques exploratoires les
mieux adaptes.
a - Ncessit... et insuffisance des mthodes factorielles
Mais, les reprsentations graphiques issues des mthodes factorielles
prsentent certains inconvnients, dont certains sont d'ailleurs
interdpendants :
1- Difficults d'interprtation
Il est toujours difficile d'interprter les axes ou plans factoriels au del du
plan principal. Le plan (3,4), engendr par les axes factoriels 3 et 4, dcrit
des proximits qui sont des termes correctifs par rapport aux proximits
principales observes sur les deux premiers axes. L'interprtation de ces
proximits est donc assez dlicate.
186 Quelques mthodes de classification _ Chapitre 2
2- Compression excessive et dfonnations
Les visualisations sont limites deux, ou en gnral trs peu de
dimensions, alors que le nombre d'axes "significatifs" peut tre bien
suprieur. Cette compression excessive de l'espace peut entraner des
distorsions fcheuses et des superpositions de points occupant des
positions distinctes dans l'espace.
3 - Manque de robustesse
Les visualisations peuvent manquer de robustesse. Un point-profil
aberrant peut notablement influencer le premier facteur et par l toutes
les dimensions suivantes, puisque ces dimensions sont relies au
premier axe travers la contrainte d'orthogonalit des axes.
4 - Graphiques factoriels inextricables
Les visualisations peuvent concerner des centaines de points et donner
lieu des graphiques chargs ou illisibles.
Pour remdier ces lacunes, montrons, point par point, quels peuvent tre
les apports d'une classification mene simultanment.
Difficults d'interprtation et compression excessive des donnes (points
1 et 2) :
On complte l'analyse factorielle par une classification ralise sur
l'espace tout entier ou sur un sous-espace dfini par les premiers facteurs
les plus significatifs. Les classes prennent en compte la dimension relle
du nuage de points. Elles corrigent donc certaines dformations dues
l'opration de projection.
Une classe peut aussi tre typique d'un axe de rang lev et aider
l'interprtation de ce sous-espace particulier difficilement observable
autrement.
Robustesse imparfaite (point 3) :
La plupart des algorithmes de classification, et particulirement les
algorithmes d'agglomration, sont localement robustes au sens o les
parties basses des dendrogrammes produits (nuds correspondant aux
plus petites distances) sont indpendantes des ventuels points
marginaux isols.
Allgement et description automatique des sorties graphiques (point 4) :
Lorsqu'il y a trop de points-individus sur un plan factoriel, il parat utile
de procder des regroupements d'individus en familles homognes. Il
faut donc ce stade faire appel aux capacits de gestion et de calcul de
l'ordinateur pour complter, aider et clarifier la prsenta tion des
rsultats. Les classes peuvent tre utilises pour aider l'interprtation des
plans factoriels en identifiant des zones bien dcrites. Il est en effet plus
2.4 _ Complmerltarit erItre allalyse factorielle et classificatiOll 187
facile de dcrire des classes qu'un espace continu, mme deux
dimensions. La notion de classe est lmentaire et accessible
l'intuition. Les descriptions de ces classes peuvent tre fondes sur
d'lmentaires comparaisons de moyennes ou de pourcentages. Les
nombreux points sont ainsi remplacs par quelques centres de gravit de
classes. Comme les algorithmes utiliss pour ces regroupements
fonctionnent de la mme faon que les points soient situs dans un
espace deux ou dix dimensions, on allge les sorties graphiques tout
en amliorant la qualit de la reprsentation (points 1 et 2 ci-dessus).
Mais les mthodes factorielles sont ncessaires, malgr leurs insuffisances:
la facult descriptive des axes, les descriptions sous forme de continuum
gomtrique restent irremplaables.
La classification ne russit pas toujours montrer l'importance de certaines
tendances ou de facteurs latents continus. Pour observer l'organisation
spatiale des classes, le positionnement des classes sur les axes factoriels
s'avre indispensable. La classification peut videmment aider dcouvrir
l'existence de groupes d'individus. L'analyse factorielle peut mettre en
avant des facteurs latents inattendus. La dcouverte de tels phnomnes ou
dimensions caches est l'objectif de ces deux familles de mthodes et
certainement le plus ambitieux. Leur utilisation complmentaire est
souvent indispensable pour atteindre cet objectif.
b - Mise en uvre pratique dans le cas de la classification mixte
Pour dcrire un ensemble de donnes de grande taille, principale
circonstance dans laquelle l'usage complmentaire des techniques
factorielles et de classification est utile, la mise en uvre conjointe de ces
techniques s'opre de la faon suivante.
- tape 1 : L'analyse factorielle
L'analyse factorielle est utilise comme une tape pralable la
classification pour deux raisons: pour son pouvoir de description,
prsent dans les chapitres prcdents, et pour son pouvoir de filtrage,
qui permettra ventuellement de travailler sur des coordonnes
factorielles moins nombreuses que les variables de dpart.
- tape 2 : Classification partir des facteurs
Il est quivalent d'effectuer une classification des individus sur un
ensemble de p variables ou sur l'ensemble des p facteurs. Mais on peut
aussi ne prendre en compte qu'un sous-espace factoriel de dimension q
(q < p) et raliser une classification sur les q premiers axes. Cela
prsente l'avantage d'liminer des fluctuations alatoires qui
constituent en gnral l'essentiel de la variance recueillie dans les
directions des p - q derniers axes (variations non systmatiques
contenues dans les donnes). Le fait d'abandonner les derniers facteurs
revient effectuer une sorte de "lissage" des donnes, ce qui en gnral
188 Quelques mthodes de classification _ Chapitre 2
amliore la partition en produisant des classes plus homognes. Les
distances entre points sont calcules dans l'espace des premiers axes
factoriels avec la distance euclidienne usuelle. Le calcul est simple et la
classification peut tre mene sur des grands ensembles d'individus
1
.
La difficult rside parfois dans le choix du nombre d'axes retenir (cf.
4.2.3).
tape 3: Description automatique des classes
Une fois les individus regroups en classes, on a vu ( 2.3.2) qu'il est
facile d'obtenir une description automatique de ces classes. On calcule,
pour les variables numriques comme pour les variables nominales,
des statistiques d'carts entre les valeurs internes la classe et les
valeurs globales. Les valeurs-test permettent de les ranger par ordre
d'intrt.
tape 4: Positionnement des classes dans le plan factoriel
La division en classes opre un dcoupage plus ou moins arbitraire
d'un espace continu. L'analyse en axe principaux pralable permet
alors de visualiser les positions relatives des classes dans l'espace et
peut mettre en vidence certaines "trajectoires" masques par la
discontinuit des classes. Il est intressant de projeter les centres de
gravit des classes au sein des variables ou des modalits actives sur le
premier plan factoriel (figure 2.4 - 1).
Figure 2.4 - 1
Positions relatives des classes dans l'espace factoriel
Le support visuel permet d'apprcier les distances entre les classes. Par
ailleurs, la position de chaque individu repr par le numro de sa
classe permet de reprsenter la densit et la dispersion des classes dans
le plan (cf. figure 2.4 - 2).
1 Une technique de classification hirarchique tel que l'algorithme des VOISInS
rciproques (et particulirement l'algorithme de recherche en chaine) peut tre ralise
sans garder la matrice des distances en mmoire centrale. Les distances entre couples
de points sont recalcules la demande dans l'espace rduit des q premiers facteurs.
La mise en mmoire de la matrice (n,q) construite partir des q principales
coordonnes des n observations est souvent beaucoup moins encombrante que le
tableau des n(n-1) distances.
2.4 _ Complmelltarit elltre allalyse factorielle et ciassificatiOlI
3
F
2
2
3 3 2
2
3 3 3
13
3 3 1 2
3 3 3
1 1 1 2
2 2
11
1 2 1
L 2
2 F
1
1
1
1 3 2
1
1 1
1 2 2
2
2
2
Figure 2.4 - 2
Densit et dispersion des classes dans l'espace factoriel
189
L'utilisation conjointe de l'analyse factorielle et de la classification permet
de se prononcer non seulement sur la ralit des classes, mais galement sur
leurs positions relatives, leur forme, leur densit et leur dispersion. Les
deux techniques se valident mutuellement.
c - Autres aspects de la complmentarit
A propos des liens entre les mthodes d'analyse par axes principaux et les
mthodes de classification, il faudrait voquer des mthodes que l'on peut
qualifier d'hybrides, c'est--dire qui produisent simultanment des axes et
des classes. Ainsi, le lien existant entre le haut de l'arbre et les premiers axes
factoriels peut suggrer d'utiliser ceux-ci pour construire un arbre partir
des plus grands indices (classification descendante ou divisive, cf. par
exemple Reinert, 1986). On peut galement chercher des axes principaux
susceptibles de reprsenter au mieux une classification (Art et al., 1982 ;
Gnanadesikan et al., 1982). Certaines de ces mthodes (projections
rvlatrices, analyses de contigut) seront brivement prsentes au 3.7.4
du chapitre 3. Dans un autre esprit, van Buuren et Heiser (1989), pour
classer des individus dcrits par des variables nominales, cherchent
simultanment des classes et un codage des variables qui optimise un critre
de qualit de la classification.
2.4.2 Aspects techniques et thoriques de la complmentarit
La complmentarit entre l'analyse des correspondances et la classification
ascendante hirarchique prsente des avantages pratiques pour l'utilisateur.
On examinera dans ce paragraphe certains aspects plus techniques de cette
cornplmentari t.
a - Classification des lignes ou colonnes d'un tableau de contingence
La classification ascendante hirarchique agrge des groupes d'lments
suivant diffrents critres d'agrgation. Parmi ceux-ci, le critre de Ward
190 Quelques mthodes de classificatioll _ Chapitre 2
gnralis apparat compatible avec l'analyse des correspondances puisqu'il
est fond sur une notion d'inertie similaire. On a montr en particulier (cf.
2.2.3.b formule [2.2 - 2]) que la somme des valeurs propres (inertie totale du
nuage) est gale la somme des indices de niveau. Aussi, malgr des classes
sphriques que ce critre a tendance produire, il y a une certaine cohrence
utiliser le critre d'inertie de Ward sur un tableau de coordonnes
factorielles elles-mmes issues d'un calcul d'inertie. Si l'arbre de la
classification est construit sur les q premiers axes factoriels, on vrifiera que
la somme des indices de niveau est gale la somme des q premires plus
grandes valeurs propres retenues.
Une proprit importante de l'analyse des correspondances va dans le sens
d'une bonne compatibilit avec la classification: l'quivalence
distributionnelle (cf. 1.3.2.f et 1.3.3.a) qui garantit la stabilit des rsultats
quand on regroupe les lments ayant des profils semblables.
Agrger les lignes et les colonnes d'un tableau de contingence est naturel
dans le sens o il s'agit de remplacer des classes par des classes a u lieu de
remplacer des individus par des groupes d'individus ou des variables par
des groupes de variables
1
.
b - Un exemple de concidence entre les deux approches
Considerons la table de contingence KI) (tableau 2.4 - 1). Elle a, nous allons le
vrifier, la proprit de donner des rsultats similaires lorsqu'elle subit une
analyse des correspondances et une classification hirarchique utilisant le
critre d'agrgation de Ward (cf. 2.2.3.b).
Tableau 2.4 - 1
Table de Contingence KIJ
COL7 COL2 COL3 COL4 COL5 COL6 COLI COL8
LIGI 2 18 12 12 2 2 30 2
LIG4 2 12 21 27 2 2 12 2
LIG5 14 2 2 2 24 20 2 14
LIG2 2 30 12 12 2 2 18 2
LIG6 14 2 2 2 20 24 2 14
LIG7 23 2 2 2 14 14 2 21
LIG3 2 12 27 21 2 2 12 2
LIG8 21 2 2 2 14 14 2 23
En fait, un rarrangement des lignes et des colonnes montre que cette table
n'est pas anodine. Elle contient de forts traits structuraux (tableau 2.4 - 2).
Elle est symtrique et semble forme de blocs et de sous-blocs particuliers. Ce
rarrangement, on va le voir, est un sous-produit de l'analyse des
correspondances.
1 La classification des lments d'un tableau de contingence fonde sur le
regroupement de catgories homognes a t aborde par Benzcri (1973), Jambu et
Lebeaux (1978), Govaert (1984), Cazes (1986), GHula (1986), Escoufier (1988),
Greenacre (1988).
2.4 _ Complmentarit entre analyse factorielle et classification
Tableau 2.4 - 2
Table de Contingence KI] rordonne
COLI COL2 COL3 COL4 COLS COL6 COL7 COLS
LIG1 30 18 12 12 2 2 2 2
LIG2 18 30 12 12 2 2 2 2
LIG3 12 12 27 21 2 2 2 2
LIG4 12 12 21 27 2 2 2 2
LIGS 2 2 2 2 24 20 14 14
LIG6 2 2 2 2 20 24 14 14
LIG7 2 2 2 2 14 14 23 21
LIG8 2 2 2 2 14 14 21 23
191
Cette table de contingence fait en fait partie d'une famille plus large de
tableaux dcrits dans Benzcri (1973, vol. 2, chapitre 11) qui seront
brivement voqus plus bas.
Une classification ascendante hirarchique utilisant le critre de Ward
produit le dendrogramme reprsent sur la figure 2.4 - 3, o les indices de
niveaux figurent entre parenthses prs des nuds correspondants.
LIG1
LIG2
LIG3
LIG4
LIGS
LIG6
LIG7
1 (.023)
1
(.090 )
1(.006)
1
( .640)
( .003)
( .040)
( .001)
LIG8
Figure 2.4 - 3
Esquisse du dendrogramme dcrivant la classification
hirarchique de la table de contingence (8,8) KI]
Les valeurs propres issues de l'analyse des correspondances de Ku figurent
dans le tableau 2.4 - 3. Elles concident avec les indices d'agrgation.
Tableau 2.4 - 3
Valeurs propres issues de l'analyse des correspondances de KI]
1
=
.640 (80.0 % de la trace)
2
=
.090 (11. 0 %)
3 =
.040 ( 5.0 %)
4
=
.023 ( 3.0 %)
5
=
.006 ( .7 %)
6
=
.003 ( .4 %)
7
=
.001 ( .1 %)
192 Quelques mthodes de classificatiolf _ Chapitre 2
Le tableau 2.4 - 4 donne les coordonnes factorielles des points lignes (qui
sont les mmes que celles des points colonnes au signe prs, puisque la
matrice de dpart est symtrique). La faon dont sont organiss ces vecteurs
propres permet de comprendre le processus de construction de la table de
contingence: on part des facteurs structurs de cette faon et on utilise la
formule de reconstitution des donnes.
Chaque vecteur oppose deux blocs. Il est orthogonal au vecteur prcdent et
les coordonnes sont gales l'intrieur de chaque bloc. Tous les vecteurs
sont centrs et orthogonaux la premire bissectrice.
La figure 2.4 - 4 donne la reprsenta tion des points-profils dans le plan des
deux premiers axes factoriels.
Tableau 2.4 - 4
Coordonnes factorielles issues
de l'analyse des correspondances de Kil
Axes l 2 3 4 5 6 7
LIGNEl -.80 .42 0.00 .30 0.00 0.00 0.00
LIGNE2 -.80 .42 0.00 -.30 0.00 0.00 0.00
LIGNE3 -.80 -.42 0.00 0.00 -.15 0.00 0.00
LIGNE4 -.80 -.42 0.00 0.00 .15 0.00 0.00
LIGNES .80 0.00 -.28 0.00 0.00 .10 0.00
LIGNE6 .80 0.00 -.28 0.00 0.00 -.10 0.00
LIGNE7 .80 0.00 .28 0.00 0.00 0.00 .06
LIGNE8 .80 0.00 .28 0.00 0.00 0.00 -.06
On constate que cette figure bi-dimensionnelle permet de distinguer les
deux grands blocs (axe 1), puis, l'intrieur de l'un d'eux, deux sous-blocs
(axe 2) , mais qu'elle est moins riche d'information que la figure 2.5 - 3, elle
aussi bidimensionnelle.
LIGI
LIG2
-V.lS
LIG3
LIG4
Axe 2 J 11%
o
-0.4
LIG5
L1G6
-
L1G?
L1G8
Axel

80%
Figure 2.4 - 4
Premier plan factoriel de l'analyse de Kil
2.4 _ Complmentarit entre allalyse factorielle et classification 193
La figure 2.4 - 3 du dendrogramme a en effet l'avantage de montrer
simultanment tous les blocs et tous les niveaux de la hirarchie.
Dcrivons brivement ces tableaux de correspondances hirarchiques en
renvoyant Benzcri {1973, op. cit.) et Cazes (1984, 1986 a) pour une
prsentation systmatique et des gnralisations de ces notions.
D'une manire gnrale, dans une hirarchie binaire H sur un ensemble l
n lments chaque lment non terminal hE H peut tre partitionn de
faon unique en deux lments a(h) et b(h) :
h = a(]l) v b(h) avec a(h) E H et b(h) E H
On suppose cette hirarchie indice (cf. 2.2.Lc). On suppose galement que
l'indice )'(h) prend ses valeurs dans (0,1) et qu'il est nul pour les lments
terminaux. Chaque lment i E l est d'autre part muni d'une masse Pi
strictement positive avec:
n
LPi =1
i=1
Pour chaque nud h de la hirarchie, on peut associer une fonction sur l
valeurs relles fh, de moyenne nulle, c'est--dire telle que:
n
LPifh(i) =0
i=1
Cette fonction est nulle en dehors de h (i Il => fii) = 0) et constante sur
chacun des deux nuds a(h) et b(h) qui constituent h.
Ces constantes sont dfinies par les formules suivantes, en notant Ph, pa et
Pb les masses respectives des lments h, a(h) et b(h) :
fh(i) = Pb pour i E a(h)
PhPa
fh(i) = Pa pour i E b(h)
PhPb
Si l'on munit l'espace des fonctions fh du produit scalaire:
n
<fh'/h' >= LPi!hWfh,(i)
i=1
On vrifie facilement que les fonctions fh sont de norme (ou de variance) 1
et que les n-1 fonctions correspondant aux nuds de la hirarchie
constituent une base orthonorme de l'ensemble des fonctions sur l.
La formule de reconstitution des donnes en analyse des correspondances
(cf. L3.3.h) permet alors de gnrer un tableau de correspondances
symtrique C de terme gnral c;;:
cii' =PiPi'[l + nfJfhfhWfh(i' )J
h=1
194 Quelques mthodes de classification _ Chapitre 2
les n-l nuds reprs par h tant supposs numrots par ordre d'indices
d'agrgation h dcroissants. La table de contingence KIJ ci-dessus a t
gnre
l
de cette faon.
2.4.3 Valeurs propres et indices de niveau
Hormis des cas trs particuliers, comme ceux constitus par les
correspondances hirarchiques tudies au paragraphe prcdent, les
relations entre analyse des correspondances et classification oprs sur une
mme table de contingence sont difficiles tudier.
Dans le cas de la classification hirarchique utilisant le critre de Ward, on
peut mettre en vidence certaines ingalits et tudier certaines structures
particulires.
a - Quelques ingalits
Notons tout d'abord que pour une table de contingence quelconque (si l'on
excepte les tables symtriques), la classification hirarchique donnera des
indices diffrents selon que l'on agrge les lignes et les colonnes, alors que
l'analyse des correspondances ne fournit qu'une srie de valeurs propres.
La plus grande valeur propre issue de l'analyse des correspondances est
suprieure ou gale au plus grand indice d'agrgation (lignes ou colonnes)
donn par la classification. Cet indice est en effet une mesure de variance
externe (dite variance "inter", par opposition la variance "intra",
mesurant la dispersion l'intrieur des groupes) entre les deux derniers
groupes agrgs. Cette variance externe est infrieure la variance totale
mesure sur la droite qui joint les centres de gravits des deux groupes, elle-
mme infrieure la meilleure variance totale possible sur une droite
quelconque, ce qui est la dfinition de la plus grande valeur propre
2

Plus gnralement, Benzcri et Cazes (1978) ont montr que la somme des r
plus grandes valeurs propres est suprieure ou gale la somme des r plus
grands indices d'agrgation.
Enfin, ces auteurs ont donn un intressant contre-exemple montrant qu'il
n'existe pas de borne infrieure positive pour le quotient entre le plus grand
indice d'agrgation et la plus grande valeur propre: on peut trouver des
distributions de densit telles que le plus grand indice soit une fraction
arbitrairement petite de la plus grande valeur propre.
IOn trouvera la preuve de la non-ngativit des termes Cii dans Benzcri (1973, Tome
lIB, Chapitre Il).
2 Notons bien, sur la figure 2.4 - 4 prcdente, le cas de concidence pour lequel les
variances "intra" sur l'axe sont nulles, et pour lequel le meilleur axe factoriel est
prcisment celui qui relie les deux centres de classes.
2.4 _ Complmentarit entre analyse factorielle et classification 195
b - Le cas des tables de contingence structures par blocs
Cette structure dj voque en section 1.3.4 (cf. les figures 1.3 -15 et 1.3 - 16)
est aisment reconnue par l'analyse des correspondances car k blocs
engendrent k valeurs propres gales 1 (y compris la valeur propre triviale,
qui correspond au cas usuel d'un seul bloc).
Cette structure n'est cependant pas systmatiquement reconnue par la
classification hirarchique utilisant le critre de Ward, comme l'ont montr
par un contre-exemple Kharchaf et Rousseau (1988, 1989).
c - Une tude empirique du lien entre valeurs propres et indices
Ces ingalits et contre-exemples ne donnent que peu d'information sur les
liaisons entre valeurs propres et indices, et les liaisons fonctionnelles du
paragraphe 2.4.2 ne concernent que des cas d'cole. Les liaisons stochastiques
entre indices et valeurs propres (dans le cas d'une famille de tables de
contingences alatoires) sont certainement trop complexes pour faire l'objet
d'une tude analytique.
Tableau 2.4 - 5
Moyennes et cart-types des valeurs propres
et des indices d'agrgation.
1000 tables de contingences pseudo-alatoires (8,8).
Pour chaque table, k =1000.
IdentijiClltelir Moyenne Ecart
type
Valeurs propres
Ecart
type de la moyenne
VPl .02130

.00560 .ooC118
VP2 .01282

.00353 .00011
VP3 .oom .00234 .<XXXl7
VP4 .00442
.00156 .<XXJ05
VP5 .00214
.00100

.XXl3
VP6 .00070
.lXXJ5O

.<XXXl2
VP7 .00010

.00014 .00000
Indices des lignes (INLi) et des colonnes (INci)
!NU .01692' .00452' .00014
INl2 .01063' .00289' .00009
INl.3 .00733' .00197' .00006
INlA .00537' .00148' .<XXJ05
INl.5 .00391' .00117' .<XXXl4
IN1..6 .00280' .00090' .XXl3
INL7 .00183' .00074' .<XXXl2
INCl .01679
.00450 .00014
INa .01061

.00291 .00009
INO .00739

.00202

.00006
INC4 .00535

.00151 .<XXJ05
INC5 .00396

.00118

.<XXXl4
INC6 .00280

.00091

.XXl3
INCl .00182 .00075

.CXXXJ2
196 Quelques mthodes de classification _ Chapitre 2
Une exploration par simulation pourra cependant donner une ide des
liens stochastiques existant entre indices et valeurs propres.
Pour procder cette explora tion, des tables de contingence 8 lignes et 8
colonnes ont t simules sous l'hypothse d'indpendance selon un
schma de remplissage multinomial (les marges thoriques sont supposes
gales, l'effectif total de chaque table simule est k =1 000).
1 000 simulations ont t ralises, donnant lieu chacune une analyse des
correspondances, et deux classifications hirarchiques (selon le critre de la
variance) : une sur les lignes et une sur les colonnes.
Le tableau 2.4 - 5 donne les moyennes des 7 valeurs propres, des 7 indices-
lignes et des 7 indices colonnes, calcules sur 1 000 observations. Les indices
d'agrgation des lignes suivent videmment la mme loi que ceux des
colonnes, cette proprit permettant de vrifier la cohrence de la
simulation
1
.
-.- Valeur propre
--0-- Indice d'agrgation
5 6 7
Figure 2.4 - 5
Squences des valeurs propres et des indices
La figure 2.4 - 5, qui reprsente graphiquement les lments de la premire
colonne du tableau 2.4 - S, met en vidence l'intervalle de variation plus
rduit des indices dans l'hypothse d'indpendance des lignes et des
colonnes. Il est intressant de complter ces mesures de niveau par une
analyse des corrlations entre valeurs propres et indices.
La figure 2.4 - 6 prsente le diagramme de la distribution jointe de la
premire valeur propre "'1 = VP1 et du plus grand indice-ligne de
classification INLl, chacun des 1000 couples (VPl, INLl) correspondant une
mme matrice pseudo-alatoire.
1 Remarquons que ces rsultats sont cohrents avec le test usuel d'indpendance du X
2
(la somme t des diffrentes valeurs propres vaut 0.0492, le X
2
usuel moyen valant
1000xt = 49.2 pour 49 degrs de liberts. Les approximations connues de la loi des
valeurs propres (loi des valeurs propres d'une matrice de Wishart (7,7)) sont
galement vrifies ici (cf. 4.1.2).
2.4 _ Complmentarit entre analyse factorielle et classification 197
Le coefficient de corrlation
1
entre VP1 et INLl est de 0.91. La contrainte
thorique INL1< 1..1 dfinit de faon claire le demi-plan contenant le nuage
de 1000 points. On voit que les carts entre valeurs propres et indices
peuvent tre notables, ceux-ci pouvant parfois tre de 30% infrieurs
celles-l.
Plus grand indice d'agrgation INL1
.030 !
.025 ,
.020 !
......... **
.. 1<
. 015
.............. * ..
,. .
. 010 !
.005 ,
.000 !
.009 .018 .027 .036 .044
Plus grande valeur propre VP
1
Figure 2.4 - 6
Corrlation entre la plus grande valeur propre VP
1
et le plus grand indice d'agrgation 1NLl.
(Chacun des 1000 points correspond une matrice pseudo-alatoire (8,8))
L'tude du systme complexe des corrlations entre valeurs propres et
indices sera l'occasion de prsenter ci-dessous une application
mthodologique de l'analyse en composantes principales.
1 Le coefficient de corrlation entre VPl et INCl a la mme valeur.
198 Quelques mthodes de classification _ Chapitre 2
Les rsultats de cette exprience peuvent tre prsents dans un tableau X
ayant 1 000 lignes (les 1 000 tableaux simuls) et 21 colonnes (les 7 valeurs
propres et les 2 x7 = 14 indices d'agrgation).
On a choisi ici de procder une analyse en composantes principales avec
comme variables actives les 7 premires colonnes, les indices tant projets
en variables illustratives. On privilgie donc la structure des corrlations
interne l'ensemble des valeurs propres, et l'on situe ensuite les indices par
rapport cette structure.
La figure 2.4 - 7 reprsente le premier plan factoriel ainsi obtenu, qui
correspond environ 60% de la variance totale.
VPi Valeur propre i
INLi Indice-ligne i
INCi Indice-culunne i
Axe2
0.6 19%
0.40
0.20
o
LEGENDE
VP7
0.20
VP6
0.40
INCl
VPI
VP2
Axe 1
40%
C5
0.90
Figure 2.4 - 7
Structure des corrlations entre valeurs propres et indices
Plan Principal d'une analyse en composantes principales de la matrice (1000,7)
contenant les 1000 observations (en lignes) des 7 valeurs propres VP1, ... VP7.
Les 7 indices-ligne INU, ... INU et les 7 indices-colonnes INCl, ... INC7
sont projets en lments supplmentaires dans ce pm.
2.4 _ Complmentarit entre analyse factorielle et classification 199
Les principaux lments d'interprtation sont les suivants:
- On note tout d'abord que le premier facteur est un facteur de taille:
tous les points-variables sont situs dans le demi-plan des points dont
les coordonnes sont positives sur cet axe. Brivement, cela signifie
qu'il y a des tables pour lesquelles toutes les valeurs propres sont
grandes, et d'autres pour lesquelles elles sont toutes petites, et que ce
facteur d'chelle gnral est la principale source de variabilit
l
.
On note ensuite, en remarquant que les 7 valeurs propres forment une
trajectoire rgulire, qu'il existe une corrlation entre valeurs propres
conscutives: la premire valeur propre est plus lie la deuxime
qu' la troisime, etc. Inversement, les couples de valeurs propres de
rangs loigns (1,6), (1,7), (2,7) sont corrls ngativement.
Les indices lignes et coloIU1es, sensibles eux aussi l'effet-taille, ont des
trajectoires trs voisines, dont les positions et la forme font penser
celles des valeurs propres, avec cependant un dcalage trs net du ct
des plus grandes valeurs propres. Les premiers (plus grands) indices et
les premires valeurs propres sont donc fortement lis entre eux (on a
vu prcdemment que VPl et INU avait un coefficient de corrlation de
0.91), mais les derniers indices sont peu corrls avec les dernires
valeurs propres.
En fait, cette structure est en accord avec l'exprience des praticiens de ces
mthodes. Il existe trs souvent des relations entre les premiers facteurs et
les ultimes nuds du dendrogramme correspondant aux plus grandes
valeurs de l'indice.
En revanche, les premiers nuds du dendrogramme fournissent souvent
de prcieuses informations sur des groupements ou des structures locales
qui correspondent des facteurs de rangs moyens, mais non aux derniers
facteurs. Ceux-ci rendent plutt compte d'un bruit rarement identifiable.
2.4.4 La complmentarit en pratique: un exemple
Cet exemple d'enchanement rsume certaines tapes d'une application "en
vraie grandeur". Il est extrait de traitements de l'enqute sur les conditions
de vie et aspirations des Franais
2
L'objectif poursuivi ici est double: donner une description d'ensemble des
principales attitudes et opinions releves dans le systme d'enqutes
prcit; montrer dans quel cadre factuel s'inscrivent les attitudes et
opinions.
1 Ce premier facteur est videmment trs li la somme 1des valeurs propres, donc au
X
2
(ici X
2
=10001).
2 Cf. Lebart et Houzel (1981), Babeau et Lebart (1984), Lebart (1987 b) pour des
infonnations gnrales sur cette enqute.
200 Quelques mthodes de classificatioll _ Chapitre 2
Le fichier partiel correspondant cette application comprend 14 variables
nominales actives et en fait plusieurs centaines de variables nominales
supplmentaires. Les 14 000 individus correspondent 7 vagues de 2000
individus (de 1978 1984), chaque vague tant reprsentative de la
population de rsidants mtropolitains gs de 18 ans ou plus. Un des
intrts de cet exemple est que les structures observes pourront tre
valides par les chantillons indpendants annuels. Il s'agit d'une situation
exceptionnellement favorable pour prouver la stabilit des rsultats d'une
analyse exploratoire.
14 questions actives pour dcrire les perceptions des conditions de vie
et du cadre de vie (60 modalits)
Deux questions sur la perception de l'volution des conditions de vie
Trois questions sur le thme Famille
Trois questions sur l'environnement pllysique et technologique
Trois questions sur la sant et l'institution mdicale
Une question sur l'attitude vis--vis des quipements collectifs
Deux questions sur ln justice et ln socit
a - Les tapes
L'enchanement de mthodes dcrit ici est une formulation plus dtaille
de la procdure d'utilisation conjointe des mthodes factorielles et de la
classification expose au 2.4.1.b. Cette procdure est prsente du point de
vue du praticien.
- Etape 1 : Analyse factorielle
L'tape 1 (analyse factorielle), comprend les trois phases suivantes:
- Choix d'un thme actif
Choisir un thme, c'est--dire une batterie homogne de variables
actives, c'est adopter un point de vue particulier pour la description. On
peut dcrire les individus du point de vue de leurs caractristiques de
base, mais aussi partir d'un thme particulier de l'enqute par exemple
les habitudes de consommation, les dures d'activit (budgets-temps), les
contacts-mdias, les dplacements, etc. Ici, le thme choisi est: la
perception des conditions de vie et du cadre de vie (cf. encadr ci-dessus).
- Description graphique de la population
Les graphiques rsultant des analyses factorielles (ici: correspondances
multiples) fournissent une description de l'chantillon des individus
interrogs. La proximit entre individ us est fonction de la similitude des
rponses aux questions du thme actif.
- Positionnement des lments illustratifs sur les plans factoriels
On s'intresse aux questions ne faisant pas partie du thme actif pour
aider interprter les proximits entre individus. Lorsque la lecture des
rsultats est gne par l'abondance des lments illustratifs, les seuls
2.4 _ Complmelltarit elltre allalyse factorielle et classificatioll 201
lments pertinents pour l'interprtation seront slectionns par leurs
valeurs-test. Ceci permet d'envisager des explorations systmatiques,
avec de nombreux croisements de variables.
Comme au 2.4.1 b, les trois phases suivantes sont:
- Etape 2: Partition de l'ensemble des individus
- Etape 3: Descriptions statistiques du contenu de chaque classe
- Etape 4 : Positionnement des centres des classes en lments
supplmentaires dans les plans factoriels
Cet enchanement est souvent utilis sous le nom de thmascope. C'est
donc un outil qui permet de dcrire un thme (actif), multidimensionnel
par nature, en utilisant la conjonction des deux techniques disponibles
(rduction de dimension d'une part, regroupement d'autre part). Il situe
ensuite ce thme dans le contexte global de l'enqute, grce aux techniques
de projection de variables supplmentaires sur les plans factoriels et de
description automatique des classes. La slection automatique des lments
les plus significatifs sur les plans factoriels et lors de la description des
classes fournit au lecteur une information filtre et lisible.
b - L'espace des variables actives (Figure 2.4 - 8)
La figure 2.4 - 8 est l'esquisse du premier plan factoriel d'une analyse des
correspondances multiples du tableau (14 000, 60). Les 14 rponses aux
questions actives (60 modalits) rpartissent les individus interrogs de
faon continue dans l'espace. Il n'existe pas de regroupement trs net
d'individus dans ce continuum, mais il est toujours possible de le dcouper
en grandes zones de la faon la moins arbitraire possible; les cloisons
entoureront ainsi les rgions de forte densit et seront disposes de faon
ce que la dispersion des individus soit minimale l'intrieur des zones.
C'est l'arbre hirarchique de la figure 2.4 - 9 qui est schmatiquement trac
sur le plan factoriel (coupure correspondant 8 classes). Pour limiter le
nombre de graphiques, le rsultat de l'tape 4 figure d'emble sur la figure.
c - Exemples de description automatique de trois classes
On va maintenant illustrer la description automatique des classes (cf. 2.3.2)
en caractrisant de faon plus dtaille trois classes (ou zones) slectionnes
parmi les huit prcdentes. On distinguera successivement les opinions et
perceptions (lments actifs, et pour certains d'entre-eux, supplmentaires),
puis les caractristiques de base (lments toujours supplmentaires dans
cette analyse).
Chaque pourcentage interne la zone sera suivi, entre parenthses, du
pourcentage moyen dans l'ensemble de la population. Les valeurs-test (cf.
2.3.2.b) qui ont permis de slectionner et de classer ces variables
caractristiques sont des fonctions de l'cart entre ces deux pourcentages.
IV
o
IV
Figure 2.4 - 8: Visualisation plane de l'espace des opinions et positionnement des zones
On reprsente ici les proximits statistiques existant entre une trentaine de modalits de rponses aux questions actives
choisies parmi les plus caractristiques. Les centres des zones sont positionns comme des modalits supplmentaires,
Cadre de vie:
pas du tout
satisfaisant

La socit a besoin
de se transformer

Le mariage peut
tre dissout si.
accord FI
Conditions dans 5 ans:
beaucoup moins bien

Niveau de vie:
un peu moins bien
Cadre de vie:
peu satisfaisant
_---,ZONEI
itcouvertes scientifiques
amliorent.beaucoup la vie
N' d ' Les femm:s peuvent
/Veau e vie: travailler dans tous les
un peu mieux cas o elles le dsirent
Niveau de vie:
beaucoup mieux
Sant: F2
pas du lout
satisfait
Les
scientifiques
n'amliorent pas
du tout la vie
1
Conditions de vie
dans 5 ans:
un peu moins bien
1
La socit n'a pas besoin
de transformation
Sant:
Niveau de vie: assez salisfai
pareil
La justicefonctionne
trs bien
Les femmes ne devraient
pas travailler si elles ont
des enfants en ge
Prserver l'environnement:
1 pas du tout important
Les femmes ne devraient
jamais travailler ZONE 8
Mariage:
indissoluble

Prserver l'environnenlent:
assez important 1
1 Conditions de vie
dans 5ans: pareilles
2.4 _ Complmentarit entre analyse factorielle et classification 203
Zone 7: Modrs (+)>> (12 %)
Zone 1 : Modernistes (18 %)
Zone 2 : Insatisfaitsl Exclus (1 1 %)
Zone 3: Modrs (-)>> (16 %)
-
Zone 6: Conservateurs (13 %)
'----
1
Zone 4: Traditionalistes (15 %)
1
Zone 5 : Ne sait paS (8 %)
Zone 8: Nol/-panicipants (5 %)
Figure 2.4 - 9
Classification hirarchique des 14000 individus en 8 zones
Guide de lecture du dendrogramme :
L'algorithme de classification mixte de la section 2.3 permet de mettre en vidence huit
zones l, positionnes en lments supplmentaires sur le plan factoriel de la figure 2.4 - 8, et
comme lments terminaux du dendrogramme de la figure 2.4 - 9. Cette figure permet donc
de complter la figure 2.4 - 8 . Ainsi, contrairement ce que l'on observe sur la figure 2.4 - 8
qui ne donne qu'une approximation plane de l'espace, et donc qui dforme les distances, la
zone 2 est, d'aprs le dendrogramme, plus proche des zones 1 et 7 que de la zone 8.
Description de la zone 1 (Modernistes) [droite de la figure 2.4 - 8]
Cette zone stable reprsentant en moyenne 18% des personnes interroges
se distinguent par une certaine distance vis--vis de la famille
traditionnelle.
Variables actives
- 87% pensent que <<la famille n'est pas le seul endroit o l'on se sent bien et
dtendu (ce pourcentage n'est que de 35% pour l'ensemble de la population)
- 84% dclarent que le mariage est une union qui peut tre dissoute sur simple
accord (35%)
- 83% estiment que les femmes devraient travailler dans tous les cas o elles le
dsirent (37%)
- 86% jugent que prserver l'environnement est une chose trs importante (65%)
1 On parle de zones et non de classes ou de groupes pour rappeler qu'il s'agit de
portions d'espace et non d'entits sociologiques ou de catgories ayant une existence
indpendante de la batterie des questions actives utilises ici. Les libells de ces zones
sont purement mnmotechniques.
204 Quelques mthodes de classification _ Chapitre 2
Variables supplmentaires (signaltiqlle) : jeulles, llstruits, parisiens
- 52% n'ont jamais eu d'enfant (28%)
- 32% habitent la rgion parisienne (15%)
- 78% ont moins de 40 ans (47%)
- 67% sont des locataires (51%)
- 20% sont diplmes d'universit ou de grande cole (8%)
Autres variables supplmentaires: Spcificits de comportement
- 31% se couchent aprs 23 h (13%)
- 35% frquentent un cinma (17%)
- 57% participent aux activits d'au moins une association (44%)
Description de la zone 2 (Insatisfaits 1exclus) [haut de la figure 2.4 - 8]
Cette zone est probablement la seule mriter le statut de classe au sens
statistique du terme dans la mesure o elle rapparat chaque anne (de 1978
1985) avec un effectif remarquablement constant qui oscille entre 9% et
13%.
Opi/lions et perceptions: niveau et cadre de vie non satisfaisants
- 69% pensent que leur niveau de vie personnel va beaucoup moins bien,) (13%)
- 62% estiment que leurs conditions de vie vont beaucoup se dtriorer au
cours des cinq prochaines annes (12%)
- 61% considrent que <<la justice fonctionne trs mal (26%)
- 85% dclarent s'imposer rgulirement des restrictions (61%)
- 17% ne sont pas du tout satisfaits de leur cadre de vie quotidien (5%); 21%
en sont peu satisfaits (14%)
- 90% pensent que la socit a besoin de se transformer (74%)
Variables supplmentaires (signaltique) : des ressources faibles 1
- 38% souffrent d'un handicap, d'une infirmit ou d'une maladie chronique (26%)
- 38% n'ont aucun lment de patrimoine (27%)
- 15% sont chmeurs (en 1983 et 84) (6%)
- 53% sont locataires (44%)
- 22% habitent en HLM ou ILN (16%) 9% sont spars ou divorcs (5%)
Autres variables supplmelltaires :
- 55% ont dclar avoir souffert de nervosit au cours des quatre dernires
semaines (37%).
- 28% ont dit avoir souffert d'tat dpressif (15%),
- 38% d'<<nsornnie (25%),
- 49% de mal au dos (38%),
- 45% s'estiment beaucoup inquiets de l'ventualit du chmage (25%).
Description de la zone 5 (rponses "ne-sait-pas") [gauche de la figure 2.4 - 8]
Cette zone a priori peu intressante du point de vue des opinions exprimes
joue cependant un rle mthodologique important.
1 Cette zone n'a pas de caractristiques socio-dmographiques aussi types que la
zone 1. Elle constitue avant tout une classe de personnes aux ressources faibles, au
niveau de vie bas, qui subissent des tensions o font face des difficults varies. On
a affaire ici typiquement une classe polythtique'), c'est--dire une classe qui peut tre
dfinie non par une combinaison fixe d'attributs, mais par la possession d'un certain
nombre d'attributs dans une liste; il Ya dans ce cas cumul de handicaps d'origines
varies.
Rgion
parisienne

FI

Prof. libra les


Cad. sup.

Chmeurs

-1 quipement
,
1
1
1
n quipements
/
(Modrs +)
F2
+ 4 affecti ts
1
1
1
1
1
3
1
1
1
1
1
1
1
1
1
-
0/ -
(Conservateurs)
(Non-participants)

veufs(ves)

Retraits
De gauche droite, glissement
progressif des "traditionalistes"
vers les "modernistes";
et de bas en haut, des
"conservateurs" et "modr,
vers les "insatisfaits/exclus"
Figure 2.4 -10: Projection de quelques caractristiques (en supplmentaires) sur le plan principal de la figure 2.48.
IV
o
(JI
206 Quelques mthodes de classification _ Chapitre 2
Alors que les refus ou les dissimulations entachent la qualit des enqutes
socio-conomiques usuelles, les rponses du type ne sait pas viennent
s'ajouter aux dfections prcdentes dans le cas des mesures de perceptions
ou d'opinions.
Variables actives
- 65% rpondent NSP (pour ne sait pas) la question la socit a-t-elle
besoin de se transformer ? (9%)
- 53% rpondent NSP la question sur le fonctionnement de la justice (7%);
8% refusent de rpondre cette question (2%)
Variables supplmentaires (signaltique) : femmes ges peu instruites
- 67% sont des femmes (53%)
- 46% n'ont aucun diplme (26%)
- 43% habitent des communes de moins de 2 000 habitants (29%)
- 75% n'appartiennent aucune association (56% )1.
d - Projection de variables signaltiques (en supplmentaires)
sur le plan principal de la figure 2.4 - 8 (figure 2.4 - 10)
Les descriptions zones par zones donnent dj une ide de l'ancrage
factuel des perceptions, mais un positionnement direct des caractristiques
de base a le mrite de montrer quel point l'espace des perceptions est un
continuum 2. Les modalits des diffrentes variables s'ordonnent en effet
rgulirement dans le plan de la figure 2.4 - 10.
n n'y a pas de discontinuit entre les traditionalistes gs, ruraux, peu
instruits situs dans la partie ga uche de la figure 2.4 - 10 et les modernistes
jeunes, instruits, urbains, situs l'extrmit droite de l'axe horizontal.
n y a de mme une certaine continuit entre les conservateurs et les
modrs + d'ge moyen situs dans la partie basse de la figure 2.4 - 10 et
les insatisfaits dans la partie haute. Le nombre d'quipements et d'lments
de patrimoine jalonne rgulirement cette direction verticale, tout comme
le nombre d'affections dclares (petites affections au cours des quatre
dernires semaines), indicateur dont les liens avec l'insatisfaction sont
connus.
1 Le fait qu'il s'agisse surtout de femmes ges peu instruites habitant en milieu rural,
alors que les questions non rpondues sont peut-tre les plus politiques de ce
questionnaire (les transformations de la socit, la justice) confirme les rsultats de
travaux de mthodologie d'enqute (cf. par exemple Michelat et Simon, 1985).
2 L'tude complte comporte une description beaucoup plus dtaille de l'ensemble des
classes, une tude de l'volution des trajectoires des points-modalits et des classes
dans les plans factoriels au cours du temps, et l'utilisaion systmatique de croisements
de variables supplmentaires (cf. Lebart, 1986; 1988). La slection automatique des
catgories provenant de croisements de variables supplmentaires par leurs valeurs-
test (avec des seuils prenant en compte les comparaisons multiples) est un outil
efficace de dtection d'interactions.
Chapitre 3
LIENS AVEC LES
MTHODES EXPLICATIVES USUELLES,
MTHODES DRIVES
Introduction 209
Introduction
Ce chapitre fait le lien entre les approches exploratoires prsentes dans les
chapitres 1 et 2 et les approches infrentielles et confirmatoires qui
constituent le volet le plus ample et le plus classique de la science
statistique.
Rappelons brivement les caractristiques de ces deux familles de mthodes,
qui correspondent des approches complmentaires.
- La statistique descriptive et exploratoire: elle permet par des rsums et
des graphiques plus ou moins labors de dcrire des ensembles de dormes
statistiques, d'tablir des relations entre les variables sans faire jouer de rle
privilgi une variable particulire. Les conclusions ne portent dans cette
phase de travail que sur les donnes tudies, sans tre infres une
population plus large. L'analyse exploratoire s'appuie essentiellement sur
des notions lmentaires telles que des indicateurs de moyenne et de
dispersion, sur des reprsentations graphiques et sur les techniques
descriptives multidimensionnelles abordes dans la premire partie
(analyse en composantes principales, analyse des correspondances,
classification).
- La statistique infrentielle et confjrmatoire : elle permet de valider ou
d'infirmer, partir de tests statistiques ou de modles probabilistes, des
hypothses formules a priori (ou aprs une phase exploratoire), et
d'extrapoler, c'est--dire d'tendre certaines proprits d'un chantillon
une population plus large. Les conclusions obtenues partir des donnes
vont au del de ces donnes. La statistique confirmatoire fait surtout appel
aux mthodes dites explicatives
l
et prvisionnelles destines, comme leurs
noms l'indiquent, expliquer puis prvoir, suivant des rgles de dcision,
une variable privilgie l'aide d'une ou de plusieurs variables explicatives
(rgressions multiples et logistiques, analyse de la variance, analyse
discriminante, segmentation, etc.).
Les dmarches sont complmentaires, l'exploration et la description devant
en gnral prcder les phases explicatives et prdictives. En effet, une
exploration prliminaire est souvent utile pour avoir une premire ide de
la nature des liaisons entre variables, et pour traiter avec prudence les
variables corrles et donc redondantes qui risquent de charger inutilement
les modles.
1 La statistique n'explique rien mais fournit des lments potentiels d'explication.
Aussi le terme de variable explicative ou variable expliquer n'est sans doute pas le
plus judicieux. On dit aussi indpendante et dpendante, ou exogne et endogne. Ces
deux derniers termes sont peut tre les plus adquats mais ne sont pas assez
vocateurs. L'adjectif indpendant est, en revanche, source de confusions.
210 Mthodes explicatives ou drives _ Chapitre 3
Cependant, les dmarches elles-mmes ne sont pas toujours faciles
discerner, identifier. L'exploration pure est trs rare, et correspond une
situation limite et irraliste, un peu comme les gaz parfaits en physique...
car il existe toujours des informations et des connaissances a priori sur le
tableau de donnes, et donc des hypothses gnrales, des attentes de la part
de l'utilisateur 1.
D'o l'intrt d'claircir cette relation entre instruments d'observation et
modles, en insistant sur l'insertion, thorique et pratique, des outils
exploratoires dans l'arsenal des techniques statistiques disponibles.
Les mthodes explicatives usuelles
Les mthodes explicatives prsentes dans les sections 3.1 3.5 recouvrent
les utilisations les plus courantes. Elles comprennent l'analyse canonique, la
rgression linaire et ses variantes, l'analyse discriminante, les modles log-
linaires, les mthodes de segmentation par arbre binaire.
- Parce que l'analyse canonique joue un rle thorique important dans les
mthodes multidimensionnelles et permet de jeter un pont entre les
formalismes des mthodes explicatives et descriptives, nous commencerons
ce chapitre par exposer ses principes (section 3.1). On verra que l'analyse
canonique, qui tudie les liaisons entre deux groupes de variables, contient
comme cas particuliers la rgression multiple si l'un des deux groupes est
rduit une seule variable y numrique, l'analyse discriminante lorsque les
variables de l'un des deux groupes sont les variables indicatrices d'une
partition des individus (ce qui revient dire que la variable y est nominale),
enfin l'analyse des correspondances si les deux groupes sont constitus par
les variables indicatrices des deux partitions.
- La rgression multiple (section 3.2) se situe directement dans le cadre
thorique du modle linaire, lorsque la variable expliquer y est une
variable continue (ou numrique). Les variables explicatives sont
gnralement continues. Lorsque les variables explicatives sont toutes
nominales, on parle plutt d'analyse de la variance, alors qu'on rserve le
nom d'analyse de covariance au cas mixte (variables explicatives nominales
et continues).
- L'analyse factorielle discriminante (section 3.3) est, schmatiquement,
l'analogue de la rgression multiple lorsque yest nominale. Dans ce cas, la
variable expliquer dfinit les classes d'une partition a priori de la
population. L'objet est alors d'tudier les liaisons entre les variables
explicatives et les classes de cette partition. On dfinit ainsi des fonctions
discriminantes qui vont permettre, dans une phase dcisionnelle, d'affecter
1 Les instruments d'observation correspondent d'ailleurs eux-mmes des modles
gnraux: ainsi, les axes factoriels de l'analyse en composantes principales sont
proches de ceux de l'analyse factorielle classique des psychologues (cf. section 3.2.9)
qui reprsentent les variables latentes d'un modle a priori. Inversement, la rgression
multiple, mthode explicative par excellence, peut aussi tre utilise pour explorer des
structures de corrlation.
IlItroductioll 211
de nouveaux individus ces classes. D'autre mthodes de discrimination
sont brivement voques.
- Bien qu'extrieurs ce cadre formel gnral, les modles log-linaires
(section 3.4) sont utiliss dans des circonstances voisines. Ce sont des
techniques d'analyse des tableaux de contingence multidimensionnels qui
se rapprochent de la rgression multiple dans leur problmatique. Les
modles log-linaires peuvent d'ailleurs tre considrs comme une
extension du modle logistique galement abord dans cette section.
- Les techniques de segmentation par arbre binaire (section 3.5) sont
intressantes prsenter dans le cadre de ce chapitre pour diverses raisons.
D'une part, elles s'appliquent toutes les variables quel que soit leur statut
ou leur nature, et d'autre part elles intgrent simultanment la phase
explicative et de dcisionnelle. Elles constituent de ce fait une mthode de
prvision part entire, trs accessible, dont les rsultats sont faciles
communiquer.
Les analyses de donnes structures
Les sections 3.6 3.8 contiennent une srie de prsentations, souvent
brves, de mthodes qui occupent une position intermdiaire entre les
outils purement exploratoires des deux premiers chapitres et les mthodes
vocation plus explicative prsentes dans les sections prcdentes.
Les mthodes exploratoires de base posent un modle trs gnral qui
distingue, pour chaque application, deux familles d'lments: les lments
actifs (variables ou individus, ligne ou colonnes) qui servent tablir des
espaces de visualisation complts par des classifications, et les lments
supplmentaires, qui jouent un rle passif, et interviennent a posteriori
pour illustrer, identifier, caractriser les reprsentations obtenues partir
des lments actifs.
En gnral, le tableau des lments actifs est amorphe et homogne: il ne
doit pas exister de structure a priori (dpendance fonctionnelle, relations
comptables, etc.) entre les variables et les individus, et les distances entre
lments doivent avoir un sens pour l'utilisateur.
Or, il est frquent que le tableau des donnes actives soit dj structur.
C'est le cas par exemple des donnes gographiques ou temporelles o la
structure intervient au niveau des observations (individus voisins ou
conscutifs). Il peut exister des groupes d'individus ou des groupes de
variables connus a priori. Le tableau peut ne pas se ramener de faon
univoque la forme rectangulaire (tables de contingences multiples, sries
chronologiques de tableaux).
Il est souvent possible d'aborder ces problmes dans le cadre du modle
exploratoire de base, mais la tentation est forte, dans le cas o les
applications se prsentent de faon rptitive, de proposer des variantes
adaptes aux types de tableaux ou de structures rencontrs. Il reste que l'on
doit envisager une conomie de l'analyse des donnes, en ce sens que la
212 Mthodes explicatives ou drives _ Chapitre 3
panoplie des mthodes disponibles ne peut s'accrotre indfiniment, sous
peine de voir le rendement de ces mthodes dcrotre
l
.
A propos des mthodes de classification pour lesquelles il estime le nombre
de publications prs de mille par an, Cormack (1971) remarque que
"lorsque la technique (de classification) choue, la raction de l'auteur est de
modifier la technique, au lieu d'utiliser une technique plus standard ou de
remettre en question tout le traitement". Cette attitude comporte un certain
danger. Si la panoplie des techniques est trs tendue, le risque
d'adquation accidentelle de la technique aux donnes est augment. Ce
problme est rcurrent lorsqu'il s'agit d'articuler exploration et infrence, et
se rapproche du problme plus classique des comparaisons multiples, dj
voqu propos de la description des classes par les valeurs-test, et dont on
reparlera propos du modle log-linaire. Un dfi auquel est confronte la
statistique multidimensionnelle est prcisment la gestion de cette
diversification, ncessaire pour la recherche, mais source de difficults au
niveau des applications en vraie grandeur. Prcisons, dans ce contexte
mthodologique, quelles sont les mthodes d'analyses de donnes
structures qui feront l'objet des trois dernires sections de ce chapitre.
Les mthodes d'analyses partielles ou projetes (section 3.6) concernent les
situations pour lesquelles les individus ou observations (lignes d'un
tableau X d'ordre (n, p peuvent tre dcrits par p variables (colonnes de X)
mais peuvent aussi tre dpendants de q variables: colonnes d'un tableau Z
d'ordre (n, q) dont on dsirerait, dans la mesure du possible, soit prendre en
compte, soit liminer l'effet.
Les techniques d'analyses locales, mettant en jeu des structures de graphes
(section 3.7) sont appropries lorsqu'il existe des informations a priori ou
externes sur les couples d'individus ou d'observations (existence d'une
relation binaire symtrique ou structure de graphe non orient dcrivant
des proximits temporelles ou gographiques). Sera voqu ici le cas d'une
variable nominale externe (partition a priori des individus donnant lieu
des analyses dites intra et inter), qui entre la fois dans le cadre des sections
3.6 et 3.7.
Enfin les mthodes de traitement de tableaux multiples ou de groupes de
variables 2 (section 3.8), qui correspondent une famille quasi-illimite de
techniques, seront voques au travers d'une slection des approches qui
nous paraissent les plus utiles en pratique: analyse procrustenne, mthode
STATIS, analyse factorielle multiple, analyse canonique gnralise.
1 Faut-il, pour un utilisateur dont la recherche statistique n'est pas l'activit principale,
investir dans une mthode complexe qui ne servira qu'une fois? Vaut-il mieux utiliser
une mthode de description un peu grossire, mais parfaitement domine
conceptuellement, en raison d'expriences accumules, qu'une mthode plus subtile
dont les rsultats laissent perplexes? Le temps disponible, les possibilits de
formation, les budgets d'acquisition de logiciels ne sont pas des ressources
inpuisables.
2 Notons que la section 3.6 traite un cas particulier de tableaux multiples: le couple
(X, Z) est en effet un tableau avec deux groupes de variables.
Section 3.1
Analyse Canonique
La mthode d'analyse canonique dveloppe par Hotelling (1936) constitue
un cadre thorique gnral important dont la rgression multiple et
l'analyse discriminante, qui seront exposes plus loin, ainsi que l'analyse
des correspondances, sont des cas particuliers. Sous sa forme gnrale,
l'analyse canonique ne prsente cependant qu'un intrt assez limit pour
les applications, car elle conduit de grandes difficults d'interprtation.
L'analyse canonique cherche synthtiser les interrelations existant entre
deux groupes de variables, en mettant en vidence les combinaisons
linaires des variables du premier groupe les plus corrles des
combinaisons linaires des variables du second groupe.
3.1.1 Formulation du problme et notations
Le tableau de donnes R, n lignes et p+q colonnes, est partitionn en deux
sous-tableaux X et Y, ayant respectivement p et q colonnes.
R = [X,Y]
Les lignes reprsentent les individus ou observations: les p premires
colonnes sont les variables du premier groupe et les q suivantes sont celles
du second groupe.
Figure 3.1 - 1
Tableau des donnes R
Nous supposerons, sans perte de gnralit, que les variables sont centres,
ce qui signifie que chaque colonne de R est telle que la somme de ses
lments vaut O.
Alors la matrice des covariances exprimentales des p + q variables s'crit:
VeR) = .!R'R
n
214
Elle a pour terme gnral:
Mthodes explicatives ou drives _ Chapitre 3
1
vjj' == - l rij'ij'
n .
1
soit, en faisant apparatre les blocs:
1 [X'X X'Y]
V(R) ==;; Y'X Y'Y
Considrons l'individu i, caractris par la iime ligne de R :
(Xi1, xi2, .,xip, Yil, Yi2,, Yip)
Soient a et b deux vecteurs p et q composantes, dfinissant deux
combinaisons linaires am et hm :
p q
a(i) == IajXij bm == IbjYij .
j=l j=l
Les n valeurs de am pour tous les individus i sont les composantes de Xa.
De mme, les n valeurs de bm sont les composantes de Yb. Les vecteurs Xa
et Yb reprsentent aussi deux points de Rn appartenant aux sous-espaces V
x
et V
y
engendrs par les colonnes de X et Y.
X a
(n,p) (p,l)
Y b
(n,q) (q,l)
Figure 3.1 - 2
Variables canoniques a(i) et b(i)
Nous nous proposons de chercher les deux combinaisons linaires a(i) et
bm les plus corrles sur l'ensemble des valeurs de i. Puisque les variables
initiales sont centres, leurs combinaisons linaires sont galement
centres.
Comme le coefficient de corrlation ne dpend pas de l'chelle des variables,
nous imposerons aux deux combinaisons linaires d'avoir une variance
unit. La variance de l'ensemble des valeurs de a(i) pour i == 1, 2, ... , n sera
note var(a); elle s'crit:
1 n 2 1 1
var(a) == - Ia (i) ==-(Xa)'Xa == -a'X'Xa
ni=l n n
de la mme faon:
var(b) == l- b'Y'Yb
n
3.1 _ Analyse canonique 215
Dans ces conditions, le coefficient de corrlation entre les combinaisons
linaires a(i) et bW s'identifie avec la covariance:
cov(a, b) =..!. a(i)b(i)
n ;=1
soit:
1
cov(a, b) = -a'X'Yb
n
Figure 3.1 - 3
Reprsentation gomtrique des sous-espaces V
x
et Vy
Finalement le problme de la recherche de la corrlation maximale s'crira,
aprs s'tre affranchi des coefficients.! (rappelons que Xet Y sont centrs):
n
- trouver a et b qui rendent maximal: a'X'Yb
{
a'X'xa = 1
- avec les contraintes:
b'Y'Yb=l
Les donnes tant centres, le coefficient de corrlation n'est autre que le
cosinus de l'angle entre les sous-espaces Vx et Vy. La recherche des
coefficients a et b revient donc minimiser l'angle m entre les sous-espaces
V
x
et Vy.
On appellera variables canoniques le couple (a,b) ayant respectivement pet q
composantes.
3.1.2 Les variables canoniques
a - Calcul des variables canoniques
La dmonstration est analogue celle rencontre lors de l'analyse gnrale
( 1.1.7). Deux multiplicateurs de Lagrange . et J1 interviennent. Il faut
rendre maximal:
L =a'X'Yb - .(a'X'Xa -1) - J1(b'Y'Yb -1)
216 Mthodes explicatives ou drives _ Chapitre 3
L'annulation des drives de ce lagrangien par rapport aux vecteurs a et b
conduit au systme:
{
X'Y b - 2it X'Xa = 0
Y'X a - 2J1 Y'Yb = 0
Prmultiplions les membres de ces deux relations respectivement par a' et
b'. En tenant compte des contraintes:
a'X'Xa = b'Y'Yb = 1
Elles se simplifient en :
{
a'X'Yb = 2il.
b'Y'Xa =2J1
Par consquent il. = J1. Nous poserons dornavant:
On remarquera que f3 est la valeur du coefficient de corrlation maximal
recherch. Le systme prcdent s'crit alors:
{
X'Yb = f3X'Xa
Y'Xa ={3Y'Yb
[3.1-1]
[3.1-2]
La rsolution est immdiate quand les matrices X'X et Y'Y sont inversibles.
En reportant la valeur de a tire de [3.1 - 1] dans la relation [3.1 - 2] par
exemple, on obtient:
Y'X(X'Xr
1
X'Yb =f32 Y'Yb
Ceci montre que b est vecteur propre de la matrice:
[3.1-3]
relatif la plus grande valeur propre note f32, carr du coefficient de
corrlation entre les combinaisons linaires a et b et carr du cosinus
maximum entre les sous-espaces V
x
et Vy. Cette valeur f32 est la premire
racine canonique, ou carr du premier coefficient de corrlation canonique
entre les deux variables.
De faon analogue, on calcule a partir de la relation [3.1 - 1] ou en
considrant directement a comme vecteur propre de :
N =(X'X)-l
X
'Y(Y'yr
1
y'X
[3.1- 4]
Si X est de plein rang, alors X'X est inversible et la relation [3.1 -1] permet
d'crire:
a =.!..(X'Xr1X'Yb
f3
Un raisonnement analogue celui fait lors de l'analyse gnrale nous
permettrait de gnraliser le rsultat la recherche des r variables
3.1 _ Analyse canonique 217
canoniques, r tant le plus petit des deux entiers pet q : les r vecteurs
propres successifs, dans l'ordre des valeurs propres dcroissantes,
correspondent aux couples de combinaisons linaires de chaque ensemble
les plus corrles entre elles, les combinaisons linaires successives relatives
un mme ensemble tant assujetties tre non corrles.
b - Interprtation gomtrique
Les relations [3.1 - 1] et [3.1 - 2] peuvent s'crire:
a = !...(X'X)-l
X
'Yb et b = !...(y'y)-lY'Xa
f3 ' f3
Prmultipliant les deux membres de chacune d'elles respectivement par X
et Y on obtient:
Xa = !...X(X'X)-IX'Yb
f3
Yb =!... Y(Y'y)-IY'Xa
f3
Figure 3.1 - 4
Interprtation gomtrique de l'analyse canonique
Les matrices symtriques et idempotentes:
[3.1- 5]
[3.1- 6]
et
P
y
= Y(Y'y)-ly'
sont les oprateurs de projection orthogonale respectivement sur les sous-
espaces V
x
et Vy.
Autrement dit les relations [3.1 - 5] et [3.1 - 6] expriment que chacun des
vecteurs Xa et Yb est colinaire la projection de l'autre.
Les vecteurs Xa et Yb tant unitaires, les formules montrent en effet que:
f3 = cos( co) = cos ( Xa , Yb)
218 Mthodes explicatives ou drives _ Chapitre 3
Il apparat que la premire racine canonique {32 est le carr du cosinus du
plus petit angle
1
entre les sous-espaces Vx et Vy.
c - Cas de matrices non inversibles
Examinons le cas o les matrices X'X ou Y'Y sont singulires. Prenons Y'Y
pour fixer les ides. Cela signifie que la matrice Y d'ordre (n, q) a un rang
infrieur q; soit q - s son rang.
Il y a deux faons de procder pour rsoudre le systme des quations
matricielles [3.1 - 1] et [3.1 - 2] ;
- on prend dans Rn une base du sous-espace Vy q - s dimensions
engendre par Y, base dcrite par les q- 5 colonnes d'une matrice
2
Y; Yb
on substitue dans les calculs Yb o b est un vecteur q - 5 composantes.
La matrice Y'Y est maintenant inversible.
- Comme cela est frquent dans le cas du modle linaire gnral, on
construit une matrice Y
o
de plein rang d'ordre (n, q), telle que Vy c VYo'
Pour retrouver le sous-espace Vy, il est alors ncessaire d'imposer b
une contrainte, savoir; Yob devra appartenir Vy. Si Y1 dsigne une
matrice d'ordre (n,s), telle que Y1Y =0 et que Y1b E VYw la contrainte sur
b s'crira:
Remarque:
Cette situation se prsentera galement en analyse discriminante dans un contexte
simple: la matrice Y d'ordre (n, qJ est singulire, alors que la matrice initiale Y
o
(avant centrage) est de plein rang. Ceci rsulte du fait que le sous-espace VYa
engendre par Y
a
contient le vecteur en de R." dont toutes les composantes valent l.
On travaillera alors avec la matrice Y
a
sachant que b est assujetti vrifier:
Yob = 0
relation qui s'crit:
q
"y .b. =0
"-' .) )
j=1
0J.j dsignant la somme de la cololU1e j de la matrice Y
a
).
1 Notons que ces considrations gomtriques nous auraient permis d'crire directement
les formules [3.1 - 5] et [3.1 - 6), et donc de procder au calcul des variables
canoniques: on remplace, par exemple dans la relation [3.1 - 6], Xa par sa valeur tire
de la relation [3.1 - 5].
2On choisira de prfrence une base orthogonale, obtenue, par exemple, par le procd
d'orthogonalisation de Gram-Sdunidt, ou une base issue d'une analyse gnrale de Y.
3.1 _ Allalyse callollique
3.1.3 Liens avec l'analyse des correspondances
219
L'analyse canonique contient comme cas particulier l'analyse des
correspondances et peut se gnraliser au cas de plus de deux variables
nominales.
En reprenant les notations de l'analyse des correspondances multiples
(section 1.4), le tableau de donnes R=[ZI, ... ,Zq,""Zs] n lignes et P
colonnes est le tableau disjonctif complet juxtaposant 5 sous-tableaux.
Chaque sous-tableau Zq correspond une question q totalisant Pq modalits
de rponses et engendre, dans l'espace RP, un sous-espace VZ
q
Pq
dimensions
1
.
a - Le cas de l'analyse des correspondances simples
L'analyse des correspondances du tableau de contingence croisant deux
variables qet q' revient tudier les positions relatives des sous-espaces V
Zq
et Vz
q
,. C'est l'analyse canonique du tableau [Zq,Zq').
Soit <Pq le vecteur dont les Pq composantes sont les coordonnes d'un point
mq de VZq dans la base dfinie par les colonnes de Zq. Les coordonnes de
mq dans !Rn sont les composantes de m
q
= Zq <Pq.
Le carr de la distance de ce point mq l'origine, selon la norme euclidienne
usuelle, n'est autre que:
<PqZqZq<Pq = <Pq Dq<pq
Les relations de double transition [1.4 - 7] et [1.4 - 8] s'crivent ici (en
omettant l'indice Cl de l'axe pour allger les notations) :
On en dduit le systme suivant:
j
Zq<pq =
Zq'<Pq' =
soit:
1 Rappelons que les s sous-espaces ont en commun au moins la premire bissectrice. Le
rang de R est donc au plus gal P- s + 1.
220 Mthodes explicatives ou drives _ Chapitre 3
o:
1
mg = -ti: Pgm
g
,
1
mg' = -ti: Pg,m
g
[3.1-7]
[3.1 - 8]
P = Z (Z' Z rI Z'
g g g g g
et
Les matrices Pg et Pg' reprsentent respectivement les oprateurs projection
sur les sous-espaces V
Zg
et VZq' .
Les relations [3.1 - 7] et [3.1 - 8] expriment que la projection orthogonale de
mg sur V
Zg
' est colinaire mg' (et semblablement pour mg' sur VZ
g
)'
Prsente comme la recherche des plus petits angles entre deux sous-espaces
VZg et VZg" l'analyse canonique ne se gnralise pas facilement a u cas de
plus de deux questions!.
Figure 3.1 - 2
Projections sur Vz.q et V
Zq
'
Mais une autre formulation va permettre de prsenter l'analyse des
correspondances multiples comme une analyse canonique gnralise
particulire.
b - L'analyse des correspondances multiples
L'analyse canonique du tableau [Zg ,Zg'] peut aussi se formuler de la faon
suivante:
! On reviendra sur ce lien entre analyse de correspondances et analyse canonique au
paragraphe 3.3.4.b, propos de l'analyse factorielle discriminante, qui est elle aussi
une analyse canonique particulire.
3.1 _ Allalyse canonique
trouver deux points m
q
et mq' tels que la somme des carrs de
leurs distances l'origine soit constante:
~ p q q +cpq,Dq,cpq' =2n [3.1- 9]
et tels que la distance l'origine du point m = m q + m q' soit
maximale.
En effet, cette distance a pour carr:
soit:
221
Iimf = 2n(1 + lcp
q
Z
q
Zq'cPq')
n
Rendre maximale Iimf avec la contrainte [3.1 - 9], ou avec les deux
contraintes:
conduit au mme rsultat).
Avec la contrainte unique [3.1 - 9], le problme se gnralise aisment au cas
de plus de deux questions.
On dsigne par CPI, ... , CPq, , CPs respectivement les vecteurs des composantes
de 5 points ml, ... , mq, , ms dans les bases ZL ... , Zq, ... , Zs et soit
m = ml + mq + ms'
On cherchera rendre maximale la quantit:
Iimf = L L CPq ZqZq' CPq'
qES q'ES
avec la contrainte:
L cpqDqcpq = sn
qES
Si <1> dsigne le vecteur p composanteJ dfini par:
ifoJ {' , '}
'V = CPI, ... ,CPq'''''CPs
le problme revient rendre maximal:
<1>' B cI>
avec la contrainte:
<1>' 0 <1> =s n
o l'on rappelle que B est le tableau de contingence de Burt obtenu partir
du tableau disjonctif complet.
l En effet, les multiplicateurs de Lagrange relatifs ces deux dernires contraintes sont
gaux.
222 Mthodes explicatives ou drives _ Chapitre 3
Les facteurs <Il cherchs sont donc les vecteurs propres de 0-l B relatifs aux
plus grandes valelUs propres.
Il s'agit d'une gnralisation simple de l'analyse canonique au cas de plus de
deux ensembles: elle conduit une diagonalisation de matrice symtrique,
opration classique et matrise!.
Les autres mthodes (introduction de s contraintes au lieu d'une seule)
demandent des algorithmes itratifs assez coteux et ne conduisent pas
des rgles d'interprtation simples.
! Cette extension de l'analyse canonique sera prsente nouveau dans un cadre plus
gnral au paragraphe 3.8.5.
Section 3,2
Rgression multiple, modle linaire
La rgression multiple vise expliquer ou prdire une variable continue
(dite variable dpendante ou expliquer ou encore endogne) l'aide d'un
ensemble de variables dites explicatives (ou exognes). On rserve en
gnral le nom de rgression multiple au cas o les variables explicatives
sont continues. Lorsque celles-ci sont des variables nominales, on parle
d'analyse de la variance et pour un ensemble de variables mixtes, d'analyse
de la covariance. La thorie statistique qui englobe ces diverses techniques
constitue le modle linaire.
La rgression constitue sans doute la mthode statistique la plus utilise
bien que sa porte et ses limites ne soient pas toujours bien connues. De ce
fait, elle n'est pas toujours pratique bon escient. La littrature sur la
rgression et le modle linaire est extrmement abondante. C'est en
conomtrie, champ d'application privilgi du modle linaire, que l'on
trouve les premiers manuels gnraux en langue franaise exposant les
mthodes et les principaux types de rsultats (Malinvaud, 1964; Fourgeaud
et al., 1978). On citera galement l'ouvrage de Tomassone et al. (1983),
expos complet, simple et oprationnel sur tous les aspects de la rgression.
Pour un expos plus concis, on renverra Saporta (1990). Mais ces quelques
titres
1
ne sauraient rendre justice de la profusion des excellents manuels sur
ce sujet.
3.2.1 Fonnulation du problme: le modle linaire
On dispose d'un ensemble de n observations sur lesquelles ont t
effectues p+I mesures des variables y, Xl, x2, ... , X
p
. On veut expliquer ou
prvoir y l'aide des variables explicatives ou prdicteurs, Xl, x2, ... , xp,
lesquels sont supposs connus sans erreur.
1 La littrature en anglais sur le modle linaire est particulirement vaste: on trouvera
une bibliographie commente (dj ancienne) de plusieurs centaines d'articles et
ouvrages dans Harter (1974 -1975). Searle (1971) et Seber (1977) traitent de faon
extensive les problmes d'analyse de la variance et de covariance; Theil (1971) situe le
modle linaire dans un cadre conomtrique gnral; l'ouvrage de Rao (1973),
rdition d'un manuel classique, est consacr l'opration d'induction statistique sur le
modle linaire. Un autre manuel classique est l'ouvrage de Draper et Smith (1981).
Mosteller et Tukey (1977), Besley et al (1980), Atkinson (1985) prsentent des points
de vue un peu plus modernes, incluant diverses mthodes de slection de variables,
alors que Chatterjee et Priee (1991) insistent sur la mise en oeuvre pratique.
224 Mthodes explicatives ou drives _ Chapitre 3
Supposons par exemple qu'une personne dsire acqurir un magasin ayant
une surface S dans une zone o la population environnante est P. Des
tudes antrieures montrent que le chiffre d'affaires d'un magasin dpend
linairement de la surface et de la population, et les donnes relatives 30
magasins du mme type sont disponibles. Quel chiffre d'affaires peut
esprer l'acheteur? Le chiffre d'affaires est la variable prvoir et les
variables explicatives ou prdicteurs sont la population et la surface. Ce type
de problme trouve une solution dans le cadre de la rgression, technique
de prvision linaire, qui consiste tout d'abord procder une estimation
d'un modle, puis utiliser le modle estim pour le calcul de la valeur
attendue.
Xl ... xp
Figure 3.2 - 1
Prvision linaire
On cherche approcher y par une combinaison linaire des variables
explicatives Xl, x2, ... , Xp. Pour cela, on pose le modle
l
:
Yi =ao + al Xil + a2 Xi2 +... + apXip + i
o ao, al , a2 , ... , ap sont les coefficients inconnus du modle. Le terme
constant ao peut tre considr comme coefficient d'une variable explicative
particulire artificielle Xo dont les valeurs Xio seraient toujours gales 1. i
est le rsidu reprsentant l'cart entre la valeur observe Yi et la partie
"explique" de l'observation (ao + al xil + a2 xi2 +... + a
p
Xip)'
On suppose dans la plupart des spcifications du modle que tous les
rsidus Si sont des quantits alatoires indpendantes.
Ce modle s'exprime sous forme matricielle:
y = X a + E
(n,]) (n,p+l)(p+l,1) O,n)
1 La linarit des relations par rapport aux coefficients aO,al ,al, ... ,a
p
peut
n'apparatre qu'aprs transformations des donnes. Par exemple:
y = a 3 x ~ X ~ (J + t')
deviendra linaire aprs la transformation logarithmique:
log(y) =allog(xj)+ a2Iog(X2) + log( (3)+ logO + t')
3.2 _ Rgression multiple, modle lilUJaire 225
y
1=
x
1 1
1 1
1
1
:XiI ... x ip
1
1
1 1
Figure 3.2 - 2
Schmatisation du modle linaire
On dispose, pour valuer les coefficients inconnus du modle, d'un systme
de n quations linaires ayant n + p + 1 inconnues. Le systme admet donc
une infinit de solutions.
Soient ao, al, a2 , ... , a
p
les coefficients correspondant une des solutions
possibles. On cherchera la solution qui minimise globalement, suivant un
critre dfinir, l'ensemble des carts la linarit, c'est--dire:
{
choisir (ao,a!,a2, ... ,ap) qui minimisent l'ensemble des ej
avec ei = Yi -(av + al
x
il +a2
x
i2+... +
a
p
x
ip)
Parmi les critres possibles de minimisation, citons la mthode des
moindres carrs min(Ler) (norme dite "L
z
") celle des moindres valeurs
absolues (norme dite "LI") , celle du minimax min{max ei)
(i)
(norme dite "Lc",")l. Le critre des moindres carrs s'avre conduire des
calculs algbriques simples, se prter une interprtation gomtrique
claire, et donner lieu des interprtations statistiques intressantes
z
.
3.2.2 Ajustement par la mthode des moindres-carrs
On appelle ajustement du modle linaire toute solution du systme
d'quations:
Yi = aO + al XiI + a2 Xi2 +... + a
p
Xip + ei
ce qui correspond sous forme matricielle :
y = X a + e
(n,1) (n,p+1)(p+1,1) (1,n)
(i = 1,2,..., n)
1 Plus gnralement, la norme Lk correspond au critre min(Ile/)
2 La norme Lit qui privilgie moins les carts importants, est la base de mthodes de
rgression plus robustes (cf. Huber, 1981; 1987). Sur le rle de cette norme en analyse
descriptive des donnes, cf. Fichet (1987), et Le Calv (1987). L'utilisation de la norme
LI dans le cas de la regression linaire remonte Laplace (1793). Une tude historique
de l'utilisation des normes LI et Loo a t ralise par Farebrother (1987).
226 Mthodes explicatives ou drives _ Chapi tre 3
Pour la i
me
observation, la valeur prdite par le modle est:
f/i = ao +alxil + a2
x
i2+ .+apxip
le rsidu du modle correspondant vaut donc! :
ei = Yi -Yi
D'une manire gnrale, on cherche y le plus proche possible de y :
y =Xa =aOxo +alxl +a2x2+" .+apx
p
L'ajustement par la mthode des moindres carrs est celui qui fournit les
coefficients aO, al ' a2 ,,,., a
p
conduisant au minimum de la somme des
carrs des carts:
min('LerJ
Dans la suite, nous allons supposer que les variables sont centres, ce qui
implique ao = O. Une des proprits de la rgression multiple est que les
estimations des coefficients autres que aO sont les mmes, que les variables
soient centres a priori ou pas.
a - Calcul et proprits de l'ajustement des moindres-carrs
Il s'agit de dterminer le vecteur a des coefficients qui minimise:
e'e = 'Ler = Ily _yl12
Le vecteur de coefficients a doit vrifier la condition d'extremum
2
:
X'Xa =X'y [3.2 - 1]
qui est un systme de p quations p inconnues.
Si n est suprieur ou gal p (plus d'quations que d'inconnues) et si X est
de plein rang (c'est--dire de rang p), alors X'X est inversible.
On tire de la relation [3.2 - 1] la solution:
[3.2 - 2]
1 Le vocablaire et les notations distinguent les rsidus dfinis par le modle thorique
Ej =Yi - L<XkXjk et les carts dfinis par un ajustement ei =Yi - Lakxik
k k
2 La quantit scalaire e'e tant une fonction des inconnues (al, a2,"" ap), une
condition ncessaire d'extremum est l'annulation des drives partielles premires,
soit :
d
-(e'e) = 0
da (p,!)
on a : e'e = (y - Xa)'(y- Xa) = y'y - 2a'X'y + a'X'Xa
d
d'o: -(e'e)=-2X'y+2X'Xa
da
on en tire la condition d'extremum: X'Xa = X'y
3.2 _ Rgression multiple, modle linaire
Le vecteur a est le vecteur des coefficients de rgression multiple
l
.
Il reste vrifier que l'extremum atteint par e'e est bien un minimum.
Soit ii une autre solution et le vecteur correspondant des carts:
= y - Xii =(y - Xa) +(Xa - Xii) = e + X(a - a)
et
227
' = e' e + 2(a - a)X'(y - Xa) + (a - a)'X'X(a - a)
Dans le membre de droite, le terme central est nul d'aprs [3.2 - 1]; il reste
donc:
,
' = e'e + (X(a - a) (X(a - a)
Il est clair que le dernier terme est une somme de carrs et ne peut tre que
positif ou nul. Par consquent e'e est bien la plus petite somme de carrs
d'carts.
b - Approche gomtrique dans IRn
Les proprits algbriques de l'ajustement vont nous permettre
d'interprter gomtriquement l'opration effectue.
Plaons-nous dans l'espace IR n o n est le nombre des observations
effectues sur p+l variables: y, Xl, x2, ... , xp.
La recherche de y comme combinaison linaire des Xl, X2, ... , x
p
revient
dfinir y dans le sous-espace engendr par les variables explicatives V
x
. La
technique d'ajustement des moindres-carrs consiste alors approcher y par
sa projection orthogonale y sur le sous-espace V
x
.
o
Figure 3.2 - 3
Projection de y sur V
x
/
En remplaant a par sa valeur obtenue dans [3.2 - 2], on obtient:
y=Xa =X(X'XrIX'y =pxY
l La rgression simple correspond au modle y = ax + E (une seule variable explicative,
y et X centrs). La formule [3.2 - 2] devient a =x'y/x'x ou a = cov(x,y)/var(x).
228 Mthodes explicatives ou drives _ Chapitre 3
avec:
Px =X(X'Xf
1
X'
[3.2 - 3]
o la matrice Px dsigne l'oprateur de projection orthogonale
1
sur V X.
Comme le montre la figure 3.2 - 3, le modle thorique y =Xa+ E dfinit une
dcomposition de y en deux termes incoIU\us, l'un Xa dans Vx et l'autre E
dans Rn. La technique des moindres-carrs propose pour solution la
dcomposition y = Xa+ e qui minimise la "longueur" de e en projetant
orthogonalement yen Xa sur V
x
et E en e sur le sous-espace orthogonal
V
x
dans Rn. Les deux vecteurs Xa et e sont orthogonaux.
c - Le coefficient de corrlation multiple
Remarquons que les variables tant centres, les longueurs dans l'espace Rn
s'interprtent en termes de variances. Le thorme de Pythagore appliqu
au triangle rectangle de la figure 3.2 - 3 dont les cts sont e et Xa et
l'hypotnuse y, peut s'crire:
y'y =e'e + a'X'Xa
En divisant par n chacun de ces termes, on obtient la relation:
2'L/Yi)2 =1- 'L,(Yi _9)2 +2-I,(yl
n n n
variance variance varmce
totale rsiduelle explique
Afin d'avoir une ide globale de la qualit de l'ajustement, on dfinit le
coefficient de corrlation multiple R comme le cosinus de l'angle .l entre y
et Xa qui n'est autre que le coefficient de corrlation entre les valeurs
initiales et les valeurs ajustes:
R =cor(y,y) = cor(y,Xa).
Son carr peut s'exprimer sous diffrentes formes:
R
2
= cov2(y,y) = varey) = L(Yi)2 = variance explique.
var(y)var(y) varey) L(Yi)2 variance totale
De faon explicite en fonction des donnes initiales Xet y, R
2
s'crit:
R
2
= a 'x'x a == y'X(X'X)-lX'y
y'y y'y
Ce coefficient dcrit donc le partage de la variance totale en variance
"explique" et "rsiduelle" :
1 Cet oprateur, symtrique et idempotent, a dj t rencontr propos de l'analyse
canonique (cf. 3.1.2.b).
3.2 _ Rgression multiple, modle linaire 229
varey) =varey) + var(e)
R
2
var(y) =varey)
(1- R
2
)var(y) = var(e)
variance totale
{
variance explique
variance rsiduelle
Ainsi, en minimisant 'LeT, on maximise R
2
. En d'autres termes,
l'ajustement des moindres-carrs dtermine la combinaison linaire des
variables explicatives ayant une corrlation maximale
l
avec la variable
expliquer y.
3.2.3 Lien avec l'analyse canonique
La rgression multiple est un cas particulier de l'analyse canonique quand la
matrice Y n'a qu'une colonne y (q = 1), et donc le sous-espace Vy est rduit
une droite. La variable canonique b n'a alors qu'une composante note b. Le
produit y'y tant maintenant un scalaire, la relation [3.1-3] (cf. 3.1.2.a)
devient:
{32 = y'X(X'X)-lX'y
y'y
L'unique racine canonique {32 est le carr du coefficient de corrlation
multiple entre la colonne y et les colonnes de X c'est--dire entre la variable
expliquer et les variables explicatives.
Compte tenu de la relation [3.1-1], la variable canonique a s'crit:
a = ~ X X ) - l X'y
{3
b
Cette relation montre que le vecteur a est proportionnel (au coefficient {3
prs) au vecteur des coefficients de la rgression multiple expliquant la
variable y par les p variables colonnes de X.
Le coefficient *est d'ailleurs facile calculer puisque, d'aprs la contrainte
de normalisation, b =.v l, .
yy
1 On remarquera par ailleurs que l'introduction dans le modle d'une nouvelle variable
explicative quelconque ne peut que diminuer la somme des carrs des carts et par
consquent augmenter R. En ajoutant en effet une dimension V
x
, on ne peut que
diminuer la distance de y ce sous-espace. Dans ces conditions, la valeur prise par R
ne peut tre un critre absolu pour apprcier la qualit de l'ajustement.
230 Mthodes explicatives ou drives _ Chapitre 3
3.2.4 Qualit de l'ajustement
Jusqu' prsent, on s'est born rsoudre un problme purement
numrique d'ajustement, avec une mesure globale de qualit fournie par le
coefficient de corrlation multiple. Il s'agit maintenant de tester la qualit de
cet ajustement et la signification statistique des coefficients de rgression, ce
qui ncessite de faire des hypothses sur y et E.
a - Spcification du modle
On suppose que le rsidu Ei est l'effet rsultant d'un grand nombre de causes
non identifies, et ce titre, on le considrera comme une perturbation
alatoire. Ce point de vue tendu aux n relations du modle introduit un
vecteur alatoire de rsidus E (ayant n composantes) et, par _cet
intermdiaire, dfinit y = Xa+ E comme vecteur alatoire.
Le tablea u 3.2 - 1 rsume les caractristiques des diffren ts lments du
modle:
Tableau 3.2 - 1
Caractristiques des lments du modle
y = Xa+ E
Observ Non observable
Alatoire
y E
( n,1) (n,1)
Non alatoire
X a
(n,p) (p,1)
On supposera que les rsidus Ej ont une esprance nulle, qu'ils ont tous
mme variance a
2
et sont deux deux non corrls:
[3.2 -4]
Var(E) = E(EE') = a
2
r
(n,n)
et E(E) = 0
(1,n)
ce qui implique les relations:
E(y) = Xa et Varey) =Var(E) = a
2
r
(1,n) (n,n)
Sous ces hypothses, les coefficients de rgression ak, (k=l, ... ,p), fournis pas
la technique des moindres-carrs sont les meilleurs estimateurs] des
coefficients inconnus ak.
1 Il s'agit plus prcisment d'estimateurs variance minimale sur l'ensemble des
estimateurs linaires, cette proprit tant connue sous le nom de thorme de Gauss-
Markov. On renvoie aux ouvrages cits au dbut de ce chapitre pour plus de dtails
sur ce thorme et ses gnralisations.
3.2 _ Rgressioll multiple, modle linaire 231
b - Moyenne et variance des coefficients
Le vecteur a = (X'X)-l X'y des coefficients de rgression tant une fonction
de y, est lui mme un vecteur alatoire. La formule [3.2 - 4] nous montre
immdiatement que son esprance mathmatique s'crit: E(a) = n.
Un calcul lmentaire! montre que la matrice des covariances des
coefficients s'crit:
Notons que 0'2 est la variance thorique des rsidus et n'est donc pas
connue. On peut estimer 0'2 par $2, la variance empirique des carts calculs
aprs l'ajustement.
Si l'on dsigne par V la matrice des covariances empiriques des variables
explicatives supposes centres (V =1X'X), on a la relation:
n
2
V(a) = :!-V-
1
n
On remarque la dualit qui existe entre les variables explicatives et les
coefficients de ces variables dans le modle. Des variables explicatives non
corrles (matrice V diagonale) conduiront des coefficients de rgression
non-corrls. Ce lien entre structure des prdicteurs et structure des
coefficients sera prcis dans le paragraphe 3.2.5 consacr la rgression sur
composantes principales.
c - Tests sous l'hypothse de normalit des rsidus
Les rsultats prcdents (coefficient de corrlation multiple, matrices des
covariances des coefficients) permettent d'imaginer des procdures de
validation sous des hypothses assez gnrales. Le fait de spcifier la loi des
rsidus autorise des preuves de validation classiques que l'on rappelle ici,
sans dmonstration.
1- Test sur les coefficients de rgression
Pour savoir si une variable explicative Xk a une influence relle sur la
variable expliquer y, on procde un test d'hypothse sur le coefficient de
rgression <Xk.
1 La variance de a s'crit V(a) = E [(a - a)(a- ur].
Or, a-a=(X'X)-lX'y-a
d'o: a-a=(X'X)-lX'(Xa+E) -a
soit: a-a=(X'X)-l
X
'e
On obtient donc: E[(a -a)(a - u)'] = (X'X)-l X' E(')X(X'X)-l
Finalement: V(a) = (J2 (X'X)-l
232 Mthodes explicatives ou drives _ Chapitre 3
L'hypothse nulle (Ho) est l'ventuelle non-influence qui se traduit par:
(Ho) ak =0 (les autres coefficients sont quelconques)
On crit alors la statistique de Student :
t = ak
sk
o Sk est l'estimation de l'cart-type du k
ime
coefficient de rgression ak :
Ily - Xal12 akk , o akk dsigne le k
me
lment diagonal de (X'Xr
1
.
n-p
Si (Ho) est vraie, la statistique suit une loi de Student (n - p) degrs de
li be rt1. Soit Pela probabilit tire de la distribution de Student
correspondant la valeur te prise par t :
Pe = P(ltl ;::: te)
Si cette probabilit est juge "trop faible", on rejette
2
l'hypothse (Ho). On
peut tendre la procdure de ce test une combinaison linaire quelconque
des coefficients.
2- Test sur un sous-ensemble de coefficients
On vient de voir comment tester l'un aprs l'autre la nullit de chaque
coefficient. Cependant, les rponses des questions telles "al =0 sans rien
supposer sur ai'? puis "0.2 =0 sans rien supposer sur al 7" ne dterminent
pas la rponse cette autre question: "al = 0 et simultanment 0.2 = 0 7"
D'o l'utilit de savoir tester la nullit simultane de plusieurs coefficients
de rgression.
On se place ici, sans perte de gnralit, dans le cas o les q coefficients sont
les premiers des P coefficients. L'hypothse Ho se traduit par:
- (Ho) al =0.2 =... =a
q
=0 (les autres ak quelconques)
- (H}) un au moins des q premiers ak n'est pas nul
Convenons de noter X
Ho
les P- q dernires colonnes de X et aHo les P- q
dernires composantes de <x. L'criture matricielle des modles sera:
{
modle (complet) sous Hl :
modle (rduit) sous HO :
y=Xa+
Yo = XHo<XHo +
1 Le modle contient P+ 1 coefficients estimer: le terme constant et les coefficients
des Pvariables explicatives.
2 On effectue par exemple le test au seuil de confiance 0,05 : si Pc < 0,05 on rejette
l'hypothse selon laquelle la variable Xk n'a pas d'influence reHe (avec moins de 5
chances sur 100 de se tromper) ; alors que si Pc 0,05, on ne peut pas rejeter cette
hypothse.
3.2 _ Rgression multiple, modle linaire 233
On considre la statistique F qui suit une loi de Fisher
l
q et n - p degrs de
libert:
(IIY - yol1
2
-lly _Y11
2
)jq
F= Ily-yf/(n-p)
On note les sommes des carrs des carts:
[3.2-5]
sa = Ily - Yol1
2
et SI = Ily _yI1
2
Si la diffrence entre les deux quantits Sa et SI est grande (F grand) alors
l'effet des q premires variables est important et on devra rejeter
l'hypothses nulle; les q variables Xl,. .. , X
q
ont simultanment une influence
sur y. On effectue donc deux ajustements successifs
2
pour calculer d'une part
SI sur le modle complet et d'autre part Sa sur le modle pour lequel sont
exclues les q variables explicatives en cause.
3.2.5 Rgression rgularise
et rgression sur composantes principales
On a vu que la structure du tableau n lignes et p colonnes X des variables
explicatives (structure dcrite par la matrice des covariances) avait des
rpercussions sur la qualit des coefficients de rgression ( 3.2.4.b). Le calcul
des coefficients de rgression requiert une matrice X'X inversible et donc
des vecteurs Xl, x2, ... , xp linairement indpendants.
Si les variables explicatives sont fortement corrles (autrement dit si
certains des vecteurs Xl, x2, ... , X
p
ont des directions voisines) alors
l'inversion de la matrice X'X est difficile. Le vecteur a dont les composantes
sont les coordonnes de la projection de y dans la base de Vx forme par
Xl, x2, ... , x
p
est mal spcifi. Les rsultats de la rgression seront instables
3
.
1 Le principe de tous ces tests est trs simple: les statistiques Fsont des quotients de
X
2
indpendants. Les X
2
sont indpendants car ils correspondent des composantes
normales orthogonales du vecteur rsiduel (ici: ct de l'angle droit du triangle
rectangle (y, y, Yo) dont l'hypothnuse est (y, Yo) ).
2 D'un point de vue nwnrique on peut passer d'une somme de carrs l'autre sans tre
oblig de refaire un ajustement complet.
p
3 La dcomposition en lments propres de X'X s'crit: X'X =U'AU =L,auau;', o A
a=l
est la matrice diagonale dont le dme lment est la valeur propre ,la et U le tableau
des vecteurs propres unitaires correspondants. On a donc galement:
(X'Xr
l
= UA,lU' = i _l-uau;'.
a=lAa
L'estimation de la matrice de covariances du vecteur a des coefficients vaut:
p 1
Var(a)=s2(x'xr
l
=s2 L -uau;'
a=l ,a
Sous cette forme on voit comment une ou plusieurs valeurs propres presque nulles
rendent imprcis l'ajustement.
234 Mthodes explicatives ou drives _ Chapitre 3
On a galement voqu le fait que la mthode des moindres carrs pouvait
donner un poids excessif des points loigns (pouvant parfois tre errons
ou aberrants).
On a vu d'autre part la section 1.2 que l'analyse en composantes
principales dcrit la structure d'un tableau X en mettant en vidence les
interrelations entre variables (colonnes de X); elle permet galement de
visualiser les points-observations (points-lignes de X) et donc d'aider
reprer d'ventuelles anomalies dans leur distribution. Enfin, on a vu que
l'analyse fournit une base orthogonale hirarchise du sous-espace de IRn
appel V
x
.
Il est clair dans ces conditions qu'une analyse en composantes principales
pralable permettra d'apprcier l'existence de colinarits entre les variables
explicatives, de dtecter les redondances et comptitions entre prdicteurs;
de reprer les individus occupant des positions aberrantes ou simplement
suspectes. Il s'agit l d'une phase descriptive qui doit prcder la rgression.
L'analyse peut galement fournir des variables artificielles orthogonales (les
coordonnes des points-observations sur les nouveaux axes) comme
nouveaux prdicteurs: c'est la rgression sur composantes principales,
recommande lorsque les variables explicatives sont nombreuses ou
fortement corrles entre elles. L'analyse factorielle joue donc un double
rle: un rle d'exploration pralable et un rle de rgularisation
l
.
a - Principe de la rgression rgularise
Le principe revient remplacer les p variables explicatives Xl, X2, ... , X
p
par
leurs p composantes principales qui engendrent le mme sous-espace V
x
P
dimensions. S'il existe r relations linaires entre les variables explicatives,
alors la transformation des p variables fournira q == p - r composantes
principales. Il est possible ensuite d'exprimer les rsultats de la rgression en
fonction des variables initiales. Nous nous plaons dans IR n o un point y
est projet sur le sous-espace V
x
engendr par les vecteurs Xl, X2, ... , X
p
.
Les p vecteurs propres Uk auxquels correspondent p composantes
principales constituent une base orthonorme du sous-espace VXsur lequel
on veut projeter y.
On limine le problme pos par la quasi-colinarit si on supprime de cette
base les p - r vecteurs uk correspondant des valeurs propres -
k
nulles ou
trs faibles.
l Les techniques de rgularisation, largement utilises en analyse discriminante,
participent la rsolution de problmes mal poss (ici: cas de colinarit entranant
une singularit de la matrice X'X, et donc une impossibilit de calcul de a) ou de
problmes pauvrement poss (ici: cas de quasi-colinarit, entranant une instabilit
numrique de (X'Xfl et du vecteur a des coefficients de rgression). Pour une revue
des traitements de la colinarit dans le cas de la rgression, cf. Palm et Jemma (1995).
3.2 _ Rgression multiple, modle linaire 235
Autrement dit on ne retient que les q premires composantes principales de
variances non ngligeables.
/
(avec q< p)
[3.2- 6]
Figure 3.2 - 4
Rgression sur composantes principales
Les variables centres, nous sommes dans le cas de l'analyse gnrale
de la section 1.1. Le tableau X est reconstitu sur les q premiers axes factorieJs
(cf. [1.1 - 7] du 1.1.5.b) par la formule (va et Ua sont unitaire) :
q
X*=
a=1
o Vq et V
q
sont les matrice respectivement d'ordre (n/q) et (p/q) contenant
en colonne les vecteur propres Va et Ua et A
q
la matrice diagonale (q,q) des
valeurs propres.
On calcule
l
partir de ce nouveau tableau le vecteur de coefficient a* :
* 1 /
a = L
a=1V

a
Remarquons que a* n'est plus unique, puisque tout vecteur de la forme
a* + c (avec c tel que V'c = 0) satisfait aux quations [3.2 -1].
Pour que la relation E(a*) = Ct soit vrifie, il faut, dans le cas de l'estimation
prcdente, que le modle thorique spcifie que Ct soit de la forme
tant un vecteur quelconque q composantes.
1 Les quations [3.2 - 1] s'crivent X'Xa = X/y, c'est--dire, en abandonnant
provisoirement les indices q:
UAU'a =UA
I/2
V'y
Le vecteur a n'ayant que qcomposantes indpendantes peut s'crire sous la forme: a =
Vb
d'o puisque V'V =1(matrice unit (q,q) ) :
UAb =UAl/
2
V'y
Prmultipliant les deux membres par V'/ on obtient b :
b =A-
1/2
V'y, donc a = UA-
1/2
V'y
236 Mthodes explicatives ou drives _ Chapitre 3
Dans ces conditions, l'estimation de la matrice des covariances de a* (de
rang q) sera:
* 2 q 1
Var(a ) =s L, ~ u a u ~
a=l a
Notons que X= X* s'il y a exactement q valeurs propres diffrentes de O.
b - Variables supplmentaires et rgression
La procdure de mise en lments supplmentaires dans une analyse en
composantes principales constitue une variante descriptive de la rgression
multiple. D'un point de vue gomtrique, les deux situations sont trs
similaires:
- les p variables explicatives engendrent un sous-espace V
x
ayant au plus p
dimensions sur lequel est projete la variable expliquer;
- les p variables actives de l'analyse engendrent aussi un sous-espace au
plus p dimensions que l'on rduit q facteurs pour le visualiser et c'est
sur ce sous-espace rduit q dimensions que l'on projette les variables
supplmentaires pour les situer par rapport aux variables actives.
La formule [3.2 - 6] prcdente permet d'expliciter ce lien. Calculons partir
d'elle la nouvelle estimation y* de y en utilisant la formule [1.1 - 4] du
1.1.4 :
-* * * q ,
y =X a = L,vavay
a=l
On a ainsi obtenu une expression de l'oprateur-projection Px. sur l'espace
des q premiers axes factoriels.
Le dernier membre rappelle clairement que la coordonne v ~ y de y* sur
l'axe unitaire Va. correspond au positionnement classique de y en variable
supplmentaire dans l'analyse dont les variables actives sont les colonnes
deX.
c - Expression des coefficients dans la nouvelle base
Dsignons par za le vecteur des nouvelles coordonnes des points sur l'axe
ua' Rappelons que l'on a les relations:
Za =X*ua =XUa =.,ff:;.va
L'ajustement sur la nouvelle base (u]I u2," .,u
q
) s'crira:
y =Zc+e
(a =1,2, ... ,q)
3.2 _ Rgression multiple, modle linaire 237
o Z est le tableau (n/q) des vecteurs orthogonaux za et c le vecteur des q
nouveaux coefficients de rgression cherchs.
Puisque Z/Z = A / matrice diagonale dont les lments diagonaux sont les
valeurs propres, on a :
c = (Z/Zr1Z/y = A-1Z/y
Cette situation idale pour laquelle les variables explicatives sont
orthogonales revient d'ailleurs faire q rgressions simples, car chacun des
p coefficients peut tre estim sparment.
On a en effet:
_ ~ _ _co_v-,-(z-"a""/,-,,y_)
ca - -

a
var(za)
La matrice des covariances des coefficients c sera estime par:
Var(c) =s2(Z/Zr
1
=52A-
1
autrement dit ces coefficients sont non corrls et ont pour variances les
quantits:
3.2.6 Rgression sur variables nominales:
l'analyse de la variance
Lorsque les variables explicatives sont nominales, la rgression multiple
n'est autre que l'analyse de la variance, technique lie aux plans
d'expriences et aux traitements statistiques des donnes exprimentales
1
. Il
est courant d'opposer donnes d'observation et donnes exprimentales, en
rservant les mthodes exploratoires pour les premires, et les mthodes
infrentielles ou confirmatoires pour les secondes. La distinction n'est pas si
nette en pratique : d'une part, nous l'avons vu/ beaucoup de concepts et
d'outils sont communs; d'autre part, les champs d'application peuvent
frquemment se recouvrir, et une attitude mthodologique trop rigide
pourrait tre nfaste. D'o l'intrt de connatre les principes et les
possibilits des outils de l'analyse des donnes exprimentales.
1 C'est R.A. Fisher qui est l'origine de l'analyse de la variance et des plans
d'exprience, dans une srie d'articles datant des annes vingt, repris dans l'ouvrage
historique "The Design of Experiments" (Fisher, 1935). Citons galement sur ce sujet les
traits de Cochran et Cox (1957), de Cox (1958). Bailey (1981) et Steinberg et Hunter
(1984) prsentent des exposs synthtiques plus rcents. En langue franaise, on
pourra consulter les charitres consacrs ce thme dans les ouvrages de Dagnlie
(1981) et Tomassone et a . (1993).
238 Mthodes explicatives ou drives _ Chapitre 3
a - Codage des variables nominales
Supposons que l'on dispose sur une variable y de n observations classes
selon p variables nominales Xl,. '" XI, ... , x
p
respectivement ml, ... , ml, ... , mp
modalits.
Le tableau des variables explicatives X se prsente maintenant sous la forme
d'un tableau disjonctif complet [x
1
, ... ,X
I
, ... ,X
p
]'
Cependant, pour chaque sous-tablea u XI, la somme des colonnes va ut 1. Il
existe donc p relations linaires entre les colonnes de X. Le tableau X n'est
pas de plein rang et la matrice X'X n'est pas inversible.
Le problme peut tre rsolu par une rgularisation de la rgression (cf.
3.2.5). Mais le fait que la nature des relations linaires entre variables
explicatives soit connue a priori (structure disjonctive complte du tableau)
suggre d'autres possibilits de solutions.
Pour liminer la multicolinarit, on peut ne retenir que m,-1 modalits
pour chaque variable Xl ml modalits. La modalit supprime se recalcule
videmment partir des autres. Une autre possibilit est galement de
supprimer une colonne de chaque sous-tableau mais aprs l'avoir
retranche aux colonnes restantes. Nous retiendrons ce deuxime codage
mieux adapt au modle linaire avec interaction entre les variables
explicatives.
Le tableau des variables explicatives ainsi recod Xest de plein rang:
p
rang (X) = L(ml-1)
1=1
Pour simplifier l'expos, on se placera par la suite dans le cas o l'on dispose
de deux variables nominales u et v ayant respectivement q et r modalits.
Notons Uk et Vj, les indicatrices des variables u et v avec 1 < k < q et
1 < j < r, lU, V] le tableau disjonctif complet correspondant de dimension
(n, q + r) et [, V] le tableau disjonctif complet de plein rang et de
dimension (n, q+ r - 2) obtenu aprs recodage.
Tableau disjonctif
complet initial
X=
1 000 001
100 0 1 00
o 1 0 0 1 00
... ...
U V
00 0 1 001
000 1 o 1 0
Uk Vj
100 -1 -1
1 00 1 0
010 1 0
X= U
V
-1 -1 -1 -1 -1
-1 -1 -1 o 1
Tableau de plein
rang associ
Figure 3.2- 5
Tableaux des variables explicatives initial et recod
3.2 _ Rgressioll multiple, modle lillaire
La gnralisation se fera sans difficult.
239
b - Modle linaire sans interaction
On cherche dterminer s'il existe un effet d la variable u et un effet d
la variable v, autrement dit, si u et vont une influence sur y.
Les variables sont ici considres sans interaction et l'on dispose d'un
modle linaire o les effets sont par consquent additifs:
Yikj = Ji + aj + /3j + ikj
avec i =l,. '" n ; k =1,,,., q- 1 et j =1,,,., r - 1. Ce modle s'exprime sous forme
matricielle par:
y = Ji1 + (alu1 .. +akuk ... +a
q
-l
U
q-1) +(/31
V
1" +f31jVj" +f3r-l
v
r-l) + e
soit encore:
y =Ji1+ cx+ Vp+e
o 1 est un vecteur de n composantes gales 1 et Ji un coefficient scalaire.
Rassemblons dans un tableau L de dimension (n, q + r - 1) l'ensemble des
variables explicatives artificielles et dans le vecteur S (q + r - 1)
composantes les coefficients ak, /3j et J1 du modle. Il prend la forme
matricielle:
y=LS+e
1 ul Uq-1 vI v
r
-1
10 0 -1-1 -1
10 0 10 0
01...0 10 0
y
U
-1 -1 -1
-1 -1 -1
V
-1 -1 -1
o1 0
L
Figure 3.2 - 6
Modle de l'analyse de la variance:
cas de deux variables u et v sans interaction
Le problme est de tester si les ak (puis les f3j) sont gaux entre eux,
l'hypothse alternative tant que l'un au moins des coefficients dans chaque
groupe diffre des autres!.
On teste en d'autres termes les effets des variables u et v.
1 La spcification du modle est la mme que lors de la rgression multiple (rsidus
indpendants entre eux, de mme variance). Pour procder aux tests statistiques, il est
ncessaire de supposer la normalit de la distribution des rsidus.
240 Mthodes explicatives ou drives _ Chapitre 3
On ralise alors le test de nullit simultane des coefficients ab
(k =l,. '" q-1) (cf. 3.2.4.c).
Pour cela, on effectue successivement deux ajustements pour calculer d'une
part 5(11, a, sur le modle complet y =LO + E et d'autre part sur le
modle rduit obtenu en supprimant dans Lies q-l colonnes correspondant
aux ak. La statistique du test sera d'aprs [3.2 - 5] :
F = - -1)
-q - r+ 1)
On rejettera l'hypothse nulle d'absence d'effet de la variable u si la
probabilit de dpasser la valeur F, pour une variable de Fisher (q -1) et
(n - q - r + 1) degrs de libert, est juge trop petite.
Pour tester l'existence d'un effet d la variable v, on procdera de faon
analogue.
c - Modle linaire avec interaction
Si l'on pense maintenant que l'effet de la modalit k de u peut tre diffrent
selon la modalit j de v, il faut ajouter au modle l'effet d'interaction entre
les deux variables u et v.
Cela peut se faire en juxtaposant au tableau disjonctif complet [, V] le
sous-tableau x V des interactions. On obtient x V en faisant le produit
terme terme des colonnes Uk par les colonnes Vj'
Puisque 1 < k < q - 1 et 1 <j < r - l, on engendre ainsi (q -1) x (r -1) colonnes
contenant les produits de deux indicatrices correspond la conjonction des
prsences d'effet. On vrifie que le nouveau tableau ainsi construit
[, V, x \T] est bien de plein rang qx r. Le modle s'exprime alors par:
y =III +a + +( x V)y +E
o yest un vecteur (q-1)x(r-1) composantes.
- Test de l'effet de la variable u et de l'effet de la variable v
Pour tester l'effet de la variable u on pose l'hypothse nulle:
(Ho)
(k = 1,,,., q - 1)
On effectue, comme pour le modle sans interaction, le test de nullit
simultane des coefficients ak.
On calcule donc les sommes des carrs d'carts des ajustements sur le
modle complet et sur le modle rduit, notes respectivement 5(11, a, y)
et y). On calcule ensuite la statistique F de Fisher (q-l) et (n- pr)
degrs de libert d'aprs [3.2 - 5]. On agira de faon analogue pour tester
l'effet de la variable v.
3.2 _ Rgression multiple, modle linaire 241
- Test de l'interaction entre u et v
Pour tester maintenant l'effet d l'interaction entre les deux variables u et
v, on effectue le test de nullit simultan des coefficients Ykj en calculant les
quantits S(j.J., a,p, y) correspondant au modle complet et S(Jl, a, (3) associ
au modle rduit o l'on a supprim les (q-l)x(r-1) colonnes
correspondant aux Yki- On calcule, toujours d'aprs [3.2 - 5], la statistique de
Fisher (q -1) x (r -1) et (n - pr) degrs de libert.
Remarques:
1) Il faut souligner que le choix du codage du tableau des variables explicatives
pour avoir un tableau de plein rang est primordial ici alors qu'il tait indiffrent
dans le modle sans interaction.
2) La procdure dveloppe dans le cas d'une interaction entre deux variables
nominales peut tre gnralise des modles comprenant plus de deux critres (u,
v, W, ), des interactions d'ordre 1 (uv, UW, vw, ... ), des interaction d'ordre 2
(uvw, ), etc. Cependant une certaine prudence s'impose pour plusieurs raisons.
Tout d'abord, il est de plus en plus difficile d'apprcier et d'noncer clairement la
nature des hypothses testes. D'autre part les interactions d'ordre lev peuvent
conduire des tests "en chane" d'interprtation dlicate (uv significatif, vw non
significatif, uvw significatif, etc). Enfin, on peut montrer qu'une interaction (surtout
d'ordre lev) peut n'tre due qu' la prsence d'une observation lgrement
aberrante (la procdure n'est pas robuste).
3.2.7 Rgression sur variables mixtes: analyse de la covariance
Dans un modle d'analyse de la variance, la valeur de la variable
expliquer est dtermine, l'ala E prs, par les classes dans lesquelles sont
faites les mesures ou observations. On peut cependant imaginer un modle
o cette valeur est, l'intrieur de chaque classe k, fonction galement
d'une ou plusieurs variables explicatives continues. On dira par exemple
que la dpense individuelle en habillement est fonction du sexe u et pour
chaque sexe fonction du revenu x de l'individu i.
r

2
effet de la classe
x
Figure 3.2-7
Un modle d'analyse de la covariance:
variable nominale sans effet sur la pente de la rgression
242 Mthodes explicatives ou drives _ Chapitre 3
La figure 3.2 - 7 illustre un modle o l'observation i dans la classe k serait
dtermine par:
Yik = Ji + ak + ry Xik + t:ik
En donnant la mme pente ry aux deux droites passant par les centres de
classe, on suppose ici que le revenu a le mme effet quel que soit le sexe; la
distance (al - a2) entre les deux droites mesure "l'effet du sexe". On aurait
pu supposer un effet du revenu diffrenci suivant le sexe en traant des
droites non parallles.
De tels modles, o interviennent des variables nominales et des variables
continues, sont appels modles d'analyse de la covariance. Ils vont se
traduire par:
y = Po + E
o L" est le tableau de plein rang des variables explicatives.
a - Modles d'analyse de la covariance
Plaons-nous, pour simplifier l'expos, dans le cas o le modle contient
une variable nominale u q modalits et une variable continue x.
Le modle le plus gnral correspondant au modle complet suppose la
fois un effet d la variable nominale u et un effet x diffrenci pour
chaque catgorie k, 1 < k < q- l, ce qui s'exprime par:
Yik::: (Ji + ak) + (ry + f3k) Xik + t:ik [3.2-7]
Le tableau L est construit en deux parties: les q premires colonnes
correspondent l'analyse de la variance un critre; les q - 1 colonnes
suivantes expriment de faon analogue l'effet diffrenci de x suivant la
catgorie k de la variable u, mesur autour de l'effet gnral reprsent par
la dernire colonne.
1
It
Il
L=
Figure 3.2 - 8
Tableau des variables explicatives:
cas d'une variable nominale u 3 modalits et d'une variable continue x
On remarquera que l'on obtient les q dernires colonnes comme une
interaction entre la variable nominale u et la variable continue x, c'est--
dire par multiplication terme terme des q premires colonnes par x.
On notera S(Ji, a, ry, la somme de carrs d'carts des ajustements sur le
modle complet [3.2 - 7].
3.2 _ Rgression multiple, modle linaire 243
b - Test d'un effet diffrenci de x dans chaque classe k
Pour tester l'existence d'un effet diffrenci de x dans chaque classe k, on
effectuera un deuxime ajustement sur le modle:
Yik = (tl + ak) + T) Xik + fik
Ce modle est la rduction du modle complet [3.2 - 7], obtenu par
introduction de l'hypothse nulle:
(Ho) {f3k =0 (k =l,,,.,q-1)
tl, TJ,ak quelconques
La statistique du test s'obtient par application de la formule [3.2 - 5] :
F =
S(tl, a, T), - 2q)
On rejettera l'hypothse nulle si la probabilit de dpasser la valeur lue dans
la table de Fisher-Snedecor (q -1) et (n - 2q) degrs de libert, est juge trop
petite.
c - Test de l'effet de la variable u
Pour tester l'existence de l'effet de la variable nominale u (tout en
supposant cependant un effet diffrenci de x dans les classes), on calculera
S(tl, TJ, sur le modle:
Yik = tl + (TJ+ f3k)xik + fik
pour le comparer S(tl, cx, TJ, 13). Ce modle est la rduction du modle
complet [3.2 - 7] obtenu par introduction de l'hypothse nulle:
(Ho) {CX
k
=0 (k =l,,,.,q -1)
tl, T), f3k quelconques
La statistique du test fait rfrence la formule [3.2 - 5] pour laquelle les
degrs de libert sont (q -1) et (n - 2q).
d - Test d'un "effet classe global"
On testera l'existence d'un "effet classe globale" l'aide de S(tl, T)) calcul sur
le modle:
Yik = Ji + T) Xik + fik
pour le comparer S(J.1, a, T), Ce modle est la rduction du modle
complet [3.2 - 7], obtenu par introduction de l'hypothse nulle;
(Ho) {a
k
=0 et f3k =0 (k=l, ... ,q-l)
tl, TJ quelconques
La statistique du test renvoie la formule [3.2 - 5] ayant (2q - 2) et (n - 2q)
degrs de libert.
244 Mthodes explicatives ou drives _ Chapitre 3
Elle permet de rpondre la question: est-ce que la valeur de y dpend de la
classe, soit par des centres de classe distincts, soit par des pentes en x
diffrentes?
e - Gnralisation de l'analyse de la covariance
L'introduction de plusieurs variables continues (Xl, X2,"') ne prsente
aucune difficult. Le dploiement de chacune d'elles se fait dans L comme le
dploiement de la colonne X effectu prcdemment. Les calculs de sommes
de carrs d'carts et les constructions de tests s'effectuent selon les mmes
principes.
Il est plus dlicat de gnraliser la procdure au cas de plusieurs variables
nominales. On rencontre en particulier les difficults dj voques en
analyse de la variance lorsque l'on veut introduire un terme d'interaction
entre les variables. Le problme est compliqu encore, dans la pratique, par
la ncessit de choisir au dpart le modle a priori qui est cens reprsenter
correctement le phnomne et qui servira de rfrence dans la construction
des tests.
3.2.8 Choix des variables, gnralisations du modle
L'expos qui prcde ne fait que situer les principes de base du modle
linaire par rapport aux mthodes descriptives de la premire partie. Les
mthodes prsentes correspondent une part notable des applications les
plus courantes, mais une part infime de la littrature thorique et
technique sur le sujet, pour laquelle nous renvoyons le lecteur la
bibliographie cite au dbut du chapitre.
On voquera brivement deux points dans ce paragraphe de conclusion: le
problme de la slection des variables dans les modles et celui de la
gnralisation du modle.
a - Slection et choix des variables explicatives
La qualit de l'ajustement dpend galement du choix des prdicteurs et il
est souhaitable de retenir un nombre limit de variables, non redondantes
et ayant un pouvoir prdictif.
Une technique souvent utilise pour slectionner les variables explicatives
est la mthode pas--pas ou stepwise
1
Elle consiste effectuer une premire
rgression simple sur une variable puis ajouter successivement celles qui
1 La mthode de Furnival et Wilson (Furnival, 1971 ; Furnival and Wilson, 1974)
permet de calculer les meilleures rgressions pour l, 2, ..., Pvariables explicatives, par
une exploration optimise de toutes les possibilits. En pratique, p ne doit pas
dpasser 40 pour que le volume de calcul reste raisonnable. Une telle procdure est
recommandable car elle ne fait pas intervenir de critres externes (peu ou mal justifis)
pour inclure ou exclure des variables dans le modle.
3.2 _ Rgression multiple, modle linaire 245
font augmenter le coefficient de corrlation multiple R 2, avec
ventuellement remise en question des choix antrieurs. A chaque tape
sont raliss des tests sur les coefficients de rgression ou sur des sous-
ensembles afin de rejeter la variable ou d'liminer ventuellement
certaines variables introduites dans les tapes prcdentes. Les critres
d'Akaike (1973), de Mallows (1973), sont frquemment utiliss pour
slectionner les modles lors de ces procdures. Une revue des critres
usuels se trouve dans Atkinson (1981). L'exploration des rsidus est
galement trs utilise pour choisir ou complter les variables du modle,
en gnral par des procds graphiques (cf. Cook et Weisberg, 1982, 1994).
Les modles graphiques (cf. par exemple: Whittaker, 1990; Wermuth et
Cox, 1992; Fine, 1992) permettent, lorsque le nombre de variables
explicatives n'est pas trop lev, d'tudier les liaisons conditionnelles entre
variables. Variables et liaisons sont reprsentes respectivement par les
sommets et les artes de graphes de liaisons conditionnelles qui ont le
mrite de conduire l'utilisateur rflchir sur la pertinence et les
implications des modles possibles.
Enfin on a vu qu'une analyse en composantes principales de tout ou partie
des variables explicatives Xk, avec positionnement de la variable expliquer
yen lment supplmentaire, permet de positionner la ou les estimations
y de y parmi les Xk. Il est galement possible de positionner diffrents
changements de variables, voire de nouvelles variables fonctions de
plusieurs prdicteurs, et donc de porter une apprciation critique sur les
redondances et complmentarits au sein du modle et de ses extensions.
b- Modles linaires gnraliss
Ces modles, prsents pour la premire fois sous ce nom par Nelder et
Wedderburn (1972), exposs de faon complte par McCullagh et Nelder
(1989), gnralisent le modle linaire de base sur deux points:
1- La combinaison linaire note Wi = aoxiO + al XiI +... + ap Xip des variables
explicatives n'est pas ncessairement l'esprance mathmatique E(Yi) de
la variable Yi mais peut tre plus gnralement une fonction g(J de E(Yi)
(appele fonction lien) et note:
Wi = g[E(Yi)]
Pour le modle linaire classique:
Wi = E(Yi)
2- La loi des composantes de y appartient la famille des lois
exponentielles
1
(dont la loi normale est un cas particulier). Elle fait
intervenir deux paramtres eet <p, et trois fonctions a(J, b(J, et c(J.
1 Cf. un expos gnral dans: Dempster (1971); Berk (1972).
246 Mthodes explicatives ou drives _ Chapitre 3
{
YO-b(O) ( )}
+c y,rp
fy(y,8,cp) = e a(rp)
On voit que l'on obtient la fonction de densit de la loi normale:
1 {(Y
z
-:/}
fy(y;8,cp) = ~ n c e
pour les spcifications suivantes des paramtres et des fonctions:
0= Ji; cp = a
2
; a( cp) =cp; b(8) =0
2
/2; cry, cp) =-1/2{(y2/ (
2
)+log(2nif)}
D'autres valeurs des paramtres et des fonctions conduisent aux lois
binomiales, de Poisson, gamma.
L'ajustement du modle se fait par la mthode du maximum de
vraisemblance
l
, qui concide avec les moindres carrs dans le cas de la loi
normale.
En faisant varier la loi de y et la fonction lien, le modle linaire gnralis
inclut comme cas particulier une famille de modles mettant en jeu des
variables nominales, parmi lesquels les modles log-linaires (cf. section
3.4).
3.2.9 Modles de variables latentes
Les modles de variables latentes n'entrent pas dans le cadre du modle
linaire gnral, mais ils sont apparents des modles qui interviennent
dans un cadre plus gnral, qui sont les modles erreurs sur les variables
(exognes) 2.
Ces modles ont t essentiellement dvelopps en conomtrie, o l'on
distingue habituellement les modles fonctionnels, ou effet fixes (comme
la rgression multiple et le modle linaire dans son ensemble), et les
modles structurels ou effet alatoires (modles de variables latentes).
L'analyse factorielle en facteurs communs et spcifiques (jactor analysis) est
probablement le modle le plus ancien 3. Il est utilis principalement par les
psychologues et psychomtriciens. Les dveloppements auxquels il donne
lieu sont complexes et diversifis. On pourra consulter sur ce point les
ouvrages de Harman (1967), Mulaik (1972).
1 La mthode numrique de rsolution est une mthode des moindres carrs pondrs
itratifs trs voisine de la mthode de Newton-Raphson.
ZOn trouvera un expos des modles et une note historique dans Malinvaud (1964).
3 A l'origine des principes de la mthode se trouvent Spearman (1904) (analyse
monofactorielle), puis Gamett (1919) et Thurstone (1947) (analyse multifactorielle).
3.2 _ Rgression multiple, modle linaire 247
[3.2-8]
a - Le modle
Cette mthode se propose de reconstituer, partir d'un petit nombre q de
facteurs, les corrlations existant entre p variables observes. On suppose
l'existence d'un modle a priori:
Xi = r f
j
+ ei
(p,1) (p,q)(q,1) (p,1)
Dans cette criture Xi reprsente le iime vecteur observ des p variablesi r
est un tableau (p, q) de coefficients inconnus (avec q < p)i fi est la iime
valeur du vecteur alatoire et non observable de qfacteurs communSi et ej
la i
me
valeur du vecteur non observable de rsidus, lesquels reprsentent
l'effet combin de facteurs spcifiques et d'une perturbation alatoire.
Ainsi par exemple, dans le cas des facteurs communs "fI = intelligence" et
"f2 = mmoire" que cherchaient les psychologues, le systme [3.2 - 8] s'crit
pour le iime individu:
1
Xi1 ='Yll.fil + Y12/; 2 + eil
xi2 ='121/;1 + Y22/;2 + ei2
Xip ='Yp1/;1 + Yp2/;2 + eip
Chaque observation de chaque variable est considre comme une
ralisation d'une variable alatoire dtermine, par addition au rsidu
alatoire spcifique, des deux variables alatoires que sont les facteurs
communs (avec des pondrations qui dpendent de chaque variable) 1.
Dsignons par X le tableau (n,p) dont la iime ligne est le vecteur transpos
xi qui reprsente l'observation i. De mme F dsigne le tableau (n,q) non
observable dont la iime ligne est fi i et E le tableau (n,p) non observable dont
la iime ligne est el' Le modle liant l'ensemble des observations aux
facteurs hypothtiques s'crit:
X = F r' + E [3.2 - 9]
(n,p) (n,q)(q,p) (n,p)
Dans cette criture, seul X est observable, et le modle est par consquent
indtermin. Son identification et l'estimation des paramtres posent des
problmes complexes, sources d'une abondante littrature 2. Une cascade
d'hypothses a priori supplmentaires va permettre d'crire le problme
sous une forme simplifie, la seule que nous aborderons ici.
1 Ainsi, on reconstitue approximativement les pnotes d'un individus i dans p matires
scolaires partir de ses 2 notes factorielles, et de coefficients qui ne dpendent que
des matires.
2 Voir par exemple la synthse et les rfrences trs compltes de Fine (1993). Il existe
de nombreuses variantes de lil mthode: ilxes obliques, rotations selon diffrents
critres (vnrimax, qunrtimax, oblimax), recherches de structures simples, pour
lesquelles on peut citer globillement l'ensemble des parutions de lil revue PS1jchometrika.
248 Mthodes explicatives 01/ drives _ Chapitre 3
Sans perte de gnralit, nous supposerons centres les variables dont les
observations sont les colonnes de X, ainsi que les variables alatoires que
constituent les facteurs communs et les facteurs spcifiques. Nous
utiliserons les notations suivantes:
- W matrice (p,p) des covariances thoriques entre variables;
- <1> matrice (q,q) des covariances thoriques entre facteurs communs;
- f1 matrice (p,p) des covariances thoriques entre facteurs spcifiques.
Appelons S la matrice des covariances empiriques des observations X, que
nous supposerons galement centres. Par dfinition et en vertu de [3.2 - 9L
on a:
S = .3. x'x = .3. (Ff' +E)'(Ff' +E)
n n
c'est--dire:
s = .3. fF'Ff' +.3. rF'E +.3. E'Ff' +.3. E'E
n n n n
[3.2 -10]
Aux hypothses du modle, nous ajouterons l'hypothse a priori que les
facteurs rsiduels sont non corrls aux facteurs communs; la matrice des
covariances thoriques correspondantes tant nulle, nous considrerons
comme ngligeables dans [3.2 - 10] les matrices .3. fF'E et .3. E'Fr' dont les
n n
esprances doivent tre nulles. Ainsi la relation [3.2 - 10] prend la forme
simplifie:
S = .3. fF'Ff' +.3. E'E
n n
correspondant la relation thorique suivante pour le modle:
W =f<1>f' +f1 [3.2 -11]
Le problme d'estimation consiste ajuster sur [3.2 - 11] une matrice W qui,
au regard d'un critre choisi par ailleurs, soit proche de la matrice des
covariances empiriques S. Mais afin d'obtenir une solution unique pour les
paramtres de f, <1> et f1, il est ncessaire d'introduire des contraintes
supplmentaires dans le modle.
On suppose en gnral que les facteurs spcifiques sont non corrls, c'est--
dire que la matrice f1 est diagonale. On impose de plus gnralement que les
facteurs communs soient orthogonaux et de variance unit, autrement dit
la matrice <1> est la matrice identit 1 d'ordre q. La relation [3.2 - 11] du
modle s'crit alors:
w= ff' +f1
Sur cette relation le lien avec l'analyse en composantes principales apparat
clairement. Il s'agit dans ce cas de dcomposer la matrice des covariances
empiriques S sous la forme:
S=UAU'
3.2 _ Rgressioll multiple, modle lillaire 249
o A est la matrice diagonale des valeurs propres (ranges) et U le tableau
des vecteurs propres unitaires correspondant. Cette relation s'crit encore:
5 = (UA
1
/
2
)(UA
1
/
2
)' = '
o est le tableau des vecteurs propres multiplis par les racines carres
des valeurs propres correspondantes.
Avec ce point de vue, l'analyse en facteurs communs et spcifiques suppose
qu'en retranchant une matrice diagonale lments positifs (t. estimant 6),
on obtient une dcomposition de la matrice des covariances empiriques
sous la forme:
5 - t. =[['
o [ ne contient que q colonnes alors que dans 5 =' le tableau
contenait p colonnes. On voit au passage qu'une analyse en composantes
principales o les p - q dernires valeurs propres sont proches et voisines de
0, donnera des rsultats trs voisins de ceux d'une analyse q facteurs
communs orthogonaux.
b- Estimation des paramtres inconnus
On n'insistera pas ici sur les problmes poss par un tel modle, qui font
l'objet d'une abondante littrature. On donnera seulement quelques
moyens pratiques de calcul.
Le problme essentiel est d'estimer 6, matrice diagonale des variances des
rsidus spcifiques. Une fois 6 estime par t., il suffit de chercher les
composantes principales (vecteurs propres) de (5 - t.); on ne doit
normalement trouver qu'un petit nombre de composantes diffrentes
(sta tistiquement) de O.
Nous allons examiner ici une spcification particulire du modle, puis
donner un algorithme de calcul dans le cas gnral.
- Cas de variances spcifiques gales
On suppose n priori que les facteurs spcifiques ont tous mme variance
thorique (j2; autrement dit par hypothse 6 = (j2I :
w = [ r ~ I
et, si on note 52 une estimation de (j2 , la relation [3.2 - 8] devient:
xi =rf
j
+5ej
On obtiendrait une estimation de r en cherchant les composantes
principales de la matrice (5 - 5
2
1). En effet, effectuant l'analyse de 5, on crit:
5=UAU'
et par consquent:
250 Mthodes explicatives 01/ drives _ Chapitre 3
5-5
2
1 = UAU'-/UU' = U(A-5
2
I)U'
Les valeurs propres de (5 - 52 1) sont celles de 5 diminues de 52 (les
vecteurs propres tant identiques). Puisque (5 - 5
2
1) doit tre de rang q, il est
ncessaire que 52 soit valeur propre multiple d'ordre p- q pour S.
En particulier si, dans une analyse en composantes principales, les petites
valeurs propres sont sensiblement gales, on peut considrer que les
donnes sont engendres par un modle factoriel variances spcifiques
gales 1.
-Une mthode de calcul dans le cas gnral
La mthode que nous donnons ici est simple 2. Elle procde de faon
itrative, en posant au dpart Li = o. On calcule les vecteurs propres
unitaires de 5 rangs dans le tableau U :
5=UAU'='
Si l'on veut retenir q facteurs communs, on ne garde que les q premires
colonnes de , tableau que l'on notera l' On devrait pouvoir crire:
5 =
1

1
+Li
On estimera donc provisoirement Li par les lments diagonaux Li] de
(5- ]l), et on calculera les q premiers vecteurs propres
2
de (S-Li]).
A l'itration suivante on estime Li par les lments diagonaux Li
2
de
(5-
2
2) et l'on poursuit les oprations jusqu' observer une convergence
raisonnable du processus. On aura alors obtenu la dcomposition cherche:
5 =rr' +Li.
Mentionnons pour conclure ce bref aperu les travaux d'Anderson et Rubin
(1956) et de Lawley et Maxwell (1963) qui ont plac l'analyse factorielle en
facteurs communs et spcifiques dans un cadre infrentiel classique.
1 Ce modle il variances spcifiques gales peut tre justifi lorsque les p variables sont
mesures avec le mme instrument (exemples: mensurations anthropomtriques), et
donc avec la mme erreur.
2 Cette procdure est parfois appele analyse en facteurs principaux. Pour une
premire estimation de 1'1, on peut galement prendre (Joreskog, 1963), lorsque S est
une matrice des corrlations, 8
j
j' = 1 - Rf, o la quantit Rf est le coefficient de
corrlation multiple de la variable j avec toules les autres. Ainsi, une variable trs peu
corrle avec les autres aura une variance spcifique forte. Une variable qui peut
s'exprimer comme combinaison linaire des autres aura une variance spcifique nulle.
Notons que 1 - Rf est l'inverse du jme lment diagonal de S-l.
Section 3.3
Analyse factorielle discriminante
On dsigne sous le nom d'analyse discriminante une famille de techniques
destines classer (affecter des classes prexistantes) des individus
caractriss par un certain nombre de variables numriques ou nominales.
L'origine de cette mthode remonte aux travaux de Fisher (1936) ou, de
faon moins directe, ceux de Mahalanobis (1936). Elle est une des
techniques d'analyse multidimensionnelle les plus utilises en pratique
(Credit-scoring, diagnostic automatique, contrle de qualit, prvision de
risques, reconnaissance des formes).
L'analyse factorielle discriminan te ou analyse linaire discriminante, est
une mthode la fois descriptive et prdictive, qui donne lieu, comme les
mthodes factorielles prsentes au chapitre 1, des calculs d'axes
principaux. Elle peut tre considre comme une extension de la rgression
multiple dans le cas o la variable expliquer est nominale et constitue la
variable de partition. Ces deux techniques constituent d'ailleurs des cas
particuliers de l'analyse canonique (cf. section 3.1).
Nous ne prsenterons pas toutes les techniques d'analyse discriminante qui
donnent lieu une littrature presqu'aussi tendue que la rgression et le
modle linaire. Nous renvoyons le lecteur des ouvrages spcifiques sur la
question, notamment l'ouvrage de Tomassone et al. (1988) et les ouvrages
dits par Celeux (1990) (discrimination partir de variables continues) et
Celeux et Nakache (1994) (discrimination partir de variables qualitatives)l.
3.3.1 Formulation du problme et notations
On dispose de n individus ou observations dcrits par un ensemble de p
variables (Xl, x2, ... , Xp) et rpartis en q classes dfinies a priori par la variable
y nominale q modalits
2

1 Signalons dans la littrature de langue anglaise l'ouvrage de synthse (riche de plus


de 1200 rfrences) de McLachlan (1992) et les articles, galement de synthse, de
Lachenbruch et Goldstein (1979), de Gnanadesikan (1989) ; parmi les manuels
classiques gnralistes qui traitent de l'analyse discriminante, Anderson (1958, 2nd ed.
1984), Cacoullos (1973), Krishnaiah et Kanal (1982); parmi les manuels plus
spcialiss, Goldstein et Dillon (1978), Hand (1981). Dans le domaine des mthodes
statistiques de la reconnaissance des formes, outre l'ouvrage prcit de McLachlan, les
ouvrages de base sont Fukunaga (1972), Duda et Hart (1973), Devijver et Kittler
(1982). Agrawala (1977) contient des rimpressions de rfrences historiques.
2 Dans ce chapitre, le vecteur y a des composantes entires donnant les numros des
classes, et Ydsigne le tableau disjonctif d'ordre (n,q) correspondant.
252 Mthodes explicatives ou drives _ Chapitre 3
L'analyse discriminante se propose dans un premier temps de sparer au
mieux les q classes l'aide des p variables explicatives. Dans un deuxime
temps, elle cherche rsoudre le problme de l'affectation d'individus
nouveaux, caractriss par les p variables, certaines classes dj identifies
sur l'chantillon des n individus (appel chantillon d'apprentissage).
On distingue par consquent deux dmarches successives, d'ordre descriptif
puis dcisionnel:
- chercher des fonctions linaires discriminantes sur l'chantillon
d'apprentissagE de taille n qui sont les combinaisons linaires des
variables explicatives (Xl, X2, ... , xp) dont les valeurs sparent au mieux les
q classes.
- connatre la classe d'affectation de n' nouveaux individus dcrits par les
variables explicatives (Xl, X2, ... , xp). Il s'agit ici d'un problme de
classement dans des classes prexistantes, par opposition au problme de
classification (trait au chapitre 2) qui consiste construire des classes les
plus homognes possibles dans un chantillon.
Xl ... xp
y
n observations
(chantillon
d'apprentissage)
n'observations
(supplmentaires)
x
Fonctions
-4- discriminantes
1--affectation--'-"
Figure 3.3 - 1
Principe de l'analyse discriminante
Considrons pour fixer les ides le tableau de donnes (200, 30) qui contient,
pour n =200 malades, les valeurs de p =30 variables issues d'analyses
biologiques et d'examens cliniques. Il existe par ailleurs une partition de ces
200 malades selon q = 3 catgories de diagnostics raliss aprs des
interventions beaucoup plus coteuses que les 30 mesures prcdentes. On
se pose la question suivante: tant donn des patients supplmentaires (en
nombre n') sur lequel on ralise les 30 analyses et examens, peut-on prvoir
leurs catgories de diagnostic? La question rpond ici un besoin pratique
l
:
1 Les exemples les plus classiques d'analyse discriminante appartiennent sans doute
au domaine mdical (aide au diagnostic, aide la dcision en matire d'intervention)
mais de nombreuses applications se dveloppent dans le domaine du scoring bancaire
(prvision de l'ventuelle dfaillance d'un dbiteur), du contrle de qualit (prvision
de qualit d'un produit en agro-industrie il partir de mesures externes) et surtout de la
reconnaissance des formes (reconnaissances de caractres manuscrits ou d'images-
radar, etc.).
3.3 _ Analyse factorielle discriminante 253
est-ce-que des mesures nombreuses mais d'accs facile peuvent contenir
une information sur un phnomne ou un tat plus difficile identifier?
Soit le tableau des donnes X n lignes (individus ou observations) et p
colonnes (variables), de terme gnral Xij. Les n individus sont partitionns
en q classes. Chaque classe k caractrise un sous-nuage Ik de nk individus i
avec:
q
L,nk ==n
k=l
Par Xkj on dsigne la moyenne de la variable Xj dans la classe k. C'est la jme
coordonne du centre de gravit Gk du sous-nuage Ik :
Xkj == 2. L,Xij == Gkj
nk iEl
k
Figure 3.3 - 2
Reprsentation du nuage des individus partitionns
La moyenne de la variable Xj sur l'ensemble des individus qui correspond
la jme coordonne du centre de gravit G du nuage des individus vaut:
1 n q n
Xj =- L,xij == I. i
Xkj
==G
j
n
i
=l k=l n
3.3.2 Fonctions linaires discriminantes
L'analyse factorielle discriminante consiste rechercher les combinaisons
linaires de p variables explicatives (Xl, x2, ... , x
p
), gnralement continues,
qui permettent de sparer au mieux les q classes.
La premire combinaison linaire sera ceBe dont la variance entre les classes
(inter-classes) est maximale, afin d'exalter les diffrences entre les classes, et
dont la variance l'intrieur des classes (intra-classes) minimale pour que
l'tendue dans les classes soit dlimite. Puis, parmi les combinaisons
linaires non corrles la premire, on recherchera celle qui discrimine le
mieux les classes, etc.
254 Mthodes explicatives ou drives _ Chapitre 3
Ces combinaisons linaires seront les fonctions linaires discriminantes.
Dsignons par a(i) la valeur, pour l'individu i, d'une combinaison linaire a
des p variables pralablement centres:
p
a(i) = Ia/xij -Xj)
j=1
La variance var(a) de la nouvelle variable synthtique a(i) vaut, puisque am
est centre:
1 n 1 n p
var(a) = - Ia
2
(i) =- I[ L aj(xij _Xj)]2
11 i=1 11 i=1 j=1
1 Il P P _ _
var(a)=-I l Iajaj'(xij-Xj)(Xij'-Xj')
n i=1 j=1 j'=I
En intervertissant les sommations et en posant:
1 Il
t .. , - -"(x -x)(x" -x") - cov(x x)
}} - n L 1) ) 1) ) - )' )
;=1
la variance de la combinaison des variables a peut s'crire:
P P
var(a) = l Iajaj'cov(xj'xj') = a'Ta
j=Ij'=1
o a dsigne le vecteur dont les p composantes sont al, ... , ap et T dsigne la
matrice des covariances des p variables, de terme gnral tjj"
Nous allons montrer que la variance de a se dcompose en variance intra-
classes et en variance inter-classes, ce qui correspond une dcomposition
analogue de la matrice des covariances T.
a - Dcomposition de la matrice de covariance
La covariance totale entre deux variables Xj et xi' s'crit:
cov(Xj,xj') =l.. [I(Xij -Xj)(xij' -xj')] =tH'
n k=I iE/k
Comme en analyse de la variance, nous allons dcomposer cov(Xj'xj') en
somme de covariances intra-classes ( l'intrieur des classes) et covariances
inter-classes (entre les classes).
Pour cela nous partirons de l'identit, pour i, j, k:
(Xij -Xj) =(Xij -Xkj)+(Xkj -Xi)
La somme entre crochets dans la formule de la covariance se dcompose
alors en quatre termes, dont deux sont nuls.
3.3 _ Analyse factorielle discrimillallte
En effet, par dfinition de Xkj :
IJXij - Xkj)(Xkr - xr) = (Xkj' -xr) IJXij - Xkj) =0
iE1
k
iE1
k
255
de faon analogue, les sommes ci-dessous s'annulent:
I,(Xkj -Xj)(xij' -Xkr) = 0
iE1
k
Il reste la formule dite formule de dcomposition de Huyghens (ou
quation d'analyse de la variance):
tjr =djr +ejr
avec:
q nk - - - -
ejj' ="2>;;(Xkj - Xj)(Xkr -xr)
k+l
Ces p2 relations se notent sous forme matricielle] :
T=D+E [3.3 - 1]
Ainsi, la variance d'une combinaison linaire a des variables se dcompose
d'aprs la relation [3.3-1] en variance interne et variance externe:
a'Ta =a'Da +a'Ea [3.3 - 2]
Rappelons que, parmi toutes les combinaisons linaires des variables, on
cherche celles qui ont une variance intra-classes minimale et une variance
inter-classes maximale. En projection sur l'axe discriminant a, chaque sous-
nuage doit tre, dans la mesure du possible, la fois bien regroup et bien
spar des autres sous-nuages.
Il s'agit donc de chercher a tel que le quotient a'Ea/a'Da soit maximal (ou
a'Da/a'Ea minimal).
D'aprs la relation [3.3-2] il est quivalent de minimiser a'Ta/a'Ea ou de
rendre maximal j(a) tel que:
f(a)= a'Ea
a'Ta
b - Calcul des fonctions linaires discriminantes
La fonction j(a) maximiser est le rapport de la variance inter-classes la
variance totale. Cette fonction tant homogne de degr 0 en a (invariante si
1 La matrice des covariances Totale T se dcompose en une matrice d'inertie intra-
classes D (Dans les classes) et une matrice d'inter-classes E (En1re les classes).
256 Mthodes explicatives 01/ drives _ Chapitre 3
a est chang en a, tant un scalaire quelconque), il est quivalent de
chercher le maximum de la forme quadratique a'Ea sous la contrainte
quadratique a'Ta = 1.
Ceci conduit la relation! :
Ea = ;na [3.3 -3)
Lorsque la matrice des covariances T est inversible, on obtient:
T-1Ea = a
a est vecteur propre de T-1E relatif la plus grande valeur propre .
En prmultipliant les deux membres de [3.3 - 3] par le vecteur a' on constate
que a'Ea, le maximum cherch, n'est autre que .
La plus grande valeur propre , quotient de la variance externe de la
fonction discriminante par la variance totale, est infrieure 1 d'aprs la
relation [3.3 - 1). On l'appelle quelquefois pouvoir discriminant de la
fonction a.
Remarque
En rendant maximum le quotient b'Eb/b'Db les combinaisons linaires
discriminantes b seraient alors les vecteurs propres de la matrice D-
1
E o la matrice
D-
1
dfinit la mtrique de Mahalanobis. La valeur propre J1 correspondant, solution
de D-
1
Eb = Jib est relie . par la formule:
.
J1=/_.
On a videmment J1 d? . , puisque la variance interne est toujours infrieure la
variance totale.
Le vecteur b est comme a solution de l'quation [3.3 - 3] mais doit respecter la
contrainte b'Db = 1 .
Les vecteurs a et b sont lis par la relation
2
:
a =(,i1=T) b
c - Diagonalisation d'une matrice symtrique
La matrice T-1E n'est pas symtrique. Mais il est possible de se ramener la
diagonalisation d'une matrice (q,q) symtrique. (Rappelons que p est le
nombre de variables et q le nombre de classes avec dans la plupart des
applications q < p).
1 Comme en analyse gnrale (section 1.1) ou en analyse canonique (section 3.1), nous
sommes conduits annuler le vecteur des drives partielles du lagrangien
L=a'Ea- (a'Ta-I) par rapport a 1 ce qui donne la relation: 2Ea - 2 .Ta = 0, d'o
finalement Ea =.Ta.
2 Posant a = .; b , les deux relations a'Ea =). et b'Eb = Ji conduisent la relation
';2 b'Eb =., d'o: ';2Ji =. et'; = ..JI-
3.3 _ Altalyse factorielle discrimiltaltte
En effet la matrice E, de terme gnral:
257
[3.3 -4]
q
nk (- - )(- -)
ejj' = Ln Xkj - Xj Xk] - x]
k=l
est le produit d'une matrice C Plignes et qcolonnes par sa transpose; cette
matrice C a pour terme gnral:
fi
k (- -)
c'k = - xk'-
x
'
] n J )
Avec la dcomposition E=CC', la relation [3.3 - 3] s'crit :
CC'a =Ta
Posons:
[3.3 -5]
cette relation s'crit alors:
[3.3 - 6]
Il est clair que tout vecteur propre w relatif une valeur propre (diffrente
de 0) de la matrice symtrique C'T-lC d'ordre (q, q) vrifie galement [3.3-6].
Le vecteur a et le scalaire vrifient alors la relation [3.3 - 3]. Il suffit en
pratique d'effectuer la diagonalisation de cette matrice symtrique!, puis
d'en dduire a par la transformation [3.3 - 5].
3.3.3 Cas de deux classes:
quivalence avec la rgression multiple
Lorsque la variable y ne prend que deux valeurs, chacune caractrisant une
classe, des simplifications apparaissent. L'analyse discriminante est alors un
cas particulier de la rgression multiple.
On reprera les deux classes par les indices 1 et 2. La matrice des covariances
E entre classes a pour terme gnral:
nI (- _ )(_ -) n2 (- - )(- -)
e.. , =- xl' - X xl" - x ., + - x2' - X x2" - x .,
JJ n ) ) ) ) n ) ) ) )
avec:
- nI _ n2_
x'=-xI'+-x2'
) n ) n )
En remplaant Xj par sa valeur et en tenant compte du fait que nI + n2 = n,
on trouve:
IDe plus cette matrice symtrique d'ordre (q, q) sera en gnral notablement plus petite
que la matrice non-symtrique T-I Ed'ordre (p, p).
258 Mthodes explicatives Ott drives _ Chapitre 3
nl
n
l (- _ )(- -)
ejj' = -1- Xlj - Xlj xli' - Xli'
n
La matrice symtrique E d'ordre (p,p) et de rang l, peut tre considre
comme le produit d'une matrice colonne e par sa transpose:
E =ee'
avec:
,fnl
n
l - _
c- =---(Xl' -Xl')
) n ) J
La relation [3.3 - 3] s'crit alors:
T-lee'a = a
Prmultiplions les deux membres pM e':
[e'T-le]e'a =/te'a
La quantit entre crochets est un scalaire, gal par consquent . qui est ici
une valeur propre unique car E est de rang 1.
Cette valeur propre vaut donc: . =cT-le
. est appele distance gnralise entre les deux classes ou encore "Distance
de MaJwlanobis ". Le vecteur propre correspondant:
a = T-lc
est l'unique fonction discriminante.
Considrons un vecteur w n composantes, dfini par:
w. =f ~ n J n l si le i
me
individu appartient la classe 1
1 l ~ n z / n l s'il appartient la classe 2
La rgression multiple expliquant w par les colonnes de X conduit au
vecteur de coefficients not ici b :
On vrifie que:
b =(X'Xr
1
X'w, avec: -.!.X'X=T
n
d'o:
1X'
- w=c
n
b =T-lc
Le vecteur des coefficients de rgression b concide par consquent avec le
vecteur des composantes de la fonction discriminante a calcul
prcdemment 1.
1 Notons cependant que les tests et autres procdures statistiques seront d'une autre
nature.
3.3 _ Analyse factorielle discriminante 259
3.3.4 Lien avec d'autres mthodes
L'analyse factorielle discriminante est un cas particulier de l'analyse
canonique lorsque l'un des deux ensembles de variables est form par les
indicatrices d'une partition. Lorsque les deux ensembles sont forms de
variables indicatrices, on retrouve l'analyse des correspondances, qui est
une double analyse discriminante (cf. aussi 3.1.3). On peut galement
prsenter la mthode comme une analyse en axes principaux du nuage des
points moyens dans une mtrique particulire.
a - L'analyse canonique
Comme en analyse des correspondances multiples, la variable nominale q
classes sera reprsente par un codage disjonctif complet. On construit ainsi
une matrice Y n lignes et q colonnes de terme gnral Yik valant 1 si
l'individu i appartient la classe k ou 0 sinon. Autrement dit, nous
ajoutons aux variables initiales X des variables artificielles Y qui indiquent
l'appartenance aux diverses classes.
p
i
n X
y
Xjj J\i2 Xp 0 0 0 1 0
Figure 3.3 - 3
Tableau de donnes [X,Y]
Les p colonnes des variables observes du sous-tableau X seront centres et
notes X. Nous poserons:
X - x -x
1) - IJ J
Notons qu' la diffrence de l'analyse canonique, les colonnes de Y ne sont
pas centres: la somme des lments de la Jcme colonne vaut nk.
L'analyse canonique du tableau [X, Y] conduit chercher le vecteur propre a
de la matrice N (formule [3.1 - 4] du 3.1.2.a) :
N = (X'X)-lX'y(y'yr1Y'X
Explicitons les diffrents lments de la matrice N en tenant compte de la
nature particulire des colonnes de Y :
1
-la matrice -X'X n'est autre que la matrice des covariances empiriques
n
dsigne prcdemment par T.
260 Mthodes explicatives 011 drives _ Chapitre 3
-la matrice 0 =Y'Y est diagonale et son k
me
lment diagonal vaut nk,
effectif de la k
me
classe
1
.
- la matrice p lignes et q colonnes H = X'y a pour terme gnral:
n 11
h
jk
=LXijYik =L(Xij - Xj)Yik =L(Xij - Xj) =nk(xkj - Xj)
i=1 i=1 iE!k
En vertu de la relation [3.3 - 4), on peut crire:
h
jk
=.,jnnkCjk
soit:
H = X'y =.Jn C (Y'y)I/2
Ces dernires remarques nous permettent d'crire:
X'y(y'y)-lY'X= n CC' =nE
puisque:
(X'Xr
1
=.!:. T-
1
n
la matrice N devient finalement: N = rIE
et le vecteur a cherch vrifie bien la relation [3.3 - 3] :
Ea = Ta
Nous pouvons galement noter que l'on a, pour les deux types d'analyse, la
mme contrainte de normalisation:
a'Ta = 1
Il Y a donc concidence entre variable canonique et fonction discriminante.
L'analyse discriminante apparat ainsi comme un cas particulier de l'analyse
canonique (sans centrage pralable des variables indicatrices) lorsque l'un
des deux ensembles est constitu de vecteurs boolens dcrivant la partition
de l'ensemble des individus.
b - L'analyse des correspondances
Lorsque le sous-tableau X dcrit lui aussi une partition en p classes, les
rsultats du paragraphe prcdent montrent immdiatement que l'analyse
des correspondances est un cas particulier de l'analyse factorielle
discriminante.
1 En effet, on a la relation -YikYik=8wllk car J'individu i appartient soit la classe k,
;=1
soit la classe k'; u'=l si k=k' et vaut asinon, Pour k=k', il Yaura autant de termes
non nuls dans la somme que d'individus dans la classe k.
3.3 _ Analyse factorielle discriminaI/te 261
"li( f >< q >-
k'
y
o 0 0 1 0
Figure 3.3 - 4
Tableau de donnes [X,Y]
Les deux sous-tableaux X d'ordre (n,p) et Y d'ordre (n,q) de la matrice des
donnes [X, Y] sont forms de variables indicatrices et jouent maintenant
des rles analogues. Dans ce cas, les matrices X'X et Y'Y sont diagonales et
ont pour k
me
lment les effectifs de la classe k de chacune des partitions;
la matrice X'Y n'est autre que le tableau de contingence d'ordre (p,q) croisant
les deux partitions Px et Py .
Conformment aux conventions adoptes en analyse des correspondances,
on notera
1
:
-A.t le k
me
lment diagonal de la matrice 1.. X'X (= Op), (k ~ p)
. n
-h', le k'me lment diagonal de la matrice 1.. Y'Y (= Dg), k ~ q)
11
-AL l'lment gnrique de la matrice 1.. x'Y (= F), d'ordre (p,q)
n
Rappelons les formules tablies au paragraphe 3.1.2 reliant les variables
canoniques:
b = i(y,yfl Y'Xa
.
Leurs composantes s'crivent:
ak = 2. f Ak'b
k
' et
k'=l A.
On reconnat, sous cette forme, les relations barycentriques de l'analyse des
correspondances [1.3 - 12] et [1.3 -13] reliant les coordonnes des deux nuages
sur un mme axe factoriel.
Cette identit suffit tablir qu'une analyse des correspondances est une
analyse canonique particulire o les tableaux X et Y contiennent les
variables indicatrices de deux partitions
2
.
1 n est ici l'effectif global alors qu'il tait dsign par k la section 1.3.
2 La premire racine canonique ,Vest l'homologue de la premire valeur propre, note
A. prcdemment pour J'analyse des correspondances.
262 Mthodes explicatives ou drives _ Chapitre 3
Les sous-espaces V X et Vy ont maintenant en commun la premire
bissectrice! de Rn; leur plus petit angle est donc nul.
Son cosinus (=1) est la valeur propre triviale dj rencontre en analyse des
correspondances lorsque l'analyse est faite par rapport l'origine et non par
rapport au centre de gravit.
On a alors = 1, ai =1 et bj =1, pour tout i et tout j dans les relations crites
ci-dessus. Le fait de centrer le tableau X revient projeter les points-
colOIUles sur le sous-espace orthogonal la premire bissectrice.
Cette opration ne modifie donc pas les variables canoniques non triviales.
L'analyse des LOrrespondances apparat comme une double analyse
discriminante car chacun des blocs dans [X,Y] dcrit une partition et aucun
d'entre eux n'est privilgi. Les fonctions linaires discriminantes
concident avec les facteurs de l'analyse des correspondances
2
du tableau de
contingence d'ordre (p,q) croisant les deux partitions.
c - Une analyse en axes principaux avec une mtrique particulire
L'analyse factorielle discriminante peut tre considre comme une analyse
gnrale du nuage des q centres de gravit des classes k munis des masses
nk/n et avec la mtrique T-
l
ou la mtrique D-
l
dite de Mahalanobis.
Le nombre d'axes discriminants est gal q - 1 dans le cas o n > p > q.
Il suffit en effet de se reporter au paragraphe 3.3.2.c prcdent o est
intervenu pour la premire fois le tableau C des moyennes centres.
L'analyse gnrale de ce tableau C avec la mtrique T-
l
, selon les rsultats
du paragraphe 1.1.6.a du chapitre 1 (analyse gnrale avec une mtrique
quelconque: ici, X = C, M = T-
l
et N = 1) conduit, pour trouver l'axe
factoriel u, la relation:
CCT-lu = Il.u
Posant T-lu = a, o a est le facteur (oprateur projection) correspondant
l'axe factoriel u :
C'Ca = Il.Ta
De la mme faon, avec la mtrique 0-
1
, on obtient:
CCa = 1l.0a
1 La somme des colonnes de Xet la somme des colonnes de Y constituent le vecteur
dont toutes les composantes valent 1.
2 Cette prsentation permet de montrer directement que les valeurs propres de
l'analyse des correspondances, tant des coefficients de corrlntion canonique (ou des
pouvoirs discriminants) sont infrieures ou gales 1. De plus on pourra interprter les
valeurs propres de l'analyse des correspondances en terme de pouvoir discriminant des
facteurs (axes factoriels) vis--vis des partitions tudies.
3.3 _ Analyse factorielle discriminante 263
Choisir la mtrique 0-
1
pour analyser le nuage des points-moyens, c'est
considrer comme quidistantes du centre j (par exemple) des zones
quiprobables (au sens des ellipsodes de densit) d'quation:
(x - Xj )'O-l(x - Xj) = constante
Grce cette mtrique, la distance est interprte en terme de
"vraisemblance d'appartenance".
Ainsi, sur la figure 3.3 - S, o sont reprsentes trois classes ayant mmes
ellipsodes de densit (quation ci-dessus, 0 tant la matrice des covariances
interne commune chaque groupe), les points A et B sont quidistants
(selon la mtrique 0-
1
) du centre de classe GI.
Figure 3.3 - 5
Illustration de la mtrique 0-
1
Avec la mtrique euclidienne usuelle, B serait affect plutt la classe 3 qu'
la classe 1. On voit donc l'intrt de faire intervenir cette mtrique dans
l'analyse des centres'. Nous reviendrons sur cette question au paragraphe
suivant dvolu aux rgles d'affectation.
3.3.5 Principes des rgles d'affectation (ou de classement)
Une fois trouves les fonctions discriminantes qui sparent au mieux les
individus rpartis en q classes, on veut trouver la classe d'affectation d'un
nouvel individu, pour lequel on connat les valeurs des variables
(Xl, x2, ..., Xp).
Une rgle simple et gomtrique d'affectation est de choisir la classe dont le
centre de gravit est le plus proche du point-individu. La mtrique
1 Il est clair que cette mtrique prend en compte une certaine anisotropie (orientation
prfrentielle) de la densit. Elle n'a cependant de sens que si les ellipsodes de densit
sont les mmes l'intrieur de chaque classe. C'est prcisment ce qui caractrise
l'analyse discriminante linaire, par opposition l'analyse discriminante quadratique,
qui autorise des densits de formes diffrentes, et donc des mtriques diffrentes pour
chaque classe.
264 Mthodes explicatives ou drives _ Chapitre 3
gnralement utilise dans les applications les plus courantes est celle de
Mahalanobis globale (0-
1
), ou locale ( 0k"1, o Ok est la matrice des
covariances internes au groupe Ik).
Cette approche purement gomtrique ne prend cependant pas en compte
les probabilits a priori des diffrentes classes, qui peuvent tre trs ingales
dans certaines applications (prvision de dfaillance par exemple, ou
diagnostic d'un vnement rare). Le modle baysien d'affectation permet
d'enrichir ce point de vue.
a - Le modle baysien d'affectation
Au moment de l'apprentissage, nous savons que l'individu i appartient au
groupe Ik (appartenance code par la valeur: Yi = k) et nous calculons une
estimation de la probabilit P(Xi IIk), c'est--dire la probabilit de Xi sachant
que Ik est ralis.
Au moment de l'affectation d'un individu nouveau not x, on peut
calculer les diffrents P(x 1I
k
) pour k = l, 2, ... ,q. Il parat raisonnable
d'affecter x la classe Ik pour laquelle P(x 1I
k
) est maximale.
Cependant, ce ne sont pas les probabilits P(x II
k
) qu'il faudrait connatre
mais les probabilits P(Ikl x), c'est--dire la probabilit du groupe Ik sachant
que x est ralis.
Le thorme de Bayes] permet de procder cette inversion des probabilits.
Il exprime P(Ikl x) en fonction de P(x 1Ik), P(Ik) et P(x) :
P(I 1x) = P(x IIk)P(I k)
k P(x)
P(Ik) est la probabilit a priori du groupe k. P(x) s'exprime en fonction de
P(x 1 Ik) et de P(Ik); d'o la formulation classique du thorme de Bayes:
P(Iklx)= P(xlrk)P(Ik)
q
LP(x 1Ik )P(Ik)
k=l
Le dnominateur est le mme pour toutes les classes. La classe d'affectation
de x sera celle pour laquelle le produit P(x IIk)XP(Ik) est maximal. Si les
probabilits a priori P(Ik) des classes sont gales pour toutes les valeurs de k,
les classements selon P(Ikl x) et P(x 1 I
k
) sont identiques.
1 Pour un expos de l'approche baysienne qui donne lU1 cadre conceptuel spcifique
la thorie de l'estimation et de la dcision statistique, voir Robert (1992).
3.3 _ Analyse factorielle discriminante 265
Pour tester l'efficacit des rgles d'affectation, on mesure les erreurs de
classement par des mthodes de rchantillonnage, notamment la
validation croise ou le bootstrap (cf. 4.2.2). Comme dans le cas du modle
linaire, le choix des variables explicatives est une opration dlicate.
L'tude de la stabilit des fonctions discriminantes est difficile. Les rgles
d'affectation ainsi que l'estimation des taux d'erreur de classement
dpendent souvent de la taille de l'chantillon d'apprentissage.
b - Le modle baysien dans le cas normal
Notons fk(X) la densit de probabilit de x connaissant Ik dans le cas
multinormal, Ilk et Lk dsignant respectivement la moyenne et la matrice
des covariances thoriques l'intrieur du groupe Ik:
1 _.!(x - ~ k ) Lk1(X - ~ k )
A(x) = e 2
(21t')P/2ILkll/
2
que l'on prfrera crire:
A(x) = (21t'fp/2ILkl-
1
/2 exp{ ~ x -Ilk)' LiNx -Ilk)}
L'affectation se fera selon la rgle:
choisir k tel que ff(x)P(I
j
) =max{A(x)P(I
k
)}
k ~ q
ce qui est quivalent trouver le minimum sur k de la fonction sq(x)
appele score discriminant:
[3.3 -7]
Dans le cas o les distributions dans chaque classe ont mme matrice des
covariances (cas illustr par la figure 3.3 - 5), la densit s'crit:
A(x) = (21t'fP/2ILr
1
/2exp{-1(x -Ilk)'L-1(x -Ilk)}
Il suffit alors de prendre pour score discriminant:
[3.3 - 8]
Si de plus les probabilits a priori P(Ik) sont gales, le score discriminant
concide avec la distance de Mahalanobis :
[3.3 - 9]
et la rgle baysienne d'affectation devient la recherche du centre le plus
proche selon cette distance.
Le score discriminant donn par la formule [3.3 - 7] correspond l'analyse
discriminante quadratique. Les cloisons interclasses donnes par l'quation
SCk(X) = SCk'(X), (k ~ k'), sont en effet des hyperquadriques.
266 Mthodes explicatives 01/ drives _ Chapitre 3
Les scores discriminants donns par les formules [3.3 - 8] ou [3.3 - 9]
correspondent l'analyse discriminante linaire. Dans l'quation
sq(x) =sq'(x), (k;;t k'), les termes du second degr en x disparaissent et les
cloisons interclasses sont dans ce cas des hyperplans.
Ces hyperplans ont une quation de la forme:
X'L-
1
(llk' -Ild=constante
Notons que le calcul suppose connus les paramtres thoriques Ilk et L.k.
Ils suggrent de substituer en pratique les estimations empiriques aux
paramtres thoriques. Cette substitution est galement encourage par
l'approche descriptive dveloppe au dbut de cette section, dans laquelle
les distances de Mahalanobis sont apparues de faon naturelle, en cherchant
maximiser le rapport variance externe sur variance interne, sans recours
l'hypothse de normalit.
Les scores discriminants utiliss en pratique
l
, lorsque l'hypothse de
normalit est plausible, sont donc ceux prsents ici avec utilisation des
estimations empiriques des paramtres.
c - Autres rgles d'affectation
Il existe d'autres mthodes de discrimination que celles apparentes
l'analyse factorielle discriminante ou au modle multinormal. Elles
impliquent d'autres rgles d'affectations.
Citons, parmi les mthodes les plus utilises
2
: les mthodes d'estimation
non-paramtriques de la densit, connues galement sous le nom de
mthodes des noyaux (de Rosenblatt ou de Parzen), et les mthodes
d'affectation (galement non-paramtriques) utilisant les m plus proches
voisins.
- Estimation de la densit par noyaux
Une mthode simple de discrimination consisterait diviser l'espace
multidimensionnel de l'chantillon d'apprentissage en cellules de volumes
comparables Vr puis de compter, l'intrieur de chaque classe k, (k 5{ q) , les
nrk observations contenues dans chaque cellule r.
La frquence nrk/nk est une estimation de la probabilit qu'une observation
de la catgorie k appartienne la cellule v
r
. La rgle de Bayes permet alors
d'affecter une observation supplmentaire x une catgorie k, aprs avoir
dtermin la cellule Vr qui la contient.
1 Il n'est cependant pas ais de dmontrer l'optimalit de cette dmarche intuitive, sauf
dans des contextes asymptotiques assez particuliers (cf. Anderson, 1958; Friedman,
1989).
2 D'autres techniques de discrimination seront voques plus loin (mthodes
neuronales, rgression logistique).
3.3 _ Analyse factorielle discriminante 267
[3.3 -10]
Cette mthode est malheureusement impossible mettre en oeuvre car le
nombre de cellules devient vite prohibitif dans un espace p dimensions et
les chantillons n'ont pas une taille suffisante pour permettre une
estimation de frquence l'intrieur de chaque cellule.
On peut, pour la classe k, entourer d'une cellule chaque point observ, de
faon dcrire la densit dans l'espace llV. Si le point affecter x tombe
l'intersection de trois cellules de la classe k par exemple et en dehors des
cellules relatives aux autres classes, cela signifiera qu'il est dans une zone de
forte densit pour la classe k et donc qu'il a plus de chance d'appartenir
cette classe qu'aux autres. Cette ide, prsente ici de faon intuitive, est celle
des noyaux de Rosenblatt (1956).
Au lieu d'entourer les points de cellules de volumes fixes, on peut les
entourer d'une sorte de halo, une zone de densit qui dcrot lorsqu'on
s'loigne du point, de faon procder un lissage de cette densit dans
l'espace multidimensionnel. C'est la mthode d'estimation directe de la
densit par noyaux laquelle on attache le nom de Parzen (1962).
La mthode des noyaux consiste estimer la densit de probabilit
l'intrieur de la classe k dans l'espace lIV par une formule du type:
A(x) = _l_
IK
(x -Xi)
hPnk i=l h
La fonction K(z) doit vrifier les relations K(z) ;;? a, et fK(z)dz = 1. Elle
pourra tre choisie parmi les densits de probabilit usuelles. On note que
l'on a bien dans ces conditions:
fA(x)dx =1.
On utilise souvent la densit de la loi normale sphrique:
K(z) =
Le paramtre h qui intervient dans la formule [3.3 - 10] est la dimension de
la fentre. Dans le cas des noyaux normaux sphriques, il correspond
l'cart-type de la densit locale autour de chaque point. Si h est petit, le
lissage risque d'tre mauvais; si h est trop grand, il risque d'tre excessif. Le
choix de la dimension de la fentre est une des difficults de ces mthodes
d'estimation directe de densit
1
.
- Rgle des m plus proches voisins (Fix et Hodges, 1951)
Cette technique, utilise surtout en reconnaissance des formes, rsout d'une
autre faon le problme des cellules densit trop faible: on tend le
voisinage autour du point x jusqu' ce qu'il contienne m points de
1 Cf. Tomassone et al. (1988), 5i1verman (1986), Delecroix (1983), Hand (1982). Le
paramtre h, suppos UIque dans la formule [3.3 - 10] peut avoir, dans des modles
plus gnraux, tUle valeur diffrente pour chactUle des p variables et galement pour
chacune des qclasses.
268 Mthodes explicatives ou drives _ Chapitre 3
l'chantillon d'apprentissage. On affecte x la classe la plus reprsente dans
ce voisinage.
Cette mthode est particulirement simple mettre en uvre, surtout dans
un processus d'apprentissage progressif, car il n'y a pas de fonctions
complexes recalculer pour prendre en compte les nouveaux individus qui
enrichissent l'chantillon d'apprentissage.
Elle ncessite cependant des effectifs importants, des calculs d'affectation
coteux (pour les exigences de la reconnaissance des formes, o le
classement s'effectue souvent en temps rel) si les paramtres m ou p sont
grands
1
.
d - Qualit des rgles de classement
Il existe un cadre infrentiel paramtrique, apparent l'analyse
multidimensionnelle de la variance, qui permet de tester l'htrognit
des classes (test de l'galit des moyennes ~ test de l'galit des matrices de
covariances internes Ok). Ces tests (mentionns dans la plupart des manuels
de rfrence cits au dbut de la section 3.3) dont la robustesse est difficile
tablir, sont moins utiliss depuis l'avnement des mthodes non-
paramtriques de rchantillonnage qui seront voques la section 4.2 du
chapitre 4.
On esquissera ici, pour les besoins des dveloppements qui suivront, la
mthode dite de validation croise.
La validation croise
La mesure de la qualit d'une discrimination se fait partir des
pourcentages de bien classs (ou de mal classs) dans chaque classe, et du
pourcentage global de bien classs. Cette mesure peut galement, dans
certaines applications, faire intervenir des cots de mauvais classement.
On peut calculer un pourcentage de bien classs sur l'chantillon
d'apprentissage, ce qui donnera une ide optimiste de la qualit de la
discrimination. Ce pourcentage de bien classs augmente avec le nombre de
paramtres du modle, et peut tre excellent si le nombre de paramtres est
considrable, sans pour cela assurer que le modle permet de raliser une
prvision correcte. Le pourcentage de mal classs dans ces conditions est
appel le taux d'erreur apparent ou encore le taux d'erreur par
resubstitution.
1 Il existe des ponts thoriques entre la mthode des m plus proches voisins et
l'estimation directe de densit dans le cas de variables binaires (cf. Fix et Hodges,
1951; Aitchison et Aitken, 1976). II est galement possible, on l'a voqu, de travailler
avec des noyaux adaptatifs, en faisant varier la dimension de la fentre Il ou en
tenant compte des distances des m plus proches voisins. Pour une discussion de ces
diverses variantes, voir McLachlan (1992). Sur les divers algorithmes de m plus
proches voisins utiliss en reconnaissance des formes, cf. Dubuisson (1990). Sur les
problmes poss par des probabilits a priori ingales, cf. Chateau (1994).
3.3 _ Analyse factorielle discrimillallte 269
La mthode des chantillons-tests! recommande d'effectuer la
discrimination sur une partie seulement de l'chantillon d'apprentissage
(disons 80%) et de tester les rgles de discrimination sur les 20% non
utiliss.
On peut amliorer le calcul du taux d'erreur en divisant l'chantillon
d'apprentissage en m parties gales, en calculant la rgle sur un chantillon
partiel form de m-l parties, et le taux d'erreur sur la partie restante, ce qui
peut tre fait de m faons diffrentes. Ceci permet donc de calculer un taux
d'erreur moyen sur un chantillon aussi important que l'chantillon
d'apprentissage.
Plus m est proche de n, plus on se rapproche de la situation relle de
classement. La validation croise
2
correspond au cas m = n, autrement dit,
au cas pour lequel on effectue n discriminations en excluant chaque fois
une observation. Cette mthode est videmment coteuse en calcul mais
on peut parfois mettre en uvre des algorithmes vitant des recalculs
complets des fonctions discriminantes
3
.
La minimisation du taux d'erreur par validation croise peut tre utilise
comme critre pour calculer les paramtres de certains modles de
discrimination.
3.3.6 Rgularisation en analyse discriminante
Comme la rgression multiple (dont elle est un cas particulier dans le cas o
la variable nominale prdire n'a que deux catgories, cf. 3.3.3), l'analyse
factorielle discriminante ncessite l'inversion d'une matrice des
covariances des prdicteurs (la matrice totale T ou la matrice intraclasse D).
Dans le cas de l'analyse discriminante quadratique, le calcul des distances de
Mahalanobis locales demande d'inverser les matrices de covariances
internes chaque classe Dk (dont D est une moyenne pondre).
Ces matrices D ou T, et surtout les matrices Dk, calcules sur un effectif nk
plus petit que n, peuvent tre mal conditionnes ou mme singulires.
C'est systmatiquement le cas en analyse discriminante qualitative lorsque
les prdicteurs sont des variables nominales codes sous forme disjonctive
comme en analyse des correspondances multiples ou en analyse de la
variance (cf. 3.3.7).
1 On peut faire remonter cette pratique Highleyman (1962), mais elle a probablement
d tre utilise antrieurement, tant son principe relve du bon sens. Elle a t prne
notamment par Romeder (1973).
2 Attribue Lachenbruch et Mickey, 1968, cette mthode (cross-validation) aurait t
utilise ds 1964 par des chercheurs russes, selon Toussaint (1974). Ses proprits ont
t tudies par Stone (1974) et Geisser (1975). Une revue est faite par Hand(1986).
3 Cf. par exemple, Ce]eux (1990) pour le cas des fonctions linaires discriminantes.
270 Mthodes explicatives ou drives _ Chapitre 3
On prsentera brivement ci-dessous une mthode de rgularisation
propose par Friedman et la mthode de rgularisation par axes principaux
dj propose pour la rgression ( 3.2.5). Cette mthode a l'avantage de
fournir une description pralable de l'espace des prdicteurs et des
possibilits ultrieures de filtrage et de slection de l'information.
a - ~ n l y s rgularise de Friedman (1989)
Dans cette mthode de rgularisation, une nouvelle estimation Dk(?.,n est
calcule pour chaque matrice des covariances locales Ok, qui devient une
moyelU1e pondre des matrices des covariances globales et locales (rle du
poids ?.) et de la matrice unit (rle du poids y) :
0k(, y) =(1- y)Dk(?.)+ l. tr[Dk(?.)]1
p
avec:
0k() = (l-?.)Ok +?.O
(1- ?.)nk +?.n
Le scalaire tr[ Dk(?.)] est la trace de la matrice Dk(?.).
La dtermination des paramtres ?. et y se fait en optimisant les
pourcentages de bien classs obtenus par validation croise.
Ces techniques donnent des rsultats intressants dans le cas de tableaux de
donnes petits ou moyens, lorsque le problme initial est mal pos (n ~ p)
ou pauvrement pos (n > p, mais encore comparable p)l.
Dans le cas de grandes matrices clairsemes cependant, l'chelle du
phnomne cre de nouveaux problmes. Il est alors ncessaire de
comprendre ce qui se passe dans les espaces de dimension leve.
Est-il vraiment ncessaire de garder tous les axes principaux? Est-il possible
de filtrer l'information de base caractrise parfois par un haut niveau de
bruit? L'analyse par axes principaux rpond ces proccupations.
b - Analyse rgularise par axes principaux
Du point de vue numrique, la diagonalisation est une opration plus sre
que l'inversion des matrices. La thorie de la perturbation
2
nous apprend
que la stabilit des vecteurs propres est une fonction croissante des
diffrences entre valeurs propres conscutives. Dans ce contexte, s'il est
ncessaire d'liminer les dimensions correspondant des valeurs propres
nulles, il peut tre aussi avantageux d'liminer les dimensions
1 Voir aussi Callant (1991) pour une technique d'estimation des paramtres ft.. et y.
2 Cf. par exemple: Wilkinson (1965); Kata (1966) et les travaux de Escofier et Leroux
(1972) utilisant les rsultats de ces thories en analyse factorielle.
3.3 _ Analyse factorielle discriminante 271
correspondant aux petites valeurs propres, qui sont trs sensibles aux
perturbations du tableau de donnes
l
.
- Axes principaux de l'chantillon total
La teclmique de rduction qui sera utilise durant la premire tape dpend
de la nature et des proprits statistiques des donnes de base
2
Une simple
dcomposition aux valeurs singulires suffit pour une rgularisation
numrique, si l'on ne dsire pas de description de l'espace des prdicteurs.
Les nouvelles coordonnes de l'individu i sur l'axe principal r issu de
l'analyse de l'chantillon total sont dsignes par Zri ,
zri :: - x)
o ici ur est le vecteur propre normalis de T matrice des covariances
totales correspondant la valeur propre ar; ur est aussi la colonne de la
matrice U d'ordre (p, rmax) (o rmax est le nombre de valeurs propres
retenues). !
La distance euclidienne usuelle dans RP de tout point i au point-moyen Gk
de la classe k (le point i peut ne pas appartenir la classe k ni l'chantillon
d'apprentissage) peut s'crire:
P
d
2
(i,Gk)=I(xjj-xkj)2 [3.3-11]
j=l
si rmax:: p' (p' dsignant le rang de la matrice de donnes X), cette mme
distance s'crit, pour la nouvelle base:
[3.3 -12]
[3.3 -13]
avec
La distance de tout point i au centre Gk de la classe k dans la mtrique T-
1
(intervenant en analyse discriminante linaire, cf. 3.3.4.c) est telle que:
rmar ( -)2
D
2
(i,Gk)= l Zjr -Zkr
r=l ar
On a toujours rmax :;p'. La distance D
2
(i,Gk) est dite rgularise si rmax <p
ou si rmax :: p' avec p' < Min (n,p).
1 Cf. Les travaux de Wold (1976). Benzcri (1977 a) recommande que les analyses
discriminantes soient ralises sur les axes d'une analyse factorielle pralable.
2 Analyse en composantes principales dans le cas o les prdicteurs sont des variables
continues, situation retenue au cours des dveloppements qui prcdent; mais cette
rduction pourra aussi tre une analyse des correspondances dans le cas de frquences
ou des correspondances multiples dans le cas de variables nominales.
272 Mthodes explicatives ou drives _ Chapitre 3
[3.3 -15]
- Axes principaux de l'chantillon projet
Si l'on substitue la matrice de donnes X, de terme gnral Xij, la matrice
Xde terme gnral Xij = Xij - xkj o k est l'indice de la classe Ik laquelle
appartient l'observation i et o Xkj dsigne la moyenne de la variable j dans
cette classe
1
, on est conduit diagonaliser la matrice 0 (au lieu de T). Les
valeurs propres de 0 sont notes
r
et les coordonnes des observations sur
les nouveaux axes principaux
r
sont notes 1r.
La distance de tout point i au centre Gk de la classe k dans la mtrique 0-
1
(distance de Mahalanobis globale) est telle que:
r
max
-;::)2

2
(i,Gk) = L Zir Zkr [3.3-14]
r=1 ar
f)2(i,Gk) est rgularise si rmax = pU (o p" dsigne le rang de la matrice
transforme X) quand p"<Min (n,p) ou si rmax < p".
- Axes principaux dans les groupes
Pour chaque classe Ik, les matrices de covariances d'ordre (rmax ,rmax) sont
calcules sparment. On les exprimera ici partir des coordonnes de
l'analyse globale prcdente.
Les nouvelles coordonnes de l'individu i sur l'axe principal s de l'analyse
ralise l'intrieur de la classe Ik (il s'agit donc dans ce cas d'une simple
analyse en composantes principales non norme) sont
2
;
wski =v;k(Zi -zk)
o Vsk est le sme vecteur propre normalis de U'DkU correspondant la
valeur propre /3sk (/3sk est galement valeur propre de Ok)'
Avec ces coordonnes, on peut videmment retrouver les distances
usuelles, calcules cette fois dans chacune des q nouvelles bases (pour tout
point i et tout point-moyen G lorsque le nombre Smax (k) d'axes retenus
ce stade pour la classe k, vrifie; Smax (k) = rmax.
smJncCk)
d
2
(i,Gk) = L (Wski -Wksi
s=1
avec:
1 Comme l'opration de centrage global, cette opration correspond une projection P.
Si Ydsigne le tableau disjonctif complet d'ordre (n,q) dcrivant la partition prdire,
l'oprateur projection s'crit; P = 1.. y(y'y).ly'. On peut parler dans ces conditions
d'analyse interne ou conditionnelle; comme en analyse de la variance, on a limin la
dispersion due aux classes en supposant que celles..d avaient un effet additif.
2 Cette formule de projection sur l'axe t est videmment valable pour des points
n'appartenant pas la categorie k (points supplmentaires ou illust ratifs).
3.3 _ Analyse factorielle discrimillallte 273
La distance de Mahalanobis locale (intervenant en analyse discriminante
quadratique) peut s'crire:
sma,(k)( =--)2
c])2(i,Gk)= L wsk;-<vks [3.3-16]
s=1 f3sk
Une telle distance peut tre "rgularise" deux niveaux:
- une premire fois si rmllx < p' (p' dsigne le rang du tableau de donne);
- de nouveau si Smllx (k) <rmllx,
On a not que, si smllx(k) =rmllx = p, les distances donnes par les formules
[3.3 - 11], [3.3 - 12] et par les q formules [3.3 - 15] (il Y a q bases orthonormes
diffrentes donc q formules diffrentes) sont toutes gales.
- Exemple numrique d'application
L'exemple qui suit concerne les effets de la dimension des sous-espaces sur
les pourcentages de bien-classs, la fois dans les chantillons
d'apprentissage et dans les chantillons-tests.
Le jeu de donnes utilis est un tableau binaire clairsem de dimensions
(634, 83) contenant 4039 cases non-nulles
1
.
L'ensemble des 634 lignes (rpondants) peut tre rparti en q = 3 classes
d'ge. Le problme est de savoir dans quelle mesure ces classes ge peuvent
tre prdites partir des rponses. Notre critre d'valuation de la
discrimination est le pourcentage de succs (bien classs), qui sera calcul
systmatiquement la fois pour l'chantillon d'apprentissage et pour un
chantillon-test qui comprend le tiers (211 individus) de l'chantillon
global.
Valeurs propret
Val eurs
propres
0.4 -.
0, 3S ~
0,3 \
0,25 '-.11'.
0,2 . r.!.!...
-......!.-...
0,15 -...!._ ..............
0, l -..._.
0,05 _ ~ __
o ...........-.---",,'
20 40 60 80 100
Nombre d'axes principaux
Figure 3.3 - 6
Squence des valeurs propres de la premire analyse.
1 Il s'agit pour cet exemple de 4039 occurrences de p= 83 mots utiliss dans n = 634
rponses une question ouverte dans une enqute (cf. Lebart, 1992).
274 Mthodes explicatives ou drives _ Chapitre 2
La premlere tape est un changement d'axes par analyse des
correspondances. La squence des valeurs propres, visible sur la figure
prcdente (cf. figure 3.3 - 6), est assez typique des tableaux clairsems: la
dcroissance des valeurs propres est trs lente, presque linaire aprs l'axe
15. Les 15 premires valeurs propres correspondent 37% de la trace,
Chacun des axes restant correspond approximativement 1% de la trace.
70
65 %de
biens
classs
60
55
50
45
40
-.- Usuelle ECH APPR Usuelle ECH TEST
-- ::: :::: ./'
._.7
Mahal. locale/EchAppr /
j'\'./'/'
/ ..../
/.

Nombre d'axes principaux


35 __ __
10 15 20 25 30 35 40
Figure 3.3 - 7
Trajectoires des pourcentages de bien classs en fonction
du nombre d'axes principaux (axe des abscisses) selon trois distances
et selon le type d'chantillon (test ou apprentissage)
La figure 3.3 - 7 montre les trajectoires des pourcentages de succs obtenus
pour chacune des trois distances prcdentes: Distance euclidienne usuelle
(formule [3.3 - 12]), distance de Ma/wlanobis globale (formule [3.3 - 14]),
distance de Mahalanobis locale (formule [3.3 - 16]).
On note que les taux correspondant aux chantillons d'apprentissage
augmentent continment avec le nombre d'axes alors que les taux
correspondant aux chantillons-tests sont pratiquement stabiliss ds l'axe
15 (avec les notations ci-dessus, on peut choisir sans inconvnient
smax(k) =r
max
=15 alors que p =83 et p' =82).
3.3 _ Analyse factorielle discriminante 275
Parmi les trajectoires des chantillons d'apprentissage, le pourcentage de
bien classs correspondant la distance de Mahalanobis locale crot
fortement et atteint un niveau de 70% de succs pour 40 axes. Une telle
distance dpendant d'un nombre de paramtres plus important que les
deux autres, s'adapte souplement aux donnes d'apprentissage
l
, sans
fournir d'amlioration notable sur les chantillons-tests.
Pour cet exemple, la distance de Mahalanobis globale a des performances
trs voisines de la distance euclidienne usuelle. Les performances sont
lgrement suprieures pour l'chantillon d'apprentissage.
Cet exemple met bien en vidence la puissance du filtrage ralis par
l'analyse factorielle pralable. La plupart des traits structuraux susceptibles
de donner lieu une prvision sont retenus dans l'espace 15 dimensions
des premiers axes.
3.3.7 Discrimination sur variables nominales
L'analyse factorielle discriminante que nous venons de prsenter s'applique
un ensemble de n individus rpartis en q classes dfinies a priori par la
variable nominale y et dcrits par p variables (Xli X2, ... , x
p
) continues.
Lorsque les p variables explicatives sont nominales, le calcul des fonctions
linaires discriminantes ne peut plus tre appliqu, en raison des
singularits de la matrice X, mais la rgularisation par axes principaux
permettra de lever cette difficult.
a - Analyse factorielle discriminante qualitative
Comme pour tout traitement de variables nominales, on procde au codage
disjonctif complet des p variables explicatives. L'analyse factorielle
discriminante qualitative consiste alors en une analyse factorielle
discriminante classique sur les indicatrices des variables explicatives.
La matrice des variables explicatives X=[X
1
,X2,""X
p
] n'est pas inversible
puisqu'il existe p relations linaires entre les colonnes du tableau disjonctif
complet. On peut alors, comme pour l'analyse de la variance, supprimer
une modalit de chaque variable nominale ce qui ne modifie pas le sous-
espace des variables explicatives Vx. Ceci ne suffit pas assurer que la
matrice rduite est bien conditionne.
La rgularisation par axes principaux revient dans ce cas raliser une
analyse discriminante classique sur les facteurs de l'analyse des
correspondances multiples
2

1 Plus le nombre de paramtres augmente, plus l'apprentissage se rapproche de ce que


l'on appelle en intelligence artificielle l'apprentissage par coeur, c'est--dire une
adaptation trompeuse une situation donne, sans possibilit de gnralisation.
2 Enchanement connu en particulier sous le nom de mthode DISQUAL (Saporta, 1977).
276 Mthodes explicatives ou drives _ Chapitre 3
On procde alors en effectuant:
- une analyse des correspondances sur le tableau disjonctif complet; les p
variables nominales sont donc remplaces par Il variables continues qui
sont les h facteurs de l'analyse des correspondances multiples.
- une analyse factorielle discriminante sur les Il variables continues dont
les valeurs sont les coordonnes sur les axes factoriels de l'analyse des
correspondances multiples.
Compte tenu du nombre gnralement important de facteurs de l'analyse
des correspondances multiples, on retiendra les facteurs les plus
discriminants et qui ne figurent pas toujours parmi les premiers
l
.
b - Analyse discriminante barycentrique
L'analyse discriminante barycentrique revient simplement faire l'analyse
des correspondances du tableau croisant la variable expliquer y avec les
variables explicatives (Xl, x2, ... , Xp) (empilement de tables de contingences) :
les lignes sont constitues par les modalits de y et les colonnes par la
juxtaposition des modalits de (Xl, x2, ... , xp).
Il s'agit en fait d'une bande du tableau de Burt qui permet de dcrire les
liaisons existant entre la variable expliquer et l'ensemble des variables
explicatives (cf. 1.4.7.b; Saporta, 1975 a; Leclerc, 1976).
En plaant en lments supplmentaires de nouveaux individus
caractriss par les variables explicatives, on ralise une raffectation
similaire celle l'analyse discriminante (cf. Nakache et al. ,1977).
Dans le cas o les variables explicatives sont indpendantes deux deux,
l'analyse discriminante barycentrique est quivalente l'analyse factorielle
discriminante qualitative (puisque l'analyse d'une bande du tableau de Burt
est alors quivalente l'analyse du tableau complet). Dans le cas gnral,
elle est, en thorie, moins performante puisque, comme nous l'avons vu
dans 1.4.7.b, elle ne tient pas compte des liaisons entre les variables
explicatives. Elle est cependant largement utilise en raison de sa simplicit
et sa robustesse (cf. Cartier, in : Celeux et Nakache, 1994).
c - Note sur le "scoring"
Frquemment utilise par les organismes bancaires cherchant prvoir la
dfaillance ventuelle d'un client (individu ou entreprise), la mthode dite
de "scoring" permet une mise en forme simple des rsultats d'une analyse
discriminante gnralement deux groupes. Elle n'est pas proprement
1 Que ce soit pour l'analyse factorielle discriminante qualitative et, nous allons le voir,
pour l'analyse discriminante barycentrique, il est conseill de procder au pralable
une premire slection des varinbles nominales explicatives en croisant far exemple chacune
d'entre elles avec la partition expli?uer y, en calculant les X correspondants, et
gardant celles qui correspondent aux x- les plus significatifs.
3.3 _ Analyse factorielle discrimillante 277
parler une mthode de discrimination sur variables nominales; mais elle
utilise les rsultats d'analyses discriminantes sur variables nominales ou
continues pour construire une fonction de score
1
On dispose ainsi d'un
instrument de dcision accessible pour affecter un individu dans un groupe.
Dans le cas de deux groupes, on obtient une seule fonction discriminante: la
combinaison linaire des variables qui spare au mieux les deux groupes
d'individus. Un individu est affect l'un des groupes si la fonction prend
pour lui une valeur suprieure un certain seuil.
Cette fonction discriminante est ensuite transforme en un systme
quivalent de coefficients attribus aux modalits des variables nominales
ou aux ventuelles variables continues (en gnral aprs une slection
svre). Cette transformation fournit la fonction score dont les coefficients
constituent des notes attaches aux modalits ou aux variables.
Pour chaque individu, on calcule le score
2
c'est--dire la somme des notes
associes aux prdicteurs. On affectera alors cet individu un groupe si son
score est suprieur un certain seuil. L'introduction d'une tolrance
d'erreur de classement permet en fait de dfinir trois zones de dcisions sur
la fonction score: la zone des scores levs, celle des scores faibles et une
zone d'indcision pour laquelle un individu n'est pas automatiquement
class.
3.3.8 Discrimination et rseaux de neurones
Ce paragraphe ne constitue qu'une brve note bibliographique destine
orienter le lecteur statisticien dsireux d'aborder les techniques neuronales
de discrimination.
Dveloppes au milieu des annes quatre-vingt, les mthodes neuronales
(ou rseaux neuronaux ou encore rseaux neuro-mimtiques) ont
renouvel et stimul la discipline cormue sous le nom de reconnaissance de
formes qui recouvre beaucoup d'applications industrielles (notamment des
applications en temps rel) des mthodes de discrimination.
Fondes au dpart sur des analogies biologiques et sur un effort de
modlisation des mcanismes de perception visuelle et auditive, ces
mthodes ont acquis depuis une certaine autonomie. Les relations avec la
statistique ont t frileuses en raison de diffrences d'approches et de
vocabulaires
3
. Mais des ponts ont t jets et les annes rcentes ont vu la
1 Cf. dans le cas d'analyses appliques la dtection de dfaillances d'entreprises (
partir de slection de variables continues) : Bardos (1984,1989).
2 Les enchamements de calculs de l'analyse discriminante qualitative, la fonction score
ainsi que l'analyse barycentrique (construction d'une bande du tableau de Burt) sont
prvus dans le logiciel SPAD.N.
3Ce sont des informaticiens en milieu industriel qui sont l'origine de ces mthodes.
278 Mthodes explicatives ou drives _ Chapitre 3
parution d'une srie d'articles de revue ou de synthse J qui ont prouv la
complmentarit des points de vue et l'enrichissement mutuel attendre
des contacts et changes entre statisticiens et neuromimticiens.
Schmatiquement, disons que les statisticiens peuvent complter la
panoplie des modles qui leur sont familiers avec les modles
essentiellement non-linaires et seuils qui sont attachs aux rseaux de
neurones. La structure de ces rseaux permet d'autre part des calculs
parallles indispensables pour une implmentation matrielle directe de ces
mthodes et des utilisations en temps rel, domaine peu abord par les
statisticiens. Inversement, l'essentiel de ce qui concerne l'infrence ou la
validation des dmarches et des rsultats est mettre au crdit des
approches statistiques. Ces aspects sont reconnus comme indispensables ds
qu'il s'agit de comparer des modles, d'valuer des risques, de calculer des
taux d'erreurs, proccupations caractristiques d'une discipline arrive
maturit.
On voquera seulement dans cette note bibliographique le modle neuronal
le plus rpandu dans le cadre de la discrimination qui est le perceptron
multi-couche, puis on dira quelques mots des mthodes non-supervises.
a - Schma et modle du perceptron multi-couches
Le contexte est le mme que celui qui a t dfini au dbut de cette section.
On dispose d'une variable qualitative y q modalits (ou catgories) que
l'on doit prdire partir de p variables (Xl, x2, ... , Xp) prdictrices. On dispose
par ailleurs de n individus ou observations (chantillon d'apprentissage)
dcrits par les p variables (Xl, X2, ... , xp) et pour lesquels ont connat la classe
d'affectation note ici Yk (k q).
Entre
Couche
cache
SOl1ie
Yl
Figure 3.3 - 8
Perceptron une couche cache
La figure 3.3 - 8 se commente de la faon suivante en utilisant le vocabulaire
et les concepts de l'approche neuronale: la couche d'entre est forme de
1 Citons en particulier les articles de synthse de Ripley (1993, 1994) et de Cheng et
Titterington (1994).
3.3 _ Allalyse factorielle discrimillallte 279
p =5 entres, auxquelles seront appliques des coefficients appels les poids
synaptiques Wjm. La couche cache comprend c =3 neurones qui seront
chacun activs par une intgration (en gnral fonction monotone de la
somme) des p signaux en provenance de la couche d'entre. La mme
opration a lieu pour les q =3 lments de la couche de sortie mettant en
jeu des poids synaptiques Vmk.
En termes de modle analytique, on crira:
Yk = <pojak + vmk <p[a
m
+ i Wjm
Xj
]) [3.3 -17]
m=1 )=1
Dans cette formule, la fonction <P est dans la plupart des applications la
fonction logistique qui sera aborde la section 3.4. Elle s'crit:
<P(z) = exp{ z}
l+exp{z}
La fonction <Po peut tre selon les cas linaire, logistique, ou seuil (par
exemple: <Po(z) = 0 si z::;O et <Po(z) = 1 si z >0).
On voit que la figure 3.3 - 8 est utile pour visualiser l'enchanement de
fonctions correspondant aux tapes du traitement. La lecture de droite
gauche de la figure correspond bien sr une lecture de gauche droite de
la formule [3.3 - 17]. Il Ya lc (p+V + q (c+1) ) paramtres estimer.
L'quation [3.3 - 17] correspond une observation (j) . On a en ralit n
quations de ce type, faisant chacune intervenir q valeurs y ~ i (valeurs 0 ou
1 s'il s'agit d'appartenance une classe d'une partition en q classes) et p
valeurs xji).
L'estimation des paramtres se fait en minimisant une fonction de perte,
qui peut simplement tre la somme des carrs des carts entre les valeurs
calcules j ~ et les valeurs observes y ~ i dans l'chantillon
d'apprentissage 1.
Remarquons que pour une sortie binaire (deux classes possibles pour y qui
peut alors tre un scalaire prenant les valeurs 0 ou 1) et un perceptron sans
couche cache, on se trouve dans le cadre du modle de la rgression
logistique voqu en section 3.4.4.
La formule [3.3 - 17] s'crit alors:
[3.3 -18]
1 L'estimation numrique se fait par une mthode de descente de gradient dite de back-
propagation. (cf. Werbos, 1974, 1990; Rumelhart et al., 1986). Pour un programme de
calcul, cf. Proriol (1991), ou la procdure NEURO du logiciel SPAD.N.
280 Mthodes explicatives 01/ drives _ Chapitre 3
Ici, la fonction $0 peut tre une fonction seuil, qui convertit la probabilit
donne par le modle logistique proprement dit ( l'intrieur des accolades)
en l'une des deux valeurs 0 ou 1.
Si l'on rduit les deux fonctions $0 et $ la fonction identique $(x) =x, on
retrouve la rgression multiple (cf. section 3.2) et l'analyse discriminante
deux groupes (cf. paragraphe 3.3.3) qui en sont des cas particuliers.
Cet exemple trs simple du perceptron multi-couches montre donc que les
gnralisations les plus videntes par rapport aux modles explicatifs usuels
de la statistique concernent la prsence ventuelle des fonctions $0 et $ et
l'existence d'une ou plusieurs couches caches qui autorisent des
interventions non-linaires des paramtres 1.
b - Modles non-superviss ou auto-organiss
Alors que les modles superviss (pour lesquels on dispose d'un
chantillon d'apprentissage permettant d'estimer les paramtres)
correspondent tout fait la dmarche de la rgression et de l'analyse
discriminante, les modles non-superviss ou auto-organiss sont le
pendant des mthodes purement exploratoires.
Reprenons l'exemple du perceptron multicouche, pour lequel nous
su pposerons les fonctions $0 et $ linaires ou (sans perte de gnrali t
dans ce cas) gales la fonction identique. Nous supposerons de plus que les
variables sont des variables numriques centres, et que les termes constants
sont nuls.
La formule [3.3 -17] s'crit:
Yk =1Vlnk (fWjIn
Xj
]) = f
1n=1 J=l J=l
[3.3 - 19]
que l'on peut crire sous la forme:
y = VWx, soit y(i) = vwi
i
) pour chaque observation i.
On peut poser A = vw. La matrice A est d'ordre (q, p), si la taille c de la
couche cache n'introduit pas de restriction sur le rang de A, qui est au plus
le plus petit des trois nombres q, c, p.
En l'absence de contrainte sur A, on est dans le cadre de la rgression
multiple simultane comportant plusieurs variables endognes, qui revient
faire q rgressions multiples (cf. 3.6.2 b).
1 Notons que dans un modle gnral comme celui de la formule [3.3 -17), il n'est pas
ncessaire de retenir toutes les flches entre deux couches conscutives (certain poids
synaptiques peuvent tre nuls a priori, d'autres peuvent avoir une valeur fixe, et ainsi
rduire le nombre de paramtres estimer).
3.3 _ Allalyse factorielle discriminante 281
La solution s'obtient ici en rendant minimale la somme sur les n
observations:
,
5 =:L( y(i) - Ax(i) (y(i) - Ax(i)
1
Dans les modles non-superviss dits d'auto-association, on ne connat pas
y, (il n'y a pas de "professeur") et on utilise l'artifice qui consiste remplacer
y par x (cf. Baldi et Hornik, 1989).
Ceci semble une trivialit, et est effectivement une trivialit si la couche
cache possde autant d'lments que x (c =p) et s'il n'y a pas de contraintes
sur A (auquel cas on a la solution A = 1).
Mais si la couche cache est notablement plus rduite que les couches
d'entre et de sortie, (c p), elle forme un tranglement et le rseau ralise
une compression du signal d'entre.
On veillera rendre minimale la quantit 51 :
,
51 =:L( x(i) - vwx(i)) (x(i) - vwx(i)
i
On s'efforce donc de rduire le plus possible la dformation moyenne de x
aprs intervention du rseau, qui n'est autre ici qu'une projection sur un
sous-espace de dimension c infrieure p. La solution est fournie par
l'analyse en composantes principales du tableau X (qui est aussi une
dcomposition aux valeurs singulires, puisque nous avons suppos les
variables centres) dont les n lignes sont les vecteurs xi.
Ainsi, par exemple, avec un seul neurone dans la couche cache, la matrice
V West de rang l, ce qui conduira au premier axe de l'analyse en
composantes principales de X. Une dmonstration complte, incluant le cas
supervis (rgressions multiples simultanes avec contrainte de rang pour
le tableau de coefficients) se trouve dans Baldi et Hornik (1989, op. ciL).
L'auto-organisation, notion tudie et formalise par Kohonen (1989), qui
est un des pionniers de l'approche neuronale, est donc rendue possible par
la structure interne du rseau.
D'autres travaux sont relatifs aux algorithmes il lecture directe, comme
l'algorithme de diagonalisation par approximation stochastique propos par
Benzcri (1969 b), antrieurement aux approches neuronales 1.
Ces algorithmes peuvent en effet tre interprts en terme d'apprentissage
et d'auto-organisation. Un algorithme identique il une normalisation prs a
t propos indpendamment par Oja et Karhunen (1981), puis amlior par
la suite par ces auteurs et d'autres neuromimticiens. Ce domaine, qui a des
applications potentielles importantes en compression d'image, a depuis t
1 On trouvera une tude plus numrique de la convergence de l'algorithme dans Lebart
(1974), et Je programme correspondant dans Lebart et al. (1977).
282 Mthodes explicatives ou drives _ Chapitre 3
trs dvelopp. Sur les liens entre rseaux neuronaux et analyse en
composantes principales, cf. Oja (1982), Bourlard et Kamp (1988), Sirat (1991),
Oja (1992).
Enfin, une autre approche non-supervise, plus proche des mthodes de
classification, est celle des cartes auto-organises (self organizing maps) de
Kohonen (Kohonen, 1989; Cottrell et Fort, 1987). L'algorithme est assez
similaire celui de la mthode d'agrgation autour de centres mobiles (k-
means) (dmarrage alatoire, affectations aux centres de distances
minimales, obtention de minima locaux) mais conduit une reprsentation
plane (cf. Ritter et al., 1992).
c - Statistique et mthodes neuronales
On compltera cet aperu par un rsum de l'intervention de Tibshirani
lors d'une discussion sur la synthse de Cheng et Titterington (1994, op.cit.).
Cette intervention commence par une remarque gnrale sur la statistique
et les rseaux de neurones:
"Les statisticiens ont tendance travailler avec des modles plus
interprtables car, pour eux, mesurer l'effet des variables est plus
important que la prdiction".
Tibshirani rpond ensuite deux questions:
- Que peut apprendre un statisticien d'un neuro-mimticien ?
1 "On devrait moins se soucier de l'optimalit statistique que de trouver
des mthodes qui fonctionnent, spcialement sur les grands ensembles
de donnes.
2 On devrait plus attaquer les problmes rels auxquels se consacrent les
neuro-mimticiens: reconnaissance de l'criture et de la parole,
prdiction des structures de l'ADN. Comme le dit John Tukey : il vaut
mieux avoir une solution approche d'un problme rel que la
solution exacte d'un problme trop simplifi.
3 Les modles trs nombreux paramtres peuvent tre utiles pour la
prdiction, spcialement pour les grands tableaux de donnes et les
donnes bruites.
4 Modliser des combinaisons linaires des variables d'entres est trs
utile, car cela prend en compte des traits structurels et rduit la
dimension.
5 Des algorithmes itratifs comme la descente de gradient (avec taux
d'erreurs) peuvent viter des ajustements trop complaisants.
6 Nous (statisticiens) devrions mieux nous vendre... "
- Que peut apprendre un neuromimticien d'un statisticien?
1 "Il devrait plus s'intresser l'optimalit statistique, ou au moins, aux
proprits statistiques des mthodes.
3.3 _ Analyse factorielle discriminante 283
2 Il devrait faire plus d'efforts pour comparer ses mthodes des
mthodes statistiques plus simples. Il serait alors surpris de voir que la
rgression fait souvent aussi bien qu'un perceptron multi-couches. Il
ne devrait jamais utiliser un modle compliqu alors qu'un modle
simple suffit."
Ces remarques n'pargnent pas les statisticiens, qui ont devant eux une
profusion d'ides nouvelles et un vaste chantier ouvert. Ceux d'entre eux
qui se consacrent l'analyse exploratoire des grands tableaux se sentent
cependant moins concerns par les deux premires critiques de Tibshirani.
Autres rfrences
Outre les trois articles de synthse prcits, on mentionnera, toujours pour
un lectorat de statisticien: l'ouvrage de base de Hertz et al. (1991), l'article
plus thorique de Amari (1990), sur les fondements mathmatiques des
mthodes. Mentionnons galement l'article de Hornik (1994) dcrivant,
l'intention des statisticiens, le perceptron multicouche et les algorithmes
d'analyses en composantes principales par apprentissage comme deux
intersections importantes entre les deux disciplines. En Franais, on
consultera les ouvrages gnralistes de Bourret et al. (1991) et de Milgram
(1993). Pour des exposs faisant le lien avec l'approche "analyse des
donnes", Gallinari et al. (1988), Lelu (1991), Chabanon et Dubuisson (1991).
Section 3.4
Modles log-linaires
Les modles log-linaires permettent d'tudier et de modliser les liaisons
entre plusieurs variables nominales en tenant compte de leurs ventuelles
interactions.
On peut considrer l'analyse des tables de contingences multiples par ces
modles comme une analyse descriptive car aucune variable ne joue le rle
privilgi de variable prvoir. Mais ces modles s'apparentent aussi, par
leur dmarche, l'analyse de la variance (slection de modles sur la base de
tests statistiques), ce qui justifie leur prsentation dans cette partie. Ils nous
amnent d'ailleurs la rgression logistique qui peut tre considre
comme l'analogue de la rgression multiple sur variables nominales. La
rgression logistique se propose en effet de prvoir une variable
dichotomique l'aide d'une ou de plusieurs variables (de nature
quelconque) en prenant en compte l'effet propre de chaque variable et l'effet
ventuel des interactions
l
.
3.4.1 Fonnulation du problme et principes de base
Prsentons le problme partir d'un exemple mdical. Considrons un
chantillon d'individus ayant t irradis accidentellement. Ces individus
sont caractriss par un tat (tre dcds ou non la suite de leucmie:
variable nominale 2 modalits), par la dose de radiations reue mesure
en Rad (variable continue ordonne en 6 modalits) et par l'ge au moment
des accidents (variable continue regroupe en 5 modalits).
Ces donnes se prsentent sous forme d'un tableau de contingence K
croisant ces trois variables de terme gnral kijl.
On s'intresse aux relations existant entre ces trois variables: sont-elles
indpendantes ou non dans leur ensemble ou une variable est-elle
indpendante conditionnellement une ou aux deux autres? Autrement
dit, on cherche connatre la structure des liaisons entre ces donnes en
tenant compte des interactions entre les 3 variables.
1 Les modles log-linaires et logistiques donnent lieu des publications nombreuses.
Aprs les premiers travaux de Birch (1963) et Goodman (1970), il faut mentionner les
ouvrages de base de Habennan (1974), Bishop, Fienberg, Holland (1975), Fienberg
(1980). Plus rcemment, Dobson (1983), Agresti (1990), Christensen (1990) rdigent
des synthses enrichies de contributions personnelles. Goodman (1986,1991) fait des
rapprochements avec certains aspects de l'analyse des correspondances. Anderson
(1982) ralise une revue trs complte du modle logistique. L'ouvrage collectif dit
par Celeux et Nakache (1994) prsente les contributions des modles log-linaires et
logistiques la discrimination.
3.4 _ Modles log-linaires 285
D'une manire gnrale, p variables nominales Xl, x2, ... , Xp ayant
respectivement ml, m2, ... , mp modalits, constituent un tableau de
contingence multidimensionnel p entres comprenant mlxm2x... xmp
cases. Le terme gnral kij ... p de cet hypercube de contingence indique le
nombre d'individus ayant rpondu simultanment aux modalits i,j, ... ,p de
Xl, X2, .. , xp avec 1 < i < ml, 1 < j < m2, ... ,1 < P< mp.
L'effectif total d'individus observs est not k avec:
k = "Lkij ...p
i,j, ...,p
Les hypothses que nous formulons sur les liaisons entre ces p variables
nous amnent construire des tableaux de frquences thoriques espres T
de terme gnral tij ...p' La confrontation des frquences observes kij ... p et
des frquences thoriques tij ... p va permettre de tester ces hypothses.
On construira par consquent autant de tableaux T (et donc de modles log-
linaires) qu'il y a d'hypothses tester.
Dans le cas d'un tableau de contingence deux dimensions, on construit,
sous l'hypothse d'indpendance entre les deux variables, le tableau T tel
que tij =ti. t.j- Le test du X
2
permet de rejeter ou non cette hypothse en
confrontant le tableau thorique T au tableau des frquences observes K.
Ainsi les modles log-linaires peuvent tre considrs comme une
gnralisation du test du X
2
un ensemble de p variables nominales Cp > 2),
la difficult rsidant alors dans le choix des modles, c'est--dire des
hypothses concernant les liaisons entre les variables.
3.4.2 Ajustement d'un modle log-linaire
On suppose que la frquence observe kij ... p est la ralisation d'une variable
alatoire Xij ... p d'esprance mathmatique inconnue tij ... p'
E(Xij ...p) =tij ...p
Nous envisagerons successivement le cas du tableau de contingence deux
dimensions et celui p entres. Les notations tant lourdes dans le cas
gnraL nous nous bornerons p =3 pour simplifier l'expos.
a - Tableau de contingence deux entres
Intressons-nous d'abord la relation entre deux variables nominales, le
risque de dcs et la dose de radiation reue, par exemple. Dans ce cas, deux
hypothses peuvent tre formules: y a-t-il indpendance ou non entre les
deux variables?
En supposant tij non nul, le modle log-linaire le plus complet dcompose
le logarithme nprien de l'esprance tij sous la forme:
log(tij) =aO + al(i) + az (j) + a12 Oj)
286 Mthodes explicatives ou drives _ Chapitre 3
Par analogie avec l'analyse de la variance, log(tij) se dcompose en une
somme de coefficients a dcrivant plusieurs effets:
- aD, l'effet global;
- aI(i), l'effet d la variable Xl,
- a2 (j), l'effet d la variable X2,
- aI2 (ij), l'effet d l'interaction entre les variables Xl et X2.
Afin d'avoir une solution unique, on impose les contraintes suivantes:
'L
a
I(i) ='L
a
2(j) ='LaI2Uj) ='LaI2Uj) = 0
j j
Sous l'hypothse d'indpendance des deux variables, la frquence espre
s'exprime par tij =ti. t.j. Dans ce cas, tous les coefficients d'interaction
al2 (ij) sont nuls. Le modle log-linaire correspondant cette hypothse
s'crit:
log(tij) =aD + al (i) + a2 (j)
La nullit des interactions traduit l'hypothse d'indpendance entre les
deux variables. A partir des coefficients aD, al (i) et a2 (j), on calcule le
tableau des frquences thoriques espres not T.
b - Tableau de contingence p entres
On gnralise ces modles au cas de plus de deux variables. Pour trois
variables par exemple, le modle qui prend en compte toutes les liaisons
entre les variables est le suivant:
log(tij/) = ao + al (i) + a2 (j) + a3 (f)
+ al2 (ij) + a13 (if) + a23 (j1) + al23 (ij1) [3.4 -1]
Ce modle est appel modle satur. Il contient tous les effets et toutes les
interactions qu'il est possible de dfinir avec les variables disponibles.
Les coefficients ao, al(i),, al23 (ij1) traduisent des effets diffrents:
- aD, l'effet global;
- al(i), a2(j), a3 (1), les effets principaux;
- al2 (ij), aB (ik), a23 (j1), les effets dus aux interactions deux deux des
variables;
- a123 (ij1), l'effet d l'interaction trois variables;
On impose la nullit de la somme des coefficients du modle faisant
intervenir une modalit d'une variable sur l'ensemble des modalits de
cette mme variable.
3.4 _ Modles log-lillaires 287
Par exemple pour la variable Xl et pour tout 1 < i < ml, on a :
Lal(i) =L
a
12(ij) =La13(j!) =La123(ij!) =0
i i
et il en est de mme pour les autres variables.
Le modle [3.4 - 1], comme tous les modles saturs, permet de reconstituer
exactement le tableau de frquence K. Celui-ci prsentant souvent un trop
grand nombre de coefficients, on va rechercher un ou des modles ayant
moins de coefficients mais devant reconstituer le mieux possible le tableau
K (principe de parcimonie). Ceci est ralis en annulant certains termes du
modle satur.
Si on arrive une reconstitution correcte du tableau K, l'hypothse de
nullit des coefficients supprims ne peut pas tre rejete. Ces modles non
saturs mettent alors en vidence les liaisons les plus significatives entre les
variables.
Dans le cas de deux variables, l'hypothse de nullit du terme d'interaction
s'interprte en terme d'indpendance. Si cette hypothse est rejete, on
incriminera une dpendance entre les deux variables. Lorsque l'on
s'intresse plus de deux variables, l'interprtation est plus complexe:
- pour exprimer l'indpendance mutuelle entre toutes les variables Xl,
x2, x3, on annule tous les termes d'interactions. Cela nous conduit au
modle:
log( tijl) = aO + al (i) + a2 (j)+ a3 (1)
- pour exprimer l'indpendance conditionnelle de deux variables Xl et x2
par rapport X3, on annule tous les termes d'interaction contenant les
indices relatifs aux variables Xl et X2 c'est--dire:
adij) = a123(ijl) = 0
on en dduit le modle suivant:
log(tiP) =ao + al (i) + a2 (j)+ a3 (1)+ aU (il)+ a23 (jl)
Chaque modle log-linaire met ainsi en vidence une liaison particulire
entre les variables: la dpendance ou l'indpendance mutuelle des
variables dans leur ensemble ou l'indpendance de certaines variables
conditionnellement une ou plusieurs autres.
Pour des modles plus de trois variables, on trouvera des complments
sur les interactions, dans par exemple, Agresti (1990).
c - modles hirarchiques
Un modle log-linaire est dit hirarchique si la condition suivante est
vrifie: quand un coefficient d'interaction est prsent dans le modle, les
coefficients des variables mises en jeu et toutes les interactions d'ordre
infrieur sont aussi dans le modle.
288 Mthodes explicatives ou drives _ Chapitre 3
Par exemple, si dans un modle 5 variables on trouve l'interaction Xl35,
alors le modle, pour tre hirarchique, doit contenir au moins Xl, x3 et X5
ainsi que les interactions d'ordre infrieur X13, X]5 et X35.
Parmi les modles log-linaires possibles dans le cas d'un tableau de
contingence deux variables, certains modles sont hirarchiques:
- [og(tij) =aa + al(i) + a2 (j)+ a12 Oj)
- [og(tij) = aa + al(i) + a2 (j)
et d'autres ne le sont pas:
- [og(tij) =aa+ al(i) +a12 (ij);
- [og(tij) = aa + a2(j) +a12 Oj);
- [og(tij) = aa + a12(ij)
Traditionnellement et pour des raisons de simplicit d'interprtation, on se
limite aux modles hirarchiques.
3.4.3 Estimation et tests d'ajustement du modle
On se donne un modle traduisant une hypothse exprime par la nullit
de certains coefficients a. On cherche ainsi estimer les frquences
thoriques pour construire puis confronter le tableau t des estimations au
tableau K des frquences observes. Cette confrontation est ralise par des
tests d'ajustement. Ils permettent de rejeter ou non l'hypothse sur les
liaisons exprime par le modle.
a - Estimation des paramtres
Les frquences thoriques espres tijl sont en gnral estimes par la
mthode du maximum de vraisemblance. Elle consiste rechercher les
paramtres qui maximisent la fonction de vraisemblance [(kij/, tij/).
Pour cela, on suppose que les variables alatoires Xij/ suivent soit une loi de
Poisson, soit une loi multinomiale
1
.
On montre alors (cf. par exemple Haberman, 1974) que maximiser [(kij/, tij/)
revient maximiser:
L kij/[og(tij/)
i,j,l
l Ce sont des hypothses assez naturelles dans le cas des tables de contingence
multidirnensiormelles. Brivement dit, la loi de Poisson correspond au cas o l'effectif
total k n'est pas fix ou born a priori.
3.4 _ Modles log-linaires 289
On calcule les estimations t;jI des frquences espres tijl donnes par le
modle. On peut utiliser la mthode de rgression pondre de Grizzle et al.
(1969) ou celle des algorithmes itratifs (mthode de Newton-Raphson ou
mthode des moindres carrs itratifs) qui est la mthode la plus rpandue,
utilise pour tous les modles linaires gnraliss, dont les modles log-
linaires sont des cas particuliers
l
.
b - Tests d'ajustement
Pour comparer le tableau des frquences estimes T avec le tableau des
frquences observes K, deux tests (voisins) sont gnralement utiliss:
- le test du X
2
de Karl Pearson:
A 2
2 ,,(kijl-tijl)
X = 4.. A
i,j,l t ijl
- le test du rapport de vraisemblance
2
:
2 " t;jI
C = -2 4.. kijllog-
i,j,l kijl
Les statistiques X
2
et C2 suivent une distribution du X
2
m degrs de libert
o m est le nombre de cases du tableau auquel on soustrait le nombre de
coefficients estims. Pour l'une et l'autre de ces statistiques, les valeurs
augmentent avec le nombre de variables introduites dans le modle.
Plus ces statistiques sont voisines de zro, meilleur est l'ajustement. Elles
sont nulles pour le modle satur. On recherche le modle le plus simple
(peu de paramtres) et qui reste acceptable (bon ajustement).
c - Choix du modle
Le choix du modle log-linaire est d'autant plus difficile que le nombre de
variables est lev. La mthode dite "combinatoire" est une des mthodes
possibles pour obtenir un "bon" modle. A partir du modle satur, on
construit des modles plus simples en retirant un un les termes
d'interaction. La statistique C2 crot progressivement et l'on peut arrter la
procdure lorsqu'elle augmente plus rapidement. On retiendra alors le
1 Cf. Haberman (1974), Nelder et Wedderburn, (1972), McCullagh et Nelder (1989),
Christensen, (1990).
2 C2 est aussi une mesure de proximit entre les distributions de frquence t et K
selon la thorie de l'information dveloppe en particulier par Kullback et Leibler
(1951), Kullback (1959). En fait la premire formule (x2) correspond au premier terme
2 ( -[-k[ J
non nul du dveloppement limit de Cl , en crivant: G =-2 L kij/log 1+..!.L.-...!L .
i,j,/ kijl
290 Mthodes explicatives ou drives _ Chapitre 3
modle correspondant et l'on en dduira les liaisons importantes entre les
variables
1
.
..
......
****
*****
******
modle satur
]
modles
retenus
***************
*******************
**********************
*************************
*******************************
Figure 3.4 - 1
Histogramme de C
2
et recherche du palier de croissance
Cette mthode combinatoire est applicable aux modles mettant en jeu un
petit nombre de variables. Pour fixer les ides, avec 4 variables, il y a 167
modles hirarchiques possibles. Il existe un nombre considrable de
travaux sur ce problme de slection de modles (problme qui se pose
galement dans le cas de la rgression, mais de faon moins complexe). La
multiplication des tests pose des problmes de comparaisons multiples
spcifiques (Gabriel, 1969; Aitkin, 1979).
On peut restreindre la recherche aux modles graphiques (sous-ensemble
des modles hirarchiques) et l'intrieur de ceux-ci aux modles
dcomposables. Whittaker (1990) fait une prsentation gnrale des modles
graphiques et une revue des problmes de slection des modles log-
linaires graphiques
2
.
3.4.4 La rgression logistique
Dans le cadre d'une rgression logistique, la problmatique est diffrente
mais le modle utilis est troitement li au modle log-linaire.
La rgression logistique, comme l'analyse discriminante, cherche dcrire la
liaison entre une variable nominale y (variable expliquer) et un ensemble
de p variables (Xl, x2, ... , Xp). On veut galement connatre l'effet d'une
1 On note que l'estimation du critre d'Akaike (1973), fonction de la statistique Cl, est
souvent utilis pour slectionner un modle et mesurer sa qualit. Elle offre l'avantage
d'tre obtenue sans tudier l'ensemble des modles possibles (cf. Morineau et al ,
1995). Ce critre quivaut asymptotiquement la validation croise (Stone, 1977).
2 Les rfrences de base sur les modles graphiques sont Wermuth (1976), et Darroch
et al. (1980). Pour une synthse rcente, voir Wermuth et Cox (1992). On pourra
consulter Fine (in: Droesbeke et al., 1992), de Falguerolles et Jmel (1993).
3.4 _ Modles log-linaires 291
[3.4 - 2]
variable sur la variable expliquer en tenant compte des liaisons qu'elle
entretient avec les autres variables du modle.
Le plus souvent la variable expliquer est dichotomique et les variables
explicatives sont nominales. Les n individus caractriss par l'ensemble des
p variables sont partitionns en deux groupes dfinis par les modalits de la
variable y. C'est dans ce cadre que nous nous plaons.
Pour reprendre l'exemple du paragraphe 3.4.1, on dsire tudier par
exemple l'influence de la dose de radiation reue et de l'ge des individus
au moment des accidents sur le risque de dcs par leucmie.
a - Le modle logistique
On suppose que la probabilit qu'un individu a d'appartenir au premier
groupe Il (y = 1) dpend des valeurs des variables explicatives (Xl, X2,. .. , xp)
observes sur cet individu.
On note X le vecteur dont les p composantes sont les valeurs des variables
explicatives.
Le modle logistique se propose de fournir une estimation de cette
probabilit note 1t(x) :
n(x) = p(III x) = P(y =11 x).
Le thorme de Bayes ( 3.3.5.a) nous permet d'crire dans le cas de deux
groupes Il et 12 :
qui s'crit encore:
P(x 1Il )P(II)
p(III x) = P(x II2)P(I2)
1+ P( xiII )P(II )
P(x 112 )P(I2)
Cette formule ne fait intervenir que les quotients des deux probabilits
conditionnelles de l'observation x.
Dans le cas multinormal avec matrices des covariances :L gales dans les
deux groupes, chacune des deux probabilits conditionnelles s'crit, pour
k =1,2 :
P(I
k
1x) =(2nrp/21:L1-112exp{-J(x - - tJ.k)}
Le quotient des probabilits pondres fait disparatre les termes du second
degr en x et s'crit comme l'exponentielle d'une forme linaire en x avec
terme constant (fonction affine de x) :
292 Mthodes explicatives ou drives _ Chapitre 3
Pour allger les notations, le vecteur x dsignera dsormais un vecteur
p+1 composantes (avec xo =1 et les autres composantes gales celles de
l'ancien x) et le nouveau vecteur de coefficients sera dsign par a, de sorte
que ~ + b s'crit maintenant a'x.
Ceci permet de rcrire la formule [3.4 - 2] et conduit l'expression du
modle logistiaue:
{
p }
exp Iax
n(x) = exp{a'x} = ;=0 1 1
1+exp{a'x} {p}'
l+exp Iajxj
;=0
[3.4 - 3]
o les aj, composantes du vecteur a, sont les coefficients inconnus du
modle. Il s'agit d'un modle qui ne fait pas intervenir de termes
d'interaction entre les variables explicatives
1
.
On peut crire [3.4 - 3] sous la forme:
n(x) =exp{a'x},
1- n(x)
ou encore:
La fonction:
est appele fonction Logit.
n(x) P
log =a'x= Iax
1- n(x) . 1 1
1=0
F(n(x = log n(x)
1- n(x)
[3.4 - 4]
Remarques
1) Les modalits de la variable nominale seront codes a ou 1. Comme pour
l'analyse de la variance, on limine, pour chaque variable nominale, une de ses
modalits. Le coefficient associ est gal a et cette modalit est appele
traditionnellement "situation de rfrence" : on mesure en fait les diffrences avec la
ou les autres modalits de la mme variable.
2) Le modle logistique, ou de rgression logistique, ou de discrimination logistique,
s'applique une famille de distributions de x plus gnrale que la loi multinormale
1 Le modle a t propos originellement par Cornfield (1962). Etudi notamment par
Cox (1972), il a t situ dans le cadre du modle linaire gnralis (cf.section 3.3)
par Nelder et Wedderburn (1972). Une revue de ses applications en analyse
discriminante est faite par Anderson (1982). Cf. galement Hosmer et Lemeshow
(1989), Devaud (1985).
3.4 _ Modles log-linaires 293
avec matrices de covariances gales qui nous a servi tt ['introduire. Il suffit, on l'a vu,
que le quotient des probabilits conditionnelles s'exprime comme l'exponentielle
d'une fonction affine de x. Ceci est le cas de la plupart des distributions de la
famille exponentielle (cf. 3.2.8.b) dans certaines conditions (Anderson, 1982).
b - Estimation et tests des coefficients
Pour estimer les coefficients aj du modle, on utilise le plus souvent la
mthode du maximum de vraisemblance.
Les n observations (Yi, Xi) [o Xi = (XiI, Xi2, ... , Xip)'J sont indpendantes et les
y; sont des variables de Bernoulli.
La vraisemblance f(a,Yi) pour une observation s'crit:
f(a'Yi) = n(xi)Yi [l-n(xi)]l-
y
;
et pour l'ensemble des observations, on a :
n n
f(a, y) =il f(a,Yi) =I1n(xj )Yi [1- n(xi )]l-Yi
;=1 ;=1
La procdure d'estimation revient rechercher la valeur a de a qui
maximise le logarithme de la vraisemblance :
log[f(a, y)] =L[Yi log n(xj) +log[l- n(Xj)]]
; I-n(xi)
soit encore en exprimant 1t(Xi) par la fonction Logit (cf. formule [3.4 - 4]:
log[f(a,y)] =LYi a'xi +Llog[l+exp(a'xj)]
i
Pour apprcier l'ventuelle non-influence d'une variable ou d'une
modalit Xj sur la variable y, on teste l'hypothse nulle Ho:
(Ho): ar= 0
On considre alors la statistique de Student :

t = }
~ V a r j
o
j
est lajme composante de l'estimateur et Var(
j
) est la variance
estime associe cette composante
1
.
Pour tester l'influence d'une variable nominale q modalits, on procde
un test de nullit des qcoefficients aj affects ses modalits. D'une manire
gnrale, l'hypothse Ho stipulant une ventuelle non-influence d'un
lOn peut galement tester la significalivit du coefficient aj partir de la statistique de
Wald qui est le carr de celle de Student.
294 Mthodes explicatives ou drives _ Chapitre 3
ensemble de q variables (Xl, X2, ... , Xp) sur y, s'exprime par la nullit des q
coefficients associs:
(HO) : al == a2 == ... == aq == 0
Notons
o
l'estimateur des aj sous l'hypothse Ho et l'estimateur des
coefficients du modle alternatif.
On teste l'hypothse nulle en calculant la statistique du rapport de
vraisemblance:
A == 2(f(,y)-t:(
o
,Y)
On dmontre qu'elle suit une distribution du X
2
q degrs de libert sous
des hypothses de travail convenables. Si l'hypothse nulle est rejete, on
en dduit qu'au moins une des q variables (ou une modalit de la variable
nominale) influe sur la variable y.
c - Comparaison de deux modles
Considrons deux modles embots: le modle 1 P variables explicatives
et le modle 2 P + q variables explicatives comportant entre autres celles
du modle 1. Choisir le modle l, c'est supposer nuls les q coefficients
existant dans le modle 2 et non dans le modle 1 .
En rfrence au test de nullit d'un ensemble de coefficients, on retiendra le
modle 1 si l'hypothse de nullit des q coefficients n'est pas rejete, c'est--
dire si la statistique du rapport de vraisemblance A est infrieure la valeur
critique du X
2
q degrs de libert!.
d - Modle avec interaction
Un fois tabli le modle logistique rduit, certains utilisateurs proposent,
pour affiner les rsultats, d'introduire des termes d'interaction entre les
prdicteurs. Pour cela, on ajoute certains produits des Xj'
Par exemple pour un modle deux variables explicatives, le modle
s'crira:
F(n(x)) == aO + alxl + a2 X2+ a12 Xl x2
La notion d'interaction d'ordre lev est complexe. Un terme d'interaction
d'ordre 2 en modle logistique correspond au terme d'interaction d'ordre 3
en modle log-linaire.
1 En pratique, le choix du modle logistique repose sur la comparaison de modles
embots. On adopte une procdure pas pas en commenant par prendre en compte
le modle comportant le plus de variables explicatives que l'on compare un modle
restreint comprenant un sous-ensemble des prdicteurs. On procdera gnralement
par limination progressive des variables ne modifiant pas de manire significative la
vraisemblance jusqu' avoir un modle ne pouvant plus tre rduit. Cette procdure
n'assure cependant qu'un optimum local.
3.4 _ Modles log-linaires
3.4.5 Modles log-linaire et analyse des correspondances
295
Le modle log-linaire et l'analyse des correspondances ne rpondent pas
aux mmes proccupations et ne fournissent pas des rsultats de mme
nature. Ce sont en fait des techniques complmentaires.
Le modle logistique, qui est un vritable modle explicatif, est plutt
comparer aux techniques d'analyse discriminante de la section prcdente.
Comme elles, il peut gagner tre mis en uvre dans un environnement
de mthodes exploratoires, mais il n'est pas en concurrence directe avec ces
dernires mthodes.
D'assez nombreux travaux ont port sur la comparaison des diffrentes
approches dans des contextes d'application divers, parfois sensiblement
loigns des contextes rels
l
.
a - Des champs d'application diffrents
Bien que s'appliquant aux mmes types de variables, les variables
nominales, ces deux mthodes ont des problmatiques et des champs
d'application diffrents.
Le modle log-linaire s'applique avec profit lorsque l'on dispose de peu de
variables (rarement plus de cinq variables surtout si elles ont beaucoup de
modalits) avec cependant beaucoup d'individus, pour que les cellules de
l'hypertable de contingence obtenue en croisant les variables ne soient pas
vides. Le nombre des sous-modles explicitant les liaisons entre les
variables augmente beaucoup plus vite que le nombre de variables. On
augmente alors le nombre de coefficients tester et donc les chances de
trouver des effectifs nuls, ce qui rend les rsultats plus instables. De ce fait, le
modle log-linaire est bien adapt lorsque le problme pos permet de
1 On ne mentionnera ici qu'un petit nombre de publications sur ce thme en suivant un
ordre chronologique: Daudin et Trcourt (1980) sont parmi les premiers faire une
comparaison sur une table de contingence 6 entres (21x2x2x2x2x2) entre une des
analyses des correspondances possibles et le modle log-linaire. Escoufier (1982),
Lauro et Decarli (1982) proposent galement des rapprochements entre utilisations
des mthodes. Leclerc et al. (1985) comparent sur un exemple approfondi l'analyse des
correspondances et la rgression logistique. Van der Heijden et de Leeuw (1985), Van
der Heijden (1987), puis Van der Heijden et al. (1989) proposent une mthodologie de
l'utUisation simultane de l'analyse des correspondances et des modles log-lineaires
en prconisant de dcrire par des analyses des correspondances les rsidus des
modles log-linaires. D'autres comparaisons et applications se trouvent dans Worsley
(1987) et plus gnralement dans le numro spcial 35 -3 (1987) de la Revue de
Statistique Applique, anim par le L.S.P. de l'Universit Paul Sabatier. Cf. galement
Hudon (1990), Tenenhaus et al. (1993). GiIula (1986), Gilula et Ritov (1990),
Goodman (1986, 1991) tudient les performances de l'analyse des correspondances et
des modles log-linaires dans le contexte d'utilisation des modles qu'ils ont eux-
mmes dvelopps pour les tables de contingences multiples ou modalits ordonnes
(approche confirmatoire pour des tables de dimensions trs rduites).
296 Mthodes explicatives ou drives _ Chapitre 3
procder une slection pralable des variables et de formuler les
hypothses nulles.
L'analyse des correspondances binaires (sur vraies tables de contingence, que
l'on appelle parfois tables de contingence binaire ou double entres)
s'applique avec profit lorsque les deux partitions mises en correspondances
(colonnes et lignes actives) sont relativement importantes : par exemple,
tables de contingence croisant 95 dpartements mtropolitains et 12 causes
de dcs, tables croisant 373 communes de la rgion parisienne et 29
catgories socio-professionnelles. Pour des petites tables de contingence, la
fonction de l'analyse des correspondances est surtout iconographique,
illustrative
1

L'analyse des correspondances multiples (sur tableaux disjonctifs complets)


est utile pour les tableaux de type "sous-fichiers d'enqute" : en gnral une
plusieurs dizaines de variables nominales, de 200 20 000 individus. Il
n'est pas rare que l'hypertable de contingence soit 99% vide
2
.
Qu'il s'agisse de correspondances binaires ou multiples, la dichotomie entre
variables actives et illustratives est fondamentale. C'est elle qui permet de
confronter une information illimite au sous-espace des variables actives,
dont la description ne constitue qu'une phase prliminaire.
Enfin, ces mthodes ne permettent que de dcrire des tableaux. Et une table
de contingence multiple permet de construire diffrents types de tableaux. Si
l'on s'intresse aux interactions d'ordre lev entre certaines variables, on
construira de nouvelles variables en croisant ces variables et en considrant
selon les cas la nouvelle variable comme active ou supplmentaire.
C'est le problme sous-jacent qui permet de guider la dmarche: choix des
tableaux dcrire dans un cas, choix des modles slectionner et
prouver dans l'autre. Rappelons galement que l'usage simultan de la
classification et des analyses en axes principaux fait partie intgrante de la
dmarche exploratoire.
Le tableau 3.4 - 1 rsume ces diffrences d'objectifs et d'applications dans le
cas de l'analyse des correspondance multiples.
Certains travaux de confrontation entre mthodes perdent de leur porte en
raison de la mconnaissance des vocations (essentiellement atteste par une
exprience pratique) de chacune des approches. Il est vrai que le paradoxe
pdagogique inhrent l'analyse des donnes - comment prouver sur un
modle rduit l'efficacit de mthodes qui ne sont utiles et profitables que
sur de grands tableaux - ne facilite pas la tche d'explication de la vocation
relle de ces mthodes.
l Nous reviendrons au chapitre suivant sur la validit des rsultats et la mthodologie
gnrale d'emploi des mthodes.
2 Ainsi, pour une petite batterie de 10 ~ u s t o n s 4 modalits poses 1000
rpondants, l'hypertable prsente 4
10
(,=10 ) cases; moins d'une case sur 1000 sera
non-vide.
3.4 _ Modles log-lillaires
Tableau 3.4-1
Vocations spcifiques des deux approches
297
Modle log-linaire
- Description des interactions entre plus de
deux variilbles dans un cadre infrentiel.
- Des hypothses sur les liaisons doivent tre
formules au pralnble.
- Est limit peu de variables (en pratiqm
moins de 5).
- Met en jeu toutes les cases d'un hypercube
de contingence:
- Mthode par essence confirmntoire, utilise
pour explorer l'univers des modles. On
cherche celui ou ceux qui s'adaptent le mieux
aux observations.
- Les individus n'apparaissent pas.
- La notion de variable supplmentaire n'est
pas directement pertinente.
Correspondances multiples
- Description des liaisons entre les variables
prises deux deux sous forme
essentiellement graphique.
- N'impose aucune hypothse sur les
liaisons, mais impose une certaine
homognit de l'ensembles des variables
actives.
- N'est pas limite dans le nombre de
variables
- Met seulement en jeu les faces de
l' hypercube reprsentes par le tableau de
Burt:
i j 1
i
j "kjl
l '"
- Mthode descriptive et exploratoire de ln
structure intrinsque des donnes.
- Les individus peuvent jOller un rle
central. L'analyse sert souvent produire
des Il;pologies d'individus.
- La notion de variable supplmentaire est
fondamentale.
Il faut reconnatre cependant que si l'analyse des correspondances est bien
utile dans le cas des grandes tables de contingences deux entres et dans le
cas des grands tableaux disjonctifs complets, elle est beaucoup plus dlicate
utiliser dans le cas intermdiaire des petites tables de contingence
mul tidimensionnelles.
Pour ce type de tableau aux facettes peu nombreuses, l'intrieur de la table
de contingence (croisements de plus de deux variables), s'il contient des
effectifs suffisants, est intressant dcrire de faon dtaille. Une analyse
des correspondances multiples sur un tableau comportant trois Ou quatre
298 Mthodes explicatives 01/ drives _ Chapitre 3
variables nominales donne des rsultats assez grossiers, d'une stabilit
douteuse.
Il existe en la matire des savoir-faire, sans qu'une mthodologie rigoureuse
se soit impose dfinitivement: on peut juxtaposer des tranches en ligne ou
en colonnes (cf. par exemple van der Heijden (1987) pour le cas des donnes
longitudinales); juxtaposer des tableaux obtenus par croisements des
variables initiales; positionner en lments supplmentaires les
croisements de variables deux deux dans les plans factoriels d'une analyse
des correspondances multiples; dans certains cas, raliser une analyse
factorielle multiple (cf. 3.8.3). D'autres approches seront voques plus
loin. C'est propos de ce type d'applications que l'on pourra parler de
complmentarit entre les mthodes.
b - Liens thoriques entre l'analyse des correspondances
et les modles log-linaires
L'analyse des correspondances analyse l'cart entre un tableau de frquence
Iii et un tableau modle fiJj correspondant l'hypothse d'indpendance.
Lorsque cet cart est significatif!, elle dcrit de faon suggestive les
associations privilgies entre lignes et colonnes responsables de cet cart.
Ce principe d'analyse est manifestement insuffisant pour les tables de
contingence plus de deux entres. Certes, l'analyse des correspondances
multiples constitue une gnralisation possible de cette dmarche, ralisant
une sorte de compromis entre tous les croisements des variables prises deux
deux. Cette gnralisation est opratoire lorsque le nombre et la nature des
variables nominales exclut une tude mthodique de leurs interactions: on
a alors traiter un tableau (individus x variables), comme en analyse en
composantes principales.
Mais il n'existe pas d'analogue du thorme d'Eckart et Young dans le cas
des tableaux tridimensionnels
2
Il ne peut donc exister dans ce cas de
dmarche exploratoire aussi bien assise que dans le cas des tableaux double
entre.
La dmarche propose par van der Heijden et de Leeuw (1985) puis
dveloppe par van der Heijden (1987), qui s'apparente aux analyses
partielles voques la section 3.6, va effectivement dans le sens d'une
1 Le classique X
2
permet d'alerter l'utilisateur sur la signification de cet cart, mais les
premires valeurs propres de l'analyse des correspondances, ainsi ~ les taux d'inertie
correspondants, peuvent galement mesurer des carts que le X ne dcle pas; cf.
1.3.4.a.
2 Ce que l'on peut exprimer dans les termes suivants: il existe une dcomposition
hirarchique unique d'un lment du produit tensoriel de deux espaces euclidiens en
une somme de produits tensoriels de vecteurs appartenant chacun des deux espaces.
Mais une telle dcomposition n'est pas unique dans le cas de d'un lment du produit
tensoriel de plus de deux espaces euclidiens (cf. 8enzcri, 1973; Tome 2B, n
0
6
[REDTENS.]).
3.4 _ Modles log-/illaires 299
utilisation synergique des deux approches utiliser le modle log-linaire
pour liminer l'effet complexe de certaines variables et utiliser l'analyse des
correspondances pour dcrire les rsidus que le modle log-linaire ne
permet pas d'expliquer.
Elle rejoint une gnralisation de l'analyse des correspondances introduite
par Escofier (1984) qui permet d'introduire des modles moins restrictifs.
L'analyse factorielle des correspondances se gnralise un modle diffrent
du modle d'indpendance en supposant que les marges du tableau de
rfrence sont distinctes de celles du tableau tudi.
Les liens thoriques entre l'analyse des correspondances et les modles log-
linaires sont trs tnus, mme dans des contextes relativement simples.
Aprs Escoufier (1982), Worsley (1987), van der Heijden et al. (1989),
crivons ce que pourrait tre un modle de l'analyse des correspondances
dans le cas d'une approximation bi-dimensionnelle de la loi /ij.
La formule de reconstitution des donnes en analyse des correspondances
(cf. section 1.3.3.h) peut s'crire, en retenant deux axes:
/;j =: kl
j
{l + I.JIh fPh (i)l/Ih (j)}
h=l
ce qui suggre un modle de la forme:
/;j =: eij =CPiqj( 1+ rli
s
lj + r2iS2j)
o les coefficients inconnus, assujettis aux mmes contraintes que leurs
homologues de la formule de reconstitution, sont dtermins de faon
rendre minimale une distance entre /ij et eij 1.
Le modle peut s'crire, si les valeurs propres ,1 et ,2 sont petites par
rapport l, ce qui est le cas au voisinage de l'indpendance:
log /;j =: log eij = ao +ai + b
j
+ rli
S
lj +r2is2j
alors qu'un modle log-linaire satur s'crit:
l "b'
og e'j =aO +ai + j + Uij
Ainsi, l'analyse des correspondances suggre de dcomposer le terme
d'interaction Uij sous forme simplement multiplicative dans le cas d'un
seul facteur, et plus gnralement sous forme de matrice de rang q dans le
cas o l'on retient q facteurs.
Il est vrai que dans le cas d'une table de contingence double entre, le
modle log-linaire non-satur est trivial (hypothse d'indpendance) et le
1 Distance du X
2
, critre de Kullback-Leibler (cf. section 3.4.3-b), ou encore critre de la
dviance, trs utilis pour les modles logistiques (cf. par exemple Celeux et Nakache,
1994).
300 Mthodes explicatives ou drives _ Chapitre 3
modle satur aussi (ajustement parfait). D'o les tentatives de donner au
terme d'interaction des formes plus simples, avec en particulier les modles
dit RC, puis multifactor de Goodman (cf. Goodman, 1986). L'analyse des
correspondances, qui revient une dcomposition aux valeurs singulires
de la matrice norme (que l'on peut appeler matrice d'interaction) :
rpond une mme proccupation
1
.
Le cas des tables de contingences multiples est beaucoup plus complexe, et
dans les configurations o le modle log-linaire peut tre appliqu (peu de
variables, beaucoup d'individus, des ides a priori sur le rle de telle ou
telle variable) l'approche "analyse de rsidus" mentionne plus haut parat
bien approprie.
c - Difficults de l'articulation exploration-infrence
Lorsque l'on est en situation trop exploratoire pour pouvoir formuler des
hypothses, ou lorsque le nombre de variables est trop lev par rapport au
nombre des individus pour pouvoir construire un modle pertinent, on a
recours l'analyse des correspondances multiples.
Son utilisation permet d'une part de dceler, dans un premier temps, les
liaisons intressantes entre certaines variables, et d'autre part de
slectionner et rduire les variables et leurs modalits. Rappelons que l'on
travaille sur les "faces de l'hypercube" c'est--dire sur les cumuls de
frquences correspondant des effectifs i.mportants.
On pourrait penser tester les liaisons par des modles log-linaires afin de
prciser et de mesurer le niveau et l'intensit de celles-ci (l'intrieur de
l'hypercube, lorsque le nombre d'individus le permet). Cette dmarche
demande cependant une certaine prudence.
Ce serait en effet une erreur de raisonnement (malheureusement rpandue
chez les praticiens) de penser que l'on peut tester sur des donnes un
modle suggr par les mmes donnes.
Comme l'a spcifi Cox (1977) dans un remarquable article de synthse sur
les tests de signification, l'articulation exploratoire - confirmatoire pose des
problmes d'une grande complexit, analogues ceux que nous avons
rencontrs dans la section prcdente propos de l'analyse discriminante:
tester une fonction discriminante sur l'chantillon d'apprentissage donne
une ide trop optimiste de son pouvoir de prdiction.
Dans les deux cas en effet, les chantillons, et donc les fluctuations qui leurs
sont propres, sont sollicits soit pour construire une fonction ou une rgle
1 Elle effectue cette dcomposition dans un cadre gomtrique euclidien simple, en
produisant des visualisations assorties de rgles d'interprtation.
3.4 _ Modles log-linaires 301
de classement (cas de l'analyse discriminante) soit pour choisir un modle
(cas d'une analyse des correspondances multiples pralable un modle log-
linaire).
La difficult est accentue par l'effet "comparaisons multiples"l que l'on
peut craindre dans la mesure o l'analyse des correspondances multiples
peut traiter simultanment plusieurs dizaines, voire des centaines de
variables.
Mme lorsque le tableau contenant p variables nominales est gnr selon
un modle stipulant l'indpendance totale entre les p variables, un certain
nombre de paires de variables (parmi les p(p-l)/2 paires possibles) peut
donner lieu des liaisons significatives selon les valeurs usuelles des seuils,
et ceci d'autant plus facilement que p est grand. Un modle restreint cette
slection de variables pourrait effectivement confirmer une structure qui ne
serait en fait qu'un artefact.
Il existe au moins deux types de solutions pragmatiques pour contourner ces
difficults: travailler sur un chantillon supplmentaire (chantillon-test,
validation croise) comme dans le cas de la discrimination; travailler avec
des seuils de signification plus svres au niveau de la lecture des modles
(comme dans le cas de comparaisons multiples)2.
1 Cf. par exemple la section 1.1, 1.4.4.a; et ci-dessus, la section 3.4.3.c propos de
la slection des modles log-linaires.
2 Remarquons que la dmarche "analyse des correspondances des rsidus d'un modle
log-linaire" mentionne plus haut, qui correspond une articulation en sens inverse:
Infrence -Exploration, ne prte pas le flanc ces critiques. Elle correspond une
situation mthodologique plus particulire, pour laquelle les modles log-linaires
pouvaient tre utiliss d'emble. L'approche exploratoire est cependant, en gnral, et
presque par nature, la premire phase des investigations.
302
Section 3.5
Segmentation
Mthodes explicatives ou drives _ Chapitre 3
Les mthodes de segmentation cherchent rsoudre les problmes de
discrimination et de rgression en segmentant de faon progressive
l'chantillon pour obtenir un arbre de dcision binaire. La voie a t
ouverte par o n ~ u s t et Morgan (1964) et Morgan et Messenger (1973) avec
la mthode dite AID (Automatic Interaction Detection)l. De nombreuses
contributions ont suivi, mais les travaux de Breiman, Friedman, Olshen et
Stone (1984) ont renouvel l'approche et suscit un regain d'intrt pour la
segmentation. Leur mthode, connue sous le nom de CART (Classification
And Regression Tree), diffre de l'AID par le mode de construction de
l'arbre et la technique d'lagage conduisant un sous-arbre exploitable
ayant des proprits satisfaisantes 2.
La segmentation par la mthode CA RT vient donc concurrencer les
mthodes plus classiques que sont la rgression multiple, l'analyse
discriminante et la rgression logistique. Elle prsente des avantages
importants dont le premier est sans doute la lisibilit des rgles
d'affectation, l'interprtation des rsultats tant directe et intuitive. Par
ailleurs la technique est non-paramtrique et peu contrainte par la nature
des donnes. On peut en effet utiliser en mme temps comme variables
explicatives, des variables continues, ordinales et nominales sans codage
pralable. De plus, la technique fournit d'office la slection des variables
utiliser en tenant compte d'ventuelles interactions. Elle est robuste vis--
vis de donnes errones ou de valeurs aberrantes et gre les donnes
manquantes aussi bien dans la construction de l'arbre et l'estimation de son
risque que dans l'application de la rgle un nouveau sujet. Enfin c'est le
mme principe, la mme mthode, le mme algorithme qui sont mis en
uvre pour analyser une variable nominale (discrimination) et une
variable continue (rgression).
Cependant, les rgles d'affectation pourront paratre parfois "abruptes" et
trop sensibles de lgres perturbations des donnes. Il apparatra parfois
difficile de dcider quel est l'arbre "optimal". On peut galement regretter
l'absence d'une fonction globale mettant en jeu l'ensemble des variables
(fonction linaire discriminante ou quation de rgression) qui prive
l'utilisateur d'une reprsentation gomtrique sous forme de
configurations de points dans l'espace.
1 Cf. Bouroche et Tenenhaus (1970).
2 On pourra se reporter pour des lments thoriques l'ouvrage cit de Breiman et al.,
et pour une prsentation pratique l'article de Guegen et Nakache (1988) et aux deux
ouvrages dits par Celeux (1990) et Celeux et Nakache (1994).
3.5 _ Segmentation 303
3.5.1 Fonnulation du problme, principe et vocabulaire
Comme en rgression (linaire ou logistique) et en discrimination, on est
en prsence d'un tableau de donnes contenant une variable privilgie y
" expliquer" par les autres variables du tableau Xl, X2,"" X
p
'
Il s'agit d'une part de slectionner parmi les variables explicatives celles qui
sont les plus discriminantes pour la variable nominale y (ou celles qui sont
le plus lies au phnomne dcrit par la variable continue y), et d'autre part
de construire une rgle de dcision permettant d'affecter un nouvel
individu l'une des k classes (cas de la discrimination) ou de lui affecter
une valeur y (cas de la rgression).
La mthode de segmentation consiste rechercher d'abord la variable Xj qui
explique le mieux la variable y. Cette variable dfinit une premire division
de l'chantillon en deux sous-ensembles, appels segments. Puis on ritre
cette procdure l'intrieur de chacun de ces deux segments en recherchant
la deuxime meilleure variable, et ainsi de suite 1.
On construit ainsi un arbre de dcision binaire par divisions successives de
l'chantillon en deux sous-ensembles (figure 3.5 - 1) o l'on distingue:
- les segments intermdiaires ou nuds qui engendrent deux segments
descendants immdiats,
- les segments terminaux qui ne sont plus diviss,
- une branche d'un segment t qui comprend tous les segments descendant
de t, t n'tant pas inclus dans la branche,
- l'arbre binaire complet not A
max
pour lequel chaque segment terminal
contient un seul individu,
- un sous-arbre A qui est obtenu partir de A
max
par lagage d'une ou de
plusieurs branches.
Par ailleurs, la mthode CART, contrairement aux autres mthodes de
segmentation, n'impose aucune rgle (fonde sur un seuil) d'arrt de
division des segments. Elle fournit, partir de l'arbre binaire complet, la
squence des sous-arbres obtenue en utilisant une procdure d'lagage.
Celle-ci est base sur la suppression successive des branches les moins
informatives en terme de discrimination entre les classes ou en terme
d'explication de la variable y.
Au cours de la phase d'lagage, la mthode slectionne un sous-arbre
"optimal" en se fondant sur l'estimation de l'erreur thorique d'affectation
ou de prvision l'aide, soit d'un chantillon-test (technique prsente ci-
aprs) quand l'chantillon est suffisamment important, soit de la validation
croise.
1 Notons que cette mthode, contrairement aux autres mthodes multidimensionnelles,
ne considre pas simultanment l'ensemble des variables explicatives mais les examine
une par une. Cependant, les liaisons entre variables explicatives sont prises en compte
aux diffrentes tapes de la construction de l'arbre.
304 Mthodes explicatives ou drives _ Chapitre 3
0: segments intermdiaires
0: segments tenninaux
Figure 3.5 - 1
AIbre de dcision binaire
3.5.2 Construction d'un arbre de dcision binaire
L'ide de base est d'effectuer la division d'un nud de telle sorte que les
deux segments descendants soient plus homognes que le nud parent et
qu'ils soient les plus diffrents possible entre eux vis--vis de la variable y.
Cette procdure ncessite de dfinir un critre permettant de slectionner la
"meilleure" division d'un nud. Le critre de la rgression diffrera de
celui de la discrimination, mais le principe de construction reste le mme
dans les deux cas.
Les diffrentes phases de construction de l'arbre sont les suivantes:
1- tablir pour chaque nud l'ensemble des divisions admissibles.
2- dfinir un critre permettant de slectionner la "meilleure" division
d'un nud.
3- dfinir une rgle permettant de dclarer un nud comme terminal
ou intermdiaire.
4- affecter chaque nud terminal l'un des groupes (cas de la
discrimination), ou affecter une valeur y pour chaque nud
terminal (cas de la rgression).
5- estimer le risque d'erreur de classement (cas de la discrimination) ou
de prvision (cas de la rgression) associ l'arbre.
a - Algorithme gnral de segmentation
Les variables explicatives peuvent tre de nature quelconque. Dans un
premier temps, considrons le cas des variables continues. Les tapes de
l'algorithme sont les suivantes:
1 - Au dpart, on dispose d'un seul segment contenant l'ensemble des
individus.
3.5 _ Segmelftation 305
2 - A la premire tape, la procdure de construction de l'arbre examine
une par une toutes les variables explicatives.
Pour une variable Xj donne, elle passe alors en revue toutes les
divisions possibles de la forme Xj <Ct o Ct est une valeur quelconque
contenue dans l'tendue de la variable Xj considre.
Chaque division scinde l'chantillon en segments descendants: le
segment de gauche tg contient les sujets vrifiant Xj < Ct et le segment de
droite td contient les autres (Xj ex). De toutes les divisions dj possibles
de Xj, o m reprsente la mime division (soit encore la mime valeur
classe de Xj), la procdure slectionne la "meilleure" dj, au sens d'un
critre de division prciser 1.
valeurs
ordonnes
de
x
j
ex"
X
J
dT = m
ime
division
d." " '11 "
._j = me! eure
division
Figure 3.52
Divisions possibles pour la variable Xj
On obtient ainsi, pour chacune des p variables, la meilleure division et
l'on retiendra finalement, parmi ces p divisions, celle, note d', qui
fournit les deux segments les plus "typs" vis--vis de y .
Xl
X
X
p
J
d7= "meilleure"

........
,..-
J
division pour x
j
1.1

\
........
_ d"= "meilleure" division

globale
Figure 3.5 . 3
Meilleures divisions pour l'ensemble des variables
1 Critre de la variance rsiduelle pour la rgression (cas d'une variable expliquer
continue), cf. 3.5.2.b. Critre de la puret maximale dans le cas de la discrimination,
cf. 3.5.2.c.
306 Mthodes explicatives ou drives _ Chapitre 3
3 - A l'tape suivante, on applique la mme procdure chacun des deux
segments descendants obtenus. Les variables explicatives peuvent tre
diffrentes selon les segments.
4 - On arrte la procdure lorsque tous les segments sont dclars
terminaux: soit parce qu'ils ne ncessitent plus de divisions soit parce
que leur taille est infrieure un effectif fix.
Pour un nouvel individu, on dfinit une rgle d'affectation simple en le
faisant descendre dans l'arbre.
Si, parmi les variables explicatives, certaines sont nominales, elles sont
prises en compte de la manire suivante:
une variable deux modalits ne peut fournir qu'une seule division,
une variable k modalits ordonnes fournit k - 1 divisions,
une variable k modalits non ordonnes fournit 2
k
-
1
- 1 divisions;
toutes les divisions correspondant aux diffrents sous-ensembles de
modalits sont examines.
Par exemple, partir d'une variable a deux modalits, d'une variable b 4
modalits ordonnes et d'une variable c 3 modalits non ordonnes, les
divisions possibles d'un nud en deux segments descendants tg (celui de
gauche) et td (celui de droite) sont les suivantes
l
:
Tableau 3.5 -1
Divisions possibles d'un segment par une variable nominale
tg td
var. binaire
(al) (a2)
varinble (bl) (b2, bJ, b4)
ordonne (bl, b2) (b), b4)
(ordinale) (b
l
, b2, b3) (b4)
varinble (Cl) (C2, C3)
non (C2) (Cl, C3)
ordonne (C)) (Cl, C2)
b - Cas de la rgression
Lorsque la variable expliquer y est continue, le critre de slection de la
"meilleure" division d'un nud est fond sur la variance de y dans les
segments descendants. Cette variance doit tre plus faible que la variance de
y dans le nud parent.
1 Remarquons que la segmentation effectue simultanment un dcoupage sur la
population observe et sur les valeurs des variables explicatives.
3.5 _ Segmentation
- Critre de la variance rsiduelle minimale
307
Pour toute division dj d'un nud t par une variable xi, on calcule la
moyenne pondre des variances de y l'intrieur de chacun de ses
segments descendants tg et tel, c'est--dire la variance rsiduelle du nud t :
var(dj ,t) = ~ s ~ + ~ . d . s a
nt nt
o ng, nd, nt sont respectivement les effectifs des segments tg, tel, t et s ~ , sa
sont les variances de la variable continue y l'intrieur des segments tg et
t{j 1.
On retient la "meilleure" division dj ralise par la variable Xj qui
correspond la variance rsiduelle minimale:
var(dj,t) = min (var(dj,t)}
mEd
j
o di est l'ensemble des divisions de la variable xi'
Parmi toutes les meilleures divisions dj obtenues partir des p variables
explicatives, la meilleure division (globale) du nud t est effectue l'aide
de la variable qui assure:
var(d"',t) = . min (var(dj,t)}
J=l,...,p
- Les tapes de l'algorithme
Considrons un ensemble d'individus sur lesquels on relve les
informations concernant une variable continue y et p =8 variables
explicatives Xl, ... , X8. On suppose que les valeurs de y ont pour moyenne
m =10 et pour variance 52 =60.
On commence par examiner la variable continue Xl
Figure 3.5 - 4
Rgression: meilleure division pour la variable Xl
l Il s'agit de la variance interne ou infra introduite notamment en analyse
discriminante, c'est--dire de la variance non explique par la coupure.
308 Mthodes explicatives ou drives _ Chapitre 3
On retient la valeur de coupure qui minimise la variance l'intrieur des
deux segments descendants, par exemple la division associe la valeur 4,5
(cf. figure 3.5 - 4)
Mais cette meilleure division obtenue avec Xl n'est peut-tre pas la plus
efficace en terme de rduction de la variance. Il faut tudier les autres
variables. On recherche, de la mme manire, la meilleure division de
l'chantillon pour chacune des p- 1 = 7 autres variables. On choisira alors la
division qui prsente la plus faible moyenne pondre des variances de y
l'intrieur des deux segments descendants, par exemple la variable
continue xs pour la valeur a = 7,2.
Figure 3.5 - 5
Rgression: meilleure division pour toutes les p variables
On ritre cette procdure l'intrieur de chacun des deux segments
obtenus tl et t2. Pour le segment tl, ce sera par exemple la variable
nominale X7 deux modalits; la meilleure division sera obtenue pour les
valeurs x7=1 (segment t3), et x7=2 (segment t4)' On slectionnera la variable
X2 deux modalits, pour le segment t2. On aboutit ainsi l'arbre deux
niveaux reprsent sur la figure 3.5 - 6. (Sur cette figure, l'indice bas des
variances est celui des segments correspondants: sr correspond au segment
ti)
On pourrait arrter l la procdure de division et produire l'arbre de
prdiction 4 segments terminaux.
Figure 3.5 - 6
Rgression: Arbre deux niveaux
3.5 _ Segmenta tiOlI 309
[3.5 -1]
- Rgle d'affectation
Considrons alors un nouvel individu i dont on cherche prvoir la
valeur de Yi. Il tombera dans un de ces 4 segments terminaux aprs avoir
parcouru un chemin de l'arbre suivant les valeurs qu'il prsente pour xs, X7
et X2. La valeur affecte Yi sera la moyenne dans le segment et l'cart-type
correspondra celui du segment.
- Erreur Apparente de Prvision associe un arbre A
Si certaines variances des segments sont encore importantes, on peut
continuer les divisions dans le but de rduire davantage les variances des
segments terminaux.
Ainsi on associe chaque segment terminal t de l'arbre A l'erreur Rt
suivante:
R
t
=!!i x sr
n
o n est le nombre total d'individus, nt est le nombre d'individus du
segment t, st est la variance de la variable Y l'intrieur du segment t c'est-
-dire:
2 1 - )2
St =-L.. Yi -Yt
nt i
avec 'rh, la moyenne des valeurs Yi des individus du segment t.
L'Erreur Apparente de Prvision (EAP) associe l'arbre A vaut:
EAP(A) = IR
t
tEA
et correspond la moyenne pondre des variances de Y dans chacun des
segments terminaux de l'arbre A. Le rapport EAP(A)/s2 est l'quivalent de
l'expression (1 - R2) de la rgression linaire multiple! et reprsente le
pourcentage de la variance totale non explique par les variables Xl, X2,. .. , x
p
.
Plus on divise, plus les variances dcroissent pour tre finalement nulles
quand chaque segment terminal contient un seul individu. Au grand arbre
complet not A
max
ainsi obtenu est affecte une Erreur Apparente de
Prvision nulle.
c - Cas de la discrimination
Lorsque la variable Yest nominale et rpartit les individus en k classes, la
slection d'une division doit tre telle que les segments descendants soient
plus "purs" que le nud parent. Autrement dit, il faut que le mlange des
1 Dans la rgression linaire multiple, on suppose que la variance de la rponse y
conditionnellement aux covariables (variables explicatives) est constante, ce qui n'est
pas le cas pour la rgression par arbre.
310 Mthodes explicatives ou drives _ Chapitre 3
classes soit moins important dans les segments descendants que dans le
nud parent.
- Critre de la puret maximale
A chaque segment t est donc associe une mesure de l'impuret i(t) dfinie
par:
k k
i(t) =IIP( rlt)p(sil)
r 5
avec r"# s et o P(rlt) et P(slt) sont les proportions d'individus dans les
classes Cr et Cs dans le segment] t.
Un segment est pur s'il ne contient que des individus d'une seule classe,
dans un tel cas: i(t) = O. Plus le mlange des classes dans le segment test
important, plus l'impuret i(t) est leve.
Chaque division dj du nud t par la variable Xj entrane une rduction de
l'impuret qui s'exprime par:
!lj =i(t)-Pgi(tg)-p(td)
o Pg et Pd sont les proportions d'individus du nud t respectivement
dans les segments descendants tg et td (la fonction i(t) tant concave,
l'impuret moyenne ne peut que dcrotre par division d'un nud).
Par consquent pour chaque variable Xj, la meilleure division dj est telle
que la rduction de l'impuret !lj est maximale:
!l*' =max ~ }
J mEd. J
J
o d
j
est l'ensemble des divisions de la variable Xj'
Sur l'ensemble des P variables, la division du nud t est effectue l'aide
de la variable qui assure:
!l* =.max {!lj}
J=l, .. "P
- Les tapes de l'algorithme
Considrons maintenant 300 individus rpartis en 3 classes CI, C2, C3 de
mme taille et sur lesquels la mesures quantitatives ont t releves.
On procde comme dans le cas de la rgression par segmentation en
examinant toutes les variables.
] La fonction i(t) est l'indice de diversit de Gini (cf. Goodman et Kruskal, 1954). On
k
aurilit pu galement utiliser l'entropie de S/umnon : i(t)=-l P(rll) logP(slt>.
3.5 _ Segmelltatioll 311
Pour la variable Xl, on aboutit par exemple la meilleure division (qui n'est
pas ncessairement la plus discriminante) observable sur la figure 3.5 - 7.
Xl < 8,4
( 60,43,62 J
Figure 3.5 - 7
Discrimination: meilleure division pour la variable Xl
On retient finalement, parmi toutes les variables, celle qui produit la
meilleure "meilleure division", par exemple la variable continue X8 pour
a=3,5.
100, 100, 100
X8 < 3,5 /"'----.........
(75,65,20 J
25,35,80
Figure 3.5 - 8
Discrimination: meilleure division pour toutes les variables
On obtient ainsi la meilleure sparation entre les 3 classes, ce qui se traduit
par le schma de la figure 3.5 - 8. On applique cette mme procdure aux
deux segments descendants obtenus.
- Rgle d'affectation
Si on considre le segment terminal t de taille nt, il contient n1{/) sujets
appartenant la classe 1, ... , n,{/) sujets de la classe r, ... , nk(t) sujets de la
classe k.
Chaque segment terminal est affect la classe qui y est la mieux
reprsente. Par exemple, les segments 1 et 4 de la figure 3.5 - 9 sont affects
la classe 2. Un nouvel individu qui descend dans l'arbre arrive dans un
segment terminal et sera affect la classe correspondante.
- Taux d'Erreur Apparente de classement
A tout segment terminal t de l'arbre A associ une classe Cs correspond
une erreur de classement de la forme:
k
R(sil) = L. P( rll)
'=1
312 Mthodes explicatives ou drives _ Chapitre 3
segment 1
75,65,20
segment 2 segment 4
[3.5 - 2]
Figure 3.5 - 9
Discrimination: Arbre deux niveaux
avec r * s et o P ~ t == n,(t) est la proportion d'individus du segment t
nt
affects la classe Cs et qui appartiennent la classe Cr.
Le Taux d'Erreur Apparent de classement (TEA) associ l'arbre vaut:
TEA(A) == L ~ R s l t == L n,(t)
tEA n tEA,=l n
avec r * s. Il reprsente la proportion d'individus mal classs dans
l'ensemble des segments terminaux.
Ainsi, l'arbre de la figure 3.5 - 9 ne fournit pas une bonne rgle de dcision
en terme d'erreur de classement. En effet, un sujet qui parcourt l'arbre et
qui tombe dans le segment 1 est affect la classe 2 avec une erreur de
classement de 14,9 %; celui qui tombe dans le segment 4 est affect la classe
2 avec une erreur de classement de 55,5 %.
Le Taux d'Erreur Apparent de classement associ l'arbre est la moyenne
des erreurs de classement dans les diffrents segments terminaux, soit:
TEA == (74 x 14,9%+ 86 x 20,9%+95 x 26,3%+ 45 x 55, 5%) == 263%
300 '
On a sans doute intrt continuer diviser les segments. La question est
de savoir quel moment il faut arrter la procdure de division.
3.5.3 Slection du "meilleur sous-arbre"
Par "meilleur" sous-arbre, on entend un arbre qui contient le moins de
segments terminaux et dont J'erreur apparente de prvision ou de
classement est la plus petite possible, tout en fournissant une estimation
correcte de l'erreur thorique.
3.5 _ Segmentation 313
Un sous-arbre ayant peu de segments terminaux entrane une erreur
apparente qui, bien que refltant l'erreur thorique, est trop importante. En
effet, si l'arbre est trop petit, on peut tre conduit perdre de bonnes
divisions et ne pas utiliser toute l'information contenue dans
l'chantillon. Inversement, un arbre trop grand (avec de nombreuses
divisions) est associe une erreur apparente faible mais qui donne une
estimation trop optimiste de l'erreur thorique. C'est donc entre ces deux
extrmes que doit tre choisi le "meilleur" sous-arbre.
La mthode propose par Breiman et al. (op. cit.) est fonde sur l'utilisation
d'un chantillon-test et prsente un double avantage:
- dterminer le "meilleur" sous-arbre sans employer de tests statistiques
pour dfinir une rgle d'arrt de la procdure de division,
- obtenir une estimation prcise de l'erreur thorique de prvision ou
de classement.
a - Procdures de slection
Il est ncessaire de diviser l'chantillon de base en deux parties,
l'chantillon d'apprentissage (par exemple constitu par les 2/3 de
l'chantillon de base) et l'chantillon-test (le tiers restant). La recherche du
"meilleur" sous-arbre A" se fait alors de la faon suivante:
- A partir de l'chantillon d'apprentissage, on construit l'arbre complet
A
max
ou un arbre tel que chaque segment terminal contienne peu
d'individus.
Puis l'opration d'lagage de l'arbre A
max
consiste construire une
squence optimale de sous-arbres embots (AH, ... , Ah,., Al) o AH
concide avec A
max
, Ah est le sous-arbre ayant h segments terminaux
et Al est l'chantillon total. Chaque sous-arbre Ah de cette squence est
optimal au sens suivant: son Erreur Apparen,te (EA) est minimale
parmi les sous-arbres ayant le mme nombre de segments terminaux
1
.
Si Sh est l'ensemble des sous-arbres de A
max
ayant h segments
terminaux alors:
EA(A
h
) = min (EA(A)}
A E Sh
- A partir de l'chantillon-test, on slectionne, parmi les sous-arbres de
la squence optimale, le meilleur sous-arbre A". C'est celui qui
prsente la plus petite erreur thorique (ET) :
ET(A*)= min (ET(A
h
)}
l$h$H
1 En fait, des algorithmes appropris permettent de choisir une squence sous-
optimale, mais accessible par le calcul (cf. Breiman et al., 1984; Celeux et LechevaUier
in : Celeux, 1990).
314 Mthodes explicatives ou drives _ Chapitre 3
Les individus de l'chantillon-test parcourent chacun des sous-arbres
de la squence optimale et tombent dans un segment terminal, ce qui
entrane une estimation de l'erreur thorique pour chaque sous-arbre.
En pratique, j'estimation de l'erreur thorique dcrot rapidement
mesure que le nombre de segments terminaux des sous-arbres
augmente, puis elle passe par un palier et crot ensuite lentement. Le
sous-arbre A" slectionn comme optimal est le plus petit sous-arbre
associ l'estimation la plus petite de l'erreur thorique.
b - Estimation de l'Erreur Thorique de Prvision
L'estimation de l'Erreur Thorique de Prvision pour un sous-arbre A de la
squence optimale, ETP(A), est calcule sur l'chantillon-test suivant la
formule utilise pour l'Erreur Apparente de Prvision [3.5 - 1] :
ETP(A) = l ~
leA
avec RI =n! x sl et o il est la taille de l'chantillon-test, ni est le nombre
n
d'individus de l'chantillon-test qui appartiennent au segment t et sl est la
variance de la variable y l'intrieur du segment t.
c - Estimation du Taux d'Erreur Thorique de classement
Les appellations de Taux d'Erreur Apparent ou Thorique de Classement
n'ont de sens que dans le cas le plus simple c'est--dire si les probabilits a
priori des classes sont estimes par les frquences des classes dans
l'chantillon et si les cots de mauvaise classification sont tous gaux. Dans
le cas gnral, on utilise un Cot d'Erreur Apparent ou Thorique pour
lesquels les formules de calcul sont plus complexes.
- Cas le plus simple
L'estimation du Taux d'Erreur Thorique de classement se calcule comme
le Taux d'Erreur Apparent [3.5 - 2] partir de l'chantillon-test. Elle est gale
la proportion Pt d'individus mal classs par le sous-arbre A dans
l'chantillon-test (cf. formule [3.5 - 2]).
TA(A) = l f i i r ~ t =PI
teAr=l n
avec r"* s, o il est l'effectif de l'chantillon-test et ilr(t) est le nombre
d'individus de l'chantillon-test affects la classe Cs et qui appartiennent
la classe Cr dans le segment terminal t.
3.5 _ Segmentation 315
Il est possible de fournir un intervalle de confiance associ cette
proportion PI partir de l'estimation de la variance de cette proportion:
V
A (- )_PIO-PI)
ar PI - _
n
- Cas gnral
La rgle de dcision la plus gnrale est celle qui tient compte des
probabilits a priori n, (r =1,2, ... , k) des k classes discriminer et des cots de
mauvais classement nots C( ris) o r # s =1, 2, .. o,k.
C(rls) dsigne le cot] entran par l'affectation d'un individu la classe Cs
alors qu'il appartient la classe Cr. La rgle gnrale d'affectation d'un
segment terminal t une classe est fonde sur le cot moyen d'erreur de
classement (appel aussi risque d'erreur).
Si n,(t) dsigne le nombre d'individus de la classe Cr du segment t et n,
l'effectif total de la classe Cr, on a :
n,(t)
P,--
n
Perit) = '
p(t)
, pet) n,Ct) 1 b b'l' . d'" b ."
ou =LP,-- est a pro a 1 lte a outIr au segment t.
,=1 n,
Le cot moyen d'erreur de classement R(slt) entran par l'affectation du
segment t la classe Cs est gal :
k
R(slt) =IC(r\s)P(rlt)
,=1
Ainsi le segment terminal t est affect la classe Cj si :
Ralt)= min (R(slt)}
s=1,. .. k
Remarque
Si la probabilit n, d'appartenance a priori la classe cr est gale la proportion
d'individus de cette classe dans J'chantillon:
n,
n, =-;;
alors P{t} tel que:
P{t} = l P, n,(t)
,=1 n,
est simplement la proportion d'individus composant le segment terminal t.
1 Les diffrents cots C(sls) sont nuls et en gnral Gris) # C(slr).
316
3.5.4
Mthodes explicatives ou drives _ Chapitre 3
Divisions qui-rductrices et qui-divisantes
La meilleure division d" d'un nud est celle qui assure la plus grande
rduction de la variance rsiduelle ou de l'impuret en passant du nud
ses segments descendants. Cette notion de maximum absolu est trs stricte.
Il peut exister en effet des divisions presque aussi bonnes, pouvant jouer un
rle important au niveau des interprtations.
Par extension, on dfinit, ct de d", deux autres types de divisions :
les divisions qui-rductrices qui assurent, aprs d", les plus fortes
rductions de l'impuret ou les plus faibles variances rsiduelles. Elles
permettent d'intervenir sur le choix de la "meilleure" variable
explicative.
les divisions qui-divisantes qui fournissent les rpartitions les plus
proches de la meilleure division d". Elles permettent de grer l'existence
de donnes manquantes dans l'affectation d'un nouvel individu une
classe ou une valeur de y .
a - Divisions qui-rductrices
La procdure de division d'un nud fournit les premIeres meilleures
divisions d'un nud pour lesquelles la rduction de la variance rsiduelle
ou de l'impuret est leve (cf. 3.5.2.b et c).
Si la meilleure division d" du nud t est obtenue partir de la variable x",
on dfinit la premire division qui-rductrice di effectue sur la variable
Xi (Xi X") avec i:: l, ... ,p. C'est celle qui correspond une rduction des
segments descendants la plus proche de celle de la meilleure division d".
En d'autres termes, c'est la deuxime meilleure division du nud t. On
dfinit par extension les 2me, 3me, ... , divisions qui-rductrices
l
.
b - Divisions qui-divisantes
Les divisions qui-divisantes
2
permettent de classer un nouvel individu
prsentant une donne manquante pour la variable dfinissant la division.
L'ide est la suivante: on cherche une variable qui remplace au mieux la
variable divisant le nud, c'est--dire qui assure presque la mme
sparation des individus. De la mme manire, on peut dfinir la seconde,
troisime, ... , meilleure division qui-divisante.
1 Les divisions qui-rductrices sont parfois appeles concurrentes. Il est possible
ainsi d'intervenir sur le choix des variables associes aux "meilleures" divisions suivant
la perception personnelle qu'a l'utilisateur du problme. En effet, la variable
produisant la "meilleure" division, on peut prfrer une autre variable que l'on sait plus
pertinente pour l'tude.
Z Les divisions qui-divisantes sont parfois appeles supplantes.
3.5 _ Segmelltation 317
Ainsi, si la valeur de Xj est manquante pour un nouvel individu, on
l'affectera un des segments descendants en utilisant la meilleure division
qui-divisante de d". Si la valeur de la variable associe la meilleure
division qui-divisante est manquante, on aura recours la deuxime
meilleure division qui-divisante, etc.
3.5.5 Lien avec les mthodes de classement
Segmentation, dIscrimination, classement, classification ou classification
supervise, rgression linaire multiple, rgression logistique, rgression
pas--pas, ... , le vocabulaire ne manque pas pour dsigner, suivant le
domaine d'application, des oprations qui sont souvent proches, sinon
identiques. On veut, dans ce paragraphe, brivement situer la segmentation
parmi les outils rpondant des proccupations voisines de la part de
l'utilisateur.
La segmentation, bien que travaillant par divisions de l'chantillon en
classes, est plus proche des techniques de rgression pas pas (qu'il s'agisse
de rgression linaire multiple ou de rgression logistique) et de
discrimination pas--pas que des mthodes de classification automatique.
En effet, il ne s'agit pas de faire apparatre des classes, mais de chercher les
groupes d'individus les plus "explicatifs" des modalits d'une variable
qualitative particulire (ou des valeurs d'une variable continue). Le
principe est, on l'a vu, de chercher la dichotomie (induite chaque pas par
une des variables) la plus "lie" la variable privilgie.
La segmentation n'est pas vraiment multidimensionnelle au sens
gomtrique du terme (on ne calcule pas de distances dans RP ni dans Rn
comme pour les mthodes factorielles ou de classification), mais on utilise
les variables explicatives conditionnellement les unes par rapport aux
autres. On peut donc parfois atteindre des effets d'interaction assez difficiles
saisir par d'autres mthodes, sans prtendre d'ailleurs les atteindre tous.
La parent avec les mthodes descriptives reste forte, dans la mesure o les
aspects "contrle des opraticns par l'utilisateur", "transparence du
fonctionnement", voire "ergonomie des rsultats" occupent une position
de premier plan. L'arbre de dcision binaire est lisible par tout utilisateur.
Autre avantage dj voqu dans l'introduction de cette section, la mixit
des variables qu'accepte la procdure: nominales, ordinales, continues
peuvent tre mlanges au niveau des variables explicatives, et peuvent
constituer la variable expliquer.
La validation par une mthode de rchantillonnage (limit aux
chantillons-test dans l'expos qui prcde) est elle-mme une des
techniques de validation les plus transparentes pour l'utilisateur.
Pour conclure, on doit cependant reconnatre quelques dfauts la
segmentation par arbre binaire, qui rendent son utilisation exclusive
insuffisante.
318 Mthodes explicatives ou drives _ Chapitre 3
L'aspect squE'ntiel est redoutable, car les covariations qui servent
slectionner les variables ne mesurent pas un lien causal et une variable
peut en cacher une autre, beaucoup plus fondamentale, qui n'a plus aucune
chance d'apparatre dans la suite du processus. Les divisions de rserve
(qui-rductrices et qui-divisantes) sont l pour pallier partiellement cet
inconvnient. Mais l'arbre binaire perd alors une partie de sa sduisante
simplicit.
L'absence de visualisation globale, propice une rflexion critique sur le
recueil de donnes et une observation simultane de l'ensemble des
covariations, est galement une faiblesse par rapport aux mthodes
factorielles.
Enfin, il se peut que la nature du phnomne tudi fasse que des
combinaisons linaires (a prs ventuel recodage) soient optimales pour
prvoir la variable tudie (ou son logit ou toute autre fonction). Dans ce
cas, la segmentation progressive sera surclasse.
Ces quelques critiques ne portent cependant que sur l'usage exclusif de la
segmentation par arbre binaire. Une dmarche impliquant plusieurs points
de vue (visualisation pralable des variables explicatives avec
positionnement a posteriori de la variable expliquer, rgression ou
discrimination) permet d'viter la plupart des cueils mentionns.
Section 3.6
Analyses partielles et projetes
Ces mthodes se proposent d'analyser les associations existant entre des
variables et des individus, non seulement aprs limination d'effets de
niveaux ou d'chelle, mais galement aprs avoir tenu compte de
l'influence ventuelle de "variables exognes".
A l'origine et au centre de ces techniques se trouve l'analyse en
composantes principales partielle ou sur variables instrumentales selon la
terminologie de Rao (1964).
3.6.1 Dfinition du coefficient de corrlation partielle
Deux variables alatoires Xl et Xz sont supposes dpendre d'une mme
variable alatoire Z. On dispose d'un chantillon de chacune de ces
variables. On peut mesurer directement le coefficient de corrlation r(xI, X2)
sur deux chantillons de taille n reprsents dans Rn par les vecteurs n
composantes Xl et X2. Mais nous voulons en fait connatre la liaison existant
entre Xl et X2 en liminant l'effet de la variable Z dont les n observations
sont les composantes du vecteur z.
Pour prendre un exemple lmentaire classique l, Xl est la plus grande
dimension d'un uf, Xz la plus petite et Z son poids. Sur un. chantillon de
n = 100 ufs, on trouvera un coefficient r(xI, X2) fortement positif, car il
existe de gros ufs, pour lesquels Xl et Xl ont des valeurs leves, et des
petits, pour lesquels ces valeurs sont faibles. Par contre, si le poids Z est fix,
la liaison observe sera inverse car, poids gal, les ufs sont plus ou
moins sphriques.
Comment mesurer cette liaison entre Xl et X2 " Z constant"? Une
premire mthode consiste regrouper les observations en classes
l'intrieur desquelles les valeurs de Z sont peu diffrentes. On calcule alors
le coefficient de corrlation entre Xl et X2 dans chaque classe et l'on fait, par
exemple, une moyenne pondre de ces coefficients, pour avoir une ide
d'ensemble de la liaison. Cette mthode est excellente et il est conseill de
l'employer chaque fois que la taille des chantillons permet une division en
classes d'effectifs suffisants.
Une autre mthode va nous permettre de calculer la liaison entre Xl et X2
" Z constant" de faon simple, mme lorsque les chantillons sont petits
1 Cf. Darmois (1957).
320 Mthodes explicatives ou drives _ Chapitre 3
(mais au prix d'une hypothse sur la linarit des liaisons). Ce coefficient de
corrlation entre Xl et X2 " Z constant" s'appellera le coefficient de
corrlation partielle entre Xl et X2, et on le notera P(Xl,X2IZ). Son calcul
repose sur l'hypothse que l'effet de Z sur les variables Xl et X2 se manifeste
par des relations du type 1 :
{
Xl =alZ+El
X2 =a2
Z
+
E
2
Une fois te l'influence de la variable Z, les variables alatoires Xl et X2
deviennent Xl - alZ = El et X2 - a2Z Le coefficient de corrlation
partielle thorique p( Xl, X2IZ) est par dfinition le coefficient de corrlation
usuel entre E:J et t2 :
P(X
l
,X2I
Z
) = COV(El,E2)
)var(E2)
On dfinit de faon analogue une matrice des covariances partielles V(X 1 Z)
et une matrice des corrlations partielles C(X 1 Z) entre p variables
Xl, X2,., X
p
, lorsque q variables ZI, Z2,"" Zq sont supposes fixes. On a alors
le systme suivant:
j
Xl = all
Z
1+ a12
Z
2+" .+a
1q
Zq + El
X2 = a21
Z
1 + a22
Z
2+ .+a2
q
Zq +
10
2
X
p
=aplZl + ap2Z2+" .+apqZ
q
+ E
p
V(X 1Z) et C(X 1Z) sont respectivement les matrices des covariances et des
corrlations thoriques entre les variables rsiduelles: El, l, ... , Ep.
3.6.2 Calcul des covariances et corrlations partielles
a - Cas de deux variables
Pour les n observations des trois variables XJ, X2, Z, qui sont les
composantes, supposes ici centres, des 3 vecteurs XI, X2, z, ces relations
d'ajustement s'crivent, avec les notations de la section 3.2 (mais la lettre x
dsigne maintenant des variables endognes ou expliques) ;
{
Xl =alz+el
x2 = a2
z
+
e
2
1 Comme pour tout modle linaire, les variables entre lesquelles existe une relation
linaire peuvent tre des variables transformes construites partir des variables
rellement observes. Le cilfactre linaire de la relation n'est donc pas une contrainte
importante.
3.6 _ Analyses partielles et projetes 321
[3.6 -1]
o al et a2 sont respectivement les estimations de al et a2 par la mthode
des moindres-carrs alors que el et e2 sont les rsidus observs. La
covariance partielle exprimentale s'crit:
Cav(x1,x21 z) =1eie2 =l(XI -alz)'(x2 - a2z)
n n
soit:
Cav(x1 ,x21 z) = 1{xi
x
2 - al
z
'x2 - a2xiz + ala2 z'z}
n
On remplace les coefficients de rgression par leur valeur al = xlz/z'z et
a2 =x2z/z'z et l'on obtient aprs simplification:
Cav(x1,x2i z) =1{Xi
X
2 _ (Xi
Z
)(X2
Z
)}
n z'z
expression que l'on peut crire:
C (
1) C ( )
Cov(x1,z)Cav(x2'z)
av x1,x2 z = av x1,x2 -
Var(z)
Les variances rsiduelles se calculent de faon analogue et l'on a pour el :
l
etel
= Var(x1) - Var
2
(x1'z) = (1- r
2
(x1,z))var(x1)
n Var(z)
Le coefficient de corrlation partielle r(xI,x21 z) s'crit alors, en faisant
apparatre les coefficients de corrlation usuels:
(
1
)
- r(xI,x2)-r(xI,z)r(x2'z)
r xI,x2 z ; = ~ ~ ~ ~ ~ ~ ~ ~ ~
~ 1 r
2
(xI,z))(1- r
2
(x2'z))
b - Cas de p variables (X) et de q variables (Z)
Nous disposons maintenant de p vecteurs XI, X2, ... , xp auxquels
correspondent p points dans !Rn. On peut mesurer la covariance (ou la
corrlation) entre ces variables aprs limination de l'effet de q autres
variables reprsentes dans !Rn par les vecteurs Zl, Z2, ... , Zq. On dsignera par
X la matrice (n, p) et par Z la matrice (n, q) qui rassemblent en colonne ces
di vers vecteurs.
Pour la k
ime
variable, l'ajustement des moindres-carrs entre Xk et les
variables exognes Z], Z2, ... , Zq s'crit:
xk =akl zl +ak2 z2++
a
kq Zq +ek
o ek est le vecteur rsiduel. Nous appellerons ak le vecteur-colonne de ces
q coefficients. Aprs avoir effectu les p ajustements similaires concernant
Xl, X2, ... , xp nous rassemblons dans la matrice A de dimension (q, p) les p
vecteurs-colonnes de coefficients (a), a2, ... , ap) et dans la matrice E de
dimension (n, p) les p vecteurs rsiduels (el, 2,"" e
p
). Le systme des
ajustements s'crit alors de faon synthtique:
322 Mthodes explicatives ou drives _ Chapitre 3
x = Z A+ E
(n,pJ (n,q)(q,pJ (n,pJ
Dans la matrice A, la k
ime
colonne est:
Il est donc possible d'crire A sous la forme:
A = (Z'Zr
1
Z'X [3.6 -2]
Avec ces notations, la matrice (p, p) qui dfinit les covariances partielles
exprimentales sur les X" Z constant" s'crira:
V(XI Z) = -l- E'E = l(X - ZA)'(X - ZA)
n n
= l(X'X - A'Z'X - X'ZA + A'Z'ZA)
n
En remplaant A par son expression [3.6 - 2] et aprs simplification:
V(XI Z) =.1 {X'X - X'Z'(Z'Zr
1
Z'X} [3.6 - 3]
n
Imaginons que soient rassembls dans un tableau T n lignes et p + q
colonnes les tableaux centrs X et Z :
T = [X,ZI
Alors la matrice des covariances entre les colonnes de T peut tre
partitionne en quatre sous-matrices de covariances:
V(T) =[VXX vzx]
Vxz Vzz
avec:
Vxx =.!..X'X;
n
Vzz =.!..Z'Z;
n
Alors la relation [3.6 - 3] prend la forme:
V(XI Z) = V
xx
- VzxVftV
xz
[3.6 -4]
o elle apparat comme une gnralisation, pour q ::? 1, de [3.6 -1].
La ma trice des corrlations partielles se calcule aisment partir de la
ma tri ce des covariances pa rtielles V(XI Z) comme une matrice des
corrlations ordinaires partir d'une matrice des covariances.
3.6.3 Analyse du nuage rsiduel ou analyse partielle
L'analyse du tableau X lorsque les variables Zl, Z2, ... , Zq sont fixes, se
ramne donc l'analyse gnrale (cf. section 1.1) du tableau des carts E.
Ainsi les points reprsentant les variables dans IR n auront pour
3.6 _ Analyses partielles et projetes 323
coordonnes ( une homothtie prs), sur l'axe factoriel a, les composantes
du a
ime
vecteur-propre Ua de la matrice des covariances-partielles
1
:
V(X IZ) = E'E
n
Poursuivant l'interprtation gomtrique de l'ajustement des moindres-
carrs, on peut remarquer que:
o Pi (= 1- Pz) est une matrice (n, n) symtrique et idempotente, analogue
la matrice Px dfinie par la formule [3.2 - 3] au paragraphe 3.2.2.b. Ici Pi:
effectue la projection de tout vecteur de IR n sur le sous-espace (n - q -1)
dimensions, orthogonal au sous-espace engendr par (zl, Z2, .. ,Zq)' C'est cette
projection que l'on analyse lorsqu'on opre la transformation des donnes
E= Pi X.
Ainsi, dans l'hypothse o les rgressions traduisent effectivement l'effet
des variables que l'on dsire fixer, il est possible d'tudier a posteriori les
liaisons et les associations existant entre des variables et des observations,
"toutes choses gales par ailleurs".
Dans certains cas, on peut au contraire (cf. paragraphe 3.6.4 ci-aprs) tre
intress par la projection du nuage sur le sous-espace engendr par Z, le
tableau analys tant alors le tableau F = Pz X. On rservera le nom
d'analyse projete l'analyse de F.
3.6.4 Autres analyses partielles ou projetes
Il existe plusieurs variantes de mthodes impliquant des projections sur des
sous-espaces. Une vue gnrale ainsi que des extensions de ce type
d'approche sont donnes par Sabatier (1984, 1987).
On a vu que l'analyse canonique (section 3.1) part d'une situation analogue,
c'est--dire d'un tableau de la forme R = (X, Z), mais cherche le plus petit
angle entre les sous-espaces engendrs par les colonnes de Xet de Z dans
IR n. Ceci a conduit diagonaliser une matrice du type:
O X' Pz X =(Pz X)'P
z
X est proportionnel la matrice d'inertie du nuage
projet sur le sous-espace engendr par les colonnes de Z.
1 Pour une analyse nonne, on utiliserait la matrice des corrlations partielles.
324 Mthodes explicatives ou drives _ Chapitre 3
Dans l'quation Su ,u, posons u =(X'Xr1y. On obtient:
X' Pz X (X'Xr1y = y
ce qui montre que y est bien un axe principal de l'analyse du nuage projet]
avec la mtrique (X'X)-l (cf. 1.1.6).
On a galement vu que l'analyse discriminante est un cas particulier de ce
type d'analyse lorsque Z est le tableau de codage disjonctif d'une variable
nominale.
a - Analyse canonique des correspondances
Une technique voisine, qui aurait pu avoir sa place dans les sections
consacres l'analyse canonique ou l'analyse discriminante, est l'analyse
canonique des correspondances, propose par Ter Braak (1986,1987), tudie
et applique par Chessel et al. (1987), Lebreton et al. (1988), et tendue par
Ter Braak (1988) l'analyse canonique partielle des correspondances.
On a fait allusion au dbut de ce chapitre aux dangers d'une prolifration
indfinie de mthodes spcifiques, en reconnaissant cependant que si des
situations typiques ou des structures typiques de tableaux se prsentent avec
une certaine frquence, il est loisible de forger des instruments ad hoc.
En cologie prcisment, les observations se prsentent souvent sous la
forme d'un tableau R = (X, Z) o, pour n sites (lignes de X et de Z), on
dispose d'un tableau numrique X (qui peut aussi tre une autre table de
contingence ou un tableau disjonctif complet) dcrivant les sites (variables
gologiques, climatiques, ptrochimiques, botaniques, etc.) et d'une table de
contingence (ou parfois de prsence-absence) Z donnant le nombre ou la
prsence de q espces animales ou vgtales sur les n sites.
Si l'on appelle D
n
et Oq les matrices diagonales d'ordres (n, n), et (q, q)
contenant les marges de la table Z, on munira les n lignes de X de masses
proportionnelles la diagonale de On (en particulier pour centrer les p
colonnes de X). On notera encore X dans la suite la matrice centre de cette
faon. L'analyse canonique des correspondances revient diagonaliser:
S = (X'Onxr1(X Z O ~ l )0q ( D ~ l Z X
Si le tableau Z est un tableau disjonctif complet (une seule espce et un seul
spcimen par site), Z'Z = D
q
et la matrice D n est une matrice scalaire;
l'analyse canonique des correspondances est alors simplement l'analyse
discriminante visant prdire les espces partir des caractristiques des
sites 2.
1 On vrifie que vest bien de norme 1 pour la mtrique (X'Xr
1
puisque u 'X'Xu=l.
2 Comme le remarquent Lebreton et al. (1988), on peut se ramener aux calculs d'une
analyse discriminante dans le cas gnral en multipliant les lignes de Z de faon ne
laisser qu'un spcimen d'une seule espce par ligne et en rptant de faon similaire les
3.6 _ Analyses partielles et projetes 325
La matrice A = d'ordre (p, q) contient les moyennes des variables
par espces.
Comme on vient de le voir propos de l'analyse canonique, il s'agit ici
d'une analyse en axes principaux de A dans la mtrique dfinie par
(X'D
n
Xr
l
, inverse de la matrice des covariances totales pondres des
variables-colonnes de X.
Rcrivons une matrice du type de S dans le cas o D
n
est une matrice
scalaire (nombre constant d'espces par site) et en posant Y=
S =(X'X)-I(X'Y Y'X)
Remarquons que si le vecteur u est vecteur propre de S relatif la valeur
propre , alors:
v = Y'Xu
est vecteur propre de :
SI = Y'X(X'Xr
l
X'y = Y' Px Y = (PxY)'(Px Y)
relatif la mme valeur propre .
Or SI correspond l'analyse en axes principaux de la projection de la table
de contingence (normalise) Y sur le sous-espace engendr par les colonnes
du tableau X dans l'espace IR n.
L'analyse canonique des correspondances peut donc tre considre comme
une analyse partielle particulire. Elle diffre de l'analyse canonique en ce
sens qu'elle traite de faon dissymtrique les deux tableaux X et Z (elle ne
fait jamais intervenir la matrice (Z'Zr
l
, c'est--dire finalement la structure
interne du tableau Z, indpendamment de X).
b - Analyse non-symtrique des correspondances
On a vu plus haut que, en prsence d'un tableau de donnes R = (X, Z),
comprenant deux groupes de variables, l'analyse canonique conduisait
diagonaliser la matrice :
S = (X'Xr
1
X'Z(Z'Zr
1
Z'X
alors que l'analyse du nuage des lignes de X projet sur le sous-espace
engendr par les colonnes de Z conduit diagonaliser:
SI = X'Z(Z'Z)-1 Z'X = X' Pz X
lignes de X. Cette dilatation de Z supprime les cooccurrences d'espces l'intrieur
d'un mme site.
326 Mthodes explicatives ou drives _ Chapitre 3
Si les matrices X et Z sont des tableaux disjonctifs complets, la
diagonalisation de 5 est celle implique dans l'analyse des correspondances
de la table de contingence C = X'Z.
La diagonalisation de 51 correspond ( un centrage prs) l'analyse non-
symtrique des correspondances de cette mme table C, introduite et
dveloppe par Lauro et D'Ambra (1984) pour traiter les situations o les
variables lignes et colonnes jouent des rles dissymtriques 1.
1 Cette mthode a connu des dveloppements parallles ceux de l'analyse des
correspondances: gnralisations au cas multiple, liens avec les modles log-linaires,
tudes de validation et de stabilit (pour une vue gnrale de ces travaux, cf. Balbi,
1994).
3.7 _ Structures de graphe, analyses locales 327
Section 3.7
Structures de graphe, analyses locales
La nature ou l'origine du recueil de donnes suggrent souvent une
structure a priori de l'ensemble des individus ou observations, avant toute
analyse statistique.
On peut voir sur la figure 3.7 - 1 des reprsentations qui correspondent
trois structures distinctes de l'ensemble des observations. La structure de
partition, qui correspond un graphe form de cliques disjointes, peut tre
dcrite par une simple variable nominale, et entre donc dans le cas des
analyses partielles prsentes plus haut. Elle fera cependant l'objet d'un
traitement particulier qui fait intervenir les matrices de covariances intra-
classes et inter-classes, comme en analyse factorielle discriminante.
Partition
Al
\/AZ
A3
AS--A6 ~ A
\/ A ~
A7 A9
Chane
A1 ........
AZ
_ A3_ A4-AS-A6-A7 f9
'A8
Graphe plus gnral
AZ A4
A1// "- AS/ ""
'A3 l "- _~ A 7
"A6 A8""'""
'-...fg
Figure 3.7 - 1
Graphes correspondant trois types de structures courantes:
Partition, chane (chronologie), graphe non orient.
La structure de chane correspond le plus souvent des observations
conscutives dans le temps, alors que la structure plus gnrale de graphe
non orient peut schmatiser un systme d'observations gographiques,
pour lequel il existe une certaine dpendance entre observations contigus.
Ces structures ne peuvent pas tre prises en compte par des variables
nominales car elles concernent des couples d'observations.
328
3.7.1
Mthodes explicatives ou drives _ Chapitre 3
Variance locale et covariance locale d'une variable
La dcomposition de la variance en variance entre classes et variance dans
les classes n'est plus possible dans le cas d'une structure de graphe.
On peut faire intervenir une autre dcomposition, fonde sur la proprit
de la covariance empirique 1 entre deux variables x et y d'tre galement
une covariance entre tous les couples d'observations:
l n Inn
cov(x,y)=-I/Xi-X)(Yi-Y)= L I,(Xi-Xi')(Yi-Yi')
n - l i=l 2n(n - 1) i=l i'=l
On a videmment l'expression de la variance si x =y :
In 2 Inn 2
var(X)=-L(Xi- X) = L L(Xi-Xj') [3.7-1]
n - l i=l 2n(n -1) i=l i'=l
S'il existe une relation binaire symtrique sur l'ensemble 1 des individus,
dfinie par une partie symtrique R de l'ensemble produit 1xl (R sera
l'ensemble des couples contigus (i, i', on peut crire, dans le cas de la
variance par exemple:
var(x) = / )I L(Xi-Xj')2+ L(Xi-Xi'/)
2n n - l l(i,i')ER (i,)e'R
c'est--dire sparer, dans le dnominateur de la variance, les contributions
des couples contigus (ou adjacents sur le graphe) et des autres couples.
Matrice de contigut
Un couple de sommets adjacents du graphe est reli par une arte. Le
nombre des artes attaches un mme sommet i est appel le degr de ce
sommet. Ce nombre est not mi. Le nombre d'artes du graphe s'crit alors:
l n
ma =- L"4
2 i=l
Si tous les sommets sont relis par une arte, le graphe est dit complet. Un
tel graphe possde n(n-I)/2 artes (on ne distingue pas l'arte (i, i') de l'arte
(i', i. On construit une matrice carre M, d'ordre (n, n), dite matrice de
contigut, ou matrice associe au graphe telle que mii' =1 si i est voisin de
i' et mii' =a sinon
2
.
1 La covariance empirique sera calcule ici en divisant la somme des produits par (n-1)
(au lieu de n). On obtient ainsi une estimation sans biais de la covariance thorique.
2 On peut galement travailler sur des structures de contigut qui incJuent des
proximits distance 1,2, ... , n les matrices de contigut correspondantes tant
construites partir des puissances boolennes de la matrice M (cf. Lebart, 1969-a).
Nous nous limiterons ici aux structures de contigut pour lesquelles deux parties sont
immdiatement contigus (distance 1) ou disjointes bien que les rsultats soient
galement gnralisables des structures de contigut plus complexes.
3.7 _ Structures de graphe, analyses locales
Notons qu'avec les notations prcdentes:
329
n
In =Llni'
i'=1
On voit que cette matrice est symtrique du fait de la symtrie de la relation
de contigut. On adoptera la convention selon laquelle une observation
n'est pas contigu elle-mme, ce qui implique que les termes mii situs
sur la diagonale principale de la matrice M sont tous nuls. On peut rcrire,
dans la dernire formule donnant la variance, le terme faisant intervenir
les couples contigus sous la forme:
2 n n 2
L(Xi -X() =L L"4ii -xi')
(i,i')eR i=1 i'=1
On appelle variance locale v/(x) d'une variable x la demi-moyenne des
carrs des accroissements correspondant des observations contigus.
Posant:
n n
m= L Lmii'
i=1 i'=1
on a:
1 n n 2
V/(X)=-L Llni'(Xi-Xi) [3.7-2]
2m i=1 i'=1
La variance totale var(x) donne par la formule [3.7 - 1] est donc la variance
locale correspondant au graphe complet.
3.7.2 Coefficient de contigut de Geary (1954)
Il est clair que si la variable x est indpendante de la structure de graphe, la
variance locale est une estimation de la variance totale. Si les valeurs
voisines de x sont corrles positivement, alors la variance locale sous-
estime la variance totale. Le coefficient de contigut c(x) est dfini comme
le rapport de la variance locale la variance totale.
c(x) = v/(x) /var(x) [3.7 - 3]
Sous l'hypothse selon laquelle les valeurs Xi sont des ralisations de
variables alatoires normales indpendantes, on peut calculer les quatre
premiers moments du coefficient c(x) en fonction de la trace des puissances
de la matrice M associe au graphe
1
. On voit ainsi que pour le graphe des
dpartements franais (pour lequel deux sommets-dpartements sont joints
par une arte s'ils ont une frontire commune) la distribution de c(x) est
trs proche d'une distribution normale.
1 Pour un expos plus complet cf. Lebart et Tabard (1973). Pour d'autres applications
de la notion de contigut, cf. Aluja Banet et Lebart. (1984).
330 Mthodes explicatives ou drives _ Chapitre 3
Analyse des correspondances des matrices associes M
On verra au 4.1.5, propos de l'interprtation des taux d'inertie, un
exemple d'analyse des correspondances de la matrice M associe un cycle.
Montrons que ce type d'analyse a des proprits optimales en terme de
contigut: le premier facteur direct cp (cf. 4.1.5) associ la plus grande
valeur propre . est la fonction de contigut minimale et le coefficient de
Geary correspondant vaut:
c(cp)=l--[i
Cette proprit est vraie pour les graphes rguliers (de degrs mi constants)
et s'tend tous les graphes sous rserve d'une modification de la
dfinition du numrateur de cCx) : pour le calcul de la moyenne de x et de sa
variance totale, on pondre chaque sommet par son degr.
Dans ces conditions, si N dsigne la matrice diagonale telle que nii =mi et si
x dsigne le vecteur des observations de x, suppos centr, alors cCx) s'crit:
()
x'(N - M)x
ex =----
x'Nx
Le minimum Ji de cCx) est alors aussi le minimum de x'(N - M)x avec la
contrainte x'Nx = 1 c'est--dire la plus petite valeur propre Ji donne par le
systme (cf. Ll.7) :
(N - M)x = Ji Nx
que l'on crit:
N-
1
Mx = (1- Ji) x
On reconnat dans cette dernire formule la formule de transition de
l'analyse des correspondances de la matrice symtrique M.
On posera donc ,JI =eU -Ji), avec e =1 si le facteur est direct, E =-1 s'il est
inverse. Le minimum de Ji correspond donc au maximum de Apour E>O.
Ainsi:
Min{c(x)} =1- --/""'I
Les deux premiers facteurs sont donc les deux fonctions (N-orthogonales) de
contigut minimale, proprit qui assure une reprsentation graphique
plane du graphe respectant le mieux possible les voisinages entre sommets
1
(le critre tant le coefficient de contigut, c'est--dire un critre de
moindres carrs appliqu aux couples d'observations).
1 On trouvera dans Benzcri (1973, Torne Il B, nOlO: "Sur l'analyse de la
correspondance dfinie par un graphe") des exemples donnant lieu des rsolutions
numriques ou analytiques de description de graphes particuliers (cartes
gographiques, rseaux mailles carres, produits tensoriels de rseaux, etc.). On
observe en particulier dans ces cas des "effets Guttman plusieurs dimensions", ce qui
se traduit par des vecteurs propres de rangs levs dont les composantes sont des
fonctions polynomiales de celles des premiers vecteurs propres.
3.7 _ Structures de graphe, allalyses locales
3.7.3 Analyse locale
331
Gnralisons les rsultats prcdents au cas de plusieurs variables 1. La
covariance locale entre deux variables xjet xj" s'crit:
1 n n
cov/(Xj,xj") =-2l Imii,(xji -Xji')(Xj -xj'i') .
m i=1 ;'=1
Si X dsigne la matrice d'ordre (n,p) de terme gnral Xjj" (n observations de
p variables), la matrice des covariances locales VI s'crit:
V/ = _l_
X
' (N - M)X
2m
[3.7-4]
Si le graphe est form de cliques disjointes de mmes tailles (structure de
partition en classes d'gales importances), la matrice VI est proportionnelle
la matrice 0 de variance intra-classes, qu'elle gnralise dans ce cas. Si les
classes sont d'effectifs ingaux, le systme de pondration par le nombre de
couples fait qu'il n'y a plus proportionnalit entre ces deux matrices 2.
On peut dfinir une matrice des corrlations locales, de terme gnral:
cov/(x,x)
c/(x,x,) = J J
J J
La diagonalisation de cette matrice nous fournit, comme en analyse en
composantes principales, une image des liaisons existant au niveau local,
qu'il peut tre intressant de confronter aux liaisons globales (ainsi, dans le
cas de donnes gographiques, l'opposition entre grandes rgions trs
diffrentes peut masquer des covariations que l'analyse de la matrice des
corrlations locales restitue).
3.7.4 Analyse de contigut et projections rvlatrices
a - Analyse de contigut
La variance locale v/(u) d'une combinaison linaire u(i) des p variables
s'crit en fonction de la matrice de contigut, avec les notations
habi tuelles :
1 Alors que le coefficient de contigut de Geary est l'analogue, dans le cas d'un
ensemble fini, d'un point du variogramme (correspondant la distance "1" dans le cas
isotropique) utilis en gostatistique (Matheron, 1963), la matrice des covariances
locales est l'analogue, dans le cas fini ou discret, de la matrice de codispersion
intrinsque qui intervient dans la thorie des variables rgionalises (Matheron, 1965).
2 Cette proportionnalit est rtablie si, comme l'a remarqu Mom (1988), on modifie le
coefficient de contigut en prenant la moyenne des carrs des diffrences entre chaque
sommet et la maljenne des sommets qui lui sont contigus sur le graphe. La variance locale
devient alors la variance des diffrences locales, selon les termes d'Escofier (1989).
332 Mthodes explicatives ou drives _ Chapitre 3
v/{Um} =v/jfUjXji) =_1_, ,midum-u(i'))2=uIVI u
j=1 2m i=1 i'=1
Si V dsigne la matrice des covariances totales, le coefficient de contigut de
la combinaison linaire u(j) s'crit comme le quotient des deux formes
quadratiques:
c(u) =u' VI u [3.7 - 5]
u'Vu
La recherche des combinaisons linaires de contigut minimale (analyse de
contigut) constitue, dans le cas de graphes rguliers, une gnralisation de
l'analyse factorielle discriminante, qui se rduit celle-ci lorsque le graphe
est form de cliques disjointes. Dans le cas de graphes quelconques, Il faut
modifier la variance locale selon les prconisations de Mom (1988) pour
avoir une gnralisation stricte.
L'analyse de contigut est beaucoup moins utilise que l'analyse
discriminante qui a le mrite de rapprocher des donnes complexes et une
structure trs simple (la structure de partition)!. Elle peut tre utilise dans
le cadre d'une dmarche s'apparentant aux techniques dites de projections
rvlatrices (cf. Caussinus, 1992) qui, trs schmatiquement, cherchent des
directions "intressantes" plutt que des dimensions principales au sens des
moindres carrs 2. Il existe autant de variantes de la mthode qu'il existe de
faons de dfinir l'intrt d'une projection.
b - Reprsentation de groupes par projection
Si l'on veut dterminer une projection qui spare le mieux possible des
groupes existant dans l'ensemble des observations (sans connatre a priori
ces groupes, sinon l'analyse factorielle discriminante classique rpond la
question), on peut procder de la faon suivante. On part d'un tableau de
donnes X d'ordre (n,p) pour lequel on n'a aucune information externe. On
dfinit une relation de contigut sur l'ensemble des lignes de X (il s'agit ici
d'une contigut a posteriori) partir d'un seuil de distance do. Parmi les
n(n-1) couples d'observations (lignes de X) dans l'espace RP, les couples
d'observations (i, i') tels que d(i, 0 :s; do sont dclars "contigus". On dfinit
donc la matrice de contigut M par les relations:
mil::: 1 si d(i,O:S; do et mU' =0 sinon
Une seconde faon de dfinir une relation de contigut n posteriori est de
considrer comme contigus le pourcentage 50 (50::: 10 par exemple) des
couples les plus proches au sens de dU, 0, ce qui permet de dfinir un seuil
do aprs le calcul des n(n-1)!soplus petites distances.
1 Pour des programmes de calcul et des applications de l'analyse de contigut,
cf. Lebart et Tabard (1973).
2 L'expression "Projection rvlatrice" est la traduction, par des auteurs franais
(Escoufier, Caussinus) de l'expression "projection pursuit" (cf. Friedman et Tukey,
1974; Friedman, 1987; Jones et Sibson, 1987).
3.7 _ Structures de graphe, analyses locales 333
Une troisime faon utilise les k plus proches VOISinS: sont considrs
comme contigus la ligne i de X les k lignes les plus proches au sens de la
distance dei, i'). Cette mthode permet d'obtenir un graphe rgulier, (avec
les notations prcdentes: mi = k) mais peut rattacher artificiellement des
points isols ou des petits groupes de points, au graphe d'ensemble qui est
ncessairement connexe.
Une fois dtermine la matrice M, l'analyse de contigut, qui calcule les
combinaisons linaires ralisant les minima de c(u) donn par la formule
[3.7 - 5], va produire une reprsentation qui respectera au mieux la structure
de graphe et donc les plus fortes proximits entre points. En revanche, les
distances moyennes ou grandes joueront un rle moins important, ce qui a
pour effet de "dplier" une ventuelle structure continue (cf. figure 3.7 - 2).
Figure 3.72
Exemple de dpliage d'une structure par analyse de contigut
Si le seuil est infrieur la distance do, aucune arte ne joindra les deux plis; le
graphe pousera donc la forme de la surface, qui sera dplie dans les premiers
plans de l'analyse.
On peut imaginer qu'au lieu de slectionner les artes les plus courtes, on
garde toutes les artes, que l'on pondre par une fonction dcroissante de la
distance (le graphe de contigut devenant un graphe complet valu). On
rejoint alors une srie de travaux sur ce sujet plus proches des approches
classiques de directions rvlatrices.
Les premiers travaux sur ces thmes sont ceux de Art et al. (1982), de
Gnanadesikan et al. (1982). Ils ont t suivi des travaux de Yenyukov (1988),
Caussinus et Ruiz (1990) 1.
c - Liens avec les analyses partielles
Comme indiqu au paragraphe d ci-dessus, on peut dfinir (au moins de
trois faons diffrentes) une matrice de contigut M d'ordre (n, n) partir
d'un tableau de donnes que l'on appellera maintenant Z d'ordre (n, q). Si
l'on dsire tudier des corrlations partielles entre les p colonnes d'une
matrice X d'ordre (n,p) " Z constant", on peut calculer la matrice des
1 L'approche par analyse de contigut permet de mettre en vidence les deux
structures qui sont confrontes: la structure locale, traduite sous fonne de graphe (qui
peut lui mme tre dcrit par analyse des correspondances; cf. 3.7-2 ci-dessus), la
structure globale (analyse en composantes principales de X), et le compromis entre les
deux structures, dcrit par l'analyse de contigut (cf. Burtschy et Lebart, 1991).
334 Mthodes explicatives ou drives _ Chapitre 3
covariances partielles par la formule [3.6 - 3], mais on peut galement
calculer la matrice des covariances locales donnes par la formule [3.7 - 4] o
M est une matrice de contigut issue de Z (et N la matrice diagonale des
degrs de M). Cette mesure de covariance partielle l'avantage d'tre non-
linaire (vis--vis des colonnes fixer). Elle a l'inconvnient d'exiger des
calculs de distances entre les lignes de Z et dpend donc des chelles des
mesures ou des poids des colonnes de Z, ce qui n'est videmment pas le cas
pour des covariances calcules sur des rsidus obtenus par rgression
multiple.
3.7.5 Extensions, gnralisations, applications
Plusieurs variantes ou gnralisations sont possibles autour de la notion de
contigut. Dj, l'origine de ces travaux, les coefficients de Geary (1954) et
de Moran (1948, 1954) constituaient deux mesures possibles (et trs voisines)
du degr de contigut 1.
Citons brivement, sans tre exhaustif, quelques extensions ou
applications: Le Foll (1982) introduit une pondration des sommets du
graphe (les artes sont alors values par les produits des masses des
sommets adjacents); Le Foll et Burtschy (1983) confrontent l'analyse locale
et l'analyse des correspondances classique pour dcrire des tableaux
d'changes; Carlier (1985) tudie les volutions de tables de contingence par
plusieurs mthodes dont l'analyse locale; Sabatier (1987) situe l'analyse
locale dans un formalisme qui intgre les analyses partielles. Les travaux de
Mom (1988) ont t cits prcdemment.
Escofier (1989) introduit, dans la ligne de Mom, mais indpendamment,
les intressantes notions d'analyse lisse et d'analyse des diffrencs locales,
qui gnralisent les notions d'analyse inter et intra (voir 3.7.6 ci-dessous).
Dans l'analyse lisse, chaque point-individu i (ligne i de X) est remplac par
le barycentre de ses voisins sur le graphe. Ceci revient, avec nos notations
(qui ne concernent que le cas o les sommets ont des poids a priori
identiques, mais peuvent avoir des degrS diffrents) remplacer X par
N-
1
MX. Ce lissage a pour effet d'liminer les variations locales.
Dans l'analyse des diffrences locales, on retranche chaque vecteur-
individu le barycentre des points voisins (on remplace X par X- N-1MX).
On est ici dans une situation trs voisine de l'analyse locale. On reviendra
sur ces analyses au paragraphe suivant.
Cazes et Moreau (1991), Moreau (1992) considrent le cas d'une double
structure de graphe, prsente la fois sur les lignes et les colonnes d'une
table de contingence. Faraj (1993) utilise l'analyse locale comme une analyse
1 On pourra consulter les ouvrages de Cliff et Ord (1981), Ripley (1981), pour une vue
plus large de la panoplie des outils disponibles.
3.7 _ Structures de graphe, analyses locales 335
partielle pour fixer l'effet de plusieurs variables nominales. Mentionnons
enfin une synthse de travaux sur ces thmes par Mot et al. (1993) 1.
3.7.6 Cas particuliers: Structure de partition
Il est frquent que l'ensemble des individus ou observations soit partitionn
en q classes connues a priori et jouant un rle privilgi par rapport aux
variables-colonnes du tableau de donnes X d'ordre (n, p). Cette situation a
t rencontre en analyse factorielle discriminante (section 3.3) : il s'agissait
alors de prdire l'appartenance d'un individu une classe partir des
valeurs des variables pour cet individu.
Selon la formule de Huygens (formule [2.2 - 1] du 2.2.3.a), l'inertie totale
du nuage se dcompose en inertie inter-classes (variabilit entre les classes)
et inertie intra-classes (variabilit l'intrieur des classes)2 :
1 = linter+ lintra
A cette dcomposition est associe deux analyses: l'analyse inter-classes qui
dcrit les positions relatives des classes et ignore les individus, et l'analyse
intra-classes qui s'attache dcrire les diffrences de comportement
l'intrieur des classes 'ce qui revient liminer l'effet d la structure de
partition.
a - Analyse inter-C1asses
L'analyse inter-classes est simplement l'analyse du tableau agrg d'ordre
(q, p). On a vu que l'analyse factorielle discriminante est une analyse inter-
classes particulire (3.3.4.c)3. Dans le cas o les variables sont nominales,
on ralise l'analyse des correspondances du tableau des centres de gravit
(ou tableau des barycentres) des q groupes d'iIidividus, obtenu en croisant
les classes de la partition avec les modalits des autres variables
4
L'analyse
inter-classes correspond dans ce cas l'analyse discriminante barycentrique
(cf. 3.3.7.b). L'analyse inter-classes est clairement un cas particulier de
l'analyse lisse prcite lorsque le graphe est associ W1e partition.
1 Il faudrait citer, dans ce survol des utilisations de la notion de contigut, les
mthodes de classification faisant appel aux contraintes de contigut. Une revue en
est faite par Gordon et Finden (1985).
2Dans le cas de variables continues, il s'agit plus spcifiquement de la dcomposition
de la matrice de covariance (ou de corrlation si les variables sont rduites) en
variance inter-elasses (variance des moyennes des classes) et en variance intra-classes
(variance de chaque classe autour de sa moyenne) donne par la formule [3.3 -1].
3 Elle peut en effet tre dcrite comme une analyse en axes principaux des points-
moyens de chacune des classes dans la mtrique dfinie par l'inverse de la matrice des
covariances "intra-elasses".
411 s'agit en fait d'une bande d'un tableau de Burt (cf.1.4.7.b).
336 Mthodes explicatives ou drives _ Chapitre 3
b - Analyse intra-classes
L'analyse intra-classes permet d'tudier les diffrences de comportement
l'intrieur des classes en analysant la dispersion des individus l'intrieur
de leurs classes d'appartenance (cf. Benzcri, 1983; Cazes, 1986-a; Benali et
Escofier, 1990).
Chaque individu est reprsent par un point dont les coordonnes
expriment l'cart entre ses propres coordonnes et celles du centre de
gravit de sa classe. L'inertie inter-classes est ainsi limine. On ne cherche
donc plus savoir de quelle manire un individu se diffrencie de
l'ensemble du nuage mais comment il se diffrencie de l'ensemble des
individus appartenant la mme classe. On s'affranchit ainsi de
l'influence de la variable de partition en tudiant les liaisons entre les
variables analyser, conditionnellement la variable de partition.
L'analyse intra-classes est un cas particulier de l'analyse des diffrences
locales (graphe associ une partition) et galement un cas particulier de
l'analyse partielle (cf. section 3.6) lorsque la variable exogne z est
nominale.
Escofier (1987) introduit une mthode d'analyse intra-c!asses dans le cas de
variables nominales, appele analyse des correspondances multiples
conditionnelles, qui est en fait un cas particulier de la gnralisation de
l'analyse des correspondance propose galement par Escofier (1984).
L'influence de la variable de partition est limine; le nuage des individus
est recentr par classe, et le nuage des modalits est projet sur l'orthogonal
du sous-espace engendr par les modalits de la variables de partition
1
.
Une extension de l'analyse des correspondances multiples conditionnelles,
est tudie par Piron (1990, 1992) lorsque les variables sont des frquences.
Dans ce cas, la structure induite sur les individus relve d'une srie de
partitions embotes (structure frquente dans les relevs gographiques).
Pour le cas de doubles partitions (partition Q sur les lignes et partition S sur
les colonnes d'une table de contingence) Cazes (1986-a et 1986-b), et Cazes,
Chessel et Doledec (1988) proposent l'analyse des correspondances internes
qui consiste raliser l'analyse intra-classes en considrant un double
centrage dans l'espace des lignes et dans celui des colonnes. On projette
d'une part le nuage des points-lignes sur l'orthogonal du sous-espace
engendr par les modalits de la variable de partition Q, et d'autre part le
nuage des points-colonnes sur l'orthogonal du sous-espace engendr par les
modalits de la variable de partition S.
1 L'analyse des correspondances multiples conditionnelle conserve toutes les
proprits de l'analyse des correspondances. Elle est implmente dans le logiciel
SPADN sous forme de procdure.
Section 3.8
Tableaux multiples, groupes de variables
L'analyse des tableaux multiples est un trs vaste domaine de recherche que
l'on ne fera qu'effleurer dans cette section, en se limitant quelques
situations spcifiques, proches de la dmarche exploratoire.
Le thorme d'Eckart et Young (dcomposition aux valeurs singulires
tudie en section 1.1) qui est la base des mthodes factorielles, n'admet
pas de gnralisation au sens suivant: il n'existe pas de dcomposition
optimale unique d'un tableau trois entres (empilement de q tableaux Xk,
chacun d'ordre (n,p) ) en tableaux de rangs 1.
En revanche, il existe des modles particuliers, qui varient selon les
disciplines et la nature des tableaux, pour aborder ce type de donnes.
3.8.1 Quelques travaux de rfrence
Commenons par voquer quelques travaux de rfrence sur le thme des
tableaux plusieurs dimensions 1.
Les premiers travaux sur ce thme sont ceux de Tucker (1964, 1966) puis
ceux de Harslunan (1970), tous les deux dans le cadre de l'analyse factorielle
classique. Montrons brivement quelles sont les relations qui sont la base
de ces modles.
L'un des modles de Tucker, dit TUCKALS-3 (Kroonenberg et de Leeuw,
1980), s'applique une squence de matrices symtriques d'ordre (p, p)
S}, ... , Sq (qui sont par exemple des matrices de distances entre individus). Il
conduit la relation (Sijk dsignant une estimation, par le modle, de
l'lment (i, j) de la matrice Sk) :
p p r
Sijk = I, I, 'Laiu ajv bkl CI/vi
u=l v=l 1=1
Le modle dit PARAFAC, de Harshman, donne lieu une relation analogue,
mais plus simple.
1 On trouvera une synthse et une classification des principales dmarches dans
l'ouvrage de Kroonenberg (1983) qui a prolong les travaux de Tucker. On pourra aussi
consulter la revue comparative de Carlier et al. (1988), qui fait d'ailleurs partie d'un
recueil entirement consacr ce thme (Coppi et Bolasco, 1989). Une revue se trouve
galement dans Kiers (1989). Sur le thme plus circonscrit des volutions de tables de
contingence, cf. Carlier (1985), van der Heijden (1987).
338 Mthodes explicatives ou drives _ Chapitre 3
Pour une srie de matrices Xk d'ordre (n, p), le terme gnral Xijk peut
s'crire:
r
Xijk = 'Lait bjt Ckt
t=1
Ces formules peuvent tre vues comme des gnralisations possibles de la
formule de reconstitution de donnes 1.
Une autre mthode trs utilise dans le contexte des mthodes de
multidimensional scaling est la mthode INDSCAL de Carroi et Chang
(1970) qui est un cas particulier de la mthode PARAFAC de Harshman.
Ces exemples laissent imaginer le nombre de modles et de variantes
possibles.
Les quatre paragraphes de cette section seront tous consacrs une structure
de tableaux multiples trs particulire, mais frquente en pratique: il s'agit
d'un tableau X d'ordre (n,p) tel que:
X = (Xl' X
2
,. , X
k
,..., X
q
)
Les diffrents blocs n'ont pas forcment le mme nombre de colonnes et
cette structure est par consquent plus gnrale qu'un tableau trois
entres.
Selon les cas, les lignes seront des individus ou observations, les colonnes
de chaque bloc des variables. Les blocs peuvent correspondre des instants
ou des contextes diffrents pour les mmes variables, ou des groupes de
variables diffrents.
La section 3.6 a abord le cas de l'analyse d'un tableau de donnes de type
R =(X, Z) dans laquelle les deux ensembles de colonnes (colonnes de X et de
Z) jouaient des rles dissymtriques. Il existe des circonstances dans
lesquelles les rles sont parfaitement symtriques. C'est le cas notamment
des mthodes d'analyses procrustennes orthogonales qui visent
comparer deux structures de distances sur les mmes objets, ceux-ci tant
dcrits successivement par deux ensembles diffrents de variables ( 3.8.2).
La mthode 5TATI5 ( 3.8.3) et l'analyse factorielle multiple (3.8.4) sont
proches bien des gards dans leurs procdures mais se diffrencient dans
les options de traitements. Elles procdent en trois tapes: la comparaison
globale des tableaux, la reprsentation du nuage moyen et la reprsentation
simultane des tableaux.
Brivement voque propos de l'analyse canonique, l'analyse canonique
gnralise (on dsigne sous ce nom l'une des gnralisations possibles de
l'analyse canonique, en fait la plus mentionne et utilise) sera prsente
dans un cadre plus gnral ( 3.8.5). Cette mthode, assez dlicate utiliser
directement en pratique, fournit un cadre thorique simple commun aux
1 Cf. par exemple: Hayashi et Hayashi (1982) pour un algorithme d'estimation des
coefficients du modle.
3.8 _ Tableaux multiples, groupes de variables 339
principales mthodes factorielles exploratoires et aux mthodes explicatives
de base des sections 3.1 3.3, qu'elle contient toutes comme cas particulier.
3.8.2 Analyses procrustennes 1
Les mthodes d'analyse procrustennes tentent de rpondre une
proccupation frquente en statistique multidimensionnelle: n individus
ou observations sont dcrits d'une part par p variables (colonnes de X),
d'autre part par q autres variables (colonnes de Z). Comment comparer les
deux nuages d'individus, les deux systmes de distances entre individus?
C'est Tucker (1958) qui proposa l'origine une telle mthode pour
comparer deux batteries de tests passs sur les mmes individus
2
. La
technique a ensuite t tudie par Cliff (1966), Schonemann (1968),
Schonemann et Carroi (1970), puis gnralise par Gower (1975, 1984)3.
a - Analyse procrustenne orthogonale
Fixons X par exemple (les rles de X et Z sont symtriques) et supposons
p = q. Ceci n'est pas une restriction car, si par exemple p > q, on peut
toujours complter le tableau Z par p - q colonnes nulles.
Si les lignes de Z, d'ordre (n,p), subissent toutes un mme dplacement
(translation et rotation dans JRP), Z est transform en ZB + T, o T est une
matrice d'ordre (n,p) dont les colonnes peuvent tre diffrentes, mais
constantes (translation) et o B (p, p) est une matrice orthogonale (rotation
ou symtrie par rapport l'origine).
On cherchera rendre minimale la somme des carrs s des carts entre X et
(ZB + T), qui peut s'crire
4
:
s = trace (X - ZB - T)' (X - ZB - T)
Le critre s s'crit encore, si les tableaux X et Z sont centrs en colonnes:
s =trace (X - ZB )' (X - ZB) + TT [3.8 - 1]
La recherche d'un minimum pour s implique T = 0 (aucune translation
n'est requise quand les tableaux sont centrs).
1 Procruste (ou Procuste, par altration) est un aubergiste de la mythologie grecque qui
raccourcissait ou allongeait ses clients (X, par exemple) pour les ajuster ft la longueur
de son lit (Z). Thse mettra fin ses jours en lui infligeant le mme supplice.
2 On peut de la mme faon comparer un mme ensemble de variables sur deux
ensembles d'individus diffrents. C'est le cas si l'on veut comparer deux matrices des
corrlations (une matrice des corrlations globales, par exemple, confronter une
matrice des corrlations locales).
3 Cf. galement Lafosse (1985), Fichet et al. (1990).
4 Rappelons que Irnce( A'A)= I a ~ que trace A = trace A'; et que, lorsque les oprations
.. '/
1,/
sont possibles, trace (A+C) =trace A + trace C ; trace AC =trace CA.
340 Mthodes explicatives ou drives _ Chapitre 3
Dveloppant l'expression du critre 5 et en tenant compte du fait que:
trace B'Z'ZB =trace Z'ZBB' =trace Z'Z
il vient:
5 = trace (X'X + Z'Z -2 B'Z'X)
Rendre minimal le critre 5 revient rendre maximal trace (B'Z'X).
Ecrivons la formule de reconstitution des donnes (cf. section 1.1, formule
[1.1-6]) issue de l'analyse gnrale (dcomposition aux valeurs singulires)
du tableau Z'X :
p
Z' X= I.,JJ:;;vau'o.
a=l
d'o:
trace(B'Z'X) =trace[J;v'X-;;B'Vau'o. ) = at.,JJ:;;( u'o.B'va )
B tant orthogonal et Va unitaire, B'v
a
est unitaire et on aura toujours
u ~ v a ~ 1 . On aura u ~ v a =1 si et seulement si B'v
a
=Ua
D'o la relation B'V = U et la solution cherche B =VU'.
L'analyse procrustenne orthogonale implique donc la dcomposition aux
valeurs singulires de Z'X et donc la diagonalisation de la matrice X'ZZ'X.
Autre prsentation de l'analyse procrustenne orthogonale
On peut donner une autre prsentation de cette mthode, en procdant de
faon hirarchique, par extraction progressive d'axes procrustens. La
mthode est analogue l'analyse canonique, aux contraintes de
normalisa tion prs.
Les tableaux X et Z tant centrs, elle consiste chercher deux combinaisons
linaires Xu et Zv, coefficients norms (u'u = l, v'v =1), de covariances
maximales, c'est--dire telles v'Z'Xu soit maximale.
Une dmonstration en tout point analogue celle du paragraphe 3.1.2.a
(comme dans le cas de l'analyse canonique, les deux multiplicateurs de
Lagrange sont gaux une mme valeur ) nous montre alors que u et v
sont solutions de:
X'ZZ'Xu =2
u
et Z'XX'Zv = 2v
qui sont bien les quations de l'analyse gnrale du tableau Z'X.
En extrayant les diffrents axes (avec des contraintes d'orthogonalit
usuelles), et en notant U et V les matrices orthogonales contenant en
colonnes les vecteurs Ua et Va correspondant aux diffrents axes indexs par
a, on aura rendu maximal le critre: trace(V'Z'XU) (les lments diagonaux
de cette matrice sont en effet les covariances maximales trouves).
3.8 _ Tableaux multiples, groupes de variables 341
Remarquons que, jusqu'ici, on n'a pas suppos p = q dans cette
prsenta tion.
Or rendre maximale cette trace revient rendre minimal le critre lorsque
p = q (U et V tant deux matrice orthogonales) :
51 =trace(XU - ZV)'(XU - ZV)
On peut crire cette quantit:
51 = traceU(XU -ZV)'(XU - ZV)U'
Finalement:
51 =trace (X ZVU')'( X - ZVU')
qui concide avec le critre 5 de la premire approche pour B = VU'
(formule [3.8-1] , avec T = 0)
b - Analyse procrustenne sans contrainte
1
On cherchera rendre minimale la somme des carrs 5 des carts entre X et
(ZA + T), ce qui revient rendre minimal (si les tableaux X et Z sont centrs
en colonnes), sans contrainte sur la matrice A, le critre:
5 =trace (X - ZA)'(X - ZA)
On trouve aprs un calcul analogue celui du calcul des coefficients de
rgression multiple
2
:
A = (Z'Z)-l Z'X
C'est la matrice des coefficients d'une rgression simultane, qui revient
effectuer sparment p rgressions indpendantes pour chacune des p
colonnes de X. Dans ce cas, une analyse des rsidus X - ZA (analyse partielle,
cf. section 3.6) nous renseignera sur les ventuels traits structuraux de X
non-expliqus par Z. Notons que l'analyse procrustenne sans contrainte
fait intervenir de faon dissymtrique les tableaux X et Z.
Il existe de nombreuses autres variantes des analyses procrustennes
(impliquant des dilatations, des axes obliques) pour lesquelles on pourra
consulter les rfrences cites.
c - Fonnulaire de quelques mthodes d'analyse impliquant
deux groupes de variables
Rcapitulons quelques unes des mthodes d'analyse de tableaux du type
R =(X, Z), en donnant le formulaire des matrices diagonaliser ou des
matrices de coefficients:
] C'est l'approche initiale de Hurley et Cattel (1962) qui sont d'ailleurs l'origine du
nom de cette mthode.
2 Le problme a t rsolu au 3.6.2 b ci-dessus.
342
(X'X)-! X'Z (Z'Z)-! Z'X ou
X'Z (Z'Zyl Z'X et
X'(I - Z (Z'Z)-! Z') X
et
X'ZZ'X ou
(Z'Z)-l Z'X
et
Mthodes explicatives ou drives _ Chapitre 3
(Z'Z)-I Z'X (X'X)-! X'Z (Analyse canonique)
Z'X (X'X)-l X'Z (Analyses projetes)
Z' (1 - X (X'X)! X') Z (Analyses partielles)
Z'X X'Z (Analyse procrustenne orthogonale)
(X'X)-1 X'Z (Analyse procrustenne sans contrainte)
Dans les cas o X et Z sont des tableaux de variables numriques, celles-ci
sont centres. Si l'on excepte les cas de l'analyse canonique et de l'analyse
procrusteIU1e sans contrainte (ou rgression multiple simultane), il est en
gnral souhaitable de rduire les variables. Notons galement que les
analyses projetes et l'analyse procrustenne orthogonale sont quivalentes
des analyses en composantes principales lorsque X = Z.
3.8.3 Mthode STATIS
La mthode STATlSl a t propose par l'quipe d'Escoufier (1980, 1985 a)2
pour permettre l'analyse conjointe de plusieurs tableaux de donnes. Elle
s'applique des tableaux de mesures dans lesquels un ensemble
d'individus est dcrit par plusieurs groupes de variables ou pour lequel les
mmes variables sont observes sur plusieurs groupes d'individus. L'objet
est de comparer les tableaux, puis de dcrire l'ventuelle structure
commune aux diffrents tableaux, enfin d'apprhender les diffrences entre
tableaux. Nous prsentons seulement les principes de la mthode STATIS
sans entrer dans les dtails, renvoyant le lecteur l'ouvrage de Lavit (1988).
Nous nous plaons dans le cadre de q tableaux de mesures de variables
centres-rduites observes sur les mmes individus de poids gaux 1.
a - Notations
On note n le nombre d'individus; P le nombre total de variables
(supposes ici centres-rd uites) tous groupes confondus; Pk le nombre des
variables du k
ime
groupe; X le tableau complet de terme gnral Xij valeur
de l'individu i pour la variable j ; X
k
le sous-tableau de X associ au groupe
k ; q reprsente le nombre de groupes.
L'individu i correspond une ligne du tableau X:: (Xl, X
2
, ... , X
k
,. ... , X
q
); cet
individu, dit "moyen", sont associs q individus dits "partiels", nots i
k
,
correspondant aux lignes des divers tableaux X
k
.
b - Comparaison globale entre les tableaux: l'interstructure
On s'intresse ici aux relations entre les q tableaux Xk d'ordre (n, Pk). On
considre les matrices de produits scalaires entre les individus XkXk (ou
1 Le sigle STATIS signifie "Structuration des Tableaux Trois Indices de la Statistique.
2 cf. L'Hermier des Plantes (1976), Pags et al. (1976).
3.8 _ Tableaux multiples, groupes de variables 343
XkQkXk si l'on introduit une mtrique particulire chaque tableau Qk,
mais dans cet expos schmatique, Qk = 1) de dimension (n,n) et l'on
cherche dcrire les distances entre ces matrices. On considre pour cela
chaque matrice XkX
k
, note W k, comme un point dans l'espace R. n
2
obtenu en empilant les colonnes de cette matrice. On dfinit ainsi un nuage
de q points-tableaux dans IR n
2
et le tableau associ Wn2 de dimension (n
2
,q).
L'analyse gnrale du tableau W 2, qui revient diagonaliser la matrice S
n
d'ordre (q, q) de terme gnral Skk' = trace (WkWd, permet de reprsenter
les q points-tableaux dans un espace de faible dimension et de comparer
globalement les tableaux entre eux. Si tous les tableaux sont voisins, ils
seront concentrs prs d'un point dans l'espace, et le premier axe joindra
l'origine ce point. On pourrait au contraire voir les tableaux s'chelonner
le long de cet axe et mesurer ainsi sur l'axe une sorte d'adquation du
tableau au modle moyen.
Si le nombre Pk de variables du tableau k n'est pas constant, on a intrt
normer les termes de S en analysant la matrice S de terme gnral skk', qui
n'est autre que le coefficient Rv de Robert et Escoufier (1976) :
A trace W
k
W
k
,
skk' =
Wf trace Wf'
Remarque:
Dans le cas o l'on dispose d'un ensemble de variables observes sur q groupes
d'individus, on considre les matrices de covariances (ou de corrlations si les
variables sont rduites) de dimension (P,p). On calculera alors, partir d'un nuage
de q points-tableaux dans l'espace IR p2., le tableau W 2 de dimension (p2, q).
p
c - Le nuage moyen ou compromis:}' intrastructure
On cherche construire un nuage moyen qui soit un compromis des q
nuages correspondants aux tableaux Xk. Le compromis peut tre calcul de
diffrentes faons, en fonction de la nature des donnes et des
connaissances a priori. Ce peut tre une simple moyenne pondre Cl des
tableaux Xk, lorsqu'il s'agit par exemple de l'volution d'un tableau
impliquant les mmes individus et les mmes variables:
q
Cl =I,akXk
k=l
Si le nombre des variables Pk varie avec k, le compromis pourra toujours
tre calcul au niveau des produits scalaires (ventuellement norms) :
q q
W
I
= I,akXkXk = I,akWk
k=l k=l
344 Mthodes explicatives ou drives _ Chapitre 3
Les promoteurs de cette stratgie d'analyse recommandent de prendre
comme poids ak la coordonne du tableau k sur le premier axe de l'analyse
de l'interstructure : un tableau aura ainsi un poids d'autant plus lev qu'il
est reprsentatif de la tendance moyenne.
L'analyse du compromis revient ensuite effectuer l'analyse en
composantes principales ou l'analyse gnrale du tableau ClOU W1 selon le
cas. Elle permet donc de dgager la structure du nuage des individus
commune aux tableaux.
ct - Reprsentation simultane des nuages partiels: les trajectoires
L'analyse de l'interstructure met en vidence les carts entre les tableaux.
L'intrastructure est dcrite par le ou les compromis. Il reste dcrire les
carts par rapport au compromis, au niveau des variables et des individus.
Si le tableau compromis est du type Cl, il est ais de reprsenter en
lments supplmentaires, partir des tableaux Xk, les trajectoires
d'individus (un individu i est reprsent par les q points ik) et, de faon
similaire, les trajectoires de variables.
Dans le cas d'un compromis de type Wl, on peut toujours reprsenter les
trajectoires d'individus (lignes des tableaux Wk)'
3.8.4 Analyse factorielle multiple
L'analyse factorielle multiple (Escofier et Pags, 1983), traite des tableaux
dans lesquels un ensemble d'individus est dcrit par plusieurs groupes de
variables. Les variables peuvent tre continues, nominales et mme, sous
certaines conditions, de type frquence. Toutefois, l'intrieur d'un groupe,
elles doivent tre de mme type.
Nous nous contentons ici d'esquisser les principales caractristiques de la
mthode, en nous plaant dans le cas particulier de variables continues
centres-rduites de poids 1. Nous renvoyons le lecteur dsireux
d'approfondir l'analyse factorielle multiple l'ouvrage de Escofier et Pags
(1988). Les notations de base sont les mmes que pour la mthode STATIS.
a - Une analyse en composantes principales pondre
Le fait de vouloir introduire plusieurs groupes de variables en tant
qu'lments actifs dans une mme analyse factorielle impose d'quilibrer
leur influence a priori dans cette analyse. Une analyse simultane de
plusieurs groupes dont les premiers facteurs seraient engendrs par un seul
d'entre eux ne prsenterait en effet que peu d'intrt.
En analyse factorielle multiple, chaque variable du groupe k est pondre
par 1/{if o J.f est la premire valeur propre de l'analyse en composantes
principales effectues sur les variables de ce groupe k. A l'intrieur d'un
3.8 _ Tableaux multiples, groupes de variables 345
groupe, toutes les variables ont le mme poids: la structure de chaque
groupe est respecte. Gomtriquement, cela revient rendre gale 1
l'inertie axiale maximum de chacun des k sous-nuages. Du fait de cette
pondration, aucun groupe ne peut engendrer lui seul le premier axe; en
revanche, un groupe multidimensionnel contribue un plus grand
nombre d'axes qu'un groupe unidimensionnel.
Le principe de l'analyse factorielle multiple repose sur une analyse en
composantes principales du tableau complet X = (Xl' X
2
, ... , Xk, ... ,X
q
), les
variables tant ainsi pondres. Cette analyse permet d'quilibrer le rle des
groupes de variables et fournit une reprsentation des individus et des
variables qui s'interprte selon les rgles usuelles de l'analyse en
composantes principales. Au-del de cette analyse en composantes
principales pondre, la prise en considration de groupes de variables
augmente les possibilits d'interprtation des rsultats.
Le a
ime
facteur de l'analyse factorielle multiple de X est not \jIa dans RF et
<Pa dans Rn; il est associ la valeur propre -
a
; la a
ime
valeur propre de
l'analyse en composantes principales spare de X
k
est note ~
b - Recherche de facteurs communs (intrastructures)
Au groupe de variables k correspond dans IR. n un sous-espace Vk k
dimensions; un facteur commun est une dimension commune ces sous-
espaces. Cette ide est prsente dans les analyses canoniques et
multicanoniques (cas de plus de deux groupes). Mais ces analyses
considrent chaque nuage k uniquement au travers du sous-espace qu'il
engendre, sans prendre en compte la rpartition de l'inertie dans ce sous-
espace. Compare ces mthodes, l'analyse factorielle multiple recherche
des facteurs la fois communs aux groupes de variables et reprsentant des
directions de forte inertie de ces groupes.
Du fait de la pondration des variables, l'analyse factorielle multiple peut
tre interprte comme une analyse multicanonique. En effet, dans ce cas
l'inertie projete des variables du groupe k sur la direction z constitue une
mesure de liaison entre la variable z et le groupe de variables k. Cette
mesure, note L (z, k), possde les proprits suivantes;
o$, L (z, k) $, l.
L (z, k) =0 ;::> z est non corrle avec chaque variable du groupe k.
L (z, k) = 1 ;::> z est la premire composante principale de k.
Le critre satisfait par la a
ime
composante principale (note za) de l'analyse
factorielle multiple peut s'crire, compte tenu des contraintes
d'orthogonalit avec les a -1 premires composantes principales;
346 Mthodes explicatives ou drives _ Chapitre 3
Du point de vue de ce critre, les composantes principales de l'analyse
factorielle multiple composent la suite de variables orthogonales les plus
lies aux groupes de variables. En ce sens ce sont les facteurs communs ces
groupes.
c - Reprsentation des groupes de variables (interstructure)
La mise en vidence de facteurs communs est une voie commode pour
analyser les liaisons entre groupes de variables. On peut chercher
visualiser globalement ces liaisons par un graphique dans lequel chaque
groupe est reprsent par un point.
Au groupe de variables k on peut associer, comme dans la mthode STATIS,
la matrice W
k
=XkX< des produits scalaires entre individus. Toutes ces
matrices sont d'ordre (n,n). Ce sont des lments de l'espace IR n
2
; ces
lments constituent le nuage des k groupes de variables. L'analyse
factorielle multiple fait intervenir d'autres lments de JR 11
2
: les matrices
de produits scalaires associes chaque composante principale norme za.;
ces lments, que l'on peut crire z z ~ forment une base orthonorme
d'un sous-espace de JR n
2
. C'est sur cette base que l'on projettera les k
points-groupes, pour visualiser leurs proximits.
Cette reprsentation possde quelques proprits remarquables. En
particulier la projection de W
k
=XkX< sur z z ~ est gale L (z, k). Il est
ainsi possible d'interprter axe par axe les proximits entre les points-
groupes.
d - Reprsentations superposes des nuages partiels
des groupes actifs (trajectoires)
A chaque groupe de variables est associ un nuage partiel d'individus. La
comparaison directe des reprsentations issues des analyses en composantes
principales spares des Xk ne rpond pas directement cet objectif car ces
analyses, tant effectues sparment, ne tiennent pas compte d'ventuelles
structures communes. Il faudrait en fait une analyse procrustenne
gnralise pour rsoudre ce problme.
En analyse factorielle multiple on projette les nuages partiels sur les axes
principaux du nuage total. Bien qu'ils n'interviennent pas directement
dans la construction des axes, les nuages partiels ne sont pas vritablement
considrs comme supplmentaires puisque leurs donnes sont incluses
dans le nuage total analys. Il en rsulte deux proprits utiles lors de
l'interprtation:
1
li'ai = - L li'ai
k
Pk
le point "moyen" i est au centre de gravit li'ai des points "partiels" li'ai
k
qui lui sont homologues.
3.8 _ Tableaux multiples, groupes de variables 347
1 1
'If a.i
k
= PA.L xi/Paj
11.1 'V"a JEh
Cette relation n'est autre que la restriction au groupe k de l'une des
relations usuelles de transition. L'individu partiel i
k
apparat du ct des
variables pour lesquelles il a de fortes valeurs (les Xij sont des valeurs
centres-rduites) et l'oppos de celles pour lesquelles il a de faibles
valeurs.
Cas particuliers
Lorsque chaque groupe ne comporte qu'une seule variable quantitative,
l'analyse factorielle multiple se confond avec une analyse en composantes
principales. Lorsque chaque groupe ne comporte qu'une seule variable
qualitative, l'analyse factorielle multiple se confond avec une analyse des
correspondances multiples.
3.8.5 Analyse canonique gnralise
L'analyse canonique gnralise l est une mthode d'analyse de tableaux X
d'ordre (n, p) qui peuvent s'crire, comme aux paragraphes prcdents,
sous la forme:
X =(Xv X
2
, ... X
k
, .. Xq)
On note encore n le nombre d'individus; P le nombre total de variables,
tous groupes confondus; Pk le nombre des variables du k
ime
groupe; q le
nombre de groupes.
L'analyse canonique gnralise a la vertu de contenir comme cas
particulier une grande partie des mthodes descriptives et explicatives qui
ont t prsentes.
Si q = 2, l'analyse de X = (Xl' X
2
) concide avec l'analyse canonique des deux
groupes. On a vu qu' ce titre, elle contient comme cas particulier l'analyse
discriminante (cas o l'un des deux blocs est un tableau disjonctif complet)
et donc l'analyse des correspondances des tables de contingence (Xl et X
2
sont tous deux disjonctifs complets).
1 L'analyse canonique gnralise a t prsente dans Horst (1961), o elle figure au
troisime rang parmi quatre gnralisations possibles de l'analyse canonique. Elle a t
reprise ou dveloppe par CarroI (1968) dont le nom est souvent attach la mthode,
Kettenring (1971), Saporta (1975 a), Masson (1980). Casin et Turlot (1986) ont montr
qu'elle pouvait tre considre comme une analyse discriminante particulire, et en
dduisent des rgles d'interprtation nouvelles. Ballif (1986) a dvelopp sous le nom
d'AMDG (Analyse multivarie descriptive gnralise) toute une mthodologie de
traitement de donnes, pour laquelle la notion de variable est remplace par celle plus
large de "SEHO" (sous-espace homogne d'observables) et o l'analyse canonique
gnralise joue un rle central.
348 Mthodes explicatives ou drives _ Chapitre 3
Toujours si q =2, en tant qu'analyse canonique classique, elle contient
galement la rgression multiple (si par exemple Xl n'a qu'une seule
colonne), et donc l'analyse de la variance et de la covariance (X
2
disjonctif
complet ou mixte, aprs rgularisation).
Si q 2, et si chaque bloc X
k
est un tableau disjonctif complet, l'analyse
canonique gnralise n'est autre que l'analyse des correspondances
multiples de X. Enfin, toujours si q 2, si chaque bloc X
k
n'est form que
d'une seule colonne (Pk = 1 pour tout k), elle n'est autre que l'analyse en
composantes principales norme de X.
a - Fonnulation gnrale
L'analyse canonique gnralise a dj t prsente au 3.1.3.b dans le cas
particulier o les blocs sont des tableaux disjonctifs complets. Il convient de
donner ici une formulation plus gnrale, qui puisse englober toutes les
mthodes prcites.
Dans l'espace IRn, o les P variables (colonnes de X) sont des points, on
dsigne par Vk le sous-espace engendr par les colonnes de Xk.
La projection Yk d'une variable y quelconque (point de IRn) sur le sous-
espace Vk s'crit, si les colonnes de X
k
sont linairement indpendantes 1 :
[3.8 - 2]
Remarquons que si Rn tait muni d'un produit scalaire associ une
matrice diagonale M, la formule prcdente s'crirait sous la forme plus
gnrale:
o l'oprateur idempotent de projection Qk sur Vk vaut
2
:
Ce cadre plus gnral alourdirait les notations sans changer la substance de
l'expos, qui se poursuivra donc avec M = l, comme dans la formule [3.8-
2].
Le carr du cosinus de y avec Vk (et donc de y avec PkY) que l'on notera
R2(y,k) s'crit:
[3.8 - 3]
1 Si les Pk colonnes de Xk ne sont pas linairement indpendantes, il suffit de les
remplacer par les rk colonnes de V correspondant des valeurs propres non nulles
dans la dcomposition aux valeurs singulires de Xqui s'crit: X= VAI/2U.
2 Alors que Pk est symtrique, l'oprateur-projection Qk est M-symtrique, c'est--dire
que l'on a la relation: MQk =Q"M .
3.8 _ Tableaux multiples, groupes de variables 349
On dfinit le premier axe de l'analyse canonique gnralise comme un
vecteur y tel que la quantit 5 :
q
5 = IR
2
(y, k)
k=l
soit maximale.
Notons que si les X
k
sont centrs, le coefficient R2(y, k) est le carr du
coefficient de corrlation multiple R2(y, k) entre y et X
k

Chaque cosinus carr R2(y, k) est une mesure de proximit entre le vecteur
y et le sous-espace Vk engendr par les colonnes de X
k
- La maximisation du
critre 5 fait en sorte que le vecteur y soit le plus prs possible de l'ensemble
des groupes de variables.
Il s'agit donc de rendre maximale la somme:
q
5= Ly'Xk(XkXk)-IXkY
k=l
avec la contrainte: y'y =1
Le vecteur y de IRn sera donc le vecteur propre correspondant la plus
grande valeur propre . de la matrice S d'ordre (n, n) :
q
S = IXk(XkXk)-IX
k
[3.8-4]
k=l
Les axes suivants s'obtiennent en rendant maximal le mme critre s, avec
la mme contrainte de norme, et des contraintes d'orthogonalit par
rapport l'ensemble des axes prcdents.
b - Proprits de l'Analyse Canonique Gnralise
On va montrer successivement que l'analyse canonique (et donc tout
l'ventail des mthodes qui en sont des cas particuliers), l'analyse en
composantes principales norme et l'analyse des correspondances
multiples sont des cas particuliers de l'Analyse canonique gnralise.
- Pour q = 2, l'analyse canonique gnralise est une analyse canonique
classique.
L'quation donnant y s'crit, pour q = 2 :
Xl (X
1
X
I
)-1 Xi y + X2(XX2 )-1 X
2
y = y [3.8 - 5]
Posons!: (XiXI)-lXiy=a et (XX2)-lXy=b.
La relation [3.8 - 5] devient simplement:
1 On note que a et b sont les vecteurs de coefficients de rgression de y expliqu
respectivement par Xl et X2'
350 Mthodes explicatives ou drives _ Chapitre 3
XIa + X
2
b = . y [3.8-6]
Prmultiplions ensuite les deux membres de la relation [3.8 - 6] par
(XXI)-I X ' il reste:
[3.8 -7]
[3.8 - 8]
[3.8 - 9]
On obtient de la mme faon, en prmultipliant les deux membres de la
relation [3.8-6] par (X
2
X
2
)-I
X2
:
(X
2
X
2
)-I XZX1a = (. -l)b
On obtient finalement, par substitution:
(XZX2)-lXzXI(XXl)-IXX2b = O, -1)2
b
La matrice diagonaliser n'est autre que celle donne par la formule [3.1 - 4]
du paragraphe 3.1.2.a. On note galement la relation entre valeurs propres:
{3=-l.
- Si q 2 et si les blocs ne comportent chacun qu'une colonne (centre),
l'analyse canonique gnralise est une analyse en composantes
principales norme.
Dans ce cas, on a Pk =1 pour tout k, et donc p =q. On peut maintenant
rcrire la formule [3.8 - 4], les Xk tant des vecteurs nots Xk:
S
(' )-1, 1 ,
= L,xk xkxk xk =L, --2 xkxk
k=l k=l n sk
o:
2 1 ,
sk =- xkxk
n
est la variance empirique de la variable k.
Si l'on considre la matrice T des variables centres rduites dont la k
ime
colonne vaut tk =2. xkt la matrice S prend la forme S =2. TT'.
sk n
La relation Sy = y s'crit alors, en posant Ty =u et en prmultipliant ses
deux membres par T' :
.2- T'T u = u
n
soit finalement:
Cu =u
o C est la matrice des corrlations d'ordre (p,p) correspondant au tableau X
ini tial.
Cette prsentation a le mrite d'enrichir l'interprtation de l'analyse en
composantes principales norme, qui peut tre dfinie comme la recherche
3.8 _ Tableaux multiples, groupes de variables 351
[3.8 -10]
[3.8 -11]
d'une variable artificielle (y) qui rend maximale la somme de ses
corrlations avec toutes les variables actives.
- Pour q 2, quand les blocs sont des tableaux disjonctifs complets, l'analyse
canonique gnralise est une analyse des correspondances multiples.
Pour retrouver (partiellement) les notations de la section 1.4, changeons les
X en Z. Posons donc Z = X et Zk = Xk et posons galement Ok = ZkZk.
Ok est la matrice diagonale d'ordre (Pk,Pk) correspondant aux marges
(sommes des colonnes) du tableau Zk. Enfin appelons la matrice
diagonale d'ordre (p,p) dont les q blocs diagonaux sont les Ok.
L'quation Sy = y s'crit:
q
I,Zk 0k1ZkY = y
k=l
Posons, pour tout entier positif h ::; q, ZhY = uh, ce qui revient galement
crire Zy =u, u tant un vecteur p composantes tel que:
Prmultipliant les deux membres de [3.8 - 10] par ZhY, on peut alors crire,
pour h = 1, .. ,q :
q
I,ZhZk 0k1uk = Uh
k=l
Ces q quations ne sont autres qu'une criture par bloc de la relation
matricielle:
Z' ZD-1u=u
Cette formule est rapprocher de la formule [1.4 -1] du 1.4.3 b, o le
paramtres 5 est ici not q (nombre de tableaux Xk). Avec les notations du
prsent paragraphe, l'quation de l'analyse des correspondances multiples
s'crit:
!:.Z' Z 0-l
u
=' u, d'o: = q'
q
La valeur propre issue de l'analyse canonique gnralise est q fois plus
grande que celle issue de l'analyse des correspondances multiples du mme
tableau global Z.
- Pour q 2 dans le cas gnral, l'analyse canonique gnralise est une
analyse gnrale du tableau X dans une mtrique que l'on peut qualifier de
"Mahalanobis par bloc"
Le raisonnement tenu propos de l'analyse des correspondances multiples
(sous-paragraphe prcdent ci-dessus) s'applique dans le cas o Xk est
centr, mais quelconque.
352 Mthodes explicatives ou drives _ Chapitre 3
[3.8 -12J
La formule [3.8 - 11J prend alors la forme:
q
I,XhXk (XkXk)-luk = uh
k=l
Si l'on appelle 0 la matrice diagonale par bloc d'ordre (p,p) (0 a q2 blocs
dont q blocs diagonaux) dont le k
ime
bloc diagonal est:
Okk =(XkXk)-1
Okk est la matrice associe la distance de Mahalanobis interne au groupe k
(cf. 3.3.4.c) .
Les q formules ~ 8 - 12] (pour Il = l, ., ,q), s'crivent:
X'X O-lu = u
Ce qui tablit le rsultat annonc (cf. 1.1.6).
c - Utilisation en pratique de l'analyse canonique gnralise
L'anal yse canonique gnralise peut s'utiliser comme analyse de
cornpromis dans des approches de type STATIS ou analyse factorielle
multiple. Elle n'utilise cependant que les sous-espaces correspondant
chaque groupe, et non la structure interne des nuages dans ces sous-espaces.
Ceci peut entraner les mmes difficults d'interprtation que l'analyse
canonique.
Figure 3.8 - 1
Exemple montrant les insuffisances du coefficient R2(y, k)
La figure 3.8 - 1 (cf. Escofier et Pags, 1988) met ainsi en vidence une
faiblesse classique du coefficient de corrlation multiple. Elle montre deux
vecteurs Xl et X2 contenus dans le sous-espace Vk, et un vecteur y, proche
du sous espace Vk, donc proche de sa propre projection PkY sur Vk. R2(y, k)
est donc voisin de l, alors que y est presque orthogonal Xl et X2.
C'est ce type de difficult qui a conduit ces auteurs proposer, pour
l'analyse globale de X, une mtrique diagonale par blocs (le k
ime
bloc Okk
tant lui-mme diagonal et tel que D kk = (1!k) l, au lieu de
0kk =(XkXk)-1 dans le cas de l'analyse canonique gnralise).
3.8 _ Tableaux multiples, groupes de variables 353
Les cas particuliers pour lesquels l'analyse canonique gnralise, dans le
cas q 2, rejoint des mthodes dont l'interprtation est aise, sont
prcisment ceux qui excluent une situation telle que celle de la figure
prcdente (mauvaise base du sous-espace Vk).
En analyse en composantes principales, les Vk n'ont qu'une dimension,
donc R2(y, k) est un carr de coefficient de corrlation classique avec la
variable Xk correspondante.
En analyse des correspondances multiples, le codage disjonctif complet fait
que chaque Xk est une base orthogonale du sous-espace Vk correspondant.
On pourrait penser qu'une gnralisation qui n'est utile que dans des cas
particuliers n'a pas d'intrt pour le praticien. On peut en fait amnager
l'analyse canonique gnralise en la "rgularisant" (cf. 3.2.5 et 3.3.6),
c'est--dire en remplaant chaque tableau Xk par le tableau des axes issus
d'une analyse en axes principaux de Xk (qui aura moins de Pk colonnes s'il
y a des colinarits, ou des quasi-colinarits, c'est--dire des valeurs
propres faibles).
Ceci rejoint, en d'autres termes, la dmarche de Ballif (op. cil.) qui conoit
l'analyse canonique gnralise (dsigne, on l'a vu, par AMDG) comme
une synthse d'analyses (c'est--dire de sous-espaces stables) plutt que de
tableaux. Le principal intrt de la mthode est alors de pouvoir traiter
simultanment des tableaux trs htrognes
l
.
Notons que Escofier (1979 b) a abord directement ce problme dans un cas
particulier en considrant (sans nommer l'analyse canonique gnralise)
un tableau mixte X (qualitatif-quantitatif) contenant deux sortes de blocs:
soit des variables continues isoles Xk, soit des tableaux disjonctifs complets.
Cet auteur a tabli un rsultat que l'on peut exprimer de cette faon: en
remplaant chaque colonne Xk de terme gnral Xik par un bloc de deux
colonnes de termes gnraux (1 - Xik)/2 et (l + Xik)/2, il est quivalent de
procder l'analyse des correspondances de X ou l'analyse canonique
gnralise de X, form des nouveaux blocs.
D'autres proprits de l'analyse canonique gnralise sont prsentes dans
les articles cits en dbut de paragraphe.
1 Les blocs Vk fonns de plusieurs variables nominales sont prtraits par analyse des
correspondances multiples, les blocs forms de plusieurs variables continues par
analyse en composantes principales, les blocs forms de tables de contingence par
analyse des correspondances simple.
Chapitre 4
VALIDIT ET
PORTE DES RSULTATS
I1ltrodllctioll 357
Introduction
Au cours des chapitres prcdents, on a vu comment fonctionnaient les
mthodes de statistique descriptive multidimensionnelle de base
(mthodes choisies parmi les plus utilises) et on a vu quel point celles-ci
pouvaient parfois tres proches, dans leur principe mais aussi dans les
circonstances de leur utilisation, des mthodes plus explicatives.
Alors que la statistique descriptive lmentaire (unidimensionnelle) n'est
qu'une technique de prsentation des donnes (juge sur ses qualits de
fidlit, de prcision, d'ergonomie, parfois d'esthtique), les mthodes
d'analyse des donnes produisent en fait plus que des reprsentations. Elles
dvoilent des traits structuraux, permettent d'observer une ventuelle
htrognit des donnes, d'prouver leur cohrence. Elles supposent une
connaissance du domaine tudi, une matrise de rgles d'interprtation
assez complexes, mais ne se rduisent pourtant pas des tests d'hypothses
ou des validations de modles.
Devant les rsultats d'une analyse factorielle ou d'une classification, on est
naturellement conduit poser un certain nombre de questions sur la
qualit des reprsentations:
- Observe-t-on vraiment quelque chose? Les donnes ont-elle une
structure? Ou, au contraire, de simples fluctuations d'chantillonnage
suffiraient-elles expliquer les valeurs obtenues pour les valeurs propres
et les taux d'inertie?
Les premiers axes principaux indiquent-ils des directions
caractristiques? Les premires valeurs propres sont-elles hautement
significatives? Comment apprcier la position d'un point dans l'espace
factoriel? Que reprsente le taux d'inertie en terme d'information?
- A-t-on dcouvert des classes prexistantes ou au contraire a-t-on dcoup
une ralit continue en classes ?
- Est-ce que les configurations obtenues sont stables, compte tenu de ce que
l'on sait sur la prcision des donnes, la nature du codage, et
l'importance relative des diffrentes variables? Quelle est l'influence sur
les rsultats d'une modification du tableau de donnes (ajout ou retrait
de certains lments, modification du codage) ?
Les trois sections qui constituent ce chapitre vont tenter d'apporter des
lments de rponses chacune de ces questions.
Nous envisagerons tout d'abord le cas des techniques d'axes principaux
(mthodes factorielles) : l'analyse en composantes principales, l'analyse des
correspondances et ses extensions, l'analyse factorielle discriminante, pour
358 Validit et porte des rsultats _ Chapitre 4
lesquelles les valeurs propres et les taux d'inertie sont des paramtres
permettant de caractriser de faon globale (mais pas simple) les espaces de
reprsentation (section 4.1).
Puis nous prsenterons les mthodes de validation plus partielles ou
empiriques (calculs de stabilit, zones de confiance, validation par
rchantillonnage) qui concernent aussi bien les mthodes factorielles que
les mthodes de classification les plus usuelles (section 4.2).
Section 4,1
Signi'fication des valeurs propres
et des taux d'inertie
Pour toute analyse en axes principaux, qu'il s'agisse d'analyse en
composantes prin;::ipales ou d'analyse des correspondances, l'hypothse
d'indpendance des lignes et des colonnes d'un tableau est en gnral une
hypothse trop svre pour tre raliste, Il est en effet extrmement
improbable qu'un tableau soumis l'analyse puisse tre aussi dpourvu de
structure qu'une table de nombres au hasard.
Bien qu'tant un cas extrme d'une porte pratique limite, l'hypothse
d'indpendance va cependant nous permettre de dfinir des seuils de
signification pour les valeurs propres et les pourcentages d'inertie, qui
joueront le rle de gardejou pour les utilisateurs.
La grande varit des tableaux analysables (tableaux de mesure, de
classements, de comptage, etc.) rend extrmement dlicate l'interprtation
de ces valeurs propres et des taux d'inertie correspondant, dont on sait qu'ils
sont troitement lis au codage des donnes.
Sous l'hypothse d'indpendance des lignes et des colonnes du tableau
analys, les valeurs propres suivent des lois paramtriques dans le cas de
l'analyse en composantes principales
1
, des lois non-paramtriques dans le
cas de l'analyse des rangs
2
et de l'analyse des correspondances des tableaux
de contingence
3
.
Dans ces situations favorables, il a t possible de procder des tabulations
approches, et de tracer des abaques qui les rsument. Nous traiterons
principalement le cas de l'analyse des correspondances 4.
4.1.1 Travaux sur la loi des valeurs propres
en analyse en composantes principales
La loi de Wishart, tablie par Fisher (1915) dans le cas p = 2, puis par
Wishart (1928), gnralise la loi du X
2
.
1 Il est ncessaire de spcifier la forme analytique de la distribution des variables - loi
normale - et d'estimer les paramtres correspondants.
2 Cf. 1.2.8; la loi de la matrice de corrlation des rangs sous l'hypothse
d'indpendance ne suppose que la continuit des distributions des variables.
3 Comme dans le test du X
2
appliqu aux tables de contingence, la normalit rsulte de
la convergence de la loi multinomiale vers la loi normale.
4 On trouvera des abaques approches relatives l'analyse des rangs dans Lebart et
Fnelon (1971).
360 Validit et porte des rsultats _ Chapitre 4
La loi du X
2
, dans un cadre paramtrique classique, dfinit la distribution
d'une variance empirique sous l'hypothse d'observations indpendantes
identiquement distribues suivant une loi normale de moyenne nulle et
d'cart-type cr connu. La loi de Wishart concerne la distribution d'une
matrice des covariances empiriques.
Si les n vecteurs-lignes d'une matrice X d'ordre (n,p) sont des ralisations
indpendantes d'un vecteur multinormal de moyenne thorique nulle, et
de matrice des covariances thoriques 'L, (non singulire) alors la matrice
S = X' X (qui contient p(p+ 1)/2 lments distincts) suit une loi de Wishart,
note W(p,n, L) dont la densit j(S) est donne par la formule:
n-p-1 { }
leS) = C(n,p,'L,) ISI--2-exP --ttrace( 'L,-1S) ,
la constante C(n,p,L) ayant pour valeur :
np n pep-v p
C(n,p,'L,) = 2-2'/'L,/-'2 n--4-nr(-t(n+l-k)
k=1
On vrifie que pour L = 1 (matrice unit) et p = 1, notant s =x'x, on retrouve
la densit de probabilit du X
2
. En effet:
n {2}
--1 S
j(s)=C(n,I,1) s2 exP-"2
avec:
Il
C(n, 1,1) = 2-'2 r(%)
La loi de la matrice S (loi de Wishart
l
) intervient dans l'tablissement des
tests intervenant en analyse de la variance multidimensionnelle et en
analyse discriminante. C'est le cas pour le test d'galit de plusieurs
matrices de covariances [test de Box], test d'galit de vecteurs moyens [test
du A de Wilks], etc. (cf. Saporta, 1990).
La densit de probabilit des valeurs propres issues d'une matrice de
Wishart a t explicite simultanment par Fisher (1939), Girshick (1939),
Hsu (1939) et Roy (1939), puis par Mood (1951). On trouve une
dmonstration donnant la forme de cette densit dans Anderson (1958),
Muirhead (1982).
1 Pour l'tablissement de la densit de la loi de Wishart et de certaines lois drives, cf.
Dugu (1958), Anderson (1958), Muirhead (1982). On note que S n'est pas la matrice
des covariances empiriques puisque les variables ne sont pas centres sur la moyenne
empirique de l'chantillon. On montre (cf. rfrences ci-dessus) que la loi de S aprs
centrage empirique est W1e loi W(p,n-l,L).
4.1 _ Signification des valeurs propres et des taux d'inertie 361
Dans le cas o L = 1, la densit de la loi de Wishart s'crit facilement en
fonction de la trace et du dterminant de S, c'est--dire de la somme et du
produit des valeurs propres k:
n-p-l
j(S)=C(n,p,I) [fPk)--Z-ex
pf
-1 fk}'
k=l l k=l
On retrouvera donc ces lments (multiplis par le jacobien de la
transformation qui est ici le produit de toutes les diffrences possibles entre
valeurs propres) dans l'expression de la densit g( A) des valeurs propres:
n-p-l
g(A)=D(n,p) [nk)--Z-expf-1 fk}
k=l l k=l
La constante D(n,p) ayant pour valeur:
D(n,p) = 2-
n
; ~ g{r(%(n+l-kJ)r(%(p+l-kJ)}
L'intgration de cette densit assez complexe a donn lieu plusieurs
publications; parmi les principales, celles de Pillai (1965), Krishnaiah et
Chang (1971), qui s'inspirent des travaux du physicien Mehta (1960, 1967) J.
Les distributions ci-dessus s'appliquent des variables indpendantes de
variance thorique gale 1 (l'hypothse de moyenne nulle n'est pas
ncessaire puisqu'il suffit de travailler avec la matrice des covariances
centres, et de changer nen n-l dans la loi de S). Il n'est donc pas facile
d'utiliser ces rsultats dans les applications usuelles de l'analyse en
composantes principales 2.
4.1.2 Approximation de la distribution des valeurs propres en
analyse des correspondances
Nous allons voir que la distribution des valeurs propres en analyse des
correspondances sous l'hypothse d'indpendance des lignes et des
1 Une table des seuils correspondant aux deux valeurs propres extrmes a t publie
par Choudary, Hanumara et Thompson (1968) pour des matrices ayant leur plus petit
ct p infrieur 10 ; par Pillai (1967), Pillai et Chang (1970) et par Clemm,
Krishnaiah et Waikar (1973) pour p::;; 20.
2 Le fait de rduire les variables (X'X est alors n fois la matrice des corrlations) ne
rsout pas le problme car X'X, dont la diagonale est constante et gale n, ne suit
videmment pas W1e loi de Wishart. Les lments diagonaux d'une matrice de Wishart
W(p, n-l, I) sont en effet des ralisations de X
2
n-l degrs de libert.
362 Validit et porte des rsultats _ Chapitre 4
et
colonnes peut tre approche par celle des valeurs propres d'une matrice
dont la loi est connue (matrice de Wishart)l.
Nous reprenons ici les notations du chapitre 1, section 1.3, sur l'analyse des
correspondances. L'entier kij est le terme gnral de la table de contingence
K n lignes et Pcolonnes. On note ici encore:
k=LLk
ij
i j
Si Pij dsigne la probabilit correspondant la case (i,j) et estime par !ij, et
si l'on note les marges thoriques Pi. et p.j, l'hypothse d'indpendance des
lignes et des colonnes se traduit par la relation:
Pij = pi.p.j
Ainsi kij est l'une des np composantes d'un vecteur multinomial, dont
l'esprance mathmatique E (kij) s'crit:
E(k
ij
) = kpi.P.j
On fera une approximation analogue celle qui est faite lors de
l'tablissement de la loi du X
2
pour tester l'indpendance des lignes et des
colonnes d'un tableau de contingence: k sera suppos suffisamment grand
pour permettre l'utilisation de l'approximation normale de la loi
multinomiale.
On considrera d'autre part que les marges observes Ji. et fj peuvent tre
substitues sans dommage aux marges thoriques pi. et p.j sans toutefois
ngliger les contraintes impliques par cette substitution.
Ces hypothses permettront d'ailleurs de retrouver le test classique du X
2
sur les tables de contingence.
Dsignons par h le vecteur np composantes tel que:
.Jk({,-{,f)
~ = J/J JI. .J
J ~ i f j
1 Cf. Lebart (1975 b, 1976), Corsten (1976), et dans le cas d'hypothses plus gnrales
O'Neill (1978, 1981). La loi des valeurs propres issues de l'analyse des
correspondances a donn lieu maintes publications errones. Ainsi dans le trait
classique de statistique de Kendall et Stuart (1961), les valeurs propres sont
supposes suivre, comme l'inertie totale, des lois du %2. Lancaster (1963, 1969) a
rfut ce rsultat en montrant que l'esprance mathmatique de la premire valeur
propre est toujours suprieure aux valeurs dcoulant des assertions de Kendall et
Stuart. Les rfrences concernant d'autres approximations peuvent tre trouves dans
l'ouvrage de Kshirsagar (1972), o il est suggr que les valeurs propres, tant des
coefficients de corrlations canoniques calculs sur des variables disjonctives (cf. au
chapitre 3 du prsent ouvrage les sections 3.1.3.a et 3.3.4.b) pourraient suivre une loi
trs proche de celle de ces mmes coefficients calcls cette fois sur des variables
gaussiennes. Des simulations montrent que cette approximation n'est pas
satisfaisante.
4.1 _ Significatioll des valeurs propres et des taux d'inertie 363
Ce vecteur de IR. np a, sous les conditions prcdentes, une distribution
normale avec E(hij) == 0 pour tout i et j.
Sa matrice des covariances a pour terme gnral:
Vh(ij,
o
O(ij, i'j') == 1si i == i' etj == j'
O(i j, i'j') == 0 sinon
Construisons une matrice orthogonale A, d'ordre (p,p), telle que sa
premire colonne ait pour jme lment (pour tout j p), les p-1 autres
colonnes formant avec la premire une base orthonorme de IR.P,
De la mme faon, construisons une matrice orthogonale B d'ordre (n,n)
telle que sa premire ligne ait pour i
me
lment .JI (pour tout i n), les
n -1 autres lignes formant avec la premire une base orthonorme de IR. n,
La matrice BA' d'ordre (np,np), produit direct ou de Kronecker des
matrices B et A', est aussi orthogonale,
Pour tous 1 < i < n, 1 < j < p, 1 < r < n et 1 < s < p , on a les relations:
== 0; I.Jli.hij == 0; IbnnK == 0; Iaksffk == 0;
j i m k
De ces relations, on dduit que le vecteur y de IR.np tel que:
y==BA'h
a seulement (n -lXp -1) composantes non nulles. On a:
Yrs == 0 si r == 1 ou si s == 1
La matrice des covariances de y est:
V
y
=(BA')Vh(B' A)
Pour tout couple de composantes non nulles, on a:
VyCr s, r' s' ) =0,,'
55
'
Soit Y la matrice d'ordre (n,p) dfinie par:
Y==BHA
o H est la matrice d'ordre (n,p) de terme gnral hij. La premire ligne et la
premire colonne de Y sont nulles.
Les lments de la sous-matrice Yd'ordre (n -l, p-1), forme des lments
non nuls de Y, sont donc distribus indpendamment suivant la loi
normale centre rduite.
364
La matrice:
Validit et porte des rsultats _ Chapitre 4
s=yry
est donc distribue suivant une loi de Wishart W (p-1,n-l,I) de paramtres
(n -1) et (p -1).
Or S a les mmes valeurs propres non nulles que Y'Y c'est--dire que
A'H'HA; ce sont finalement les mmes valeurs propres que H'H, puisque
A est orthogonale.
Remarquons que ceci implique que tr(H'H) est un X
2
(n -l)(p -1) degrs de
libert. Or :
tr(H'H) =kL, L, ~ j - f;.fj
i j f;.fj
Il s'agit du test usuel du X
2
sur les tableaux de contingence.
La matrice symtrise S* que l'on diagonalise lors de l'analyse des
correspondances du tableau K, est la matrice:
S*=tH'H
Ainsi, si
a
est la a
me
valeur propre issue de l'analyse des
correspondances d'un tableau K d'ordre (n , p), de somme totale k,
alors la distribution de k
a
est approximativement ceUe de la a
me
valeur propre d'une matrice de Wishart dfinie par les paramtres
W(p-1,n-1,I) 1.
4.1.3 Indpendance des taux d'inertie et de la trace
On a vu que la densit g( A) de la loi jointe des valeurs propres l, 2, ... , p
d'une matrice de Wishart a la forme:
n-p-l
g(A) = D(n,p)TI;-2-exp{-!:Ldn(k -j)
k<j
Si l'on pose:
{

k
=Z 'rk ,pour k < P

p
= Z (1- 'rI - 'r2-.-'r
p
_l)
alors Z est la trace de la matrice de Wishart: Z =L,
k
k
1 On trouvera une vrification exprimentale de la qualit de l'approximation montrant
la concordance entre les lois thoriques des valeurs propres et celles qui rsultent de
l'approximation ci-dessus dans Lebart (1975 b, 1976).
365 4.1 _ Signification des valeurs propres et des taux d'inertie
----------
On trouve aisment une factorisation de la densit (le jacobien de cette
transformation vaut Z p-1) :
g(A) =g1(z)g2(n,. .. , rp-
la fonction g1(Z) s'crivant:
1 Z np -1 Z
gl(Z)=--(-) 2 expf--J
2r<np) 2 2
2
o l'on reconnat la densit de la loi du X
2
np degrs de libert. La
factorisation des densits (et l'indpendance des domaines d'intgration)
montrent que les pourcentages de variance r1, r2, ..., rp-l sont indpendants
de la trace Z .
Cette proprit (qui suppose vraie l'hypothse d'indpendance) semble
encore valable dans le cas de l'analyse des correspondances, pour laquelle la
loi de Wishart est seulement une loi approche (les simulations extensives
entreprises pour construire les abaques ont permis de vrifier cette
indpendance, que nous avions d'ailleurs conjecture partir de rsultats
empiriques, puis dmontre). EUe avait en fait t tablie (dans le cadre de
l'analyse en composantes principales) par Bartlett (1951).
En analyse des correspondances, la trace mesure la dilatation gnrale du
nuage de points-profils, alors que les taux d'inertie mesurent la forme du
nuage en termes d'aplatissement et d'allongement. Ainsi, mme si la trace
ne permet pas de rejeter l'hypothse d'indpendance (test habituel du X
2
),
les premiers taux d'inertie pourront nanmoins tre significativement
levs: l'analyse des correspondances pourra tre utile mme sur les
tableaux que le X
2
ne dsigne pas comme tant trs riches d'informations
(nuage peu dilat mais non-sphrique de points-profils).
Inversement, une trace significativement leve pourront correspondre
des taux d'inertie non significatifs. Bien que l'hypothse d'indpendance
soit rejete par le test du X
2
, l'analyse des correspondances n'est peut-tre
pas alors le meilleur outil pour dcrire la dpendance entre les lignes et les
colonnes de la table (nuage dilat sphrique de points profils).
Ces situations ont t schmatises la section 1.3 (analyse des
correspondances), par la figure 1.3 -14 du paragraphe 1.3.4.a: les taux
d'inertie significatifs ne concernent que la seconde colonne de cette figure
(formes non-sphriques), alors que les X
2
significatifs ne concernent que la
seconde ligne de la figure (forte inertie correspondant des nuages dilats).
Ainsi, le modle de l'analyse des correspondances, que l'on peut
schmatiser ci-dessous (avec les relations et contraintes entre a, {3, cp, VI, .
qui sont les relations et contraintes usuelles de la formule de reconstitution
des donnes) :
366 Validit et porte des rsultats _ Chapitre 4
n'est pas abandonner chaque fois que le X
2
ne permet pas de rejeter
l'hypothse d'indpendance, contrairement la plupart des modlisations
concernant les tables de contingence.
4.1.4 Exemples d'abaques et tables statistiques
Les tables statistiques tablies par simulation et les abaques qui en rsultent
permettent d'apprcier le degr de signification de la plus grande valeur
propre issue de l'analyse des correspondances de tableaux de contingence
depuis la dimension (6x6) jusqu' la dimension (50xl00).
p = largeur du tableau
BOl-
~
60 70 80 90 100
longueur du tableau
Figure 4.1 .}
Valeurs mdianes du pourcentage d'inertie
de la plus grande valeur propre
La figure 4.1 - 1 donne les valeurs mdianes du pourcentage d'inertie relatif
la plus grande valeur propre pour les largeurs p =6/ 8/ 10/ 20/ 30/ 40/ 50 1.
Les estimations des valeurs des taux d'inertie correspondant la premire
valeur propre apparaissent sur la figure 4.1 - 2 (pour un seuil de 0.05). Les
1 Des informations plus dtailles concernant la construction de ces abaques
(notamment sur les modes de gnration de tableaux pseudo-alatoires) et des tables
approches, pour les tableaux dont les dimensions n'excdent pas SOxl00 relatives aux
cinq premires valeurs propres sont donnes dans Lebart (1975a). Les simulations ont
mis en jeu des tables de contingences pseudo-alatoires ayant des marges thoriques et
un effectif total donns en utilisant l'approximation normale de la loi multinomiale.
Des expriences ont montr en effet qu'on obtient de celte faon des rsultats
comparables, en ce qui concerne les valeurs propres, une procdure ayant recours
une simulation pseudo-alatoire du schma mu1tinomial exact.
4.1 _ Signification des valeurs propres et des taux d'inertie 367
extrmits des courbes (points: 6x6, 8x8, lOxlO) ont t tablies l'aide de
1000 simulations (100 pour les autres points), afin de prciser leur trac. Ces
figures schmatiques ne donnent cependant que des ordres de grandeurs.
60
of
50
.S
'0

40
el)
'"
"E

30
::l
0
0.-
::l
20
-0
':;

10
<Il
0
p = 6 P = largeur du tableau


P= 30 =---------
-;-:::::::::::::::===:======
p = 40
10 20 30 40 50 60 70 80 90 100
Longueur du tableau
Figure 4.1 - 2
Seuil (0,05 unilatral) du pourcentage d'inertie
de la plus grande valeur propre
Par exemple, on lit sur la figure 4.1 - 2 que, pour un tableau 10xl0, la
premire valeur propre peut atteindre ou dpasser 40% de l'inertie (la loi
des taux ne dpendant pas de l'effectif total du tableau) dans 5% des cas, sous
l'hypothse d'indpendance des lignes et des colonnes de la table.
Il s'agit donc ici d'un test de sphricit du nuage de points-profils, qui ne
remplace pas un test sur les valeurs propres elles-mmes (il faut alors
tabuler kz, car la loi de )..1 seule dpend de k, effectif total de la table). Ce test
donne nanmoins des ordres de grandeur ayant une certaine valeur
pdagogique sur l'effet de fluctuations d'chantillonnage sur la forme de
nuage de points-profils.
En revanche, ce type de rsultats tendu l'ensemble des valeurs propres
sous l'hypothse d'indpendance ne peut aider dterminer le nombre
d'axes retenir, car les valeurs propres ne sont pas indpendantes (mme
sous l'hypothse d'indpendance des lignes et des colonnes du tableau, et a
fortiori si cette hypothse est rejete)l. Il faudrait donc connatre la loi
l Cette forte dpendance entre valeurs propres dans le cas d'une table de contingence
gnre sous l'hypothse d'indpendance des lignes et des colonnes se manifeste sous
la forme d'autocorrlations entre valeurs propre conscutives et de corrlations
ngatives entre valeurs propres extrmes. Ce type de liaison est illustr par la figure
2.4 -7 du chapitre 2, qui reprsente graphiquement les corrlations entre les 7 valeurs
propres d'une table de contingence alatoire (8,8) aprs 1000 simulations.
368 Validit et porte des rsultats _ Chapitre 4
conditionnelle de la seconde valeur propre, ce qui ne peut donner lieu des
rsultats gnraux ni des tables.
4.1.5 Taux d'inertie et infonnation
L'utilisation des taux d'inertie (ou pourcentages de variance) comme outil
d'valuation globale de la qualit d'une reprsentation est trs dlicate. Les
taux d'inertie sont des mesures pessimistes de la qualit d'une
reprsentation (contrairement, par exemple, aux coefficients de corrlation
multiple qui sont des mesures optimistes de la qualit d'une rgression). La
variance brute initiale n'tant pas en gnral une mesure de rfrence
adquate, il est souvent injustifi de parler de part d'information propos
des taux d'inertie.
a - Caractre partiel des taux d'inertie
Quelques contre-exemples vont nous montrer que ces coefficients ne sont
pas aptes caractriser de faon satisfaisante la qualit d'une reprsentation.
Cas du codage disjonctif
Nous avons vu
l
que, pour une mme reprsentation, l'analyse de deux
questions (ou variables) sous codage disjonctif pouvait donner des taux
d'inertie considrablement plus faibles que l'analyse, pourtant quivalente,
du tableau de contingence croisant les deux variables.
Les taux d'inertie donnent dans ce cas une ide trs pessimiste de la part
d'information reprsente. En effet, le codage disjonctif, en introduisant
une orthogonalit entre les colonnes (modalits) relatives une mme
question, introduit une sorte de sphricit artificielle du nuage de points-
profils, que l'on retrouve dans la forme du spectre.
Comme cela a t voqu dans une note au 1.4.8, Benzcri (1979) a propos
une formule de calcul de taux d'inertie r() corrigs sous la forme suivante:
pour >1
s
o s reprsente le nombre de questions actives, reprsente la valeur
propre issu de l'analyse des correspondances du tableau disjonctif complet,
(V tant la valeur propre issue de l'analyse des correspondances du tableau
de Burt).
1 Cf. 1.4.6 consacr au cas de deux questions en analyse des correspondances
multiples, notamment le tableau 1.4 -1 et les remarques qui suivent.
4.1 _ Sigllificatioll des valeurs propres et des taux d'illertie 369
Les valeurs propres issues du tableau de Burt dont la diagonale a t
annule sont prcisment (Il. -i)2 et seulement celles qui vrifient Il. - i
correspondent des facteurs directs (cf. paragraphe ci dessous: cas de
l'analyse de la matrice associe un graphe symtrique).
De plus, dans le cas s =2, on retrouve les taux d'inertie de l'analyse des
correspondances de la vraie table de contingence croisant les deux
questions
l
.
Cas de l'analyse de la matrice associe un graphe symtrique
Dans plusieurs cas lors de l'analyse des correspondances de la matrice
associe un graphe symtrique (cf. Benzcri, 1973, tome lIB, chapitre 10),
un calcul analytique exact peut tre fait sans recours l'ordinateur. Il est
alors intressant d'tudier analytiquement les variations des
reprsentations en fonction des diffrents codages de la matrice associe.
La relation de transition s'crit ici :
o M est la matrice associe au graphe et e(cp) = 1 ou -1 selon la parit du
facteur j, c'est--dire selon que le facteur est direct
2
ou inverse.
Examinons par exemple le cas de l'analyse d'un cycle simple. La matrice M
n'a que deux lments non nuls (gaux 1) par ligne et par colonne.
Dsignons par n le nombre de sommets du graphe. Pour n = 5, on a par
exemple:
1010011
1101001
M=IO la 101
la a 1 a 11
11 a a 1 oJ
5
Figure 4.1 - 3
Exemple de cycle et de sa matrice associe
1 Dans le cas de l'exemple nwnrique du paragraphe 1.4.8, le taux correspondant la
premire valeur propre (22.77%) devient alors 64%. Greenacre (cf. Greenacre et
Blasius, 1994) propose une modification itrative du tableau de Burt qui conduit des
reprsentations trs similaires, mais des taux intermdiaires entre les taux bruts et
les taux rectifis (sous le nom de Joint Correspondence Analysis).
2 Brivement ici, un facteur direct est un vecteur propre de M'M=M2 correspondant
une valeur propre positive de M. Seuls les facteurs directs traduisent des similarits.
370 Validit et porte des rsultats _ Chapitre 4
La relation prcdente s'crit encore pour 1 < j < n :
~ r p -1)+ rp(j + 1)) = t:(rp)-{irp(j)
Les solutions de ce type classique d'quation aux diffrences finies sont,
compte tenu des conditions aux limites:
(
.) . (2
j
an)
l/IaJ =sm--
n
Ce sont les jmes composantes des deux facteurs associs la valeur propre
double:
.
a
= co/( 2an)
n
On obtient dans le plan des deux premiers facteurs l'quation paramtrique
d'un cercle et donc une reconstitution satisfaisante de la structure dont le
tableau M reprsente un codage particulier.
La trace de la matrice diagonaliser s'crit:
tr1M2 -11
4 - 2
Le taux d'inertie correspondant l'axe a est donc:
2 2 2an
ra = -cos (--)
n n
Le rsultat, en apparence paradoxal, est le suivant:
le taux d'inertie du sous-espace qui "restitue" la structure initiale peut
tre rendu aussi petit que l'on veut, pourvu de choisir un cycle assez
long: si n =10
3
, alors rl '" 2 x 10-
3
.
- Influence du choix des variables en analyse en composantes principales
Si l'on complte un tableau n lignes et p colonnes, par q nou velles
colonnes formes de nombres pseudo-alatoires, l'analyse en composantes
principales normes du nouveau tableau p+q colonnes donnera les
mmes premiers axes (s'ils prdominent) que l'analyse du tableau initiai.
Les pourcentages de variance explique seront cependant plus faibles (car la
trace qui valait p, vaut maintenant p+q). Pourtant la part d'information
dont les axes rendent compte reste naturellement la mme.
En pratique, on est dans une situation analogue lorsque le nombre potentiel
des variables est trs grand (cas par exemple de la prsence d'espces
animales ou vgtales dans les relevs cologiques). Une certaine discipline
dans le choix du recueil des donnes, dicte par les critres d'homognit,
devrait en principe permettre d'viter ces inconvnients.
Mais le statisticien n'a pas toujours la matrise de la collecte des donnes, ni
une connaissance suffisante du domaine d'application; de plus, les critres
de choix sont eux-mmes trop qualitatifs et trop gnraux pour dfinir de
faon rigoureuse un tableau optimal parmi tous les tableaux potentiels.
4.1 _ Sigllificatioll des valeurs propres et des taux d'illertie 371
Comme les procdures de codage, le choix proprement-dit des variables a
souvent davantage d'influence sur les taux d'inertie que sur les facteurs
issus d'une analyse.
b - Quelle infonnalion?
Nous aHons voir que la thorie de l'information de Shannon-Wiener
(Kullback, 1959) ne nous permet pas de faire apparatre facilement les taux
d'inertie comme mesure du degr de "non-sphricit" d'un nuage.
On utilisera pour le calcul la notion de divergence de Jeffreys (1946), qui
permet de mesurer la distance entre deux hypothses Hl et H2 dans le cas
d'une ralisation d'un vecteur x issu de l'un des deux schmas relatifs des
lois normales dans RP :
(H}) Hypothse d'indpendance
{
Moyenne thorique = Pl
Matrice des covariances thoriques = a
2

(H2) Cas gnral:


{
Moyenne thorique =P2
Matrice des covariances thoriques = L (suppose ici rgulire)
La divergence va permettre d'exprimer la distance entre les hypothses Hl
et H2 en fonction des valeurs propres de L et l'on s'apercevra qu'elle met en
cause les petites valeurs propres alors que l'analyse factorielle ne retient que
les grandes.
Rappelons que l'on dfinit, pour deux hypothses Hl et H2 pouvant donner
lieu la ralisation d'un vecteur x, la divergence J(HI,H2) comme la
diffrence:
Vl et V2 tant les mesures associes aux hypothses Hl et H2 ; et P(Hj 1x)
(i = 1, 2) tant la probabilit conditionnelle que Hi soit vraie connaissant x.
Dans le cas de densits continues /7 (x) et/2(x), on a:
J(H
I
, H
2
) =fUi (x) - h(x))log fl(X) dx
h(x)
La densit de probabilit du vecteur x s'crit, pour une matrice des
covariances thoriques Li et un vecteur ~ j :
/;(x) = rnexp{--21(x - ~ . L:-\X - ~ . }
1 v
2n
l
L
ii 1 1 1
372 Validit et porle des rsultats _ Chapitre 4
d'o:
1
h(x) -Il /1:
z
l 1 )( ),) lt )( ),)
og - 2 og-I-I-}tr ""1 X-Ill X-Ill + 2 r L.
z
x-Il
z
x-Il
z
f
2
(x) LI
Remplaant cette valeur dans la formule donnant J(Ht,Hz), on voit que le
premier terme de J(H},Hz) n'est autre que 1(1;Z), l'information moyenne
apporte par l'chantillon X sous l'hypothse Hl, en vue de discriminer en
faveur de Hl contre Hz (cf. Kullback, 1959).
On crira ce premier terme en posant: X-Ilz =x - III + J.11 -Ilz . Il vient:
1(1'Z) = fh(x)logh(x)dx
, f2(x)

et J(Ht,Hz) s'crit donc:
J(H
1
,Hz) = l(l;Z) + I(Z;l)
= (LI - LZ)(1:2:
1
- L]l)) +1tr(1:]1 - 1:2:
1
)(J.11 -IlZ)(1l1 -Ilz)')
On s'intresse au cas] pour lequel:
III = J.1z, LI =1 et LZ = L.
On notera en abrg J(Hl, Hz) =J(I, L) avec:
J(I,1:) = - 1:)(1:-
1
- 1)) = 1tr(1: + 1:-
1
) - P
Soit, en faisant apparatre les valeurs propres
a
de 1: :
J(I'1:)=1[ Ia + f f-J-p
a=l a=l a
Si les inerties totales thoriques sont gales sous les hypothses Hl et Hz, on
a la relation:
p
I,
a
=P
a=l
Le seul terme variable dans J(I, 1:) est donc le terme:
P 1
L-
a=1 /ta
] Dans le cas o L] = 1:
2
, J(H],H2) est proportionnel la distance de Mahalanobis, ou
distance gnralise entre les populations thoriques 1 et 2 (cf. 3.3.4).
4.1 _ Signification des valeurs propres et des taux d'inertie 373
On voit que la divergence entre les deux hypothses sera particulirement
grande dans le cas o certaines valeurs propres de L. sont voisines de O.
Dans le cadre de cette formalisation de la thorie de l'information, une
valeur propre de L. infiniment petite jouera un rle beaucoup plus
dterminant que deux valeurs propres expliquant, par exemple, 80% de
l'inertie totale, alors que c'est dans le sous-espace des deux facteurs
correspondants que l'on observera les principaux traits structuraux.
En fait, comme un filtre dans un processus de communication, la
reprsentation des donnes dans l'espace des premiers axes factoriels a pour
effet d'augmenter la valeur pratique de l'information au prix d'une perte
d'information brute qui peut tre considrable. Or cette notion de valeur
pratique (Brillouin, 1959) est trangre la thorie classique de
l'information.
Comme le suggre Thom(1974), on gagnerait souvent remplacer le mot
information par le mot forme (ici peu prs quivalent au mot anglais
pattern) lors d'un processus d'observation.
Le meilleur critre de validation sera de vrifier la stabilit des formes
obtenues l'issue de cette phase de nos analyses.
4.1.6 Choix du nombre d'axes: quelques rsultats utiles
On a vu la difficult de l'tude distributionnelle et de la signification
statistique des valeurs propres et des taux d'inertie.
Cependant qu'il s'agisse d'une simple visualisation des donnes ou de
l'utilisation des axes factoriels en vue d'une analyse ultrieure
(classification sur facteurs, rgression ou analyse discriminante sur
facteurs), il reste important de savoir combien d'axes retenir, autrement dit
de connatre la dimension de l'espace de reprsentation.
Il existe quatre types de procdures pour guider le choix de ce nombre
d'axes:
a - des rgles empiriques.
b - des procdures externes.
c - des critres fonds sur certaines proprits statistiques des valeurs
propres.
d - des mthodes de calcul de stabilit, de rchantillonnage ou de
simulation.
Nous voquerons ici brivement les points (a) et (b), puis traiterons
essentiellement le point (c), dans la ligne des dveloppements de cette
section. Le point (d) fera l'objet de la section 4.2 suivante.
374 Validit et porte des rsultats _ Chapitre 4
a - Rgles empiriques
Les rgles empiriques sont fondes sur l'allure de la squence des valeurs
propres, notamment dans le cas de l'analyse en composantes principales
l
.
Deux rgles, attribues respectivement Cattell et Kaiser, seront cites,
titre historique.
Lorsqu'un tableau est gnr suivant un modle stipulant l'indpendance
de ses lignes et de ses colonnes, on observe une dcroissance rgulire des
valeurs propres. Cette remarque est l'origine de procd ures empiriques
pour juger du nombre d'axes retenir dans une analyse factorielle. On
tudie l'histogramme de dcroissance des valeurs propres pour y dceler un
changement de pente. Chaque fois que l'histogramme des valeurs propres
prsente un "dcrochage" ou une discontinuit, on peut supposer que
quelque chose de non alatoire intervient. Ce reprage des "coudes" tait
prconis par Cattell (1966).
Le second critre empirique est le critre de Kaiser (1961), qui stipule de ne
retenir que les valeurs propres suprieures la moyenne des valeurs
propres (c'est--dire 1 dans le cas d'une analyse en composantes
principales sur matrices de corrlation), en s'appuyant notamment sur des
travaux de Guttman (1954)2. D'un emploi trs rpandu cause de son
extrme simplicit, il peut tre facilement mis en dfaut. Ainsi, une analyse
en composantes principales sur matrice des corrlations en biomtrie peut
produire un facteur de taille trs dominant. Comme la trace est constante,
les autres valeurs propres sont condamnes tre trs petites, ce qui
pourrait interdire l'interprtation d'autres dimensions.
b - Procdures externes
Les procdures externes sont fondes sur des connaissances extrieures au
tableau de donnes (interprtabilit de certains rsultats, informations
apportes par le positionnement de certaines variables supplmentaires 3).
Elles sont justifies par la faible pertinence des valeurs propres et des taux
d'inertie, souligne dans la section 4.1.5 prcdente, notamment dans le cas
des codages clairsems (tableaux disjonctifs complets, matrices associes
des graphes, certains tableaux de prsence-absence).
De telles procdures externes peuvent tre couples avec les procdures de
rchantillonnage dont on parlera dans la section 4.2. Ainsi, dans le cas
1 Ces procdures ont surtout concern en pratique l'analyse factorielle classique ou
analyse des psychologues, dont l'analyse en composantes principales est un cas
particulier - cas des variances spcifiques gales ou nulles (cf. 3.2.9).
2 Cf. galement, parmi de trs nombreuses publications sur ce thme, les articles de
synthse de Anastassakos et d'Aubigny (1984), Francisco et Finch (1980) et la revue
faite par Jolliffe (1986).
3 C'est le cas notamment en analyse des correspondances multiples quand les
modalits d'une variable nominale supplmentaire possde des valeurs-test trs
significatives sur un ou plusieurs axes.
4.1 _ Sigllificatioll des valeurs propres et des taux d'illertie 375
d'une anal yse discriminante partir des facteurs d'une analyse, on peut
slectionner le nombre de facteurs partir des pourcentages de bien classs
(ou pourcentages de succs) calculs sur des chantillons-tests ou par
validation croise (cf. l'exemple numrique du paragraphe 3.3.6.b, ainsi que
la figure 3.3 - 7 de la section 3.3).
C'est donc ici le pouvoir de prdiction sur la variable externe qui permet de
choisir la dimension de l'espace des prdicteurs!. Les procdures externes
jouent en fait un rle important dans la mthodologie de l'analyse des
donnes.
c - Critres de choix statistiques, rsultats asymptotiques
Les travaux relatifs aux tudes distributionnelles des valeurs propres et des
vecteurs propres ainsi qu'aux comportements asymptotiques de ces
lments sont considrables, mais peu de rsultats sont vraiment utilisables
par le praticien. Sauf mention contraire, tous le rsultats ci-dessous
supposent que les observations suivent une loi multinormale de matrice
des covariances thoriques 1:.
- Critre pour l'analyse en composantes principales
Dans sa publication dj cite ( 4.1.1) donnant l'expression de la densit des
valeurs propres d'une ma trice de Wishart, Girshick (1939) calcule les
variances et covariances asymptotiques (quand le nombre d'observations n
tend vers l'infini) des valeurs propres et vecteurs propres de la matrice des
covariances exprimentales S, ceci dans le cas o la matrice des covariances
thoriques 1: a toutes ses valeurs propres distinctes.
Il donne galement les variances et covariances thoriques des valeurs
propres de la matrice des corrlations exprimentales, lorsque la matrice de
corrlation thorique R a galement toutes ses valeurs propres distinctes.
Bartlett (1950, 1951) propose une mthode pour tester l'galit de p- q
valeurs propres des matrices 1: ou R. Lawley (1956) approfondit le cas des
p - q pl us peti tes valeurs propres de L.
Anderson (1963) a gnralis ces rsultats, en dterminant les lois limites
des valeurs propres sans ncessairement supposer que les valeurs
thoriques correspondantes sont distinctes.
Il dmontre en particulier, pour tester l'galit des r plus petites valeurs
propres X
a
de la matrice des covariances exprimentales S, que la
statistique:
1 Plus gnralement, ce type de procdure permet de slectionner un sous-espace qui
n'est pas ncessairement engendr par des axes conscutifs.
376 Validit et porte des rsultats _ Chapitre 4

afi
2 r a=p-r+t
X = nrlog---"'-----".-r-
[
a=p ]1/
r

(nr fois le logarithme du rapport de la moyenne arithmtique des r plus
petites valeurs propres leur moyenne gomtrique) est asymptotiquement
distribu comme un X
2
['(r; 1) -1] degrs de libert.
Les intervalles de confiance asymptotiques d'Anderson utiliss en pratique
pour les valeurs propres remontent en fait aux travaux de Girshick.
Si les valeurs propres thoriques 'An de L sont distinctes, les valeurs propres
i
a
de la matrice des covariances empiriques S suivent asymptotiquement
des lois normales d'esprance 'An et de variance -1) o n est la taille
de l'chantillon.
On en dduit les intervalles de confiance approchs au seuil 95% :
L'ampleur de l'intervalle donne une indication sur la stabilit de la valeur
propre vis--vis des fluctuations dues l'chantillonnage suppos laplacien.
L'empitement des intervalles de deux valeurs propres conscutives
suggrera donc l'galit de ces valeurs propres. Les axes correspondants sont
alors dfinis une rotation prs. Ainsi l'utilisateur pourra viter
d'interprter un axe instable selon ce critre.
On peut trouver des gnralisations de ces rsultats asymptotiques au cas
non laplacien (Waternaux, 1976; Davis, 1977), mais leur utilisation n'est
gure pratique
1
.
Les intervalles de confiance d'Anderson concernent en fait aussi bien les
valeurs propres des matrices des covariances que des matrices de
corrlations. Les simulations entreprises montrent que les intervalles de
confiance obtenus sont en gnral "prudent" : le pourcentage de couverture
de la vraie valeur est le plus souvent suprieur au seuil de confiance
annonc (Morineau, 1983).
Dans tous les cas, la nature asymptotique des rsultats et l'hypothse sous-
jacente de normalit
2
font considrer les rsultats comme indicatifs.
1 On trouvera une revue de rsultats asymptotiques relatifs l'analyse en composantes
principales dans Muirhead (1982), Anderson (1958 - seconde dition de 1984), Flury
(1988), Pousse (1992).
2 Muirhead (1982) a montr que l'hypothse d'existence des quatre premiers moments
pour la loi thorique de l'chantillon suffisait pour valider ces intervalles.
4.1 _ Signification des valeurs propres et des taux d'inertie 377
- Critre pour l'analyse des correspondances
Dans le cas de l'analyse des correspondances des vraies tables de contingence
(analyse des correspondances simples), la loi des valeurs propres ne permet
que de juger la signification du premier axe, puisque les lois conditionnelles
des autres valeurs propres ne sont pas connues. Une procdure approche
propose par Malinvaud (1987) peut tre utilise pour dterminer le rang
partir duquel les valeurs propres ne sont plus significativement diffrentes
entre elles.
Revenons au "modle" que reprsente la formule de reconstitution
approche avec m facteurs (cf. formule [1.1 - 7] du 1.1.5.b) des frquences
relatives Iii du tableau de contingence K d'ordre (n, p) de terme gnral kij
et d'effectif total k (fij = kij /k). .
m
Iij = gij =ai/3j(1 + 'L-JIh q>h(i)lIfh{j)) [4.1-1]
h=l
Les restrictions suivantes sont imposes aux diffrents paramtres du
modle (moyenne nulle, variance unit, et orthogonalit des facteurs) :
Il P
(a) L ai q>h (i) = 'L f3jllfh{j) = 0, pour h:::;; m
i=l j=l
Il 2. P 2 .
(b) L aiq>h(l) = 'L f3jllfh(;)=l, pour h:::;;m
i=l j=l
Il P
(c) L aiq>h(i)q>h,(i) = L f3jllfh{j)lIfh,(j) = 0, pour h * h'
i=l j=l
(d)
h
;::: 0, pour h:::;; m
On note que gij = Iij si m = p - 1 (modle dit satur). Il ressort de la premire
ligne de contraintes que ai f3j = Ii.!j'
Le tableau reconstitu dans le cas o m =0 correspond l'indpendance
entre les lignes et les colonnes du tableau. Pour savoir si cette hypothse est
rejete, on calcule la statistique du X
2
usuelle ( (n -1)(p -1) degrs de libert) :
X2 = k.f [Iij Ji..f
j
)2
J=ll=l Ii.!J
Plus gnralement, pour m :2 1 fix, l'ajustement du modle [4.1-1] en
rendant minimal le critre sous les contraintes prcdentes:
[ )
2
u = f Iij - gij
j=l i=l Ii.!j
378 Validit et porte des rsultats _ Chapitre 4
fournit la reconstitution gij delij partir de m facteurs.
P n [k -g"J2
La statistique X
2
=k L L ' mesurant l'cart entre le modle
j=l i=l gr)
satur lij et le modle estim gij, doit suivre une loi du X
2
dont le nombre
de degrs de libert d(m) = (n - m-l)(p - m -1) s'obtient en retranchant de la
dimension de l'espace le nombre de paramtres indpendants 1.
Chaque nouveau facteur (de rang m) demande en effet l'estimation de
n + p + 1 nouveaux paramtres (<Ph, l/Ih et h), lis par 2 contraintes de
centrage (a), 2 contraintes de normalisation (b), (m-l) contraintes
d'orthogonalit (c), d'o:
d( m) = (n - 1)(P- 1) - m(n +p - 2 - m)
soit
d(m) = (n - m -1)(p -m-1)
Utilise avec prudence 2, cette statistique constitue une aide
l'interprtation prfrable aux mthodes empiriques et plus utile que les
tudes de distribution des valeurs propres sous l'hypothse d'indpendance.
1 C'est le nombre de paramtres estims duquel on retranche le nombre de contraintes
qui peuvent tre crites sous la forme de fonctions admettant des drives partielles
du premier ordre continues. (cf. Cramer, 1946 i Rao, 1973).
2 Il faut cependant viter de procder des approximations dans le calcul de la
statistique X
2
. Il peut en effet tre tentant de remplacer le dnominateur gij par fi.!j ,
et d'approcher alors X
2
par la somme des valeurs propres de rang suprieur m. Cette
approximation conduit comparer la mime valeur propre m un X
2
(n+p-2m-1)
degrs de libert. Ce rsultat, propos par plusieurs auteurs, a t rfut par Lancaster
(1963), qui a montr notamment que la plus grande valeur propre sous l'hypothse
d'indpendance a une esprance suprieure (n+p-3!,
4.2 _ Stabilit des axes, des formes, des classes 379
Section 4.2
Stabilit des axes, des formes, des classes
Cette section, dvolue aux calculs de stabilit et aux mthodes de validation
par rchantillonnage, comporte quatre paragraphes.
Le premier est consacr aux mthodes empiriques de validation qui
consistent modifier certains lments du tableau initial en fonction des
informations externes connues a priori sur les mesures, comptages ou
codages qui composent ce tableau et effectuer des calculs de stabilit des
rsultats. Le deuxime prsente les principales mthodes de
rchantillonnage (Jackknife, Bootstrap, validation croise) et leur
application l'tude de la stabilit des formes. Le troisime paragraphe,
notamment en application du paragraphe prcdent, dcrit les zones de
garde ou de confiance que l'on peut tracer autour des points dans les espaces
de visualisation. Enfin le quatrime examine le cas de la classification en
passant brivement en revue les travaux relatifs au nombre et la
signification des classes.
4.2.1 Mthodes de validation empiriques:
calculs de stabilit et de sensibilit
Les calculs de stabilit et de sensibilit sont probablement les procdures de
validation les plus probantes. L'essentiel des oprations consiste en une
vrification de la stabilit des configurations aprs diverses perturbations
apportes au tableau initial.
a - Calculs de stabilit et de sensibilit
D'un point de vue thorique, Escofier et Leroux (1972), Escofier (1979) ont
trait de la stabilit des facteurs en analyse en composantes principales et en
analyse des correspondances. Ces auteurs tudient les variations maximales
des facteurs et des valeurs propres lorsque l'on apporte des modifications
bien dtermines aux donnes: suppression ou ajout d'lments au tableau
de donnes, influence du regroupement de plusieurs lments ou de petites
modifications des valeurs du tableau, influence du choix de la mtrique et
de la pondration.
Les sous-espaces correspondant au haut du spectre sont les plus stables vis--
vis des ventuelles perturbations de la matrice diagonaliser (cf. Wilkinson,
1965; Kato, 1966). De plus cette matrice elle-mme (par exemple la matrice
des corrlations exprimentales en analyse en composantes principales
norme) est moins sensible aux fluctuations d'chantillonnage que les
380 Validit et porte des rsultats _ Chapitre 4
moments d'ordre 1 (moyennes ou pourcentages)l. Ces perturbations ne
doivent pas affecter l'orientation des axes ni les configurations si on les
suppose stables, et la structure mise en vidence sera alors significative.
Des rsultats assez forts existent dans le cas de perturbations symtriques de
matrices symtriques, comme par exemple le thorme de Wielandt-
Hoffman (cf. Wilkinson, op.cit.) qui nonce que si A, B, C, sont des matrices
symtriques (p,p) ayant respectivement pour valeurs propres classes par
ordre dcroissant ai, {Ji, Yi et telles que C = A + B (B reprsente une
perturbation additive, C est la matrice perturbe), alors:
p 2 P 2
l (Yi - a;) I/3i
i=1 i=1
Un autre thorme classique trs utilis dans les travaux prcits nonce
que, avec les mmes notations, pour tout j tel que 1 5{j 5{p:
ai + /3p 5{ Yi 5 ai + /31
Montrons brivement, utilisant une formulation emprunte Gifi (1990),
comment des variations de la matrice symtrique diagonaliser A,
supposes ici infinitsimales, influencent les lments propres.
La relation A Ur = .r Ur se note, pour l'ensemble du spectre:
AV=UA [4.2 -1]
avec, rappelons-le, les contraintes V'V = 1.
[4.2 - 2]
et
La matrice A, et par consquent U et A, sont supposs dpendre
continment d'un paramtre s. La drivation des relations [4.2 - 1] par
rapport S donne les systmes:
dA
V
+
A
dU =dV A+VdA
dS dS dS dS
dV' V + V' dU =0
dS dS
Prmultipliant les deux membres de la premire relation par V', il vient
aprs simplification (mettant profit les relations prcdentes) :
V,dAV=dA+{V,dU A_AV,dV}
dS dS dS dS
Or la matrice entre accolades a ses lments diagonaux nuls (comme toute
matrice de la forme (BA - AB), avec A diagonale), d'o l'expression de dA :
dS
1 Les travaux de Tanaka (1984) concernent galement l'analyse des correspondances
(connue galement au Japon sous le nom de mthode de quantification n3 de Hayashi).
Sur l'analyse en composantes principales, on mentionnera les travaux de Krzanowski
(1984), Critchley (1985), Benasseni (1986a, 1986b).
4.2 _ Stabilit des axes, des fonnes, des classes
aA =dmg(U' aA u)
as as
(o le symbole diag signifie "diagonale de... ").
Posant:
Q=u,aA
U
as
d'o
on peut crire:
381
[4.2 -4]
[4.2 - 3]
a
r
" aaij
a = qrr =L..uirUjrT
5 i,j 5
Pour les vecteurs propres, le calcul, plus complexe, conduit :
aUjr = L U ~
as /'l-r/ r-/
Ces formules nous montrent donc, d'une part que la partie principale de la
variation des valeurs propres ne dpend pas des variations des vecteurs
propres (la variance le long d'un axe dpend plus, par exemple, de
l'adjonction ou du retrait d'un lment que de petites variations d'angle de
l'axe), d'autre part que les variations des composantes d'un vecteur propre
dpendent des carts entre la valeur propre correspondante et les autres
valeurs propres, c'est--dire de l'isolement de cette valeur propre, rsultat
galement intuitif et rcurrent dans tous les calculs de perturbation.
Ainsi, beaucoup des rsultats de Escofier et Leroux (op. cit.) se fondent sur
un thorme que ces auteurs tablissent partir de rsultats de Davis et
Kahan (1970), qui s'nonce, avec les mmes notations que pour le thorme
de Wielandt-Hoffman :
Soit deux sous-espaces invariants de A et de C (C = A + B)
correspondant des valeurs propres de mmes rangs T, Hl, ... , T+t.
Si () est le plus grand angle canonique entre ces sous-espaces, on a
la majoration:
sin 28 ~ Ih - f3n ,
f
avec
il _< !!- . f3 f3
o Sl 1 - n < f
4
avec:
f = inj f as-l - as, as-r - aS+r+l1 si S; 1
f=injfar+l-ar+21 si 5=1.
Ce sont donc les carts entre les valeurs propres qui "bordent" le sous-espace
qui dfinissent la stabilit de ce sous-espace. Dans le cas du sous-espace
engendr par les premiers facteurs (cas 5 = 1), c'est l'cart entre la dernire
valeur propre correspondant ce sous-espace et la valeur propre
382 Validit et porte des rsultats _ Chapitre 4
immdiatement conscutive qui compte. L'angle entre le sous-espace du
tableau initial A et le sous-espace homologue du tableau perturb C sera
d'autant plus petit que cet cart entre valeurs propres est grand.
b - Epreuves empiriques de stabilit
En pratique, les mthodes empiriques de validation qui permettent un
premier contrle de la qualit des rsultats et de leur stabilit font partie
intgrante du processus d'analyse des donnes.
Quels sont les diffrents lments qui peuvent conditionner la qualit et la
stabilit des rsultats d'une analyse factorielle?
Nous en distinguons quatre:
1 - le choix et le poids des variables,
2 - le codage des variables,
3 - les erreurs de mesure,
4 - les poids des individus, les fluctuations d'chantillonnage 1.
Les quatre sources de perturbation donnent lieu des modifications du
tableau initial et permettent de vrifier la permanence de la configuration
initiale. Elles sont implicitement pratiques dans la mesure o l'usage des
mthodes factorielles, dans un but exploratoire, ncessite non pas une
analyse mais une srie d'analyses: chaque tape, le tableau de donnes sera
modifi par le choix des variables ou d'individus (avec ajout ou retrait de
certains lments), les corrections d'ventuelles erreurs, le recodage des
donnes, etc..
Cette dmarche proche de la "structuration en escalade" dcrite par Mallows
et Tukey (1982) permet une connaissance progressive du phnomne et
constitue en soi une procdure de validation des rsultats. Un exemple
simple d'instabilit rappel par Holms (1985), est celui du point aberrant
(marginal ou rsultant d'une erreur) qui attire de faon excessive le plan
principal et dont le retrait de l'analyse change l'orientation du plan.
- Le choix et le poids des variables
Le problme se pose lorsque le statisticien a la possibilit d'chantillonner
dans l'espace des variables, ce qui n'est pas toujours le cas. Les critres
d'homognit et d'exhaustivit ne fournissent qu'un cadre gnral.
On pourra effectuer des "ponctions alatoires" dans l'ensemble des
variables, afin d'prouver la sensibilit des rsultats vis--vis de la
composition de cet ensemble.
1 Les trois premiers points correspondent ce que Greenacre (1984) dsigne par
stabilit interne (l'univers est constitu par le tableau analys, sans rfrence une
population plus large). Le quatrime point rpond plutt aux demandes de stabilit
externe (visant tendre les faits structuraux observs partir du tableau analys
une population plus gnrale).
4.2 _ Stabilit des axes, des formes, des classes 383
Le problme du poids des variables se pose surtout en analyse en
composantes principales (ou en analyse des correspondances s'il s'agit de
tableaux de notes ou de mesures, et non de comptages).
Pour mettre en vidence une ventuelle invariance par rapport au systme
de pondration des variables, on procdera par exemple la transformation
suivante: l'analyse initiale tant faite sur les variables rduites (carts-types
units), on dilatera ces carts-types entre 1 et 2 (par un tirage pseudo-
alatoire) et on effectuera de nouveau l'analyse non-norme sur la matrice
des covariances obtenues.
- Le codage des variables
Le codage apparatra comme source de perturbation ventuelle des rsultats
dans le cas des notes, des chelles ou des classements (par exemple en
analyse des rangs ou des prfrences). Il est alors important de vrifier que
les configurations obtenues rsistent des changements de variables
monotones trs dformants (logarithme, exponentiel, etc.), afin de s'assurer
que l'ordre des notes est plus important que les proprits mtriques
particulires l'chelle utilise.
Il est intressant alors de mettre en vidence un codage minimal, c'est--dire
le codage le plus fruste susceptible de conserver les configurations observes.
Citons deux exemples: une analyse factorielle ralise sur un tableau de
dpenses individuelles de consommation donne lieu une certaine
typologie des postes de consommation. Cette analyse, refaite en codant
simplement par "1" les dpenses strictement positives quels que soient leurs
montants, produit alors une typologie des postes trs voisine de la
prcdente (Jousselin, 1972). On conoit que l'interprtation de la premire
analyse soit modifie par ce rsultat, qui souligne l'importance de l'accs
certains types de consommation, indpendamment de l'intensit de ces
consommations.
On a obtenu un rsultat analogue propos de la typologie des activits
ralise partir de budget-temps; cette typologie n'a pas t bouleverse
lorsque les dures positives des activits ont t remplaces par des "1", les
dures nulles tant toujours codes par des "0". La simple mention d'une
activit (lecture, promenade, soins aux enfants, etc.) jouait donc un rle
prdominant.
Nous avons brivement envisag le codage des variables dans une optique
de validation des rsultats. Mais le codage est une tape fondamentale dans
le processus d'analyse des donnes.
Comme l'analyse des donnes elle-mme, cette transformation a pour
raison d'tre l'augmentation de la valeur pratique de l'information (cf.
4.1.5 b). Il s'agit de rendre celle-ci utilisable par l'algorithme et interprtable
par l'utilisateur (cf. 1.4.3 i pour quelques rfrences concernant les diverses
procdures de codage dans le cadre de l'analyse des correspondances
multiples).
384 Validit et porte des rsultats _ Chapitre 4
- Les erreurs de mesure
L'ordre de grandeur de ces erreurs, ainsi que leur distribution
approximative dans la population, doivent tre spcifis par l'utilisateur en
fonction de sa propre connaissance du domaine tudi.
Par exemple dans le cas classique des rponses ordonnes du type :"pas du
tout d'accord; pas d'accord; assez d'accord; tout fait d'accord", on peut
supposer que l'individu enqut a une chance sur deux d'avoir exprim
exactement ce qu'il ressentait, une chance sur quatre (sauf aux extrmits) de
rpondre une modalit immdiatement contigu.
Les programmes de calcul permettront en gnral de simuler une grande
varit de situations dont la traduction analytique serait inextricable. De ce
fait les hypothses que l'on soumet l'preuve d'un test peuvent tre
beaucoup mieux adaptes aux situations relles et aux proccupations des
utilisateurs que les hypothses classiques donnant lieu une formulation
analytique. En revanche la mise en uvre de ces validations exige un
certain travail de programmation (qui peut tre facilit par l'utilisation d'un
langage de simulation appropri).
- Les poids des individus, les fluctuations d'chantillonnage
Deux types de calculs de stabilit peuvent tre excuts comme dans le cas
du choix et du poids des variables cit ci-dessus: modifica tions des
pondrations des individus; ponctions ou fractionnements de l'chantillon.
Ces deux oprations doivent permettre d'apprcier la stabilit des rsultats et
l'on parle alors du "poids bootstrap" en rfrence la mthode bootstrap
prsente au paragraphe suivant.
Toutefois, les typologies obtenues par analyse factorielle n'exigent pas une
reprsentativit de l'chantillon aussi stricte
l
que les estimations de
pourcentages ou de moments d'ordre 1 (moyennes, frquences). Cette
relative stabilit vis--vis de la reprsentativit de l'chantillon est un fait
d'exprience, tay par les considrations sur la stabilit du paragraphe
4.2.1.a ci-dessus.
Dans les enqutes par sondage, lorsque l'chantillon n'est pas reprsentatif
et privilgie par exemple une sous-population de la population mre,
chaque individu de l'chantillon est alors affect d'un "coefficient de
redressement" qui permet d'ajuster les moyennes ou les marges sur des
valeurs connues dans la population parente
2
Il n'est pas rare que les
1Bien entendu, W1 chantillon o certains aspects de la population parente sont
absents, ne pourra pas fournir de rsultats "extrapolables", mme si les configurations
obtenues sont stables.
2 Ces redressements de tableaux partir de leur marge se font en gnral partir
d'algorithmes itratifs (iterative proportional fitting) proposs l'origine par Deming et
Stephan (1940). Pour W1e vision historique et gnrale, cf. Thionet (1976) et d'autres
articles de ce munro spcial d'Annales de l'INSEE consacr aux ajustements de
tableaux. Pour des dveloppements rcents sur ce thme, voir Deville et Samdal
(1992).
4.2 _ Stabilit des axes, des formes, des classes 385
typologies obtenues fassent preuve d'une bonne stabilit et qu'elles soient
les mmes que l'chantillon soit "redress", ou que l'analyse soit faite sur
les donnes brutes.
Mais les mthodes privilgies pour tudier la stabilit des rsultats vis--
vis de fluctuations d'chantillonnage sont les techniques de
rchantillonnage examines au paragraphe 4.2.2.
4.2.2 Mthodes de rchantillonnage
Oackknife, Bootstrap, Validation croise)
Ce sont des mthodes de calculs intensifs qui reposent sur des techniques de
simulations d'chantillons partir d'un seul chantillon. Rendues possibles
par la puissance de calcul des ordinateurs, ces techniques se substituent dans
certains cas aux procdures plus classiques reposant sur des hypothses
contraignantes. Elles sont les seules procdures possibles lorsque la
complexit analytique du problme ne permet pas d'infrence classique.
Elles consisteront pour nous rpter des analyses sur les diffrents
chantillons simuls puis tudier les fluctuations des rsultats obtenus,
(valeurs propres, facteurs ou tout autre paramtre statistique estimer).
Pour cela, on value la variabilit relle d'un paramtre par le truchement
de sa variabilit pour l'ensemble de ces sries de donnes.
Plusieurs mthodes de validation permettent d'engendrer, de faon
diffrente, les chantillons artificiels. Nous citerons les trois plus connues:
Le Jackknife, le Bootstrap, la validation croise.
a - Technique de Jackknife
Cette technique, propose par Quenouille (1949) et reprise par Tukeyl (1958)
et dcrite de faon complte par Miller (1974), consiste supprimer de
l'chantillon de base une seule observation ce qui rejoint le principe
d'chantillonnage de la validation croise. Si n est la taille de l'chantillon,
on construit ainsi n chantillons de taille n - 1.
Le Jackknife s'utilise surtout pour calculer l'estimation du biais et de la
variance d'estimateurs classiques, alors que la validation croise sert
principalement calculer des erreurs de prdiction.
Un paramtre statistique estimer evaut = s(x) sur l'chantillon initial
ou de base x =(Xl, X2, .. , xn)' Il est calcul pour chacun des nouveaux
chantillons obtenus et l'on peut ainsi valuer sa variabilit.
1 C'est Tukey qui lui a donn le nom de ]ackknife (couteau tout faire) que Tomassone
et al. (voir diverses rfrences) traduisent par Eustache (notion quivalente en
Franais), de mme que ces auteurs traduisent Bootstrap (utilis dans une expression
dsignant le fait de se hisser en tirant sur ses propre lacets de soulier) par Cyrano
(allusion au voyage dans la lune).
386 Validit et porte des rsultats _ Chapitre 4
Notons (i) = s(x(i)) l'estimateur obtenu sur l'chantillon x(i) qui n'est autre
que l'chantillon de base x priv de l'observation Xi.
L'estimateur jackknife 8 est donn par:
e= n-(n -l)(.)
o (.) est la moyenne des (i) c'est--dire:
1
8(.) =- I, 8(i)
n i
Le biais jackknife vaut:
b =- e=(n -1)( (.) - )
L'estimation jackknife de la variance vaut:
Var(8) =(n -1) I,((i) - (.l
n i
Le coefficient (n -1) peut surprendre dans le calcul du biais et dans celui de
la variance. En fait, les n nouveaux chantillons x(i) ont deux deux n - 2
valeurs en commun: leurs moyennes sont donc anormalement proches ce
qui justifie, au moins intuitivement dans cette brve prsentation, le
coefficient (n -1).
Cette technique est performante pour rduire le biais d'un estimateur et est,
de ce fait, bien adapte aux calculs de statistiques biaises.
En particulier, dans le cas o l'estimation =s(x) est biaise en 1/n , c'est
dire si :
a 1
E(8)=8+-+0(-)
n n
on a alors:
a 1
E(8(i)) = 8+ --+0(-)
n-1 n
et donc:
E(8) = E(n- (n -V(.)) = 8+ 0(-4)
n
La partie principale du biais est donc supprime. Dans ce cas (favorable),
l'estimation Jackknife est moins biaise que l'estimation usuelle.
Bien qu'il exige moins de calculs que le bootstrap (voir ci-dessous), le
Jackknife semble, cependant, moins souple et parfois moins fiable.
Il est surtout moins bien adapt pour calculer des intervalles de confiance et
estimer les paramtres d'une analyse multidimensionnelle. Il est en chec
s'il s'agit d'estimer une quantit qui n'est pas une fonction continue des
donnes (comme la mdiane) ou une quantit dont l'esprance thorique
dpend de n, comme les valeurs propres en analyse en composantes
principales ou en analyse des correspondances.
4.2 _ Stabilit des axes, des formes, des classes 387
b - Technique de Bootstrap
Cette technique, introduite par Efron (1979), consiste simuler m
(gnralement suprieur 30) chantillons de mme taille n gue
l'chantillon initial. Ils sont obtenus par tirage au hasard avec remise parmi
les n individus observs au dpart, ceux-ci ayant tous la mme probabilit
1/n d'tre choisis. Certains individus auront de ce fait un poids lev (2, 3, .. .)
alors que d'autres seront absents (poids nul).
Cette mthode est employe pour analyser la variabilit de paramtres
statistiques simples en produisant des intervalles de confiance de ces
paramtres. Elle peut aussi tre applique de nombreux problmes pour
lesquels on ne peut pas estimer analytiquement la variabilit d'un
paramtre. Ceci est le cas pour les caractristiques des mthodes
multidimensionnelles o les hypothses de multinormalit sont rarement
vrifies. .
Le bootstrap n'est rien d'autre qu'une technique de simulation particulire,
fonde sur la distribution empirique de l'chantillon de base. Efron et
Tibshirani (1993) rservent le nom de non-parametric bootstrap ce type de
simulation, et qualifie de parametric bootstrap les simulations qui mettent
en jeu une distribution thorique et des paramtres calculs partir de
l'chantillon (simulations classiques)!. On constate que le Jackknife est
dterministe et fait intervenir de faon symtrique l'chantillon (sans
ncessiter de procdure de tirage pseudo-alatoire), contrairement au
bootstrap2.
Prenons l'exemple de l'estimation du coefficient de corrlation r entre deux
variables. Le principe consiste calculer le coefficient de corrlation pour
chaque chantillon simul (pour lequel on effectue un tirage avec remise
des couples d'observations). On tablit alors la distribution des frquences
du coefficient de corrlation (on porte en ordonne le nombre
d'chantillons ayant une mme valeur de r, laquelle est reprsente en
abscisse). Puis on calcule la probabilit pour que le coefficient de corrlation
d'un chantillon soit compris dans diffrentes fourchettes de valeurs
dfinissant ainsi les intervalles de confiance. On obtient une estimation de
la prcision de la valeur de r obtenue sur l'chantillon de base sans faire
l'hypothse d'une distribution normale des donnes. Les bornes de
l'intervalle de confiance peuvent tre estimes directement par les
quanti les de la distribution simule.
Pour estimer les valeurs propres, les taux d'inertie et les coordonnes
factorielles issus d'une analyse en composantes principales, par exemple, le
1 Sur les techniques de gnration de variables pseudo-alatoires, cf. par exemple
Newman et Odell (1971), Ripley (1983).
2 Il existe des variantes du Jackknife (comme le delete-d Jackknife) qui prconisent des
ponctions plus importantes dans l'chantillon et ncessitent soit un dcoupage
arbitraire, soit des tirages pseudo alatoires, car le nombre d'chantillons possibles
devient alors dirimant (cf. Efron et Tibshirani, op.cit., pour une revue des diffrentes
mthodes de rchantillonnage, et une comparaison bootstrap-Jackknife).
388 Validit et porle des rsultats _ Chapitre 4
principe est le mme que pour le coefficient de corrlation; on effectue sur
chaque chantillon simul, une analyse en composantes principales puis on
tablit une distribution de frquences pour chacune des composantes.
La mthode de bootstrap donne dans la plupart des cas une bonne image de
la prcision statistique de l'estimation sur un chantillon.
Les recherches thoriques menes par Efron en particulier montrent que,
pour de nombreux paramtres statistiques, l'intervalle de confiance
correspondant la distribution simule par bootstrap et celui correspondant
la distribution relle sont gnralement de mme amplitude.
Un exemple classique d'chec de l'estimation par bootstrap est l'estimation
des bornes d'un intervalle pour une loi uniforme dans cet intervalle. Il est
clair en effet que dans ce cas, l'estimation donne par les valeurs extrmes
ne sera pas amliore par des tirages l'intrieur de l'chantillon de base
l
.
c - Validation croise
La validation croise, dont le principe et les principales rfrences ont t
donns la section 3.3 (paragraphe 3.3.5 dvolue aux rgles d'affectation en
analyse discriminante) est plutt utilise lorsque l'chantillon de base est de
taille petite ou moyenne et permet d'valuer les procdures d'ajustement et
de reclassement comme la rgression et l'analyse discriminante.
Rappelons qu'il s'agit l'origine de sparer l'chantillon de base en deux
blocs de tailles pouvant tre ingales. Un des blocs constitue l'chantillon
d'apprentissage sur lequel est formul le modle et sont labores les rgles
de dcision ou d'affectation; l'autre compose l'chantillon-test sur lequel
sont appliques les rgles et estimes les performances du modle.
Afin d'utiliser un chantillon d'apprentissage qui soit le plus grand possible,
la validation croise a adopt un principe proche de celui du Jackknife pour
constituer les blocs. Il consiste construire l'chantillon-d'apprentissage en
retirant un seul individu (ou un groupe) de l'chantillon de base. La
prdiction est faite sur un seul individu la fois, et par rotation sur tous les
individus, ce qui produit finalement un chantillon d'preuves aussi
important que l'chantillon initial. Par exemple dans le cadre de l'analyse
discriminante, on estime par la validation croise le taux d'erreur de
classement 2.
Pour des raisons d'conomie de calcul, dans le cas de grands chantillons, il
est possible de retirer de l'chantillon d'apprentissage k individus (k>l)
1 Pour une revue critique de l'utilisation du bootstrap (avec discussions), cf. Young
(1994).
2 Ce taux d'erreur est distinct, mais en gnral peu diffrent, de ce que serait une
estimation jackknife du taux d'erreur dans l'chantillon d'apprentissage. Dans le cadre
de ces problmes de classement, la validation croise, plus simple dans son principe et
plus intuitive, est systmatiquement utilise. Pour une mise au point et des
confrontations de mthodes de calcul de taux d'erreur, voir Hand (1986,1987).
4.2 _ Stabilit des axes, des formes, des classes 389
plutt qu'un seul, ce qui divise approximativement par k le volume total de
calcul.
Complment indispensable des mthodes de prdiction et de classement, les
mthodes de validation croise sont moins utilises que le bootstrap pour
valider les reprsentations des mthodes plus descriptives.
4.2.3 Zones de confiance, zones de garde; nombre d'axes
Les rsultats fournis par les mthodes factorielles ne sont pas des assertions,
mais des reprsentations, c'est--dire des objets complexes, auxquels
s'appliquent mal les diffrentes techniques de mesure d'information
usuelles en statistique.
Comment valider une forme observe dans un plan factoriel?
- Par des procdures externes, analogues celles mentionnes pour le
choix du nombre d'axes: connaissances a priori, positionnement de
variables supplmentaires.
- Par des calculs de stabilit adapts (exploration d'un voisinage des
donnes construit partir des erreurs de mesure ou de rponses).
- Par des calculs de zones de confiance pour les positions des points-
lignes et des points-colonnes. Ces calculs peuvent tre analytiques,
fond sur des hypothse probabilistes, ou au contraire, fonds sur les
techniques de rchantillonnage exposes au paragraphe prcdent.
On commencera par prsenter le cadre de l'utilisation des simulations pour
le calcul de ces zones de confiance. Dans ce cadre, le bootstrap, qui constitue
une mthode de simulation non paramtrique d'une grande souplesse,
jouera un rle de premier plan.
a - Zones de confiance tablies par bootstrap
Le bootstrap est un outil privilgi pour tudier la stabilit des formes. Une
application l'exemple d'analyse des correspondances (section 1.3) nous
montrera la simplicit et l'efficacit de la mthode.
- Prsentation partir d'un exemple
Reprenons le sous-tableau du tableau 1.3 - 10 correspondant aux seules
lignes actives.
Une simulation bootstrap classique consiste tirer avec remise les k =12 888
contacts-mdia (chacun d'entre eux correspondant une case (i,j) du tableau
4.2 - 1). Cela revient faire autant de tirages selon une loi multinomiale
dont les probabilits de tirage sont: Pij =kij / k. On peut vrifier
(empiriquement) qu'il est quivalent, au niveau des rsultats de la
simulation, d'utiliser l'approximation normale de la loi multinomiale,
390 Validit et porte des rsultats _ Chapitre 4
c'est--dire de gnrer kij, variable normale de moyenne kij et de variance
1-k
k
ij
T (la valeur ainsi gnre sera arrondie l'entier suprieur)!.
Tableau 4.2 - 1
Tables de contingence croisant 6 types de contacts-mdia (colonnes)
avec 8 professions (lignes) [partie active du tableau 1.3 - 10J.
Radio Tl. Quot.N. Quot R. P.Mag. P.TV
ProfeBsions
1 - Agriculteur 96 118 2 71 50 17
2 - Petit patron 122 136 11 76 49 41
3
- Prof.Cad.S. 193 184 74 63 103 79
4 - Prof. interm 360 365 63 145 141 184
5
- Employ 511 593 57 217 172 306
6
- Ouvrier qual 385 457 42 174 104 220
7 - Ouvrier n-q 156 185 8 69 42 85
8 - Inactif 1474 1931 181 852 642 782
Le tableau 4.2 - 2 donne un exemple de deux tableaux gnrs de cette faon.
Les numros en dbut de ligne seront ceux qui figureront sur le plan
factoriel de la figure 4.2 - 1. On va, pour cet exemple, gnrer 30 rplications
2
,
chiffre largement suffisant, on va le voir, pour donner une bonne ide de la
stabilit des rsultats.
Tableau 4.2 - 2
Exemple de deux rplications des valeurs du tableau 4.2 -1
1 109 120 1 78 48 20
2 126 142 8 76 53 30
3 196 181 80 77 109 72
4 384 365 60 133 138 203
5 514 596 59 228 172 316
6 378 467 33 171 100 223
7 169 188 8 79 38 81
8 1519 1961 158 893 632 764
1 83 138 3 79 62 19
2 142 142 8 82 50 26
3 198 163 63 68 114 85
4 359 367 73 155 132 196
5 503 561 56 266 173 294
6 395 432 25 171 104 220
7 149 179 16 74 50 83
8 1488 1919 182 852 611 794
! Les trois cases d'effectif faible 12) pour lesquelles une telle approximation est
discutable ont en fait une influence quasi nulle sur les rsultats. Cela ne serait pas le
cas si une colonne (ou une ligne) entire tait forme d'effectifs faibles. Pour des
programmes de gnration de variables pseudo-alatoires normales, cf. Neave (1973),
Brent (1974).
2 On utilisera le terme d'origine anglaise rplication pour dsigner une simulation
d'chantillon.
4.2 _ Stabilit des axes, des formes, des classes 391
Notons qu'une analyse des correspondances faite sur un seul tableau
rpliqu suffit donner une forte prsomption de stabilit. L'observation,
au sens prs des axes, du mme pattern (de la mme forme) signifie que la
structure observe a rsist la perturbation constitue par la simulation. Il
est en effet extrmement improbable de retrouver par hasard un
agencement complexe de points.
C'est l une diffrence fondamentale avec la statistique uni-dimensionnelle,
pour laquelle une rplication isole n'est pas utilisable. Cependant, dans la
plupart des cas, la structure est partiellement dforme et l'on souhaite
pouvoir isoler ses ventuelles parties stables. C'est alors que la rptition des
rplications est utile, pour limiter la subjectivit dans les apprciations.
Il existe plusieurs faon de mettre profit ces 30 rplications pour construire
des intervalles de confiance.
Procder 30 analyses indpendantes est exclu, car les axes correspondant
des valeurs propres voisines peuvent changer de rang ou subir des
rotations. De plus, ces axes sont dfinis au signe prs, et donc les tentatives
de superposition des structures peuvent tre laborieuses
l
.
Il reste comme possibilit:
a - analyser les juxtapositions de tableaux de contingence, en lignes
(comme esquiss dans le tableau 4.2 - 2), de faon tudier la
variabilit des lignes, et en colonnes (pour positionner les diffrentes
colonnes simules).
b - projeter en lments supplmentaires les lignes (et les colonnes)
simules) dans les plans factoriels issus de l'analyse de la table de
contingence initiale (qui est pour ce modle, rappelons-le, l'esprance
des matrices simules).
c - calculer un tableau de contingence moyen, et projeter les tignes ou les
colonnes comme en b.
Les trois procdures a, b et c donnent en fait des rsultats extrmement
voisins dans le cas de l'exemple trait, et plus gnralement dans tous les
cas o il existe effectivement une structure stable.
En effet, dans ce cas, il y a une forte redondance dans les rplications, et la
proprit d'quivalence distributionnelle nous assure que les distances
calcules entre les colonnes sur les tableaux juxtaposs en ligne (par
exemple) sont voisines des distances calcules entre les colonnes du tableau
moyen (obtenu en agrgeant les lignes homologues, par exemple les deux
lignes l, les deux lignes 2, etc. du tableau 4.2 - 2). Or ce tableau moyen
converge, lorsque le nombre de rplications augmente, vers le tableau
initial qui est l'esprance mathmatique des diffrents tableaux pseudo-
alatoires.
1 Les mthodes d'analyse procrustennes (cf. 3.8.2) ont prcisment pour objectif de
dtecter des structures superposables aprs dplacement et dilatation.
392 Validit et porte des rsultats _ Chapitre 4
La figure 4.2 - 1 reprsente le premier plan factoriel, ou plan (FI, F2), de
l'analyse des correspondances de la table 6 colonnes et 248 lignes obtenues
en juxtaposant la table originale les 30 tables simules suivant le modle
prcdent (248 :: 8 + 30 x 8).
On voit que les enveloppes convexes des points correspondant des lignes
homologues (catgories socio-professionnelles) sont bien spares,
l'exception des catgories 5 et 6 (employs et ouvriers qualifis).
Bien entendu, la mme procdure peut tre applique aux points-colonnes
(contact-mdia).
La forme, mais aussi la taille des enveloppes convexes apportent une
information supplmentaire par rapport la figure originale 1.3 - 23 du
chapitre 1. Ainsi, on peut affirmer que les ouvriers non-qualifis (symbole 7)
ont un comportement en continuit, mais cependant rsolument distinct de
celui des ouvriers qualifis (6). Mme observation en ce qui concerne
l'absence de solution de continuit entre agriculteurs (1) et petits patrons (2).
La figure 4.2 - 2 reprsente le second plan factoriel, ou plan (F2, F3), de la
mme table. On retrouve sur l'axe horizontal les distinctions observes sur
l'axe vertical prcdent, mais la confusion est totale sur l'axe q (vertical).
Seule la classe 8 (inactifs) occupe une position type sur l'axe 3, en
s'opposant aux autres classes.
En conclusion, en mme temps qu'un enrichissement de l'information sur
le plan (FI, F2), on a un critre pour choisir le nombre d'axes de
reprsentation, limit ici 2.
Notons que le processus s'applique galement aux variables
supplmentaires. Ainsi, pour prendre un exemple, les lignes du tableau de
contingence 1.3 - 10 (sexe, ge, niveau d'ducation) de la section 1.3 peuvent
tre rpliques en utilisant un schma multinomial similaire celui utilis
pour les variables actives, les projections de ces lignes simules dans les
plans factoriels dfinissant alors des zones de confiance!.
b - Autres types de simulation bootstrap
On vient de voir une application du bootstrap la validation des
reprsentations issues de l'analyse des tables de contingence simples.
- Cas de l'analyse des correspondances multiples
Dans le cas de l'analyse des correspondances multiples, une rplication
bootstrap est obtenue en tirant avec remise les individus, lignes du tableau
de donnes R ou de faon quivalente, lignes du tableau disjonctif associ Z.
1 En fait, nous utilisons ici l'expression zone de confiance en parlant simplement des
enveloppes convexes des projections des valeurs rpliques. Les enveloppes convexes,
tud ies par Efron (1965) peuvent tre "peles" progressivement de faon obtenir des
estimations non-paramtriques de zones de confiances (cf. Bamett, 1976; Green, 1981;
et Holmes, 1985, qui publie galement des exemples et les programmes de calcul
correspondant).
Figure 4.2-1
Zones de confiance "bootstrap"
pour les lignes actives de
l'exemple de la section 1.2
Plan (FI, F2 )
Lgende:
1 : agriculteurs
2: Petits patrons
3: Cadres sup.
4: Prof. interm.
5: Employs
6 : Ouvriers quaI.
7 : Ouvriers non-quaI.
8 : Inactifs
Figure 4.2-2
Zones de confiance "bootstrap"
pour les lignes actives de
l'exemple de la section 1.2
Plan (F2, F3 )
221
11
1
1
1
4.2 _ Stabilit des axes, des formes, des classes 395
Chaque rplication permet de construire un tableau de Burt, dont les lignes
sont projetes en lments supplmentaires dans les plans factoriels issus de
l'analyse du tableau de Burt initial. Les zones de confiance obtenues sont
d'autant plus utiles ici pour choisir la dimension de l'espace de
reprsentation que les valeurs propres et les taux d'inertie sont, on l'a vu,
d'une interprtation difficile
l
.
- Cas de l'analyse en composantes principales
C'est le domaine d'application qui a donn lieu au plus grand nombre de
travaux, utilisant notamment des mthodes de rchantillonnage
antrieures au bootstrap, comme la validation croise et ses variantes. C'est
ainsi que Wold (1978), puis Eastment et Krzanowski (1982), Krzanowski
(1987) proposent des mthodes de validation croise pour dterminer la
dimension de l'espace de reprsentation. Ces auteurs utilisent la thorie de
la perturbation pour allger les calculs (l'omission d'un ou plusieurs
lments, qui est la base de la validation croise, est considre comme
une perturbation du tableau de donnes (cf. 4.2.1), et une formule
approche permet d'viter de refaire une analyse complte). Besse et Ferr
(1993) ont montr que la ritration de ces approximations revenait en fait
utiliser le critre classique de la part de variance explique par les axes.
Si l'on excepte les travaux de Gifi (1981) qui concernent plus spcifiquement
l'analyse des correspondances (le principe du bootstrap est en fait
sensiblement le mme pour toutes les mthodes factorielles) les premiers
travaux d'application du bootstrap la validit des rsultats en analyse en
composantes principale sont ceux de Diaconis et Efron (1983), Stauffer et al.
(1985), Holmes (1985), Beran et Srivastava (1985), Daudin et al. (1988),
Holmes (1989), qui construisent des intervalles de confiance pour les
valeurs propres et les composantes, ou tudient les proprits
asymptotiques des intervalles ou des estimations obtenus.
L'algorithme qui nous parat le mieux adapt pour les intervalles de
confiance est analogue celui prconis pour l'analyse des correspondances
multiples: une rplication consiste en un tirage avec remise des n
individus (vecteurs-observations), suivi du positionnement des p
nouvelles variables ainsi obtenues en variables supplmentaires sur les q
premiers axes factoriels de l'analyse de base. Aprs r rplications, on obtient,
pour chacune des p variables, un nuage de r points dont l'enveloppe
convexe (ventuellement "pele") constituera la zone de confiance
empirique cherche de la variable
2
. On peut de la mme faon construire
1 Les premires application du bootstrap pour valuer la stabilit et pour construire
des zones de confiance partir d'une analyse des correspondances multiples
(homogeneity analysis selon la terminologie de ces auteurs) sont celles de Gifi (1981),
Meulman (1982), puis Greenacre (1984).
2 Il existe plusieurs variantes possibles quant au choix de l'espace factoriel commun.
Holmes (1985) applique une mthode d'analyse conjointe de tableaux (mthode
STATIS, cf. L'Hermier des Plantes, 1976; Lavit, 1988) au tableau initial et l'ensemble
de ses rplications.
396 Validit et porte des rsultats _ Chapitre 4
des rgions de confiance pour les ventuelles modalits de variables
nominales supplmentaires
1
.
c - Zones de garde en analyse des correspondances
La notion de zone de garde n'est pas une application des mthodes de
rchantillonnage, mais est cependant mentionne ici comme une
procdure rapide d'apprciation de la position des points. Cette notion
s'applique surtout aux lments supplmentaires ou ceux qui ont une
faible contribution l'inertie sur les axes considrs, et seulement dans le
cas de l'analyse des correspondances des tables de contingences.
Un point a une position "significative" si son loignement au centre de
gravit n'est pas d au hasard. Rappelons que la distance du X
2
d'un point-
profil i au centre de gravit s'crit:
d
2
(G,i) = I.!..-(fij -f'y2 = 2.I(fij-fi.!jy2
f
(.) r. r. f'
j .j JI. JI. j JI . .j
Considrons l'hypothse nulle HO selon laquelle un point i ne diffre du
centre de gravit G du nuage que par des fluctuations alatoires.
(k - fi f'y2
Alors k/t,d
2
(G,i) = kI 1) 1..) suit approximativement un x1
p
-v.
j fi.!j
La projection orthogonale de ce x1
p
-v sur un sous-espace q dimensions
fix l'avance (q < p - 1) est un X
2
q degrs de libert not x ~ Il est
important de spcifier que le sous-espace est fix ['avance car le
raisonnement de s'applique pas un sous-espace qui serait calcul aprs la
ralisation du X
2
dans l'espace p-l dimensions et donc ne s'applique pas
aux variables actives ayant une influence sur les q premiers axes.
B
lij
i fi.
G e m m m m q ~ f.
J.j
G/6- __
Figure 4.2 - 2
Reprsentation de la distance d'un point au centre de gravit
1 Pour chaque rplication, on positionne les centres de gravit des individus
appartenant chacune des modalits de la variable nominale.
4.2 _ Stabilit des axes, des formes, des classes 397
Dans un espace factoriel deux dimensions, la distance du point i projet au
centre de gravit s'crit:
2(C') 2 2
r ,1 = If/il + lf/i2
Sous l'hypothse nulle Ho et sous la condition que la contribution du point
i est faible ou nulle (indpendance de i et du plan factoriel), la quantit
kJ;. r
2
(C,i) est une ralisation d'un X
2
2 degrs de libert.
Au seuil de 5%, on a: Prob fX22 ';?, 5.991 =0.05 et l'on comparera ki; r
2
(C,i)
1.
5.99, soit encore r(C,i) ri = 9 9 On peut donc calculer le rayon des
kJi.
cercles correspondant qui ne dpendent que de l'effectif k
i
. = kJi. de la
catgorie concerne.
Figure 4.2 - 3
Cercles de garde tracs autour des points
Pour juger la "position significative" d'un point i dans un plan factoriel, on
calculera par consquent le rayon ri du cercle de garde relatif un point i.
Ces cercles de garde doivent tre tracs autour de l'origine des axes qui est le
centre de gravit du nuage. On ne rejettera pas l'hypothse d'indpendance
(donc de non pertinence du point i) si ce cercle contient le point i.
S'il existe plusieurs points dont la position est prouver, il est plus simple
de centrer les cercles correspondants sur les points eux-mmes et de
regarder s'ils contiennent ou non le centre de gravit G 1.
Pius gnralement, dans un sous-espace q dimensions, on comparera la
quantit:
2 q 2
kfi. r (C,l) = kJ;, l If/ia
a=l
aux fractiles d'un X ~ q degrs de libert.
1 Il ne s'agit cependant pas de rgions de confiance des points, mais d'un test simple de
signification statistique de la position de chaque point par rapport l'origine. On ne
peut pas en particulier comparer entre elles les positions relatives de deux points.
398 Validit et porte des rsultats _ Chapitre 4
d - Autres rgions de confiances
Bien que les techniques de multidimensional scaling
l
ne soient pas traites
dans cet ouvrage, il faut mentionner dans ce paragraphe, pour leur intrt
mthodologique, les travaux de Ramsay (1978) (zones de confiances fondes
sur la distribution des distances entre individus pour la mthode dite
MULTISCALE) et de Weinberg et al. (1984) (zone de confiances fonds sur le
Jackknife et le bootstrap pour la mthode INDSCAL).
Plus proches de nos proccupations, on mentionnera galement les elIipses
de confiance proposes par Saporta et Hatabian (1986), qui s'appliquent
toute catgorie de variable nominale supplmentaire (qu'il s'agisse
d'analyse des correspondances ou d'analyse en composantes principales).
Ces ellipses se calculent partir de la matrices des covariances des
coordonnes factorielles des points appartenant la catgorie.
A ct des travaux prcits sur les rgions de confiance bootstrap, Gifi (1981,
1990) a galement propos des ellipsodes de confiance fonds sur la
mthode delta (cf. par exemple, Rao, 1973; Efron, 1982). Cette mthode
gnralise au cas multidimensionnel le rsultat lmentaire suivant:
Proposons-nous de calculer la variance et la loi asymptotique d'une
(bonne) fonction g(X) d'une variable alatoire X de moyenne fJ et de
variance a
2
. A partir du dveloppement de Taylor de g autour de fJ :
gO) = g(fJ) + Ct - fJ) g'(fJ)
on dduit immdiatement:
var [g(X)J ""g'(fJ)2 a2
Plus gnralement, la mthode delta est fonde sur le rsultat suivant:
Si l'on a une fonction Yn = ~ (xn) d'une suite Xn de vecteurs alatoires tels
que ..fn(x
n
-Il) est asymptotiquement normal de moyenne nulle et de
matrice des covariances L ~ est suppose diffrentiable en Il), alors
..fn(Yn - ~ I l est aussi asymptotiquement normal de moyenne nulle et
de matrice des covariances V(.Jn Yn) =a ~ I l L a ~ I l , o a ~ I l est la
matrice des drives partielles de ~ au point Il.
Si les composantes de Yn sont les coordonnes d'un point sur deux axes
factoriels et les composantes de X/J sont les lments du tableau de donnes
(x/J est par exemple une table de contingence d'effectif total n, dont la loi
asymptotique est une loi normale - cf. 4.1.2), la mthode delta permet
1 Ensemble de techniques de reprsentations de systmes de distances entre points,
dvelopp autour des Bell Labora tories el de la revue PsycilOmetrikn, avec, il l'origine, des
contributions de R. Shepard, L. Guttman, J. Kruskal, D. Cilrrol (cf. par exemple
Kruskal et Wish, 1978; Schiffman et al., 1981). Cf. galement l'article de synthse sur
les mthodes et les programmes de Drouet d'Aubigny (1993).
4.2 _ Stabilit des axes, des formes, des classes 399
d'estimer la matrice des covariances de Yn, et donc de construire des zones
de confiance ellipsodales autour du point correspondant.
Des formules analogues la formule [4.2 - 4) ( 4.2.1) permettent d'estimer
a < l > ~ . Dans le calcul de V(...[ii Yn)' les valeurs thoriques sont remplaces
par leurs estimations empiriques
l
.
4.2.4 Nombre de classes et validation des classifications
Ds les premires tentatives de classification s'est pos le problme du
nombre de classes retenir en vue d'une utilisation particulire. Dj, sous
cette formulation pragmatique, le problme est moins ambitieux que celui
de savoir combien de classes existent rellement dans le corpus de donnes
soumis l'analyse.
La classification peut en effet tre utilise simplement pour explorer les
donnes, gnralisant au cas multidimensionnel l'histogramme qui permet
de schmatiser une distribution numrique unidimensionnelle. Il s'agit en
fait de l'utilisation la plus courante dans le cas des traitements de fichiers
d'enqutes. On peut aussi esprer dcouvrir des classes existantes, dans les
cas les plus favorables. Les questions sont aussi simples que les rponses
sont complexes: Existe-t-il des classes? Si oui, combien?
On voquera brivement quelques travaux raliss propos de l'existence et
de la dtermination du nombre des classes. La mthodologie de la
validation est analogue celle dj rencontre propos des mthodes
factorielles.
- Cadre infrentiel gnral
Il sera possible de tester des hypothses nulles (analogues de l'hypothse
d'indpendance pour les mthodes factorielles) qui sera selon les cas une
hypothse d'homognit ou d'uniformit spatiale de la distribution
multidimensionnelle des observations classer. Toutefois, comme dans
le cas des mthodes factorielles, ce type de test, tout en fournissant des
repres et un cadre conceptuel intressant, sera de peu d'utilit pratique,
car l'hypothse d'absence de structure, trop svre, sera la plupart du
temps rejete.
- Validation empirique, calculs de stabilit
Des procdures empiriques, en gnral variables selon les domaines
d'application ou la nature du tableau des donnes, seront assez largement
utilises.
1 Comme les zones de confiance bootstrap, avec lesquelles la compatibilit empirique
semble bonne, les zones dtermines par la mthode delta peuvent concerner les
variables actives, ce qui leur confre un avantage important sur les autres techniques
voques dans ce paragraphe.
400 Validit et porte des rsultats _ Chapitre 4
Enfin, des calculs de stabilit, utilisant des mthodes de simulation ou de
rchantillonnage, permettront d'prouver la qualit de rsultats et de
porter une apprciation sur la ralit des classes produites par les
algorithmes.
- Importance des critres externes
Le rle des critres externes (connaissances a priori, identification ou
caractrisation des classes partir de variables supplmentaires) sera
souvent primordial dans la pratique. Ainsi, une classe mal diffrencie,
mais identifie par une catgorie de variable nominale supplmentaire
deviendra, dans bien des cas, digne d'tre retenue.
Il existe cependant une diffrence fondamentale avec les mthodes
factorielles: il n'y a pas en classification l'quivalent du thorme d'Eckart
et Young (dcomposition aux valeurs singulires), et donc pas de
paramtres aussi intrinsques que les valeurs propres). Il existe en revanche
une riche flore d'algorithmes dont l'utilisation simultane sur un mme
tableau constitue d'ailleurs une preuve pragmatique de stabilit de
structures observes.
Commenons par mentionner quelques travaux de synthse sur le sujet.
Une contribution rcente de Bock (1994) sur les problmes et l'avenir des
mthodes de classification comprend une brve mais dense revue des
problmes de validation. D'autres revues intressantes sont celles de
Gordon (1987) (limite la classification hirarchique), de Hartigan (1985),
de Bock (1985), de Perruchet (1983), de Dubes et Jain (1979). Enfin on
trouvera plus bas plusieurs rfrences de contributions consacres des
comparaisons de mthodes.
a - L'hypothse d'absence de structure, les modles
Il existe de nombreux travaux sur ce thme et, de rares exceptions prs, ils
ne concernent que les mthodes de classification utilises de faon isole.
Dans cet ouvrage o nous considrons les mthodes factorielles et les
mthodes de classification comme complmentaires (et devant tre utilises
simultanment), on peut donc prconiser sans hsiter, au moins dans un
premier temps, les tests d'indpendance ou de sphricit dj voqus
propos des mthodes factorielles. Il est en effet extrmement improbable que
des variations de densit l'intrieur d'un nuage de points ne se
rpercutent pas sur une ou plusieurs valeurs propres d'une analyse en axes
principaux.
On peut objecter qu'un ellipsode peut tre allong, mais parfaitement
homogne. Dans ce cas, une coupure en deux de son grand axe produit
deux classes qui, mme si elles ne sont pas spares par une zone de faible
densit, ne peuvent tre considres comme le fruit du hasard. Il s'agit en
1 On a vu au chapitre 2, 2.5.3, les relations qui pouvaient exister dans certains cas
entre valeurs propres et indices de niveaux relatifs une mme table de contingence.
4.2 _ Stabilit des axes, des formes, des classes 401
fait de la meilleure coupure en deux classes de l'chantillon. On voit qu'il
faudrait prciser ce que l'on entend par classe. En fait, il y a presque autant
de dfinitions des classes que de critres de classification utiliss pour les
obtenir.
- Modles de mlanges
Le modle thorique de base le plus rpandu est le modle des mlanges de
distributions. L'observation Xi (i n) est alors une ralisation d'une variable
alatoire x de densit f(x) :
q
j(x) = IpkA(x)
k=1
avec pour tout k,
q
0< Pk < 1 et Ipk =1
k=1
Dans cette formule, A(x) est la densit de la classe k (dont la forme doit tre
spcifie; par exemple: densit d'une loi normale de moyenne I1k et de
matrice des covariances Lk)' On note que le nombre de classes q est suppos
connu.
Dans ces conditions, l'hypothse d'absence de structure peut tre celle de
l'identit des diverses composantes A(x)de la densit f(x).
De nombreux travaux ont t publis sur l'estimation des mlanges de
densits, dont on trouvera une synthse dans Celeux (1992). Parmi les
premiers travaux sur ce thme, citons ceux de Day (1969), de Bock (1974,
1977) 1.
- Modles de partitions fixes
Ces modles de rfrence supposent l'existence d'une partition inconnue en
q
q classes (1}, 12,, I
q
) d'effectifs respectifs (nI, n2, ..., nq) avec Ink = n.
k=1
A chacune des q classes lk est associe une densit A(x). Dans le cas o les
densits A(x) sont celles de lois normales sphriques de mme matrice des
covariances a
2
I et de moyennes I1k , la partition qui ralise le maximum de
vraisemblance est celle qui minimise le critre:
1 Cette formillisation donne lieu il beaucoup de trilvaux thoriques intressilnts (cf.
l'ouvrilge de Everitt et Hilnd, 1981), milis peu d'entre eux dbouchent sur des
procdures utilisables en pratique pour villider les classificiltions ou dterminer le
nombre de dilsses.
402 Validit et porte des rsultats _ Chapitre 4
o l'on a not, comme au 2.1.2, Ck le centre de gravit de la classe Ik, de
composantes xk' On reconnat le critre utilis dans l'agrgation autour de
centres mobiles. La partition optimale exacte est actuellement impossible
dterminer, mais la mthode des centres mobiles, on l'a vu, conduit
rapidement un optimum local. Ce critre permet donc, dans le cadre
fourni par ce modle, d'valuer la qualit d'une partition.
- Autre modles
Une autre modlisation directe de l'hypothse nulle est l'hypothse
d'homognit spatiale, dveloppe par Dubes et Zeng (1987). Ces auteurs
s'inspirent des tests de rpartition spatiale alatoire et de processus de
Poisson gnraliss (cf. par exemple Ripley, 1981) pour explorer, par des
simulations extensives, les possibilits de ces preuves de validation dans le
domaine de la classification.
Aux critres qui permettraient de dtecter l'existence d'une partition, on
peut prfrer les critres plus pragmatiques et modestes qui permettraient de
comparer deux partitions (ou ventuellement d'amliorer une partition).
Parmi les critres les plus utiliss, citons le critre dit "critre F", quotient de
la variance totale inter-classes par la variance totale intra-classes (traces des
ma trices E et D, matrices dj rencontres pour calculer les fonctions
linaires discriminantes au 3.3.2), le critre dit "critre de Wilks", quotient
des dterminants des deux matrices des covariances prcdentes
l
.
b - Combien de classes retenir?
On prsentera dans ce paragraphe les mthodes visant dterminer, par des
procdures empiriques (souvent inspires par les modles voqus plus
haut) le nombre de classes, sans faire intervenir d'information externe. On
examinera tout d'abord le cas de la classification mixte qui a t expose au
chapitre 2, section 2.3.
Cette stratgie de classification adapte l'analyse exploratoire de grands
tableaux (plusieurs milliers d'individus, plusieurs centaines de variables ou
modalits) comporte en effet des possibilits de contrle et de validation
dans son processus mme de calcul.
- Cas de la classification mixte
On reprendra les tapes du 2.4.1.b, dcrivant l'enchanement analyse
factorielle-classifica tion mixte.
1- La premire tape est une analyse en axes principaux, qui permet
d'prouver l'hypothse d'absence ventuelle de structure, et donne une
ide de l'ventuelle concentration du nuage de points classer dans un
1 On a pu tablir la loi asymptotique des maxima de ces deux critres (maxima
calculs sur toutes les partitions possibles) sous l'hypothse nulle de distributions
uniformes ou tmimodales (cf. Bock, 1989).
4.2 _ Stabilit des axes, des formes, des classes 403
sous-espace. Cette tape produit un systme de coordonnes euclidiennes
que les variables de dpart soient numriques (analyse en composantes
principales), frquentielles (analyse des correspondances) ou nominales
(analyse des correspondances multiples). On peut alors choisir de garder
tous les axes correspondant des valeurs propres non-nulles, ou de
tronquer le support de faon raliser un filtrage. La possibilit de
moduler le nombre d'axes permettra d'prouver la stabilit des rsultats
de la classification qui va suivre.
2- La seconde tape est la classification mixte proprement dite.
2-1- Lors de la premire phase (partition prliminaire par les centres
mobiles destines rduire la dimension du problme), la possibilit de
calculer des groupements stables (ou formes fortes, cf. Diday 1972)
constitue une premire preuve de validation, fonde sur l'initialisation
alatoire de la mthode des centres mobiles.
2-2- La seconde phase (classification hirarchique sur donnes agrges
utilisant le critre de Ward gnralis, bien adapte la classification de
donnes regroupes) produit un dendrogramme et un histogramme des
indices de niveau (schmatiss sur les figures 2.3 - 1 et 2.3 - 2, par
exemple) qui permettent d'apprcier les sauts importants de l'indice et
donc de proposer, sur inspection visuelle, une coupure de l'arbre
hirarchique, laquelle correspondra le nombre de classes retenu1. Si le
critre d'inspection visuelle a t retenu ici, c'est par absence de
consensus sur les autres critres, nombreux, qui ont t proposs dans la
littrature
2
.
- Cas gnral
Nous sommes vraiment ici, plus encore que dans le cas de la validation des
mthodes factorielles, dans le domaine de la statistique exprimentale.
Mme si les dveloppements thoriques sont parfois importants, il reste
indispensable de tester empiriquement l'adquation des rsultats la ralit,
par simulation et bootstrap ou/et par essai sur des jeux de donnes-test
homologus.
On mentionnera les premiers travaux de simulation de Gower et Banfield
(1975), qui tudient empiriquement, partir de plusieurs critres, la
1 La consolidation de la coupure par raffectation des individus (centres mobiles)
donne galement une information importante SUI la qualit des rsultats. Si l'volution
de la variance inter-elasses (par exemple) est trop importante au cours de la
consolidation, cela met en question la qualit de la coupure de l'arbre, qui se rvle loin
d'un optimwn local. Cela doit inciter la prudence dans le maniement de la partition
obtenue.
2 Mollire (1986, 1989) propose galement dans le cadre d'une stratgie d'agrgation
mixte d'utiliser le coefficient CCC (Cubic Clustering Criterion) propos par Sade (1983)
qui est une fonction de R2 (rapport de la variance interclasses la variance totale)
dtennine empiriquement. Ce coefficient CCC a t considr comme satisfaisant
l'issue des simulations de Milligan et Cooper (1985).
404 Validit et porte des rsultats _ Chapitre 4
distorsion entre la mtrique initiale et l'ultramtrique produite par
agrgation hirarchique. Matusita et Ohsumi (1980) proposent un critre dit
d'affinit pour comparer plusieurs partitions dans le cadre d'un algorithme
centres mobiles. Milligan et Cooper (1985) ont tudi et compar plus de 30
tests et critres par simulation. Wong (1985), Jain et Moreau (1987) utilisent
systmatiquement le bootstrap pour tudier la stabilit des rsultats et en
dduire le nombre de classes stables. Hardy (1994) compare 7 critres
appliqus des rsultats de classifications issues de six mthodes diffrentes,
chaque couple classification-critre tant appliqu 4 jeux de donnes
artificiels diffrents choisis en raison de leurs aptitudes reprsenter des
situations typiques distinctes. Rasson et Kubushishi (1994) proposent un
nouveau test (Gap test), fond sur des processus de Poisson stationnaires,
qui utilise les ventuelles zones vides entre classes. Test sur des jeux de
donnes simules ou classiques, il est efficace pour reconnatre les classes
isoles.
c - Les critres externes
Comme le souligne Bock (1994), il ne faudrait pas exagrer la pertinence et
l'importance de la notion de nombre de classes d'une classification, car une
classification n'est jamais une fin en soi. C'est beaucoup plus souvent d'une
dissection dont on a besoin, selon la terminologie de Kendall (1966) qui
considre qu'un dcoupage de la ralit multidimensionnelle est toujours
utile, mme si les classes ne sont pas bien spares, mme si tous les
individus ne sont pas classs.
Que signifie alors un critre global de qualit, qui pourrait nous faire rejeter
des traits structuraux importants? Et quels modles thoriques pourraient
rendre compte d'une situation aussi complexe?
William et Lance (1965) pensent qu'une classification "ne peut pas tre vraie
ou fausse, ni probable ou improbable, mais seulement profitable ou non
profitable". Cette notion de profitabilit ne peut qu'tre externe au tableau
de dOMes. Elle est lie au contexte et aux objectifs de la recherche ou de
l'tude, aux mta-donnes (meta-data), c'est--dire l'information sur
l'informa tion.
Les procdures de description automatique des classes (cf. section 2.3) partir
des variables actives ayant cr la partition, mais aussi partir de toute
l'information externe disponible (ayant le statut de variables
supplmentaires, numriques ou nominales) sont des procdures de
validation potentielles. Elles nous disent que telle portion connexe de
l'espace engendr par les variables actives prsente de l'intrt vis--vis
d'autres informations prsentes dans la base de donnes. De mme que sur
un histogramme unidimensionnel, on peut identifier certaines zones
partir d'information extrieure sur les individus.
Bibliographie
Agrawala A.K. (Ed.) (1977) - Machine Recognition of Patterns. IEEE Press, New York.
Agresti A. (1990) - Categorical Data Analysis. J. Wiley, Chichester.
Agresti A. (1992) - A survey of exact inference for contingency tables. Statistical
Science, 7, 1, P 131-177.
Aitkin M. A. (1979) - A simultaneous test procedure for contingency tables. App!.
Statist., 28, p 233-242.
Aitchison J. (1983) - Principal component analysis of compositional data. Biometrika,
70, (1), P 57-65.
Aitchison J., Aitken C. G. G. (1976) - Multivariate binary discrimination by the kemel
method. Biometrika, 63, p 413-420.
Akaike H. (1973) - Information theory and an extension of the maximum likelihood
principle. In: Second Internat. Symp. on Information Theory, Petrov B.N., Czaki F.,
eds., Akademiai Kiado, Budapest, p 267-281.
Aluja Banet T., Lebart L. (1984) - Local and partial principal component analysis and
correspondence analysis. In: COMPSTAT, Proceedings in Computational Statistics,
Physiea Verlag, Vienna, p 113-118.
Amari S. (1990) - Mathematieal foundation of neurocomputing. Proc of the IEEE, 78,
n09.
Anastassakos 1., D'Aubigny G. (1984) - L'utilisation de tests de sphricit pour la
recherche de la dimension de l'espace latent en analyse factorielle classique et en
analyse en composantes principales. Revue Statist. Appl., 32, (2), P 45-57.
Anderberg M.R. (1973) - Cluster Analysis for Applications. Academie Press, New York.
Anderson J.A. (1982) - Logistic Discrimination. in: Handbook of Statistics, 2,
Krishnaiah P.R. and Kanal L. (Eds) North Holland, Amsterdam, p 169-191.
Anderson T. W. (1951) - The asymptotic distribution of certain characteristic roots
and vectors. Proc. of the 2nd Berkeley Symp. on Math. Statist. and Prob., p 103-130,
Univ. of Califomia Press.
Anderson T.W. (1958) - An Introduction ta Multivariate Statistical Analysis (Second
edition : 1984). J. Wiley, New York.
Anderson T. W. (1963) - Asymptotic theory for principal component analysis. Ann.
Math. Statist., 34, p 122-148.
Anderson T. W., Rubin H. (1956) - Statistical Inference in factor analysis. Proc. of the
3rd Berkeley Symp. on Math. Statist., 5, p 111-150.
Andrews D. F. (1972) - Plots of High-dimensional data. Biometries, 28, p 125-136.
Arabie P. (1978) - Constructing blockmodels : how and why. J. of Math. Psychology,
17, (1), P 21-63.
Arabie P. (1991) - Was Euclid an unnecessarily sophisticated psychologist?
Psychometrika, 56, p 567-587.
Art D., Gnanadesikan R, Kettenring J.R. (1982) - Data based metrics for cluster
analysis. Utilitas Mathematica, 21 A, P 75-99.
ASU, (Lebart L., ed.) (1992) - La qualit de l'information dans les enqutes. Dunod, Paris.
Atkinson A.c. (1981) - Likelihood ratios, posterior odds and information criteria. J.
Econometries, 16, p 15-20.
406 Statistique exploratoire multidimensionnelle
Atkinson A.C. (1985) - Plots, Transformation and Regression : an Introduction to
Graphical Methods of Diagnostic Regression Analysis. Clarendon Press, Oxford.
Babeau A., Lebart L. (1984) - Les conditions de vie et aspirations des Franais.
Futuribles, 1, p 37-53.
Bailey R.A. (1981) - A unified approach to Design of Experiments. J. Royal Statist.
Soc. (A), 144(2), p 214-233.
Balbi S. (1994) - L' Analisi Multidimensionale dei dati negli anni'9D. Dipartimento di
Matematica e Statistica. (Univ. Federico m, Rocco Curto Editore, Napoli.
Baldi P., Hornik K. (1989) - Neural networks and principal component analysis:
learning from examples without local minima. Neural Networks, 2, p 52-58.
Bali G.H., Hall D.J. (1965) -ISODATA, A Novel Method of Data Analysis and Pattern
Classification. AD 699616, Stanford Research Institute, Menlo Park, Califomia.
Bali G.H., Hall D.J. (1967) A clustering technique for summarizing multivariate data.
Behavioral Sciences, 12, p 153-155 .
Ballif J.-F. (1986) - Analyse multivarie: un modle descriptif gnral. Univ. de Lausanne,
Peter Lang, Berne.
Bardos M. (1984) - Le risque de dfaillance d'entreprise. Cahiers Economiques et
Montaires. 19, p 1-190.
Blfdos M. (1989) - Trois mthodes d'analyse discriminante. Cahiers Economiques et
Montaires. 33, p 151-190.
Barnett V. (1976) - The ordering of multivariate data. J. Royal Statist. Soc. (A), 139,
P 318-354.
Blftlett MS (1950) - Tests of significance in factor analysis. British f. Psycho (Stal.
Section), 3, p 77-85
Bartlett MS. (1951) - The effect of standardization on X
2
approximation in factor
analysis (wilh an appendix by W. Lederman). Biometrika, 38, p 337-344.
Beltrami E. (873) - Sulle funzioni bilineari. Giorn. Math. Battaglin. 11, p 98-106.
Benali H., Escofier B. (1987) - Stabilit de l'analyse factorielle des correspondances
multiples en cas de donnes manquantes et modalits faibles effectifs. Revue
Slatist. Appl., 35, n
0
1, p 41-52.
Benali H., Escofier B. (1990) - Analyse factorielle lisse et analyse des diffrences
locales. Revue Statist. Appl. 38,2, P 55-76.
Benasseni J. (1986a) - Stabilit de l'analyse en composantes principales par rapport
une perturbation des donnes. Revue Statis/. Appl., 35,3, P 49-64.
Benasseni J. 0986b) - Stabilit en ACP par rapport aux erreurs de mesure. In : Data
Analysis and lnformatics, 4, Diday E. el al. (eds), North-Holland, Amsterdam, p
523-533.
Benzcri J.-P. (1969a) - Statistical analysis as a tool to make patterns emerge from
clouds. ln: Methodology of Pattern Recognition (S.Watanabe, Ed.) Academie Press,
p 35-74.
Benzcri J.-P. (1969b) - Approximation stochastique dans une algbre norme non
commutative. Bull. Soc. Math. France, 97, p 225-241.
Benzcri J.-P. (1973) - L'Analyse des Donnes. Tome 1: lA Taxinomie. Tome 2: L'Analyse
des Correspondances (2
d
e. d. 1976). Dunod, Paris.
Benzcri J.-P. (1974) - La place de l'a priori. In: Organum- Encyclopaedia Universalis.
Paris.
Benzcri J.-P. (1977 a) - Analyse discriminante et analyse factorielle. Les Cahiers de
l'Analyse des Donnes, 4, p 369-406.
Benzcri J.-P. 0977 b) - Choix des units et des poids dans un tableau en vue d'une
analyse des correspondances. Cahiers de l'Analyse des Donnes, 2, p 333-352.
Bibliographie 407
Benzcri J.-P. (1979) - Sur le calcul des taux d'inertie dans l'analyse d'un questionnaire.
Cahiers de l'Analyse des Donnes, 4, p 377-378 .
Benzcri J.-P. (1982 a) - Histoire et prhistoire de l'analyse des donnes. Dunod, Paris.
Benzcri J.-P. (1982 b) - Sur la gnralisation du tableau de Burt et son analyse par
bandes. Cahiers de l'Analyse des Donnes, 7, p 33-43.
Benzcri, J.-P. (1982 c) - Construction d'une classification ascendante hirarchique par
la recherche en chane de voisins rciproques. Cahiers d'Analyse des Donnes, 7,
p 209-218.
Benzcri, J.-P. (1983) - Analyse d'inertie intraclasse par l'analyse d'un tableau de
correspondance. Les Cahiers d'Analyse des Donnes, 8, p 351-358.
Benzcri J.-P. (1992) - Correspondence Analysis Handbook. Marcel Dekker, New York.
Benzcri J.-P., Cazes P. (1978) - Problme sur la classification. Les Cahiers de l'Analyse
des Donnes, 3,1, P 95-101.
Benzcri J.-P., Jambu M. (1976) - Agrgation suivant le saut minimum et arbre de
longueur minimum. Les Cahiers de l'Analyse des Donnes, 1, p 441-452.
Benzcri, J.-P., Lebeaux M.-O., and Jambu M. (1980) - Aides a l'interpretation en
classification automatique. Les Cahiers de l'Analyse des Donnes, 5, p 101-123.
Beran R, Srivastava MS (1985) - Bootstrap test and confidence region for functions
of a covariance matrix. Ann. of Statist., 13, p 95-115.
Berge C. (1963) - Thorie des graphes et ses applications. Dunod, Paris.
Berge C. (1973) - Graphs and Hypergraphs. North Holland, Amsterdam.
Berk RH. (1972) - Consistency and asymptotic normality of MLE's for exponential
models. Ann. Math. Statist., 43. p 193-204.
Berry W. D. (1984) - Non recursive causal models. Sage, Beverly Hills.
Bertin J . (1973) - Article: "Graphique (reprsentation -) ". In : Encyclopaedia
Universalis.
Bertrand P., Diday E. (1990) - Une gnralisation des arbres hirarchiques : les
reprsentations pyramidales. Revue Statist. Appl., 38, (3), p 53-78.
Besley D. A., Kuh E., Welsh R E. (1980) - Regression Diagnostics: Identifying Influential
Data and Sources of Colinearity, J. Wiley, New York.
Besse P., Ferr L. (1993) - Sur l'usage de la validation croise en analyse en
composantes principales. Revue Statist. Appl., 41, (1), P 71-76.
Birch M. W. (1963) . Maximum likelihood in three-way contingency tables. J. Royal
Statist. Soc. (B), 25, P 220-233.
Bishop Y., Fienberg S., Holland P. (1975) - Discrete MuItivariate Analysis. MIT Press,
Cambridge, Mass.
Bock H. H. (1974) - Automatische Klassifikation. Theoretische und praktische Methoden zur
Gruppierung und Strukturierung van Daten (Cluster AnalysisJ. Vandenhoeck &
Ruprecht, Gotingen.
Bock H. H. (1977) - On tests conceming the existence of a classification. In: First
International Symposium on Data Analysis and Informatics. INRIA, Rocquencourt,
p 449-464.
Bock H. H. (1979) - Simultaneous cIustering of objects and variables. In: Analyse des
donnes et informatique. European c.c. Courses, INRIA, p 187-203.
Bock H. H. (1985) - On some significance tests in cIuster analysis. J. of Classification, 2,
p 77-108.
Bock H. H. (1989) - Probabilistic aspects in cluster analysis. In: Conceptual and
numerical analysis of data. Opitz O. (00.), Springer-Verlag, Berlin, Heidelberg.
Bock H. H. (1994) - Classification and clustering : Problems for the future. In : New
Approaches in Classification and Data Analysis, Diday E. et al. (eds), Springer Verlag,
Berlin, p 3-24.
408 Statistique exploratoire multidimensionnelle
Boeswillwald E. (992) - L'exprience du CESP en matire de qualit des mesures
d'audience. In: La qualit de l'information dans les enqutes, (ASU), Dunod, Paris,
p 313-341.
Bourlard H., Kamp Y. (1988) - Auto-association by multi-Iayers perceptrons and
singular value decomposition. Biological Cybernetics, 59, p 291-294.
Bouroche J.-M., Tenenhaus M. (1970) - Quelques mthodes de segmentation. RAIRa,
5, 2, P 29-42.
Bouroche J.-M., Saporta G. (1980) - L'analyse des donnes. coll."Que sais-je", n01854,
PUF, Paris.
Bourret P., Reggia J., Samuelides M. (1991) - Rseaux Neuronaux. Teknea, Toulouse.
Box G. E. P., Cox D. R, (1982) - An analysis of transformations revisited, rebutted. f.
Amer. Statis/. Assoc., 77, p 209-210.
Breiman L., Friedman J. H., Ohisen R. A., Stone C J. (1984) - Classification and
Regression Trees. Wadsworth, Belmont.
Brent RP. (974) - A gaussian pseudo-random number generator. Corn. ACM, 17,
P 704-706.
Brillouin L. (1959) - La science et la thorie de l'information. Masson, Paris.
Bruynooghe M. (1978) - Classification ascendante hirarchique des grands ensembles
de donnes : un algorithme rapide fond sur la construction des voisinages
rductibles. Les Cahiers de l'Analyse des Donnes, 3, p 7-33.
Burt C. (1950) - The factorial analysis of qualitative data. British f. of Statist. psycho/.
3,3, P 166-185.
Burtschy B., Lebart L. (1991) - Contiguity analysis and projection pursuit. In : Applied
Stochastic Models and Data Analysis, R Gutierrez and M.J.M. Valderrama, Eds,
World scientific, Singapore, p 117-128.
Cacoullos T. (Ed.) (1973) - Discriminant Analysis and Applications. Academic Press,
New York.
Caillez F., Pags J.P. (1976) - Introduction l'Analyse des Donnes. SM.A.S.H., Paris.
Caliant C. M. (1991) - Technique de Lissage et de Rgularisation en Analyse Discriminante.
Thse. Universit Paris IX, Dauphine, (Publ. INRIA TU177), Paris.
Caraux G. (1984) - Rorganisation et reprsentation visuelle d'une matrice de donnes
numriques: un algorithme itratif. Revue de Statis/. Appl., 32, P 5-24.
Carlier A. (1985) Analyse des volutions sur tables de contingences, quelques aspects
oprationnels. In: Data Analysis and Informatics, Diday E. et al. (eds), North
HolJand, Amsterdam, p 421-428.
Carlier A., Lavit C, Pags M., Pernin M.-O., Turlot J.-c. (988) - A comparative
review of methods which handles a set of indexed data tables. In: Multiway Data
Analysis, Coppi R., Bolasco S. (eds), North Holland, Amsterdam, p 85-102.
Carroi J. D. (1968) - Generalization of canonical correlation to three or more sets of
variables. Proc. Amer. Psychological Assoc. p 227-228.
Carroi J. D., Chang J. J. (1970) - Analysis of individual differences in multidimensional
scaling via an n-way generalization of Eckart-Young' decomposition. Psychometrilal,
35, p 283-319.
Carroi J. D., Pruzansky S., and Green P. F. (977) - Estimation of the parameters of
Lazarsfeld's Latent Class Model by application of canonical decomposition
CANDECOMP to multi-way contingency tables. AT&T Bell Laboratories,
unpublished paper.
Casin P., Turlot J.-C (1986) - Une prsentation de l'analyse canonique gnralise
dans l'espace des individus. Revue Statis!. App/. 35, (3), P 65-75.
Cattell RB. (1966) - The scree test for the number of factors. Mult. Behavioral Research,
1, p 245-276.
Bibliographie 409
Caussinus H. (1992) - Projections rvlatrices. In : Modles pour l'analyse des donnes
multidimensionnelles. J.J. Droesbeke, B. Fichet, P.TassL eds, Economica, Paris.
Caussinus H., Ruiz A. (1990) - Interesting projections of multidimensional data by
means of generalized principal component analysis. In :COMPSTAT 90, Physica
Verlag, Heidelberg, p 121-126.
Cazes P. (1977) - Etude des proprits extrmales des sous-facteurs issus d'un sous-
tableau d'un tableau de Burt. Les Cahiers de l'Analyse des Donnes, 2, p 143-160.
Cazes P. (1980) - Analyse de certains tableaux rectangulaires dcomposs en blocs.
Les Cahiers de l'Analyse des Donnes, 5, p 145-161, et p 387-403.
Cazes P. (1981) - Note sur les lments supplmentaires en analyse des
correspondances. Les Cahiers de l'Analyse des Donnes, 1, p 9-23; 2, P 133-154.
Cazes P. (1982) - Analyse de certains tableaux rectangulaires dcomposs en blocs:
Codage simultan de variables qualitatives et quantitatives. Les Cahiers de l'Analyse
des Donnes, 6, p 9-18.
Cazes P. (1984) - Correspondance hirarchiques et ensembles associs. Cahiers du
B.U.R.O., n 43-44, Universit Pierre et Marie Curie, p 43-142.
Cazes P. (1986 a) - Une gnralisation des correspondances multiples et des
correspondances hirarchiques. Cahiers du B.U.R.D., 46-47, Universit Pierre et
Marie Curie, p 37-64.
Cazes P. (1986 b) - Correspondance entre deux ensembles et partition de ces deux
ensembles. Les Cahiers de l'Analyse des Donnes, 11, p 335-340.
Cazes P. (1990) - Codage d'une variable continue en vue de l'analye des
correspondances. Re1JUe Statis/. App/., 38,3, P 35-51.
Cazes P., Chessel D., Doledec S. (1988) - L'analyse des correspondances interne d'un
tableau partitionn: son usage en hydrobiologie. Revue SIalis/. Appl. 36, (1), p 39-
54.
Cazes P., Moreau J. (1991) - Contingency table in which the rows and colwnns have a
graph structure. In ; E.Diday, Y.Lechevaliier (Eds) Symbolic-Numeric Data Analysis
and Learning, Nova Science Publishers. New York, p 271-280.
Celeux G. (ed) (1990) - Analyse discriminante sur variables continues. INRIA,
Roquencourt.
Celeux G. (1992) - Rsultats asymptotiques et validation en classification. ln: Modles
pour l'analyse des donnes multidimensionnelles. J.J. Droesbeke, B. Fichet, P.Tassi, eds,
Economica, Paris.
Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H.(1989) -
Classification automatique des donnes: environnement statistique et informatique.
Dunod, Paris.
Celeux G., Hbrail G., Mkhadri A., Suchard M. ( 1991). Reduction of a large scale and
ill-eonditioned statistical problem on textual data. In : Applied Stochastic Models and
Data Analysis, Proceedings of the 5th Symposium. ln : ASMDA, Gutierrez R. and
Valderrama M.]. Eds,Worid 5cientific, p 129-137.
Celeux G., Nakache J.-P. (eds) (1994) - Analyse discriminante sur variables qualitatives.
Polytechnica, Paris.
Chabanon c., Dubuisson 8. (1991) - Mthodes non probabilistes. ln; Analyse
discrimimmte sur variables continues, Celeux G. (ed.), INRIA, Paris.
Chandon J.-L., Pinson S. (1981) - Analyse typologique: Thorie et applications. Masson,
Paris.
Chateau F. (1994) - Probabilits a priori ingales dans la rgle des k plus proches
voisins. Actes des XXVlmes Journes de Statistiques (Neuchtel), p 195-198.
Chatterjee S., Price 8. (1991) - Regression Analysis by Examples. J. Wiley, New York.
Cheng 8., Titterington D.M. (1994) - Neural networks: a review from a statistival
perspective. Statistical Science, 9, n01, p 2-54.
410 Statistique exploratoire multidimensionnelle
Chernoff H. (1973) - The use of faces to represent points in k-dimensional space
graphically. f. Amer. Statist. Assoc., 68, p 361-368.
Chessel O., Lebreton J.-D., Yoccoz N. (1987) - Proprits de l'analyse canonique de
correspondances; une illustration en hydrobiologie. Revue de Sratst. Appl. ,35, (4),
p55-72.
Choudary Hanumara R Thompson W.A. (1968) - Percentage points of the extreme
roots of a Wshart matrix. Biometrika, 55, p 505-512.
Christensen R (1990) - Log-Linear Models. Springer-Verlag, New York.
Clemm O.s., Krishnaiah P.R, Waikar V.B. (1973) - Tables of the extreme mots of a
Wishart matrix. f. of Statist. Comput. and Simul. 2, p 65-92.
Cliff N. (1966) - Orthogonal rotation to congruence. Psychometrika, 31, p 33-42.
Cliff AD. and Ord J.K. (1981) - Spatial Processes : Models and Applications. Pion,
London.
Cochran W.G., Cox G.M. (1957) - Experimental Design (2nd 00.). J. Wiley, New York.
Cohen A. (1980) - On the graphieal display of the significant components in two-
ways contingency tables. Comm. in Statistics, Theory.Meth., A9 (10), p 1025-1041.
Cohen J. (1967) - Statistical Power Analysis for the Behavioral Sciences. Academie Press,
New York.
Cook RD., Weisberg S. (1982) - Residuals and Influence in Regression. Chapman and
Hal1, London.
Cook RD., Weisberg S. (1994) - An Introduction to Regression Graphies. J. Wiley, New
York.
Coppi R, Bolasco S. (eds) (1989) - The Analysis of Multiway Data Matrices. North
Holland, Amsterdam.
Cormack RM. (1971) - A review of classification. f. of Royal Statist. Society, Serie A,
134, Part. 3, p 321-367.
Cornfield J. (1962) - Joint dependence of risk of coronary heart disease on serum
cholesterol and systolic blood pressure: a discriminant function approach. Fed.
Amer. Socs. Exper. Biol. Proc. Suppl., 11, p 58-61.
Corsten L. C. A. (1976) - Matrix approximation, a key to application of multivariate
methods. ln: Proc. 9th Int. Biometrie Conf., 1, p 61-77, Raleigh, North Carolina.
Cottrell M., Fort J.-c. (1987) - Etude d'un algorithme d'auto-organisation. Ann. de
l'Inst. Henri Poincar, 23, p 1-20.
Cox D.R (1958) - Planning of Experiments. J. Wiley, New York.
Cox D. R (1972) - Analyse des donnes binaires. Dunod, Paris.
Cox D. R (1977)- The mie of significance tests. Scandinavian Journal of Statist., 4,
p 49-70.
Craddock J.M., Flood C.R (1970) - The distribution of the X2 statistic in small
contingency tables. Appl. Statist., 19, p 173-181.
Cramer H. (1946) - Mathematical Methods of Statistics. Princeton University Press,
Princeton.
Critchley F. (1985) - Influence in principal component analysis. Biometrika, 72, p 626-
636.
Dagnelie P. (1981) - Principes d'exprimentation. Les Presse Agronomiques de
Gembloux, Gembloux.
Darmois G. (1957) - Statistique et applications. Armand Colin, Paris.
Darroch J. N., Lauritzen S. L., Speed T. P. (1980) - Markov field and log-linear
interaction models for contingency tables. Ann. of Statist., 8, 522-539.
Daudin J.-J., Duby c., Trcourt P. (1988) - Stability of principal components studied
by the bootstrap method. Statistics, 19, p 241-258.
Bibliographie 411
Daudin J.-J., Trcourt P. (1980) - Analyse factorielle des correspondances et modle
log-linaire: Comparaison des deux mthodes sur un exemple. Revue Statist. Appl.
28, n l, p 5-24.
Davis A W. (1977) - Asymptotic theory for principal component analysis : the non-
normal case. Australian J. of Statist., 19, p 206-212.
Davis c., Kahan W. M. (1970) - The rotation of eigenvectors by a perturbation. Journal
of SIAM (Numerical Analysis), 7, p 1-46.
Day N. E. (1969) Estimating the component of a mixture of normal distribution.
Biometrika, 56, p 463-474.
Delecroix M. (1983) - Histogrammes et estimation de densit. P.U.F., Paris.
Deming W. E., Stephan F. F. (1940) - On a least squares adjustment of a sampled
frequency table when the expected marginal total are known. Ann. Math. Statis/.,
lI, p 427-444.
Dempster A.P. (1971) - An overview of multivariate data analysis. J. Mult. Analysis,
l, p 316-346.
Deroo M., Dussaix A-M. (1980) - Pratique et analyse des enqutes par sondage. P.U.F.,
Paris.
Devaud J.-M. (1985) - Discrimination et description sur variables qualitatives: un
exemple comparatif sur donnes relles. Revue Statist. App/. 33, nO 2, p 5-18.
Devijver P., KHtler J. (1982) - Pattern Recognition: A Statistical Approach. Prentice Hall,
New York.
Deville ].-c., Malinvaud E. (1983) - Data analysis in official socio-ecoomic statistics.
]. R01Jal Statis/. Soc. , A, 146, part 4.
Deville ].-c., Sarndal C.-E. (1992) - Calibration estimator in Survey Sampling.
].A.5.A., 87, 418, P 376-382.
Diaconis P., Efron B. (1983) - Computer intensive methods in statistics. Scientiftc
American, 248, (May), p 116-130.
Diday E. (1972) - Optimisation en classification automatique et reconnaissance des
formes. Revue Franaise de Recherche Oprationnelle, 3, p 61-96.
Diday E. (1974) - Classification automatique squentielle pour grands tableaux. Revue
Fr. In! Rech. Gpr. 9, (Mars 1975), p 1-29.
Diday E. (1992) - From data to knowledge : Probabilist objects for a symbolic data
analysis. ln: Computational Statistics, Dodge Y., Whittaker J. (Eds), Physica Verlag,
Heidelberg, p 193-214.
Diday E. (1971) - La mthode des nues dynamiques. Revue Statist. Appl. 19, nO 2,
p 19-34.
Diday E. , Lemaire J.L., Pouget J., Testu F. (1982) - Elments d'Analyse des Donnes.
Dunod, Paris.
Dobson A (1983) - An Introduction to Statistical Modelling. Chapman and Hall, New
York.
Dodge Y. (ed.) (1987) - Statistical Data Analysis Based on the LrNorm and Related
Methods. North Holland, Amsterdam.
Domenges D., Voile M. (1979) - Analyse factorielle sphrique: Une exploration.
Annales de l'INSEE, nO 35.
Draper N. R., Smith H. (1981) - Applied Regression Analysis (2nd ed). J. WiJey, New
York.
Droesbeke J.-J., Fichet B., Tassi P. (ed.) (1987) - Les sondages. Economica, Paris.
Droesbeke J.-J., Fichet 8., Tassi P. (ed.) (1992) - Modles pour l'analyse des donnes
multidimmsionnelle. Economica, Paris.
412 Statistique exploratoire multidimensionnelle
Droesbeke J.-J., Tassi P. (1990) - Histoire de la statistique. Que-sais-je? PUF, Paris.
Drouet d'Aubigny G. (1993) - Analyse des proximits et programmes de codage
multidimensionnel. La Revue de Modulad, INRIA, Rocquencourt, 12, p 1-32.
Dubes R, Jain A. K. (1979) - Validity studies in c\ustering methodology. Pattern
Recognition, 11, p 235-254.
Dubes R c., Zeng G. (987) - A test for spatial homogeneity in c\uster analysis. J. of
Classification, 4, p 33-56.
Dubuisson B. (990) - Diagnostic et reconnaissance des formes. Herms, Paris.
Ouda RO., Hart P.E. (1973) - Pattern Classification and Scene Analysis. J. Wiley, New
York.
Dugu D. (1958) - Trait de statistique thorique et applique. Masson, Paris.
Eastment H. T., Krzanowski W., J. (982) - Cross validatory choice of the number of
components of a principal component analysis. Technometrics, 24, p 73-77.
Eckart c., Young G. (1936) - The approximation of one matrix by another of lower
rank. Psychometrika, l, p 211-218.
Eckart c., Young G. (1939) - A principal axis transformation for non- hermitian
matrices. Bull. Amer. Math. Assoc., 45, p 118-121.
Edwards A. W. F., Cavalli-Sforza L. L. (1965) - A method for c\uster analysis.
Biometries, 21, p 362-375.
Efron B. (965) - The convex hull of a random set of points. 8iometrika, 52, p 331-343.
Efron B. (1979) - Bootstraps methods : another look at the Jackk.nife. Ann. Statist., 7,
p 1-26.
Efron B. (1982) - The Jacknife, the Bootstrap et other Resampling Plans. SIAM,
Philadel phia.
Efron B., Tibshirani R J. (993) - An Introduction to the Bootstrap. Chapman and Hall,
New York.
Engelman L., Hartigan J. A. (1969) - Percentage points of a test for c\usters. J. Amer.
Statis/. Assoc., 64, p 1647-1648.
Enyukov 1. S. (1988) - Detecting structure by mean of projection pursuit. COMPSTAT
Proceedings, Physica Verlag, Heidelberg, p 47-58.
Escofier B. [Cordier B.l (1965) - l'Analyse des correspondances. Thse, Facult des
Sciences de Rennes; publie en 1969 dans les Cahiers du Bureau Universitaire de
Recherche Oprationnelle, n013.
Escofier B. (1978) - Analyse factorielle et distances rpondant au principe
d'quivalence distributionnelle. Revue de Statis/. Appl. ,26, P 29-37.
Escofier B. 0979 a) - Stabilit et approximation en analyse factorielle. Thse d'Etat,
Universit Pierre et Marie Curie, Paris.
Escofier B. (1979 b) - Traitement simultan de variables qualitatives et quantitatives.
Les Cahiers de l'Analyse des Donnes, 4, (2), P 137-146.
Escofier B. (1979 c) - Une reprsentation des variables dans l'analyse des
correspondances multiples. Revue de Statis/. Appl. ,27, P 37-47.
Escofier B. (1984) - Analyse factorielle en rfrence un modle: application
l'analyse des tableaux d'changes. Revue de Statist. Appl., 32,25-36.
Escofier B. (987) - Analyse des correspondances multiples conditionnelles. In : Data
Analysis and Informatics, Diday E. (ed.), North Holland, Amsterdam, p 13-22.
Escofier B. (1989) - Multiple correspondence analysis and neighboring relation. In:
Data Analysis, Learning Symbolic and Numeric Knowledge. Diday E. (ed.), Nova
Science Publishers, New York, p 55-62.
Escofier B., Leroux B. (1972) - Etude de trois problmes de stabilit en analyse
factorielle. Publication de /'Institut Statistique de l'Universit de Paris, 11, p 1-48
Bibliographie 413
Escofier B., Pags J. (1983) - Mthode pour l'analyse de plusieurs groupes de
variables. Application la caractristation des vins rouges du Val de Loire. Revue
Statist. Appl. 31, P 43-59.
Escofier B., Pags J. (1984) - Analyses factorielles multiples. Cahiers du BURO, 2,
ISVP, Paris.
Escofier B., Pags J. (1988) - Analyses factorielles multiples. Dunod, Paris.
Escoufier Y. (1970) - Echantillonnage dans une population de variables alatoires
relles. Publication de l'Institut Statistique de l'Universit de Paris, 19, Fasc 4, p 1-47.
Escoufier Y. (1980) - L'analyse conjointes de plusieurs matrices de donnes. In:
Biomtrie et Temps, Jolivet et al. (eds), p 59-76.
Escoufier Y. (1982) - L'Analyse des correspondances simples et multiples. Metron, 1-2,
p 53-78.
Escoufier Y. (1985 a) - Objectifs et procdures de l'analyse conjointe de plusieurs
tableaux. Statist. et Anal. des Donnes. 10, (1), p 1-10.
Escoufier Y. (1985 b) - L'Analyse des correspondances, ses proprits, ses extensions.
Bull. of the Int. Statist. Inst., 4, p 28-2.
Escoufier, Y. (1988) - Beyond correspondence analysis. In: Classification and Related
Methods of Data Analysis, H.H.Bock, Ed., North Holland, p 505-514.
Everitt B. S., Hand D. J. (1981) - Finite Mixture Distributions. Chapman and Hall,
London.
Falguerolles (de) A., Jmel S. (1993) - Un modle graphique pour la slection de
variables qualitatives. Revue de Statist. Appl. 41, P 23-41.
Falissard B. (1995) - Dploiement d'une matrice de corrlation sur la sphre unit de
R3. Revue de Statist. Appl., 43, (2) P35-48.
Faraj A. (1993) - Analyse de contigut: une analyse discriminante gnralise
plusieurs variables qualitatives. Revue Statis/. App!. 41, (3), P 73-84.
Farebrother R. W. (1987) - The historical development of the LI and L", estimation
procedures. in: Statistical Data Analysis Based on the LrNorm and Related Methods,
Dodge Y. ed., North Holland, Amsterdam, p 37-64.
Fichet B. (1987) - The role played by LI in data anal ysis. in: Statistical Data Analysis
Based on the Lz-Norm and Related Methods, Dodge Y. ed., North Holland,
Amsterdam, p 185-194.
Fichet B. (1988) - L
p
space in Data Analysis. In: Classification and Related Methods
of Data analysis. Boch H. H. (ed.), North-Holland, Amsterdam, p 439-444.
Fienberg S.E. (1980) - The Analysis of Cross-classified Categorical Data. MIT Press,
Cambridge, Mass.
Fine J. (1992) - Modles graphiques d'associations. In: ASU, (Droesbeke J.-J., Fichet
B., Tassi P., ed.), Modles pour l'analyse des donnes multidimensionnelle, Economica,
Paris.
Fine J. (1993) - Problmes d'indtermination en analyse en facteurs et analyse en
composantes principales optimale. Revue de Statis/. Appl., 41, (4), P 45-72.
Fisher RA. (1915) - Frequency distribution of the value of the correlation coefficient in
samples from an indefinitely large population. Biometrika, 10, p 507-521.
Fisher R A. (1935) - The Design of Experiments. Oliver and Boyd, Edinburgh.
Fisher RA. (1936) - The use of multiple measurements in taxonomic problems. Ann. of
Eugenics, 7, p 179-188.
Fisher RA. (1939) - The sampling distribution of sorne statistics obtained from non
linear equations. Ann. Eugen., 7, p 179-188.
Fisher R.A. (1940) - The precision of discriminant functions. Ann. Eugen., 10, p 422-
429.
414 Statistique exploratoire multidimensionnelle
Fisher KA., Yates F. (1949) - Statistical Tables for Biological, Agricultural and Medical
Research. Hafner Publishing Company.
Fisher W.D. (1958) - On grouping for maximum homogeneity. J. of Amer. Statist. Assoc.,
53, p 789-798.
Fix E., Hodges J. L. (951) - Discriminatory analysis - nonparametric discrimination:
consistency properties. Report of the U.S.A.F. School of Aviation Medicine. In :
Agrawala (977).
Florek K (1951) - Sur la liaison et la division des points d'un ensemble fini. Colloq.
Math., 2, p 282-285.
Flury B. (988) - Common principal components and related multivariate models. J.
Wiley, New York.
Forgy E. W. (1965) - Cluster analysis of multivariate data : efficiency versus
interpretability of classifications. Biometrie Society Meetings, Riverside, California
(Abstract in : Biometries 21, 3, P 768).
Fortin M. (975) - Sur un algorithme pour l'analyse des donnes et la reconnaissance
des formes. Revue de Statist. appl., 23, p 37-46.
Fourgeaud c., Lenclud B. (978) - Economtrie. P.U.F., Paris.
Francisco C. A., Finch M. D. (980) - A comparison of methods used for determining
the number of factors to retain in factor analysis. Technometrics, 22, p 105-110.
Friedman J. H.(987) - Exploratory projection pursuit. J. of Amer. Statist. Assoc., 82,
(397), P 249-266.
Friedman J. H. (1989) - Regularized discriminant analysis. J. of Amer. Statist. Assoc.,
84, p 165-175.
Friedman J. H., and Tukey J.W. (1974) - A Projection pursuit algorithm for exploratory
data analysis. IEEE Transactions on Computers, Ser. C, 23, P 881-889.
Fukunaga K (1972) - Statistical Pattern Recognition. Academie Press, Boston.
Fumas G. W., Deerwester S., Dumais S. T., Landauer T. K, Harshman KA., Streeter
L. A., Lochbaum K E. (988) - Information retrieval using a singular value
decomposition model of latent semantic structure, Proceedings of the 14th Int. ACM
Conf. on Res. and Dev. In : Information Retrieval, p 465-480.
Fumival G. M. (971) - AlI possible regressions with less computation, Technometrics,
13, p 403-408.
Fumival G. M., Wilson KW. (974) - Regressions by leaps and bounds, Technometrics,
16, p 499-511.
Gabriel KK (969) - Simultaneous test procedures: sorne theory of multiple
comparisons. Ann. Math. Statist., 40, 1, p 224-250.
Gabriel K.K (1971) - The biplot graphic display of matrices with application to
principal component analysis. Biometrika, 58, 3, P 453-467.
Gallego F. J. (982) - Codage flou en analyse des correspondances, Les Cahiers de
l'Analyse des Donnes, 7, n 4, p 413-430.
Gallinari P., Thiria S., Fogelman-Souli F. (1988) - MultiIayer perceptrons and data
analysis, International Conference on neural Networks, IEEE" 1, P 391-399.
Garnett J.-c. (1919 - General ability, cleverness and purpose. British J. of Psych., 9,
P 345-366.
Geary R.C. (1954) - The contiguity ratio and statistical mapping.The Incorporated
Statistician, 5,3, P 115-145.
Geisser S. (975) - The Predictive sample reuse method with applications. J. of Amer.
Statist. Assoc. 70, p 320-328.
Gifi A. (1981) - Non Linea r Multivariate Analysis, Department of Data theory,
University of Leiden.
Gifi A. (990) - Non Linear Multivariate Analysis, J. Wiley, Chichester.
Bibliographie 415
Gilula, Z. (1986) - Grouping and association in contingency tables: an exploratory
canonical correlation approach, j. of Amer. Statist. Assoc., 81, p 773-779.
Gilula Z., Ritov Y. (1990) - Inferential ordinal correspondence analysis : motivation,
derivation and limitations. Inter. Statist. Review, 58, p 99-108.
Girshick M.A. (1939) - On the sampling theory of roots of determinantal equations.
Ann. Math .. Statist., 1, 10, P 203-224.
Gnanadesikan R (1989) - Discriminant analysis and clustering, panel of experts.
Statistical Science, 1989, 4, nOl, p 34-69.
Gnanadesikan R, Kettenring J.R, Landwehr J.M. (1982) - Projection plots for
displaying clusters, In : Statistics and Probability, Essays in Honor of c.R. Rao, G.
Kallianpur, P.R Krishnaiah, J.K.Ghosh, eds, North-Holland.
Goldstein M., Dillon W. R (1978) - Discrete Discriminant Analysis, J. Wiley, Chichester.
Good P. (1994) - PermutationTest - A practical Guide to Resampling Method for Testing
Hypotheses. Springer Verlag, New York.
Goodman L.A. (1970) - The multivariate analysis of qualitative data: interaction
among multiple classifications. f. of Amer. Statist. Assoc., 65, p 226-256.
Goodman L.A. (1986) - Sorne useful extensions of the usual correpondence analysis
approach and the usual og-linear approach in the analysis of contingency tables,
International Stalist. Review, 54, p 243-270.
Goodman L.A. (1991) - Measures, models, and graphical displays in the analysis of
cross-classified data (with Discussion), f. of Amer. Statis/. Assoc., 86,416, P 1085-
1138.
Goodman L.A., Kruskal W.H. (1954) - Measures of association for cross
classification. f. of Amer. Statist. Assoc., 49, p 732-764.
Gordon A. D. (1979) - On the assessment and comparison of classification. In:
Analyse des donnes et informatique. Cours de la C.E.E., Tomassone R (00.), INRIA,
Rocquencourt. p 149-160.
Gordon A. D. (1981) - Classification : Methods for the Exploratory Analysis of
MuItivariate Data. Chapman and Hall, London.
Gordon A.D. (1987) - A review of hierarchical classification, j.R.Statist.Soc., A, 150,
Part2, p 119-137.
Gordon AD., Finden C.R. (1985) - Classification of spatially locatOO data. Comp.
Statis/. Quarterly. 2, p 315-328.
Gourlay A.R., Watson G.A. (1973) - Computational Methods for Matrix Eigen Problems.
J. Wiley, New York.
Govaert G. (1977) - Algorithme de classification d'un tableau de contingence. In:
Premires journes Internationales Analyse des Donnes et Informatique (Versailles 1977)
INRIA, P 487-500.
Govaert, G. (1984) - Classification simultane de tableaux binaires.- In: Data Analysis
and Informatics, 4, E. Diday et al., Eds, North Holland, p 223-236.
Gower J. C. (1966) - Sorne distance properties of latent and vector methods used in
multivariate analysis. Biometrika, 53, p 325-328.
Gower J. C. (1975) - Generalized Procrustes Analysis. Psychometrika, 40, (1), P 33-51.
Gower J. C. (1984) - Procrustes analysis. In : Handbook of Applicable Mathematics, 6,
Lloyd E.H. (00.), J. Wiley, Chichester, p 397-405.
Gower J. c., Banfield C. F. (1975) - Goodness-of-fit criteria in cluster analysis and
their empirical distributions. In : Proceeding of the 8th Intern. Biometrie Conf., Corsten
L. C. A., Postelnicu T., (eds), p 347-361.
Gower J. c., Harding A. (1988) - Nonlinear biplot. Biometrika, 75, p 445-455.
Gower J. c., Ross G. (1969) - Minimum spanning trees and single linkage cluster
analysis. Appl. Statistics, 18, p 54-64.
416 Statistique exploratoire multidimensionnelle
Green P. J. (1981) - Peeling bivariate data. In: Interpreting mu1tivariate data, Bamett V.
(ed.), J. Wiley, Chichester, p 3-20.
Greenacre M. (1984) - Theory and Applications of Correspondence Analysis. Academie
press, London.
Greenacre M. (1988) - Clustering the rows and columns of a contingency table, f. of
Classification, 5, p 39-51.
Greenacre M. (1993) - Correspondence Analysis in Prac/ice. Academic Press, London.
Greenacre M., Blasius J. (Eds) (1994) - Correspondence Analysis in the Social Sciences.
Academic Press, London.
Grelet y. (1993) - Prparation des tableaux pour l'analyse des donnes: le codage des
variables. In: Traitement statistique des enqutes, Grang D., Lebart L. (eds), Dunod,
Paris.
Grizzle J. E., Starner C. F., Koch G. G. (1969) - Analysis of categorical data by linear
models. Biometries, 25, p 489-504.
Grosbras, J.-M. (1986) - Mthodes statistiques des sondages. Economica, Paris.
Guguen A., Nakache J.-P. (1988) - Mthode de discrimination base sur la
construction d'un arbre de dcision binaire. Revue de Statist. Appl., 36, (1), P 19-38.
Guttman L. (1941) - The quantification of a class of attributes: a theory and method
of a scale construction. ln : The prediction of personal adjustment (Horst P., ed.) p 251
-264, SSCR New York.
Guttman L. (954) - Sorne necessary conditions for common factor analysis.
Psychometrika, 19, p 149-161.
Haberman S. J. (1974) - The Analysis of Frenquency Data. University of Chicago
University Press, Chicago.
Hand D. J. ( 1981) - Discrimination and Classification. J. Wiley, New York.
Hand D. J. ( 1982) - Kernel Discriminant Analysis. J. WiJey, New York.
Hand D., J. (1986) - Recent advances in error-rate estimation. Pattern Recogn. let/., 4,
p 335-346.
Hand D. J. (1987) - A shrunken leaving-one-out estimator of error rate. Comput. Math.
Applic., 14, (3), P 161-167.
Hand D. J. (1992) - Microdata, macrodata, metadata. ln : Computational Statistics,
Dodge Y., Whittaker J. (Eds), Physica Verlag, Heidelberg, 2, p 325-340.
Hardy A. (1994) - An examination of procedures for deterrnining the number of
clusters in a data set. ln : New Approaches in Classification and Data Analysis, Diday
E. et al. (eds), Springer Verlag, Berlin, p 178-185.
Harman H.H. (1967) - Modern Factor Analysis (2nd ed.). Chicago University Press,
Chicago.
Harshman R. A. (1970) - Foundation of the PARAFAC procedure: Models and
conditions for an explanatory multi-modal factor analysis. UCLA working paper in
Phonetics, 16, UCLA, Los Angeles.
Harter H.L. 0974-1975) - The method of least squares and sorne alternatives.
Internat. Statis/. Review, Part 1 and 2: 42, p 147-174, P 235-264; Part 3 to 5: 43,
p 1-44, P 125-190, P 269-278.
Hartigan J. A. (1972) - Direct clustering of a data matrix, J. of Amer. Statist. Assoc., 67,
p 123-129.
Hartigan J. A. (1975) Clustering Algorithms. J. Wiley, New York.
Hartigan J. A. (1985) - Statistical theory in clustering. f. of Classification, 2, 63-76.
Harvatopoulos Y., Livian Y.-F., Sarnin P. (1989) - L'art de l'enqute, Eyrolles, Paris.
Hayashi C.(1956) - Theory and examples of quantification. (II) Proc. of the Institute of
Statist. Math. 4 (2), P 19-30.
Bibliographie 417
Hayashi c., Hayashi F. (1982) - A new algorithm to solve PARAFAC model.
Behaviormetrika, 14, p 27-48.
Heiser W. J. (1986) - Undesired nonlinearities in nonlinear multivariate analysis. In :
Data Analysis and Informatics IV, Diday E. et al. (OOs), North Holland, Amsterdam,
p 455-469.
Hertz J., Krogh A., Palmer R.C. (1991) - Introduction to the Theory of Neural
Computation. Addison- Wesley, Reading, (Mass.).
Highleyman W.H. (1962) - The design and analysis of pattern recognition
experiments. Bell Syst. Tech. Journal. ,41, P 723-744.
Hill M.O. (1974) - Correspondence analysis: a neglected multivariate method. AppI.
Statis!. 3, p 340-354.
Hirschfeld H.D. (1935) - A Connection between correlation and contingency. Proc.
Cambo Phil. Soc. 31, P 520-524.
Holmes S. (1985) - Outils Informatiques pour l'valuation de la pertinence d'un rsultat en
analyse des donnes. Thse USTL, Montpellier.
Holmes S. (1989) - Using the bootstrap 'and the RV coefficient in the multivariate
context. in : Data Analysis, Learning Symbolic and Numeric Knowledge, E. Diday (ed.),
Nova Science, New York, p 119-132.
Homik K. (1994) - Neural networks: more than "statistics for amateurs". In: New
approaches in Classification and Data Analysis. Diday E; et al. (eds), Springer Verlag,
Berlin.
Horst P. (1961) - Relation among m sets of measures. Psychometrika, 26, p 129-149.
Horst P. (1965) - Factor Analysis of Data Matrices. Holt, Rinehart, Winston, New York.
Hosmer D. W., Lemeshow S. (1989) - Applied Logiste Regression, J. Wiley, New York.
Hotelling H. (1933) - Analysis of a complex of statistical variables into principal
components. J. Educ. Psy. 24, P 417-441, P 498-520.
Hotelling H. (1936) - Relation between two sets of variables. Biometrika, 28, p 129-
149.
Householder A.S. (1953) - Principles of Numerical Analysis. Mc Craw-Hill, New York.
Hsu P. L. (1939) - On the distribution of the roots of certain deterrninantal equations.
Ann. Eugen. 9, p 250-258.
Huber P.J. (1981) - Robust Statistics. J. Wiley, New York.
Huber P.J. (1987) - The place of the LrNonn in robust estimation, in: Statistical Data
Analysis Based on the Lz-Norm and Re/ated Methods, Dodge Y. ed., North Holland,
Amsterdam, p 23-34.
Hudon C. (1990) - Une comparaison des rsultats de modles log-linaires et de
gnralisations de l'analyse des correspondances. Revue de Statist. Appl., 38, (2), P
43-53.
Hurley J. R. , Cattel R. B. (] 962) - The Procrustes program: Producing direct rotation
to test an hypothesized factor structure. Behavioural Science, 7, p 258-262.
Jain A. K., Moreau J. V. (1987) Bootstrap technique in cluster analysis. Pattern
Recognition, 20, p 547-568.
Jambu M. (199]) - Exploration statistique et informatique des donnes. Dunod, Paris.
Jambu M., Lebeaux M.O. (1978) - Classification automatique pour l'analyse des donnes.
Dunod, Paris.
Jeffreys H. (1946) - An Invariant fonn for the prior probability in estimation problerns.
Proc. Roy. Soc. (A), 186, P 453-461.
Johnson S. C. (1967) - Hierarchical clustering schemes. Psychometrika, 32, p 241-254.
Jolliffe 1. (1986) - Principal Component Analysis. Springer-Verlag, New York.
418 Statistique exploratoire multidimensionnelle
Jones M.C., and Sibson R. (1987) - What is projection pursuit (with discussion). J. of
Royal Statist. Society, A, 150, P 1-36.
Jordan c. (1874) - Mmoire sur les formes bilinaires. f. Math. Pures et Appliques. 19,
p 35-54.
Joreskog K. (1963) - Statistical Estimation in Factor Analysis : a New Technique and its
Foundation. Almqvist & Wiksell, Uppsala.
Joreskog K., Sorbom D. (1979) - Advances in Factor Analysis and Structural Equation
Models. Abt, Cambridge (MA).
Jousselin B. (1972) - Les choix de consommation et les budgets des mnages.
Consommation, Dunod, 1, p 41-72.
Kaiser H. F. (1961) - A note on Guttman's lower bound for the nurnber of common
factors. Brit. J. Statist. Psycho/., 14, p 1-2.
Kato T. (1966) - Pertubation Theory for Linear Operators. Springer, New York.
Kaufman L., Rousseeuw P. J. (1986) - Clustering large data sets (with discussion).
Pattern recognition in practice II (ES. Gelsema and L.N. Kanal, OOs), North-Holland,
Amsterdam, p 425-437.
Kaufman L., Rousseeuw P. J. (1990) - Finding Groups in Data. J. Wiley, New York.
Kazmierczak J.-B. (1985) - Analyse logarithmique: deux exemples d'application.
Revue de Statist. Appl. ,33, (1), P 13-24.
Kendall M. G. (1962) - Rank Correlation Methods. Griffin, London.
Kendall M. G. (1966) - Discrimination and classification. In: Proc. Symp. Mult.
Analysis. Dayton, Ohio, (Krishnaiah P. R. (00.), Academie Press, New York, p 165-
185.
Kendall M.G., Stuart A. (961) - The Advanced Theory of Statistics. Charles Grifin,
London.
Kettenring R. J. (971) - Canonical analysis of several sets of variables. Biometrika, 58,
(3), P 433-450.
Kharchaf 1., Rousseau R. 0988, 1989) Reconnaissance de la structure de blocs d'un
tableau de correspondance par la classification ascendante hirarchique: parties 1
et 2, Les Cahiers de l'Analyse des Donnes, 13, p 439-443; et: 14, p 257-266.
Kiers H. A. L. (989) - Three-way Methods for the Analysis of Quantitative and
Qualitative Two-way Data. DSWO Press, Leiden.
Kohonen T. (989) - Self-Organization and Associative Memory. Springer Verlag, Berlin.
Krishnaiah P.R., Chang T. C. (971) - On the exact distribution of the extreme roots of
the Wishart and MANOVA matrix. f. of MuItivariate Anal., 1,0), P 108-116.
Krishnaiah P.R., Kanal L. (Eds) (1982) - Handbook of Statistics (2). North Holland,
Amsterdam.
Kroonenberg P. (983) - Three-Mode Principal Component Analysis. DSWO Press,
I.eiden.
Kroonenberg P. M., de Leeuw J. (1980) - Principal component analysis of three-mode
data by means of altemating least-square algorithms. Psychometrika, 45, p 69-97.
Kruskal J. B. (956) - On the shortest spanning subtree of a graph and the traveling
salesman problem. Proc. Amer. Math. Soc. ,7, p 48-50.
Kruskal J. B., Wish M. (978) - Multidimensional Scaling. Sage University Paper, U,
Sage, Beverly Hills.
Krzanowski W. J. (984) - Sensitivity of principal components. J. Royal Statist. Soc. ,
46,(3), P 558-563.
Krzanowski W. J. (1987) - Cross-validation choice in principal cornponent analysis.
Biometries, 43, p 575-584.
Kshirsagar A.M. (972) - MuItivariate Analysis. Marcel Dekker, New York.
Bibliographie 419
KuIlback S. (1959) - Information Theoryand Statistics. J. Wiley, New York.
Kullback S., Leibler RA. (1951) - Information and sufficiency. Ann. Math. Statist., 22,
p 79-86.
L'Hermier des Plantes H. (1976) - STATIS ; Structuration de tableaux trois indices de
statistique. Thse (3c), USTL, Montpellier.
Lachenbruch P.A., Goldstein M. (1979) - Discriminant Analysis. Biometries, 35, p 68-
85.
Lachenbruch P.A., Mickey M.R (1968) - Estimation of error rate in discriminant
analysis. Technometrics, 10, p 1-11.
Lafosse R (1985) - Analyses Procustennes de deux Tableaux. Thse, Univ. Paul Sabatier,
Toulouse.
Lancaster H. O. (1963) - Canonical correlation and partition of X
2
. Quart. f. Math.,
14, p 220-224.
Lancaster H. O. (1969) - The Chi-squared Distribution. J. WiJey, New York.
Lance G. N., Williams W. T. (1967) - A general theory of classification sorting
strategies. Computer J., 9, P 373-380.
Laplace P.S. (1793) - Sur quelques points du systme du monde. Mmoires de
l'Acadmie Royale des Sciences de Paris, p 1-87; Rdition: Oeuvres, (1895), 11,
Gauthier-Villars, Paris, p 477-558.
Lauro N. C, D'Ambra L. (1984) - L'Analyse non-symtrique des Corres-pondances.
In: Data Analysis and Informatics, III, Diday et al. Ed., North-Holland, p 433-446.
Lauro N. c., Decarli A. (1982) - Correspondence analysis and log-linear models. In :
multiway contingency tables study. Metron, 1-2, p 213-234.
La vit C. (1988) - Analyse Conjointe de Tableaux Quantitatifs. Masson, Paris.
Lawley D. N. (1956) - Tests of significance for the latent roots of covariance and
correlation matrices. Biometrika, 43, p 128-136.
Lawley D. N., Maxwell A. E. (1963) - Factor Analysis as a Statistical Method. Methuen,
London.
Le Cal v G. (1987) - L] -embeddings of a data structure (I,D). in: Statistical Data
Analysis Based on the LrNorm and Related Methods, Dodge Y. ed., North Holland,
Amsterdam, p 195-202.
Le FoU Y. (1982) - Pondration des distances en analyse factorielle. Statist. et Anal. des
Donnes, 7, p 13-31.
Le Foll Y., Burtschy B. (1983) - Reprsentations optimales des matrices imports-
exports. Revue de Slalisl. Appt. ,31, (3), P 57-72.
Lebart L. (1969 a) - L'Analyse statistique de la contigut. Publications de l'ISUP,
XVIII- P 81 -112.
Lebart L. (1969 b) - Introduction l'analyse des donnes: Analyse des
correspondances et validit des rsultats. Consommation, Dunod. 4, p 65-87.
Lebart L. (1974) - On the Benzcri'smethod for finding eigenvectors by stochastic
approximation. Proceedings in Comp. Statist., COMPSTAT, Physica verlag, Vienna,
p 202-211.
Lebart L. (1975 a) - L'orientation du dpouillement de certaines enqutes par l'analyse
des correspondances multiples. Consommation, 2, p 73-96. Dunod.
Lebart L. (1975 b) - Validit des rsultats en analyse des donnes. Rapport Credoc-
Cordes. Credoc, Paris.
Lebart L. (1976) - The significance of eigenvalues issued from correspondence
analysis. Proceedings in Comp. Statist., COMPSTAT, Physica verlag, Vienna, p 38-
45.
420 Statistique exploratoire multidimensionnelle
Lebart L. (1982) - Exploratory analysis of large sparse matrices, with application to
textual data. COMPSTAT, Physica Verlag, Vienna, p 67-76.
Lebart L. (1986) - Qui pense quoi? Evolution et structure des opinions en France de
1978 1984. Consommation Revue de Socio-Economie, Dunod, 4, p 3-22.
Lebart L. (1987 a) - Sorne recent advances in data analysis practice. In : New
Perspective in Theoretical and Applied Statistics. M.L. Puri and aL, Eds. J. WiJey, New
York.
Lebart L. (1987 b) - Conditions de vie et aspirations des Franais, Evolution et
structure des opinions de 1978 1984. Futuribles, l, p 25-56.
Lebart L. (1988) - Contribution of classification to the processing of longitudinal
socio-economic surveys. In : Classification and Related Methods of Data Analysis, H.
Bock Ed., North Holland, p 113-120.
Lebart L. (1992) - Discrimination through the regularized nearest cluster method.
COMPSTAT; Proceedings of the 70th Symposium on Computational Statistics, Physica
Verlag, Vienna, p 103-118.
Lebart L., Fnelon J.P. (1971) - Statistique et informatique appliques. Dunod, Paris.
Lebart L., Houzel Y. (1980) - Le systme d'enqute sur les aspirations des Franais.
Consommation Revue de Socio-Economie, Dunod, 1, p 3-25.
Lebart L., Mirkin B. (1993) - Correspondence analysis and classification. In:
MuItivariate Analysis: Future Directions 2, C M. Cuadras and C.M.Rao, Eds., North
Holland, Amsterdam, p 341-357.
Lebart L., Morineau A, Fnelon J.P. (1981) - Traitement des Donnes Statistiques.
Dunod, Paris.
Lebart L., Morineau A, Lambert T., Pleuvret P. (1991) - SPAD.N version 2 Systme
Portable pour l'Analyse des Donnes. CISIA, 1 avenue Herbillon 94160, Saint-Mand.
Lebart L., Morineau A, Tabard N. (1977) - Techniques de la description statistique.
Dunod, Paris.
Lebart L., Morineau A, Warwick K. (1984) - MuItivariate Descriptive Statistical
Analysis. J. WiJey, New York.
Lebart L., Salem A (1994) - Statistique textuelle. Dunod, Paris.
Lebart L., Tabard N. (1973) - Recherches sur la description automatique des donnes socio-
economiques. Rapport CORDES-CREOOC, CR n013/1971.
Lebreton J.-D., Chessel O., Prodon R., Yoccoz N. (1988) - L'analyse des relations
espces-milieu par analyse canonique des correspondances. Acta coligica, col.
Gener., 9, (1), P 53-67.
Leclerc A (1975) - L'analyse des correspondances sur juxtaposition de tableaux de
contingence. Revue Statist. Appl., 23, P 5-16.
Leclerc A. (1976) - Une tude de la relation entre une variable qualitative et un groupe
de variables qualitatives. Int. Statist. Review, 44, p 221-248.
Leclerc A., Chevalier A, Luce O., Blanc M. (1985) - Analyse des correspondances et
modle logistique: possibilits et intrt d'approches complmentaires. Revue
Statist. Appl., 33, P 25-38.
Lelu A. (1991) - From data analysis to neural networks : new prospects for efficient
browsing through databases. Journal of Information Science, 17, p 1-12.
Lelu A (1994) - Clusters and factors: neural algorithm for a novel representation of
highly multidimensional data sets. In: New Approaches in Classification and Data
Analysis, Diday et al. (OOs), Springer Verlag, Berlin, p 241-248.
Lerman L, C (1970) - Les Bases de la Classification Automatique. Gauthier-Villars, Paris.
Lerman L, C (1981) - Classification et analyse ordinale des donnes. Dunod, Paris.
Bibliographie 421
Li G., and Chen Z. (1985) - Projection-pursuit approach to robust dispersion matrices
and principal components: primary theory and monte carlo. J. of Amer. Statist.
Assoc. 80, p 759-766.
Ling R F. (1973) - A probability theory of c1uster analysis. J. Amer. Statist. Assoc., 68,
p 159-164.
MacQueen J. B. (1967) - Sorne methods for classification and analysis of multivariate
observations. Proc. Symp. Math. Statist. and Probabi/ity (5th), Berkeley, 1, p 281-
297, Univ. of Calif. Press, Berkeley.
Mahalanobis P.c. (1936) - On the generalized distance in statistics. Proc. Nat. Inst.
Sei. India, 12, p 49-55.
Malinvaud E. (1964) - Mthodes statistiques de l'conomtrie. Dme d. 1978), Dunod,
Paris.
Malinvaud E. (1987) - Data analysis in appliOO socio-economic statistics with special
consideration of correspondence analysis. Marketing Science Conference Proceedings,
HEC-ISA, Jouy en Josas.
Mallows CL. (1973) - Sorne comments on Cp' Technometrics, 15, p 661-675.
Mallows CL., Tukey J.W. (1982) - An overviews of technique of data analysis
emphasizing its exploratory aspects. In : Sorne Recent Advances in Statistics (J. Tiago
de Oliveira Ed.) Academic Press, p 11-172.
Marcotorchino F. (1987) - Block seriation problems: a unified approach, Applied
Stochastic Models and Data Analysis, 3, p 73-93.
Marsaglia G., Bray T.A. (1964) - A convenient method for generating normal variables.
SIAM Rev. 6, p 260-264.
Martin RS., Reinsch c., Wilkinson J.H. (1968) - Householder's tridiagonalisation of a
symmetric matrix. Num. Math. 11, p 181-195.
Martin RS., Wilkinson J.H. (1968) - Implicit QI algorithm. Num. Math. 12, p 377-383.
Masson M. (1974) - Analyse non linaire de donnes. c.R. Acad. Sc., 278 (11 mars).
Masson M. (1980) - Mthodologie gnrale du traitement statistique de l'information de
masse. Nathan, Paris.
Matheron G. (1963) - Principles of geostatistics. Economie Ceology, 58, p 1246-1266.
Matheron G. (1965) - Les variables rgionalises et leur estimation. Masson, Paris.
Matusita K (1955) - Decision rules based on the distance, for problems of fit, two
samples, and estimation. Ann. of Math. Statist. 26,4, P 631-640.
Matusita K, Ohsumi N. (1980) - A criterion for choosing the number of clusters in
cluster analysis. In : Recent Developement in Statistical Inference and Data Analysis,
Matusita K (ed.) North-Holland, Amsterdam, p 203-213.
McCuIJagh P., Nelder J.A. (1989) - Ceneralized Linear Models. Chapman and Hall,
London.
McLachlan G.J. (1992) - Discriminant Analysis and Statistical Pattern Recognition. J.
Wiley, New York.
McQuitty L.L. (1966) - Single and multiple classification by reciprocal pairs and rank
order type. Educational Psychology Measurements. 26, p 253-26,5.
Mehta C R, Patel N., R (1991) - Statistique non-paramtrique exacte, Introduction
StatXact. CISIA, Saint Mand.
Mehta M.L. (1960) . On the statistica1 properties of the leve1 spacing in nuclear
spectra. Nucl. Phys. 18, p 395-419.
Mehta M.L. (1967) Random Matrices and the Statistical Theory of Energy Levels.
Academie Press, New York.
Meot A., Chessel O., Sabatier R (1993) - Oprateur de voisinage et analyse des
donnes spatio-temporelles. In Biomtrie et environnement, Lebreton J.-O., Asselain
B., (OOs), Masson, Paris, p 45-71.
422 Statistique exploratoire multidimensionnelle
Meulman J. (1982) - Homogeneity Analysis of lncomplete Data. DSWO Press, Leiden.
Meyer R. (1994) - An eigenvector algorithm to fit Lp-distance matrices. ln: New
Approches in Classification and Data Analysis, Diday"E. et al. (eds), Springer Verlag,
Berlin, p 502-509.
Michelat G. et Simon M. (1985) - Les sans-rponses aux questions politiques, Revue
Pouvoirs, 33, PUF, Paris.
Milgram M. (1993) - Reconnaissance des fonnes, mthodes numriques et connexionnistes.
Armand Colin, Paris.
Miller R. G. (1966) Simultaneous Statisticallnference. Mac Graw Hill, New York.
Miller R. G. (1974) - The Jakknife-a review. Biometrika, 61, p 1-15.
Milligan G. W., Cooper M. C. (1985) - An exarnination of procedures for determining
the nurnber of cluster in a data set. Psychometrika, 50, p 159-179.
Mirkin, B.G. (1990) - A sequential fitting procedure for linear data analysis models, J.
of Classification, 7, p 167-195.
Mollire J.-L. (1986) - What's the real number -of clusters? ln : Classification as Toolof
Research, Gaul w., Schader M. (eds), North-Holland, Amsterdam, p 311-320.
Mollire J.-L. (1989) - Stratgie de classification pour de grands ensembles de donnes.
La Revue de Modulad (lNRIA),3, p 31-69.
Mom A. (1988) - Mthodologie statistique de la classification des rseaux de transport.
Thse, US.T.L., Montpellier.
Mood AM. (1951) - On the distribution of the charasteristic roots of normal second
moment matrices. Ann. Math. Statist. 22, p 266-273.
Moran P. A P. (1948) - The interpretation of statistical maps. J. Royal Statis/. Soc., B,
ID, P 243-251.
Moran P.A.P. (1954) - Notes on continuous stochastic phenomena, Biometrika, 37,
p 17-23.
Moreau J. (1992) - Analyse de donnes structures par des graphes. Cas de l'analyse des
correspondance. Thse, E.P.F.L., Lausanne.
Morgan J. M., Messenger R. C. (1973) - THAlD : a sequential search program for the
analysis of nominal scale dependent variables. Institute for Social Research, University
of Michigan, Ann Arbor.
Morgenthaler S., Tukey J.W. (1989) - The next future of data analysis. In Data
Analysis, Learning Numeric and Symbolic Knowledge, 1989, Diday ed., Novascience,
New York, p 1-12.
Morineau A (1983) - Etude de stabilit en analyse en composantes principales. Bull.
Techn. du Centre de Statist. et d'lnfor. Appl., l, P 9-12.
Morineau A (1984) - Note sur la caractrisation statistique d'une classe et les valeurs-
tests, Bull. Techn. du Centre de Statist. et d'lnfor. Appl., 2, P 20-27.
Morineau A. (1992) - L'Analyse de donnes et les tests de cohrence dans les donnes
d'enqute. In : La Qualit de l'Information dans les Enqutes, ASU (ed.), Dunod, Paris.
Morineau A, Lebart L. (1986) - Specific c1ustering algorithms for large data sets and
implementation in SPAD Software. ln: Classification as a tool of research, Gaul W.,
Schader M., Eds, North Holland, Amsterdam, p 321-330
Morineau A, Nakache J.-P., Krzyzanowski C. (1995) - Le modle log-linaire et ses
applications. (La procdure Logli de SPAD.N), CISIA, Paris.
Morineau A, Sammartino A-E., Gettler-Summa M., Pardoux C. (1994) - Analyses
des donnes et modlisation des sries temporelles. Revue Statist. Appl., 42, (4), P
61-81.
Morrison. D.F. (1967) - Multivariate Statistical Methods (2nd edit ion : 1976). Mac Graw
Hill, New York.
Bibliographie 423
Mosteller F., Tukey J. W. (1977) - Data Analysis and Regression. Addison Wesley,
Reading, (Mass).
Muirhead R J. (1982) - Aspects of Multivariate Statistical Theory. J. Wiley, New York.
MillaU< S. A. (1972) - The Foundation of Factor Analysis. McGraw Hill, New York.
Murtagh F. (1985) - Multidimensional Cluslering Algorilhms.COMPSTAT Lectures 4,
Physica Verlag, Vienna.
Nakache J.P. (1973) - Influence du codage des donnes en analyse factorielle des
correspondances. Etude d'un exemple pratique mdical. Revue Sialisi. Appl., 21, (2).
Nakache J.-P., Lorente P., Benzcri J.-P., Chastang J.-F. (1977) - Aspects Pronostics et
thrapeutiques de l'infarctus myocardique aigu. Les Cahiers de l'Analyse des Donnes,
2, p 415-434.
Nakhl F. (1976) - Sur l'analyse d'un tableau de notes ddoubles. Les Cahiers de
l'Analyse des Donnes, 1, p 243-257.
Neave H.R. (1973) - On using Box-Muller transformation with multiplicative
congruential pseudo-random number generators. Appl. Sialist., 22, p 92-97.
Nelder J.A., Wedderburn RW.M. (1972) - Generalized linear models. J. R. Sialisi. Soc.,
A, 135, P 370-384.
Newman T.G., Odell P.L. (1971) - The Generalion of Random Variales. GRIFFlN's
Statistical Methods and Courses, n029, Griffin.
Nijenhuis A., Wilf H.5. (1975) - Combinatorial Algorilhms. Academie Press, New York.
Nishisato S.(1980) - Analysis of Categorical Daia. Dual Scaling and its Applicalion. Univ.
of Toronto Press.
O'Neill M. E. (1978) - Distributional expansion from canonical correlation from
contingency tables. J. Roy. Sialist. Soc., B, 40, P 301-312.
O'Neill M. E. (1981) - A note on the canonical correlation from contingency tables.
Auslr. J. Sialist., 23, p 58-66.
Ohsumi N. (1988) - Role of computer graphies in interpretation of clustering results.
ln: Recent Developmenls in Cluslering and Daia Analysis, Diday E. et al. (eds),
Academic Press, Boston.
Oja E. (1982) - A simplified neuron model as a principal components analyzer. J. of
Math. Biology, 15, p 267-273.
Oja E. (1992) - Principal components, minor components, and linear neural networks.
Neural Nelworks, 5, p 927-935.
Oja E., Karhunen J. (1981) On stochastic approximation of the eigenvectors and
eigenvalues of the expectation of a random matrix. Report of the Helsinki
University of Technology (Dept ofTechnical Physics). Otaniemi, Finland.
Pags J.-P., Escoufier Y., Cazes P. (1976) - Oprateurs et analyse de tableaux plus
de deux dimensions. Cahiers du BURa, ISUP, Paris, p 61-89
Palm R, lemma A. F. (1995) - Quelques alternatives la regression classique dans le
cas de la colinarit. Revue Sialisi. AppI., 43, (2), P 5-33.
Parzen E. (1962) - On the estimation of a probability density function and mode. Ann.
of Malh. Sialis!., 33, p 1065-1076.
Pearson K. (1901) - On lines and planes of c10sest fit to systems of points in space.
Phil. Mag. 2, nOll, p 559-572.
Perruchet C. (1983) - Une analyse bibliographique des preuves de classifiabilit en
analyse des donnes. Sialis!. el Anal. des Donnes, 8, p 18-41.
Pillai K.C.S. (1965) - On the distribution of the largest root of a matrix in multivariate
analysis. Biomelrika, 52, p 405-414.
Pillai K.C.S. (1967) - Upper percentage point of the largest root of a matrix in
multivariate analysis. Biomelrika, 54, p 189-194.
424 Statistique exploratoire multidimensionnelle
Pillai K.CS., Chang T.C (1970) ) An approximation to the c.dJ. of the largest root of
a covariance matrix. Ann. of the Ins/. of Statis/. Math., p 115-124.
Piron M. (1990) - Structuration de l'information plusieurs niveaux et analyse des donnes.
Thse, Universit Pierre et Marie Curie.
Piron M. (1992) - Analyse statistique d'un systbrle d'chelles. Rseau ADOC, doc. 4,
ORSTOM, Bondy.
Pousse A. (1992) - Rsultats asymptotiques. In: Modles pous l'analyse des donnes
multidimensionnelles, Droesbeke et al., eds, Econornica, Paris.
Prim R.C (1957) - Shortest connection matrix network and sorne generalizations. Bell
System Techn. J., 36, P 1389-1401.
Proriol J. (1991) MLP - Programme de rseau de neurone multicouche. La Revue de
MODULAD, 8, INRIA, P 23-29.
Quenouille M. (1949) - Approximate tests of correlation in time series. J. Royal Statist.
Soc., B, 11, P 18-44.
Ramsay J.O. (1978) - Confidence region for multidimensional scaling analysis.
Psychometrikil, 43, p 145-160.
Rao CR. (1964) - The use and interpretation of principal component analysis in
applied research. Sankhya serie A, 26, P 329-357.
Rao CR. (1973) - Linear Statisticallnference and its Application. (lst ed. : 1965) J. Wiley,
New York.
Rao CR. (1989) - Statistics and Truth. International Cooperative Publishing House,
Fairland.
Rasson J.-P., Kubushishi T. (1994) - The gap test: an optimal method for determining
the number of natural classes in cluster analysis. In : New Approaches in Classification
and Data Analysis, Diday E. et al. (eds), Springer Verlag, Berlin, p 186-193.
Reinert M. (1986) - Classification descendante hirarchique: un algorithme pour le
traitement des tableaux logiques de grandes dimensions. In Data Analysis and
Informatics,4, Diday et al. Ed., North-Holland, p 23-28.
Richardson M., Kuder G. F. (1933) - Making a rating scale that measures. Personnel
Journal., 12, p 71-75.
Ripley B. D. (1981) - Spatial Statistics. J. Wiley, New York.
Ripley B. D. (1983) - Computer generation of random variables: a tutorial. Inter.
Statist. Review, 51, p 301-319.
Ripley B. D. (1993) - Statistical aspects of neural networks. In: Networks and Clzaos-
Statistical and Probabilistic Aspects, BarndorH-Nielsen O.E., Jensen J. L., Kendall W.
S., (eds), Chapman and Hall, London, p 40-123..
Ripley B. D. (1994) - Neural nerworks and related methods of classification. J. R.
Statis/. Soc. B, 56, n03, p 409-456.
Ritter H., Martinez T., Schulten K. (1992) - Neural Computation and Self-Organizing
Maps : An Introduction. Addison Wesley, Reading.
Robert Ch. (1992) - L'analyse statistique baysienne. Economica, Paris.
Robert P., Escoufier Y. (1976) - A unifying tool for linear mwtivariate methods: the Rv
coefficient. Applied Statistics, 25, (3), P 257-265.
Romeder J.M. (1973) - Mthodes et Programmes d'Analyse Discriminante. Dunod, Paris.
Rosenblatt M. (1956) - Remarks on sorne nonparametric estimates of the density
function. Ann. of Math. Statist., 27, p 823-835.
Rouanet H., Le Roux B. (1993) - Analyse des donnes Multidimensionnelles. Dunod, Paris.
Roux M. (1985) - Algorithmes de Classification. Masson, Paris.
Roux M. (1991) - Basic procedures in hierarchical c\uster analysis. Applied Multivariate
Analysis in SAR and Environmental Studies O, Devillers and W. Karcher, eds), p 115-
135 ECSC, EEC, EAEC, Brussels and Luxembourg.
Bibliographie 425
Roy S.N. (1939) - P - Statistics or some generalisations of analysis of variance
appropriate to multivariate problems. Sankhya, 4, p 381-396.
Rumelhart O. E., Hinton G. E., Williams R J. (1986) - Leaming internaI representation
by back-propagating errors. Nature, 323, p 533-536.
Sabatier R (1984) - Quelques gnralisations de J'analyse en composantes principales
de variables intrumentales. Statist. et Anal. des Donnes, 9, (3), P 75-103.
Sabatier R (1987) - Analyse factorielle de donnes structures et mtriques. Statist. et
Anal. des Donnes, 12, (3), P 75-96.
Sabatier R., Lebreton J.-D., Chessel D. (1989) - Principal component analysis with
instrumental variables as a tool for modeling composition data. In : Mutiway Data
Analysis, Coppi R, Bolasco S. (eds), Elsevier, Amsterdam.
Saporta G. (1975 a) - Liaisons entre plusieurs ensembles de variables et codages de donnes
qualitatives. Thse 3C., Universit Paris VI.
Saporta G. (1975 b) - Dpendance et codage de deux variables alatoires. Revue
Statist. App/. 23, P 43-63.
Saporta G. (1977) - Une mthode et un programme d'analyse discriminante sur
variables qualitatives. In : Premires Journes Int. Analyse des Donnes et informatiques,
INRIA, Rocquencourt.
Saporta G. (1990) - Probabilits, analyse des donnes et statistiques. Technip, Paris.
Saporta G., Hatabian G. (1986) - Rgions de confiance en analyse factorielle. ln : Data
Analysis and Informatics, 4, Oiday E. et al. (eds), North-Holland, Amsterdam, p 499-
508.
Sade W. S. (1983) - Cubic clustering criterion. SAS Technical Report. A-l08. SAS
Institute Limited. Cary, Ne.
Schiffman S. S., Lance Reynolds M., Young F. W. (1981) - Introduction ta
Multidimensional Scaling. Academie Press, New York.
Schonemann P. H. (1968) - On two-sided orthogonal procrustes problems.
Psychometrika, 33, p 19-33.
SchOnemann P. H., Carroll R M. (1970) - Fitting one matrix to another under choice of
a central diJation an a rigid motion. Psychometrika, 35, p 245-255.
Schriever B.F. (1983) - Scaling of order dependent categorical variables with
correspondence analysis. Inter. Statist. Review, 51, p 225-238.
Searle S.E. (1971) - Linear Models. J. WiJey, New York.
Seber G.A.F. (1977) - Linear Regression Analysis, J. WiJey, New York.
Shepard R. N. (1974) - Representation of structure in similarity data: problems and
prospects. Psychometrika, 39, (4), P 373-421.
SiJverman B. W. (1986) - Density Estimation for Statistics and Data Analysis. Chapman
and Hall, London.
Sirat J. A. (1991) - A fast neural algorithm for principal component analysis and
singular value decomposition. Internat. J. of Neural Systems, 2, p 147-155.
Sneath P. H. A. (1957) - The Application of computers to taxonomy. J. General
Microbiology, 17, p 201-226.
Snee RD. (1974) - Graphical displays of two-ways contingency tables. Amer.
Statistician 28, p 9-12.
Sokal R. R, Sneath P. H. A. (1963) - Principles of Numerical Taxonomy, Freeman and
co., San-Francisco.
Sonquist J. A. and Morgan J. N. (1964) - The Detection of Interaction Effects. Institute for
Social Research, University of Michigan, Ann Arbor.
Spearman C. (1904) - General intelligence, objectively determined and measured.
Amer. Journal of Psychologl}, 15, P 201-293.
426 Statistique exploratoire multidimensionnelle
Stauffer D. F., Garton E. O., Steinhorst R. K. (1985) - A comparison of principal
component from real and random data. Ecology, 66, p 1693-1698.
Steinberg D.M., Hunter W.G. (1984) - Experimental Design: Review and comments.
Technometrics, 26(2), p 71-97.
Stone M. (1974) - Cross-validatory choice and assessment of statistical predictions. J.
R. Statist. Soc. B36, P 111-147.
Stone M. (1977) - An asymptotic equivalence of choice of model by cross-validation
and Akaike's criterion. J. Royal Statist. Soc. B, 39, P 44-47.
Sugiyama T. (1966) - On the distribution of the Jargest latent root and the
corresponding latent vector for principal component analysis. Ann. Math. Statist.
37, p 995-100l.
Sylvester J.J. (1889) - Messenger of Mn thematics (cit par Eckart, YOlU1g, 1939).19, n042.
Tabard N. (1972) - Consommation et statut social, analyse multidimensionnelle des
budgets familiaux. Consommation, 2, p 41-63.
Tanaka Y. (1984) - Sensitivity analysis in Hayashi's third method of quantification.
Behaviormetrika, 16, p 31-44.
Tenenhaus M. (1994) - Mthodes statistiques en gestion. Dunod, Paris.
Tenenhaus M., Leroux Y., Guimart c., Gonzales P. L. (1993) - Modle linaire
gnralis et analyse des correspondances. Revue de Statist. AppL. ,41, (2) P 59-86.
Tenenhaus M., Young F. W. (1985) - An analysis and synthesis of multiple
correspondence analysis, optimal scaling, dual scaling, homogeneity analysis and
other methods for quantifying categorical multivariate data. Psychometrika, 50,
p 91-119.
Ter Braak C. J. F. (1986) - Canonical Correspondence Analysis. : a new eigenvector
technique for multivariate direct gradient analysis. Ecology, 67, (5), P 1167-1179.
Ter Braak C. J. F. (1987) - The analysis of vegetation-environment relationships by
canonical correspondence analysis. Vegetatio, 69, p 69-77.
Ter Braak C. J. F. (1988) - Partial Canonical Correspondence Analysis. ln:
Classification and Related Met/lOds of Data Analysis, Bock H. H. (ed.) North Holland,
Amsterdam, p 551-558.
Theil H. (1971) - Principles of Econometries. J. Wiley, New York.
Thionet P. (1976) - Construction et reconstruction de tableaux statistiques. Annales de
l'iNSEE, 22-23, P 5-28.
Thom R. (1974) - Modles mathmatiques de la morphogense. 10/18, Bourgois, Paris.
Thomdike R.L. (1953) - Who belongs in the family. Psychometrika, 18, p 267-276.
Thurstone L. L. (1947) - Multiple Factor Analysis. The University of Chicago Press,
Chicago.
Tomassone R., Danzart M., Daudin J.J., Masson J.P. (1988) - Discrimination et
classement. Masson, Paris.
Tomassone R., Dervin c., Masson J.-P. (1993) - Biomtrie, Modlisation de phnomnes
biologiques. Masson, Paris.
Tomassone R., Lesquoy E., Millier C.(1983) - La rgression: nouveaux regards sur une
ancienne mthode statistique. Masson, Paris.
Toussaint G.T. (1974) - Bibliography on estimation of misclassification. IEEE Trans.
lnform. Theonj, IT-20, p 472-479.
Tucker L. R. (1958) - An inter-battery method of factor analysis. Psychometrika, 23,
(2).
Tucker L. R. (1964) - The extension of factor analysis to three-dimensional matrices.
In: Contribution to Mathematical Psychology, Harris C. W. (ed.), Uillv. of Wisconsin
Press, Madison, p 109-127.
Bibliographie 427
Tucker L. R. (1966) - Some mathematieal notes on three-mode factor analysis.
Psychometrika, 31, p 279-311.
Tukey J. W. (1958) - Bias and confidence in not quite large samples. Ann. Math.
Statist., (Abstract), 29, p 614.
Tukey J. W. (1977) - Exploratory Data Analysis. Addison Wesley, Reading, Mass.
Van Cutsem B. (ed.) (1994) - Classification and Dissimilarity Analysis. Springer-Verlag,
New York.
van Buuren S., and Heiser W.J. (1989) - Clustering N objects into k groups under
optimal scaling of variables. Psychometrika, 54, 4, P 699-706.
van der Heijden, P. G. M. (1987) - Correspondence Analysis of Longitudinal Categorical
Data. DSWO Press, Leiden.
van der Heijden P. G. M., de Leeuw J. (1985) - Correspondence analysis used
complementary to log-linear analysis. Psychometrika, 50, p 429-447.
van der Heijden P. G. M., de Falguerolles A., de Leeuw J. (1989) - A combined
approach to contingency table analysis with correspondence analysis and log-linear
analysis (with discussion). Applied Statistics, 38, p 249-292.
van Rijckevorsel J. (1987) - The application of Juzzy coding and horseshoes in multiple
correspondances analysis. DSWO Press, Leiden.
Wakimoto K., Taguri M. (1978) - Constellation graphical methods for representing
multidimensional data. Ann. of the Inst. of Statist. Math., 30, (1), p 97-104.
Ward J.H. (1963) - Hierarchical grouping to optimize an objective function. J. of Amer.
Statist. Assac., 58, p 236-244.
Watemaux C. M. (1976) - Asymptotie distribution of the sample roots for a non-
normal population. Biometrika, 63, p 639-645.
Weinberg S.L., CarroI J. D., Cohen H.,S. (1984) - Confidence region for INDSCAL using
the Jackknife and bootstrap techniques. Psychometrika, 49, p 475-49l.
Werbos P. J. (1974) - Beyond Regression: New Toois for Prediction and Analysis in the
Beluwioral Sciences. Ph.D. Thesis, Harvard University.
Werbos P. J. (1990) - Backpropagation through time: what it does and how to do il.
Proceedings of the IEEE, 78, (10), P 1550-1560.
Wermuth N. (1976) - Analogies between multiplicative models in contingency tables
and covariance selection. Biometrics, 32, p 95-108.
Wermuth N., Cox D. R. (1992) - Graphical models for dependencies and associations.
ln: Computational Statistics (Dodge Y., Whittaker J., eds), 1, p 235-250, Physiea
Verlag, Heidelberg.
Whittaker J. (1990) - Graphical Models in Applied Multivariate Statistics. J. Wiley,
Chichester.
Wilkinson J. H. (1965) - The Aigebraic Eigenvalue Problem. Clarendon Press, Oxford.
Wilkinson J. H., Reinsch C. (1971) - Handbook for Automatic Computation. 2, Linear
Algebra,Springer-Verlag.
Williams W. T. and Lambert J. M. (1959) Multivariate methods in plant ecology. (1)
Association analysis in plant communities. J. Ecology, 47, P 83-10l.
Williams W. T., Lance G. N. (1965) - Logic of computer based intrinsic classifications.
Nature, 207, p 159-16l.
Wishart D. (1969) - Mode analysis : a generalization of nearest neighbour whieh
reduces chaining effects. Numerical Taxonomy (A.J. Cole ed.) p 282-311, Academie
Press, London, .
Wishart J. (1928) - The generalized product-moment distribution in samples from a
nonnal multivariate population. Biometrika, 20A, p 32-43.
428 Statistique exploratoire multidimellsiollllelle
Wold S. (1976) - Pattern recognition by means of disjoint principal component
models. Pattern Recognition, 8, p 127-139.
Wold S. (1978) - Cross-validatory estimation of the number of components in factor
and principal component models. Technometrics, 20, p 397-405.
Wong M.A. (1982) - A hybrid c\ustering method for identifying high density c\usters. J.
of Amer. Statist. Assac., 77, p 841-847.
Wong M. A. (1985) - A bootstrap testing procedure for investigating the number of
subpopulations. J. Statis/. Comput. and Simul., 22, p 99-112.
Worsley K.]. (1987) - Un exemple d'identification d'un modle log-linaire grce une
analyse des correspondances. Revue de Statist. Appl. 35, P 13-20.
Yenyukov 1. S. (1988) - cf. Enyukov 1. S. (1988).
Young G. A. (1994) - Bootstrap : More than a stab in the dark. Statistical Science. 9,
p382-418.
A
Agrawala A. K. 251
Agresti A, 3, 284, 287
Aitchison J. 268
Aitken C. G. G. 268
Aitkin M. A. 290
Aknike H. 245, 289
Aluja Banet T. 329
Amari 5.283
Anastassakos 1. 374
Anderberg M.R. 145, 151
Anderson J. A. 284, 292, 293,
Anderson T. W. 32, 250, 251,266, 360,
375,376
Andrews D.F. 7
Arabie P. 9, 29
Art D. 333
Atkinson A. C. 223,245
B
Babeau A. 199
Bailey R. A. 237
Balbi S, 326
Baldi P. 281
Bali G. H. 148, 152
Ballif J.-F. 347, 353
Banfield C. F. 403
Bardos M. 277
Bamett B. 392
Bart/ett M. S. 365, 375
Beltrami E. 17
Benali H. 336
Benasseni J. 380
Brent R. P. 390
Benzcri J.-P. 1, 67, 94, 108, 138, 145,
151,167, 171, 172, 190, 191, 193,
194,271,281,298,330,336,368,369
Beran R. 395
Berge C. 164
Besley D. A. 223
Besse P. 395
Birch M. W. 284
Bishop Y. 284
Blasius J. 369
Bock H. H. 400, 401, 402, 404
Boeswillwald E. 57
Index des auteurs
Bolasco S. 337
Bourlard H. 282
Bouroche J.-M. 302
Bourret P. 283
Box G. E. P. 360
Breiman L. 302, 313
Brillouin L. 373
Bruynooghe M. 173
Burt C. 108, 111,135
Burtschy B. 333, 334
c
Cacoullos T. 251
Callant C. 270
Caraux G. 9
Carlier A. 334, 337
CarroI J. D. 108,338,339, 347, 398
Casin P. 347
Cattel R. B. 341,374
Caussinus H. 332, 333
Cazes P. 100,122,135,190, 193,194,
334,336
Celeux G. 251,269,276, 284, 299, 302,
313, 401
Chabanon C. 283
Chandon J.-L. 145
Chang J. J. 338
Chang T. C. 361
Chateau F. 268
Chatterjee S. 223
Cheng B. 278, 282
Chernoff H. 7
Chessel D. 324, 336
Choudan} Hanumara R. 361
Christensen R. 284, 289
Clemm D. S. 361
Cliff A. D. 334
CliffN.339
Cochran W. G. 237
Cook R. D. 245
Cooper M. C. 403,404
Coppi R. 337
Cormack R. M. 145, 212
Comfield J. 292
Corsten L. C. A. 362
430
Cot trell M. 282
Cox D. R. 237, 245, 290, 292, 300
Cramer H. 378
Critchlet} F. 380
D
D'Ambra L. 326
Dagnlie P. 237
Darmois G. 319
Darroch ]. N. 290
Daudin ].-]. 295, 395
Davis A. W. 376
Davis C. 381
Day N. E 401
De Leeuw]. 108, 295, 298, 299, 337
Decarli A. 295
Delecroix M. 267
Deming W. E. 384
Devaud ].-M. 292
Devijver P. 251
Deville ].-c. 384
Diaconis P. 395
Diday E. 148, 151, 152, 403
Dillon W. R. 251
Dobson A. 284
Dodge Y. 29
Doledec S. 336
Domenges D. 29
Draper N. R. 223
Droesbeke ].-]. 290
Drouet d'Aubigny G. 374,398
Dubes R. C 400, 402
Dubuisson B. 268, 283
Duda R. O. 251
Dugu D. 360
E
Eastment H. T. 395
Ecknrt C 16, 23, 53, 298, 400
Efron B. 387, 388, 392, 395, 398
Escofier B. 67,81, 108, 121, 270, 299,
331,334,336,344,352,353,379,381
Escoufier 89, 190, 295, 299, 332, 342,
343
Everitt 401
F
Falguerolles (de) A. 290
Falissard B. 29
Faraj A. 334
Farebrother R. W. 225
Statistique exploratoire multidimensionnelle
Fnelon ].-P. 5, 359
Ferr L. 395
Fichet B. 29, 225
Fienberg S. E. 284
Finch M. D. 374
Finden CR. 335
Fine ]. 245, 247, 290
Fisher R. A. 1,52,67,237,251,360
Fisher W.D 121, 152
Fix E. 267, 268
Florek K. 165
Flun} B. 376
ForgJ} E. W. 148
Fort ].-C 282
Fourgeaud C. 223
Francisco C. A. 374
Friedman]. 266, 270, 302, 332
Fukunaga K. 251
Furnival G. M. 244
G
Gabriel K. R. 17, 290
Gallego F. ]. 122
Gallinari P. 283
Garnett ]. C 246
Geary R. C. 331, 334
Geisser S. 269
Gift A. 16, 380, 395, 398
Gill/la Z. 190, 295
Girsllick M. A. 360, 375, 376
Gnanadesikan R. 251,333
Goldstein M. 251
Good P. 3
Goodman L. A. 284, 295, 300, 310
Gordon A. D. 145, 155, 335, 400
Govaert G. 190
Gower]. C 17, 166, 339, 403
Green P. ]. 392
Greenacre M. 190,369,382,395
Grelet Y. 122
Grizzle]. E. 289
Guegen A. 302
Guttman L. 67, 108, 374, 398
H
Haberman S. ]. 284, 288, 289
Hall D. ]. 148, 152
Hand D. ]. 251, 267, 269, 388, 401
Hardy A. 404
Harman H. H. 32, 246
Harsl1man R. A. 337, 338
Hart P. E. 251
Harler H. L. 223
Index des auteurs
Hartigan J. A. 145, 400
Hatabian G. 398
Hayashi C. 67, 108, 338, 380
Hayashi F338
Heiser W. 1. 94, 189
Hertz 1. 283
HighLetjman W. H. 269
Hill M. O. 67
Hirschfeld H. O. 67
Hodges J. L. 267, 268
HolLand P. 284
HoLmes-Junca S. 382,392,395
Hornik K. 281, 283
Horst P. 32, 108, 347
Hosmer O. W. 292
HotelLing H. 32, 213
HouzeL Y. 199
Hsu P. L. 360
Huber P. J. 225
Hudon G. 295
Hunter W. G. 237
HurLey J. R. 341
1
Jemma A. F. 234
J
Jain A. K. 400, 404
Jambll M. 145, 162, 190
Jeffreys H 371
Jmel S. 290
Johnson S. C. 156
JOILiffe L. 374
Jones M. C. 332
Jordan C. 17
Joreskog K. 250
JousseLin B. 383
K
Kahan W. M. 381
Kaiser H. F. 374
Kamp Y. 282
KanaL L. 251
Karillmen 1. 281
Kato T. 270, 379
Kaufman L. 145
Kazmierczak f.-B. 53
Kendall M. G. 51,362,404
Kettenring R. J. 195
Kharchaf J. 195
Kiers H. A. L. 337
Kittler 1. 251
Kohonen T. 281, 282
Krishnaiah P. R. 251,361
Kroonenberg P. M. 337
KruskaL f. B. 9, 164,398
KruskaL W. 310
Krzanowski W. 1. 380, 395
Kshirsagar A. M. 362
Kubushishi T. 404
Kuder O. F. 67
KuILback S. 289, 371, 372
L
L'Hermier des Plantes H. 342
Lacllenbruch P. A. 251, 269
Lafosse R. 339
Lancaster H. O. 362, 378
Lance G. N. 155, 404
Laplace P. S. 225
Lauro N. C. 295, 326
Lavit C. 342
Lawley O. N. 250, 375
Le Calv G. 225
Le FolL Y. 334
Lebeaux M.-O. 145,190
Lebreton J.-O. 324
LechevaILier Y. 313
Leclerc A. 132, 135, 276, 295
Lelu A. 283
LeibLer R. A. 289
Lemeshow S. 29)
Lerman I. C. 145
Leroux B. 270, 379, 381
M
Mahalanobis P. C. 251, 351
Malinvaud E. 223, 378
MaILows C. L. 2, 245, 382
Marcotorchino F. 9
Masson M. 108, 347
Mat/zeron G. 331
Matusita K. 404
Maxwell A. E. 250
McCuILagh P. 245, 289
McLachLan G. 1. 251, 268
McQueen J. 148, 152
McQuitty L. L. 172
Mehta C. R. 3
Mehta M. L. 361
Mot A. 334
Messenger R. C. 302
Meulman J. 395
Metjer R. 29
Michelat G. 205
Micketj M. R. 269
Milgram M. 283
Miller R. G. 385
Milligan G. W. 403, 404
431
432
Mirkin B. 195
Mollire J.-L. 403
Mom A. 331, 332, 334
Mood A. M. 360
Moran P. A. P. 334
Moreau J. 334
Moreau J. V. 404
Morgan J. M. 302
Mosteller F. 223
Muirhead R J. 360, 376
Mulaik S. A. 246
Murtagh F. 145
N
Nakache J.-P. 108, 251, 276, 284,299,
302
Nakhl F. 131
Neave H. R 390
Nelder J. A. 245, 289, 292
Newman T. G. 387
Nishisato S. 108
o
O'Neill M. E. 362
Odell P. L. 387
Ohsumi N. 181, 404
Oja E. 281, 282
Olshen R A. 302
Ord J. K. 334
p
g ~ s J.-P. 342
Pags J. 344, 352
Palm R. 234
Parzen E. 266, 267, 289
Pearson K. l, 32, 73
Perruchet C 400
Pillai K. C S. 361
Pinson S. 145
Pousse A. 376
Priee B. 223
Prim RC 165
Proriol J. 279
Q
Quenouille M. 385
R
Ramsay J. O. 398
Rao C R. 32, 53, 223, 319, 378,398
Statistique exploratoire multidimensionnelle
Rasson J.-P. 404
Richardson M, 67
Ripley B. D. 278, 334, 387, 402
Ritav Y. 295
Ritter H. 282
Robert Ch. 264
Robert P. 343
Romeder J.-M. 269
Rosenblatt M. 266, 267
Ross G. 166
Rousseau R 195
Rousseeuw P. J. 145
Roux M. 145
Roy S. N. 360
RulJin H. 250
Ruiz A. 333
Rumelhart D. E. 279
s
Sabatier R. 323, 334
Saporta G. 223, 275, 276, 347, 360, 398
Sarle W. S. 403
Stirndal C-E. 384
SChiffman S. S. 9, 398
SchOnemann P. H. 339
Searle S. E. 223
Seber G. A. F. 223
Shepard R N. 9, 398
Sibson R 332
Silverman B. W. 267
Simon M. 205
Sirat J. A. 282
Smith H. 223
Sneath P. H. A. 145, 155, 156
Snee R. D. 68
Sokal R. R 145, 155
Sonquist J. A. 302
Spearman C 51, 246
Srivastava M. S. 395
Stauffer D. F. 395
Steinberg D. M. 237
Stephan F. F. 384
Stone M. 269, 290, 302
Stuart A. 362
Sylvester J. J. 16
T
Tabard N. S, 108,329,332
Taguri M. 7
Tanaka Y. 380
Tenenhaus M. 94, 108, 295, 302
rlldex des auteurs
Ter Braak C J. F. 324
Theil H. 223
Thionet P. 384
Thom R. 373
Thompson W. A. 361
Thorndike L. M. 148, 152
Thurstone L. L. 246
Tibshirani R. J. 282, 387
Titterington O. M. 278, 282
Tornassone R. 223, 237, 251, 267, 385
Toussaint G. T. 269
Trcourt P. 295
Tucker L. R. 337, 339
Tukey J. W. 2, 223, 282, 332, 382, 385
Turlot J.-C 347
v
Van Buuren $. 189
Van Cutsem B. 29
Van der Heijden P. G. M. 295,298,337
Van Rijckevorsel J. 94, 122
Valle M. 29
w
Waikar V. B. 361
Wakimoto K. 7
Ward J. H. 191,194,195
Waternaux C M. 376
Wedderburn R. W. M. 245, 289,292
Weinberg S. L. 398
Weisberg S. 245
Werbos P. J. 279
Wermuth N. 245, 290
Whittaker J. 245, 290
Wilkinson J. H. 270,379,380
Williams W. T. 155,404
Wilson R. W. 244
Wish M. 9,398
Wishart J. 359, 360, 361
Wishart O. 168
Wald S. 271, 395
Wang M. A. 177,404
Worslel) K. J. 295, 299
y
Yates F. 52
Yenyukov J. $. 333
Young F. W. 108,
Young G. 16, 23, 53, 108, 298, 400
Young G. A. 388
Z
Zeng G. 402
433
Index des matires
A
Agrgation
autour de centres mobiles 146, 148
hirarchique 155
mixte 177
selon la variance 167
Aides l'interprtation (cf. rgles)
Algorithme
de classification 156
de classification mixte 203
de Florek 165
de Kruskal 164
de Prim 165
de segmentation 304
mixte 147, 177
Analyse canonique 67,210,213,
des correspondances 324
gnralise 212, 338, 347,348
Analyse de contigut 331,332,333
Analyse de covariance 210, 223, 241,
242
Analyse de variance 210, 223, 237,
254, 269, 284, 347
multidimensionnelle, 268
Analyse des corrlations partielles 53
Analyse des correspondances 14, 67-
135
internes 336
multiples 14, 89, 108, 113, 185,
219,220,269,276, 347,374,392
multiples conditionnelles, 336
non-symtrique 325
Analyse des diffrences locales 334,
336
Analyse des rangs 51, 359
Analyse (factorielle) discriminante
67,210,213, 218, 251-283,
barycentrique 133, 276
quadratique 263, 265, 273
qualitative 275
Analyse du nuage rsiduel 322
Analyse en axes principaux 262
Analyse en composantes principales
13, 26,32- 57, 198, 234, 272, 281,
333, 345, 357, 380, 395
Analyse factorielle classique des
psychologues (analyse en facteurs
communs et spcifiques) 210, 246
Analyse factorielle multiple 212,338,
344, 345, 352
Analyse gnrale 14, 15 -31
Analyse
inter-classes 335
interne (intra, intra-elasses) 212,
272, 335, 336
lisse 334
locale 212, 327, 331
logarithmique 53
mono-(multi) factorielle 246
multivarie descriptive gnralise
(MDSG) 347
partielle/projete 212, 319, 323,
333, 336
Analyse procrustenne 212,339-341,
346, 391
orthogonale 338, 339, 340
sans contrainte 341
Apprentissage 264
par coeur 275
Arbre
de dcision binaire. 302
de longueur minimale 159, 163-166
Articulation exploration-infrence 300
Autamatic Interaction Detection 302
Axiome de rductibilit 173
B
Back-propagatian. 279
Bande du tableau de Burt 276
Base orthogonale hirarchise 234
Bootstrap 4, 7, 265, 379, 385, 386, 389,
395, 398, 403
Budget-temps 59, 200
c
Calculs de stabilit 358,379,389
CART (mthode) 302
CESP 57, 103
Classement 252,317
Classification
Illdex des matires
partir des facteurs 187
ascendante lrarchique 155-175
autour de centres mobiles 148
mixte 177
supervise 317
Codage
condens 109
des variables 382, 383
des variables nominales 238
disjonctif (complet) 368, 117, 259
Coefficient
de contigut 329, 330
de corrlation 37, 41, 42,197,214,
387
de corrlation canonique 216, 262
de corrlation multiple 228, 229,
230, 245
de corrlation partielle 319, 320
de rgression 231,258
Rv d'Escoufier et Roberl 343
Colinarits 234, 238
Comparaisons multiples 125, 290,301
Complmentarit analyses / classifi-
cation 189, 199
Compression de signal 281
Conditions de vie et aspirations des
Franais 135, 199
Contacts-mdia 103, 104, 389, 390
Contribution 94, 95, 105, 121
relative (cf. cosinus carrs)
Cosinus carrs 95, 96, 105
Couche cache (cf. perceptron)
Covariance
locale 328, 331
partielle 320
Credit-seoring 251
Critre
d'affinit 404
d'agrgation de Ward 190
de Kullback-Leibler (dviance) 299
de la mdiane 173
de puret maximale 305, 310
de variance rsiduelle minimale 307
de Ward gnralis 170, 173, 403
de Wilks 402
d'agrgation 156
externe (cf. procdures)
D
Dcomposition aux valeurs singulires
16, 271, 281, 300, 337, 340, 348,
400
Delete-d Jaekknife 387
Dendrogramme 155, 175, 191,199,203
435
Description sta tistique des classes 177,
181,202, 188
Diagnostic automatique 251
DISQUAL (mthode) 275
Dissection 404
Distance
de Hellinger 29
de Mahalanobis (ou gnralise)
258, 265, 266, 352, 372
de Mahalanobis globale 264, 272,
274
de Mahalanobis locale 264, 269,
273, 274
du X2 73, 81, 100, 114, 119, 148,
299
du plus petit saut maximal 162
euclidienne 34, 73, 148,271,274
L1 28,225
ultramtrique 159
Distribution du X2 (cf. loi)
Divergence de Jeffreys 371
E
chantillon d'apprentissage 252,268,
269, 273, 274, 280, 313
chantillon-test 273, 303, 313, 373,
375
cologie (relevs cologiques) 324, 370
Effet
Guttman 93, 94, 330
de chane 167
lments supplmentaires 27, 43, 99,
107, 122, 296, 391
lments terminaux 158
Enqutes 57, 199, 384
Entropie de Shannon 310
preuves empiriques de stabilit 382
qui-divisantes (divisions) 316, 318
qui-rductrices (divisions) 318
quivalence distributionnelle 74,81,82
Erreurs de mesure 382, 383
Estimation directe (non-paramtrique)
de la densit 266, 267
Exemples d'application 57, 103, 135,
273
F
Facteur de taille 56, 199
Facteurs communs/ spcifiques 247
Fluctuations d'chantillonnage 382,
384, 385
436
Formes fortes (groupements stables)
152, 153
Formule
de reconstitution des donnes 22,
23, 89, 192, 340,365
de transition (cf. relations)
G
Graphe
associ une partition 336
complet, valu, connexe, partiel
162-165
rgulier 330, 332
H
Hirarchie de partitions, 155
Hirarchie indice 158, 159
Histogramme des indices 180, 403
Homogeneihj analysis 108, 395
Hybrid clustering 177
Hypothse
d'homognit spatiale 402
d'indpendance/ nulle 70, 91, 183,
294, 299, 359, 378,399
de normalit 231, 266
1
Indpendance des taux d'inertie et de la
trace 364
Indice
de diversit de Gini 310
de niveau 159, 170
Individus supplmentaires (cf.
lments)
INDSCAL (modle) 338, 398
Information de Shannon-Wiener 371
Interstructure 342,346
Intervalles de confiance d'Anderson
376
Intrastructure 343,345
lIerative proportional fitting 384
J
]ackknije 4, 379, 385, 398
Joint correspondence analysis 369
Statistique exploratoire multidimensionnelle
Juxtapositions de tableaux de
contingence 391
K
K-means (mthode) 152
L
Lecture directe (algorithmes) 148, 281
Ligne supplmentaire (ou ilIustrative)
(cf. lments)
Loi
binomiales 246
de Fisher 233
de Laplace-Gauss (cf. loi normale)
de Poisson 246, 288
de Student 232
de Wishart 359, 360,361
des valeurs propres 359, 362
du X
2
360
ganuna 246
hypergomtrique 184
multinomiale 288,359
normale (ou de de Laplace-Gauss)
52, 182, 184, 225, 245, 359
normale sphrique 267
M
Matrice associe un graphe
symtrique 369
Matrice
de contigut 328
de Wishart 196, 362, 364, 375
des corrlations 61
des corrlations locales 331
Matrice des covariances
49, 213, 248, 254, 265, 269, 270,
272
locales 270, 331
partielles 323
intra classes et interclasses 327
Matrices idempotentes (cf. oprateur
projection) 217
Mthode
de Newton-Raphson 246, 289
de validation 379
delta 398
des m (ou k) plus proches voisins
(cf. rgle)
Index des matires
des moindres carrs 226, 234
des moindres carrs itratifs 289
des moindres carrs pondrs
itratifs 246
des noyaux 266
du maximum de vraisemblance 246,
288, 293
Mthodes neuronales 266, 277
Mthode STATIS 212,338,342
Mtrique (cf. distance)
Modalits supplmentaires (cf. aussi
lments) 123, 140
Modle
baysien d'affectation 264, 265
linaire 210, 223, 265
linaire gnralis 245, 246, 289,
292
log-linaire 211, 246, 284, 285, 295
log-linaire hirarchique 287
log-linaire non-satur 299
logistique 291-295, 299
Modles
erreurs sur les variables 246
auto-organiss 280
de mlanges (en classification) 401
de partitions fixes 401
de variables latentes 246
dcomposables 290
fonctionnels (effet fixes) 246
graphiques 290
superviss / non-superviss 280
RC de Goodman, 300
structurels ( effets alatoires) 246
Multidimensionn[ scnling 338, 398
MULTlSCALE (modle) 398
N
Neurones, neuro-mimtique 277-282
Non-rponses 109, 204
Normes (cf. distances)
Nuage moyen ou compromis 343
Nues dynamiques 146, 148
o
Oprateur de projection 217, 228, 272,
348
Ordonnance 158
Orthogonalisation de Gram-Schmidt
218
437
p
PARAFAC (modle) 338
Perceptron multi-eouches 278
Polythtique (classe) 204
Pourcentage
de bien classs 268, 273, 375
de variance (d'inertie) 24, 54, 61
Pouvoir discriminant 256
Prordonruunce 158
Problmes
mal poss 234, 270
pauvrement poss 234, 270
Procdure
d'lagage 303
de consolidation 180
Procdures externes (de validation)
374, 389, 400, 404
Processus
de Poisson gnralis 402
de Poisson stationnaire 404
Projection pursuit (projections
rvlatrices) 331, 332
R
Racine canonique (cf. coeff. de
corrlation)
Reconnaissance des formes 251, 268,
277
Reconstitution des donnes
(cf. formule de reconstitution)
Rchantillonnage 4, 265, 358, 379,385
Rgle
d'affectation 309
de Bayes 266
des m( ou k) plus proches voisins
267, 268, 333
d'affectation 263, 265
Rgles d'interprtation 89, 120, 181
Rgression
logistique 266, 279, 284, 290, 317
(simple, multiple) 210, 213, 223,
227, 257, 269, 280, 303, 306, 347
multiple (variables nominales).237,
284
pas--pas 317
rgularise (cf. rgularisation)
sur composantes principales 233
sur variables mixtes 241
Rgularisation
de la rgression 233, 234, 238
en analyse discriminante 269
438
en analyse canonique gnralise
353
Relation
de contigut 329
de contigut a posteriori 332
Relations de transition 26, 75,78, 85,
115, 261
Rplications 390,391, 395
Reprsentation simultane 45, 46, 67,
78, 87, 99, 118
Rseaux de neurones (neuro-
mimtiques) 277-282
Robuste (robustesse) 225, 82,268
s
Saut
maximal 156, 173
minimal (single linkage)156, 159-
166, 173
Score (discriminant) (scoring) 265, 276,
277
Segmentation 211, 302, 317
Self organizing maps 282
Sries chronologiques de tableaux 211
Simulation (d'chantillon) 4, 196,385,
403
Sous-tableau du tableau de Burt 131
Stabilit
des axes (des facteurs) 379
des fonctions discriminantes 265
des formes 373, 379
externe/interne (cf. aussi
procdures de validation) 382
STATIS (mthode) 344, 352, 395
Statistique
de Fisher 240, 241
de Student 293
de Wald 293
Stratgie de classification mixte 177
Structure
a priori de l'ensemble des individus
327
de chaine 327
de partition 335
de graphe 212, 327
T
Table de Fisher 243
Tableau (table)
de contingence 67, 104,390
Statistique exploratoire multidimensionnelle
de contingence de Burt 111, 112,
126, 137, 138,276,335, 369,395
disjonctif complet 108,110,111,
113, 126, 272, 276
de contingence multidimensionnel
211, 298
multiple 212, 337
Tableaux pseudo-alatoires. 391
Taux d'erreur apparent 268, 311
Taux d'erreur par resubstitution 268
Taux d'inertie 24, 129, 137, 368
Test
d'interaction 241
de sphricit 367
du X
2
91, 285,289, 359
du rapport de vraisemblance 289
fishrien 2
Thmascope 202
Thorme
d'Eckart et Young (cf. analyse
gnrale, dcomposition aux valeurs
singulires) 337
de Bayes 264, 291
de Gauss-Markov 230
de la limite centrale 182
de la mdiane 171
de Wielandt-Hoffman 380, 381
Thorie
de l'information 289
de la perturbation 270, 395
des variables rgionalises 331
Tirage pseudo-alatoire 387
Trajectoires 344, 346
u
Ultramtrique 159, 162
infrieure maximale (sous-
dominante) 159, 161
v
Valeur pratique de l'infonnation 373,
383
Valeur-test 64, 66, 123, 124, 125, 140,
181, 184
Validation croise 4, 265, 268, 303,
375, 379, 385, 388, 389, 395
Validation des classifications 399
Index des matires
Validit et porte de rsultats 89, 296,
383
Variables
endognes (dpendantes) 223
actives 28, 296
canoniques 215
exognes (explicatives) 223, 319
instrumentales 53, 319
supplmentaires (cf. aussi:
lments) 42, 57, 236
Variance
externe 256
inter-classes 403
439
intra-classes 255
locale 328, 329
Variogramme 331
Voisins rciproques 171-173
z
Zones de confiance 358, 379, 389, 395
Zones de garde 396, 397
Achev d'imprimer
sur les presses de l'imprimerie
Arts Graphiques du Perche
28240 Meauc
Dpt lgal Octobre 1995
Imprim en France
Ludovic Lebart Alain Morineau
Marie Piron
Statistique exploratoire
multidimensionnelle
Ce livre s'adresse aux chercheurs, ingnieurs, professeurs, tu-
diants qui sont confronts dans leurs travaux aux recueils de donnes
multidimensionnelles (ou multivaries). Les enqutes socio-conomiques,
pidmiologiques et de marketing en sont des exemples courants. Mais les
relevs cologiques, les bases documentaires, les donnes de tldtec-
tion, les mesures de contrle de qualit constituent l'heure actuelle des
domaines en dveloppement rapide.
Destin un public assez large, appuy sur de nombreux exemples, l'ou-
vrage prsente les concepts de base et les fondements des mthodes
exploratoires de base (analyses factorielles, classification), et rend compte
aussi des travaux les plus rcents. Les auteurs insistent sur la complmen-
tarit de ces mthodes et sur leur insertion dans l'arsenal des mthodes
statistiques plus classiques. L'articulation avec les techniques explicatives
et prvisionnelles, la validit et la stabilit des rsultats sont deux points
sensibles largement dvelopps.
L'ouvrage peut tre lu plusieurs niveaux: celui du praticien, celui de l'uti-
lisateur exigeant, enfin celui du chercheur en mthodologie statistique.
., -r
Code 042886
ISBN 2100028863

You might also like