Data Mining I - Exploration Statistique (Philppe Besse)

P UBLICATIONS DU L ABORATOIRE
DE
S TATISTIQUE ET P ROBABILIT E S
Data mining I
Exploration Statistique
A LAIN BACCINI & P HILIPPE B ESSE
Version septembre 2005 mises a` jour : www.lsp.ups-tlse.fr/Besse
Laboratoire de Statistique et Probabilites UMR CNRS C5583

Universite Paul Sabatier 31062 Toulouse cedex 4.
Avant-propos
Motivations du data mining
Le developpement des moyens informatiques et de calcul permet le stockage (bases de donnees),
le traitement et lanalyse densembles de donnees très volumineux. Plus recemment, le perfectionnement des interfaces offrent aux utilisateurs, statisticiens ou non, des possibilites de mise en
uvre très simples des outils logiciels. Cette e volution, ainsi que la popularisation de nouvelles
methodes algorithmiques (reseaux de neurones, support vector machine...) et outils graphiques,
conduit au developpement et a` la commercialisation de logiciels integrant un sous-ensemble de
methodes statistiques et algorithmiques sous la terminologie de Data Mining : la prospection ou
fouille de donnees. Cette approche, issue du marketing specialise dans la gestion de la relation
client (GRC) (client relation management ou CRM) trouve e galement des developpements et applications industrielles en controle de qualite ou meme dans certaines disciplines scientifiques dès
lors que les ingenieurs et chercheurs sont confrontes a` un volume de donnees important. Besse
et col. (2001) presente une introduction detaillee de cette demarche et des relations quelle entretien avec les disciplines traditionnelles Statistique et Informatique. Laccroche publicitaire souvent
citee par les e diteurs de logiciels (SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons devaluer et dexperimenter la realite de cette annonce qui sadresse a` un marche
en pleine expansion. Les entreprises sont en effet très motivees pour tirer parti et amortir, par une
aide a` la decision quantifiee, les couts de stockage des teras octets que leur service informatique
semploie a` administrer.
Le contexte informationnel de la fouille de donnees est celui des data wharehouses. Un entrepot de donnees, dont la mise en place est assure par un gestionnaire de donnees (data manager)
est un ensemble de bases relationnelles extraites des donnees brutes de lentreprise et relatives a`
une problematique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prevoir et anticiper au mieux
les tendances du marche,
suivi des fichiers clients dune banque, dune assurance, associes a` des donnees socioe conomiques (INSEE), a` lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des operations de marketing ou des attributions de credit. La gestion de
la relation client vise a` une individualisation ou personnalisation de la production et de la
communication afin devacuer la notion de client moyen.
recherche, specification puis ciblage de niches de marche les plus profitables (banque) ou
au contraire les plus risquees (assurance) ;
suivi en ligne des paramètres de production (tracabilite) en controle de qualite pour detecter
au plus vite lorigine dune defaillance ;
prospection textuelle (text mining) et veille technologique ;
3
4
web mining et comportement des internautes ;
...
Cet environnement se caracterise par
une informatique heterogène faisant intervenir des sites distants (Unix, Dos, NT, VM. . . )
a` travers le reseau de lentreprise (intranet) ou meme des accès exterieurs (internet). Des
contraintes defficacite, de fiabilite ou de securite conduisent a` repartir, stocker linformation
a` la source plutot quà la dupliquer systematiquement ou a` la centraliser.
Lincompatibilite logique des informations observees sur des e chantillons differents ne presentant
pas les memes strates, les memes codifications.
Des volumes et flux considerables de donnees issues de saisies automatisees et chiffres en
tera-octets.
Contrairement a` une demarche statistique traditionnelle (planification de lexperience), les
donnees analysees sont stochees a` dautres fins (comptabilite, controle de qualite...) et sont
donc prealables a` lanyle.
La necessite de ne pas exclure a priori un traitement exhaustif des donnees afin de ne pas
laisser e chapper, a` travers le crible dun sondage, des groupes de faibles effectifs mais a` fort
impact e conomique.
Strategie du data mining

Dans tout ce qui suit, nous disposons dun ensemble dobservations. Les caracteristiques ou
variables X = (X 1 , . . . , X p ) dites explicatives ont e te observees sur un ensemble de n objets, individus ou unites statistiques. Un premier travail, souvent fastidieux mais incontournable, consiste
a` mener une exploration statistique de ces donnees : allure des distributions, presence de donnees
atypiques, correlations et coherence, transformations e ventuelles des donnees, description multidimensionnelle, classification. Cest lobjet de la première partie de ce cours. La deuxième
partie decrit les outils de modelisation statistique ou encore dapprentissage utilisables pour la
modelisation a` fin de prediction dune variable cible Y par les variables explicatives X j .
Lenchanement de ces e tapes (exploration puis apprentissage) constitue le fondement de la
fouille de donnees.
Pour comprendre la structure et bien apprehender le contenu de ce cours, il est important
dintegrer rapidement ce quest la strategie a` mettre en uvre pour aboutir au bon apprentissage
ou encore au bon modèle predictif recherche a` partir des donnees observees.
Attention, contrairement a` une demarche statistique traditionnelle dans laquelle lobservation
des donnees est integree a` la methodologie (plannification de lexperience), les donnees sont ici
prealables a` lanalyse. Neanmoins il est clair que les preoccupations liees a` leur analyse et a` son
objectif doivent intervenir le plus en amont possible pour sassurer quelques chances de succès.
Les e tapes de la fouille de donnees :
i. Extraction des donnees avec ou sans e chantillonnage faisant reference a` des techniques de
sondage appliquees ou applicables a` des bases de donnees.
ii. Exploration des donnees pour la detection de valeurs aberrantes ou seulement atypiques,
dincoherences, pour letude des distributions des structures de correlation, recherche de
typologies, pour des transformations des donnees. . .
iii. Partition aleatoire de lechantillon (apprentissage, validation, test) en fonction de sa taille et
des techniques qui seront utilisees pour estimer une erreur de prediction en vue des choix
de modèle, choix et certification de methode.
5
iv. Pour chacune des methodes considerees : modèle lineaire general (gaussien, binomial ou
poissonien), discrimination parametrique (lineaire ou quadratique) ou non parametrique,
k plus proches voisins, arbre, reseau de neurones (perceptron), support vecteur machine,
combinaison de modèles (bagging, boosting).
estimer le modèle pour une valeur donnee dun paramètre de complexite : nombre de variables, de voisins, de feuilles, de neurones, duree de lapprentissage, largeur de fenetre. . . ;
optimiser ce paramètre (sauf pour les combinaisons de modèles affranchies des problèmes
de sur-apprentissage) en fonction de la technique destimation de lerreur retenue : e chantillon
de validation, validation croisee, approximation par penalisation de lerreur dajustement.
v. Comparaison des modèles optimaux obtenus (un par methode) par estimation de lerreur de
prevision sur lechantillon test ou, si la presence dun e chantillon test est impossible, sur
le critère de penalisation de lerreur (Akake par exemple) sil en existe une version pour
chacune des methodes considerees.
vi. Iteration e ventuelle de la demarche precedente (valisation croisee), si lechantillon test est
trop reduit, depuis (iii). Partitions aleatoires successives de lechantillon pour moyenner sur
plusieurs cas lestimation finale de lerreur de prediction et sassurer de la robustesse du
modèle obtenu.
vii. Choix de la methode retenue en fonction de ses capacites de prediction, de sa robustesse
mais aussi, e ventuellement, de linterpretabillite du modèle obtenu.
Objectif
Lobjet de ce cours est dintroduire, sous une forme homogène et synthetique, les principales
techniques dexploration, de modelisation ou encore dapprentissage utilisees le plus couramment
en fouille de donnees et citees dans la section precedente. Il a fallu faire des choix dans lensemble des techniques proposees et leurs nombreux avatars. La forme et le contenu sont guides
par les besoins exprimes lors des stages realisees par les e tudiants du Master professionnel de
Statistique & Econometrie ou encore par les thèmes des collaborations industrielles du laboratoire de Statistique et Probabilites1 . Le lecteur peut se faire une idee du nombre très important de
methodes et variantes concernees par lapprentissage supervisee ou non supervise en consultant
une bote a` outil Mathlab de classification2 . Remarquons que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et simposant par des interfaces
très conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement a` la diffusion, voire la penetration, de methodes très sophistiquees dans des milieux impermeables a` une
conceptualisation mathematique trop abstraite.
Le choix a e te fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de chaque methode dans son cadre disciplinaire tout en tachant dhomogeneiser notations
et terminologies. Lobjectif principal est de faciliter la comprehension et linterpretation des techniques des principaux logiciels pour en faciliter une utilisation pertinente et reflechie. Un exemple
e lementaire de recherche dun score dappetance issu du marketing bancaire illustre les differents
points abordes. Traite avec les logiciels SAS, Splus ou R, il sert de fil rouge tout au long du
cours.
1
2
http ://www.lsp.ups-tlse.fr
http ://tiger.technion.ac.il/ eladyt/classification/
Chapitre 1
Introduction
1
Objectif
Toute e tude sophistiquee dun corpus de donnees doit e tre precedee dune e tude exploratoire a`
laide doutils, certes rudimentaires mais robustes, en privilegiant les representations graphiques.
Cest la seule facon de se familiariser avec des donnees et surtout de depister les sources de
problèmes :
valeurs manquantes, erronees ou atypiques,
modalites trop rares,
distributions anormales (dissymetrie, multimodalite, e paisseur des queues),
incoherences, liaisons non lineaires.
...
Cest ensuite la recherche de pretraitements des donnees afin de les rendre conformes aux techniques de modelisation ou dapprentissage quil sera necessaire de mettre en uvre afin datteindre
les objectifs fixes :
transformation : logarithme, puissance, reduction, rangs. . . des variables,
codage en classe ou recodage de classes,
imputations ou non des donnees manquantes,
lissage, decompositions (ondelettes, fourier) de courbes,
reduction de dimension, classification et premier choix de variables,
classification ou typologie des observations.
Attention, le cote rudimentaire voire trivial de ces outils ne doit pas conduire a` les negliger au profit dune mise en uvre immediate de methodes beaucoup plus sophistiquees, donc beaucoup plus
sensibles aux problèmes cites ci-dessus. Sils ne sont pas pris en compte, ils reapparatront alors
comme autant dartefacts susceptibles de denaturer voire de fausser toute tentative de modelisation.
Contenu
Cette partie se propose tout dabord dintroduire brièvement les techniques permettant de
resumer les caracteristiques (tendance centrale, dispersion, bote a` moustaches, histogramme, estimation non parametrique) dune variable statistique ou les relations entre variables de meme type
quantitatif (coefficient de correlation, nuage de points, ou qualitatif (2 , Cramer, Tchuprow) ou de
types differents (rapport de correlation, diagrammes en botes parallèles). Les notions presentees
sont illustrees sur un jeu de donnees typique dun score dappetance en marketing bancaire.
Chapitre 1. Introduction
Après cette approche uni et bidimensionnelle, les techniques multidimensionnelles1 sont decrites
et illustrees. Elles diffèrent selon le type des variables considerees mais permettent toutes de
reduire la dimension afin de resumer un tableau (n p) de grande dimension et reveler ses caracteristiques. Lanalyse en composantes principales (ACP) pour les variables quantitatives, lanalyse des correspondances simples ou multiples (AFCM) pour les variables qualitatives. Lanalyse factorielle discriminante (AFD) permet de juger de la qualite de discrimination dun ensemble de variables quantitatives afin dexpliquer une typologie decrite par une variable qualitative. Lorsquune typologie est recherchee, les methodes de classification (hierarchiques ou par
reallocation dynamique) determinent une variable qualitative definissant une partition de lensemble des donnees. Dautres techniques sont plus specifiques, le positionnement multidimensionnel ou ACP sur tableau de distances est adapte a` des donnees particulières mais permet e galement
de structurer un ensemble de variables trop important. Enfin, ce document se termine par une introduction a` letude exploratoire de donnees fonctionnelles illustrees par des exemples de series
climatiques.
Elles constituent un ensemble communement appele en France Analyse de Donnees.
Chapitre 2
Description statistique e lementaire
1
Exemple de donnees
Un meme ensemble de donnees bancaires1 va servir a` illustrer la plupart des outils et methodes
decrits dans ce document. En voici le descriptif sommaire.
Le service marketing dune banque dispose de fichiers decrivant ses clients et leurs comportements (mouvements, soldes des differents comptes). Deux types detudes sont habituellement
realisees sur des donnees bancaires ou meme plus generalement dans le tertiaire afin de personnaliser les relations avec les clients.
i. une classification ou segmentation de la clientèle permettant de determiner quelques classes
ou segments de comportements types.
ii. lestimation dun score en vue dun objectif particulier. Il sagit ici de prevoir linteret ou
lappetence dun client pour le produit bancaire carte Visa Premier. Cest une carte de paiement haut de gamme qui cherche a` renforcer le lien de proximite avec la banque en vue de
fideliser une clientèle aisee.
La liste des variables est issue dune base de donnees retracant lhistorique mensuel bancaire et
les caracteristiques de tous les clients. Un sondage a e te realise afin dalleger les traitements ainsi
quune première selection de variables. Les variables contenues dans le fichier sont explicitees
dans le tableau 2.1. Elles sont observees sur un e chantillon de 1425 clients.
Introduction
lobjectif des outils de Statistique descriptive e lementaire est de fournir des resumes synthetique
de series de valeurs, adaptes a` leur type (qualitatives ou quantitatives), et observees sur une population ou un e chantillon.
Dans le cas dune seule variable, Les notions les plus classiques sont celles de mediane,
quantile, moyenne, frequence, variance, e cart-type definies parallèlement a` des representations
graphiques : diagramme en baton, histogramme, diagramme-bote, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs.
Dans le cas de deux variables, on sinteresse a` la correlation, au rapport de correlation ou encore a` la statistique dun test du 2 associe a` une table de contingence. Ces notions sont associees
a` differents graphiques comme le nuage de points (scatterplot), les diagrammes-botes parallèles,
les diagrammes de profils ou encore en mosaque.
1
Merci a` Sophie Sarpy de Informatique Banque Populaire a` Balma pour la mise a` disposition de ces donnees.
Chapitre 2. Description statistique e lementaire
10
TAB . 2.1 Libelles des variables des donnees bancaires.

Identif.
matric
depts
pvs
sexec
ager
famil
relat
prcsp
quals
GxxGxxS
impnbs
rejets
opgnb
moyrv
tavep
endet
gaget
gagec
gagem
kvunb
qsmoy
qcred
dmvtp
boppn
facan
lgagt
vienb
viemt
uemnb
uemmts
xlgnb
xlgmt
ylvnb
ylvmt
nbelts
mtelts
nbcats
mtcats
nbbecs
mtbecs
rocnb
jntca
nptag
segv2s
itavc
havef
dnbjd1s
dnbjd2s
dnbjd3s
carvp
Libelle
Matricule (identifiant client)
Departement de residence
Point de vente
Sexe (qualitatif)
Age en annees
Situation familiale
(Fmar : marie, Fcel : celibataire, Fdiv :divorce,
Fuli :union libre, Fsep : separe de corps, Fveu :veuf)
Anciennete de relation en mois
Categorie socio-professionnelle (code num)
Code qualite client e value par la banque
plusieurs variables caracterisant les interdits
bancaires
Nombre dimpayes en cours
Montant total des rejets en francs
Nombre doperations par guichet dans le mois
Moyenne des mouvements nets crediteurs
des 3 mois en Kf
Total des avoirs e pargne monetaire en francs
Taux dendettement
Total des engagements en francs
Total des engagements court terme en francs
Total des engagements moyen terme en francs
Nombre de comptes a` vue
Moyenne des soldes moyens sur 3 mois
Moyenne des mouvements crediteurs en Kf
Age du dernier mouvement (en jours)
Nombre doperations a` M-1
Montant facture dans lannee en francs
Engagement long terme
Nombre de produits contrats vie
Montant des produits contrats vie en francs
Nombre de produits e pargne monetaire
Montant des produits depargne monetaire en francs
Nombre de produits depargne logement
Montant des produits depargne logement en francs
Nombre de comptes sur livret
Montant des comptes sur livret en francs
Nombre de produits depargne long terme
Montant des produits depargne long terme en francs
Nombre de produits e pargne a` terme
Montant des produits e pargne a` terme
Nombre de produits bons et certificats
Montant des produits bons et certificats en francs
Nombre de paiements par carte bancaire a` M-1
Nombre total de cartes
Nombre de cartes point argent
Segmentation version 2
Total des avoirs sur tous les comptes
Total des avoirs e pargne financière en francs
Nombre de jours a` debit a` M
Nombre de jours a` debit a` M-1
Nombre de jours a` debit a` M-2
Possession de la carte VISA Premier
3. Decription dune variable
11
F IG . 2.1 Diagramme-bote illustrant la distribution des a ges des clients.

Les definitions de ces differentes notions se trouvent dans nimporte quel ouvrage e lementaire
de Statistique2 , nous nous proposons simplement de rappeler dans ce chapitre certains outils moins
classiques mais efficaces et presents dans la plupart des logiciels statistiques. Cela nous permettra
e galement dillustrer les premières e tapes exploratoires a` realiser sur un jeu de donnees.
Decription dune variable
3.1 Cas quantitatif

Une variable quantitative prend des valeurs entières ou reelles, elle est dite alors discrète ou
continue. Cette propriete ayant des incidences sur la nature de sa distribution et donc sur les graphiques associes. Nous nous interesserons surtout aux variables continues.
La distribution dun variable statistique quantitative
est resumee par differents indicateurs emPn
piriques de tendance centrale (moyenne x = i=1 wi xi , mediane) ou de dispersion (ecart-type
, intervalle inter-quartiles). Dautres indicateurs sinteressent a` la dissymetrie (skeeness, associee
au moment dordre 3) ou encore a` lapplatissement (kurtosis a` partir du moment dordre 4)
Deux graphiques permettent de rendre compte precisement de la nature de la distribution.
La statistique de Kolmogorov est la plus couramment utilisee pour tester ladequation a` une loi
(normale).
Diagramme-bote (box-and-whiskers plot)
Il sagit dun graphique très simple qui resume la serie a` partir de ses valeurs extremes, de ses
quartiles et de sa mediane.
Histogramme
Dans le cas dun e chantillon, on cherche a` approcher par une estimation empirique le graphe
de la densite de la loi theorique associee a` la population. Lhistogramme en est un exemple. Une
fois determinee un decoupage en classes de lensemble des valeurs et les frequences f` doccurences de ces classes, un histogramme est la juxtaposition de rectangles dont les bases sont les
amplitudes des classes considerees (a` = b` b`1 ) et dont les hauteurs sont les quantites
f`
ees densites de frequence. Laire du `-ème rectangle vaut donc f` , frequence de la
b` b`1 , appel
2
Un support de cours accessible a` la page www-sv.cict.fr/lsp/Besse.
12
F IG . 2.2 Diagramme-bote illustrant la distribution de la variable cumulant les totaux des avoirs.
Celle-ci apparat comme très dissymetrique et avec de nombreuses valeurs atypiques. Une transformation simpose.
classe correspondante.
Estimation fonctionnelle
La qualite de lestimation dune distribution par un histogramme depend beaucoup du decoupage
en classe. Malheureusement, plutot que de fournir des classes deffectifs e gaux et donc de mieux
repartir limprecision, les logiciels utilisent des classes damplitudes e gales et tracent donc des
histogrammes parfois peu representatifs. Ces 20 dernières annees, a` la suite du developpement
des moyens de calcul, sont apparues des methodes destimation dites fonctionnelles ou nonparametriques qui proposent destimer la distribution dune variable ou la relation entre deux variables par une fonction construite point par point (noyaux) ou dans une base de fonctions splines.
Ces estimations sont simples a` calculer (pour lordinateur) mais necessitent le choix dun paramètre dit de lissage. Les demonstrations du caractère optimal de ces estimations fonctionnelles,
liee a` loptimalite du choix de la valeur du paramètre de lissage, font appel a` des outils theoriques
plus sophistiquees sortant du cadre de ce cours (Eubank, 1988, Silverman, 1986).
Lestimation de la densite par la methode du noyau se met sous la forme generale :
n
1 X
K
gb (x) =
n
i=1
x xi
où est le paramètre de lissage optimisee par une procedure automatique qui minimise une approximation de lerreur quadratique moyenne integree (norme de lespace L2 ) ; K est une fonction
symetrique, positive, concave, appelee noyau dont la forme precise importe peu. Cest souvent la
fonction densite de la loi gaussienne :
1
K(t) = exp(t2 /2)
2
qui possède de bonnes proprietes de regularite. Le principe consiste simplement a` associer a`
chaque observation un element de densite de la forme du noyau K et a` sommer tous ces
e lements. Un histogramme est une version particulière destimation dans laquelle lelement de
densite est un petit rectangle dans la classe de lobservation.
4. Liaison entre variables
13
F IG . 2.3 Histogramme et estimation fonctionnelle par la methode du noyau de la distribution des

a ges.
3.2
Cas qualitatif
Par definition, les observations dune variable qualitative ne sont pas des valeurs numeriques,
mais des caracteristiques, appelees modalites. Lorsque ces modalites sont naturellement ordonnees
(par exemple, la mention au bac ou une classe dage), la variable est dite ordinale. Dans le cas
contraire (par exemple, la profession dans une population de personnes actives ou la situation
familiale) la variable est dite nominale.
Les representations graphiques que lon rencontre avec les variables qualitatives sont assez
nombreuses. Les trois plus courantes, qui sont aussi les plus appropriees, sont les diagrammes en
colonnes, en barre, en secteurs. Tous visent a` representer la repartition en effectif ou frequences
des individus dans les differentes classes ou modalites.
Liaison entre variables
Dans cette section, on sinteresse a` letude simultanee de deux variables X et Y . Lobjectif

essentiel des methodes presentees est de mettre en e vidence une e ventuelle variation simultanee
des deux variables, que nous appellerons alors liaison. Dans certains cas, cette liaison peut e tre
consideree a priori comme causale, une variable X expliquant lautre Y ; dans dautres, ce nest
pas le cas, et les deux variables jouent des roles symetriques. Dans la pratique, il conviendra de bien
differencier les deux situations et une liaison nentrane pas necessairement une causalite. Sont
ainsi introduites les notions de covariance, coefficient de correlation lineaire, regression lineaire,
rapport de correlation, indice de concentration, khi-deux et autres indicateurs qui lui sont lies.
De meme, nous presentons les graphiques illustrant les liaisons entre variables : nuage de points
(scatter-plot), diagrammes-otes parallèles, diagramme de profils, tableau de nuages (scatter-plot
matrix).
4.1
Deux variables quantitatives
14
F IG . 2.4 Diagramme en barres et diagramme en colonne de la repartition des situations familiales. Certaines modalites trop rares et regroupees automatiquement dans la classe other devront
e tre recodees.
Nuage de points
Il sagit dun graphique très commode pour representer les observations simultanees de deux
variables quantitatives. Il consiste a` considerer deux axes perpendiculaires, laxe horizontal representant
la variable X et laxe vertical la variable Y , puis a` representer chaque individu observe par les coordonnees des valeurs observees. Lensemble de ces points donne en general une idee assez bonne
de la variation conjointe des deux variables et est appele nuage. On notera quon rencontre parfois
la terminologie de diagramme de dispersion, traduction plus fidèle de langlais scatter-plot.
Le choix des e chelles a` retenir pour realiser un nuage de points peut saverer delicat. Dune
facon generale, on distinguera le cas de variables homogènes (representant la meme grandeur
et exprimees dans la meme unite) de celui des variables heterogènes. Dans le premier cas, on
choisira la meme e chelle sur les deux axes (qui seront donc orthonormes) ; dans le second cas, il
est recommande soit de representer les variables centrees et reduites sur des axes orthonormes, soit
de choisir des e chelles telles que ce soit sensiblement ces variables là que lon represente (cest en
general cette seconde solution quutilisent, de facon automatique, les logiciels statistiques).
Indice de liaison
le coefficient de correlation lineaire est un indice rendant compte numeriquement de la manière
dont les deux variables considerees varient simultanement. Il est defini a` partir de la covariance
qui generalise a` deux variables la notion de variance :
cov(X, Y ) =
n
X
wi [xi x][yi y]
i=1
n
X
= [
i=1
wi xi yi ] x y.
15
F IG . 2.5 Nuage de points illustrant labsence de liaison entre la variable a ge et celle cumulant le
total des e pargnes monetaires (correlation de 0,17).
La covariance est une forme bilineaire symetrique qui peut prendre toute valeur reelle et dont la
variance est la forme quadratique associee. Elle depend des unites de mesure dans lesquelles sont
exprimees les variables considerees ; en ce sens, ce nest pas un indice de liaison intrinsèque.
Cest la raison pour laquelle on definit le coefficient de correlation lineaire (parfois appele coefficient de Pearson ou de Bravais-Pearson), rapport entre la covariance et le produit des e carts-types :
corr(X, Y ) =
cov(X, Y )
.
X Y
Le coefficient de correlation est e gal a` la covariance des variables centrees et reduites resY y
pectivement associees a` X et Y : corr(X, Y ) = cov( Xx
equent, corr(X, Y ) est
X , Y ). Par cons
independant des unites de mesure de X et de Y . Le coefficient de correlation est symetrique et
prend ses valeurs entre -1 et +1.
Notons pour memoire la possibilite dutiliser dautres indicateurs de liaison entre variables
quantitatives. Construits sur les rangs (correlation de Spearman) ils sont plus robustes faces a` des
situations de non linearite ou des valeurs atypiques mais restent très reducteurs.
4.2
Une variable quantitative et une qualitative
Notations
Soit X la variable qualitative consideree, supposee a` r modalites notees
x1 , . . . , x` , . . . , xr
et soit Y la variable quantitative de moyenne y et de variance Y2 . Designant par lechantillon
considere, chaque modalite x` de X definit une sous-population (un sous-ensemble) ` de :
cest lensemble des individus, supposes pour simplifier de poids wi = 1/n et sur lesquels on a
observe x` ; on obtient ainsi
P une partition de en m classes dont nous noterons n1 , . . . , nm les
cardinaux (avec toujours m
u n = card()).
`=1 n` = n, o`
16
F IG . 2.6 Diagrammes-boites illustrant les differences de distribution des a ges en fonction de la

possession dune carte Visa Premier.
Considerant alors la restriction de Y a` ` (l = 1, . . . , m), on peut definir la moyenne et la
variance partielles de Y sur cette sous-population ; nous les noterons respectivement y` et `2 :
y` =
1 X
Y (i ) ;
n`
i `
`2 =
1 X
[Y (i ) y` ]2 .
n`
i `
Botes parallèles
Une facon commode de representer les donnees dans le cas de letude simultanee dune
variable quantitative et dune variable qualitative consiste a` realiser des diagrammes-botes parallèles ; il sagit, sur un meme graphique dote dune e chelle unique, de representer pour Y un
diagramme-bote pour chacune des sous-populations definies par X. La comparaison de ces botes
donne une idee assez claire de linfluence de X sur les valeurs de Y , cest-à-dire de la liaison entre
les deux variables.
Formules de decomposition
Ces formules indiquent comment se decomposent la moyenne et la variance de Y sur la partition definie par X (cest-à-dire comment secrivent ces caracteristiques en fonction de leurs valeurs
partielles) ; elles sont necessaires pour definir un indice de liaison entre les deux variables.
r
y =
Y2
1X
n` y ` ;
n
1
n
`=1
r
X
`=1
n` (y` y)2 +
1X
2
2
n` `2 = E
+ R
.
n
`=1
17
2 , est appel
Le premier terme de la decomposition de Y2 , note E
e variance expliquee (par la
2 , est appel
partition, cest-à-dire par X) ou variance inter (between) ; le second terme, note R
e
variance residuelle ou variance intra (within).
Rapport de correlation
Il sagit dun indice de liaison entre les deux variables X et Y qui est defini par :
s
sY /X =
2
E
;
2
Y
X et Y netant pas de meme nature, sY /X nest pas symetrique et verifie 0 sY /X 1. Cet

encadrement decoule directement de la formule de decomposition de la variance. Les valeurs 0 et
1 ont une signification particulière interessante.
4.3
Deux variables qualitatives
Notations
On considère dans ce paragraphe deux variables qualitatives observees simultanement sur n
individus. On suppose que la première, notee X, possède r modalites notees x1 , . . . , x` , . . . , xr ,
et que la seconde, notee Y , possède c modalites notees y1 , . . . , yh , . . . , yc .
Ces donnees sont presentees dans un tableau a` double entree, appele table de contingence,
dans lequel on dispose les modalites de X en lignes et celles de Y en colonnes. Ce tableau est
donc de dimension r c et a pour e lement generique le nombre n`h dobservations conjointes des
modalites x` de X et yh de Y ; les quantites n`h sont appelees les effectifs conjoints.
Une table de contingence se presente donc sous la forme suivante :
x1
..
.
x`
..
.
xr
sommes
y1
n11
..
.
n`1
..
.
nr1
n+1
yh
n1h
..
.
n`h
..
.
nrh
n+h
yc
n1c
..
.
n`c
..
.
nrc
n+c
sommes
n1+
..
.
n`+
..
.
nr+
n
Les quantites n`+ (` = 1, . . . ,P

r) et n+h (h = 1, . .P
. , c) sont appelees les effectifs
Pr margic
r
naux
erifient `=1 n`+ =
h=1 n`h et n+h =
`=1 n`h , et ils v
Pc ; ils sont definis par n`+ =
n
=
n.
De
fac
on
analogue,
on
peut
d
e
finir
les
notions
de
fr
e
quences
conjointes et de
h=1 +h
frequences marginales.
Representations graphiques
On peut envisager, dans le cas de letude simultanee de deux variables qualitatives, dadapter
les graphiques presentes dans le cas unidimensionnel : on decoupe chaque partie (colonne, partie de barre ou secteur) representant une modalite de lune des variables selon les effectifs des
modalites de lautre. Mais, de facon generale, il est plus approprie de realiser des graphiques
representant des quantites très utiles dans ce cas et que lon appelle les profils.
18
F IG . 2.7 Diagrammes en barres des profils lignes et colonnes de la table de contingence croisant le sexe et la possession de la carte Visa Premier. La superficie de chaque case est en plus
proportionnelle a` leffectif de la cellule associee.
Profils
On appelle `-ème profil-ligne lensemble des frequences de la variable Y conditionnelles a`
la modalite x` de X (cest-à-dire definies au sein de la sous-population ` de associee a` cette
modalite). Il sagit donc des quantites :
{
n`1
n`h
n`c
,...,
,...,
}.
n`+
n`+
n`+
On definit de facon analogue le h-ème profil-colonne :

{
n`h
nrh
n1h
,...,
,...,
}.
n+h
n+h
n+h
La representation graphique des profils-lignes ou des profils-colonnes, au moyen, par exemple,

de diagrammes en barre parallèles, donne alors une idee assez precise de la variation conjointe des
deux variables.
Indices de liaison
Lorsque tous les profils-lignes sont e gaux, ce qui est e quivalent a` ce que tous les profilscolonnes soient e gaux et que
(`, h) {1, . . . , r} {1, . . . , c} : n`h =
n`+ n+h
,
n
on dit quil nexiste aucune forme de liaison entre les deux variables considerees X et Y . Par suite,
la mesure de la liaison va se faire en e valuant lecart entre la situation observee et letat de non
liaison defini ci-dessus.
5. Vers le cas multidimensionnel
19
Khi-deux
Il est courant en statistique de comparer une table de contingence observee, deffectif conjoint
generique n`h , a` une table de contingence donnee a priori (et appelee standard), deffectif conjoint
generique s`h , en calculant la quantite
r X
c
X
(n`h s`h )2
`=1 h=1
s`h
De facon naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc lindice
appele khi-deux (chi-square) et defini comme suit :
n n
" r c
#
r X
c (n`h `+ +h )2
X
X X n2
`h
n
2 =
=n
1 .
n`+ n+h
n`+ n+h
`=1 h=1
`=1 h=1
n
Le coefficient 2 est toujours positif ou nul et il est dautant plus grand que la liaison entre les
deux variables considerees est forte. Malheureusement, il depend aussi des dimensions r et c de la
table e tudiee, ainsi que de la taille n de lechantillon observe ; en particulier, il nest pas majore.
Cest la raison pour laquelle on a defini dautres indices, lies au khi-deux, et dont lobjectif est de
palier ces defauts.
Autres indicateurs
Nous en citerons trois.
2
Le phi-deux : 2 = n . Il ne depend plus de n, mais depend encore de r et de c.
Le coefficient T de Tschuprow :
s
2
.
T = p
(r 1)(c 1)
On peut verifier : 0 T 1 .
Le coefficient C de Cramer :
2
,
d1
avec : d = inf(r, c). On verifie maintenant : 0 T C 1 .
Enin, la p-value dun test dindependance (test du 2 ) est aussi utilisee pour comparerr des
liaisons entre variables.
C=
Vers le cas multidimensionnel
Lobjectif des prochains chapitres de ce cours est dexposer les techniques de la statistique
descriptive multidimensionnelle. Or, sans connatre ces techniques, il se trouve quil est possible
de debuter une exploration de donnees multidimensionnelles en adaptant simplement les methodes
dejà e tudiees.
5.1
Matrices des covariances et des correlations
Lorsquon a observe simultanement plusieurs variables quantitatives (p variables, p 3) sur

le meme e chantillon, il est possible de calculer dune part les variances de toutes ces variables,
dautre part les p(p1)
covariances des variables prises deux a` deux. Lensemble de ces quantites
2
20
peut alors e tre dispose dans une matrice carree (p p) et symetrique, comportant les variances
sur la diagonale et les covariances a` lexterieur de la diagonale ; cette matrice, appelee matrice des
variances-covariances (ou encore matrice des covariances) sera notee S. Elle sera utilisee par la
suite, mais na pas dinterpretation concrète. Notons quil est possible de verifier que S est semi
definie positive.
De la meme manière, on peut construire la matrice symetrique p p, comportant des 1 sur
toute la diagonale et, en dehors de la diagonale, les coefficients de correlation lineaire entre les
variables prises deux a` deux. Cette matrice est appelee matrice des correlations, elle est e galement
semi definie positive, et nous la noterons R. Elle est de lecture commode et indique quelle est la
structure de correlation des variables e tudiees.
5.2
Tableaux de nuages
Notons X 1 , . . . , X p les p variables quantitatives considerees ; on appelle tableau de nuages le

graphique obtenu en juxtaposant, dans une sorte de matrice carree p p, p2 sous-graphiques ; chacun des sous-graphiques diagonaux est relatif a` lune des p variables, et il peut sagir, par exemple,
dun histogramme ; le sous-graphique figurant dans le bloc dindice (j, j 0 ), j 6= j 0 , est le nuage
0
de points realise avec la variable X j en abscisses et la variable X j en ordonnees. Dans certains
logiciels anglo-saxons, ces graphiques sont appeles splom (Scatter PLOt Matrix). Le tableau de
nuages, avec la matrice des correlations, fournit ainsi une vision globale des liaisons entre les
variables e tudiees.
5.3
La matrice des coefficients de Tschuprow (ou de Cramer)
Considerons maintenant le cas où lon e tudie simultanement plusieurs variables qualitatives
(p variables, p 3). La matrice des coefficients de Tschuprow est la matrice carree dordre p,
symetrique, comportant des 1 sur la diagonale et, en dehors de la diagonale, les coefficients de
Tschuprow entre les variables prises deux a` deux. Il sagit donc dune matrice du meme type que
la matrice des correlations (elle est dailleurs, elle aussi, semi definie positive), et son utilisation
pratique est analogue. Notons que lon peut, de la meme facon, utiliser les coefficients de Cramer
au lieu des coefficients de Tschuprow.
Problèmes
Les quelques outils de ce chapitre permettent dejà de se faire une première idee dun jeu de
donnees mais surtout, en prealable a` toute analyse, ils permettent de sassurer de la fiabilite des
donnees, de reperer des valeurs extremes atypiques, e ventuellement des erreurs de mesures ou de
saisie, des incoherences de codage ou dunite.
Les erreurs, lorsquelle sont decelees, conduisent naturellement et necessairement a` leur correction ou a` lelimination des donnees douteuses mais dautres problèmes pouvant apparatre nont
pas toujours de solutions e videntes.
Le mitage de lensemble des donnees ou absence de certaines valeurs en fait partie. Faut-il
supprimer les individus incrimines ou les variables ? Faut-il completer, par une modelisation
et prevision partielles, les valeurs manquantes ? Les solutions dependent du taux de valeurs manquantes, de leur repartition (sont-elles aleatoires) et du niveau de tolerance des
methodes qui vont e tre utilisees.
La presence de valeurs atypiques peut influencer sevèrement des estimations de methodes
peu robustes car basees sur le carre dune distance. Ces valeurs sont-elles des erreurs ? Sinon
faut-il les conserver en transformant les variables ou en adoptant des methodes robustes
6. Problèmes
21
F IG . 2.8 La simple transformation (log(50 + x)), de la variable cumulants les avoirs, resout
bien les problèmes poses par lallure log-normale de sa distribution avec son cortège de valeurs
atypiques.
basees sur des e carts absolus ?
Meme sans hypothèse explicite de normalite des distributions, il est preferable davoir a` faire
a` des distributions relativement symetriques. Une transformation des variables par une fonction monotone (log, puissance) est hautement recommandee afin dameliorer la symetrie de
leur distribution ou encore pour lineariser (nuage de points) la nature dune liaison.
22
Chapitre 3
Analyse en Composantes Principales
1
introduction
Lorsquon e tudie simultanement un nombre important de variables quantitatives (ne serait-ce

que 4 !), comment en faire un graphique global ? La difficulte vient de ce que les individus e tudies
ne sont plus representes dans un plan, espace de dimension 2, mais dans un espace de dimension
plus importante (par exemple 4). Lobjectif de lAnalyse en Composantes Principales (ACP) est
de revenir a` un espace de dimension reduite (par exemple 2) en deformant le moins possible la
realite. Il sagit donc dobtenir le resume le plus pertinent possible des donnees initiales.
Cest la matrice des variances-covariances (ou celle des correlations) qui va permettre de
realiser ce resume pertinent, parce quon analyse essentiellement la dispersion des donnees considerees.
De cette matrice, on va extraire, par un procede mathematique adequat, les facteurs que lon recherche, en petit nombre. Ils vont permettre de realiser les graphiques desires dans cet espace de
petite dimension (le nombre de facteurs retenus), en deformant le moins possible la configuration
globale des individus selon lensemble des variables initiales (ainsi remplacees par les facteurs).
Cest linterpretation de ces graphiques qui permettra de comprendre la structure des donnees
analysees. Cette interpretation sera guidee par un certain nombre dindicateurs numeriques et graphiques, appeles aides a` linterpretation, qui sont là pour aider lutilisateur a` faire linterpretation
la plus juste et la plus objective possible.
Lanalyse en Composantes Principales (ACP) est un grand classique de lanalyse des donnees
en France pour letude exploratoire ou la compression dun grand tableau n p de donnees quantitatives. Le livre de Jolliffe (2002) en detaille tous les aspects et utilisations de facon exhaustive.
Elle est introduite ici comme lestimation des paramètres dun modèle, afin de preciser la signification statistique des resultats obtenus. Une approche plus sophistiquee adaptee a` letude de courbes
ou donnees fonctionnelles est proposee au chapitre 9. LACP est illustree dans ce chapitre a` travers
letude de donnees e lementaires. Elles sont constituees des moyennes sur dix ans des temperatures
moyennes mensuelles de 32 villes francaises. La matrice initiale X est donc (32 12). Les colonnes sont lobservation a` differents instants dune meme variable ; elles sont homogènes et il est
inutile de les reduire.
LACP joue dans ce cours un role central ; cette methode sert de fondement theorique aux
autres methodes de statistique multidimensionnelle dites factorielles qui en apparaissent comme
des cas particuliers. Cette methode est donc e tudiee en detail et abordee avec differents niveaux de
lecture. La première section presente les grands principes de facon très e lementaire, voire intuitive,
tandis que les suivantes explicitent les expressions matricielles des resultats.
23
24
2
2.1
Chapitre 3. Analyse en Composantes Principales
Presentation e lementaire de lACP

Les donnees
Considerons les notes (de 0 a` 20) obtenues par 9 e lèves dans 4 disciplines (mathematiques,
physique, francais, anglais) :
jean
alan
anni
moni
didi
andr
pier
brig
evel
MATH
6.00
8.00
6.00
14.50
14.00
11.00
5.50
13.00
9.00
PHYS
6.00
8.00
7.00
14.50
14.00
10.00
7.00
12.50
9.50
FRAN
5.00
8.00
11.00
15.50
12.00
5.50
14.00
8.50
12.50
ANGL
5.50
8.00
9.50
15.00
12.50
7.00
11.50
9.50
12.00
Nous savons comment analyser separement chacune de ces 4 variables, soit en faisant un
graphique, soit en calculant des resumes numeriques. Nous savons e galement quon peut regarder
les liaisons entre 2 variables (par exemple mathematiques et francais), soit en faisant un graphique
du type nuage de points, soit en calculant leur coefficient de correlation lineaire, voire en realisant
la regression de lune sur lautre.
Mais comment faire une e tude simultanee des 4 variables, ne serait-ce quen realisant un graphique ? La difficulte vient de ce que les individus (les e lèves) ne sont plus representes dans un
plan, espace de dimension 2, mais dans un espace de dimension 4 (chacun e tant caracterise par
les 4 notes quil a obtenues). Lobjectif de lAnalyse en Composantes Principales est de revenir a`
un espace de dimension reduite (par exemple, ici, 2) en deformant le moins possible la realite. Il
sagit donc dobtenir le resume le plus pertinent des donnees initiales.
2.2
Resultats preliminaires
Tout logiciel fournit la moyenne, lecart-type, le minimum et le maximum de chaque variable.

Il sagit donc, pour linstant, detudes univariees.
Statistiques
el
ementaires
Variable
MATH
PHYS
FRAN
ANGL
Moyenne
9.67
9.83
10.22
10.06
Ecart-type
3.37
2.99
3.47
2.81
Minimum
5.50
6.00
5.00
5.50
Maximum
14.50
14.50
15.50
15.00
Notons au passage la grande homogeneite des 4 variables considerees : meme ordre de grandeur pour les moyennes, les e carts-types, les minima et les maxima.
Le tableau suivant est la matrice des correlations. Elle donne les coefficients de correlation
lineaire des variables prises deux a` deux. Cest une succession danalyses bivariees, constituant
un premier pas vers lanalyse multivariee.
2. Presentation e lementaire de lACP
25
Coefficients de corr
elation
MATH
PHYS
FRAN
ANGL
MATH
PHYS
FRAN
ANGL
1.00
0.98
0.23
0.51
0.98
1.00
0.40
0.65
0.23
0.40
1.00
0.95
0.51
0.65
0.95
1.00
Remarquons que toutes les correlations lineaires sont positives (ce qui signifie que toutes
les variables varient, en moyenne, dans le meme sens), certaines e tant très fortes (0.98 et 0.95),
dautres moyennes (0.65 et 0.51), dautres enfin plutot faibles (0.40 et 0.23).
2.3
Resultats generaux
Continuons lanalyse par celui de la matrice des variances-covariances, matrice de meme

nature que celle des correlations, bien que moins parlante (nous verrons neanmoins plus loin
comment elle est utilisee concrètement). La diagonale de cette matrice fournit les variances des
4 variables considerees (on notera quau niveau des calculs, il est plus commode de manipuler la
variance que lecart-type ; pour cette raison, dans de nombreuses methodes statistiques, comme en
A.C.P., on utilise la variance pour prendre en compte la dispersion dune variable quantitative).
Matrice des variances-covariances
MATH
PHYS
FRAN
ANGL
MATH
PHYS
FRAN
ANGL
11.39
9.92
2.66
4.82
9.92
8.94
4.12
5.48
2.66
4.12
12.06
9.29
4.82
5.48
9.29
7.91
Les valeurs propres donnees ci-dessous sont celles de la matrice des variances-covariances.
Valeurs propres ; variances expliqu
ees
FACTEUR
1
2
3
4
VAL. PR.
28.23
12.03
0.03
0.01
----40.30
PCT. VAR.
0.70
0.30
0.00
0.00
---1.00
PCT. CUM.
0.70
1.00
1.00
1.00
Interpretation
Chaque ligne du tableau ci-dessus correspond a` une variable virtuelle (voilà les facteurs) dont
la colonne VAL . PR . (valeur propre) fournit la variance (en fait, chaque valeur propre represente la
variance du facteur correspondant). La colonne PCT. VAR, ou pourcentage de variance, correspond
26
au pourcentage de variance de chaque ligne par rapport au total. La colonne PCT. CUM . represente
le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice des
variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des individus
consideres, en dimension 4, est ainsi e gale a` 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23+12.03+0.03+0.01 = 40.30.
Le nuage de points en dimension 4 est toujours le meme et sa dispersion globale na pas change.
Il sagit dun simple changement de base dans un espace vectoriel. Cest la repartition de cette
dispersion, selon les nouvelles variables que sont les facteurs, ou composantes principales, qui se
trouve modifiee : les 2 premiers facteurs restituent a` eux seuls la quasi-totalite de la dispersion du
nuage, ce qui permet de negliger les 2 autres.
Par consequent, les graphiques en dimension 2 presentes ci-dessous resument presque parfaitement la configuration reelle des donnees qui se trouvent en dimension 4 : lobjectif (resume
pertinent des donnee en petite dimension) est donc atteint.
2.4
Resultats sur les variables
Le resultat fondamental concernant les variables est le tableau des correlations variablesfacteurs. Il sagit des coefficients de correlation lineaire entre les variables initiales et les facteurs.
Ce sont ces correlations qui vont permettre de donner un sens aux facteurs (de les interpreter).
Corr
elations
FACTEURS
MATH
PHYS
FRAN
ANGL
-->
variables-facteurs
F1
F2
F3
F4
0.81
0.90
0.75
0.91
-0.58
-0.43
0.66
0.40
0.01
-0.03
-0.02
0.05
-0.02
0.02
-0.01
0.01
Les deux premières colonnes de ce tableau permettent, tout dabord, de realiser le graphique
des variables (version SAS) donne ci-dessous.
Mais, ces deux colonnes permettent e galement de donner une signification aux facteurs (donc
aux axes des graphiques).
On notera que les deux dernières colonnes ne seront pas utilisees puisquon ne retient que deux
dimensions pour interpreter lanalyse.
Interpretation
Ainsi, on voit que le premier facteur est correle positivement, et assez fortement, avec chacune
des 4 variables initiales : plus un e lève obtient de bonnes notes dans chacune des 4 disciplines,
plus il a un score e leve sur laxe 1 ; reciproquement, plus ses notes sont mauvaises, plus son score
est negatif. En ce qui concerne laxe 2, il oppose, dune part, le francais et langlais (correlations
positives), dautre part, les mathematiques et la physique (correlations negatives). Il sagit donc
dun axe dopposition entre disciplines litteraires et disciplines scientifiques, surtout marque par
lopposition entre le francais et les mathematiques. Cette interpretation peut e tre precisee avec les
graphiques et tableaux relatifs aux individus que nous presentons maintenant.
27
0.6
2. Presentation e lementaire de lACP
0.2
Axe 2
0.2
MATH
PHYS
0.6
ANGL
FRAN
0.2
0.2
0.6
1.0
Axe 1
F IG . 3.1 Representation des variables
2.5
Resultats sur les individus

Le tableau ci-dessous contient tous les resultats importants sur les individus.
Coordonn
ees des individus ; contributions ; cosinus carr
es
jean
alan
anni
moni
didi
andr
pier
brig
evel
POIDS
FACT1
FACT2
CONTG
CONT1
CONT2
COSCA1
COSCA2
0.11
0.11
0.11
0.11
0.11
0.11
0.11
0.11
0.11
-8.61
-3.88
-3.21
9.85
6.41
-3.03
-1.03
1.95
1.55
-1.41
-0.50
3.47
0.60
-2.05
-4.92
6.38
-4.20
2.63
20.99
4.22
6.17
26.86
12.48
9.22
11.51
5.93
2.63
29.19
5.92
4.06
38.19
16.15
3.62
0.41
1.50
0.95
1.83
0.23
11.11
0.33
3.87
22.37
37.56
16.29
6.41
0.97
0.98
0.46
1.00
0.91
0.28
0.03
0.18
0.25
0.03
0.02
0.54
0.00
0.09
0.72
0.97
0.82
0.73
On notera que chaque individu represente 1 e lement sur 9, doù un poids (une ponderation) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau ci-dessus.
Les 2 colonnes suivantes fournissent les coordonnees des individus (les e lèves) sur les deux
premiers axes (les facteurs) et ont donc permis de realiser le graphique des individus. Ce dernier
permet de preciser la signification des axes, donc des facteurs.
Interpretation
On peut ainsi voir que laxe 1 represente le resultat densemble des e lèves (si on prend leur
score ou coordonnee sur laxe 1, on obtient le meme classement que si on prend leur moyenne
generale). Par ailleurs, lelève le plus haut sur le graphique, celui qui a la coordonnee la plus
e levee sur laxe 2, est Pierre dont les resultats sont les plus contrastes en faveur des disciplines
litteraires (14 et 11.5 contre 7 et 5.5). Cest exactement le contraire pour Andre qui obtient la
moyenne dans les disciplines scientifiques (11 et 10) mais des resultats très faibles dans les disci-
28
jean
didi
1 0
alan
moni
anni evel
pier
Axe 2
andr brig
1 0
Axe 1
F IG . 3.2 Donnees fictives : Representation des individus

plines litteraires (7 et 5.5). On notera que Monique et Alain ont un score voisin de 0 sur laxe 2
car ils ont des resultats très homogènes dans les 4 disciplines (mais a` des niveaux très distincts, ce
qua dejà revele laxe 1).
Les 3 colonnes suivantes du tableau fournissent des contributions des individus a` diverses
dispersions : CONT 1 et CONT 2 donnent les contributions des individus a` la variance selon les axes
1 et 2 (rappelons que cest la variance qui caracterise la dispersion) ; CONTG les contributions a` la
dispersion en dimension 4 (il sagit de ce que lon appelle linertie du nuage des e lèves ; la notion
dinertie generalise celle de variance en dimension quelconque, la variance e tant toujours relative
a` une seule variable). Ces contributions sont fournies en pourcentages (chaque colonne somme a`
100) et permettent de reperer les individus les plus importants au niveau de chaque axe (ou du
nuage en dimension 4). Elles servent en general a` affiner linterpretation des resultats de lanalyse.
Ainsi, par exemple, la variance de laxe 1 vaut 28.23 (première valeur propre). On peut la
retrouver en utilisant la formule de definition de la variance :
9
1X 1 2
V ar(C ) =
(ci )
9
1
i=1
(il faut noter que, dans une A.C.P., les variables e tant centrees, il en va de meme pour les facteurs ;
ainsi, la moyenne de C 1 est nulle et napparat pas dans la formule de la variance). La coordonnee
de Jean (le premier individu du fichier) sur laxe 1 vaut c11 = 8.61 ; sa contribution est donc :
1
2
9 (8.61)
28.23
100 = 29.19 %.
` lui seul, cet individu represente près de 30 % de la variance : il est preponderant (au meme titre
A
que Monique) dans la definition de laxe 1 ; cela provient du fait quil a le resultat le plus faible,
Monique ayant, a` loppose, le resultat le meilleur.
Enfin, les 2 dernières colonnes du tableau sont des cosinus carres qui fournissent la (* qualite
de la representation *) de chaque individu sur chaque axe. Ces quantites sadditionnent axe par
3. Representation vectorielle de donnees quantitatives
29
axe, de sorte que, en dimension 2, Evelyne

est representee a` 98 % (0.25 + 0.73), tandis que les 8
autres individus le sont a` 100 %.
Lorsquon considère les donnees initiales, chaque individu (chaque e lève) est represente par
un vecteur dans un espace de dimension 4 (les e lements ou coordonnees de ce vecteur sont
les notes obtenues dans les 4 disciplines). Lorsquon resume les donnees en dimension 2, et donc
quon les represente dans un plan, chaque individu est alors represente par la projection du vecteur
initial sur le plan en question. Le cosinus carre relativement aux deux premières dimensions (par
exemple, pour Evelyne,

0.98 ou 98 %) est celui de langle forme par le vecteur initial et sa projection dans le plan. Plus le vecteur initial est proche du plan, plus langle en question est petit et plus
le cosinus, et son carre, sont proches de 1 (ou de 100 %) : la representation est alors très bonne. Au
contraire, plus le vecteur initial est loin du plan, plus langle en question est grand (proche de 90
degres) et plus le cosinus, et son carre, sont proches de 0 (ou de 0 %) : la representation est alors
très mauvaise. On utilise les carres des cosinus, parce quils sadditionnent suivant les differentes
dimensions.
3
3.1
Representation vectorielle de donnees quantitatives

Notations
Soit p variables statistiques reelles X j (j = 1, . . . , p) observees sur n individus i (i =

1, . . . , n) affectes des poids wi :
i = 1, . . . , n : wi > 0 et
n
X
wi = 1 ;
i=1
i = 1, . . . , n : xji
= X j (i), mesure de X j sur le ie`me individu.
Ces mesures sont regroupees dans une matrice X dordre (n p).
1
..
.
i
..
.
n
X1
Xj
Xp
x11
..
.
x1i
..
.
x1n
xj1
..
.
xji
..
.
xjn
xp1
..
.
xpi
..
.
xpn
` chaque individu i est associe le vecteur xi contenant la i-ème ligne de X mise en colonne.
A
Cest un e lement dun espace vectoriel note E de dimension p ; nous choisissons IRp muni
de la base canonique E et dune metrique de matrice M lui conferant une structure despace
euclidien : E est isomorphe a` (IRp , E, M); E est alors appele espace des individus.
` chaque variable X j est associe le vecteur xj contenant la j-ème colonne centree (la
A
moyenne de la colonne est retranchee a` toute la colonne) de X. Cest un e lement dun
espace vectoriel note F de dimension n ; nous choisissons IRn muni de la base canonique
F et dune metrique de matrice D diagonale des poids lui conferant une structure despace
euclidien : F est isomorphe a` (IRn , F, D) avec D = diag(w1 , . . . , wn ); F est alors appele
espace des variables.
30
3.2
Interpretation statistique de la metrique des poids
Lutilisation de la metrique des poids dans lespace des variables F donne un sens très particulier aux notions usuelles definies sur les espaces euclidiens. Ce paragraphe est la cle permettant
de fournir les interpretations en termes statistiques des proprietes et resultats mathematiques.
Moyenne empirique de X j :
Barycentre des individus :
Matrice des donnees centrees :
Ecart-type de X j :
Covariance de X j et X k :
Matrice des covariances :
Correlation de X j et X k :
xj
x
X
j
0
xj Dxk
S
hxj ,xk iD
kxj kD kxk kD
=
=
=
=
=
=

0
Xej , 1n D = ej X0 D1n .
X0 D1n .
X 1n x0 .

0
(xj Dxj )1/2 = xj D .
j k
x ,x D.
Pn
0
0
i=1 wi (xi x)(xi x) = X DX.
= cos D (xj , xk ).
Attention : Par souci de simplicite des notations, on designe toujours par xj les colonnes de la
matrice centree X. On considère donc que des vecteurs variables sont toujours centres.
Ainsi, lorsque les variables sont centrees et representees par des vecteurs de F :
la longueur dun vecteur represente un e cart-type,
le cosinus dun angle entre deux vecteurs represente une correlation.
3.3
La methode
Les objectifs poursuivis par une ACP sont :

la representation graphique optimale des individus (lignes), minimisant les deformations
du nuage des points, dans un sous-espace Eq de dimension q (q < p),
la representation graphique des variables dans un sous-espace Fq en explicitant au mieux
les liaisons initiales entre ces variables,
la reduction de la dimension (compression), ou approximation de X par un tableau de rang
q (q < p).
Les derniers objectifs permettent dutiliser lACP comme prealable a` une autre technique preferant
des variables orthogonales (regression lineaire) ou un nombre reduit dentrees (reseaux neuronaux).
Des arguments de type geometrique dans la litterature francophone, ou bien de type statistique
avec hypothèses de normalite dans la litterature anglo-saxonne, justifient la definition de lACP.
Nous adoptons ici une optique intermediaire en se referant a` un modèle allege car ne necessitant
pas dhypothèse forte sur la distribution des observations (normalite). Plus precisement, lACP
admet des definitions e quivalentes selon que lon sattache a` la representation des individus, a` celle
des variables ou encore a` leur representation simultanee.
Modèle
Les notations sont celles du paragraphe precedent :
X designe le tableau des donnees issues de lobservation de p variables quantitatives X j
sur n individus i de poids wi ,
E est lespace des individus muni de la base canonique et de la metrique de matrice M,
F est lespace des variables muni de la base canonique et de la metrique des poids D =
diag(w1 , . . . , wn ).
4. Modèle
31
De facon generale, un modèle secrit :

Observation = Modèle + Bruit
assorti de differents types dhypothèses et de contraintes sur le modèle et sur le bruit.
En ACP, la matrice des donnees est supposee e tre issue de lobservation de n vecteurs aleatoires
independants {x1 , . . . , xn }, de meme matrice de covariance 2 , mais desperances differentes
zi , toutes contenues dans un sous-espace affine de dimension q (q < p) de E. Dans ce modèle,
E(xi ) = zi est un paramètre specifique attache a` chaque individu i et appele effet fixe, le modèle
e tant dit fonctionnel. Ceci secrit en resume :
{xi ; i = 1, . . . , n}, n vecteurs al
eatoires independants de E,

E(i ) = 0, var(i ) = 2 ,
xi = zi + i , i = 1, . . . , n avec
(3.1)
> 0 inconnu, regulière et connue,
Aq , sous-espace affine de dimension q de E tel que i, zi Aq (q < p).
Pn
Soit z = i=1 wi zi . Les hypothèses du modèle entranent que z appartient a` Aq . Soit donc Eq le
sous-espace vectoriel de E de dimension q tel que :
Aq = z + Eq .
Les paramètres a` estimer sont alors Eq et zi , i = 1, . . . , n, e ventuellement ; zi est la part
systematique, ou effet, supposee de rang q ; e liminer le bruit revient donc a` reduire la dimension.
Si les zi sont consideres comme aleatoires, le modèle est alors dit structurel ; on suppose que
{x1 , . . . , xn } est un e chantillon statistique i.i.d. Les unites statistiques jouent des roles symetriques,
elles ne nous interessent que pour letude des relations entre les variables. On retrouve alors le
principe de lanalyse en facteurs (ou en facteurs communs et specifiques, ou factor analysis).
4.1
Estimation
P ROPOSITION 3.1. Lestimation des paramètres de (3.1) est fournie par lACP de (X, M, D)
cest-à-dire par la decomposition en valeurs singulières de (X, M, D) :
cq =
Z
q
X
1/2
k uk vk = Uq 1/2 Vq0 .
k=1
Preuve
Sans hypothèse sur la distribution de lerreur, une estimation par les moindres carres conduit a` resoudre
le problème :
min
( n
X
Eq ,zi
)
wi kxi
2
z i kM
; dim(Eq ) = q, zi z Eq
(3.2)
i=1
Soit X = X 1n x0 la matrice centree et Z la matrice (n p) dont les lignes sont les vecteurs (zi z)0 .
n
X
wi kxi zi kM =
i=1
n
X
wi kxi x + z zi kM + kx zkM ;
i=1
le problème (3.2) conduit alors a` prendre b

z = x et devient e quivalent a` resoudre :
o
n

min X Z M,D ; Z Mn,p , rang(Z) = q .
Z
La fin de la preuve est une consequence immediate du theorème (A.5).
(3.3)
32

2
0
Les uk sont les vecteurs propres D-orthonormes de la matrice XMX D associes aux valeurs propres k rangees par ordre decroissant.
Les vk , appeles vecteurs principaux, sont les vecteurs propres M-orthonormes de la ma0
trice X DXM = SM associes aux memes valeurs propres ; ils engendrent des s.e.v. de
dimension 1 appeles axes principaux.
Les estimations sont donc donnees par :
b
z
cq
Z
x,
q
X
0
cq 0 ,
1/2 uk vk = Uq 1/2 Vq0 = XP
k=1
cq
où P
Vq Vq0 M est la matrice de projection

cq ,
M-orthogonale sur E
cq =
E
c2 est
E
zbi
vect{v1 , . . . , vq },
appele plan principal,
cq xi + x.
P
Remarques
i. Les solutions sont embotees pour q = 1, . . . , p :
E1 = vect{v1 } E2 = vect{v1 , v2 } E3 = vect{v1 , v2 , v3 } . . .
ii. Les espaces principaux sont uniques sauf, e ventuellement, dans le cas de valeurs propres
multiples.
iii. Si les variables ne sont pas homogènes (unites de mesure differentes, variances disparates),
elles sont prealablement reduites :
e = X1/2 où = diag ( 2 , . . . , 2 ), avec 2 = Var (X j ) ;
X
1
p
j
e est alors la matrice R = 1/2 S1/2 des correlations.
S
Sous lhypothèse que la distribution de lerreur est gaussienne, une estimation par maximum
de vraisemblance conduit a` la meme solution.
4.2
Definition e quivalente
On considère p variable statistiques centrees X 1 , . . . , X p . Une combinaison lineaire de coefficients fj de ces variables,
p
X
c=
fj xj = Xf ,
j=1
definit une nouvelle variable centree C qui, a` tout individu i, associe la mesure
C(i) = (xi x)0 f .
P ROPOSITION 3.2. Soient p variables quantitatives centrees X 1 , . . . , X p observees sur n individus de poids wi ; lACP de (X, M, D) est aussi la recherche des q combinaisons lineaires
normees des X j , non correlees et dont la somme des variances soit maximale.
5. Representations graphiques
33
Les vecteurs f k = Mvk sont les facteurs principaux. Ils permettent de definir les combinaisons lineaires des X j optimales au sens ci-dessus.
Les vecteurs ck = Xf k sont les composantes principales.
Les variables C k associees sont centrees, non correlees et de variance k ; ce sont les variables principales ;
0
cov(C k , C ` ) = (Xf k ) DXf ` = f k Sf `

0
= vk MSMv` = ` vk Mv` = ` k` .
Les f k sont les vecteurs propres M1 -orthonormes de la matrice MS.
La matrice
C = XF = XMV = U1/2
est la matrice des composantes principales.
Les axes definis par les vecteurs D-orthonormes uk sont appeles axes factoriels.
5
5.1
Les individus
Les graphiques obtenus permettent de representer au mieux les distances euclidiennes interindividus mesurees par la metrique M.
Projection
Chaque individu i represente par xi est approche par sa projection M-orthogonale zbi q sur le
cq engendre par les q premiers vecteurs principaux {v1 , . . . , vq }. En notant ei un
sous-espace E
vecteur de la base canonique de E, la coordonnee de lindividu i sur vk est donnee par :
D
xi x, vk
E
M
= (xi x)0 Mvk = e0i XMvk = cki .
cq sont
P ROPOSITION 3.3. Les coordonnees de la projection M-orthogonale de xi x sur E
les q premiers e lement de la i-ème ligne de la matrice C des composantes principales.
Mesures de qualite
La qualite globale des representations est mesuree par la part de dispersion expliquee :
Pq
cq
k
trSMP
rq =
= Pk=1
.
p
trSM
k=1 k
Remarque. La dispersion dun nuage de points unidimensionnel par rapport a` sa moyenne se
mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage N par rapport a`
son barycentre x se mesure par linertie, generalisation de la variance :
Ig (N ) =
n
X
i=1
2
0
wi kxi xk2M = X M,D = tr (X DXM) = tr (SM).
34
A
x
e
2
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
-10
10
20
Axe 1
F IG . 3.3 Temperatures : premier plan des individus.

La qualite de la representation de chaque xi est donnee par le cosinus carre de langle quil
forme avec sa projection :
[cos (xi x, zbi )] =

2
c

Pq (xi x)
kxi xk2M
Pq
(ck )2
= Ppk=1 ki 2 .
k=1 (ci )
Pour e viter de consulter un tableau qui risque detre volumineux (n lignes), les e tiquettes de
chaque individu sont affichees sur les graphiques avec des caractères dont la taille est fonction de
la qualite. Un individu très mal represente est a` la limite de la lisibilite.
Contributions
Les contributions de chaque individu a` linertie de leur nuage
P
wi pk=1 (cki )2
wi kxi xk2M
= Pp
i =
,
trSM
k=1 k
ainsi quà la variance dune variable principale
ik =
wi (cki )2
,
k
permettent de deceler les observations les plus influentes et, e ventuellement, aberrantes. Ces points
apparaissent visiblement lors du trace des diagrammes-botes parallèles des composantes principales qui e vitent ainsi une lecture fastidieuse de ce tableau des contributions. En effet, ils se singularisent aussi comme outliers hors de la bote (au delà des moustaches) correspondant a` une
direction principale. Les individus correspondants, consideres comme individus supplementaires,
peuvent e tre e limines lors dune nouvelle analyse.
Individus supplementaires
Il sagit de representer, par rapport aux axes principaux dune analyse, des individus qui nont
pas participe aux calculs de ces axes. Soit s un tel vecteur, il doit e tre centre, e ventuellement reduit,
35
4
3
2
A
x
e
0
-1
-2
-3
-3
-2
-1
Axe 1
F IG . 3.4 Carte Visa : premier plan de lACP dune selection de variables. La discrimination des individus possèdant (1) ou non (0) la carte Visa premier nest pas très claire sur cette
representation.
36
puis projete sur le sous-espace de representation. Les coordonnees sont fournies par :
D
E
0
0
vk , Vq Vq0 M(s x)
= vk MVq Vq0 M(s x) = ek Vq0 M(s x).
M
Les coordonnees dun individu supplementaire dans la base des vecteurs principaux sont donc :
Vq0 M(s x).
5.2
Les variables
Les graphiques obtenus permettent de representer au mieux les correlations entre les variables (cosinus des angles) et, si celles-ci ne sont pas reduites, leurs variances (longueurs).
Projection
cq xj sur le sous-espace Fq
Une variable X j est representee par la projection D-orthogonale Q
engendre par les q premiers axes factoriels. La coordonnee de xj sur uk est :
D
E
p
1
1
0
0
0 0
xj , uk
= xj Duk = xj DXMvk = ej X DXMvk = k vjk .
D
k
k
P ROPOSITION 3.4. Les coordonnees de la projection D-orthogonale de xj sur le sous-espace
Fq sont les q premiers e lements de la j-ème ligne de la matrice V1/2 .
Mesure de qualite
La qualite de la representation de chaque xj est donnee par le cosinus carre de langle quil
forme avec sa projection :

c j 2
Pq
j 2
h
i2 Qq x
j c j
D
k=1 k (vk )
.
cos (x , Qq x ) =
= Pp
j 2
kxj k2D
k=1 k (vk )
Correlations variablesfacteurs
Ces indicateurs aident a` linterpretation des axes factoriels en exprimant les correlations entre
variables principales et initiales.
j k
x ,u D
k k
j
k
j k
j
k
cor(X , C ) = cos (x , c ) = cos (x , u ) =
=
v ;
kxj kD
j j
ce sont les e lements de la matrice 1/2 V1/2 .
Cercle des correlations
j
ej = j1 xj , x
e D = 1, les x
ej sont sur la sphère unite
Dans le cas de variables reduites x
Sn de F . Lintersection Sn F2 est un cercle centre sur lorigine et de rayon 1 appele cercle des
ej et xj sont colineaires, celle de x
ej e tant a` linterieur du cercle :
correlations. Les projections de x

c j
c2 xj ) 1.
e = cos (xj , Q
Q2 x
D
c2 x
ej
Ainsi, plus Q
est proche de ce cercle, meilleure est la qualite de sa representation. Ce graphique

est commode a` interpreter a` condition de se mefier des e chelles, le cercle devenant une ellipse si
elles ne sont pas e gales. Comme pour les individus, la taille des caractères est aussi fonction de la
qualite des representations.
A
x
e
37
1.0
1.0
0.5
0.5
A
x
e
0.0
0.0
3
-0.5
-0.5
-1.0
-1.0
-1.0 -0.5 0.0
0.5
1.0
-1.0 -0.5 0.0
Axe 1
0.5
1.0
Axe 2
F IG . 3.5 Temperatures : Premier et deuxième plan des variables.
1.0
0.5
A
x
e
0.0
2
-0.5
-1.0
-1.0 -0.5 0.0
0.5
1.0
Axe 1
F IG . 3.6 Carte Visa : la representation des variables dans le premier plan de lACP fournit une
interpretation classique (stocks versus flux) de ce type de donnees.
38
5.3
Representation simultanee ou biplot
` partir de la decomposition en valeurs singulières de (X, M, D), on remarque que chaque

A
valeur
p
h
ij
X
p
j
j
xi x =
k uki vkj = U1/2 V0
k=1
sexprime comme produit scalaire usuel des vecteurs

h
i
h
i
ci = U1/2 et vj ou encore ui et V1/2 .
i
Pour q = 2, la quantite zbi j en est une approximation limitee aux deux premiers termes.
Cette remarque permet dinterpreter deux autres representations graphiques en ACP projetant
simultanement individus et variables.
i. la representation isometrique ligne utilise les matrices C et V ; elle permet dinterpreter les
distances entre individus ainsi que les produits scalaires entre un individu et une variable
qui sont, dans le premier plan principal, des approximations des valeurs observees X j (i ) ;
ii. la representation isometrique colonne utilise les matrices U et V1/2 ; elle permet dinterpreter les angles entre vecteurs variables (correlations) et les produits scalaires comme
precedemment.
Remarques
i. Dans le cas frequent où M = Ip et où les variables sont reduites, le point representant X j , en
superposition dans lespace des individus se confond avec un pseudo individu supplementaire
qui prendrait la valeur 1 (ecart-type) pour la variable j et 0 pour les autres.
ii. En pratique, ces differents types de representations (simultanees ou non) ne diffèrent que
par un changement dechelle sur les axes ; elles sont très voisines et suscitent souvent les
memes interpretations.
Choix de dimension
La qualite des estimations auxquelles conduit lACP depend, de facon e vidente, du choix de
q, cest-à-dire du nombre de composantes retenues pour reconstituer les donnees, ou encore de la
dimension du sous-espace de representation.
De nombreux critères de choix pour q ont e te proposes dans la litterature. Nous presentons ici
ceux, les plus courants, bases sur une heuristique et un reposant sur une quantification de la stabilite du sous-espace de representation. Dautres critères, non explicites, sinspirent des pratiques
statistiques decisionnelles ; sous lhypothèse que lerreur admet une distribution gaussienne, on
peut exhiber les lois asymptotiques des valeurs propres et donc construire des tests de nullite
ou degalite de ces dernières. Malheureusement, outre la necessaire hypothèse de normalite, ceci
conduit a` une procedure de tests embotes dont le niveau global est incontrolable. Leur utilisation
reste donc heuristique.
6.1
Part dinertie
La qualite globale des representations est mesuree par la part dinertie expliquee :
Pq
k
rq = Ppk=1 .
k=1 k
6. Choix de dimension
39
PCTVAR
1.0
0.8
0.6
0.4
0.2
0.0
0
1
0
1
1
1
2
K
F IG . 3.7 Temperatures : e boulis des valeurs propres.
La valeur de q est choisie de sorte que cette part dinertie expliquee rq soit superieure a` une valeur
seuil fixee a priori par lutilisateur. Cest souvent le seul critère employe.
6.2
Règle de Kaiser
On considère que, si tous les e lements de Y sont independants, les composantes principales
sont toutes de variances e gales (egales a` 1 dans le cas de lACP reduite). On ne conserve alors
que les valeurs propres superieures a` leur moyenne car seules jugees plus informatives que les
variables initiales ; dans le cas dune ACP reduite, ne sont donc retenues que celles plus grandes
que 1. Ce critère, utilise implicitement par SAS/ASSIST, a tendance a` surestimer le nombre de
composantes pertinentes.
6.3
Eboulis
des valeurs propres
Cest le graphique (figures 6.3 et 6.3) presentant la decroissance des valeurs propres. Le
principe consiste a` rechercher, sil existe, un coude (changement de signe dans la suite des
differences dordre 2) dans le graphe et de ne conserver que les valeurs propres jusquà ce coude.
Intuitivement, plus lecart (q q+1 ) est significativement grand, par exemple superieur a` (q1
cq .
q ), et plus on peut e tre assure de la stabilite de E
6.4
Botes-à-moustaches des variables principales
Un graphique (figure 6.4 et 6.4) presentant, en parallèle, les botes-à-moustaches des variables principales illustre bien leurs qualites : stabilite lorsquune grande bote est associee a`
de petites moustaches, instabilite en presence dune petite bote, de grandes moustaches et de
points isoles. Intuitivement, on conserve les premières grandes botes. Les points isoles ou outliers designent les points a` forte contribution, ou potentiellement influents, dans une direction
principale. Ils necessitent une e tude clinique : une autre analyse dans laquelle ils sont declares
supplementaires (poids nuls) afin devaluer leur impact sur lorientation des axes.
6.5
Stabilite du sous-espace
La presentation de lACP, comme resultat de lestimation dun modèle, offre une autre approche au problème du choix de dimension. La qualite des estimations est e valuee de facon habituelle en statistique par un risque moyen quadratique definissant un critère de stabilite du sous-
40
PCTVAR
1.0
0.8
0.6
0.4
0.2
0.0
0
F IG . 3.8 Carte Visa : e boulis des valeurs propres.
CC
20
10
-10
0
9 10 11 12
K
F IG . 3.9 Temperatures : composantes en botes.
CC
5
4
3
2
1
0
-1
-2
-3
0
F IG . 3.10 Carte Visa Premier : composantes en botes.
7. Interpretation
41
espace de representation. Il est defini comme lesperance dune distance entre le modèle vrai
et lestimation qui en est faite. Besse (1992) propose detudier la qualite de lestimation du souscq en considèrant la fonction perte :
espace de representation E

2
cq
cq ,
cq ) = 1
Lq = Q(Eq , E
= q trPq P
Pq P

2
M,D
où Q mesure la distance entre deux sous-espaces par la distance usuelle entre les matrices de
projection qui leur sont associees. Cest aussi la somme des carres des coefficients de correlation
canonique entre les ensembles de composantes ou de variables principales qui engendrent respeccq .
tivement Eq et son estimation E
Un risque moyen quadratique est alors defini en prenant lesperance de la fonction perte :
cq ).
Rq = EQ(Eq , E
(3.4)
Sans hypothèse sur la distribution de lerreur, seules des techniques de re-echantillonnage (bootstrap, jackknife) permettent de fournir une estimation de ce risque moyen quadratique. Leur emploi
est justifie, car le risque est invariant par permutation des observations, mais couteux en temps de
calcul. On se pose donc la question de savoir pour quelles valeurs de q les representations graphiques sont fiables, cest-à-dire stables pour des fluctuations de lechantillon. Besse (1992) propose dutiliser une approximation de lestimateur par jackknife ; elle fournit, directement a` partir
des resultats de lA.C.P. (valeurs propres et composantes principales), une estimation satisfaisante
du risque :
2
d
\
R
JKq = RPq + O((n 1) ).
d
R
Pq est une approximation analytique de lestimateur jackknife qui a pour expression :
q
p
1 Pn
k 2 j 2
X
X
1
i=1 (ci ) (ci )
n
d
R
=
Pq
n1
(j k )2
(3.5)
k=1 j=q+1
où cji designe le terme general de la matrice des composantes principales C.

Ce resultat souligne limportance du role que joue lecart (q q+1 ) dans la stabilite du
sous-espace de representation. Le developpement est inchange dans le cas dune ACP reduite ; de
plus, il est valide tant que
n>
kSk22
.
inf {(k k+1 ); k = 1, . . . , q}
La figure 3.11 montrent la stabilite du sous-espace de representation en fonction de la dimension q pour lA.C.P. des donnees de temperatures. Comme souvent, le premier axe est très stable
tandis que le premier plan reste fiable. Au delà, les axes e tant très sensibles a` toute perturbation
des donnees, ils peuvent e tre associes a` du bruit. Ces resultats sont coherents avec les deux critères
graphiques precedents mais souvent, en pratique, le critère de stabilite conduit a` un choix de dimension plus explicite.
Interpretation
Les macros SAS decrites en exemple, de meme que la plupart des logiciels, proposent, ou
autorisent, ledition des differents indicateurs (contributions, qualites, correlations) et graphiques
definis dans les paragraphes precedents.
0.0
0.5
1.0
1.5
2.0
2.5
3.0
42
10
11
12
F IG . 3.11 Temperatures : stabilite des sous-espaces.

Les contributions permettent didentifier les individus très influents pouvant determiner a`
eux seuls lorientation de certains axes ; ces points sont verifies, caracterises, puis e ventuellement
consideres comme supplementaires dans une autre analyse.
Il faut choisir le nombre de composantes a` retenir, cest-à-dire la dimension des espaces de
representation.
Les axes factoriels sont interpretes par rapport aux variables initiales bien representees.
Les graphiques des individus sont interpretes, en tenant compte des qualites de representation,
en termes de regroupement ou dispersions par rapport aux axes factoriels et projections des
variables initiales.
Les quelques graphiques presentes suffisent, dans la plupart des cas, a` linterpretation dune
ACP classique et e vitent la sortie volumineuse, lorsque n est grand, des tableaux usuels daide a`
linterpretation. On e chappe ainsi a` une critique frequente, et souvent justifiee, des anglo-saxons
vis-à-vis de la pratique francaise de lanalyse des donnees qui, paradoxalement, cherche a`
resumer au mieux linformation mais produit plus de chiffres en sortie quil ny en a en entree !
Remarque. LACP est une technique lineaire optimisant un critère quadratique ; elle ne tient
donc pas compte deventuelles liaisons non lineaires et presente une forte sensibilite aux valeurs
extremes.
Chapitre 4
Analyse Factorielle Discriminante
1
1.1
Introduction
Donnees
Les donnees sont constituees de

p variables quantitatives X 1 , . . . , X p jouant le role de variables explicatives comme dans le
modèle lineaire,
une variable qualitative T , a` m modalites {T1 , . . . , Tm }, jouant le role de variable a` expliquer.
La situation est analogue a` celle de la regression lineaire multiple mais, comme la variable a`
expliquer est qualitative, on aboutit a` une methode très diffP
erente. Les variables sont observees sur
lensemble des n individus affectes des poids wi > 0, ( ni=1 wi = 1), et lon pose
D = diag(wi ; i = 1, . . . , n).
La variable T engendre une partition {` ; ` = 1, . . . , m} de lensemble des individus dont
chaque e lement est deffectif n` .
On note T (n m) la matrice des indicatrices des modalites de la variable T ; son terme
general est

1 si T (i ) = T`
`
`
ti = t (i ) =
.
0 sinon
En posant
w` =
wi ,
i`
il vient
D = T0 DT = diag(w1 , . . . , wm ).
1.2
Objectifs
Deux techniques cohabitent sous la meme appellation danalyse discriminante :

descriptive : cette methode recherche, parmi toutes les ACP possibles sur les variables X j , celle
dont les representations graphiques des individus discriminent au mieux les m classes
engendrees par la variable T (e.g. recherche de facteurs de risque en statistique medicale) ;
decisionnelle : connaissant, pour un individu donne, les valeurs des Y j mais pas la modalite de
T , cette methode consiste a` affecter cet individu a` une modalite (e.g. reconnaissance de
formes). Cette methode est decrite dans la partie modelisation de ce cours.
43
44
Chapitre 4. Analyse Factorielle Discriminante
Remarque. Lorsque le nombre et les caracteristiques des classes sont connues, il sagit dune
discrimination ; sinon, on parle de classification ou encore, avec des hypothèses sur les distributions, de reconnaissance de melanges.
1.3
Notations
On note X la matrice (n p) des donnees quantitatives, G la matrice (m p) des barycentres

des classes :
g1 0
1 X
1
G = D T0 DX = ... où g` =
wi xi ,
w`
0
i`
gm
et Xe la matrice (n p) dont la ligne i est le barycentre g` de la classe ` a` laquelle appartient
lindividu i :
Xe = TG = PG ;
1
P = TD T0 D est la matrice de projection D-orthogonale sur le sous-espace engendre par les

indicatrices de T ; cest encore lesperance conditionnelle sachant T .
Deux matrices centrees sont definies de sorte que X se decompose en
X = Xr + Xe
avec
Xr = X Xe et Xe = Xe 1n x 0 .
On note e galement G la matrice centree des barycentres :
G = G 1m x 0 .
On appelle alors variance intraclasse (within) ou residuelle :
0
Sr = Xr DXr =
m X
X
wi (xi g` )(xi g` )0 ,
`=1 i`
et variance interclasse (between) ou expliquee :

0
Se = G DG = X e DX e =
m
X
w` (g` x)(g` x)0 .
`=1
P ROPOSITION 4.1. La matrice des covariances se decompose en

S = Se + Sr .
2
2.1
Definition
Modèle
Dans lespace des individus, le principe consiste a` projeter les individus dans une direction
` cette fin, Il faut privilegier la variance interclasse
permettant de mettre en e vidence les groupes. A
au detriment de la variance intraclasse consideree comme due au bruit.
3. Realisation de lAFD
45
En ACP, pour chaque effet zi a` estimer, on ne dispose que dune observation xi ; dans le cas
de lAFD on considère que les e lements P
dune meme classe ` sont les observations repetees n`
fois du meme effet z` pondere par w` = i` wi . Le modèle devient donc :
{xi ; i = 1, . . . , n}, n vecteurs
independants de E,
E(i ) = 0, var(i ) = ,
`, i ` , xi = z` + i avec
regulière et inconnue,
Aq , sous-espace affine de de dimension q de E tel que
`, z` Aq , (q < min(p, m 1)).
(4.1)
P
Remarque. Soit z = m
ele entrane que z Aq . Soit Eq le sous-espace de
`=1 w` z` . Le mod`
dimension q de E tel que Aq = z + Eq . Les paramètres a` estimer sont Eq et {z` ; ` = 1, . . . , m} ;
w` est un paramètre de nuisance qui ne sera pas considere.
2.2
Estimation
Lestimation par les moindres carres secrit ainsi :
min
m X
X
Eq ,z`
wi kxi z` k2M ; dim(Eq ) = q, z` z Eq
`=1 i`
Comme on a
m X
X
wi kxi
z` k2M
`=1 i`
m X
X
`=1 i`
wi kxi
g` k2M
m
X
w` kg` z` k2M ,
`=1
on est conduit a` resoudre :

(m
)
X
min
w` kg` z` k2M ; dim(Eq ) = q, z` z Eq .
Eq ,z`
`=1
La covariance 2 du modèle (4.1) e tant inconnue, il faut lestimee. Ce modèle stipule que
lensemble des observations dune meme classe l suit une loi (inconnue) de moyenne ze ll et
de variance . Dans ce cas particulier, la matrice de covariances intraclasse ou matrice des covariances residuelles empiriques Sr fournit donc une estimation optimale de la metrique de
reference :
b 1 = S1
M=
r
.
P ROPOSITION 4.2. Lestimation des paramètres Eq et z` du modèle 4.1 est obtenue par lACP
de (G, S1
r , D). Cest lAnalyse Factorielle Discriminante (AFD) de (X|T, D) .
Realisation de lAFD
Les expressions matricielles definissant les representations graphiques et les aides a` linterpretation decoulent de celles de lACP.
46
3.1
Matrice a` diagonaliser
` lanalyse spectrale de la matrice positive S1
LACP de (G, S1
etrique :
r , D) conduit a
r -sym
1
G 0 D GS1
r = Se Sr .
Comme S1
egulière, cette matrice est de meme rang que Se et donc de meme rang que G
r est r
qui est de dimension (m p). Les donnees e tant centrees lors de lanalyse, le rang de la matrice
a` diagonaliser est
h = rang(Se S1
r ) inf(m 1, p),
qui vaut en general m 1 cest-à-dire le nombre de classes moins un.
On note 1 h > 0 les valeurs propres de Se S1
et v1 , . . . , vh les vecteurs
r
1
propresSr -orthonormes associes. On pose
= diag(1 , . . . , h ) et V = [v1 , . . . , vh ].
Les vecteurs vk sont appeles vecteurs discriminants et les sous-espaces vectoriels de dimension 1
quils engendrent dans IRp les axes discriminants.
3.2
Representation des individus
Lespace des individus est (IRp , b. c., S1

esentation simultanee des individus xi
r ). Une repr
et des barycentres g` des classes par rapport aux memes axes discriminants est obtenue dans cet
espace au moyen des coordonnees :
C = XS1
r V pour les individus et
1
C = GS1
r V =D
T0 DC pour les barycentres.
Les individus initiaux sont projetes comme des individus supplementaires dans le système des
axes discriminants. Comme en ACP, on peut calculer des cosinus carres pour preciser la qualite de
representation de chaque individu.
Il est utile de differencier graphiquement la classe de chaque individu afin de pouvoir apprecier
visuellement la qualite de la discrimination.
3.3
Representation des variables
Lespace des variables est (IRm , b. c., D). Chaque variable X j est represente par un vecteur
dont les coordonnees dans le système des axes factoriels est une ligne de la matrice V1/2 .
3.4
Interpretations
Les interpretations usuelles : la norme est un e cart-type, un cosinus dangle est un coefficient
de correlation, doivent e tre faites en termes decarts-types et de correlations expliquees par la
partition.
La representation des variables est utilisee pour interpretee les axes en fonction des variables
1/2
initiales conjointement avec la matrice des correlations expliquees variablesfacteurs : 1
.
e V
j
1
La matrice e e tant la matrice diagonale des e carts-types expliques e cest-à-dire des racines
carrees des e lements diagonaux de la matrice Se .
Le point pratique essentiel est de savoir si la representation des individus-barycentres et des
individus initiaux permet de faire une bonne discrimination entre les classes definies par la variable
4. Variantes de lAFD
47
T . Si ce nest pas le cas, lAFD ne sert a` rien, les X j nexpliquent pas T . Dans le cas favorable,
le graphique des individus permet dinterpreter la discrimination en fonction des axes et, celui des
variables, les axes en fonction des variables initiales. La synthèse des deux permet linterpretation
de T selon les X j .
4
4.1
Variantes de lAFD
Individus de memes poids
LAFD peut e tre definie de differentes facon. Dans la litterature anglo-saxonne, et donc dans
la version standard dAFD du logiciel SAS (procedure candisc), ce sont les estimations sans
biais des matrices de variances intra (within) et inter (between) qui sont considerees dans le
cas dindividus de memes poids 1/n.
Dans ce cas particulier,
D=
1
1
In et D = diag(n1 , . . . , nm ) où n` = card(` )
n
n
et les matrices de covariances empiriques ont alors pour termes generaux :

n
(S)kj =
1X j
(xi xj )(xki xk ),
n
i=1
m
X
(Se )kj =
1
n
(Sr )kj =
1XX j
(xi g`j )(xki g`k ).
n
n` (g`j xj )(g`k xk ),
`=1
m
`=1 i`
Du point de vue de le Statistique inferentielle, on sait que les quantites calculees ci-dessus ont
respectivement (n 1), (m 1) et (n m) degres de liberte. En consequence, ce point de vue
est obtenu en remplacant dans les calculs
S
par
Se
par
Sr
par
n
S,
n1
n
Se = B =
Se ,
m1
n
Sr = W =
Sr .
nm
S =
Les resultats numeriques de lAFD se trouvent alors modifies de la facon suivante :

matrice a` diagonaliser :
valeurs propres :
Se S1
r
=
=
vecteurs propres :
representation des barycentres :
nm
1
m1 Se Sr ,
nm
m1 ,
q
n
nm V,
representation des variables :
V 1/2
correlations variables-facteurs :
1/2 =
1
e V
nm
n C,
1/2
n
,
m1 V
1/2
1
.
e V
Ainsi, les representations graphiques sont identiques a` un facteur dechelle près tandis que les
parts de variance expliquee et les correlations variables-facteurs sont inchangees.
48
4.2
Metrique de Mahalanobis
LAFD est souvent introduite dans la litterature francophone comme un cas particulier dAnalyse Canonique entre un ensemble de p variables quantitatives et un ensemble de m variables indicatrices des modalites de T . La proposition suivante e tablit les relations entre les deux approches :
P ROPOSITION 4.3. lACP de (G, S1

emes vecteurs principaux que lACP
r , D) conduit aux m
1
de (G, S , D). Cette dernière est lACP des barycentres des classes lorsque lespace des individus est muni de la metrique dite de Mahalanobis M = S1 et lespace des variables de la
metrique des poids des classes D.
Les resultats numeriques de lAFD se trouvent alors modifies de la facon suivante :
matrice a` diagonaliser :
valeurs propres :
vecteurs propres :
representation des barycentres :
representation des variables :
correlations variables-facteurs :
Se S1 ,
(I + )1 ,
V(I + )1/2 ,
C(I + )1/2 ,
V1/2 ,
1/2
1
.
e V
Les representations graphiques des individus (voir ci-dessus) ne diffèrent alors que dune homothetie et conduisent a` des interpretations identiques, les correlations variables-facteurs ainsi que
les representations des variables sont inchangees.
Exemples
Ce chapitre est illustree par une comparaison des sorties graphiques issues dune ACP et dune
AFD. Les donnees decrivent trois classes dinsectes sur lesquels ont e te realisees 6 mesures anatomiques. On cherche a` savoir si ces mesures permettent de retrouver la typologie de ces insectes.
Ce jeu de donnees scolaire conduit a` une bien meilleure discrimination que ce que lon peut
obtenir dans une situation concrète.
Cest ce qui se passe avec les donnees bancaires. La discrimination obtenue nest pas très
nette, une meilleure le sera en considerant une selection de variables plus adaptee. Dautre part, la
situation est ici très particulière car la variable a` expliquer nayant que deux modalites, la dimension du sous-espace est reduite a` un. Une deuxième dimension est generee de facon aleatoire afin
de rendre plus lisible la representation des individus.
5. Exemples
49
A
x
e
-1
-2
-3
-4
-4
-3
-2
-1
Axe 1
F IG . 4.1 Insectes : premier plan factoriel de lACP.
50
5
4
3
2
A
x
e
0
-1
-2
-3
-4
-8
-7
-6
-5
-4
-3
-2
-1
Axe 1
F IG . 4.2 Insectes : premier plan factoriel de lAFD.
5. Exemples
51
PSEUDY
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-2
-1
0
CARVPR
2
CAN1
0
F IG . 4.3 Carte Visa : premier plan factoriel de lAFD. Laxe 2 est issu dun tirage aleatoire,
laxe 1 ne fournit pas une discrimination très marquee. Cela remet en cause la popssibilite de
discrimination lineaire des deuc classes.
52
Chapitre 5
Analyse Factorielle des
Correspondances
1
1.1
Introduction
Donnees
On considère dans ce chapitre deux variables qualitatives observees simultanement sur n individus affectes de poids identiques 1/n. On suppose que la première variable, notee X, possède
r modalites notees x1 , . . . , x` , . . . , xr , et que la seconde, notee Y , possède c modalites notees
y1 , . . . , y h , . . . , y c .
La table de contingence associee a` ces observations, de dimension r c, est notee T ; son
e lement generique est n`h , effectif conjoint. Elle se presente sous la forme suivante :
x1
..
.
x`
..
.
xr
sommes
1.2
y1
n11
..
.
n`1
..
.
nr1
n+1
yh
n1h
..
.
n`h
..
.
nrh
n+h
yc
n1c
..
.
n`c
..
.
nrc
n+c
sommes
n1+
..
.
n`+
..
.
nr+
n
Notations
Pc
Pr
Les quantites {n`+ =
. . . , r} et {n+h =
h=1
`=1 n`h ; h = 1, . . . , c} sont
Pnr`h ; ` = 1, P
les effectifs marginaux verifiant `=1 n`+ = ch=1 n+h = n. De facon analogue, on definit les
notions de frequences conjointes (f`h = n`h /n) et de frequences marginales. Ces dernières sont
rangees dans les vecteurs :
gr = [f1+ , . . . , fr+ ]0 ,
et gc = [f+1 , . . . , f+c ]0 .
Elles permettent de definir les matrices :
Dr = diag(f1+ , . . . , fr+ ),
et Dc = diag(f+1 , . . . , f+c ).
53
54
Chapitre 5. Analyse Factorielle des Correspondances
On sera e galement amene a` considerer les profilslignes et les profilscolonnes deduits de T.

Le `ème profil-ligne est
n`1
n`h
n`c
{
,...,
,...,
}.
n`+
n`+
n`+
Il est considere comme un vecteur de IRc et les r vecteurs ainsi definis sont disposes en colonnes
dans la matrice c r
1
A = T0 D1
r .
n
De meme, le hème profil-colonne est
{
n1h
n`h
nrh
,...,
,...,
},
n+h
n+h
n+h
vecteur de IRr , et la matrice r c des profils-colonnes est

B=
1.3
1
TD1
c .
n
Liaison entre deux variables qualitatives
D E FINITION 5.1. On dit que deux variables X et Y sont non liees relativement a` T si et
seulement si :
n`+ n+h
(`, h) {1, . . . , r} {1, . . . , c} : n`h =
.
n
Il est e quivalent de dire que tous les profils-lignes sont e gaux, ou encore que tous les profilscolonnes sont e gaux (voir chapitre 2).
Cette notion est coherente avec celle dindependance en probabilites. En effet, soit =
{1, . . . , n} lensemble des individus observes et (, P(), P ) lespace probabilise associe où
P est lequiprobabilite ; MX = {x1 , . . . , xr } et MY = {y1 , . . . , yc } designent les ensembles
e et Ye les variables aleatoires
de modalites, ou valeurs prises par les variables X et Y . On note X
associees aux 2 variables statistiques X et Y :
e : (, P(), P )
X
7
(MX , P(MX )),
e
Y : (, P(), P )
7
(MY , P(MY )) ;
e Ye et le couple
PX , PY et PXY designent respectivement les probabilites images definies par X,
e
e
(X, Y ) sur (MX , P(MX )), (MY , P(MY )) et (MX MY , P(MX ) P(MY )) ; ce sont les
e et Ye sont independantes
probabilites empiriques. Alors, X et Y sont non liees si et seulement si X
en probabilite (la verification est immediate).
On suppose maintenant quil existe une liaison entre X et Y que lon souhaite e tudier. La
representation graphique des profils-lignes ou des profils-colonnes, au moyen de diagrammes en
barres parallèles, ainsi que le calcul de coefficients de liaison (Cramer ou Tschuprow) donnent une
première idee de la variation conjointe des deux variables (voir chapitre 2). Le test du 2 permet
de plus de sassurer du caractère significatif de cette liaison. Il est construit de la manière suivante :
e et Ye sont independantes en probabilites ;
lhypothèse nulle est H0 : X
e et Ye ne sont pas independantes.
lhypothèse alternative est H1 : les variables X
La statistique de test est alors
2
n`+ n+h 2
n
;
n`+ n+h
n
r X
c
X
n`h
`=1 h=1
2. Double ACP
55
elle suit asymptotiquement (pour les grandes valeurs de n), et si lhypothèse H0 est vraie, une loi
de 2 a` (r 1)(c1) degres de liberte. On rejette donc H0 (et lon conclut au caractère significatif
de la liaison) si 2 depasse une valeur particulière (valeur ayant une probabilite faible et fixee a
priori en general 0,05 d e tre depassee par une loi de 2 a` (r 1)(c 1) degres de liberte).
1.4
Objectifs
Pour preciser la liaison existant entre les variables X et Y , on souhaite definir un modèle
statistique susceptible de fournir des paramètres dont la representation graphique (de type biplot) illustrera les correspondances entre les modalites de ces 2 variables. Cette approche sera
developpee au paragraphe 3.
Une autre approche, très courante dans la litterature francophone, consiste a` definir lAnalyse
Factorielle des Correspondances (AFC) comme e tant le resultat dune double Analyse en Composantes Principales
lACP des profilslignes,
lACP des profilscolonnes,
relativement a` la metrique dite du 2 . Cette approche est presentee au paragraphe 2.
Remarque. :
i. Toute structure dordre existant e ventuellement sur les modalites de X ou de Y est ignoree
par lAFC
ii. Tout individu presente une modalite et une seule de chaque variable.
iii. Chaque modalite doit avoir e te observee au moins une fois ; sinon, elle est supprimee.
2
2.1
Double ACP
Metriques du 2
Les correspondances entre modalites e voquees au paragraphe precedant se trouvent exprimees

en termes de distances au sens dune certaine metrique. Ainsi, chaque modalite x` de X est caracterisee par son profilligne represente par le vecteur a` de lespace IRc muni de la base canonique (les coordonnees de a` sont les e lements de la `ème colonne de A). De meme, chaque
modalite yh de Y est caracterisee par son profilcolonne represente par le vecteur bh de lespace
IRr muni de la base canonique.
1
Ces espaces sont respectivement munis des metriques, dites du 2 , de matrices D1
c et Dr .
Ainsi, la distance entre deux modalites x` et xi de X secrit
ka` ai k2D1 =
c
c
X
1
(a` aih )2 ,
f+h h
h=1
et de meme pour les modalites de Y . La metrique du 2 introduit les inverses des frequences
marginales des modalites de Y comme ponderations des e carts entre e lements de deux profils
relatifs a` X (et reciproquement) ; elle attribue donc plus de poids aux e carts correspondants a` des
modalites de faible effectif (rares) pour Y .
2.2
ACP des profilscolonnes
On sinteresse ici a` lACP du triplet (B0 , D1

r , Dc ). Dans cette ACP, les individus sont
les modalites de Y , caracterisees par les profilscolonnes de T, ponderees par les frequences
marginales correspondantes et rangees en lignes dans la matrice B0 .
56
P ROPOSITION 5.2. Les e lements de lACP de (B0 , D1

r , Dc ) sont fournis par lanalyse spec1
trale de la matrice carree, Dr symetrique et semidefinie positive BA.
Preuve Elle se construit en remarquant successivement que :
i. le barycentre du nuage des profilscolonnes est le vecteur gr des frequence marginales de X,
ii. la matrice BDc B0 gr Dc gr0 joue le role de la matrice des variancescovariances,
` rechercher les
iii. la solution de lACP est fournie par la D.V.S. de (B0 1gr0 , D1
r , Dc ), qui conduit a
valeurs et vecteurs propres de la matrice (SM)
0
0
1
1
BDc B0 D1
( car B0 D1
r gr Dc gr = BA gr gr Dr
r = Dc A)
iv. les matrices BA gr gr0 D1

emes vecteurs propres associees aux memes valeurs
r et BA ont les m
` la
propres, a` lexception du vecteur gr associe a` la valeur propre 0 = 0 de BA gr gr0 D1
r et a
valeur propre 0 = 1 de BA.
2
On note U la matrice contenant les vecteurs propres D1

es de BA. La representation
r orthonorm
des individus de lACP realisee fournit une representation des modalites de la variable Y . Elle
se fait au moyen des lignes de la matrice des composantes principales (XMV) :
Cc = B0 D1
r U.
2.3
ACP des profilslignes
De facon symetrique (ou duale), on sinteresse a` lACP des individus modalites de X ou

profilslignes (la matrice des donnees est A0 ), ponderes par les frequences marginales des lignes
de T (la matrice diagonale des poids est Dr ) et utilisant la metrique du 2 . Il sagit donc de lACP
de (A0 , D1
c , Dr ).
P ROPOSITION 5.3. Les e lements de lACP de (A0 , D1
c , Dr ) sont fournis par lanalyse spec1
trale de la matrice carree, Dc symetrique et semidefinie positive AB.
On obtient directement les resultats en permutant les matrices A et B, ainsi que les indices c
et r. Notons V la matrice des vecteurs propres de la matrice AB ; les coordonnees permettant la
representation les modalites de la variable X sont fournies par la matrice :
Cr = A0 D1
c V.
Sachant que V contient les vecteurs propres de AB et U ceux de BA, le theorème (A.1)
montre quil suffit de realiser une seule analyse, car les resultats de lautre sen deduisent simplement :
V = AU1/2 ,
U = BV1/2 ;
est la matrice diagonale des valeurs propres (exceptee 0 = 0) communes aux deux ACP
3. Modèles pour une table de contingence
57
0 1
1/2
1/2
1/2
Cc = B0 D1
= D1
= D1
,
r U = B Dr BV
c ABV
c V
1
1/2
Cr = A0 D1
.
c V = Dr U
On en deduit les formules dites de transition :

Cc = B0 Cr 1/2 ,
Cr = A0 Cc 1/2 .
La representation simultanee habituellement construite a` partir de ces matrices (option par
defaut de SAS) nest pas a priori justifiee. On lui donnera un sens dans les paragraphes suivants.
Modèles pour une table de contingence
On e crit dabord que chaque frequence f`h de T correspond a` lobservation dune probabilite
theorique p`h ; on modelise donc la table de contingence par cette distribution de probabilites. On
precise ensuite le modèle en explicitant lecriture de p`h . Differents modèles classiques peuvent
e tre consideres.
3.1
Le modèle loglineaire
Il consiste a` e crire :
ln(p`h ) = + ` + h + `h
avec des contraintes le rendant identifiable. Ce modèle, très classique, ne sera pas developpe ici.
On pourra se reporter, par exemple, a` Bishop et al. (1975).
3.2
Le modèle dassociation
Il est encore appele RC-modèle, ou modèle de Goodman (1991) :
!
q
X
p`h = ` h exp
k `k hk .
k=1
Ce modèle, muni des contraintes necessaires, permet de structurer les interactions et de faire des
representations graphiques des lignes et des colonnes de T au moyen des paramètres k et hk .
Ces paramètres peuvent e tre estimes par maximum de vraisemblance ou par moindres carres.
3.3
Le modèle de correlation
On e crit ici :
p`h = p`+ p+h +
q
X
p
k uk` vhk ,
(5.1)
k=1
avec q inf(r 1, c 1), 1 q > 0 et sous les contraintes didentifiabilite suivantes :

r
X
uk` =
`=1
0
c
X
vhk = 0,
h=1
0
j
k
1 j
uk D1
r u = v Dc v
= kj .
58
Remarque. :
i. Le modèle (5.1) ci-dessus est e quivalent au modèle considere par Goodman (1991) :
p`h = p`+ p+h
1+
q
X
p
!
k `k hk
(5.2)
k=1
moyennant une homothetie sur les paramètres.
P
ii. La quantite qk=1 k uk` vhk exprime lecart a` lindependance pour la cellule consideree.
iii. Le modèle suppose que cet e cart se decompose dans un sousespace de dimension q <
min(c 1, r 1).
iv. Les estimations des paramètres p`+ , p+h , k , uk , vk peuvent e tre realisees par maximum de
vraisemblance 1 ou par moindres carres. Dans le contexte de la statistique descriptive, qui
est celui de ce cours, il est naturel de retenir cette dernière solution.
3.4
Estimation Moindres Carres dans le modèle de correlation
Critère
Considerons les espaces IRc et IRr munis de leur base canonique et de leur metrique du 2
respectives et notons P le tableau des probabilites theoriques definies selon le modèle (5.1). Le
critère des moindres carres secrit alors :

2
1

min T P
1 1 .
P
n
Dr Dc
(5.3)
Estimation
P ROPOSITION 5.4. Lestimation des paramètres de (5.1) en resolvant (5.3) est fournie par la
1
D.V.S. de ( n1 T, D1
` lordre q. Les probabilites marginales p`+ et p+h sont estimees par
c , Dr ) a
f`+ et f+h tandis que les vecteurs uk (resp. vk ) sont vecteurs propres de la matrice BA (resp.
AB) associes aux valeurs propres k .
On obtient ainsi, dune autre facon, lAFC de la table de contingence T.
1
Preuve Elle se construit a` partir de la D.V.S. de ( n1 T, D1
c , Dr ) :
1 h
t =
n `
min(r1,c1)
p
k uk` vhk ,
k=0
où les vecteurs uk (resp. vk ) sont vecteurs propres D1

es (resp. D1
es) de la
r orthonorm
c orthonorm
matrice
1
1 0 1
1
1
TD1
T Dr = BA (resp. T0 D1
TD1
c
r
c = AB),
n
n
n
n
associes aux valeurs propres k .
De plus, le vecteur gr = u0 (resp. gc = v0 ) est vecteur propre D1
e (resp. D1
e)
r norm
c norm
de la matrice BA (resp. AB) associe a` la valeur propre 0 = 1. Enfin, les matrices AB et BA sont
stochastiques2 et donc les valeurs propres verifient :
1 = 0 1 q > 0.
1
On suppose alors que les n p`h sont les paramètres de lois de Poisson independantes conditionnellement a` leur
somme qui est fixee et e gale a` n.
2
Matrice reelle, carree, a` termes positifs, dont la somme des termes de chaque ligne (ou chaque colonne) vaut 1.
59
En identifiant les termes, lapproximation de rang (q + 1) de la matrice P secrit donc :

b q = gr g0 +
P
c
q
X
p
0
k uk vk
k=1
et les proprietes dorthonormalite des vecteurs propres assurent que les contraintes du modèle sont verifiees.
2
4
4.1
Biplot
La decomposition de la matrice n1 T se transforme encore en :
f`h f`+ f+h
=
f`+ f+h
min(r1,c1)
k=0
uk` vhk
.
f`+ f+h
En se limitant au rang q, on obtient donc, pour chaque cellule (`, h) de la table T, une approximation de son e cart relatif a` lindependance comme produit scalaire des deux vecteurs
uk` 1/4
v k 1/4
k et h k ,
f`+
f+h
termes generiques respectifs des matrices
1/4
1/4
D1
et D1
,
r U
c V
qui sont encore les estimations des vecteurs ` et h du modèle 5.2. Leur representation (par
exemple avec q = 2) illustre alors la correspondance entre les deux modalites x` et yh : lorsque
deux modalites, e loignees de lorigine, sont voisines (resp. opposees), leur produit scalaire est de
valeur absolue importante ; leur cellule conjointe contribue alors fortement et de manière positive
(resp. negative) a` la dependance entre les deux variables.
LAFC apparat ainsi comme la meilleure reconstitution des frequences f`h , ou encore la
meilleure representation des e carts relatifs a` lindependance. La representation simultanee des
modalites de X et de Y se trouve ainsi pleinement justifiee.
4.2
Double ACP
Chacune des deux ACP realisee permet une representation des individus (modalites) approchant, au mieux, les distances du 2 entre les profilslignes dune part, les profilscolonnes dautre
part. Les coordonnees sont fournies cette fois par les matrices (de composantes principales)
1/2
1/2
Cr = D1
et Cc = D1
.
r U
c V
Meme si la representation simultanee na plus alors de justification, elle reste couramment

employee. En fait, les graphiques obtenus diffèrent très peu de ceux du biplot ; ce dernier sert
donc de caution puisque les interpretations des graphiques sont identiques. On notera que cette
representation issue de la double ACP est celle realisee par la plupart des logiciels statistiques
(cest en particulier le cas de SAS).
60
4.3
Representations barycentriques
Dautres representations simultanees, appelees barycentriques, sont proposees en utilisant les

matrices
1/2
D1
et D1
r U
c V,
ou encore les matrices
1
1/2
D1
.
r U et Dc V
Si lon considère alors, par exemple, la formule de transition

0 1
1/2
Cr = A0 Cc 1/2 Cr 1/2 = A0 Cc D1
,
r U = A Dc V
on voit que dans la seconde des representations cidessus, chaque modalite x` de X est representee
par un vecteur qui est barycentre de lensemble des vecteurs associes aux modalites de Y , chacun
deux ayant pour poids lelement correspondant du lième profilligne. Là encore, la representation
simultanee sen trouve parfaitement justifiee. Malheureusement, dans la pratique, les representations
barycentriques sont souvent illisibles ; elles sont, de ce fait, très peu utilisees.
4.4
Autre representation
La pratique de lAFC montre que linterpretation des graphiques est toujours la meme, quelle
que soit la representation simultanee choisie parmi les 3 cidessus.
On peut ainsi envisager dutiliser, pour une representation simultanee des modalites de X et
de Y , les coordonnees fournies respectivement par les lignes des matrices
1
D1
r U et Dc V.
Linterpretation du graphique sera toujours la meme et les matrices cidessus, outre leur
simplicite, presentent lavantage de conduire a une representation graphique qui reste invariante
lorsque lon utilise la technique dAnalyse Factorielle des Correspondances Multiples (voir chapitre suivant) sur les donnees considerees ici.
4.5
Aides a` linterpretation
Les qualites de representation dans la dimension choisie et les contributions des modalites de
X ou de Y se deduisent aisement de celles de lACP Ces quantites sont utilisees a` la fois pour
choisir la dimension de lAFC et pour interpreter ses resultats dans la dimension choisie.
Mesure de la qualite globale
Pour une dimension donnee q (1 q d = inf(r 1, c 1)), la qualite globale des
representations graphiques en dimension q se mesure par le rapport entre la somme des q premières
valeurs propres de lAFC et leur somme complète de 1 a` d.
P
Comptetenue de la propriete dk=1 k = 2 (voir en 6.1), la qualite de la representation dans
la kième dimension secrit
nk
.
2
On parle encore de part du khideux expliquee par la kième dimension (voir les sorties du logiciel
SAS).
5. Exemple
61
Mesure de la qualite de chaque modalite

Pour chaque modalite de X (resp. de Y ), la qualite de sa representation en dimension q se mesure par le cosinus carre de langle entre le vecteur representant cette modalite dans IRc (resp. dans
1
IRr ) et sa projection D1
c orthogonale (resp. Dr orthogonale) dans le sousespace principal de
dimension q.
Ces cosinus carres sobtiennent en faisant le rapport des sommes appropriees des carres des
coordonnees extraites des lignes de Cr (resp. de Cc ).
Contributions a` linertie totale
Linertie totale (en dimension d) du nuage des profilslignes (resp. des profilscolonnes) est
e gale a` la somme desP
d valeurs propres. La part
P due au iième profilligne (resp. au jième profil
colonne) valant f`+ dk=1 (ckr` )2 (resp. f+h dk=1 (ckch )2 ), les contributions a` linertie totale sen
deduisent immediatement.
Contributions a` linertie selon chaque axe
Il sagit de quantites analogues a` celles cidessus, dans lesquelles il ny a pas de sommation
sur lindice k. Ces quantites sont utilisees dans la pratique pour selectionner les modalites les
plus importantes, cestàdire celles qui contribuent le plus a` la definition de la liaison entre les 2
variables X et Y .
Remarque
En general, on ninterprète pas les axes dune AFC (en particulier parce quil ny a pas de
variable quantitative intervenant dans lanalyse). Linterpretation sappuie surtout sur la position
relative des differentes modalites reperees comme les plus importantes.
Exemple
Lexemple des donnees bancaires se prete mal a` une analyse des correspondances, aucun
couple de variable qualitative ne conduit a` des representations interessantes. La table de contingence e tudiee decrit la repartition des exploitations agricoles de la region MidiPyrenees dans les
differents departements en fonction de leur taille. Elle croise la variable qualitative departement,
a` 8 modalites, avec la variable taille de lexploitation, quantitative decoupee en 6 classes. Les
donnees, ainsi que les resultats numeriques obtenus avec la procedure corresp de SAS/STAT,
sont fournis en annexe.
La figure 5 presente le premier plan factoriel utilisant les coordonnees obtenues par defaut,
cestàdire celles de la double ACP.
6
6.1
Complements
Proprietes
Formule de reconstitution des donnees. On appelle ainsi lapproximation dordre q (cest
a` dire fournie par lAFC en dimension q) de la table des frequences initiales ( n1 T) :
f`h ' f`+ f+h
q
X
p
k uk` vhk .
k=1
62

0.4
0.3
SINF1
h.g.
S1_5
arie
0.2
A
x
e
0.1
S_100
S50_99
gers
0.0
h.p.
S20_50
t.g.
S10_20
lot
tarn
-0.1
aver
S5_10
-0.2
-0.5
-0.3
-0.1
0.1
Axe
0.3
0.5
0.7
F IG . 5.1 Repartition des exploitations agricoles par taille et par departement. Premier plan de
lAFC.
Les valeurs propres verifient :
d
X
k = 2 .
k=1
En effet, on verifie facilement :

trAB =
d
X
k = 1 +
k=0
2
= 1 + 2 ;
n
doù le resultat.
6.2
Invariance
Les tables de contingence T et T, IR+ , admettent la meme AFC (evident).
Propriete dequivalence distributionnelle : si deux lignes de T, ` et i, ont des effectifs
proportionnels, alors les representations de x` et xi sont confondues (leurs profils sont identiques) et le regroupement de x` et xi en une seule modalite (en additionnant les effectifs)
laisse inchangees les representations graphiques (meme chose pour les colonnes de T).
Cette propriete est une consequence de la metrique du 2 .
6.3
Choix de la dimension q
Le choix de la dimension pose les memes problèmes quen ACP De nombreuses techniques
empiriques ont e te proposees (essentiellement : part dinertie expliquee, e boulis des valeurs propres).
Il existe e galement une approche probabiliste qui peut donner des indications interessantes. Nous
la detaillons cidessous.
Posons
q
nc
`h = nf`+ f+h + n
q
X
p
k uk` vhk ,
k=1
6. Complements
63
estimation dordre q de leffectif conjoint de la cellule (`, h). Alors, sous certaines conditions
(echantillonnage, n grand, modèle multinomial . . . ), on peut montrer que
Kq =
r X
c
q 2
X
(n`h nc
)
`h
`=1 h=1
q
nc
`h
'n
d
X
k=q+1
suit approximativement une loi de 2 a` (rq 1)(cq 1) degres de liberte. On peut donc retenir
pour valeur de q la plus petite dimension pour laquelle Kq est inferieure a` la valeur limite de cette
loi. Le choix q = 0 correspond a` la situation où les variables sont proche de lindependance en
probabilites ; les frequences conjointes sont alors bien approchees par les produits des frequences
marginales.
64
Chapitre 6
Analyse des Correspondances Multiples
Cette methode est une generalisation de lAnalyse Factorielle des Correspondances, permettant de decrire les relations entre p (p > 2) variables qualitatives simultanement observees sur
n individus. Elle est aussi souvent utilisee pour la construction de scores comme prealable a` une
methode de classification (nuees dynamiques) necessitant des donnees quantitatives.
1
1.1
Codages de variables qualitatives

Tableau disjonctif complet
Soit X une variable qualitative a` c modalites. On appelle variable indicatrice de la kième

modalite de x (k = 1, . . . , c), la variable X(k) definie par

X(k) (i) =
1 si X(i) = Xk ,
0 sinon,
où i est un individu quelconque et Xk est la kième modalite de X. On notera nk leffectif de Xk .

On appelle matrice des indicatrices des modalites de X, et lon notera X, la matrice n c de
terme general :
xki = X(k) (i).
On verifie :
c
X
xki
= 1, i et
n
X
xki = nk .
i=1
k=1
Considerons P
maintenant p variables qualitatives X 1 , . . . , X p . On note cj le nombre de modaj
lites de X , c = pj=1 cj et Xj la matrice des indicatrices de X j .
On appelle alors tableau disjonctif complet la matrice X, n c, obtenue par concatenation des
matrices Xj :
X = [X1 | |Xp ].
X verifie :
c
X
k=1
xki = p, i et
n X
c
X
xki = np.
i=1 k=1
Dautre part, la somme des e lements dune colonne de X est e gale a` leffectif marginal de la
modalite de la variable X j correspondant a` cette colonne.
65
66
1.2
Chapitre 6. Analyse des Correspondances Multiples
Tableau de Burt
On observe toujours p variables qualitatives sur un ensemble de n individus. On appelle tableau de Burt la matrice B, c c, definie par :
B = X0 X.
On peut e crire B = [Bjl ] (j = 1, . . . , p ; l = 1, . . . , p) ; chaque bloc Bjl , de dimension cj cl , est
defini par :
Bjl = X0j Xl .
Si j 6= l, Bjl est la table de contingence obtenue par croisement des variables X j en lignes et X l
en colonnes. Si j = l, le bloc diagonal Bjj est luimeme une matrice diagonale verifiant :
Bjj = diag (nj1 , . . . , njcj ).
La matrice B est symetrique, deffectifs marginaux njl p et deffectif total np2 .
1.3
La demarche suivie dans ce chapitre
La generalisation de lAFC a` plusieurs variables qualitatives repose sur certaines proprietes

observees dans le cas e lementaire où p = 2. On sinteresse tout dabord aux resultats fournis
par lAFC usuelle realisee sur le tableau disjonctif complet X = [X1 |X2 ] relatif a` 2 variables
qualitatives X 1 et X 2 ; X est alors considere comme une table de contingence (paragraphe 2).
Ensuite, on suit la meme demarche avec lAFC realisee sur le tableau de Burt B relatif a` X 1
et X 2 (paragraphe 3). Enfin, en utilisant les proprietes obtenues dans les deux premiers cas, on
generalise cette double approche a` un nombre quelconque p de variables qualitatives ; on definit
ainsi lAnalyse Factorielle des Correspondances Multiples (paragraphe 4).
2
2.1
AFC du tableau disjonctif complet relatif a` 2 variables

Donnees
On note toujours X 1 et X 2 les 2 variables qualitatives considerees et r et c leurs nombres

respectifs de modalites.
Les matrices intervenant dans lAFC usuelle sont reprises ici avec les memes notations, mais
surlignees. On obtient ainsi :
T = X = [X1 |X2 ] ;
1
Dr =
In ;
n

1 Dr 0
1
Dc =
= ;
0 Dc
2
2
1 0 1 1 0
T Dr = X ;
A =
2
2n
1
1
1
T Dc = X1 .
B =
n
2n
On considère ici lAFC comme une double ACP : celle des profilslignes A, puis celle des
profilscolonnes B.
2. AFC du tableau disjonctif complet relatif a` 2 variables
2.2
67
Les profilslignes, provenant de T, sont associes aux n individus observes. Leur ACP conduit
ainsi a` une representation graphique des individus, inconnue en AFC classique.
P ROPOSITION 6.1. LACP des profilslignes issue de lAFC realisee sur le tableau disjonc1
tif complet associe a` 2 variables qualitatives conduit a` lanalyse spectrale de la matrice Dc
symetrique et positive :

1 Ir B
AB =
.
2 A Ic
Les r + c valeurs propres de A B secrivent
k =
où les k sont les valeurs propres de la matrice AB (donc celles de lAFC classique de X 1 et
X 2 ).
1
Les vecteurs propres Dc orthonormes associes se mettent sous la forme

1
V=
2
U
V

;
la matrice U (resp. V) contient les vecteurs propres D1

es (resp. D1
es)
r orthonorm
c -orthonorm
de la matrice BA (resp. AB) ; autrement dit, les matrices U et V sont les matrices de vecteurs
propres obtenues en faisant lAFC classique de la table de contingence croisant X 1 et X 2 .
La matrice des composantes principales secrit
Cr =
1
[X1 Cr + X2 Cc ] 1/2 ,
2
où Cr et Cc sont encore les matrices de composantes principales de lAFC classique.

Dans la pratique, on ne considère que les d = inf(r 1, c 1) plus grandes valeurs propres
differentes de 1, ainsi que les vecteurs propres associes. Les valeurs propres sont rangees dans la
matrice
i
1h
M = diag (1 , . . . , d ) =
Id + 1/2 .
2
Les autres valeurs propres non nulles sont dues a` lartifice de construction de la matrice a` diagonaliser ; elles nont donc pas de signification statistique.
On notera que la matrice Cr , n d, fournit les coordonnees permettant la representation
graphique des individus sur les axes factoriels.
2.3
Les profilscolonnes sont associes aux r + c modalites des variables. Leur ACP conduit donc
a` une representation graphique de ces modalites dont on verra quelle est très voisine de celle
fournie par une AFC classique.
68
P ROPOSITION 6.2. LACP des profilscolonnes issue de lAFC realisee sur le tableau disjonc1
tif complet associe a` 2 variables conduit a` lanalyse spectrale de la matrice Dr symetrique et
positive :

1
0
1 0
BA =
X1 D1
r X1 + X2 Dc X2 .
2n
Les r + c valeurs propres non nulles de B A sont les k .
1
Les vecteurs propres Dr orthonormes associes se mettent sous la forme :

U=
1
Cr M1/2 .
n
La matrice des composantes principales secrit :

Cr
Cc =
1/2 M1/2 .
Cc
Ainsi, lAFC du tableau disjonctif complet permet, grace aux coordonnees contenues dans
les lignes de la matrice Cc , une representation simultanee des modalites des 2 variables. Cette
representation est très voisine de celle obtenue par lAFC classique,
definie au chapitre precedent.
q
Une simple homothetie sur chaque axe factoriel, de rapport
lautre.
1+ k
2k ,
permet de passer de lune a`
De plus, cette approche permet aussi de realiser une representation graphique des individus
` un facteur près, chaque indiavec les coordonnees contenues dans les lignes de la matrice Cr . A
vidu apparat comme le barycentre des 2 modalites quil a presentees. Dans le cas où n est grand,
le graphique des individus a neanmoins peu dinteret ; seule sa forme generale peut en avoir un.
Remarque. Si, dans lAFC classique, on choisit dutiliser, pour la representation simultanee
des modalites de X 1 et de X 2 , les lignes des matrices
1/2
1/2
Cr = D1
et Cc = D1
r U = Cr
c V = Cc
(voir chapitre precedent, soussection 4.4), alors on obtient par AFC du tableau disjonctif complet
la matrice

Cr
Cc = Cc M1/2 =
;
Cc
il y a invariance de la representation des modalites lorsquon passe dune methode a` lautre. Pour
les individus, on obtient
1
Cr = [X1 Cr + X2 Cc ] M1/2
2
(le commentaire est alors le meme quavec Cr ).
AFC du tableau de Burt relatif a` 2 variables
Dans cette section, on sinteresse aux resultats fournis par lAFC realisee sur le tableau de
Burt B = X0 X, (r + c) (r + c), relatif aux 2 variables X 1 et X 2 ; B est encore considere comme
une table de contingence. La matrice B e tant symetrique, les profilslignes et les profilscolonnes
sont identiques ; il suffit donc de considerer une seule ACP
Les notations des matrices usuelles de lAFC sont maintenant reutilisees surmontees dun
tilde. On obtient ainsi :
3. AFC du tableau de Burt relatif a` 2 variables
69

nDr
T
;
T0 nDc

1
fr = D
fc = 1 Dr 0
D
= = Dc ;
0 Dc
2
2

e = B
e = 1 Ir B = A B.
A
2 A Ic
e = B=
T
e (ou des profilscolonnes B).

e
On considère encore lAFC comme lACP des profilslignes A
P ROPOSITION 6.3. LACP des profilslignes (ou des profilscolonnes) issue de lAFC realisee
sur le tableau de Burt associe a` 2 variables qualitatives conduit a` lanalyse spectrale de la mafc 1 symetrique et positive :
trice D

eB
e = AB 2.
A
fc
Elle admet pour matrice de vecteurs propres D
orthonormes

e =V
e =V= 1 U .
U
2 V
Les valeurs propres associees verifient : k = 2k .


Cr
f
f
Cr = Cc =
1/2 M.
Cc
fr fournit les coordonnees permettant une representation simultanee des modalites
La matrice C
` une homothetie près, cette representation est identique a` celle de lAFC
des deux variables. A
classique, realisee sur la table de contingence T (mais le rapport dhomothetie, sur chaque axe,
nest plus le meme quavec Cc ).
Remarque.
En reprenant les notations de la remarque 2.3, on obtient ici :

Cr
f
f
f
Cr (= Cc ) = Cr M = Cc =
.
Cc
Ainsi, si lon utilise ce mode de representation graphique, les trois approches de lAFC que
nous avons presentees conduisent a` la meme representation simultanee des modalites des 2
variables : il y a donc invariance de cette representation.
Dans les deux cas dAFC consideres dans ce chapitre (sur tableau disjonctif complet et
sur tableau de Burt) on trouve, par construction, des valeurs propres non nulles sans signification statistique. En consequence, les critères de qualite sexprimant comme une part
dinertie expliquee nont plus de signification.
LAFC sur tableau de Burt ne prend en compte que linformation contenue dans B qui ne
considère que les croisements de variables prises deux a` deux. En consequence, les interactions de niveau plus e leve sont ignorees par cette approche, a` moins de proceder a` des
recodages de variables comme lexplique lexemple presente dans la section 5.
70
4
4.1
Analyse Factorielle des Correspondances Multiples

Definition
On considère maintenant p variablesP

qualitatives (p 3) notees {X j ; j = 1, . . . , p}, possedant
respectivement cj modalites, avec c = pj=1 cj . On suppose que ces variables sont observees sur
les memes n individus, chacun affecte du poids 1/n.
Soit X = [X1 | |Xp ] le tableau disjonctif complet des observations (X est n c) et B =
X0 X le tableau de Burt correspondant (B est carre dordre c, symetrique).
D E FINITION 6.4. On appelle Analyse Factorielle des Correspondances Multiples (AFCM) des
variables (X 1 , . . . , X p ) relativement a` lechantillon considere, lAFC realisee soit sur la matrice
X soit sur la matrice B.
On note njk (1 j p, 1 k cj ) leffectif de la kième modalite de X j , Dj =
1
diag (nj1 , . . . , njcj ) et = diag (D1 . . . Dp ) ( est carree dordre c et diagonale).
n
4.2
AFC du tableau disjonctif complet X
Comme dans le cas p = 2, on reprend les notations de lAFC classique en les surlignant. On
obtient ainsi :
T = X;
1
Dr =
In ;
n
1
Dc =
;
p
1 0
A =
X ;
p
1
B =
X1 .
n
P ROPOSITION 6.5. LACP des profilslignes issue de lAFC realisee sur le tableau disjonctif
1
complet de p variables qualitatives conduit a` lanalyse spectrale de la matrice Dc symetrique
et positive :
1
AB =
B1 .
np
Il y a m (m c p) valeurs propres notees k , (0 < k < 1) rangees dans la matrice
diagonale M.
1
La matrice des vecteurs propres Dc orthonormes associes se decompose en blocs de la

facon suivante :
V1
V = ... ;
Vp
4. Analyse Factorielle des Correspondances Multiples
71
chaque bloc Vj est de dimension cj m.

Cr =
p
X
Xj D1
j Vj .
j=1
Comme dans le cas p = 2, la matrice des composantes principales permet de realiser une
representation graphique des individus dans laquelle chacun apparat, a` un facteur près, comme le
barycentre des p modalites quil a presentees.
Remarque. La generalisation au cas p > 2 restreint les proprietes. Ainsi, les vecteurs des blocs
Vj ne sont pas les vecteurs propres D1
es dune matrice connue.
j orthonorm
P ROPOSITION 6.6. LACP des profilscolonnes issue de lAFC realisee sur le tableau disjonc1
tif complet de p variables conduit a` lanalyse spectrale de la matrice Dr symetrique et positive :
p
BA =
1
1 X
0
X1 X0 =
Xj D1
j Xj .
np
np
j=1
La matrice des vecteurs propres Dr orthonormes verifie :

U = BVM1/2 .
Cc = p1 VM1/2 ;
elle se decompose en blocs sous la forme :
C1
Cc = ... .
Cp
Chaque bloc Cj , de dimension cj m, fournit en lignes les coordonnees des modalites de la
variable X j permettant la representation graphique simultanee.
4.3
AFC du tableau de Burt B
Le tableau de Burt B = X0 X, carre dordre c, e tant symetrique, les profilslignes et les profils
colonnes sont identiques ; on ne considère donc ici quune seule ACP
En utilisant encore le tilde dans ce cas, les matrices usuelles de lAFC deviennent :
e = B;
T
fr = D
fc = 1 = Dc ;
D
p
1
e = B
e =
A
B1 = A B.
np
72
P ROPOSITION 6.7. LACP des profilslignes (ou des profilscolonnes) issue de lAFC realisee
sur le tableau de Burt associe a` p variables qualitatives conduit a` lanalyse spectrale de la mafc 1 symetrique et positive :
trice D

eB
e = AB 2.
A
fc
Elle admet pour matrice de vecteurs propres D
e =V
e = V.
orthonormes U
Les valeurs propres associees verifient k = 2k .

C1
= ... M1/2 .
Cp
fr = C
fc = Cc M1/2
C
fr fournit les coordonnees permettant la representation simultanee des modalites

La matrice C
de toutes les variables (on ne peut pas faire de representation des individus si lon fait lAFC du
tableau de Burt).
4.4
Variables illustratives
Soit X 0 une variable qualitative, a` c0 modalites, observee sur les memes n individus que les
et netant pas intervenue dans lAFCM Soit T0j la table de contingence c0 cj croisant les
variables X 0 en lignes et X j en colonnes. Lobjectif est maintenant de representer les modalites
de cette variable supplementaire X 0 dans le graphique de lAFCM realisee sur X 1 , . . . , X p . Pour
cela, on considère les matrices :
Xj
B0 = [T01 | . . . |T0p ] ;
1
D0 =
diag (n01 , . . . , n0c0 ) ;
n
1 1
A0 =
D B0 .
np 0
Les coordonnees des modalites de la variable supplementaires X 0 sur les axes factoriels sont
alors fournies dans les lignes de la matrice
fc
C0 = A0 D
4.5
e = pA0 1 V.
V
Interpretation
Les representations graphiques sont interpretees de manière analogue a` ce qui est fait dans
lAFC de deux variables, bien que la representation simultanee des modalites de toutes les variables ne soit pas, en toute rigueur, reellement justifiee.
Les principes suivants sont donc appliques :
on interprète globalement les proximites et les oppositions entre les modalites des differentes
variables, comme en AFC, en privilegiant les modalites suffisamment e loignees du centre
du graphique (attention aux modalites a` faible effectif !) ;
5. Exemple
73
les rapports de valeurs propres ne sont pas interpretables comme indicateurs de qualite globale ; on peut neanmoins regarder la decroissance des premières valeurs propres pour choisir
la dimension ;
les coefficients de qualite de chaque modalite ne peuvent pas e tre interpretes ; seules les
contributions des modalites a` linertie selon les axes sont interpretees, selon le meme principe quen AFC
Exemple
LAFCM ne donne pas non plus de resultats interessants sur les donnees bancaires.
5.1
Les donnees
La litterature angloamericaine presente souvent des donnees relatives a` plusieurs variables

qualitatives sous la forme dune table de contingence complète (5.1). Cest le cas de lexemple ci
dessous qui decrit les resultats partiels dune enquete realisee dans trois centres hospitaliers (Boston, Glamorgan, Tokyo) sur des patientes atteintes dun cancer du sein. On se propose detudier
la survie de ces patientes, trois ans après le diagnostic. En plus de cette information, quatre autres
variables sont connues pour chacune des patientes :
le centre de diagnostic,
la tranche dage,
le degre dinflammation chronique,
lapparence relative (benigne ou maligne).
Lobjectif de cette e tude est une analyse descriptive de cette table en recherchant a` mettre en
e vidence les facteurs de decès.
5.2
Analyse brute
On se reportera a` la figure 5.1. La variable survie, qui joue en quelques sortes le role de variable
a` expliquer, est très proche de laxe 2 et semble liee a` chacune des autres variables.
5.3
Analyse des interactions
Pour essayer de mettre en e vidence deventuelles interactions entre variables, les donnees sont
reconsiderees de la facon suivante :
ge sont croisees, pour construire une variable c x a
ge, a` 9
les variables centre et a
modalites ;
les variables inflam et appar sont e galement croisees pour definir la variable histol,
a` 4 modalites.
Une nouvelle analyse est alors realisee en considerant comme actives les deux variables nouvellement cree es, ainsi que la variable survie, et comme illustratives les variables initiales :
centre,
age, inflam, appar. Les resultats sont donnes dans la figure 5.3.
74
A
x
e
2
1.0
A>70
0.9
0.8
0.7
0.6
0.5
0.4
0.3
Cbos
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-1
Snon
Igra
Tmal
Cgla
A>-<
Ipet
Soui
A<50
Tben
Ctok
0
1
Axe 1
F IG . 6.1 Cancer du sein : analyse des donnees brutes.
5. Exemple
75
2
X TH>g7- m
Igra
1
XT>Hg-b
Tmal
XG<5
XG>7
C g l aH pS -n mo n
Ctok
A
x
e
XT<5
0
A<50
S o u iA > - <
X GX>B-< 5
A>70
Ipet
Tben
Hp-b
Cbos
-1
XB>-
XB>7
-2
-2
-1
Axe 1
F IG . 6.2 Cancer du sein : analyse des interactions.
76
Centre
Tokyo
Age
< 50
50 69
> 70
Boston
< 50
50 69
> 70
Glamorgan
< 50
50 69
> 70
Survie
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
Histologie
Inflammation minime Grande inflammation
Maligne
Benigne
Maligne Benigne
9
7
4
3
26
68
25
9
9
9
11
2
20
46
18
5
2
3
1
0
1
6
5
1
6
7
6
0
11
24
4
0
8
20
3
2
18
58
10
3
9
18
3
0
15
26
1
1
16
7
3
0
16
20
8
1
14
12
3
0
27
39
10
4
3
7
3
0
12
11
4
1
TAB . 6.1 Donnees sous la forme dune table de contingence complète
Chapitre 7
Positionnement multidimensionnel
1
Introduction
Considerons n individus. Contrairement aux chapitres precedents, on ne connat pas les observations de p variables sur ces n individus mais les 1/2n(n 1) valeurs dun indice (de distance,
similarite ou dissimilarite) observees ou construites pour chacun des couples dindividus. Ces informations sont contenues dans une matrice (n n) D. Lobjectif du positionnement multidimensionnel (multidimensional scaling ou MDS ou ACP dun tableau de distances) est de construire, a`
partir de cette matrice, une representation euclidienne des individus dans un espace de dimension
reduite q qui approche au mieux les indices observes.
Exemple : Considerons un tableau avec, en ligne, les individus dun groupe et en colonne les
pays de la C.E. La valeur 1 est mise dans une case lorsque lindividu de la ligne a passe au moins
une nuit dans le pays concerne. Il est alors facile de construire une matrice de similarite avec
un indice qui compte le nombre de 1 apparaissant dans les memes colonnes de tous les couples
dindividus. Lobjectif est ensuite dobtenir une representation graphique rapprochant les individus
ayant visite les memes pays.
Les preuves des propositions sont omises dans cet expose succinct, elles sont a` chercher dans
la bibliographie. Voir par exemple Mardia et col. (1979).
2
2.1
Distance, similarites
Definitions
D E FINITION 7.1.
Une matrice (n n) D est appelee matrice de distance si elle est symetrique et si :
djj = 0 et (j, k), j 6= k, dkj 0.
Une matrice (n n) C est appelee matrice de similarite si elle est symetrique et si
(j, k), ckj cjj .
Une matrice de similarite se transforme en matrice de distance par :
dkj = (cjj + ckk 2ckj )1/2 .
77
78
Chapitre 7. Positionnement multidimensionnel
D E FINITION 7.2. Une matrice de distance est dite euclidienne sil existe une configuration de
vecteurs {x1 , . . . , xn } dans un espace euclidien E de sorte que
2
dkj = hxj xk , xj xk i .
2
On note A la matrice issue de D de terme general dkj = 1/2dkj et H la matrice de centrage :

H = I 110 D,
qui est la matrice de projection sur le sous-espace D-orthogonal au vecteur 1 dans lespace euclidien F des variables muni de la metrique des poids.
P ROPOSITION 7.3.
Soit D une matrice de distance et B la matrice obtenue par double centrage de la matrice
A issue de D :
B = HAH,
alors D est une matrice euclidienne si et seulement si B est positive (toutes ses valeurs
propres sont positives ou nulles).
Si la matrice de similarite C est positive alors la matrice de distance D deduite est euclidienne.
Distances entre variables
Lun des interets pratique du positionnement multidimensionnel est daider a` comprendre,

visualiser, les structures de liaison dans un grand ensemble de variables. On obtient ainsi des indications pour guider le choix dun sous-ensemble de variables, par exemple les plus liees a` une
variable a` expliquer. Cette approche necessite la definition dindices de similarite entre variables.
Beaucoup sont proposes dans la litterature. Nous en retenons trois pour differents types de variables.
3.1
Variables quantitatives
On note X et Y deux variables statistiques dont les observations sur les memes n individus
sont rangees dans les vecteurs centres x et y de lespace euclidien F muni de la metrique des
poids D. On verifie facilement :
cov(X, Y ) = x0 Dy
= kxkD
x0 Dy
cor(X, Y ) =
.
kxkD kykD
X
La valeur absolue ou le carre du coefficient de correlation definissent des indices de similarite

entre deux variables quantitatives. Il est facile den deduire des distances. On prefère par la suite
utiliser le carre du coefficient de correlation qui induit une distance euclidienne :
d2 (X, Y ) = 2(1 cor2 (X, Y )).
3. Distances entre variables
79
P ROPOSITION 7.4. La distance entre variables quantitatives d2 (X, Y ) est encore le carre de
la distance kPx Py kD entre les projecteurs D-orthogonaux sur les directions engendrees par
les vecteurs x et y.
Demonstration. Un projecteur de rang 1 secrit :Px = xx0 1/(kxk2D )D,
kPx Py k2D = tr(Px Py )0 D(Px Py ) = kPx k2D + kPy k2D 2trPx 0 DPy .
Comme un projecteur est de norme son rang cest-à-dire ici 1 et que :
trPx 0 DPy = tr
xx0
x0 Dy
yy0
x0 Dy
= cor2 (X, Y )
D
D
=
2
2
kxk
kyk
kxk
kyk
kxkD kykD
D
D
D
D
alors, kPx Py k2D = 2(1 cor2 (X, Y )).
3.2
Variables qualitatives
Considerons maintenant deux variables qualitatives, X a` r modalites et Y a` c modalites. De

nombreux indices de similarite ont e te proposes : la prob value du test du 2 dindependance, le
V de Cramer, le 2 de Pearson, le T de Tschuprow (cf. T1). . . Ce dernier a une signification particulière. Soit X et Y les matrices contenant les variables indicatrices des modalites des variables
et PX , PY les projecteurs D-orthogonaux sur les sous-espaces engendres par ces indicatrices. On
montre (cf. Saporta 1976) alors la
P ROPOSITION 7.5. Dans le cas de 2 variables qualitatives,
kPX PY k2D = 2(1 T 2 (X, Y )).
Ainsi, en utilisant comme indice de similarite le carre du T de Tschuprow entre deux variables
qualitatives, on definit une distance euclidienne entre ces variables.
3.3
Variables quantitative et qualitative
La meme demarche sadapte a` letude dune liaison entre une variable quantitative X, son
projecteur associe Px et une variable qualitative Y representee par le projecteur PY . On montre
alors (cf. Saporta 1976)
P ROPOSITION 7.6. Dans le cas dune variable quantitative X et dune variable qualitative Y ,
kPx PY k2D = 2(1 Rc2 (X, Y ))
où Rc designe le rapport de correlation.
Le rapport de correlation (Cf. T1) est, dans ce cas, lindice de similarite qui conduit a` la construction dune distance euclidienne entre variables de types differents.
On aboutit ainsi a` une certaine generalisation de la notion de similarite entre variables conduisant, quelque soit le type des variables, a` des distances euclidiennes. Neanmoins, en pratique, il
napparat pas simple de comparer, sur la meme e chelle entre 0 et 1, des liaisons entre variables
de types differents. Les coefficients de correlations se repartissent plus communement sur toute
lechelle alors que les indices de Tschuprow sont souvent confines sur des petites valeurs.
80
Recherche dune configuration de points
Le positionnement multidimensionnel est la recherche dune configuration de points dans un

espace euclidien qui admette D comme matrice de distances si celle-ci est euclidienne ou, dans le
cas contraire, qui en soit la meilleure approximation a` un rang q fixe (en general 2) au sens dune
norme sur les matrices. Nous ne nous interessons dans ce chapitre quà la version metrique du
MDS, une autre approche construite sur les rangs est developpee dans la bibliographie.
Ainsi pose, le problème admet une infinite de solutions. En effet, la distance entre deux vecteurs xi et xk dune configuration est invariante par toute transformation affine zi = Fxi + b dans
laquelle F est une matrice orthogonale quelconque et b un vecteur de IRp . Une solution nest donc
connue quà une rotation et une translation près.
4.1
Proprietes
La solution est decrite dans les theorèmes (Mardia 1979) ci-dessous :
T H E OR E` ME 7.7. Soit D une matrice de distance et B = HAH la matrice centree en lignes

et colonnes associee.
Si D est la matrice de distance euclidienne dune configuration {x1 , . . . , xn } alors B est
la matrice de terme general
bkj = (xi x)0 (xi x)
qui se met sous la forme
B = (HX)(HX)0 .
Elle est donc positive et appelee matrice des produits scalaires de la configuration centree.
Reciproquement, si B est positive de rang p, une configuration de vecteurs admettant B
pour matrice des produits scalaires est obtenue en considerant sa decomposition spectrale
B = UU0 . Ce sont les lignes de la matrice centree X = U1/2 .
Ainsi, dans le cas dune matrice D euclidienne supposee de rang q, la solution est obtenue en
executant les e tapes suivantes :
2
i. construction de la matrice A de terme general 1/2dkj ,

ii. calcul de la matrice des produits scalaires par double centrage B = HAH,
iii. diagonalisation de B = UU0 ;
iv. les coordonnees dune configuration, appelees coordonnees principales, sont les lignes de
la matrice X = U1/2 .
Dans le cas euclidien, ACP et MDS sont directement connectes.
P ROPOSITION 7.8. Soit Y la matrice des donnees habituelles en ACP. LACP de (Y, M, 1/nI)
fournit les memes representations graphiques que le positionnement calcule a` partir de la matrice
de distances de terme general kyi yj kM . Si C designe la matrice des composantes principales,
alors les coordonnees principales sont nC.

Demonstration. Posons X = HY. Les composantes principales de lACP sont donnees par
C = XMV = U1/2
où V est la matrice des vecteurs propres de la matrice 1/nX0 XM et U ceux des vecteurs propres
de la matrice 1/nXMX0 associes aux memes valeurs propres . De son cote, le MDS conduit
5. Exemple
81
2
bres
hend
laba
lour
1
ando
A
x
e
toul
perp
mont
mars
-1
nice
n a n t r e ns nt m a
cher
ange
poit
lema caen
limo tour
leha
roue
orle
bour
boul
pari
clem
amie cala
lill
troy reim
brux
g r le yn o n
dijo
b o r dr o y a
gene
cham
besa
nanc
m e lt uz x e
bmaulleh s t r a
-2
-3
-2
-1
Axe 1
F IG . 7.1 Positionnement de 47 villes a` partir de la matrice de leurs distances kilometriques.
a` considerer la matrice des produits scalaires HYM(HY)0 = XMX0 qui amène aux memes
vecteurs propres et aux valeurs propres = n.

Linteret du MDS apparat e videmment lorsque les observations Y sont inconnues ou encore si lon cherche la meilleure representation euclidienne de distances non-euclidiennes entre
les individus ; cest lobjet du theorème suivant. En ce sens, le MDS generalise lACP et permet, par exemple, de considerer une distance de type robuste a` base de valeurs absolues mais la
representation des variables pose alors quelques soucis car le biplot nest plus lineaire (Gower
19xx).
T H E OR E` ME 7.9. Si D est une matrice de distance, pas necessairement euclidienne, B la
matrice de produit scalaire associee, alors, pour une dimension q fixee, la configuration issue du
bk 2
k 2
b qui rend Pn
MDS a une matrice de distance D
quivalent,
j,k=1 ({dj } dj ) minimum et, cest e

2
b qui minimise
b
une matrice de produit scalaire B
B B
.
Exemple
Cet exemple sinteresse aux distances kilometriques par route (Source : IGN) entre 47 grandes
villes en France et dans les pays limitrophes. Toutes ces valeurs sont rangees dans le triangle
inferieur dune matrice carree avec des 0 sur la diagonale. La structure du reseau routier fait que
cette matrice de distance nest pas euclidienne, mais, comme le montre le graphique issu dun
positionnement multidimensionnel, lapproximation euclidienne en est très proche.
82
AGER
LGAGTL
1
A
x
e
ENDETL
G A GG EA TG LE M L
0 V I E M T LH A V E F L
ITAVCL
X LTGAMVTELP L
-1
MQOCYRREVDLL
BOPPNL
GAGECL
DNBJDL
OPGNBL
YLVMTL
DMVTPL
-2
-2
-1
Axe 1
F IG . 7.2 Positionnement, conformement aux carres de leurs correlations, des variables quantitatives observees sur les donnees bancaires.
Application au choix de variables
La selection dun sous-ensemble de variables pour la mise en uvre de techniques factorielles

(Jolliffe 19xx) nest pas aussi claire que dans le cadre de la recherche dun modèle lineaire parcimonieux. Le problème vient souvent de la confusion de deux objectifs :
supprimer des variables très liees, donc redondantes, et dont la multiplicite vient renforcer
artificiellement linfluence de certains phenomènes,
supprimer des variables afin de simplifier linterpretation des axes tout en conservant au
mieux les representations graphiques.
Le premier objectif modifie donc les representations en visant a` e tre plus proche de la realite ou
au moins dune realite moins triviale tandis que, par principe, le deuxième objectif recherche le
sous-ensemble restreint de variables susceptibles dengendrer le meme sous-espace de representation.
Il nexiste pas de solution miracle neanmoins, les outils presentes dans ce chapitre : indices
de similarite entre variable et positionnement multidimensionnel, peuvent aider a` ces choix surtout lorsque lanalyse dun grand nombre de variables necessite de segmenter lanalyse en sousgroupes. Les algorithmes de classification (hierarchique ou centres mobiles) appliques sur les
memes tableaux de distance apportent un e clairage complementaire.
Dautres techniques sont e galement disponibles pour aider a` linterpretation des axes. Elles
ont e te developpees dans le cadre de lanalyse en facteurs communs et specifiques (factor analysis)
mais sont transposables en ACP. Lobjectif est la recherche de rotations orthogonales (varimax) ou
obliques des axes dans le sous-espace retenu pour la representation de sorte que ceux-ci soient le
plus correles avec les variables initiales. Ils nont plus les memes proprietes optimales daxes de
plus grande dispersion mais, dans le sous-espace qui globalement est de plus grande dispersion,
ils peuvent e tre plus simples a` interpreter a` partir des variables initiales.
Un algorithme (varclus dans SAS) de classification des variables dans le cas quantitatif suit
ce meme type dobjectifs et fournit des resultats sous une forme identique a` la recherche dune
6. Application au choix de variables
83
Name of Variable or Cluster

ENDETL
GAGETL
GAGEML
LGAGTL
GAGECL
DNBJDL
OPGNBL
MOYRVL
QCREDL
DMVTPL
BOPPNL
FACANL
TAVEPL
XLGMTL
YLVMTL
ITAVCL
AGER
VIEMTL
HAVEFL
20 18
16 14
12 10
Number of Clusters
F IG . 7.3 Classification (varclus) des variables quantitatives observees sur les donnees bancaires.
rotation oblique. Il procède par classification hierarchique descendante de lensemble des variables
et realise a` chaque e tape les traitements suivants :
selection du sous-groupe de variable dont lACP conduit a` la plus faible part de variance
expliquee par le premier axe ou (en option) la plus forte du 2ème axe,
rotation des deux premiers axes de lACP pour les rapprocher des variables et segmentation
des variables en deux groupes par affectation a` laxe avec lequel elles sont le plus correlees.
Lalgorithme sarrete lorsque la dimension dans chaque groupe est jugee e tre e gale a` 1. Par defaut,
lorsque dans chaque groupe, une seule valeur propre est plus grande que 1.
84
Chapitre 8
Classification
1
Introduction
1.1
Les donnees
Comme dans le cas du chapitre precedent (MDS), les donnees peuvent se presenter sous
differentes formes ; elles concernent n individus supposes affectes, pour simplifier, du meme
poids :
i. un tableau de distances (ou dissimilarites, ou mesure de dissemblance), (n n) entre les
individus pris deux a` deux ;
ii. les observations de p variables quantitatives sur ces n individus ;
iii. les observations, toujours sur ces n individus, de variables qualitatives ou dun melange de
variables quantitatives et qualitatives.
Dune facon ou dune autre, il sagit, dans chaque cas, de se ramener au tableau des distances
deux a` deux entre les individus (cest-à-dire au premier cas). Le choix dune matrice de produit
scalaire permet de prendre en compte simplement un ensemble de variables quantitatives tandis
que le troisième cas necessite plus de developpements, objets de la section suivante.
1.2
Objectif
Lobjectif dune methode de classification deborde le cadre strictement exploratoire. Cest la

recherche dune typologie ou segmentation cest-à-dire dune partition ou repartition des individus
en classes, ou categories. Ceci est fait en optimisant un critère visant a` regrouper les individus
dans des classes, chacune la plus homogène possible et, entre elles, les plus distinctes possible.
Cet objectif est a` distinguer des procedures de discrimination ou encore de classement (en anglais
classification) pour lesquelles une typologie est a priori connue, au moins pour un e chantillon
dapprentissage. Nous sommes dans une situation dapprentissage non-supervise, ou en anglais de
clustering1 .
1.3
Les methodes
Un calcul e lementaire de combinatoire montre que le nombre de partitions possibles dun

ensemble de n e lements crot plus quexponentiellement avec n. Ainsi, pour n = 20, il est de
lordre de 1013 . Plus precisement, le nombre de partitions en K groupes de n e lements est donne
1
Faire attention aux faux amis francais / anglais : discrimination / classification (supervisee) et classification / clustering (non-supervisee)
85
86
Chapitre 8. Classification
par la formule :

1 X
k
n k
k = 0Kk (1) (K k)
K!
K
Il nest donc pas question de chercher a` optimiser le critère sur toutes les partitions possibles.
Les methodes se limitent a` lexecution dun algorithme iteratif convergeant vers une bonne
partition qui correspond en general a` un optimum local. Meme si le besoin de classer des objets
est très ancien, seule la generalisation des outils informatiques en a permis lautomatisation dans
les annees 70. Celeux et col. (1989) decrivent en detail ces algorithmes.
Differents choix sont laisses a` linitiative de lutilisateur :
une mesure deloignement (dissemblance, dissimilarite ou distance) entre individus ;
le critère dhomogeneite des classes a` optimiser : il est, dans le cas de variables quantitatives,
generalement defini a` partir de la traces dune matrice de variances-covariances ; soit les
variances et covariances interclasses (la trace correspond alors a` linertie de la partition),
soit les variances et covariances intraclasse ;
la methode : la classification ascendante hierarchique ou celle par reallocation dynamique
sont les plus utilisees, seules ou combinees,
le nombre de classes ; cest un point delicat.
Enfin, differents outils recherchent une interpretation ou des caracterisations des classes obtenues.
Les principes algorithmiques de ces methodes sont relativement e lementaires.
Classification ascendante hierarchique ou CAH
Il sagit de regrouper iterativement les individus, en commencant par le bas (les deux plus
proches) et en construisant progressivement un arbre ou dendrogramme, regroupant finalement
tous les individus en une seule classe, a` la racine (cf. figure 3.4 qui reprend les donnees e lementaires
du chapitre precedent). Ceci suppose de savoir calculer, a` chaque e tape ou regroupement, la distance entre un individu et un groupe ou la distance entre deux groupes. Ceci necessite donc, pour
lutilisateur de cette methode, de faire un choix supplementaire : comment definir la distance
entre deux groupes connaissant celles de tous les couples dindividus entre ces deux groupes.
Differents choix, appeles saut en francais et linkage en anglais, sont detailles plus loin. Le nombre
de classes est determine a posteriori, a` la vue du dendrogramme ou dun graphique representant
la decroissance de la hauteur de chaque saut, ou e cart de distance, opere a` chaque regroupement.
Reallocation dynamique
Dans ce cas, le nombre de classes, k, est fixe a priori. Ayant initialise k centres de classes
par tirage aleatoire, tous les individus sont affectes a` la classe dont le centre est le plus proche
au sens de la distance choisie (en principe, euclidienne pour cette methode). Dans une deuxième
e tape, lalgorithme calcule des barycentres de ces classes qui deviennent les nouveaux centres. Le
procede (affectation de chaque individu a` un centre, determination des centres) est itere jusquà
convergence vers un minimum (local) ou un nombre diterations maximum fixe.
Classification mixte
La CAH necessite imperativement la construction dun tableau de distances n n et son
stockage en memoire ; le nombre maximum dindividus traites peut sen trouver limite. Ce nest
pas le cas dans lalgorithme de reallocation, doù linteret possible dune approche mixte pour, a`
la fois, classer de grands volumes de donnees et selectionner le nombre de classes par CAH.
2. Mesures deloignement
87
Mesures deloignement
Notons = {i = 1, . . . , n} lensemble des individus. Cette section se propose de definir sur

differentes mesures deloignement entre deux individus. Les hypothèses et proprietes e tant
de plus en plus fortes.
2.1
Indice de ressemblance, ou similarite

Cest une mesure de proximite definie de dans IR+ et verifiant :
s(i, j) = s(j, i), (i, j) :
symetrie ;
s(i, i) = S > 0, i : ressemblance dun individu avec lui-meme ;

s(i, j) S, (i, j) : la ressemblance est majoree par S.
Un indice de ressemblance norme s est facilement defini a` partir de s par :
s (i, j) =
1
s(i, j), (i, j) ;
S
s est une application de dans [0, 1].
2.2
Indice de dissemblance, ou dissimilarite

Une dissimilarite est une application d de dans IR+ verifiant :
d(i, j) = d(j, i), (i, j) :
symetrie ;
d(i, i) = 0, i : nullite de la dissemblance dun individu avec lui-meme.

Les notions de similarite et dissimilarite se correspondent de facon e lementaire. Si s est un indice
de ressemblance, alors
d(i, j) = S s(i, j), (i, j)
est un indice de dissemblance. De facon reciproque, si d est un indice de dissemblance avec D =
sup(i,j) d(i, j), alors s(i, j) = D d(i, j) est un indice de ressemblance. Comme s , un
indice de dissemblance norme est defini par :
d (i, j) =
1
d(i, j), (i, j)
D
avec d = 1 s et s = 1 d . Du fait de cette correspondance immediate, seule la notion de

dissemblance, ou dissimilarite, normee est consideree par la suite.
2.3
Indice de distance
Un indice de distance est, par definition, un indice de dissemblance qui verifie de plus la
propriete :
d(i, j) = 0 = i = j.
Cette propriete e vite des incoherences pouvant apparatre entre dissemblances, par exemple :
k : d(i, k) 6= d(j, k),
avec pourtant i 6= j et d(i, j) = 0.
88
2.4
Distance
Une distance sur est, par definition, un indice de distance verifiant en plus la propriete
dinegalite triangulaire. Autrement dit, une distance d est une application de dans IR+
verifiant :
d(i, j) = d(j, i), (i, j) ;
d(i, i) = 0 i = j ;
d(i, j) d(i, k) + d(j, k), (i, j, k) 3 .
Si est fini, la distance peut e tre normee.
2.5
Distance euclidienne
Dans le cas où est un espace vectoriel muni dun produit scalaire, donc dune norme, la
distance definie a` partir de cette norme est appelee distance euclidienne :
d(i, j) = < i j, i j >1/2 = ki jk.
La condition pour quune matrice donnee de distances entre e lements dun espace vectoriel
soit issue dune distance euclidienne est explicitee dans le chapitre precedent. Toute distance nest
pas necessairement euclidienne ; voir, par exemple, celle construite sur la valeur absolue.
2.6
Utilisation pratique
Concrètement, il peut arriver que les donnees a` traiter soient directement sous la forme dune
matrice dun indice de ressemblance ou de dissemblance. Il est alors facile de la transformer en
une matrice de dissemblances normees avant daborder une classification.
Nous precisons ci-dessous les autres cas.
Donnees quantitatives
Lorsque les p variables sont toutes quantitatives, il est necessaire de definir une matrice M de
produit scalaire sur lespace IRP . Le choix M = Ip , matrice identite, est un choix e lementaire et
courant ; mais il est vivement conseille de reduire les variables de variances heterogènes, comme
en ACP, ce qui revient a` considerer, comme matrice de produit scalaire, la matrice diagonale
composee des inverses des e carts-types :
M = 1 = diag (
1
1
).
1
p
La metrique dite de Mahalanobis (inverse de la matrice des variances-covariances) peut aussi e tre
utilisee pour attenuer la structure de correlation.
Donnees qualitatives
Dans le cas très particulier où toutes les variables sont binaires (presence, absence de caracteristiques), de nombreux indices de ressemblances ont e te proposes dans la litterature. Ils sont
bases sur les quantites suivantes definis pour deux individus i et j distincts :
aij = nombre de caractères communs a` i et j sur les p consideres,
bij = nombre de caractères possedes par i mais pas par j,
cij = nombre de caractères possedes par j mais pas par i,
3. Classification ascendante hierarchique
89
cij = nombre de caractères que ne possèdent ni i ni j.

bien sur, aij + bij + bij + dij = p.
Les indices de ressemblance les plus courants sont :
aij + dij
aij
2aij
(concordance),
(Jaccard),
(Dice).
p
aij + bij + bij
2aij + bij + bij
Puis, il est facile de construire un indice de dissemblance.
Dans le cas plus general de p variables qualitatives, la distance la plus utilisee est celle, euclidienne, dite du 2 entre profils-lignes du tableau disjonctif complet (cf. chapitre 6 AFCM). La
distance entre deux individus i et k est alors definie par :
mj
d22
n X X j` 1
=
p
ik j .
p
n`
j=1
`=1
où mj est le nombre de modalites de la variable qualitative Y j , nj` est leffectif de la ìème moj`
dalite de Y j et ik
vaut 1 si les individus i et k presentent une discordance pour la ìème modalite
j
de la variables Y et 0 sinon. Limportance donnee a` une discordance est dautant plus importante
que les modalites considerees sont rares. Le coefficient n/p peut e tre omis.
Melange quantitatif, qualitatif
Differentes strategies sont envisageables dependant de limportance relative des nombres de
variables qualitatives et quantitatives.
Rendre tout qualitatif . Les variables quantitatives sont rendues qualitatives par decoupage en
classes. Les classes dune meme variable sont generalement recherchees deffectifs sensiblement e gaux : bornes des classes e gales a` des quantiles. La metrique a` utiliser est alors
celle du 2 decrite ci-dessus.
Rendre tout quantitatif a` laide dune AFCM. Une AFCM est calculee sur les seules variables
qualitatives ou sur lensemble des variables après decoupage en classes des variables quantitatives. LAFCM calculee par AFC du tableau disjonctif complet produit des scores (cf.
chapitre 6) qui sont les composantes principales de lACP des profils-lignes. Dans le cas
dune AFCM partielle des seules variables qualitatives, les variables quantitatives restantes
doivent e tre necessairement reduites. Ces scores sont ensuite utilises commes coordonnees
quantitatives des individus en vue dune classification.
2.7
En resume
Une fois ces preliminaires accomplis, nous nous retrouvons donc avec
soit un tableau de mesures quantitatives n p associe a` une matrice de produit scalaire p p
(en general Ip ) definissant une metrique euclidienne,
soit directement un tableau n n de dissemblances ou distances entre individus.
Attention, si n est grand, la deuxième solution peut se heurter rapidement a` des problèmes de
stockage en memoire pour lexecution des algorithmes.
Classification ascendante hierarchique
90
3.1
Principe
Linitialisation de cet algorithme consiste, sil nest dejà donne, a` calculer un tableau de distances (ou de dissemblances) entre les individus a` classer. Lalgorithme demarre alors de la partition triviale des n singletons (chaque individu constitue une classe) et cherche, a` chaque e tape, a`
constituer des classes par agregation des deux e lements les plus proches de la partition de letape
precedente. Lalgorithme sarrete avec lobtention dune seule classe. Les regroupements successifs sont representes sous la forme dun arbre binaire ou dendrogramme.
3.2
Dissemblance ou distance entre deux classes
` chaque e tape de lalgorithme, il est necessaire de mettre a` jour le tableau des distances (ou
A
des dissemblances). Après chaque regroupement, de deux individus ou de deux classes ou dun
individu a` une classe, les distances entre ce nouvel objet et les autres sont calculees et viennent
remplacer, dans la matrice, les dissemblances des objets qui viennent detre agreges. Differentes
approches sont possibles a` ce niveau correspondant a` differentes CAH.
Notons A et B deux groupes ou e lements dune partition donnee, wA et wB leurs ponderations,
et di,j la distance entre deux individus quelconques i et j.
Le problème est de definir d(A, B) la distance entre deux e lements dune partition de .
Cas dune dissemblance
Les strategies ci-dessous saccomodent dun simple indice de dissemblance defini entre les
individus. Elles sappliquent e galement a` des indices plus structures (distance) mais nen utilisent
pas toutes les proprietes.
d(A, B) =
d(A, B) =
min (dij ) (saut minimum, single linkage),
iA,jB
sup (dij ) (saut maximum ou diamètre, complete linkage),

iA,jB
d(A, B) =
1
card(A)card(B)
dij
(saut moyen, group average linkage).
iA,jB
Cas dune distance euclidienne

Les strategies suivantes necessitent la connaissance de representations euclidiennes des individus : matrice n p des individus afin, au minimum, de pouvoir definir les barycentres notes gA
et gB des classes.
d(A, B) = d(gA , gB ) (distance des barycentres, centrod),
wA wB
d(A, B) =
d(gA , gB ) (saut de Ward).
wA + wB
Important
Le saut de Ward joue un role particulier et est la strategie la plus courante, cest meme loption
par defaut (SAS), dans le cas dune distance euclidienne entre individus. En effet, ce critère induit,
a` chaque e tape de regroupement, une minimisation de la decroissance de la variance interclasse.
3.3
Algorithme
3. Classification ascendante hierarchique
91
A LGORITHME 8.1 : classification ascendante hierarchique

Initialisation Les classes initiales sont les singletons. Calculer la matrice de leurs
distances deux a` deux.
It
erer les deux e tapes suivantes jusquà lagregation en une seule classe.
i. regrouper les deux classes les plus proches au sens de la distance entre groupes
choisie,
ii. mettre a` jour le tableau de distances en remplacant les deux classes regroupees par la
nouvelle et en calculant sa distance avec chacune des autres classes.
3.4
Graphes
Ce chapitre est illustre par letude de donnees decrivant le traffic sur 50 lignes de chemin de fer
pour les mois de mars, juillet aout et octobre. On sinteresse plus partivulièrement aux profils de
ces traffics. En effet, les donnees e tant des effectifs de voyageurs, pour e viter une classification triviale basee sur le traffic absolu de chaque ligne, on utilise la metrique du 2 entre profils lignes des
donnees considerees comme une table de contingence. La classification est donc construite a` partir
` lissue de lexecution, la classification ascendante
de la matrice de ces distances entre lignes. A
hierarchique fournit deux graphiques :
un graphique aide au choix du nombre de classes (cf. figure3.4). Il represente, a` rebours,
la decroissance en fonction du nombre de classes de la distance entre les agregations de
classes. Dans le cas du saut de Ward, il sagit des e carts observes par le rapport de la variance
inter sur la variance totale (R2 partiel). La presence dune rupture importante dans cette
decroissante aide au choix du nombre de classes comme dans le cas du choix de dimension
en ACP avec leboulis des valeurs propres. Dans ce cas, il faut lire le graphe de droite
a` gauche et sarreter avanr le premier saut juger significatif. Lindice de Ward est le plus
generalement utilise, cela revient a` couper larbre avant une perte, juger trop importante, de
la variance inter classe.
le dendrogramme (cf. figure3.4) est une representation graphique, sous forme darbre binaire, des agregations successives jusquà la reunion en une seule classe de tous les individus. La hauteur dune branche est proportionnel a` lindice de dissemblance ou distance
entre les deux objets regroupes. Dans le cas du saut de Ward, cest la perte de variance
inter-classe.
Une fois un nombre de classes selectionne (ici 4) a` laide du premier graphique, une coupure
de larbre (deuxième graphique) fournit, dans chaque sous-arbre, la repartition des individus en
classes. Ces classes sont ensuite representees dans les axes dune analyse factorielle, en general
une ACP, mais qui peut e tre un MDS lorsque les donnees initiales sont un tableau de distances
ou encore, dans le cas present, une AFCM. Cette representation (fig. 3.4) est indispensable pour
se faire une bonne idee intuitive de la qualilte de separation des classes. La meme demarche
appliquee aux donnees constituees de la matrice des distances kilometriques entre villes conduit a`
une classification en 5 classes representees dans les coordonnees du MDS (figure 3.4).
Il est a` noter que ces exemples sont relativement simples et bien structures. Dans ce cas,
modifier le critère de saut ne change pas grand chose. Mais, attention, il est facile de verifier
experimentalement quune classification ascendante est un objet très sensible. En effet, il suffit de
modifier une distance dans le tableau, par exemple de reduire sensiblement la distance de Grenoble
a` Brest, pour que la classification (nombre de classes, organisation) devienne très sensible au choix
du critère de saut. En revanche, la structure des donnees fait que la representation factorielle de
lACP du tableau de distance (MDS) soit plus robuste a` ce type derreur de mesure.
92
Semi-Partial R-Squared
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
2
Number of Clusters
F IG . 8.1 Traffic : Decroissance de la variance inter classes a` chaque regroupemet dans le cas
du saut de Ward.
4 Agregation autour de centres mobiles

4.1
Principes
Differents types dalgorithmes ont e te definis autour du meme principe de reallocation dynamique des individus a` des centres de classes, eux-memes recalcules a` chaque iteration. Ces
algorithmes requièrent une representation vectorielle des individus dans IRp muni dune metrique
generalement euclidienne. Une adaptation de cet algorithme, PAM (pour Partitioning clustering
of the data into k clusters Around Medods ; Kaufman & Rousseeuw, 1990), en est une version
robuste, e galement adaptee a` une matrice de dissimilarites. Ce dernier algorithme est en revanche
limite au niveau du nombre dobservations (200).
Il est important de noter que, contrairement a` la methode hierarchique precedente, le nombre
de classes k doit e tre determine a priori.
Ces methodes sont iteratives : après une initialisation des centres consistant, le plus souvent,
a` tirer aleatoirement k individus, lalgorithme repète deux operations juquà la convergence dun
critère :
i. Chaque individu est affecte a` la classe dont le centre est le plus proche.
ii. Calcul des k centres des classes ainsi constituees.
4.2
Principale methode
A LGORITHME 8.2 : de Forgy (1965)
4. Agregation autour de centres mobiles
93
Cluster
1
35
36
47
38
3
34
49
4
19
45
44
2
33
14
16
41
42
40
13
29
46
21
32
26
18
24
12
6
39
7
8
5
20
30
11
50
37
9
10
15
27
48
22
17
31
23
25
28
43
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
Semi-Partial R-Squared
F IG . 8.2 Traffic : Exemple dun dendrogramme issu de la classification de donnees fictives par
CAH et saut de Ward.
94
Dim2
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.8
-0.6
Cluster
-0.4
1
-0.2
Dim1
2
0.0
0.2
3
0.4
0.6
4
F IG . 8.3 Traffic : Representation des classes dans les coordonnees de lAFCM.
4. Agregation autour de centres mobiles
95
hend
bres
400
lour
laba
nant rennstma
bord roya
toul
200
ando
limo
cher
poit ange
lema caen
tour
clem
cp2
perp
bour
pari
troy
lyon
dijo
gren
nice
gene
cham
400
200
mont
mars
600
400
besa
200
boul
amie
cala
lill
reim
brux
mulh
bale
800
leha
roue
orle
nanc
metz
luxe
stra
200
400
cp1
F IG . 8.4 Villes : Representation des classes (couleurs) obtenues par CAH dans les coordonnees
du MDS.
96
Initialisation Tirer au hasard ou selectionner, pour des raisons exterieures a` la
methode, k points dans lespace des individus, en general k individus de lensemble, appeles centres ou noyaux.
It
erer les deux e tapes suivantes jusquà ce que le critère de variance interclasse ne
croisse plus de manière significative, cest-à-dire jusquà la stabilisation des classes.
i. Allouer chaque individu au centre, cest-à-dire a` une classe, le plus proche au sens de
la metrique euclidienne choisie ; on obtient ainsi, a` chaque e tape, une classification
en k classes ou moins si finalement une des classes devient vide.
ii. Calculer le centre de gravite de chaque classe : il devient le nouveau noyau ; si une
classe sest videe, on peut e ventuellement retirer aleatoirement un noyau complementaire.
4.3
Proprietes
Convergence Le critère (la variance interclasse) est majore par la variance totale. Il est simple
de montrer quil ne peut que crotre a` chaque e tape de lalgorithme, ce qui en assure la
convergence. Il est e quivalent de maximiser la variance interclasse ou de minimiser la variance intraclasse. Cette dernière est alors decroissante et minoree par 0. Concrètement, une
dizaine diterations suffit generalement pour atteindre la convergence.
Optimum local La solution obtenue est un optimum local, cest-à-dire que la repartition en classes
depend du choix initial des noyaux. Plusieurs execution de lalgorithme permettent de sassurer de la presence de formes fortes cest-à-dire de classes ou portions de classes presentes
de manière stable dans la majorite des partitions obtenues.
4.4
Variantes
kmeans
Il sagit dune modification de lalgorithme precedent proposee par Mac Queen (1967). Les
noyaux des classes, ici les barycentres des classes concernees, sont recalcules a` chaque allocation dun individu a` une classe. Lalgorithme est ainsi plus efficace, mais il depend de lodre des
individus dans le fichier.
Nuees dynamiques
La variante proposee par Diday (1971) consiste a` remplace chaque centre de classe par un
noyau constitue delements representatifs de cette classe. Cele permet de corriger linfluence
deventuelles valeurs extrèmes sur le calcul du barycentre.
Partitionning around medods
Cet algorithme, propose par Kaufman & Rousseeuw (1990), permet de classifier des donnees
de facon plus robuste cest-à-dire moins sensible a` des valeurs atypiques. Il permet e galement de
traiter des matrices de dissimilarites. Les resultats sont fournis dans la figure 4.4, pour lequel le
nombre de classe est fixe a priori a` 5 comme le suggère la CAH, mais pour lesquels les classes
obtenues sont sensiblement differentes.
Combinaison
Chaque methode precedente peut e tre plus ou moins adaptee a` la situation rencontree. La
classification hierarchique, qui construit necessairement la matrice des distances, naccepte quun
5. Combinaison
97
hend
bres
400
lour
laba
nant rennstma
bord roya
toul
200
ando
limo
cher
poit ange
lema caen
tour
clem
cp2
perp
bour
pari
troy
lyon
dijo
gren
nice
gene
cham
400
200
mont
mars
600
400
besa
200
boul
amie
cala
lill
reim
brux
mulh
bale
800
leha
roue
orle
nanc
metz
luxe
stra
200
400
cp1
F IG . 8.5 Villes : Representation des classes (couleurs) obtenues par PAM dans les coordonnees
du MDS.
98
nombre limite dindividus ; de son cote, la reallocation dynamique necessite de fixer a priori le
nombre de classes. La strategie suivante, adaptee aux grands ensembles de donnees, permet de
contourner ces difficultes.
i. Executer une methode de reallocation dynamique en demandant un grand nombre de classes,
de lordre de 10% de n.
ii. Sur les barycentres des classes precedentes, executer une classification hierarchique puis
determiner un nombre optimal k de classes.
iii. Executer une methode de reallocation dynamique sur tout lensemble en fixant a` k le nombre
de classes. Pour initialiser lalgorithme, il est habituel de choisir pour noyaux les barycentres
(calcules en ponderant par les effectifs de classes) des classes de letape precedente.
Interpretation
Dans tous les cas, le resultat fourni est une variable qualitative T dont les modalites precisent
la classe retenue pour chaque individu. Il est alors important de caracteriser chaque classe a` partir
des variables initiales afin den synthetiser les proprietes.
Les outils e lementaires de statistiques descriptive bidimensionnelle sont, dans un premier
temps adaptes a` cet objectif. Statistiques (moyenne, e cart-type...) par classe, diagrammes botes,
rapports de correlations, pour les variables quantitatives, profils, tests dindependance, pour les
variables qualitatives, permettent de determiner les variables les plus liees a` la classification obtenue.
Dautres methodes sont ensuite traditionnellement enchanees : ACP, MDS avec representation
des classes et de leur enveloppe convexe, pour apprecier la qualite de la classification, AFD et/ou
arbre de classification afin daider a` linterpretation de chacune des classes de la typologie par les
variables initiales, AFCM dans le cas de variables qualitatives.
Chapitre 9
Exploration de donnees fonctionnelles
1
Introduction
Ce chapitre est une introduction a` letude exploratoire densembles de donnees dans lesquels
les n individus ou observations ne sont plus considerees comme de simples vecteurs de IRp mais
sont des courbes ou plus generalement des fonctions. Ces fonctions dependent dun indice, traditionnellement le temps t, e voluant dans un intervalle que lon supposera e tre, sans perte de
generalite, un intervalle T = [a, b] de IR. En pratique, ces fonctions sont observees en des instants
de discretisation qui peuvent e tre e quirepartis ou non, identiques ou non, pour chaque courbe. La
figure 9.1 donne un exemple type representant des cumuls mensuels de precipitations.
Depuis une vingtaine dannees, ce type de donnees se rencontre de plus en plus frequemment
avec lautomatisation et linformatisation des procedures de mesure : telemetrie, spectrographie. . . En
consequence, la litterature consacree a` letude de donnees fonctionnelles sest considerablement
developpee. Ce chapitre ne sinteresse quà un objectif dexploration ou de reduction de la dimension. Laspect modelisation ou apprentissage est developpe dans le deuxième volet1 .
Historiquement, les premiers travaux peuvent e tre attribues a` des meteorologues ou encore des
chimistes qui furent les premiers a` e tre confrontes a` ce type de donnees ou encore a` des techniques
de traitement du signal associant Analyse en Composantes Principales (ACP) et decomposition de
Karhunen-Loeve. En France, Deville (1974) introduisit une ACP de courbe ou analyse harmonique
et Dauxois et Pousse (1976) proposèrent un cadre synthetique generalisant lanalyse des donnees
multidimensionnelles aux variables aleatoires hilbertiennes qui constituent le cadre theorique a`
lexploration statistique de courbes. Differents developpements impliquant des outils dinterpolation ou de lissage (splines) ont permis dadapter finement lACP a` ce contexte (Besse et Ramsay,
1986 ; Besse et col. 1997) tandis que Ramsay et Silverman (1997) fournissent une bibliographie
detaillee.
Ladaptation de methodes statistiques a` des donnees fonctionnelles requiert un arsenal mathematique
pouvant paratre sophistique voire rebutant. Certains de ces outils theoriques ne sont indispensables que pour aborder les aspects asymptotiques2 . Une introduction e lementaire est proposee en
annexe B. Mais, en pratique, les donnees sont de toute facon discretisees et les calculs realises matriciellement dans des espaces de dimension finie. Dautres outils, essentiellement issus de lanalyse numerique, sont alors indispensables pour rendre leur caractère fonctionnel aux observations
1
Data mining 2. Modelisation statistique et apprentissage.

Il est en effet important de pouvoir exhiber les analyses limites dans des espaces fonctionnels de dimension infinie
lorsque le pas de discretisation decrot et que la taille de lechantillon crot indefiniment. Cest le moyen de sassurer
de la stabilite des solutions proposees.
2
99
Chapitre 9. Exploration de donnees fonctionnelles
50
100
150
100
10
15
20
F IG . 9.1 Trois exemples de courbes decrivant la pluviometrie mensuelle durant 2 ans.

discretisees. Il sagit principalement de techniques dinterpolation et de lissage (splines, noyaux)
ou de decomposition (Fourier, ondelettes) sur differents types de bases. La question principale qui
se pose alors est la suivante.
Dans quelles situations une approche fonctionnelle peut saverer plus efficace que
celle vectorielle classique dans le cadre euclidien de IRp ?
Deux situations relativement frequentes ont e te identifiees comme repondant a` cette question :
lorsque les courbes ou fonctions observees sont très regulières, les variables issues de la
discretisation sont très correlees deux a` deux. Ceci a pour effet de masquer, par un effet
taille trivial, lessentiel des phenomènes dinteret. Dans le cadre de lACP, Besse et Ramsay (1986) proposent des pistes developpees ensuite par Ramsay (1996, 2000). Lobjectif
est de decomposer lespace des courbes ou individus en deux sous-espaces orthogonaux. Le
premier contient leffet trivial exprime comme la solution dune e quation differentielle et
correspond donc au noyau de loperateur differentiel correspondant. Le deuxième, lespace
orthogonal a` ce noyau, sattache a` representer la partie restante du phenomène.
Lorsque les donnees sont lobservation bruitee dun phenomène que lon peut supposer
relativement regulier, il est important de faire intervenir une action de lissage ou debruitage.
Le problème souleve est alors celui dune coordination optimale entre une technique de
debruitage et celle multidimensionnelle consideree.
Evitant
les developpements trop theoriques, nous insistons dans ce chapitre sur la mise en
uvre matricielle dune ACP de courbes supposees regulières mais observees bruitees. Dans ce
cas, lACP rejoint lobjectif de la regression non parametrique en proposant une estimation simultanee de plusieurs courbes. Elle doit incorporer des outils danalyse numerique adaptes pour
definir des approximations de ces courbes. Les fonctions splines dinterpolation et de lissage remplissent bien ce role mais dautres techniques, comme la decomposition en ondelettes, auraient pu
e tre utilisees notamment si les fonctions que lon cherche a` estimer presentent des singularites.
Pour simplifier la presentation de la methodologie proposee, nous supposons dans ce chapitre que toutes les courbes sont observees selon le meme plan de discretisation cest-à-dire aux
2. ACP de courbes bruitees
101
memes instants. Dans le cas contraire, une adaptation a e te proposee par Besse et coll. (1997) afin,
e galement, de pouvoir prendre en compte des donnees manquantes. Celle-ci repose sur lutilisation dune approximation par splines hybrides associant B-splines et splines de lissage. Tous les
programmes3 utilises dans les exemples sont e crits en Splus (1997).
ACP de courbes bruitees
Nous nous interessons dans cette section a` la description et a` lestimation des realisations de
trajectoires zi dun processus Z ou, cest e quivalent, dune variable aleatoire prenant ses valeurs
dans un espace hilbertien. Nous considerons que la variable aleatoire X constitue lobservation
bruitee des trajectoires, supposees regulières, de la variable aleatoire Z. La figure 9.1 donne un
exemple illustratif de telles donnees.
Chacune des n realisations ou trajectoires zi , est donc supposee observee pour un nombre p
dinstants de discretisation t1 , . . . , tp de lintervalle T , les memes pour chaque trajectoire. Cette
mesure introduit des erreurs aleatoires independantes et identiquement distribuees de variance 2 .
La situation correspond donc a` n repetitions supposees independantes dun modèle de regression
non-parametrique (B.4) :
xj = z(tj ) + j ; E(j ) = 0, E(j k ) = 2 k, j, k = 1, ..., p
a t1 < t2 < ... < tp b
auquel il faut ajouter lhypothèse dindependance entre les differentes realisations de Z et le bruit :
IE(i z0i0 ) = 0.
` ce niveau, il serait possible de considerer lestimation des n trajectoires de Z comme n
A
problèmes classiques destimation non parametrique de fonctions de regression. Neanmoins, intuitivement et cest verifie par des simulations (Besse et coll. 1997), il est important de tenir compte
du fait quil sagit de lestimation simultanee de n realisations dun meme processus et donc de
tenir compte de la structure de covariance quil est possible destimer. Cest realise en introduisant une contrainte supplementaire issue de lhypothèse que la variable Z e volue dans un sousensemble de dimension finie de lespace de Sobolev W 2 (T ) (fonctions continues admettant une
derivee dans L2 ). Ceci revient encore a` e crire que ses trajectoires sexpriment comme combinaisons lineaires dun nombre reduit q de composantes. Ces composantes e tant par ailleurs regulières
du fait de la première hypothèse.
2.1
Modèle et estimation
Les observations de chacune des trajectoires sont rangees dans des vecteurs xi de IRp et Aq
designe un sous-espace affine de IRp de dimension q < p. La situation impliquee par lestimation
simultanee de n regressions non parametriques sous une double contrainte de regularite et de
dimension se resume par le modèle suivant :
IE(i ) = 0 et IE(i i ) = 2 I,
inconnue, ( > 0)
xi = zi + i ;
avec
(9.1)
xi independant de i0 , i0 = 1, . . . , n,
i = 1, . . . , n
xi Aq p.s. et kxi k2m c p.s..

Ce modèle presente donc la particularite dassocier deux types de contraintes, la première, de
dimension, conduisant a` une definition de lanalyse en composantes principales (cf. chapitre 3),
3
Ils sont accessibles a` partir de lURL www.inra.fr/bia/T/cardot/
102
la deuxième de regularite, habituelle en statistique fonctionnelle ; ` kxkm designe une semi-norme

definie par la norme dans L2 [0, 1] de la derivee mième de x. Lestimation par les moindres carres
ponderes amène a` resoudre un problème doptimisation dans lequel la contrainte de regularite a
e te remplacee par un multiplicateur de Lagrange ` dependant de c.
Avec les notations matricielles où M designe la matrice associee a` la semi-norme ` k.km (cf.
annexe B) et en supposant que les observations sont ponderees par les e lements diagonaux wi de
la matrice D, il sagit de resoudre :
min
zi ,Aq
( n
X
wi kzi
xi k2I
` kzi k2M
)
; z Aq , dimAq = q
(9.2)
i=1
P
Notons par x = ni=1 wi xi la moyenne des coordonnees et par X la matrice des observations
centrees cest-à-dire dans un contexte detudes climatiques, la matrice des anomalies (xi x) des
observations par rapport a` la moyenne annuelle ; S designe la matrice de covariance empirique :
0
S = X DX.
P ROPOSITION 9.1. La solution du problème(9.2) est donnee par :
1/2 b
1/2
b
zi = A ` P
q A` xi + A` x , i = 1, . . . , n.
b q = Vq V0 est la projection orthogonale sur le sous-espace E

bq engendre par les q
La matrice P
q
vecteurs propres de la matrice
1/2
1/2
A` SA` .
associes aux q plus grandes valeurs propres.
Les estimations lisses des trajectoires sobtiennent alors par interpolation spline des valeurs contenues dans le vecteur zbi .
Pn
Demonstration. Notons zi le vecteur de IRp contenant les valeurs de zi et z = i=1 wi zi . On definit
la matrice centree Z (n p) dont les vecteurs lignes (zi z0 ) sont contraints a` appartenir au sous-espace
vectoriel Eq = Aq z. Cette contrainte est e quivalente a` imposer a` la matrice Z detre au plus de rang q.
Le critère a` minimiser se decompose de la facon suivante :
n
X

2
2
wi kzi xi kI + ` kzi kM
i=1
n
X
wi kxi (zi z)kI +
i=1
n
X
+ `
wi kzi zkM + kx zkI + ` kzkM .
i=1
Les deux derniers termes de cette expression conduisent a` estimer z par lissage spline de la moyenne
empirique :
bq = b
bq .
b
z = A` x donc A
z+E
Les deux premiers termes nous amènent ensuite a` resoudre :
n
o
2
2
min Z X I,D + ` kZkM,D ; rang(Z) = q, q < p
Z(np)
où kZkM,D = trZ0 DZM designe la norme euclidienne des matrices (n p).
(9.3)
2. ACP de courbes bruitees
103
e = XA la matrice des lignes lissees de X, de sorte que

Notons X
`
2

0
0
2
Z X
+ ` kZkM,D = trX DX 2trX DZ + trZ0 DZ(I + `M)
I,D
e 0 DX(I
e + `M)2 2trX
e 0 DZ(I + `M) +
= trX
+ trZ0 DZ(I + `M)

2
2
2
e
e

e
= X
Z
+ ` X
+ `2 X

(I+`M),D
M,D
M2 ,D
Seul le premier terme de cette e quation depend de Z. Par consequent, la solution est la meilleure ape Elle est obtenue par la decomposition en valeurs singulières (DVS)
proximation de rang q de la matrice X.
de XA` relativement aux metriques A1
` et D :
cq = U
e qL
e 1/2 V
e0,
Z
q
q
(
où
0
e =U
eL
e
XA` X DU
0
e =V
eL
e
A` X DXV
et
et
e 0 DU
e = I,
U
1
0
e A V
e = I.
V
`
1/2
Cette decomposition en valeurs singulières generalisee est aussi deduite de celle de XA`
I et D :
1/2
XA` = UL1/2 V0
(
1/2 1/2 0
XA` A` X DU = UL et U0 DU = I,
où
1/2 0
1/2
A` X DXA` V = VL et V0 V = I.
relativement a`
e = L, U
e = U et V
e = A1/2 V.
On retrouve ensuite L
`
1/2
La decomposition en valeurs singulières de (XA` , I, D) conduit a` lanalyse spectrale de

1/2
1/2
la matrice A` SA` . Les trajectoires discrètes du processus sont projetees sur le sous-espace
engendre par les vecteurs
1/2
ei = A` vj , j = 1, . . . , q.
v
i se decomposent de manière e quivalente sur la base A1
Les trajectoires discrètes estimees z
` orthonormee des {e
vj } par projection des donnees transformees A` xi :
i = A` x
+
z
q
X
j=1
2.2
ej .
he
vj , A` xi iA1 v
(9.4)
Dimension et paramètre de lissage
Cette methode necessite de regler les valeurs de deux paramètres : la dimension q du sousespace ainsi que celle du paramètre de lissage `. Ce choix doit e tre realise conjointement car, en
pratique, la reduction de dimension opère e galement une sorte de lissage ou filtre passe-bas. En
effet, il est courant dobserver sur les derniers vecteurs propres les composantes les plus perturbees
de la fonction aleatoire. Cela sexplique simplement car dans le cas dun processus stationnaire
ou peu e loigne de la stationnarite, son operateur de covariance commute avec loperateur retard
et possède donc les memes fonctions propres periodiques. LACP ressemble alors fortement a` une
decomposition en series de Fourier et cest pourquoi, dans les premiers travaux sur ce type de
donnees, Deville (1974) associait dejà ACP et analyse harmonique.
Les deux paramètres : dimension et lissage, interfèrent donc lun sur lautre. Plus precisement,
la reduction de dimension permet de moins lisser a` laide des splines et donc de trouver une valeur
104
optimale de ` plus petite que celle qui serait obtenue avec le lissage seul. Cest une des raisons
qui fait que cette ACP fonctionnelle conduit a` de meilleures estimations des courbes quune succession de regression non parametrique pour laquelle chaque paramètre de lissage serait optimise
independamment par validation croisee.
Le meme critère, aidant au choix de dimension (cf. chapitre 3 e quation 3.5) peut e tre utilise. Il
est base sur une approximation du risque moyen quadratique mesurant la qualite destimation du
sous-espace de representation Eq :
2
1

cq
cq
Rq = IE Pq P
= q trPq P
2
Lapproximation par la theorie des perturbations de lestimation jackknife est donnee par :
p
q
1 Pn
2 2
X
X
1
i=1 cik cij
n
d
R
=
(9.5)
Pq
n1
(j k )2
k=1 j=k+1
1/2
où cij designe le terme general de la matrice XA` Vq .

Besse et coll. (1997) ont montre, sur des donnees simulees, lefficacite de cette approche associant dans le meme problème doptimisation des contraintes de reduction de rang et de regularite.
Un lissage de chaque trajectoire prise separement a` base de validation croisee conduit a` des
resultats moins performants. La prise en compte de la structure de covariance a` travers lACP
permet une meilleure extraction du signal pour differents rapports signal sur bruit. On note encore
que, lorsque la variance du bruit devient relativement importante, cest-à-dire plus grande que la
ou les dernières valeurs propres de la partie signal, il est preferable de reduire la dimension en
d
consequence. Cette e tude montre e galement que le critère R
P q de choix de dimension fournit des
resultats suffisamment precis pour e tre operationnels.
3
3.1
Exemples : ACP de series climatiques

ACP des precipitations
Nous preferons illustrer cette section par un exemple de donnees reelles particulièrement
bruitees. Il sagit des racines carrees des cumuls mensuels des precipitations de 26 villes en France
observees pendant 10 ans (ECOSTAT 1991). La transformation (racine) savère necessaire afin de
stabiliser la variance comme dans le cadre dun processus de Poisson. Pour traiter un problème
suffisamment complexe on sinteresse a` 265 courbes observees durant 2 annees consecutives.
Letude des donnees annuelles fournit le meme type de resultats mais avec une composante en
moins.
Une ACP classique calculee sur ces donnees fournit les resultats de la figure 9.2. Il sagit
donc des trois premiers vecteurs ou plutot fonctions propres qui, très bruitees, sont difficiles a`
interpreter. Une ACP fonctionnelle incluant une contrainte de regularite controle par le paramètre
de lissage ` a ensuite e te calculee. Le choix simultane de la dimension et de ce paramètre de
lissage est guide par les resultats de la figure 9.3. Celle-ci represente levolution de la stabilite du
sous-espace de representation en fonction de la valeur du paramètre de lissage et pour differentes
d
dimensions. Cet indice R
e au comportement decarts entre valeurs propres est très instable
P q li
donc delicat a` interpreter. Neanmoins, il apparat que pour de petites valeurs de ` (log(`) < 5),
seule la première composante associee a` une simple tendance est stable. Pour de plus grandes
valeurs (log(`) > 6), les donnees sont sur-lissees et beaucoup de composantes disparaissent. Le
comportement de RP 5 presentant un minimum conduit finalement a` retenir q = 5 et 1.
105
-0.6
-0.4
-0.2
0.0
0.2
0.4
3. Exemples : ACP de series climatiques
1
2
3
10
15
20
q=1
q=2
q=3
q=4
q=5
q=6
q=7
0.0
0.2
RPq
0.4
0.6
F IG . 9.2 Les trois premières fonctions propres de lACP classique (sans contrainte de regularite)
des donnees pluviometriques. Très irregulières, elles sont difficiles a` interpreter.
-10
-5
0
log(rho)
10
d
F IG . 9.3 Estimation de la stabilite R
P q du sous-espace de projection en fonction de log() et
pour differents choix de dimension.
0.0
0.5
106
-0.5
axes1
axes 2
axes 3
axes 4
axes 5
10
F IG . 9.4 Les cinq premières composantes principales engendrant le sous-espace de projection

b q.
P
Les composantes principales dune telle ACP avec contraintes de regularite devient alors nettement plus facile a` interpreter a` partir du graphique des fonctions propres plus regulières (figure 9.4)
qui revèlent differentes composantes periodiques.
3.2
ACP de temperatures
Cette section est le resultat dune collaboration dAntoniadou et coll. 2000 developpee au sein
dun projet europeen. Les donnees e tudiees sont celles de la serie CET des moyennes mensuelles
des temperatures centrales en Angleterre qui debute en 1659. Cest la plus longue des series de
temperatures enregistrees disponibles pour des e tudes climatiques. Elle represente une moyenne
calculee sur plusieurs stations du centre de lAngleterre ce qui permet, entre autres, de suppleer a`
des valeurs manquantes. Une e tude preliminaire montre que cette serie fait apparatre une tendance
lineaire montrant un rechauffement de lordre de 0,5 C par siècle pour les moyennes des mois
dhiver mais seulement de 0,2 C pour les mois dete.
Les moyennes mensuelles de la temperature en Angleterre peuvent e tre considerees comme
lobservation dun processus aleatoire reel et representees par une serie chronologique. Ces donnees
peuvent e galement e tre considerees comme des observations discretisees dun processus aleatoire
(Xi )iZ a` valeurs dans un espace fonctionnel. Supposons que n trajectoires xi , i = 1, . . . , n du processus ont e te mesurees en p instants de discretisation {t1 , t2 , . . . , tp }. Ainsi, les donnees peuvent
e tre rangees dans une matrice X delements : xij = xi (tj ), i = 1, . . . , n, j = 1, . . . , p.
Lobjectif de letude e tait letude conjointe du processus de temperature conjointement avec
celui relatantle phenomène de balancier atmospherique (north atlantic oscillation) present dans
lAtlantique nord et dont linfluence est marquante sur le climat europeen. Un traitement prealable
a conduit a` centrer les series autour des moyennes climatiques afin deliminer la forte composante
saisonnière puis a` les lisser par la methode du noyau. Les paramètres de lissage ont e te optimises afin de maximiser la correlation lineaire des deux series lissees centrees. Seule letude des
temperatures est reprise ici.
20
10
0
10
20
30
107
30
3. Exemples : ACP de series climatiques
f11
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
0.4
0.4
0.2
0.0
-0.4
2
10
11
12
-0.2
1
10
11
12
10
10
11
12
11
0.4
5
-0.2
4
0.4
3
-0.4
9
0.0
2
0.4
8
-0.4
1
-0.4 -0.2
-0.4
8
-0.2
7
12
0.2 0.4
5
0.2
3
-0.6
4
0.0
2
-0.2
0.0 0.2 0.4
11
-0.4
-0.4 -0.2
1
10
0.4
0.6
0.2
-0.2 0.0
4
0.4
0.0 0.2 0.4
0.2
2
-0.4
0.0
0.0
-0.4
1
0.2
12
0.0
-0.4
0.4
0.0 0.2 0.4

3
-0.4
2
0.2
-0.2
0.6
0.4
0.2
-0.2 0.0
1
0.0
0.25
0.15
1
0.4
0.2
0.0
-0.2
12
0.4
11
f12
0.2
10
f11
0.0
f10
-0.4
f9
0.2
f8
0.0
f7
-0.2
f6
0.2
f5
0.0
f4
0.35
0.2 0.4 0.6

-0.2
-0.6
2
f3
-0.2
0.2
0.1
1
f2
0.3
0.4
f1
0.4
f12
0.2
f10
0.0
f9
0.2 0.4
f8
10
11
12
-0.2
f7
-0.6
f6
0.4
f5
0.2
f4
0.2 0.4
f3
-0.2
f2
-0.6
f1
10
11
12
10
11
12
F IG . 9.5 Eboulis
des valeurs et fonctions propres de lACP des tableaux des donnees brutes (à
gauche) et lissees (à droite) de temperature.
LACP des donnees brutes, qui apparaissent très bruitees, ne presente que peu dinteret. La
decroissance des valeurs propres (cf. figure 9.5) est très lente, seul le premier vecteur propre, un
peu trivial, semble fiable. Laxe associe (effet taille) distingue entre annees chaudes et annees
froides. Lorsque lACP est combinee a` un lissage, dautres axes apparaissent comme pertinents
dans la decomposition (figure 9.5). Compte tenu de la forme particulière des vecteurs propres,
celle-ci ressemble beaucoup a` une decomposition en serie de Fourier. Cela signifie, quune fois
lissee, la serie centree se comporte approximativement comme un processus stationnaire a` accroissements independants avec decalage a` lorigine.
La representation des individus dans lACP des courbes de temperature mensuelle (figures 9.6
et 9.7) revèle la tendance dejà signalee et amplement mediatisee : la majorite des 25 dernières
annees apparaissent parmi celles qui sont en moyenne plus chaudes (Axe 1). Le plan (2,3) de
cette meme ACP apporte des resultats plus originaux. Il attribue principalement ce rechauffement
moyen aux hivers. En effet, les 25 dernières annees se projettent dans le demi-plan associe a` des
hivers plus doux que la moyenne generale. Ce rechauffement general explique principalement par
des hivers moins rigoureux se confirme par letude dAntoniadou et coll. (2000) du comportement
des valeurs extremes.
108
-2
Axe 3
0
2
. . . . .. . . . . .
. . . .. . ... . .. .
. . . . .. ....... .. . . .. .. .. .
. ... . . ... ..... ... .. . .
.
.... . .. . .. .. . . ...
. . . . . ...... ... .............
.. .
... . .. .
.. . ... .. .. .. . . .. ... .
. . .. .
..
.
. . . . .. .. .
..
.
.
.
.
.
. .
. ... .. . . . ..
. .. . ..
.. . .. .... .
.... ... ... ... . .. ... .
. . .. ....... ...... ... .. .... ... .... .
..... ....... ... . .. .
. . .. . ..... ........ . .... . .
.
.
. ... .. . . ..
. . . .
-4
-6
-4
-2
Axe 2
0
2
-6
-4
-2 0
Axe 1
-4
-2
0
2
Axe 2
F IG . 9.6 Representation des individus sur les deux premiers plans de lACP des courbes annuelles lissees de temperature. La ligne brisee relie les 25 dernières annees.
1.0
Variables
v6
v5
0.0
v1 v4
v2v3
Axe 3
0.0
Axe 2
v6
-0.5
0.5
v11 v10
v9
v12
v8
v7
0.5
1.0
Variables
v9
v4
v5
v10
-0.5
v3
v2 v1
v12 v11
-1.0
-1.0
v7
v8
-1.0
-0.5
0.0
Axe 1
0.5
1.0
-1.0
-0.5
0.0
0.5
1.0
Axe 2
F IG . 9.7 Representation des variables (les mois) de lACP des courbes annuelles lissees de
temperature.
Chapitre 10
Analyse Canonique
1
Introduction
Lanalyse canonique (AC ou en anglais canonical correlation analysys) est une methode de
statistique descriptive multidimensionnelle qui presente des analogies a` la fois avec lanalyse en
composantes principales (ACP), pour la construction et linterpretation de graphiques, et avec
la regression lineaire, pour la nature des donnees. Lobjectif general de lanalyse canonique est
dexplorer les relations pouvant exister entre deux groupes de variables quantitatives observees
sur le meme ensemble dindividus. Letude des relations entre deux groupes de variables constitue
la principale particularite de lAC par rapport a` lACP. De ce point de vue, lAC est davantage
proche de la regression lineaire multiple (explication dune variable quantitative par un ensemble
dautres variables quantitatives), methode dont elle constitue, dailleurs, une generalisation (on
retrouve la regression lorsquun des deux groupes de lAC ne comporte quune seule variable).
En fait, lanalyse canonique est, sur le plan theorique, une methode centrale de la statistique
descriptive multidimensionnelle, dans la mesure où elle generalise diverses autres methodes et
peut aussi e tre consideree comme un cas particulier dACP de deux paquets de variables dans un
espace muni dune metrique particuli-re (inverse par blocs des matrices de variance covariance).
Outre la regression lineaire, lA.C. redonne en effet lanalyse factorielle discriminante lorsquun des deux groupes de variables est remplace par les indicatrices dune variable qualitative.
Elle redonne e galement lanalyse factorielle des correspondances lorsque chacun des deux groupes
est remplace par les indicatrices dune variable qualitative. Signalons e galement quil existe certaines generalisations de lAC a` plus de deux groupes de variables quantitatives et quelles permettent de retrouver lanalyse des correspondances multiples (en remplacant chaque groupe par
les indicatrices dune variable qualitative), ainsi que lACP (en ne mettant quune seule variable
quantitative dans chaque groupe). Nous ne nous interesserons ici quà lAC classique, entre deux
groupes de variables.
En depit de sa place centrale au sein des methodes de statistique multidimensionnelle, pendant
longtemps, lA.C. netait pas (ou très peu) enseignee dans ces cursus, compte tenu du petit nombre
dapplications auxquelles elle donnait lieu. Les choses ont change, dabord vers le milieu des
annees 1990, avec le developpement de la regression P.L.S. (partial least squares), methode assez
voisine de lA.C., ensuite, plus recemment, avec lapparition des donnees dexpression genomique
(biopuces) combinees a` des variables biologiques, dans une situtation qui relève typiquementde
lanalyse canonique.
109
110
2
2.1
Chapitre 10. Analyse Canonique
La methode
Notations
Dans toute la suite de ce chapitre, on notera n le nombre dindividus consideres (autrement dit,
la taille de lechantillon observe), p le nombre de variables (quantitatives) du premier groupe et q
le nombre de variables (egalement quantitatives) du second groupe. On designera par X la matrice,
de dimension n p, contenant les observations relatives au premier groupe de variables et par Y
la matrice, de dimension n q, contenant celles relatives au second groupe. La j-ième colonne de
X (j = 1, . . . , p) contient les observations xji de la j-ième variable du premier groupe (notee X j )
sur les n individus consideres (i = 1, . . . , n). De meme, la k-ième colonne de Y (k = 1, . . . , q)
contient les observations yik de la k-ième variable du second groupe (notee Y k ).
Generalement, en A.C., on suppose n p, n q, X de rang p et Y de rang q. De plus,
sans perte de generalite, on suppose e galement p q (on designe donc par premier groupe celui
qui comporte le moins de variables). Compte tenu des particularites des donnees de biopuces, les
quatre premières hypothèses ci-dessus pourront ne pas e tre verifiees dans certains exemples.
2.2
Representations vectorielles des donnees
Comme en A.C.P., on peut considerer plusieurs espaces vectoriels reels associes aux observations.
Tout dabord, lespace des variables ; cest F = IRn , muni de la base canonique et dune
` chaque variable X j est associe un vecteur unique xj
certaine metrique, en general lidentite. A
de F dont les coordonnees sur la base canonique sont les xji (i = 1, . . . , n). De meme, a` chaque
variable Y k est associe un vecteur unique y k de F , de coordonnees les yik . On peut ainsi definir
dans F deux sous-espaces vectoriels : FX , engendre par les vecteurs xj (j = 1, . . . , p), en general
de dimension p, et FY , engendre par les vecteurs y k (k = 1, . . . , q), en general de dimension q.
Remarque. Il est courant de munir lespace vectoriel F de la metrique dite des poids, definie,
relativement a` la base canonique, par la matrice diag (p1 , . . . , pn ), où les pi (i = 1, . . . , n) sont des
poids (positifs et de somme e gale a` 1) associes aux individus observes. Lorsque tous ces poids sont
e gaux, ils valent necessairement n1 et la matrice definissant la metrique des poids vaut n1 In , où In
est la matrice identite dordre n. Dans ce cas, il est e quivalent dutiliser la metrique identite, ce que
nous ferons par la suite, dans la mesure où les individus seront systematiquement e quiponderes.
On peut ensuite considerer deux espaces vectoriels pour les individus, E1 = IRp et E2 = IRq ,
eux aussi munis de leur base canonique et dune certaine metrique. Dans E1 , chaque individu i est
represente par le vecteur xi , de coordonnees xji (j = 1, . . . , p) sur la base canonique. De meme,
dans E2 , lindividu i est represente par le vecteur yi , de coordonnees les yik .
En fait, cest surtout lespace F que nous considèrerons par la suite, la definition de lA.C. y
e tant plus naturelle.
2.3
Principe de la methode
Le principe general de lA.C. est decrit ci-dessous, dans lespace des variables F .
Dans un premier temps, on cherche un couple de variables (V 1 , W 1 ), V 1 e tant une combinaison lineaire des variables X j (donc un e lement de FX ), normee, et W 1 une combinaison lineaire
des variables Y k (donc un e lement de FY ), normee, telles que V 1 et W 1 soient le plus correlees
possible.
Ensuite, on cherche le couple norme (V 2 , W 2 ), V 2 combinaison lineaire des X j non correlee
2. La methode
111
a` V 1 et W 2 combinaison lineaire des Y k non correlee a` W 1 , telles que V 2 et W 2 soient le plus

correlees possible. Et ainsi de suite...
Remarque. Dans la mesure où lA.C. consiste a` maximiser des correlations, quantites invariantes par translation et par homothetie de rapport positif sur les variables, on peut centrer et
reduire les variables initiales X j et Y k sans modifier les resultats de lanalyse. Pour des raisons de
commmodite, on le fera systematiquement. Par consequent, les matrices X et Y seront desormais
supposees centrees et reduites (en colonnes).
LA.C. produit ainsi une suite de p couples de variables (V s , W s ), s = 1, . . . , p. Les variables
V constituent une base orthonormee de FX (les V s , combinaisons lineaires de variables centrees,
sont centrees ; comme elles sont non correlees, elles sont donc orthogonales pour la metrique identite). Les variables W s constituent, de meme, un système orthonorme de FY (ils nen constituent
une base que si q = p). Les couples (V s , W s ), et plus particulièrement les premiers dentre eux,
rendent compte des liaisons lineaires entre les deux groupes de variables initiales. Les variables
V s et W s sont appelees les variables canoniques. Leurs correlations successives (decroissantes)
sont appelees les coefficients de correlation canonique (ou correlations canoniques) et notees s
(1 1 2 p 0).
s
Remarque. Toute variable canonique V s0 est, par construction, non correlee (donc orthogonale)
avec les autres variables canoniques V s , s 6= s0 . On peut e galement montrer que V s0 est non
correlee avec W s , si s 6= s0 (la meme propriete est bien sur vraie pour toute variable W s0 avec
les variables V s , s 6= s0 ).
Remarque. Si necessaire, on peut completer le système des variables W s (s = 1, . . . , p) pour
obtenir une base orthonormee de FY dans laquelle les dernières variables W s (s = p + 1, . . . , q)
sont associees a` des coefficients de correlation canonique nuls (s = 0, pour s = p + 1, . . . , q).
2.4 Aspects mathematiques

Dans lespace vectoriel F muni de la metrique identite, notons PX et PY les matrices des
projecteurs orthogonaux sur les sous-espaces FX et FY . Les formules usuelles de definition des
projecteurs permettent decrire (X0 designant la matrice transposee de X) :
PX = X(X0 X)1 X0 ; PY = Y(Y0 Y)1 Y0 .
On peut alors montrer la propriete ci-dessous.
P ROPOSITION 10.1. Les vecteurs V s sont les vecteurs propres normes de la matrice PX PY
respectivement associes aux valeurs propres s rangees par ordre decroissant (on peut verifier
que ces valeurs propres sont comprises entre 1 et 0). De meme, les vecteurs W s sont les vecteurs
propres normes de la matrice PY PX respectivement associes aux memes valeurs propres s . De
plus, les coefficients
de correlation canonique s sont les racines carrees positives de ces valeurs
propres : s = s , s = 1, . . . , p (le logiciel SAS fournit les correlations canoniques s ainsi que
leurs carres s ).
2.5
Comme en A.C.P., les representations graphiques des resultats dune A.C. se font en dimension reduite (souvent 2 ou 3). Nous noterons d cette dimension, avec : 1 d p. Plusieurs
representations sont envisageables, a` la fois pour les variables et pour les individus.
112
Representation des variables dans le sous-espace FX

Designons par v s et ws les vecteurs de FX et FY respectivement associes aux variables canoniques V s et W s .
Dans FX , on considère la base orthonormee (v 1 , . . . , v p ) que lon restreint a` (v 1 , . . . , v d ) pour
les representations graphiques.
On peut tout dabord representer chacune des variables initiales X j au moyen de ses coordonnees sur les v s . Ces coordonnees sobtiennent en calculant les produits scalaires < xj , v s >,
j = 1, . . . , p, s = 1, . . . , d. Les variables X j e tant centrees et reduites, les vecteurs xj sont
centres et normes (et il en va de meme pour les vecteurs v s ), de sorte que ces produits scalaires
sont e gaux aux correlations entre variables initiales X j et variables canonique V s (au coefficient
n près, puisquon a considere la metrique identite).
Dans le meme espace, on peut e galement representer les variables de lautre groupe, les Y k , en
projetant tout dabord les vecteurs y k dans FX , au moyen de PX , puis en prenant le produit scalaire
de ces projections avec les vecteurs v s . On doit donc calculer pour cela les produits scalaires
< PX (y k ), v s >=< y k , PX (v s ) >=< y k , v s >,
encore e gaux aux correlations entre les variables initiales Y k et les variables canoniques V s .
Dans la mesure où le graphique ainsi obtenu est bon (sur ce point, voir plus loin), on peut
lutiliser pour interpreter les relations (proximites, oppositions, e loignements) entre les deux ensembles de variables. Par construction, ce graphique represente les correlations entre les variables
canoniques V s et les variables initiales X j et Y k , correlations a` la base de son interpretation. On
peut aussi conforter cette interpretation en utilisant les coefficients de correlation lineaire entre
variables X j , entre variables Y k , et entre variables X j et Y k . Tous ces coefficients sont en general
fournis par les logiciels.
Representation des variables dans le sous-espace FY
De facon symetrique, on restreint le système (w1 , . . . , wp ) de FY aux premières variables
(w1 , . . . , wd ), par rapport auxquelles on represente aussi bien les variables initiales X j que les
Y k , selon le meme principe que celui decrit ci-dessus (les coordonnees sont les correlations).
Là encore, dans la mesure où ce graphique est bon, il permet dinterpreter les relations entre
les deux ensembles de variables.
Les deux graphiques (dans FX et dans FY ) ayant la meme qualite et conduisant aux memes
interpretations, un seul suffit pour interpreter les resultats dune analyse.
Representation des individus
Dans chacun des espaces relatifs aux individus (E1 et E2 ), il est encore possible de faire une
representation graphique de ces individus en dimension d, ces deux representations graphiques
e tant comparables (dautant plus comparables que les correlations canoniques sont e levees).
En fait, on peut verifier que les coordonnees des individus sur les axes canoniques pour ces
deux representations sont respectivement donnees par les lignes des matrices Vd (dans E1 ) et Wd
(dans E2 ), Vd et Wd designant les matrices n d dont les colonnes contiennent les coordonnees
des d premières variables canoniques sur la base canonique de F .
2. La methode
113
Choix de la dimension
Comme dans toute methode factorielle, differents e lements doivent e tre pris en compte pour
le choix de la dimension d dans laquelle on realise les graphiques (et dans laquelle on interprète
les resultats).
Tout dabord, il est clair que d doit e tre choisi petit, lobjectif general de la methode e tant
dobtenir des resultats pertinents dans une dimension reduite ; ainsi, le plus souvent, on
choisi d e gal a` 2 ou a` 3.
Plus lindice de dimension s augmente, plus la correlation canonique s diminue ; or, on
ne sinteresse pas aux correlations canoniques faibles, puisquon cherche a` expliciter les
relations entre les deux groupes de variables ; par consequent, les dimensions correspondant
a` des s faibles peuvent e tre negligees.
Le pourcentage que chaque valeur propre represente par rapport a` la somme, cest-à-dire
par rapport a` la trace de la matrice diagonalisee, facilitent e galement le choix de d (voir la
remarque 5).
2.6
Complements : analyse canonique et regression multivariee
Introduction
Ouvrages et logiciels anglo-saxons de statistique presentent souvent lanalyse canonique parallèlement a` la regression lineaire multivariee (regression dun ensemble de variables Y k sur un
autre ensemble de variables X j ). Cette approche est, en fait, assez naturelle, dans la mesure où les
donnees sont de meme nature dans les deux methodes et où lon cherche, dans lune comme dans
lautre, des relations lineaires entre variables.
Il convient toutefois de noter les deux differences fondamentales entre les deux metho-des :
contrairement a` ce quil se passe en A.C., les deux ensembles de variables X j et Y k ne sont pas
symetriques en regression, puisquil sagit dexpliquer les variables Y k au moyen des variables
X j ; dautre part, toujours en regression, on suppose la normalite des variables reponses Y k , alors
quaucune hypothèse de cette nature nest necessaire en A.C. Lavantage de cette hypothèse (lorsquelle est raisonnable) est de permettre de realiser des tests dans le modèle de regression.
Le modèle de regression multivariee
Le modèle de regression multivariee des variables Y k sur les variables X j secrit :
Y = XB + U ;
les matrices Y, n q et X, n p, sont celles introduites en A.C. ; B est la matrice p q des
paramètres inconnus, a` estimer ; U est la matrice n q des erreurs du modèle. Chaque ligne Ui de
U est un vecteur aleatoire de IRq suppose Nq (0, ), les Ui e tant independants ( est une matrice
inconnue, a` estimer, supposee constante en i).
Lestimation maximum de vraisemblance de B conduit a` la solution :
= (X0 X)1 X0 Y.
B
On appelle alors valeurs predites (de Y par le modèle) les quantites :
= XB
= PX Y ;
Y
dautre part, on appelle residus les quantites :
=YY
= P Y
U
X
114
(dans lecriture ci-dessus, P

esigne, dans IRn , le projecteur orthogonal sur le sous-espace
X d
supplementaire orthogonal a` FX dans IRn ; on sait que ce projecteur secrit : P
X = In PX ).
Matrices intervenant dans les tests
Dans le cadre du modèle gaussien, on peut tester la significativite du modèle en generalisant
le test de Fisher, bien connu dans le cas unidimensionnel. Au numerateur de la statistique de
0Y
(cette matrice est centree).
Fisher figure la norme carree du vecteur y y, ici remplacee par Y
0U
(on neglige, pour
Au denominateur figure la norme carree des residus, ici remplacee par U
linstant, les degres de liberte de ces quantites). La statistique de Fisher est donc remplacee par
0 Y(
U
0 U)
1 . Comme on a Y
= PX Y, il vient : Y
0Y
= Y 0 PX Y = H
le produit matriciel Y
(la notation H est standard, car il sagit dune matrice proche de 0 sous lhypothèse nulle de
= P Y entrane : U
0U
= Y0 P Y = E (il
non significativite du modèle). Dautre part, U
X
X
sagit encore dune notation standard, cette matrice representant les erreurs du modèle). Les tets
multidimensionnels de significativite du modèle sont ainsi bases sur letude des valeurs propres
soit du produit matriciel
1
HE1 = (Y0 PX Y)(Y0 P
X Y) ,
soit encore du produit H(H+E)1 , les valeurs propres de ces deux matrices se deduisant les unes
des autres. Developpons le second produit matriciel :
H + E = Y0 PX Y + Y0 (In PX )Y = Y0 Y;
doù :
H(H + E)1 = Y0 PX Y(Y0 Y)1 ,
matrice ayant les memes valeurs propres que
PX Y(Y0 Y)1 Y0 = PX PY ,
cest-à-dire les s (s = 1, . . . , p), carres des correlations canoniques.
Remarque. On peut verifier (le resultat est classique) que les valeurs propres de la matrice
s
HE1 valent
. Ces valeurs propres sont fournies par le logiciel SAS, ainsi que les pour1 s
centages (et les pourcentages cumules) quelles representent par rapport a` leur somme, trace de la
matrice HE1 .
En interpretant ces pourcentages comme la part dinertie globale du nuage des individus restituee par les differents axes canoniques (ce quelles sont, par exemple, en analyse factorielle
discriminante), ces quantites facilitent le choix de la dimension d retenue pour les graphiques et
les interpretations.
Tests
Il existe plusieurs tests de significativite du modèle de regression multivariee, en general
e quivalents (au moins au niveau des decisions quils entranent). Ces tests sont les generali-sations
classiques du test de Fisher au cas multivarie (on les retrouve, par exemple, en analyse de variance
multivariee). Le logiciel SAS fournit les trois premiers ci-dessous, mais pas le quatrième. Il fournit
1
e galement le test de Roy, base sur la plus grande valeurs propre de la matrice HE1 , soit
,
1 1
mais ce test est a` deconseiller.
2. La methode
115
Le test de Wilks, adaptation du test du rapport des vraisemblances, est base sur la statistique
=
p
Y
(1 s ) =
s=1
p
Y
(1 2s ).
s=1
Le test de la trace de Pillai est base sur la statistique

Z = trace H(H + E)1 =
p
X
s .
s=1
Le test de la trace de Lawley-Hotelling est base sur la statistique

2
T = trace HE
p
X
s=1
s
.
1 s
Le test du khi-deux, base sur la statistique

p
Y
1
K = [(n 1) (p + q + 1)] ln
(1 s ).
2
s=1
Le test du khi-deux presente lavantage detre directement utilisable, puisquon compare la

statistique K a` une loi de khi-deux a` pq degres de libertes (il sagit dun test approche).
Dans les trois autres tests ci-dessus, on doit transformer la statistique (, Z ou T 2 ) pour obtenir
un test de Fisher approche, les transformations e tant assez compliquees a` expliciter (toutefois, SAS
les realise automatiquement).
Remarque. Dans un article de 1951, Rao a montre que, dans la plupart des cas, lapproximation
de Fisher du test de Wilks est la meilleure. Cest donc le test que nous conseillerons dans ce cas
là.
Si le modèle de regression est signifcatif (il en va alors de meme pour lanalyse canonique),
on peut tester la significativite dune dimension et de lensemble des suivantes, en particulier pour
guider le choix de la dimension en A.C. Ainsi, supposons que les correlations canoniques soient
significatives depuis la première jusquà la k-ième (1 k p). On peut alors tester lhypothèse
nulle
{H0 : k+1 = = p = 0} ( {H0 : d = k})
contre lalternative
{H1 : k+1 > 0} ( {H1 : d > k}).
Pour cela, il faut adapter soit le test de Wilks, soit le test du khi-deux.
Pour le test de Wilks, il suffit de faire le produit des quantites (1 s ) de lindice k + 1 a`
lindice p et dadapter la transformation en fonction des nouvelles dimensions. SAS le fait automatiquement. Pour le test du khi-deux, il faut considerer la statistique
p
k
X
Y
1
1
] ln
(1 s )
Kk = [(n 1 k) (p + q + 1) +
2
s
s=1
s=k+1
et la comparer a` une loi de khi-deux a` (p k)(q k) degres de liberte.

Remarque. Dans lutilisation de ces tests, il convient de ne pas perdre de vue dune part quil
sagit de tests approches (dautant meilleurs que la taille de lechantillon, n, est grande), dautre
part quils ne sont valables que sous lhypothèse de normalite des variables Y k .
116
3
3.1
Un exemple : la nutrition des souris

Les donnees
Ces donnees nous ont e te proposees par lUnite Pharmacologie-Toxicologie de lINRA de

Saint Martin du Touch, près de Toulouse. Elles ont e te produites par Pascal Martin et Thierry
Pineau.
Il sagit dune population de 40 souris sur lesquelles, entre autres choses, on a observe deux
groupes de variables. Un premier groupe est constitue par 10 gènes specifiques de la nutrition chez
la souris. Chaque variable est en fait la mesure (quantitative) de lexpression du gène correspondant, realisee par macroarrays sur membranes de nylon avec marquage radioactif. En fait, dans
lexperience, on disposait de 120 gènes parmi lesquels 10 ont e te selectionnes (a priori, parmi les
plus pertinents) pour reduire le volume des donnees. Pour memoire, les codes de ces gènes sont
les suivants :
CAR1 BIEN CYP3A11 CYP4A10 CYP4A14 AOX THIOL CYP2c29 S14 GSTpi2 .
Un deuxième groupe de variables est constitue par les pourcentages de 21 acides gras hepatiques ;
il sagit de variables quantitatives, avec la particularite que, tous les acides gras hepatiques ayant
e te pris en compte, la somme de ces variables vaut 100 pour tout individu. Pour memoire, les codes
de ces acides gras sont les suivants :
C14_0
C16_0
C18_0 C16_1n_9 C16_1n_7 C18_1n_9 C18_1n_7
C20_1n_9 C20_3n_9 C18_2n_6 C18_3n_6 C20_2n_6 C20_3n_6 C20_4n_6
C22_4n_6 C22_5n_6 C18_3n_3 C20_3n_3 C20_5n_3 C22_5n_3 C22_6n_3 .
Le but de lanalyse canonique de ces donnees est donc detudier les relations pouvant exister
entre gènes et acides gras.
Remarque. On notera que les hypothèses usuelles relatives aux donnees dune A.C., que nous
avons mentionnees a` la fin du 2.1, sont ici toutes verifiees.
3.2
Traitements preliminaires
Nous donnons ci-dessous les statistiques e lementaires relatives aux deux groupes de variables.
Pour les correlations entre les variables de chaque groupe, on se reportera aux annexes A et B.
Variable
CAR1
BIEN
CYP3A11
CYP4A10
CYP4A14
AOX
THIOL
CYP2c29
S14
GSTpi2
Variable
Mean
Std Dev Minimum Maximum
40
40
40
40
40
40
40
40
40
40
220.85000
214.67500
518.15000
179.17500
171.37500
830.55000
644.05000
1062.0
328.65000
2266.0
60.76881
58.14191
294.13415
83.91873
112.53733
237.60385
277.55461
336.10239
216.91881
717.60913
Mean
Std Dev
135
105
170
89
99
452
206
371
132
965
Minimum
376
385
1327
399
658
1529
1260
1934
1350
3903
Maximum
3. Un exemple : la nutrition des souris

C14_0
C16_0
C18_0
C16_1n_9
C16_1n_7
C18_1n_9
C18_1n_7
C20_1n_9
C20_3n_9
C18_2n_6
C18_3n_6
C20_2n_6
C20_3n_6
C20_4n_6
C22_4n_6
C22_5n_6
C18_3n_3
C20_3n_3
C20_5n_3
C22_5n_3
C22_6n_3
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
0.76300
23.02600
6.74700
0.68700
4.41875
25.27325
4.42600
0.28400
0.30675
15.27750
0.37450
0.18525
0.77600
5.27925
0.18400
0.43700
2.88800
0.09100
1.78950
0.87175
5.91400
117
0.80057
3.57303
2.64016
0.28498
2.98497
7.33966
3.37585
0.13965
0.72116
8.76020
0.87840
0.20236
0.46167
4.45999
0.25213
0.66392
5.82863
0.17930
2.59001
0.85598
5.33487
0.22000
14.65000
1.68000
0.29000
1.59000
14.69000
1.53000
0
0
2.31000
0
0
0.11000
0.75000
0
0
0
0
0
0
0.28000
3.24000
29.72000
10.97000
1.50000
13.90000
41.23000
15.03000
0.65000
2.89000
40.02000
5.07000
0.83000
1.64000
15.76000
0.73000
2.52000
21.62000
0.64000
9.48000
2.58000
17.35000
Remarque. Comme indique dans la remarque 2, ces variables ont e te centrees et redui-tes avant
la realisation de lA.C.
3.3
Analyse canonique
Generalites
Les premiers resultats fournis par une A.C. sont les correlations croisees entre les deux groupes
de variables. Nous donnons ces correlations dans lannexe C.
Ensuite sont donnees les correlations canoniques reproduites ci-dessous.
Canonical Correlation
1
2
3
4
5
6
7
8
9
10
0.990983
0.978581
0.957249
0.891429
0.799633
0.794380
0.770976
0.635902
0.626384
0.325094
On notera que le plus petit groupe ne comportant que 10 variables, on ne peut determiner
que 10 correlations canoniques. Lobjectif principal de lA.C. e tant detudier les relations entre
variables des deux groupes, on peut noter ici quil existe effectivement des relations fortes entre
ces deux groupes, puisque les premiers coefficiens canoniques sont très e leves. Compte tenu des
valeurs importantes des premiers coefficients, on peut raisonnablement se contenter de deux ou
trois dimensions pour e tudier les resultats fournis par la methode et nous avons choisi ici seulement
deux dimensions, compte tenu quil sagit essentiellement dune illustration.
118
Remarque. Les valeurs propres de la matrice HE1 et les pourcentages dinertie restitues par
les differentes dimensions sont les suivants :
Eigenvalues of Inv(E)*H
= CanRsq/(1-CanRsq)
1
2
3
4
5
6
7
8
9
10
Eigenvalue
Difference
Proportion
Cumulative
54.7032
22.5963
10.9512
3.8696
1.7732
1.7103
1.4655
0.6789
0.6457
0.1182
32.1069
11.6451
7.0816
2.0964
0.0629
0.2448
0.7866
0.0332
0.5275
0.5553
0.2294
0.1112
0.0393
0.0180
0.0174
0.0149
0.0069
0.0066
0.0012
0.5553
0.7847
0.8958
0.9351
0.9531
0.9705
0.9854
0.9922
0.9988
1.0000
Par ailleurs, les tests de Wilks, de significativite de chaque dimension, sont les suivants :
Test of H0: The canonical correlations in the
current row and all that follow are zero
1
2
3
4
5
6
7
8
9
10
Likelihood
Ratio
Approximate
F Value
Num DF
Den DF
Pr > F
0.00000023
0.00001272
0.00030012
0.00358677
0.01746624
0.04843824
0.13128287
0.32367928
0.54342420
0.89431401
2.19
1.63
1.25
0.96
0.82
0.78
0.69
0.53
0.47
0.18
210
180
152
126
102
80
60
42
26
12
104.61
100.74
95.57
89.05
81.12
71.72
60.78
48.23
34
18
<.0001
0.0035
0.1202
0.5890
0.8259
0.8542
0.9228
0.9807
0.9762
0.9980
On voit que le choix de la dimension 2 est recommande.

Graphique des individus
Dans un premier temps, nous avons realise le graphique des individus (les 40 souris) relativement aux deux premiers axes canoniques de lespace des gènes E1 (voir la Figure 1). Ce graphique
a pour seul but de regarder lhomogeneite de lensemble des individus. Sil ne presente aucune particularite notable, il y a neanmoins des individus occupant des positions assez differenciees et il
pourrait e tre interessant detudier en detail ce qui les caracterise.
On notera quon a e galement realise le graphique des individus relativement aux deux premiers
axes de lautre espace (espace des acides gras, E2 ) et quil est très semblable a` celui-ci.
Graphique des variables
Pour la representation des variables, nous avons considere le sous-espace FX , engendre par
les 10 gènes, et nous avons represente a` la fois les gènes et les acides gras relativement aux deux
119
0.2
1
1
1
0.0
1
3
3
33
0.2
22
5
52
4
5 4
5
4
3
5
1
1
4
4
3
15
3
0.4
Dim 2
2
5
0.4
0.2
0.0
0.2
Dim 1
F IG . 10.1 Nutrition : Representation des individus (souris) dans lespace des gènes.
120
premières variables canoniques, V 1 et V 2 (voir la Figure 2). Comme indique en 2.5, les coordonnees des variables initiales sont fournies par leur correlations avec les variables canoniques.
Certaines associations entre gènes et acides gras, en particulier celles correspondant a` des
points e loignes de lorigine, sont interessantes a` noter.
121
1.0
C16.0
THIOL
C18.0
C20.3n.6
BIENAOX
0.0
C20.3n.9
C20.5n.3
C22.5n.3
GSTpi2
C20.3n.3
C18.3n.3
CYP2c29
C20.4n.6
C18.3n.6
C22.5n.6
C22.4n.6
C18.1n.7C16.1n.7
C14.0
C20.2n.6
C18.1n.9
0.5
S14
C20.1n.9
C16.1n.9
C18.2n.6
CAR1
1.0
Dimension 2
0.5
CYP3A11
CYP4A10CYP4A14
C22.6n.3
1.0
0.5
0.0
0.5
1.0
Dimension 1
F IG . 10.2 Nutrition : Representation des gènes et des acides dans le sous-espace des gènes.
122
Bibliography
Agresti, A. (1990). Categorical data analysis. Wiley.
Antoniadis, A., J. Berruyer, and R. Carmona (1992). Regression non lineaire et applications.
Economica.
Ardilly, P. (1994). Les techniques de sondage. Technip.
Berry, M. and L. Gordon (1997). Data Mining, techniques appliquees au marketing, a` la vente et
aux services clients. Masson.
Besse, P. (1992). Pca stability and choice of dimensionality. Statistics & Probability Letters 13,
405410.
Besse, P., H. Cardot, and F. Ferraty (1997). Simultaneous non-parametric regressions of unbalanced longitudinal data. Computational Statistics & Data Analysis 24, 255270.
Besse, P. and F. Ferraty (1995). A fixed effect curvilinear model. Computational Statistics 10,
339351.
Besse, P. and J. Ramsay (1986). Principal component analysis of sampled curves. Psychometrika 51, 285311.
Bourret, P., J. Reggia, and M. Samuelides (1991). Reseaux neuronaux. Teknea.
Breiman, L. (2001). Random forests. Machine Learning 45, 532.
Breiman, L., J. Friedman, R. Olshen, and C. Stone (1984). Classification and regression trees.
Wadsworth & Brooks.
Celeux, G. (1990). Analyse discriminante sur variables continues. INRIA.
Celeux, G., E. Diday, G. Govaert, Y. Lechevallier, and H. Ralambondrainy (1989). Classification
automatique des donnees. Dunod.
Celeux, G. and J.-P. Nakache (1994). Analyse discriminante sur variables qualitatives. Polytechnica.
Collett, D. (1991). Modelling binary data. Chapman & Hall.
Dobson, A. (1990). An introduction to generalized linear models. Chapman and Hall.
Droesbeke, J., B. Fichet, and P. Tassi (1992). Modèles pour lAnalyse des Donnees Multidimensionnelles. Economica.
Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Methods. SIAM.
Everitt, B. and G. Dunn (1991). Applied Multivariate Data Analysis. Edward Arnold.
Green, P. and B. Silverman (1994). Nonparametric Regression and Generalized Linear Models.
Chapman and Hall.
Jobson, J. (1991). Applied Multivariate Data Analysis, Volume I : Regression and experimental
design. Springer-Verlag.
123
124
BIBLIOGRAPHY
Jobson, J. (1992). Applied Multivariate Data Analysis, Volume II : Categorical and multivariate
methods. Springer-Verlag.
Jolliffe, I. (2002). Principal Component Analysis (2nd edition ed.). Springer-Verlag.
Kaufman, L. and J. Rousseeuw, P. (1990). Finding groups in data. Wiley.
Lefèbure, R. and G. Venturi (1998). Le data Mining. Eyrolles.
Mardia, K., J. Kent, and J. Bibby (1979). Multivariate Analysis. Academic Press.
McCullagh, P. and J. Nelder (1983). Generalized Linear Models. Chapman & Hall.
Monfort, A. (1982). Cours de Statistique Mathematique. Economica.
Ramsay, J. and C. Dalzell (1991). Some tools for functional data analysis. Journal of the Royal
Statistical Society, B 53, 539572. with discussion.
Ramsay, J. and B. Silverman (1997). Functional Data Analysis. Springer-Verlag.
Saporta, G. (1990). Probabilites, Analyse des Donnees et Statistique. Technip.
SAS (1989). SAS/STAT Users Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6.
SAS (1995). SAS/INSIGHT Users Guide (Third ed.). Sas Institute Inc. version 6.
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997). Statistique et methodes neuronales.
Dunod.
Tomassonne, R., S. Audrain, E. Lesquoy-de Turckheim, and C. Millier (1992). La regression,
nouveaux regards sur une ancienne methode statistique. Masson.
Wahba, G. (1990). Spline Models for Observational Data. SIAM.
Chapitre A
Outils algebriques
Ce chapitre se propose de rassembler des notations et rappels dalgèbre lineaire ainsi que
quelques complements mathematiques du niveau du premier cycle des Universites.
Dans tout ce qui suit, E et F sont deux espaces vectoriels reels munis respectivement des
bases canoniques E = {ej ; j = 1, . . . , p} et F = {fi ; i = 1, . . . , n}. On note indifferemment
soit un vecteur de E ou de F , un endomorphisme de E, ou une application lineaire de E dans F ,
soit leurs representations matricielles dans les bases definies ci-dessus.
1
1.1
Matrices
Notations
La matrice dordre (n p) associee a` une application lineaire de E dans F est decrite par un
tableau :
1
a1 . . . aj1 . . . ap1
..
..
..
.
.
.
j
p
1
A=
ai . . . ai . . . ai .
..
..
..
.
.
.
a1n . . . ajn . . . apn
On note par la suite :

aji
= [A]ji le terme general de la matrice,
ai = [a1i , . . . , api ]0 un vecteur-ligne mis en colonne,

aj
= [aj1 , . . . , ajn ]0 un vecteur-colonne.
Types de matrices
Une matrice est dite :
vecteur-ligne (colonne) si n = 1 (p = 1),
vecteur-unite dordre p si elle vaut 1p = [1, . . . , 1]0 ,
scalaire si n = 1 et p = 1,
carree si n = p.
Une matrice carree est dite :

0 si i 6= j
j
j
identite (Ip ) si ai = i =
,
1 si i = j
125
126
Chapitre A. Outils algebriques

diagonale si aji = 0 lorsque i 6= j,
symetrique si aji = aij , (i, j),
triangulaire superieure (inferieure) si aji = 0 lorsque i > j (i < j).
Matrice partitionnee en blocs

Matrices dont les e lements sont eux-memes des matrices. Exemple :

A11 (r s)
A21 (r (p s))
A(n p) =
.
A12 ((n r) s) A22 ((n r) (p s))
1.2
Operations sur les matrices
Somme : [A + B]ji = aji + bji pour A et B de meme ordre (n p).

Multiplication par un scalaire : [A]ji = aji pour R.
Transposition : [A0 ]ji = aij , A0 est dordre (p n).
0 0
(A ) = A ; (A + B) = A + B ; (AB) = B A ;
Produit scalaire e lementaire : a0 b =
Produit :
[AB]ji
Pn
i=1 ai bi
A11 A21
A12 A22
0

=
A11
0
A21
A12
0
A22

.
où a et b sont des vecteurs-colonnes.
a0i bj
=
avec A(np) , B(pq) et AB(nq) , et pour des matrices par blocs :
1
1
1 1

A1 A21
B1 B21
A1 B1 + A21 B12 A11 B21 + A21 B22
=
A12 A22
B12 B22
A12 B11 + A22 B12 A12 B21 + A22 B22
sous reserve de compatibilite des dimensions.
1.3
Proprietes des matrices carrees
La trace et le determinant sont des notions intrinsèques, qui ne dependent pas des bases de
representation choisies, mais uniquement de lapplication lineaire sous-jacente.
Trace
Par definition, si A est une matrice (p p),
trA =
p
X
ajj ,
j=1
et il est facile de montrer :

tr = ,
trA = trA,
tr(A + B) = trA + trB,
trAB = trBA,
trCC0
reste vrai si A est (n p) et si B est (p n)

p
n X
X
0
= trC C =
(cji )2
i=1 j=1
dans ce cas, C est (n p).
2. Espaces euclidiens
127
Determinant
On note |A| le determinant de la matrice carree A (p p). Il verifie :
|A| =
p
Y
ajj , si A est triangulaire ou diagonale,
j=1
p
|A| = |A|,
|AB| = |A||B|,

A B

0 C = |A||C|,

A11 A21
= |A11 ||A22 A12 (A11 )1 A21 |
A1 A2
2
(A.1)
= |A22 ||A11 A21 (A22 )1 A12 |,
(A.2)
sous reserve de la regularite de
A11
et
A22 .
Cette dernière propriete se montre en considerant les matrices :

I A21 (A22 )1
B=
et BAB0 ,
0
I
puis en comparant les determinants |BAB0 | et |A|.
Inverse
Linverse de A, lorsquelle existe, est la matrice unique notee A1 telle que :
AA1 = A1 A = I ;
elle existe si et seulement si |A| =
6 0. Quelques proprietes :
(A1 )0 = (A0 )1 ,
(AB)1 = B1 A1 ,
|A1 | =
Definitions
Une matrice carree A est dite :
symetrique si A0 = A,
singulière si |A| = 0,
regulière si |A| =
6 0,
idempotente si AA = A,
definie-positive si, x IRp , x0 Ax 0, et si x0 Ax = 0 x = 0,
positive, ou semi-definie-positive, si, x IRp , x0 Ax 0,
orthogonale si AA0 = A0 A = I (A0 = A1 ).
Espaces euclidiens
E est un espace vectoriel reel de dimension p isomorphe a` IRp .
1
.
|A|
128
2.1
Sous-espaces
Un sous-ensemble Eq de E est un sous-espace vectoriel (s.e.v.) de E sil est non vide et
stable :
(x, y) Eq2 , IR, (x + y) Eq .
Le q-uple {x1 , . . . , xq } de E constitue un système lineairement independant si et seulement
si :
q
X
i xi = 0 1 = = q = 0.
i=1
Un système lineairement independant Eq = {e1 , . . . , eq } qui engendre dans E un s.e.v.

Eq = vec{e1 , . . . , eq } en constitue une base et dim(Eq ) = card(Eq ) = q.
2.2
Rang dune matrice A(np)
Dans ce sous-paragraphe, A est la matrice dune application lineaire de E = IRp dans F =

IRn .
Im(A) = vect{a1 , . . . , ap } est le s.e.v. de F image de A ;
Ker(A) = {x E ; Ax = 0} est le s.e.v. de E noyau de A ;
E = Im(A) Ker(A) si A est carree associee a` un endomorphisme de E
et p = dim(Im(A)) + dim(Ker(A)).
rang(A)
dim(Im(A)),
0 rang(A) min(n, p),

rang(A)
rang(A0 ),
rang(A + B)
rang(A) + rang(B),
rang(AB)
min(rang(A), rang(B)),
rang(BAC)
rang(A), si B et C sont regulières,
rang(A)
rang(AA0 ) = rang(A0 A).
Enfin, si B (p q) est de rang q(q < p) et A est carree (p p) de rang p, alors la matrice
B0 AB est de rang q.
2.3
Metrique euclidienne
Soit M une matrice carree (p p), symetrique, definie-positive ; M definit sur lespace E :
un produit scalaire : hx, yiM = x0 My,
1/2
une norme : kxkM = hx, xiM ,
une distance : dM (x, y) = kx ykM ,
hx,yiM
des angles : cos M (x, y) = kxk kyk
.
M
M
La matrice M e tant donnee, on dit que :
une matrice A est M-symetrique si (MA)0 = MA,
deux vecteurs x et y sont M-orthogonaux si hx, yiM = 0,
un vecteur x est M-norme si kxkM = 1,
une base Eq = {e1 , . . . , eq } est M-orthonormee si
(i, j), hei , ej iM = ij .
3. Elements propres
2.4
129
Projection
Soit W un sous-espace de E et B = {b1 , . . . , bq } une base de W ; P(p p) est une matrice

de projection M-orthogonale sur W si et seulement si :
y E, Py W et hPy, y PyiM = 0.
Toute matrice idempotente (P2 = P) et M-symetrique (P0 M = MP) est une matrice de projection M-orthogonale et reciproquement.
Proprietes
Les valeurs propres de P sont 0 ou 1 (voir 3) :
u W,
Pu = u, = 1, de multiplicite dim(W ),
vW, (on note v W ) Pv = 0, = 0, de multiplicite dim(W ).
trP = dim(W ).

P = B(B0 MB)1 B0 M, où B = b1 , . . . , bq .
Dans le cas particulier où les bj sont M-orthonormes :
P = BB0 M =
q
X
bj bj M.
i=1
Dans le cas particulier où q = 1 alors :

P=
bb0
1
M=
bb0 M.
b0 Mb
kbkM
Si P1 , . . . , Pq sont des matrices de projection M-orthogonales alors la somme P1 + +Pq

est une matrice de projection M-orthogonale si et seulement si : Pk Pj = kj Pj .
La matrice I P est la matrice de projection M-orthogonale sur W .
Elements propres
Soit A une matrice carree (p p).
3.1
Definitions
Par definition, un vecteur v definit une direction propre associee a` une valeur propre si
lon a :
Av = v.
Si est une valeur propre de A, le noyau Ker(AI) est un s.e.v. de E, appele sous-espace
propre, dont la dimension est majore par lordre de multiplicite de . Comme cas particulier,
Ker(A) est le sous-espace propre associe, si elle existe, a` la valeur propre nulle.
Les valeurs propres dune matrice A sont les racines, avec leur multiplicite, du polynome
caracteristique :
|A I| = 0.
T H E OR E` ME A.1. Soit deux matrices A(n p) et B(p n) ; les valeurs propres non nulles
de AB et BA sont identiques avec le meme degre de multiplicite. Si u est vecteur propre de BA
associe a` la valeur propre differente de zero, alors v = Au est vecteur propre de la matrice
AB associe a` la meme valeur propre.
130
Les applications statistiques envisagees dans ce cours ne sinteressent quà des types particuliers de matrices.
T H E OR E` ME A.2. Une matrice A reelle symetrique admet p valeurs propres reelles. Ses vecteurs propres peuvent e tre choisis pour constituer une base orthonormee de E ; A se decompose
en :
p
X
0
0
A = VV =
k v k v k
k=1
[v1 , . . . , vp ]
où V est une matrice orthogonale

des vecteurs propres orthonormes associes aux
valeurs propres k , rangees par ordre decroissant dans la matrice diagonale .
T H E OR E` ME A.3. Une matrice A reelle M-symetrique admet p valeurs propres reelles. Ses
vecteurs propres peuvent e tre choisis pour constituer une base M-orthonormee de E ; A se
decompose en :
p
X
0
0
A = VV M =
k v k v k M
k=1
où V =
= Ip et VV0 = M1 ) des vecteurs
propres associes aux valeurs propres k , rangees par ordre decroissant dans la matrice diagonale
.
[v1 , . . . , vp ] est une matrice M-orthogonale (V0 MV
Les decompositions ne sont pas uniques : pour une valeur propre simple (de multiplicite 1) le
vecteur propre norme est defini a` un signe près, tandis que pour une valeur propre multiple, une
infinite de bases M-orthonormees peuvent e tre extraites du sous-espace propre unique associe.
Le rang de A est aussi le rang de la matrice associee et donc le nombre (repetees avec leurs
multiplicites) de valeurs propres non nulles.
Par definition, si A est positive, on note la racine carree de A :
A1/2 =
p
X
p
k vk vk M = V1/2 V0 M.
k=1
3.2
Proprietes
Si k 6=Pj ,
trA = pk=1 k ;
si A est regulière,
si A est positive,
si A est definie-positive,
3.3
vk M Q
vj ;
|A| = pk=1 k ;
k, k 6= 0 ;
p 0 ;
p > 0 ;
Decomposition en Valeurs Singulières (DVS)
Il sagit, cette fois, de construire la decomposition dune matrice X(n p) rectangulaire relativement a` deux matrices symetriques et positives D(n n) et M(p p).
T H E OR E` ME A.4. Une matrice X (n p) de rang r peut secrire :
X = U1/2 V0 =
r p
X
k uk vk ;
k=1
(A.3)
4. Optimisation
131
U (nr) contient les vecteurs propres D-orthonormes (U0 DU = Ir ) de la matrice D-symetrique

positive XMX0 D associes aux r valeurs propres non nulles k rangees par ordre decroissant
dans la matrice diagonale (r r) ; V (p r) contient les vecteurs propres M-orthonormes
(V0 MV = Ir ) de la matrice M-symetrique positive X0 DXM associes aux memes valeurs
propres. De plus,
U = XMV1/2 et V = X0 DU1/2 .
4
4.1
Optimisation
Norme dune matrice
Lespace vectoriel E de dimension p (resp. F de dimension n) est muni de sa base canonique

et dune metrique de matrice M (resp. D). Soit X une matrice (n p). Lensemble Mn,p des
matrices (n p) est un espace vectoriel de dimension np ; on le munit du produit scalaire :
hX, YiM,D = trXMY0 D.
(A.4)
h 0
i
0 0
Dans le cas particulier où M = Ip et D = In , et en notant vec(X) = x1 , . . . , xp la
matrice vectorisee, ce produit scalaire devient :
0
hX, YiIp ,In = trXY =
p
n X
X
xji yij = vec(X)0 vec(Y).
i=1 j=1
La norme associee a` ce produit scalaire (A.4) est appelee norme trace :

kXk2M,D = trXMX0 D,
kXk2Ip ,In
= trXX0 = SSQ(X) =
p
n X
X
(xji )2
i=1 j=1
(SSQ signifie sum of squares).

La distance associee a` cette norme devient, dans le cas où D est une matrice diagonale (D =
diag(w1 , . . . , wn )), le critère usuel des moindres carres :
2
d (X, Y) = kX
Yk2M,D
n
X
wi kxi yi k2M .
i=1
4.2
Approximation dune matrice
Les matrices X, M et D sont definies comme ci-dessus ; X est supposee de rang r. On cherche
la matrice Zq , de rang q inferieur a` r, qui soit la plus proche possible de X.
T H E OR E` ME A.5. La solution du problème :
n
o
2
min kX ZkM,D ; Z Mn,p , rang(Z) = q < r
Z
(A.5)
est donnee par la somme des q premiers termes de la decomposition en valeurs singulières (A.3)
de X :
q
X
p
0
0
Zq =
k uk vk = Uq 1/2
q Vq .
k=1
132
Le minimum atteint est :

kX Zq k2M,D =
r
X
k .
k=q+1
Les matrices Uq , q et Vq contiennent les q premiers vecteurs et valeurs propres donnes par
la DVS de X ; Zq est appelee approximation de rang q de X.
cq (resp. Q
cq ) la projection
Ce theorème peut se reformuler dune manière e quivalente. On note P
M-orthogonale sur Eq = Im(Vq ) (resp. D-orthogonale sur Fq = Im(Uq )) :
cq =
P
q
X
vk vk M = Vq Vq0 M
k=1
cq =
Q
q
X
uk uk D = Uq U0q D,
k=1
cq X = XP
cq 0 .
Zq = Q
P ROPOSITION A.6. Avec les notations precedentes :

n

cq = arg max XP0 2
P
q M,D ;
Pq
cq =
Q
Pq projection M-orthogonale de rang q < r} ,

n
arg max kQq Xk2M,D ;
Qq
Qq projection D-orthogonale de rang q < r} .
Chapitre B
Cadre fonctionnel
Cette annexe fournit une introduction sommaire au cadre mathematique necessaire a` letude
de courbes. Un premier objectif est de definir les notations necessaires a` la manipulation de variables ou processus aleatoires a` valeurs dans un espace fonctionnel. Incontournables pour des
e tudes asymptotiques, ces notions peuvent e tre survolees en première lecture. Le deuxième objectif est de definir des critères de regularite dune fonction qui interviendront comme contraintes
dans les optimisations ou termes de penalisation. Ils sexprimeront pratiquement par lexplicitation
matricielle de normes ou semi-normes dans un espace euclidien de dimension finie.
0.3
Variable aleatoire hilbertienne
On considère une variable aleatoire Z a` valeurs dans lespace de Hilbert suppose separable H
muni de la tribu des boreliens. On note kxkH la norme dans cet espace. On suppose que Z est
du second ordre cest-à-dire quelle verifie IE kZk2H < . Sous cette hypothèse, Z admet une
esperance dans H notee IE(Z) et un operateur de covariance compact admettant donc un spectre
discret.
Lexistence des moments de Z et leur definition sont fournies par le theorème de Riesz (H 0
designe le dual topologique de H) :
f H,
(u, v) H 0 H 0 ,
hIE(Z), f iH = IE[hf, ZiH ],

h
i
hu, viH,H0 = IE hZ IE(Z), uiH,H0 hZ IE(Z), viH,H0 .
Loperateur de covariance secrit alors avec la notation de produit tensoriel :

= IE [(Z IE(Z)) (Z IE(Z))] .
Dans le cas particulier où H = L2 (T ), il est facile de verifier que loperateur de covariance secrit
sous la forme dun operateur integral :
Z
2
f L (T ), t T, f (t) =
(s, t)f (s) ds,
(B.1)
T
où (s, t) est la fonction de covariance du processus a` temps continu Z(t) desperance a(t) :
(s, t) = IE [(Z(t) a(t))(Z(s) a(s))] ,
(s, t) T T.
(B.2)
Nous serons e galement amenes a` considerer un processus a` temps discret (Zi )iZ suppose du
second ordre, auto-regressif dordre 1 et prenant ses valeurs dans un espace hilbertien : (Zi )iZ
133
134
Chapitre B. Cadre fonctionnel
est dit ARH(1). Notons loperateur de covariance et celui de covariance croisee du processus.
Le processus e tant suppose stationnaire, ces operateurs ne dependent pas de i et sont definis par :
= IE [(Z0 IE(Z0 )) (Z0 IE(Z0 ))] ,
= IE [(Z0 IE(Z0 )) (Z1 IE(Z1 ))] ,
= IE [(Z1 IE(Z1 )) (Z0 IE(Z0 ))]
où la fonction represente la moyenne du processus IE(Zi ).. Ils verifient :
(Zi ) = (E(Zi+1 |Zi , Zi1 , . . .) ),
=
et possèdent un spectre discret.
0.4
Condition de regularite
Les differentes techniques proposees reposent sur la recherche de solutions regulières ou lisses
au sens dun critère faisant intervenir les normes des derivees successives. Ce critère est couramment utilise pour la definition et la construction des fonctions splines, il se definit comme une
semi-norme dans un espace de Sobolev
W m = {z : z, z 0 , . . . , z (m1) absolument continues , z (m) L2 }.
Pour toute fonction z de W m , sa regularite est controlee par la semi-norme :
Z
2
m 2
kzkm = kD zkL2 (T ) = (z (m) (t))2 dt.
(B.3)
Ce critère peut e tre generalise a` dautres semi-normes e quivalentes (Wahba 1990) en remplacant
loperateur Dm par tout operateur differentiel lineaire faisant au moins intervenir le meme ordre
m de derivation et conduisant ainsi a` la definition de familles plus generales de splines dites de
Tchebicheff.
0.5
Splines de lissage
Lestimation non-parametrique par lissage spline a donne lieu a` une importante litterature :
Wahba (1990), Green et Silverman (1994) en fournissent par exemple des presentations detaillees.
Placons-nous dans le cadre usuel du modèle de regression non parametrique :
xj = z(tj ) + j ; E(j ) = 0, E(j k ) = 2 k, j, k = 1, ..., p
a t1 < t2 < ... < tp b.
(B.4)
où xj est lobservation bruitee en tj de la fonction z supposee regulière et lisse : z W m .

Lestimation spline zb de la fonction z est alors la solution du problème doptimisation sous
contrainte de regularite
1 X
min
(z(tj ) x(tj ))2 ; kzk2m < c (c IR+ ) .
(B.5)
zW 2 p
j=1
En introduisant un multiplicateur de Lagrange, ce problème doptimisation est e quivalent a` :
135
min
p
1 X
zW 2 p
(z(tj ) x(tj ))2 + ` kDm zk2L2
j=1
(B.6)
Le paramètre de lissage `, qui depend directement de c, permet deffectuer un arbitrage entre

la fidelite aux donnees (` 0) et la regularite de la solution (` +). En regression non
parametrique sa valeur est choisie en minimisant le critère de validation croisee generalisee (GCV,
Wabha 1990).
La solution zb de ce problème est une fonction polynomiale par morceaux ; polynomes de degre
`
(2m-1) entre deux nuds tj et tj+1 , de degre (m 1) aux extremites entre a et t1 et entre tp et b. A
la limite (` = 0) la solution est la fonction dinterpolation spline passant par les donnees observees
` lautre limite (` infini), la solution est une regression polynomiale de
et minimisant le critère. A
degre (m 1) rendant nulle la penalisation.
La construction explicite depend alors de la base choisie pour definir le sous-espace Sp des
fonctions splines et differentes solutions sont proposees dans la litterature. La plus simple, sur
le plan theorique, consiste a` utiliser les proprietes dauto-reproduction de lespace de Sobolev et
donc son noyau (Wahba 1990) comme base. Cette approche, adoptee aussi par Besse et Ramsay
(1986), pose des problème numeriques lorsque, en pratique, le nombre de nuds p est grand car
elle conduit a` linversion dune matrice mal conditionnee. Dans la version simplifiee de ce chapitre, nous nous limitons aux fonctions splines cubiques dites naturelles, cest-à-dire polynomiales
de degre 3 par morceaux (m = 2) et dont les derivees secondes et troisièmes sannulent aux
bornes a et b. Lalgorithme de Reisch (Green et Silverman, 1994) conduit alors a` la resolution
numerique dun système dequations tridiagonal par decomposition de Cholesky puis substitution en un nombre doperations qui crot lineairement avec p. Il ne pose alors plus de problèmes
numeriques.
Soit Q la matrice bande (p (p 2)) delements
qj1,j =
1
1
1
1
, qj,j =
, qj+1,j =
,
tj tj1
tj tj1 tj+1 tj
tj+1 tj
sur les diagonales (0 a` lexterieur) et R la matrice bande symetrique (p 2) (p 2) delements

1
1
rj,j = (tj+1 tj1 ), rj+1,j = rj,j+1 = (tj+1 tj).
3
6
Notons M la matrice associee au semi produit scalaire de W 2 (T ) induit sur Sp : si z designe
une fonction de W 2 (T ) et z le vecteur de ses valeurs aux nuds,
Z
z 00 (t)2 dt = kzk22 = z0 Mz = kzk2M .
T
La matrice M est definie par M = QR1 Q.

Formellement, si le vecteur x contient les p observations aux nuds tj , le lissage spline revient
a` calculer le vecteur
b
z = A` x avec A` = (I + `M)1
et où A` est la matrice de lissage (ou hat matrix). Enfin, la fonction zb est obtenue par simple
interpolation spline aux valeurs du vecteur b
z. On remarque que les solutions obtenues ne dependent
pas des positions des bornes a et b de lintervalle T .
136
Chapitre B. Cadre fonctionnel
Une autre matrice de produit scalaire N est necessaire, il sagit de celle associant aux vecteurs
y1 et y2 issus dun meme schema de discretisation le produit scalaire dans lespace L2 (T ) entre
leur interpolant spline yb1 et yb2 :
Z
y10 Ny2 =
y1 (t)
y2 (t) dt.
(B.7)
T
Dune manière generale cette matrice sobtient a` laide des noyaux reproduisants associes aux
fonctions splines (Besse et Ramsay 1986, Ramsay et Dalzell, 1991). Il est e galement possible
de lapprocher en utilisant une methode de quadrature. On peut considerer par exemple N =
diag(w1 , . . . , wp ) où w1 = (t2 t1 )/2, wj = (tj+1 tj1 )/2, j = 2, . . . , p 1 et wp =
(tp tp1 )/2. Le calcul est alors rapide, stable et generalement suffisamment precis.
Table des matières
Strategie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Description statistique e lementaire
Exemple de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Decription dune variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1
Cas quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.2
Cas qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Liaison entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.1
Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . .
13
4.2
Une variable quantitative et une qualitative . . . . . . . . . . . . . . . .
15
4.3
Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . .
17
Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
5.1
Matrices des covariances et des correlations . . . . . . . . . . . . . . . .
19
5.2
Tableaux de nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
5.3
La matrice des coefficients de Tschuprow (ou de Cramer) . . . . . . . . .
20
Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
6
3
Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analyse en Composantes Principales
23
introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
Presentation e lementaire de lACP . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.2
Resultats preliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3
Resultats generaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
137
`
TABLE DES MATIERES
138
7
4
2.4
Resultats sur les variables . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.5
Resultats sur les individus . . . . . . . . . . . . . . . . . . . . . . . . .
27
Representation vectorielle de donnees quantitatives . . . . . . . . . . . . . . . .
29
3.1
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.2
Interpretation statistique de la metrique des poids . . . . . . . . . . . . .
30
3.3
La methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4.1
Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.2
Definition e quivalente . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
Representations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.1
Les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.2
Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.3
Representation simultanee ou biplot . . . . . . . . . . . . . . . . . . .
38
Choix de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
6.1
Part dinertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
6.2
39
6.3
Règle de Kaiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Eboulis
des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . .
6.4
Botes-à-moustaches des variables principales . . . . . . . . . . . . . . .
39
6.5
Stabilite du sous-espace . . . . . . . . . . . . . . . . . . . . . . . . . .
39
Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
39
Analyse Factorielle Discriminante
43
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
1.1
Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
1.2
Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
1.3
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.1
Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2
Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
Realisation de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
3.1
Matrice a` diagonaliser . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.2
Representation des individus . . . . . . . . . . . . . . . . . . . . . . . .
46
3.3
Representation des variables . . . . . . . . . . . . . . . . . . . . . . . .
46
3.4
Interpretations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Variantes de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1
Individus de memes poids . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.2
Metrique de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . .
48
`
TABLE DES MATIERES
5
5
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Analyse Factorielle des Correspondances
53
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.1
Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.2
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.3
Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . .
54
1.4
Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
Double ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.1
Metriques du
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.2
ACP des profilscolonnes . . . . . . . . . . . . . . . . . . . . . . . . .
56
2.3
ACP des profilslignes . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Modèles pour une table de contingence . . . . . . . . . . . . . . . . . . . . . . .
57
3.1
Le modèle loglineaire . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.2
Le modèle dassociation . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.3
Le modèle de correlation . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.4
Estimation Moindres Carres dans le modèle de correlation . . . . . . . .
58
Representations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.1
Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.2
Double ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.3
Representations barycentriques . . . . . . . . . . . . . . . . . . . . . .
60
4.4
Autre representation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.5
Aides a` linterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.1
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.2
Invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.3
Choix de la dimension q . . . . . . . . . . . . . . . . . . . . . . . . . .
63
139
Analyse des Correspondances Multiples
65
Codages de variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . .
65
1.1
Tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . .
65
1.2
Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
1.3
La demarche suivie dans ce chapitre . . . . . . . . . . . . . . . . . . . .
66
AFC du tableau disjonctif complet relatif a` 2 variables . . . . . . . . . . . . . .
66
2.1
Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
2.2
ACP des profilslignes . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
2.3
ACP des profilscolonnes . . . . . . . . . . . . . . . . . . . . . . . . .
67
`
TABLE DES MATIERES
140
3
AFC du tableau de Burt relatif a` 2 variables . . . . . . . . . . . . . . . . . . . .
68
Analyse Factorielle des Correspondances Multiples . . . . . . . . . . . . . . . .
70
4.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
4.2
AFC du tableau disjonctif complet X . . . . . . . . . . . . . . . . . . .
70
4.3
AFC du tableau de Burt B . . . . . . . . . . . . . . . . . . . . . . . . .
71
4.4
Variables illustratives . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
4.5
Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.2
Analyse brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.3
Analyse des interactions . . . . . . . . . . . . . . . . . . . . . . . . . .
73
Positionnement multidimensionnel
77
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Distance, similarites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
2.1
Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Distances entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
3.1
Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
3.2
Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
3.3
Variables quantitative et qualitative . . . . . . . . . . . . . . . . . . . .
79
Recherche dune configuration de points . . . . . . . . . . . . . . . . . . . . . .
80
4.1
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Application au choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . .
82
Classification
85
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
1.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
1.2
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
1.3
Les methodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
Mesures deloignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
2.1
Indice de ressemblance, ou similarite . . . . . . . . . . . . . . . . . . .
87
2.2
Indice de dissemblance, ou dissimilarite . . . . . . . . . . . . . . . . . .
87
2.3
Indice de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
2.4
Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
2.5
Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
2.6
Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
2.7
En resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
`
TABLE DES MATIERES
3
Classification ascendante hierarchique . . . . . . . . . . . . . . . . . . . . . . .
89
3.1
Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
3.2
Dissemblance ou distance entre deux classes . . . . . . . . . . . . . . .
90
3.3
Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
3.4
Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
Agregation autour de centres mobiles . . . . . . . . . . . . . . . . . . . . . . .
92
4.1
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
4.2
Principale methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
4.3
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.4
Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
141
Exploration de donnees fonctionnelles
99
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
ACP de courbes bruitees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.1
Modèle et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.2
Dimension et paramètre de lissage . . . . . . . . . . . . . . . . . . . . . 103
Exemples : ACP de series climatiques . . . . . . . . . . . . . . . . . . . . . . . 104

3.1
ACP des precipitations . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2
ACP de temperatures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10 Analyse Canonique
109
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
La methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.1
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2
Representations vectorielles des donnees . . . . . . . . . . . . . . . . . 110
2.3
Principe de la methode . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.4
Aspects mathematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
2.5
Representations graphiques . . . . . . . . . . . . . . . . . . . . . . . . 111
2.6
Complements : analyse canonique et regression multivariee . . . . . . . 113
Un exemple : la nutrition des souris . . . . . . . . . . . . . . . . . . . . . . . . 116

3.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.2
Traitements preliminaires . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3
Analyse canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A Outils algebriques
1
125
Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
`
TABLE DES MATIERES
142
1.1
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
1.2
Operations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . 126
1.3
Proprietes des matrices carrees . . . . . . . . . . . . . . . . . . . . . . . 126
Espaces euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

2.1
Sous-espaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.2
Rang dune matrice A(np) . . . . . . . . . . . . . . . . . . . . . . . . 128
2.3
Metrique euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.4
Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Elements propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

3.1
Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.2
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3
Decomposition en Valeurs Singulières (DVS) . . . . . . . . . . . . . . . 130
Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.1
Norme dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.2
Approximation dune matrice . . . . . . . . . . . . . . . . . . . . . . . 131
B Cadre fonctionnel
133
0.3
Variable aleatoire hilbertienne . . . . . . . . . . . . . . . . . . . . . . . 133
0.4
Condition de regularite . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
0.5
Splines de lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Data Mining I - Exploration Statistique (Philppe Besse)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining I - Exploration Statistique (Philppe Besse)

Uploaded by

Copyright:

Available Formats

P UBLICATIONS DU L ABORATOIRE

Version septembre 2005 mises a` jour : www.lsp.ups-tlse.fr/Besse

Laboratoire de Statistique et Probabilites UMR CNRS C5583

Strategie du data mining

Elles constituent un ensemble communement appele en France Analyse de Donnees.

Chapitre 2. Description statistique e lementaire

TAB . 2.1 Libelles des variables des donnees bancaires.

3. Decription dune variable

F IG . 2.1 Diagramme-bote illustrant la distribution des a ges des clients.

Decription dune variable

3.1 Cas quantitatif

Un support de cours accessible a` la page www-sv.cict.fr/lsp/Besse.

Chapitre 2. Description statistique e lementaire

4. Liaison entre variables

F IG . 2.3 Histogramme et estimation fonctionnelle par la methode du noyau de la distribution des

Liaison entre variables

Dans cette section, on sinteresse a` letude simultanee de deux variables X et Y . Lobjectif

Deux variables quantitatives

Chapitre 2. Description statistique e lementaire

4. Liaison entre variables

Une variable quantitative et une qualitative

Chapitre 2. Description statistique e lementaire

F IG . 2.6 Diagrammes-boites illustrant les differences de distribution des a ges en fonction de la

4. Liaison entre variables

X et Y netant pas de meme nature, sY /X nest pas symetrique et verifie 0 sY /X 1. Cet

Deux variables qualitatives

Les quantites n`+ (` = 1, . . . ,P

Chapitre 2. Description statistique e lementaire

On definit de facon analogue le h-`eme profil-colonne :

La representation graphique des profils-lignes ou des profils-colonnes, au moyen, par exemple,

5. Vers le cas multidimensionnel

Vers le cas multidimensionnel

Matrices des covariances et des correlations

Lorsquon a observe simultanement plusieurs variables quantitatives (p variables, p 3) sur

Chapitre 2. Description statistique e lementaire

Notons X 1 , . . . , X p les p variables quantitatives considerees ; on appelle tableau de nuages le

La matrice des coefficients de Tschuprow (ou de Cramer)

Chapitre 2. Description statistique e lementaire

Lorsquon e tudie simultanement un nombre important de variables quantitatives (ne serait-ce

Chapitre 3. Analyse en Composantes Principales

Presentation e lementaire de lACP

Tout logiciel fournit la moyenne, lecart-type, le minimum et le maximum de chaque variable.

2. Presentation e lementaire de lACP

Continuons lanalyse par celui de la matrice des variances-covariances, matrice de meme

Chapitre 3. Analyse en Composantes Principales

Resultats sur les variables

2. Presentation e lementaire de lACP

F IG . 3.1 Representation des variables

Resultats sur les individus

Chapitre 3. Analyse en Composantes Principales

F IG . 3.2 Donnees fictives : Representation des individus

3. Representation vectorielle de donnees quantitatives

axe, de sorte que, en dimension 2, Evelyne

exemple, pour Evelyne,

Representation vectorielle de donnees quantitatives

Soit p variables statistiques reelles X j (j = 1, . . . , p) observees sur n individus i (i =

= X j (i), mesure de X j sur le ie`me individu.

Ces mesures sont regroupees dans une matrice X dordre (n p).

Chapitre 3. Analyse en Composantes Principales

Interpretation statistique de la metrique des poids

Les objectifs poursuivis par une ACP sont :

De facon generale, un mod`ele secrit :

le probl`eme (3.2) conduit alors a` prendre b

La fin de la preuve est une consequence immediate du theor`eme (A.5).