Professional Documents
Culture Documents
Resume
LAnalyse en Composantes Principales (ACP) est une methode danalyse de donnees.
Elle cherche a synthetiser linformation contenue dans un tableau croisant des individus
et des variables quantitatives. Produire un resume dinformation au sens de lACP cest
etablir une similarite entre les individus, chercher des groupes dindividus homogenes,
mettre en evidence une typologie dindividus. Quant aux variables cest mettre en evi-
dence des bilans de liaisons entre elles, moyennant des variables synthetiques et mettre
en evidence une typologie de variables. LACP cherche dune facon generale a etablir des
liaisons entre ces deux typologies.
1 Introduction
Pour evaluer la facon dont les etudiants ont percu un enseignement, lenseignant a recours
aux controles continus et aux examens de differentes formes. Il etudie sur le plan statistique
lensemble des notes en calculant par exemple la moyenne des notes de lensemble des eleves,
leur ecart type . . . Mais ces indicateurs restent insuffisants dans certaines situations. En effet,
prenons le cas de deux groupes de 10 eleves chacun et les notes quils ont obtenues dans un
meme examen comme le montre le tableau ci-dessus :
Mots cles : composantes principales, analyse de donnees, similarite, typologie dindividus, typologie de
variables, variables synthetiques
1
A. Kaouani et al., Radisma, numero 2, 2007 2
Nous constatons que les deux ont la meme moyenne 10,1. Par consequent, peut-on en deduire
quils ont le meme niveau ? La moyenne est un indicateur global qui permet simplement un
classement des resultats des eleves.
En se referant a lecart type, nous observons que dans le deuxieme groupe les notes des eleves
sont plus concentrees autour de la moyenne que dans le premier groupe. Peut-on en conclure
que les deux groupes sont constitues delements homogenes ? Sinon, comment les deceler dans
le cas ou lon traite plusieurs variables avec un effectif deleves assez grand ?
Dans une situation dorientation ou de passage deleves, la moyenne ponderee de toutes les notes
dans les differentes disciplines enseignees est une variable qui resume ou synthetise lensemble
dans le sens que : si un eleve a obtenu 18 de moyenne, il a certainement de tres bonnes notes
dans toutes les matieres. Au contraire, un autre qui a obtenu 2 de moyenne na certainement
bien reussi aucune discipline. Donc, la pertinence dune meme variable synthetique varie selon
les situations etudiees. Pour illustrer ce propos, considerons le tableau suivant :
Donc, devant une serie de donnees, quelles variables complementaires peut-on choisir pour
synthetiser au mieux linformation portee par lensemble des variables ?
Par consequent, est- il possible de trouver une representation plane de lensemble des vari-
ables dans un espace reduit permettant une visualisation des liens numeriques et de deceler des
facteurs latents ?
Le but de cet article est de presenter dans sa premiere partie une description mathematique
de la methode exploratoire Analyse en Composantes Principales (ACP).
La seconde partie sera consacree a lapplication de lACP a un cas reel (un tableau des notes
des etudiants) ou on tachera de voir ce que lACP outil exploratoire (cf. [3]) peut apporter
comme elements de reponse a des questions de type (cf. [2]).
Quant a la troisieme partie de cet article, elle resume lobjet de lACP comme elle pose des
questions.
A. Kaouani et al., Radisma, numero 2, 2007 4
Lensemble des donnees peut etre schematise par une matrice X a n lignes et p colonnes.
Si X est le tableau (nxp) des notes, les colonnes representeront les variables xi (les disciplines),
les lignes representeront les individus ej ( etudiants ), alors que xij est la note obtenue par
letudiant i dans la discipline j.
Dans une optique purement descriptive on identifiera une variable a la colonne de X correspon-
dante : une variable nest rien dautre que la liste des n valeurs quelle prend sur les n individus
:
X1j
X2j
X j = ..
.
Xnj
A. Kaouani et al., Radisma, numero 2, 2007 5
Lespace F est muni dune structure euclidienne afin de pouvoir definir des distances entre
individus ei et ej . On utilisera la formulation generale suivante : la distance entre deux individus
ei et ej est definie par la forme quadratique :
Ce qui revient a diviser chaque caractere par son ecart-type : entre autres avantages, la
distance entre deux individus ne depend plus des unites de mesure puisque les nombres xij /sj
A. Kaouani et al., Radisma, numero 2, 2007 6
sont sans dimension, ce qui est tres utile lorsque les variables ne sexpriment pas avec les memes
unites.
Surtout, cette metrique donne a chaque caractere la meme importance quelle que soit sa disper-
sion ; lutilisation de metrique M = I conduirait a privilegier les variables les plus dispersees,
pour lesquelles les differences entre individus sont plus fortes, et a negliger les differences entre
les autres variables.
Remarque : Souvent, les donnees brutes xij sont remplacees par les donnees de la forme
(xij xj )/sj (dite centree reduite) ou xj est la moyenne de la variable xj et sj est lecart type
de la variable xj . Le centrage permet de comparer les dispersions par rapport a un point de
reference unique (la moyenne, qui vaut zero pour la variable apres centrage). En reduisant les
variables, on les exprime toutes en unites decart - type, et on leur donne une variance egale a 1.
hX i , X k i Sjk
cos jk = j k
= .
kx kkx k Sj S k
Dans le cas de variables centrees reduites on a alors :
Ce produit scalaire est la covariance sjk car :
* + n
Xi Xi Xk Xk 1 X Xij X i Xkj X k
, =
si sk n j=1 si sk
Et
X X
2
! n
Xi Xi Xi X Xi X
i
1 X Xij X i Xij X i
Var = = , =
si
.
si n j=1 si si si si D
De plus,
A. Kaouani et al., Radisma, numero 2, 2007 7
X X
2
i
n
!
1 1X
si
= s2
Xij X Xij X = 1.
D i n j=1
Donc le nuage des variables est situe sur une sphere de rayon 1.
De plus le cosinus de langle de ces deux variables nest autre que leur coefficient de correlation
lineaire :
j k n X X i X X k
j
hX X ; X X i k 1 X ij ik
jk = = .
kxj X j kkxk X k k n j=1 Sj Sk
Linterpretation dun coefficient de correlation comme un cosinus est une propriete tres im-
portante puisquelle donne un support geometrique, donc visuel, au coefficient de correlation.
2.3 Linertie
On appelle Inertie totale du nuage de points la moyenne des carres des distances des points
au centre de gravite :
X1
Ig = kei gk.
n
Remarque :
Ig est la moyenne des ecarts absolus entre les individus ei et leur barycentre g.
Si M = D 12 , on montre que Ig = Trace(R) = p, ou R est la matrice de variance covariance des
s
donnees centrees reduites (cf. [4], pp. 163-164).
En dautres termes, linertie est donc egale au nombre de variables et ne depend pas de leurs
valeurs.
Le plan (ou le sous-espace) est choisi de facon a ce que la projection orthogonale deforme
le moins possible le nuage. En terme de distance entre individus le sous-espace cherche est tel
que :
Ig = i n1 kei fi k2
P
soit minimal. Ou fi est un vecteur dans lespace de projection cherche et ei vecteur (individu)
dans lespace initial.
Cette ecriture nest autre que la forme classique du critere des moindres carres ; par consequent
le sous-espace passera par le point fictif g barycentre du nuage N des individus.
Or dapres le theoreme de Pythagore, on a :
Donc,
1X 1X 1X
kei gk2 = kei fi k2 + kei gk2 .
n i n i n i
Par consequent lexpression I ci-dessus, revient a maximiser : n1 i kei gk2 , puisque Ig est
P
constant.
ci = XUi .
ci est le vecteur renfermant les coordonnees des projections des individus sur laxe defini par ai
avec ai unitaire.
La variance dune composante principale est egale a la valeur propre :
V (ci ) = i
Les composantes principales sont elles-memes vecteurs propres dune matrice de taille n. En
effet :
M V u = u secrit M X 0 DXu = u. En multipliant a gauche par X et en remplacant Xu par
c on obtient alors, XM X 0 Dc = c. La matrice XM X 0 notee W est la matrice dont le terme
general wij est le produit scalaire hei , ej i = e0jj M ej .
Dou pour resumer : dans la pratique on calcule les u par diagonalisation de M V, puis on
obtient les c = Xu, les axes principaux a nayant pas dinteret pratique.
Nous partons dun fichier constitue des notes des etudiants des filieres SM et SMI obtenues au
cours du 1er semestre S1 2003/2004. Le choix du module Analyse en Composantes Principales
du logiciel SPAD, nous a permis de visualiser les resultats suivants :
une statistique sommaire des variables etudiees (moyenne, ecart type, minimum);
Par consequent, le travail du chercheur residera dans linterpretation des differents resultats.
Chose quon a essaye de presenter dans cette troisieme partie.
Les statistiques elementaires sur les variables sont donnees dans le tableau 2 :
Le parametre ecart- type montre que les notes obtenues en mecanique (MECA) et en anal-
yse 1 (ANALY1) sont plus dispersees autour de la moyenne.
A. Kaouani et al., Radisma, numero 2, 2007 11
Dans notre exemple, toutes les variables sont correlees positivement. Donc, les notes varient
dans le meme sens.
La correlation est forte entre le Calcul Vectoriel et les disciples : la thermodynamique, lalgebre
linaire 1 et la mecanique ; cest-a-dire que les etudiants qui ont obtenu une bonne note en cal-
cul vectoriel en S1 peuvent egalement avoir de bonnes notes en thermodynamique, en algebre
lineaire1 et en mecanique. Ce constat peut etre justifie par le fait que : les differents chapitres
integres dans le module calcul vectoriel on les retrouve soit dune facon explicite comme cest
le cas de lalgebre linaire 1 ou comme outils de resolution dexercices comme cest la cas de
la mecanique et de la thermodynamique. Donc letudiant revoit ces concepts sous plusieurs
aspects pendant un meme semestre.
La faible correlation entre LC1 et ALG1 ; LC1 et ANAL ; LC1 et CAL.Vect ; LC1 et MECA ;
et entre LC1 et THER montre la grande rupture qui existe entre la langue denseignement des
matieres scientifiques pendant le cursus scolaire anterieur de letudiant qui est larabe et celle
utilisee a luniversite (le francais). Rupture qui persiste meme si nos eleves recoivent un cours
de traduction pendant la periode du lycee ?
A chaque variable, on associe un point dont la coordonnee sur un axe factoriel est une
mesure de la correlation entre cette variable et le facteur (Axe 1 ou Axe 2) exemple la
coordonnee sur laxe 1 de la variable LC1 est 0,55 et celle sur laxe 2 est 0,68. Mais, nous
savons que les variables appartiennent a la sphere de rayon 1.
Donc par projection sur un plan factoriel les variables sinscrivent dans un cercle de rayon 1 - le
A. Kaouani et al., Radisma, numero 2, 2007 13
cercle des correlations-. Elles sont dautant plus proches du bord du cercle que la variable
est bien representee par le plan factoriel, cest-a-dire que la variable est bien correlee avec les
deux facteurs constituant ce plan.
Langle entre deux variables xj et xk , mesure par son cosinus est egal au coefficient de correla-
tion lineaire entre les 2 variables: cos ik . Donc : Linterpretation des composantes principales
seffectue en regardant les correlations avec les variables de depart. Ainsi on a :
toutes les variables sont assez eloignees de O ; les variables, et donc les angles quelles for-
ment, nont pas ete trop deformees dans la projection. Plus precisement les pourcentages
dinertie sont 55,30% (axe1 horizontal) et 14,21% (axe2 vertical) pour le plan 1 ;
toutes les variables occupent une zone assez restreinte a linterieur du cercle des correla-
tions. Langle maximum entre deux variables est inferieur a 90 . Ceci suggere que toutes
les variables sont correlees positivement entre elles (cf. tableau 2) ;
les matieres fondamentales de cette filiere sont assez correlees entre elles. Cette affirmation
se verifie en se rapportant de la matrice de correlation ;
les notes des 5 matieres (calcul vectoriel, thermodynamique, mecanique, algebre et anal-
yse) sont plus liees entre elles quavec les autres matieres. Ceci suggere lexistence de
qualites communes (ou gouts communs) pour reussir dans ces matieres ;
A. Kaouani et al., Radisma, numero 2, 2007 14
on peut faire des remarques identiques pour la communication et linformatique et les TP.
Lecart entre ces deux matieres et les precedentes suggere lexistence de qualites differentes
(ou gouts differents) pour reussir ces deux groupes de matieres.
En conclusion :
Le cercle des correlations permet de voir, parmi les anciennes variables, les groupes de variables
tres correlees entre elles. Donc son etude est plus simple et plus informative que lanalyse
directe de la matrice de correlation.
Des notes inferieures a la moyenne dans les matieres specifiques telles que : algebre, anal-
yse, calcul vectoriel, mecanique et thermodynamique, augmenteront la valeur du F act2 ; par
contre des notes superieures a la moyenne dans ces matieres affaibliront la valeur du F act2 .
Reciproquement, une valeur negative de Fact2 correspond aux etudiants ayant en general des
notes superieures a la moyenne dans les matieres specifiques de la filiere. En consequence, ces
deux variables synthetiques permettront de postuler quon est devant quatre grands groupes
detudiants.
Representation des individus
Representation des individus sur le plan factoriel defini par les deux premieres composantes principales. 6 etudiants sont identifies : 6, 22, 35, 88, 92,
54. Letudiant 97 est fictif cest le point moyenne.
Son but est de fournir des images planes approchees du nuage des individus situes dans
lespace Rp . Lensemble des projections de tous les points du nuage dindividus N sur son pre-
mier axe factoriel U1 appele premier facteur, sur les individus, constitue une nouvelle variable
(cf. [2], p.17). On montre que cette variable se confond, a la norme pres, a la premiere com-
posante principale obtenue dans la projection du nuage des variables. Donc, linterpretation
des axes de ce graphique est par definition celle des composantes principales.
Ainsi, laxe des abscisses represente le niveau general des etudiants alors que celui des ordon-
nees represente leur profil. En effet, un etudiant appartenant au groupe 1 possede en general des
notes meilleures dans les matieres specifiques des deux filieres avec des capacites determinees
en communication et en informatique ; cest le cas par exemple letudiant 22.
A. Kaouani et al., Radisma, numero 2, 2007 16
Donc, le premier axe (axe horizontale) oppose les etudiants qui ont globalement de bonnes
notes a ceux qui ont generalement de mauvaises notes. Quant au deuxieme il oppose les etudi-
ants ayant globalement des tres bonnes notes en LC et TP et Inf. a ceux qui ont qui ont obtenu
de faibles notes dans ces disciplines.
En conclusion, nous remarquons que lACP a lavantage dune part de resumer lensemble des
variables initiales correlees en un nombre reduit de facteurs non correles. Dautre part, elle
nous a permis de mettre en evidence des similarites ou oppositions entre variables et individus.
4 Conclusion
La question principale de notre travail est: comment a partir dune serie de notes (descripteurs)
obtenues par un ensemble detudiants peut-on avoir :
une aide a lenseignant dans lelaboration dune typologie de ses etudiants selon ces nou-
velles variables ?
LACP est une methode exploratoire qui utilise des concepts de lalgebre lineaire et de la
geometrie et permet de resoudre en partie cette problematique. En effet, en supposant que les
etudiants peuvent etre representes par un nuage de points dans un espace de dimension finie
p(p 3), lACP cherche un sous-espace tel que la projection du nuage initial sur ce sous-espace
deforme le moins possible linformation portee par les variables initiales.
Loutil informatique met a la disposition du chercheur une gamme de logiciels permettant de
traduire en termes de procedures toute la demarche theorique de lACP :
representation plane (ou sur un sous-espace de faible dimension) optimale des individus.
A. Kaouani et al., Radisma, numero 2, 2007 17
5 Limites et perspectives
Comme pour toute autre methode exploratoire nous pouvons citer deux limites principales de
lACP :
la premiere est la visualisation globale des donnees. Dans certains cas, cette visualisation
est suffisante ; dans dautres, par contre, elle permet seulement de situer, dans lensemble
des donnees, une recherche plus poussee, qui peut etre soit definie a priori, soit etablie
a la lumiere des resultats de lACP. Par exemple, dans notre cas si on envisage une
pedagogie differenciee en faveur des etudiants ayant obtenu de faibles resultats, la clas-
sification hierarchique est necessaire pour affiner la formation de groupes homogenes et
pour connatre les variables qui interviennent le plus dans la formation dune repartition;
la deuxieme limite est technique. La mise en oeuvre de lACP demande le calcul prealable
de la matrice carree de covariance des donnees, qui est de taille p2 pour des vecteurs de
dimension p.
Cette matrice est deja couteuse a calculer, et sa taille et son traitement deviennent prohibitifs
en haute dimension. Ainsi des donnees de dimension 1000 donneront lieu a une matrice de un
million delements. Dautres methodes peuvent etre elaborees pour remedier a ce probleme (cf.
[1], p. 5).
La faible correlation des notes entre les disciplines langue et communication et les disciplines
specifiques des deux filieres nous pousse a nous poser un ensemble de questions que lon peut
resumer ainsi :
jusqua quel point nos etudiants ont tire profit du cours de traduction instaure au lycee
dans les options scientifiques ?
les methodes denseignement des matieres langue et communication favorisent -elles une
aide aux etudiants pour surmonter les obstacles dus au changement brutal de la langue
denseignement des matieres scientifiques (de larabe au francais) ?
Bibliographie
[1] M. Delichere et D. Memmi : Analyse Factorielle Neuronale pour Documents Textuels. Les
cahiers du laboratoire Leibniz N 49, GRENOBLE, Avril 2002.
[4] G. Saporta : Probabilites Analyse des donnees et statistiques Edition Technip, 1990.