Radisma 2 Kaouani

Analyse en composantes principales
Une methode factorielle pour traiter les

donnees didactiques
Ali Kouani, S. El Jamali et M.Talbi
Resume
LAnalyse en Composantes Principales (ACP) est une methode danalyse de donnees.
Elle cherche a synthetiser linformation contenue dans un tableau croisant des individus
et des variables quantitatives. Produire un resume dinformation au sens de lACP cest
etablir une similarite entre les individus, chercher des groupes dindividus homogenes,
mettre en evidence une typologie dindividus. Quant aux variables cest mettre en evi-
dence des bilans de liaisons entre elles, moyennant des variables synthetiques et mettre
en evidence une typologie de variables. LACP cherche dune facon generale a etablir des
liaisons entre ces deux typologies.
1 Introduction
Pour evaluer la facon dont les etudiants ont percu un enseignement, lenseignant a recours
aux controles continus et aux examens de differentes formes. Il etudie sur le plan statistique
lensemble des notes en calculant par exemple la moyenne des notes de lensemble des eleves,
leur ecart type . . . Mais ces indicateurs restent insuffisants dans certaines situations. En effet,
prenons le cas de deux groupes de 10 eleves chacun et les notes quils ont obtenues dans un
meme examen comme le montre le tableau ci-dessus :
Mots cles : composantes principales, analyse de donnees, similarite, typologie dindividus, typologie de
variables, variables synthetiques
1
A. Kaouani et al., Radisma, numero 2, 2007 2
Nous constatons que les deux ont la meme moyenne 10,1. Par consequent, peut-on en deduire
quils ont le meme niveau ? La moyenne est un indicateur global qui permet simplement un
classement des resultats des eleves.
En se referant a lecart type, nous observons que dans le deuxieme groupe les notes des eleves
sont plus concentrees autour de la moyenne que dans le premier groupe. Peut-on en conclure
que les deux groupes sont constitues delements homogenes ? Sinon, comment les deceler dans
le cas ou lon traite plusieurs variables avec un effectif deleves assez grand ?
Dans une situation dorientation ou de passage deleves, la moyenne ponderee de toutes les notes
dans les differentes disciplines enseignees est une variable qui resume ou synthetise lensemble
dans le sens que : si un eleve a obtenu 18 de moyenne, il a certainement de tres bonnes notes
dans toutes les matieres. Au contraire, un autre qui a obtenu 2 de moyenne na certainement
bien reussi aucune discipline. Donc, la pertinence dune meme variable synthetique varie selon
les situations etudiees. Pour illustrer ce propos, considerons le tableau suivant :
Dans ce tableau : 6 individus sont decrits par deux notes (Ni , Nj ).

Cas 1 : la moyenne 1 synthetise bien les notes N1 et N2 ; ce nest pas le cas de leur difference
Ecart 1 (= N2 N1 ).
Cas 2 : la moyenne 2 ne synthetise pas N 3 et N 4 ; ce nest pas le cas de leur difference Ecart 2
(= N4 N3 ).
Donc, devant une serie de donnees, quelles variables complementaires peut-on choisir pour
synthetiser au mieux linformation portee par lensemble des variables ?
Dans la pratique enseignante, lenseignant cherche toujours a visualiser graphiquement les

resultats de ses eleves pour les interpreter. Mais, pour analyser les liaisons entre une serie
de variables, il va se trouver devant un nombre assez grand de graphiques ; nombre qui rend
presque impossible linterpretation. En effet avec 10 variables, il aura 45 graphiques de liaisons
et 15 ( ?) le nombre devient alors 105 !
Par consequent, est- il possible de trouver une representation plane de lensemble des vari-
ables dans un espace reduit permettant une visualisation des liens numeriques et de deceler des
facteurs latents ?
Le but de cet article est de presenter dans sa premiere partie une description mathematique
de la methode exploratoire Analyse en Composantes Principales (ACP).
La seconde partie sera consacree a lapplication de lACP a un cas reel (un tableau des notes
des etudiants) ou on tachera de voir ce que lACP outil exploratoire (cf. [3]) peut apporter
comme elements de reponse a des questions de type (cf. [2]).
Ressemblances entre individus :

Quels sont les individus qui se ressemblent ? Quels sont ceux qui sont differents ?
Existe -t-il des groupes homogenes dindividus ? Si oui, peut-on mettre alors en evidence une
typologie des individus ?
Liaisons entre variables :

Quelles sont les variables qui sont liees positivement entre elles ?
Quelles sont celles qui sopposent (liees negativement) ?
Existe-t-il des groupes de variables correlees entre elles ?
Si oui, peut-on alors mettre en evidence une typologie des variables ?
Quelles sont les variables qui caracterisent un meme groupe dindividus ?
Est- il possible de trouver une representation plane de lensemble des variables dans un espace
reduit permettant une visualisation des liens numeriques dune part et de deceler des facteurs
latents dautre part?
Quant a la troisieme partie de cet article, elle resume lobjet de lACP comme elle pose des
questions.
2 Presentation et description de la methode factorielle :

Analyse en composantes principales (ACP)
On dispose dun tableau des notes des etudiants de deux filieres Sciences Mathematiques (SM)
et Sciences Mathematiques et Informatique (SMI) obtenues dans le premier semestre S1 de
lannee universitaire 2003 /2004 dans les disciplines suivantes :
Lensemble des donnees peut etre schematise par une matrice X a n lignes et p colonnes.
Si X est le tableau (nxp) des notes, les colonnes representeront les variables xi (les disciplines),
les lignes representeront les individus ej ( etudiants ), alors que xij est la note obtenue par
letudiant i dans la discipline j.
Dans une optique purement descriptive on identifiera une variable a la colonne de X correspon-
dante : une variable nest rien dautre que la liste des n valeurs quelle prend sur les n individus
:

X1j
X2j
X j = ..

.
Xnj
On identifiera de meme lindividu i au vecteur ei a p composante dont le transpose est :
e0i = (xi1 , xi2 , . . . , xi1 )
2.1 Espace des individus

Chaque individu ei sera considere comme un element dun espace vectoriel F (espace des indi-
vidus). Lensemble des n individus est un nuage de points de F dont le barycentre est le point
g defini par :
g = (x1 , x2 , . . . , xp ),
ou xp est la moyenne aritmetique de xp .
Le point g est appele parfois : point moyenne du nuage ou centre de gravite.
Lespace F est muni dune structure euclidienne afin de pouvoir definir des distances entre
individus ei et ej . On utilisera la formulation generale suivante : la distance entre deux individus
ei et ej est definie par la forme quadratique :
d2 (ei ; ej ) = (ei ; ej )0 M (ei ; ej ),

ou M est une matrice symetrique de taille p definie positive et (ei ; ej )0 est le transpose du
vecteur (ei ; ej ).
Lespace des individus est donc muni du produit scalaire : hei, eji = e0i M ej .
Le choix de M depend de lutilisateur. En pratique les metriques usuelles en ACP sont en
nombre reduit : a part la metrique M = I (Matrice identite de rang p ) ce qui revient a utiliser
le produit scalaire usuel, la metrique la plus utilisee ( et qui est souvent loption par defaut des
logiciels dACP ) est la metrique diagonale des inverses des variances :
Ce qui revient a diviser chaque caractere par son ecart-type : entre autres avantages, la
distance entre deux individus ne depend plus des unites de mesure puisque les nombres xij /sj
sont sans dimension, ce qui est tres utile lorsque les variables ne sexpriment pas avec les memes
unites.
Surtout, cette metrique donne a chaque caractere la meme importance quelle que soit sa disper-
sion ; lutilisation de metrique M = I conduirait a privilegier les variables les plus dispersees,
pour lesquelles les differences entre individus sont plus fortes, et a negliger les differences entre
les autres variables.
Remarque : Souvent, les donnees brutes xij sont remplacees par les donnees de la forme
(xij xj )/sj (dite centree reduite) ou xj est la moyenne de la variable xj et sj est lecart type
de la variable xj . Le centrage permet de comparer les dispersions par rapport a un point de
reference unique (la moyenne, qui vaut zero pour la variable apres centrage). En reduisant les
variables, on les exprime toutes en unites decart - type, et on leur donne une variance egale a 1.
2.2 Espace des variables

Chaque variable X i est une liste de n valeurs numeriques, qui peut etre consideree comme un
vecteur X i dun espace E a n dimensions appele espace des variables. Pour etudier la proximite
des variables entre elles, on munit E dune metrique.
Generalement, on definit le produit scalaire entre deux variables par :
0 1
hX i , X k i = X i DX k avec D = I.
n
Langle jk entre deux variables est donne par :
hX i , X k i Sjk
cos jk = j k
= .
kx kkx k Sj S k
Dans le cas de variables centrees reduites on a alors :
Ce produit scalaire est la covariance sjk car :
* + n
Xi Xi Xk Xk 1 X Xij X i Xkj X k
, =
si sk n j=1 si sk
Et
X X 2
! n
Xi Xi Xi X Xi X
i
1 X Xij X i Xij X i
Var = = , =
si .

si n j=1 si si si si D
De plus,
X X 2
i n
!
1 1X
si = s2
Xij X Xij X = 1.
D i n j=1
Donc le nuage des variables est situe sur une sphere de rayon 1.
De plus le cosinus de langle de ces deux variables nest autre que leur coefficient de correlation
lineaire :
j k n X X i X X k
j
hX X ; X X i k 1 X ij ik
jk = = .
kxj X j kkxk X k k n j=1 Sj Sk
Linterpretation dun coefficient de correlation comme un cosinus est une propriete tres im-
portante puisquelle donne un support geometrique, donc visuel, au coefficient de correlation.
2.3 Linertie
On appelle Inertie totale du nuage de points la moyenne des carres des distances des points
au centre de gravite :
X1
Ig = kei gk.
n
Remarque :
Ig est la moyenne des ecarts absolus entre les individus ei et leur barycentre g.
Si M = D 12 , on montre que Ig = Trace(R) = p, ou R est la matrice de variance covariance des
s
donnees centrees reduites (cf. [4], pp. 163-164).
En dautres termes, linertie est donc egale au nombre de variables et ne depend pas de leurs
valeurs.
3 Analyse en Composantes Principales (ACP)

3.1 Projection des individus sur un sous-espace
Principe :
On ne peut pas visualiser directement le nuage N des individus du fait de la dimension im-
portante de lespace F (dimF = p). Le principe de lACP (et plus generalement de lanalyse
factorielle) consiste a projeter orthogonalement le nuage N sur un plan (plus generalement sur
un sous-espace de lespace F ).
Le plan (ou le sous-espace) est choisi de facon a ce que la projection orthogonale deforme
le moins possible le nuage. En terme de distance entre individus le sous-espace cherche est tel
que :
Ig = i n1 kei fi k2
P
soit minimal. Ou fi est un vecteur dans lespace de projection cherche et ei vecteur (individu)
dans lespace initial.
Cette ecriture nest autre que la forme classique du critere des moindres carres ; par consequent
le sous-espace passera par le point fictif g barycentre du nuage N des individus.
Or dapres le theoreme de Pythagore, on a :
kei gk2 = kei fi k2 + kei gk2
Donc,
1X 1X 1X
kei gk2 = kei fi k2 + kei gk2 .
n i n i n i
Par consequent lexpression I ci-dessus, revient a maximiser : n1 i kei gk2 , puisque Ig est
P
constant.
3.2 Theoreme fondamental

Le sous-espace Fk de dimension k rendant I maximal est engendre par les k valeurs pro-
pres de V M associes aux k plus grandes valeurs propres.
Dans notre cas on prend M = D 12 et V la matrice de variance covariance entre variables.

s
Fk est un sous-espace rendant I maximale, alors le sous-espace de dimension k +1 rendant

I maximale est la somme directe de Fk et du sous-espace de dimension 1 M -orthogonal
a Fk : la suite des sous-espaces Fk est une suite embotee.
Les vecteurs propres de V M , M -normes a 1 sont appeles axes principaux dinertie.

La matrice V M etant M - symetrique possede des vecteurs propres M - orthogonaux deux a
deux et le rang de V M est egal a p donc le nombre daxes principaux est p.

Les vecteurs propres M 1 - normes de M V sont appeles facteurs principaux. Ils sont M 1 et
V - orthogonaux.
3.3 Composantes principales

Ce sont les variables ci definies par les facteurs principaux :
ci = XUi .
ci est le vecteur renfermant les coordonnees des projections des individus sur laxe defini par ai
avec ai unitaire.
La variance dune composante principale est egale a la valeur propre :
V (ci ) = i
En effet V (c) = c0 Dc = u0 X 0 DXu = u0 V u or : V u = M 1 u donc V (c) = u0 M 1 u =
Les composantes principales sont elles-memes vecteurs propres dune matrice de taille n. En
effet :
M V u = u secrit M X 0 DXu = u. En multipliant a gauche par X et en remplacant Xu par
c on obtient alors, XM X 0 Dc = c. La matrice XM X 0 notee W est la matrice dont le terme
general wij est le produit scalaire hei , ej i = e0jj M ej .
Dou pour resumer : dans la pratique on calcule les u par diagonalisation de M V, puis on
obtient les c = Xu, les axes principaux a nayant pas dinteret pratique.
3.4 Qualite des representations sur les plans principaux

Le but de lACP etant dobtenir une representation des individus dans un espace de dimension
plus faible que p (dim F ), la question qui se pose alors est : comment apprecie-t-on la perte
dinformation subie et de savoir combien de facteurs faut-il retenir ?
Le critere habituellement utilise est celui du pourcentage dinertie totale explique (cf. [4], pp
176-179). On mesure la qualite de Fk par :

1 + 2 + . . . + k 1 + 2 + . . . + k
100 = 100.
Ig 1 + 2 + . . . + p
Ce pourcentageest appele
parfois : le pourcentage explique par le sous-espace Fk .
1 +2
Si par exemple Ig
100 = 90%, on concoit clairement que le nuage de points est presque
aplati sur un sous-espace a deux dimensions et quune representation du nuage dans le plan des
deux premiers axes principaux sera satisfaisante.
3.5 Application de lACP a la matrice des notes

Les donnees sont traitees par le logiciel SPAD (Systeme Pour lAnalyse des Donnees) produit
DECISA. Le choix de ce logiciel est justifie par son mode dutilisation simplifie, son interface
enrichie par les logiciels Excel pour lentree des donnees et ledition des resultats, SPSS et SAS
pour les donnees et son guide dutilisation et dinterpretations des differents modules de traite-
ment des donnees tels que lACP, la classification hierarchique
Nous partons dun fichier constitue des notes des etudiants des filieres SM et SMI obtenues au
cours du 1er semestre S1 2003/2004. Le choix du module Analyse en Composantes Principales
du logiciel SPAD, nous a permis de visualiser les resultats suivants :
une statistique sommaire des variables etudiees (moyenne, ecart type, minimum);
la matrice des correlations des variables.
le tableau des valeurs propres de la matrice de correlation ainsi que le pourcentage

dexplication de chaque valeur propre.
un plan de projection des variables.
un plan de projection des individus.
Par consequent, le travail du chercheur residera dans linterpretation des differents resultats.
Chose quon a essaye de presenter dans cette troisieme partie.
Les statistiques elementaires sur les variables sont donnees dans le tableau 2 :
Le parametre ecart- type montre que les notes obtenues en mecanique (MECA) et en anal-
yse 1 (ANALY1) sont plus dispersees autour de la moyenne.
La matrice de correlation entre variables est indiquee dans le tableau 3 :
Dans notre exemple, toutes les variables sont correlees positivement. Donc, les notes varient
dans le meme sens.
La correlation est forte entre le Calcul Vectoriel et les disciples : la thermodynamique, lalgebre
linaire 1 et la mecanique ; cest-a-dire que les etudiants qui ont obtenu une bonne note en cal-
cul vectoriel en S1 peuvent egalement avoir de bonnes notes en thermodynamique, en algebre
lineaire1 et en mecanique. Ce constat peut etre justifie par le fait que : les differents chapitres
integres dans le module calcul vectoriel on les retrouve soit dune facon explicite comme cest
le cas de lalgebre linaire 1 ou comme outils de resolution dexercices comme cest la cas de
la mecanique et de la thermodynamique. Donc letudiant revoit ces concepts sous plusieurs
aspects pendant un meme semestre.
La faible correlation entre LC1 et ALG1 ; LC1 et ANAL ; LC1 et CAL.Vect ; LC1 et MECA ;
et entre LC1 et THER montre la grande rupture qui existe entre la langue denseignement des
matieres scientifiques pendant le cursus scolaire anterieur de letudiant qui est larabe et celle
utilisee a luniversite (le francais). Rupture qui persiste meme si nos eleves recoivent un cours
de traduction pendant la periode du lycee ?
La diagonalisation de la matrice de correlation donne les resultats presentes dans le tableau 4.

La deuxieme colonne indique les valeurs propres de la matrice de correlation.

La troisieme colonne nous renseigne sur le pourcentage explique par chaque valeur propre.
3.6 Representation des variables

On obtient alors la representation suivante des variables dans le plan (facteur 1, facteur 2)
expliquant 69% de linertie initiale.
3.6.1 Le cercle des correlations
A chaque variable, on associe un point dont la coordonnee sur un axe factoriel est une
mesure de la correlation entre cette variable et le facteur (Axe 1 ou Axe 2) exemple la
coordonnee sur laxe 1 de la variable LC1 est 0,55 et celle sur laxe 2 est 0,68. Mais, nous
savons que les variables appartiennent a la sphere de rayon 1.
Donc par projection sur un plan factoriel les variables sinscrivent dans un cercle de rayon 1 - le
cercle des correlations-. Elles sont dautant plus proches du bord du cercle que la variable
est bien representee par le plan factoriel, cest-a-dire que la variable est bien correlee avec les
deux facteurs constituant ce plan.
3.6.2 Representation des variables sur le premier plan factoriel
Langle entre deux variables xj et xk , mesure par son cosinus est egal au coefficient de correla-
tion lineaire entre les 2 variables: cos ik . Donc : Linterpretation des composantes principales
seffectue en regardant les correlations avec les variables de depart. Ainsi on a :
toutes les variables sont assez eloignees de O ; les variables, et donc les angles quelles for-
ment, nont pas ete trop deformees dans la projection. Plus precisement les pourcentages
dinertie sont 55,30% (axe1 horizontal) et 14,21% (axe2 vertical) pour le plan 1 ;
toutes les variables occupent une zone assez restreinte a linterieur du cercle des correla-
tions. Langle maximum entre deux variables est inferieur a 90 . Ceci suggere que toutes
les variables sont correlees positivement entre elles (cf. tableau 2) ;
les matieres fondamentales de cette filiere sont assez correlees entre elles. Cette affirmation
se verifie en se rapportant de la matrice de correlation ;
les notes des 5 matieres (calcul vectoriel, thermodynamique, mecanique, algebre et anal-
yse) sont plus liees entre elles quavec les autres matieres. Ceci suggere lexistence de
qualites communes (ou gouts communs) pour reussir dans ces matieres ;
on peut faire des remarques identiques pour la communication et linformatique et les TP.
Lecart entre ces deux matieres et les precedentes suggere lexistence de qualites differentes
(ou gouts differents) pour reussir ces deux groupes de matieres.
En conclusion :
Le cercle des correlations permet de voir, parmi les anciennes variables, les groupes de variables
tres correlees entre elles. Donc son etude est plus simple et plus informative que lanalyse
directe de la matrice de correlation.
3.7 Variables synthetiques :

lACP est une methode de recherche de nouvelles variables z qui synthetisent les variables
initiales. Ces variables z synthetisent dautant mieux lensemble de variables Vk ; k = 1, . . . , p
lorsquelles constituent des combinaisons lineaires des variables initiales. Ainsi, dans lexemple
on remarque que :
la premiere variable synthetique est liee positivement a chacune des variables. Elles les
representent toutes a peu pres de la meme facon ;
la seconde variable synthetique represente une opposition entre langue et communication,

informatique, travaux pratiques de physique et les matieres calcul vectoriel, thermody-
namique mecanique, algebre et analyse.
3.8 La premiere variable synthetique

Lexpression de la premiere composante principale est :

LC(etudi ) 12, 45 Inf l(etudi ) 12, 24
F act1 (etudi ) = 0, 55 + 0, 65 + ...
2, 43 1, 91

T P1 (etudi ) 11, 04
+ 0, 71
2, 2
3.9 Interpretation de la premiere composante

Un eleve ayant dans toutes les matieres des notes superieures a la moyenne de lensemble, a des
valeurs positives pour toutes les variables centrees ; comme tous les coefficients sont positifs,
cet etudiant a une forte valeur positive pour le Facteur1 (remarquer linteret de faire appa-
ratre les variables centrees, ceci montre quune note influe dans un sens ou dans un autre
selon quelle est superieure a la moyenne de lensemble). Reciproquement, un eleve qui a une
forte valeur positive pour Fact1 a, globalement, des notes au dessus de la moyenne de lensemble.
En ce sens, cette premiere composante principale represente le niveau general

des etudiants.
La seconde variable synthetique

La seconde composante principale peut secrire :

LC(etudi ) 12, 45 Inf1 (etudi ) 12, 24
F act2 (etudi ) = 0, 68 + 0, 55
2, 43 1, 91

Alg(etudi ) 9, 79 T P1 (etudi ) 11, 04
0, 32 . . . + 0, 25
3, 79 2, 2
Des notes inferieures a la moyenne dans les matieres specifiques telles que : algebre, anal-
yse, calcul vectoriel, mecanique et thermodynamique, augmenteront la valeur du F act2 ; par
contre des notes superieures a la moyenne dans ces matieres affaibliront la valeur du F act2 .
Reciproquement, une valeur negative de Fact2 correspond aux etudiants ayant en general des
notes superieures a la moyenne dans les matieres specifiques de la filiere. En consequence, ces
deux variables synthetiques permettront de postuler quon est devant quatre grands groupes
detudiants.
Representation des individus
Representation des individus sur le plan factoriel defini par les deux premieres composantes principales. 6 etudiants sont identifies : 6, 22, 35, 88, 92,
54. Letudiant 97 est fictif cest le point moyenne.
Son but est de fournir des images planes approchees du nuage des individus situes dans
lespace Rp . Lensemble des projections de tous les points du nuage dindividus N sur son pre-
mier axe factoriel U1 appele premier facteur, sur les individus, constitue une nouvelle variable
(cf. [2], p.17). On montre que cette variable se confond, a la norme pres, a la premiere com-
posante principale obtenue dans la projection du nuage des variables. Donc, linterpretation
des axes de ce graphique est par definition celle des composantes principales.
Ainsi, laxe des abscisses represente le niveau general des etudiants alors que celui des ordon-
nees represente leur profil. En effet, un etudiant appartenant au groupe 1 possede en general des
notes meilleures dans les matieres specifiques des deux filieres avec des capacites determinees
en communication et en informatique ; cest le cas par exemple letudiant 22.
Par opposition, un etudiant appartenant au groupe 4, cest un etudiant qui a en general de

notes faibles dans toutes les matieres ; cest le cas de letudiant 35.
Donc, le premier axe (axe horizontale) oppose les etudiants qui ont globalement de bonnes
notes a ceux qui ont generalement de mauvaises notes. Quant au deuxieme il oppose les etudi-
ants ayant globalement des tres bonnes notes en LC et TP et Inf. a ceux qui ont qui ont obtenu
de faibles notes dans ces disciplines.
En conclusion, nous remarquons que lACP a lavantage dune part de resumer lensemble des
variables initiales correlees en un nombre reduit de facteurs non correles. Dautre part, elle
nous a permis de mettre en evidence des similarites ou oppositions entre variables et individus.
4 Conclusion
La question principale de notre travail est: comment a partir dune serie de notes (descripteurs)
obtenues par un ensemble detudiants peut-on avoir :
des variables resumant le mieux linformation portee par ces descripteurs ?
un bilan de liaison entre les variables ?
une representation plane optimale des individus ?
une aide a lenseignant dans lelaboration dune typologie de ses etudiants selon ces nou-
velles variables ?
LACP est une methode exploratoire qui utilise des concepts de lalgebre lineaire et de la
geometrie et permet de resoudre en partie cette problematique. En effet, en supposant que les
etudiants peuvent etre representes par un nuage de points dans un espace de dimension finie
p(p 3), lACP cherche un sous-espace tel que la projection du nuage initial sur ce sous-espace
deforme le moins possible linformation portee par les variables initiales.
Loutil informatique met a la disposition du chercheur une gamme de logiciels permettant de
traduire en termes de procedures toute la demarche theorique de lACP :
centrage et reduction des donnees brutes ;
bilan des liaisons entre les variables ;
mise en evidence de variables synthetiques ;
representation plane (ou sur un sous-espace de faible dimension) optimale des individus.
5 Limites et perspectives
Comme pour toute autre methode exploratoire nous pouvons citer deux limites principales de
lACP :
la premiere est la visualisation globale des donnees. Dans certains cas, cette visualisation
est suffisante ; dans dautres, par contre, elle permet seulement de situer, dans lensemble
des donnees, une recherche plus poussee, qui peut etre soit definie a priori, soit etablie
a la lumiere des resultats de lACP. Par exemple, dans notre cas si on envisage une
pedagogie differenciee en faveur des etudiants ayant obtenu de faibles resultats, la clas-
sification hierarchique est necessaire pour affiner la formation de groupes homogenes et
pour connatre les variables qui interviennent le plus dans la formation dune repartition;
la deuxieme limite est technique. La mise en oeuvre de lACP demande le calcul prealable
de la matrice carree de covariance des donnees, qui est de taille p2 pour des vecteurs de
dimension p.
Cette matrice est deja couteuse a calculer, et sa taille et son traitement deviennent prohibitifs
en haute dimension. Ainsi des donnees de dimension 1000 donneront lieu a une matrice de un
million delements. Dautres methodes peuvent etre elaborees pour remedier a ce probleme (cf.
[1], p. 5).
La faible correlation des notes entre les disciplines langue et communication et les disciplines
specifiques des deux filieres nous pousse a nous poser un ensemble de questions que lon peut
resumer ainsi :
jusqua quel point nos etudiants ont tire profit du cours de traduction instaure au lycee
dans les options scientifiques ?
le contenu du module Langue et Communication repond-t-il aux besoins exprimes par

nos etudiants ?
les methodes denseignement des matieres langue et communication favorisent -elles une
aide aux etudiants pour surmonter les obstacles dus au changement brutal de la langue
denseignement des matieres scientifiques (de larabe au francais) ?
Bibliographie
[1] M. Delichere et D. Memmi : Analyse Factorielle Neuronale pour Documents Textuels. Les
cahiers du laboratoire Leibniz N 49, GRENOBLE, Avril 2002.
[2] J. Pages, B. Escofier : Analyses factorielles simples et multiples : Objectifs, methodes et

interpretation. DUNOD, 1990.
[3] J. Pages, B. Escofier : Introduction a lanalyse en composantes principales a partir de

letude dun tableau de notes. Methode danalyse statistiques multidimensionnelles en di-
dactiques des mathematique, IRMAR et IRESTE NANTES, 27-29, 1995.
[4] G. Saporta : Probabilites Analyse des donnees et statistiques Edition Technip, 1990.
Adresses des auteurs :

Laboratoire Interdisciplinaire de Recherches: Apprentissage, Didactique, Evaluation & Tech-
nologies de lInformation pour lEducation (lirade-tie),
U.F.R Ingenierie et Technologie de lEducation et de la formation itef
alikaouani@menara.ma, saideljamali@gmail.com, maarifcentre@yahoo.fr
Faculte des Sciences Ben MSik, Universite Hassane II
Mohammedia, Casablanca, Maroc

Radisma 2 Kaouani

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Radisma 2 Kaouani

Uploaded by

Copyright:

Available Formats

Analyse en composantes principales

Une methode factorielle pour traiter les

Ali Kouani, S. El Jamali et M.Talbi

Dans ce tableau : 6 individus sont decrits par deux notes (Ni , Nj ).

Dans la pratique enseignante, lenseignant cherche toujours a visualiser graphiquement les

Ressemblances entre individus :

Liaisons entre variables :

2 Presentation et description de la methode factorielle :

On identifiera de meme lindividu i au vecteur ei a p composante dont le transpose est :

e0i = (xi1 , xi2 , . . . , xi1 )

2.1 Espace des individus

Le point g est appele parfois : point moyenne du nuage ou centre de gravite.

d2 (ei ; ej ) = (ei ; ej )0 M (ei ; ej ),

2.2 Espace des variables

3 Analyse en Composantes Principales (ACP)

kei gk2 = kei fi k2 + kei gk2

3.2 Theoreme fondamental

Dans notre cas on prend M = D 12 et V la matrice de variance covariance entre variables.

Fk est un sous-espace rendant I maximale, alors le sous-espace de dimension k +1 rendant

Les vecteurs propres de V M , M -normes a 1 sont appeles axes principaux dinertie.

deux et le rang de V M est egal a p donc le nombre daxes principaux est p.

3.3 Composantes principales

En effet V (c) = c0 Dc = u0 X 0 DXu = u0 V u or : V u = M 1 u donc V (c) = u0 M 1 u =

3.4 Qualite des representations sur les plans principaux

3.5 Application de lACP a la matrice des notes

la matrice des correlations des variables.

le tableau des valeurs propres de la matrice de correlation ainsi que le pourcentage

un plan de projection des variables.

un plan de projection des individus.

La matrice de correlation entre variables est indiquee dans le tableau 3 :

La diagonalisation de la matrice de correlation donne les resultats presentes dans le tableau 4.

La deuxieme colonne indique les valeurs propres de la matrice de correlation.

3.6 Representation des variables

3.6.1 Le cercle des correlations

3.6.2 Representation des variables sur le premier plan factoriel

3.7 Variables synthetiques :

la seconde variable synthetique represente une opposition entre langue et communication,

3.8 La premiere variable synthetique

3.9 Interpretation de la premiere composante

En ce sens, cette premiere composante principale represente le niveau general

La seconde variable synthetique

Par opposition, un etudiant appartenant au groupe 4, cest un etudiant qui a en general de

des variables resumant le mieux linformation portee par ces descripteurs ?

un bilan de liaison entre les variables ?

une representation plane optimale des individus ?

centrage et reduction des donnees brutes ;

bilan des liaisons entre les variables ;

mise en evidence de variables synthetiques ;

le contenu du module Langue et Communication repond-t-il aux besoins exprimes par

[2] J. Pages, B. Escofier : Analyses factorielles simples et multiples : Objectifs, methodes et

[3] J. Pages, B. Escofier : Introduction a lanalyse en composantes principales a partir de

Adresses des auteurs :

You might also like