Professional Documents
Culture Documents
Rmi Bachelet
La version jour de ce cours danalyse factorielle des composantes est disponible http://rb.ec-lille.fr
dcembre 10
1. Comprendre les fondements de lAnalyse Factorielle des Correspondances 2. Savoir quel est le processus de calcul et ses logiques 3. Pouvoir expliquer le mapping produit par une AFC 4. galement :
Connatre quelques logiciels dadministration denqutes et de traitement de donnes Avoir des lments de comparaison AFC ACP (ACP = Analyse en Composantes
Principales).
dcembre 10
Chapitre 1/4
dcembre 10
Pourquoi factorielle ? Il sagit de dcomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les met en facteurs
Principale source dinformations, et de lexemple utilis pour ce cours : Que sais-je ? L' analyse factorielle - N2095, Philippe dcembre CIBOIS, ed. PUF, puis, Utilisation ou copie interdites sans citation 10 extrait disponible en ligne
universit 13 20 10 7 50
dcembre 10
0 1 0
0 2 1
2 24 2
7 0 0
Production Industrielle
5 0 5
1 1 1
2 0 0 0 0 2 1
1 0 0 5 0 11 6
0 3 1 0 0 0 3
1 2 1 0 3 0 0
0 0 0 4 1 0 0
1 1 2 4 5 2 2
10 0 2 1 1
dcembre 10
Recherche
6 0 1 6 1 0
21 Mcanique Avance 28 Gnie Civil 10 Matire,Energie et Vivant 11 Ondes, Nano-Electronique, Tlcoms 7 Sy stmes Electriques et Electroniques 14 Sy stmes Automatiss 10 Gnie des systmes de production 11 Gnie Informatique 14 Inform atique de Gestion 11 Services et Systmes Socio-Economiques 10 Sy stmes de Transport et Logistiques Entrepreneuriat Am nagement, Construction, Environnement Production Industrielle Recherche Gestion - Audit Conception de Produits et Systmes Innov ants Logistique Com merciale et Industrielle
dcembre 10
Chapitre 2/4
dcembre 10
Ce tableau est aussi une matrice, appellons-la T Quelle matrice aurait-on si la rpartition dans les filires post-Bac ne dpendait pas du type de Bac ?
dcembre 10
Utilisation ou copie interdites sans citation
10 = 50 * 20%
(produit matriciel /100 puisquon raisonne en %)
15
12
20 30 20 30
On reconstitue la matrice partir de ses marges
Utilisation ou copie interdites sans citation
50 10 40
Appellons cette matrice T0
dcembre 10
T T0 = R
13 2 5 10 2 8 3 0 -3
20
15
12
-1
-4
10 5 5 10 2 8
=
0 3 -3
22
15
12
-8
-2
10
R = T1 + T2
.. Chacune de ces matrices tant mise en facteur (le produit dun vecteur ligne et dun vecteur colonne).
T1 = C1L1
(une matrice dont la plus petite dimension est N rang N est dcomposable au maximum en N matrices pouvant se mettre en facteurs ici T = T0 + T1 + T2). T est de rang 3, mais R est de rang 2.
dcembre 10
Utilisation ou copie interdites sans citation
dcembre 10
T = CL
On met en facteur T comme le produit dune matrice colonne C par une matrice ligne L
T (2X2) C (1X2) L (2X1)
Attention les rgles de prsentation du produit matriciel ne sont pas bien respectes dans nos diapos De plus, la multiplication des matrices n'est pas commutative (LC CL)
dcembre 10
R = T1 + T2 = C1L1 + C2L2
3 0 -3 1 1 -2 1 2 -1 -1 1
-1
-4
-2
-2
-2
=
0 3 -3 2 2 -4 2
+
-2 1 1 -1
-8
-2
10
-4
-4
-4
-4
-2
1
Attention le sens de multiplication crit ici est LC au lieu de CL
-2
-1
-1
dcembre 10
Chapitre 3/4
dcembre 10
Un vecteur colonne (resp. ligne) correspond une modalit des donnes en colonnes (resp. lignes)
-1
-4
-2
-2
-2
=
0 3 -3 2 2 -4 2
+
-2 1 1 -1
-8
-2
10
-4
-4
-4
-4
-2
-2
-1
-1
dcembre 10
BDD
CE
-1
FGH
-2
Univ
CPGE
Autres
-1
-1
dcembre 10
1 CE
2
Univ.
BDD
2
-1 -2 2 -1 -1
1
CPGE
CE
2
0 -3 -2 -1 -1 0 1
A
2
BDD
FGH
-4 1
Aut.
Univ
-2
CPGE
1 -2
-3
Autres
-4
FGH
-5
dcembre 10
1. Conjonction :
Produit scalaire positif
Les Bac CE ont une affinit pour la prpa CE
2
A
Prpa
1
2. Opposition
Produit scalaire ngatif
Les Bacs A ne vont pas vers les autres (IUT, BTS)
-3
0 -2 -1 0 1 2 3
-1
3. Quadrature
Produit scalaire nul
Les bacs A ne vont ni plus ni moins vers les prpas que la moyenne des bacheliers Autres
-2
-3
-4
-5
dcembre 10
Chapitre 4/4
Optimisation de la factorisation
1. Le Chi-2 ( 2) comme mtrique
Degrs de libert
dcembre 10
dcembre 10
Note sur le
2
(R) =
(T1) +
(T2)
/ ddl
http://brassens.upmf-grenoble.fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame.htm
dcembre 10
(R) =
(T1) +
(T2)
Cette concentration de ce que lon appelle le pourcentage de la variance explique par un axe est particulirement intressante lorsque la taille du tableau de donnes augmente
2 (R)
2 (T ) 1
2 (T ) 2
2 (T ) 3
2 (T ) 4
..
Pourquoi ? On ne peut que reprsenter que deux axes la fois sur un mapping autant reprsenter les plus significatifs.
dcembre 10
Utilisation ou copie interdites sans citation
.. Autre option configurable : ici, la taille des points est proportionnelle leffectif quils reprsentent
FGH
Ax 1 (80.2%) e A Autres
Universit
BDD'
Pour relativiser leur importance, les axes sont dilats proportionnellement au 2 quils expriment
dcembre 10
0 1 0
0 2 1
2 24 2
7 0 0
Production Industrielle
5 0 5
1 1 1
2 0 0 0 0 2 1
1 0 0 5 0 11 6
0 3 1 0 0 0 3
1 2 1 0 3 0 0
0 0 0 4 1 0 0
1 1 2 4 5 2 2
10 0 2 1 1
dcembre 10
Recherche
6 0 1 6 1 0
En trepren ariat
Lo gistique Commerciale et In dustrielle Matire,Energie et Vivant Axe 1 (34.4%) Gnie Civil Prod uction In dustrielle
Premiers choix de gnie / filire des 147 G2 en 2003 dcembre 10 Utilisation ou copie interdites sans citation
Ctait les deux premiers axes = 62% de la variance explique On peut aussi regarder laxe 3.. = 18%
Axe 3 (18.0%) Entrepreneuriat Ondes , Nano-Elec troni que, T lc oms Sys tmes Automatis s
Informatique de Gestion
Recherche
Servic es et Sys tmes Soc io-Ec onomi ques Axe 2 (28.6%) Sys tmes El c triques et El ec troniques
Gni e Informatique
Sys tmes de T ransport et Logi stiques Gni e des sys tmes de production Matire,E nergie et Vi vant
Mcanique Avance
Production Industrielle
dcembre 10
Conclusion
1. Mise en uvre logicielle
Sphinx, SPSS, SAS
2. Gnralisation de lAFC
Comparaison avec lAnalyse en Composantes Principales (ACP) Gnralisation de lAFC Pour approfondir
dcembre 10
dcembre 10
dcembre 10
dcembre 10
Gnralisations de lAFC
Les catgories des questionnaires sont souvent mutuellement exclusives :
Sexe : H ou F Politique : gauche, centre, droite Tableau disjonctif
Aux croisements de plus de deux caractristiques : Analyse des Composantes Multiples (ACM)
Bac X Orientation X sexe Tableau de Burt
dcembre 10
AFC
Donnes Catgorielles
ACP
Mtriques
Dcomposition T - T0 = T1 + T2 T = T1 + T2 + T3 Mtrique
2
pondr
Attention, le poids des cellules faible effectif est 10 dcembre renforc Utilisation ou copie interdites sans citation
Si on a des donnes permettant de faire une ACP, peut-on y appliquer une AFC ?
Oui !
.. Mais alors ?
.. Alors on traite les donnes numriques, les nombres comme des catgories Si par exemple on travaille sur des notes, 18/20 nest plus suprieur 10/20, il nest pas non plus plus proche de 16/20 que de 10/20.
dcembre 10
dcembre 10
Analyse factorielle des correspondances dans Wikipdia Leon Analyse factorielle des correspondances du CNAM
dcembre 10
dcembre 10
dcembre 10
Rmi BACHELET
Mes principaux cours Centrale Gestion de projet, sociologie des organisations, recueil, analyse et traitement de donnes, prvention du plagiat, module de marchs financiers, cours de qualit et mthodes de rsolution de problmes, tablir des cartes conceptuelles, utiliser Wikipdia et CentraleWiki, formation au coaching pdagogique et l'encadrement
dcembre 10
dcembre 10