Professional Documents
Culture Documents
test de discrimination(belson)
Corrlation
(ex : nombre livres lus et ge)
Traitements : rgression
Test statistique : corrlation
Comparaison
(ex : sexe et nombre de livres lus)
Traitements : tableaux de
moyennes et analyse de la
variance
Tests statistiques test de Fisher
V2
Nominale
V2
Numrique
V1
Nominale
V1
Numrique
Si
Alors
V
a
r
i
a
b
l
e
e
x
p
l
i
c
a
t
i
v
e
V
a
r
i
a
b
l
e
e
x
p
l
i
c
a
t
i
v
e
Variable explique
Variable explique
3.32 Lanalyse bivarie
Comparaison
(ex : sexe et nombre de livres lus)
Traitements : tableaux de
moyennes
Tests statistiques : analyse
de la variance et test de Fisher
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
Le tableau de rsultats dun tri crois est appel tableau de contingence
(tudier les contingences cad les relations et le contenu des relations entre
deux variables.
Grard Lcrivain Analyse des donnes et enqutes par sondage
en effectifs
en % total
Ces deux modes de reprsentation
des donnes ne permettent pas
une lecture croise des donnes; il
convient donc de retraiter ces
donnes
3.32 / Lanalyse bivarie : croiser deux variables nominales
Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour permettre une lecture croise des donnes, on les retranscrit en % lignes
ou en % colonnes ( frquences marginales lignes ou colonnes) :
frquences marginales lignes
Support de lecture privilgi en fonction de la section
gnrale technologie tertiaire industrielle Total
Livres
BD
journaux
magazines
Total
75.0% 25.0% 0.0%
40.0% 40.0% 20.0%
28.6% 57.1% 14.3%
55.6% 37.0% 7.4%
100.0%
100.0%
100.0%
100.0%
51.2% 39.5% 9.3% 100.0%
0% 10%20%30% 40%50%60% 70%80%90%100.0%
Livres
100.0%
BD
100.0%
journaux
100.0%
magazines
100.0%
Total
100.0%
Exemple de lecture : 55,6% des magazines sont lus par les lycens issus dune section
gnrale.
Support de lecture et section
gnrale
technologie
tertiaire
industrielle Total
Livres
BD
journaux
magazines
Total
13.6% 5.9% 0.0%
9.1% 11.8% 25.0%
9.1% 23.5% 25.0%
68.2% 58.8% 50.0%
9.3%
11.6%
16.3%
62.8%
100.0% 100.0% 100.0% 100.0%
0% 10%20%30% 40%50%60% 70%80%90%100.0%
Livres
100.0%
BD
100.0%
journaux
100.0%
magazines
100.0%
Total
100.0%
frquences marginales colonnes
3.32 / Lanalyse bivarie : croiser deux variables nominales
Grard Lcrivain Analyse des donnes et enqutes par sondage
Exemple de lecture :
Sur lensemble des lycens
en section gnrale, 68,2%
privilgient les magazines
comme support de lecture
premier.
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour vrifier leur degr de dpendance le test du chi2
Grard Lcrivain Analyse des donnes et enqutes par sondage
Le test du Chi-deux indique si la relation entre les deux variables est significative.
Les cases colores nous montrent les informations essentielles cad les Chi-deux partiels les plus
forts.
en bleu, les sur-reprsentations
en rose, les sous-reprsentations
Dans cet exemple, certains critres
sont lis au genre : pour les hommes
la consommation et le prix sont
dterminants, alors que pour les
femmes interroges le critre premier
est la vitesse
Quels sont pour vous dans la liste suivante les trois principaux points prendre en considration
pour l'achat d'une automobile ?
Sexe de l'interview
Vitesse Confort Scurit
Consom
mation
Prix Publicit
Distri
buteur
S.A.V.
Entretien
Total
Homme
Femme
9.2% 5.9% 3.9% 34.6% 30.1% 2.6% 3.9% 9.8%
29.4% 17.4% 14.9% 13.4% 5.0% 12.4% 4.0% 3.5%
100.0%
100.0%
p = <0.1% ; chi2 = 104.51 ; ddl = 7 (TS)
Les couples de modalits en bleu (rose) sont sur-reprsentes (sous-reprsentes)
Comparer les effectifs observs
la rfrence de lqui-rpartion.
37 hommes achtent franais
ils devraient tre :
70 x (57 / 137) = 30
Le test du chi2
mesure lcart une rpartition de rfrence
et value son importance
MARQUE
SEXE
Homme
Femme
TOTAL
Franais Etranger TOTAL
37 20 57
33 47 80
70 67 137
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour vrifier leur degr de dpendance
Explication du test du chi2 (illustration tire de Sphinx dveloppement )
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour valuer un caractre explicatif le test de Belson
Grard Lcrivain Analyse des donnes et enqutes par sondage
Pourquoi ? : Quand on dispose de plusieurs facteurs explicatifs
dun phnomne observ, pour ces diffrents facteurs on peut se
demander quel est celui qui dispose de la force explicative la plus
importante cad le facteur discriminant.
Comment ? : Par le critre de Belson (exclusivement sur des
variables dichotomiques cad ne prenant que deux tats possibles).
Exemple : On se pose la question de savoir parmi les deux variables
explicatives suivantes (sexe et PCS) quelle est celle qui dtermine le
mieux la satisfaction lie aux conditions de la mise en place des 35
heures dans une grande entreprise ? (Tableaux page suivante)
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour valuer un caractre explicatif le test de Belson
Grard Lcrivain Analyse des donnes et enqutes par sondage
Mode danalyse :
Etape 1 : Comparer la situation relle la situation de rfrence
Une situation de rfrence correspond ce que serait la ralit sil n y avait aucune
relation entre la variable expliquer et chacune des deux variables. Il faut alors mesurer la
distance qui spare la situation relle de celle de rfrence. La meilleure variable explicative
sera celle la plus loigne de lindpendance totale (la distance est leve au carr pour
obtenir des chiffres positifs)
Lindpendance totale suppose que :
Satisfait non satisfait Total
Masculin 44% 11% 55%
Fminin 36% 9% 45%
Total 80% 20% 100%
En % global Satisfait non satisfait Total
Masculin 50% 5% 55%
Fminin 30% 15% 45%
Total 80% 20% 100%
En % global Satisfait non satisfait Total
PCS- 60% 3% 63%
PCS+ 20% 17% 37%
Total 80% 20% 100%
Satisfait non satisfait Total
PCS- 50.4% 12.6% 63%
PSC+ 29.6% 7.4% 37%
Total 80% 20% 100%
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour valuer un caractre explicatif le test de Belson
Grard Lcrivain Analyse des donnes et enqutes par sondage
Etape 2 : Mesure de lcart entre population relle et thorique par le critre de Belson
cad en mettant au carr la valeur absolue de lcart dtermin dans chaque tableau :
Sexe d =6 = 36
PCS d = 9.6 = 92.16
Donc d PCS > d sexe soit la variable PCS est la plus loigne de lindpendance cad la plus
prs de la dpendance : La PCS est une meilleure variable explicative que le sexe pour la
satisfaction des conditions de la mise en place des 35heures
Limite du critre de Belson :
Il sadapte une situation o les tableaux de contingence sont de taille rduite et les variables
dichotomiques.
Dans les autres cas, prendre le khi 2
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC)
Pour mieux visualiser la relation entre ces deux variables,
on reprsente les carts lqui-rpartition cad les
dpendances entre des modalits des deux variables par la
technique de lAFC
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC)
Axe 1 (74.6%)
Axe 2 (17.0%)
LOUEUR
HOTEL
RESIDENCE SECONDAIRE
CAMPING
AMIS/FAMILLE
CADRE SUPERIEUR/PROFESSION LIBERALE
COMMERCANT/ARTISAN
ETUDIANT
EMPLOYE/OUVRIER
CADRE MOYEN
RETRAITE
INACTIF
Rque : la surface des carrs est proportionnelle aux effectifs
La carte visualise les attractions et rpulsions entre diffrentes modalits des deux
variables
Les axes affichent les % de variance explique : la carte restitue ici 91,6% de
linformation initiale
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC)
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC) (autre exemple)
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser une variable nominale
avec une variable numrique : Le tableau de moyennes croises Le tableau de moyennes croises
Un tableau de moyennes croises permet d'valuer une variable ferme en
fonction de variables ouvertes numriques ou fermes chelles.
Les modalits de la variable valuer apparaissent en ligne. Chaque critre
d'valuation occupe une colonne; si la case est coche, le test sur le t de Student
est appliqu pour comparer la moyenne de la case avec la moyenne de l'ensemble
des observations tudies.
Marque voiture croise avec ...
Quel est votre ge ?
Moyenne Ecart-type
Quel est le nombre de
personnes composant le
mnag...
Moyenne Ecart-type
Quelle distance
effectuez-vous
mensuellement ?
Moyenne Ecart-type
Combien dpensez-vous par
mois ?
Moyenne Ecart-type
Renault
Peugeot
Citron
Talbot
Ford
Fiat
Volkswagen
Opel
Japonaise
Autre
Total
18.67 0.49
19.57 0.79
18.67 0.98
18.25 0.50
20.00 1.76
18.00 0.00
19.68 1.86
20.00 2.14
19.33 1.95
19.19 1.42
19.19 1.51
3.83 1.03
4.50 1.22
3.82 1.17
4.00
3.40 0.52
3.67 0.82
3.69 1.65
2.50 0.53
3.00 0.00
3.25 1.18
3.52 1.14
1 403.83 885.64
2 771.17 817.72
1 249.27 694.58
1 604.00
2 403.40 842.85
1 287.00 1 183.10
3 065.23 255.16
2 802.50 961.61
3 203.00 0.00
2 165.88 1 070.23
2 202.31 1 057.89
903.42 602.35
1 841.33 596.86
796.00 432.03
989.00
1 483.00 520.72
802.67 753.63
1 882.92 198.04
1 729.50 653.72
1 977.00 0.00
1 343.38 678.90
1 377.83 672.03
Les modalits en bleu (rose) sont sur-values (sous-values)
Les cases qui sont
significativement
diffrentes de la
moyenne sont
encadres (en bleu si
la moyenne de la
case est suprieure,
en rouge si elle est
infrieure).
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser une variable nominale
avec une variable numrique : Le test de Fisher Le test de Fisher
(exemple de Sphinx dveloppement)
Grard Lcrivain Analyse des donnes et enqutes par sondage
A partir d'une analyse des variances, le test F de Fisher nous
indique si la relation entre les deux variables est significative.
Dans cet exemple, l'objectif de salaire varie en fonction du genre, d'une
manire trs significative :
les filles ont un objectif de salaire nettement infrieur la moyenne
les cases colores nous
montrent les catgories dont
les moyennes sont
statistiquement diffrentes
de la moyenne gnrale (par
le test de Student)
Objectif de salaire en fonction du genre
SALAIRE
OBJECTIF
Une fille
Un garon
Total
21 474,03
28 776,60
25 488,30
p = <0,1% ; F = 15,88 (TS)
Une fille 21 474,03
Un garon 28 776,60
Total 25 488,30
Le test de Fisher est significatif si la probabilit de rejet (p) est < 5% (ici
il est trs significatif avec p <0,1%)
.
L'analyse permet de confronter deux variables correspondant des nombres
(c'est dire ouvertes numriques ou bien fermes chelles). La premire variable
est la variable expliquer (la dpense consacre son automobile), la seconde est
une variable explicative (le revenu)
Cette analyse est plus pertinente que le tableau crois des deux variables avec
leurs classes respectives.
3.32 / Lanalyse bivarie : croiser deux variables numriques :
La corrlation La corrlation
Grard Lcrivain Analyse des donnes et enqutes par sondage
REVENU
DEPENSE
0.88
257.51
La droite de rgression linaire, de type y=ax+b,
permet de dcrire une tendance, c'est dire
l'volution gnrale de la dpense consacre
son automobile en fonction du revenu.
Cette tendance est illustre par une droite de
rgression qui ajuste linairement le nuage de
point.
Le coefficient de corrlation, ici =0,9 cad trs
forte corrlation positive (ce coefficient est
toujours compris entre 1 et +1) caractrise la
qualit de lajustement (donc trs bonne qualit
de lajustement)
3.32 / Lanalyse bivarie : croiser deux variables numriques :
La corrlation La corrlation (autre exemple)
Grard Lcrivain Analyse des donnes et enqutes par sondage
TAILLE
DEPENSE
0.66
257.51
La dpense consacre son automobile en fonction du nombre de personnes
composant la famille
Lajustement est peu prcis et ce
degr dimprcision est vrifi
par un coefficient de corrlation
sans signification (r = - 0,29).
Grard Lcrivain - Universit de Boulogne sur mer - DESS Mtiers du Conseil.
Grard Lcrivain Analyse des donnes et enqutes par sondage
3.3 Les diffrents niveaux
3.3 Les diffrents niveaux
de lanalyse des donnes
de lanalyse des donnes :
3.33 lanalyse
multivarie
Rgression multiple et
Analyse de la variance
Analyse en Composantes principales et
Analyse Factorielle des Correspondances
multiples
Regrouper les individus par la classification
Automatique et la typologie
3.33 lanalyse multivarie
Grard Lcrivain Analyse des donnes et enqutes par sondage
Ses objectifs et modes dexpression Ses objectifs et modes dexpression
Pour expliquer
Pour synthtiser
Pour classifier
V1
V2
V3
Vn
V
0
Variables explicatives
Variable explique
Vo = a
1
xV
1
+ a
2
xV
2
+ a
3
xV
3
+ a
n
xV
n
Equation de rgression multiple
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple La rgression multiple
Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour dterminer sous forme dquation linaire la relation
explicative amenant des variables (variables explicatives)
expliquer ou non un phnomne (variable explique)
La qualit de lajustement sapprcie par rapport la valeur du coefficient de
corrlation
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple : La rgression multiple : exemple illustratif
Grard Lcrivain Analyse des donnes et enqutes par sondage
Expliquer la dpense touristique totale V1 en fonction des
dpenses dhbergement V2, dalimentation V3, de restauration
V4 et de loisir V5
On obtient un modle du type
V1= aV2+bV3+cV4+ rsidu.
La qualit de lajustement sapprcie
par rapport la valeur du coefficient de
corrlation. Plus la valeur absolue est
leve, plus faible est lcart entre les
valeurs calcules par lquation et les
valeurs observes en ralit (cet cart
est appel rsidu) :
Equation de la rgression :
Dpense totale = +0.796 * Dpense hbergement +1.638 * Dpense alimentation
+0.734 * Dpense restaurant +1.858 * Dpense loisirs +174.856
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple : La rgression multiple : exemple illustratif
Grard Lcrivain Analyse des donnes et enqutes par sondage
Equation de la rgression :
Dpense totale = +0.796 * Dpense hbergement +1.638 * Dpense
alimentation +0.734 * Dpense restaurant +1.858 * Dpense loisirs +174.856
Les 4 variables expliquent 80.2% de la variance de Dpense totale et le
coefficient de rgression multiple = 0,9
Significativit des paramtres :
'Dpense hbergement' : coefficient = 0,80, cart-type = 0,23
'Dpense alimentation' : coefficient = 1,64, cart-type = 0,28
'Dpense restaurant' : coefficient = 0,73, cart-type = 0,45 (Peu influent)
'Dpense loisirs' : coefficient = 1,86, cart-type = 0,29
Leffet de chaque variable explicative dpend du coefficient de rgression figurant
dans lquation. Plus celui-ci est lev, plus la variable explicative considre
influence la variable explique.
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple : La rgression multiple : exemple illustratif
Grard Lcrivain Analyse des donnes et enqutes par sondage
Cependant , il faut galement prendre en compte lcart type de chacun de ces
coefficients : plus il est lev, moins linfluence de la variable considre est
marque. Certains termes de l'quation sont peu influents, leur rapport
coefficient / cart-type est infrieur 2
La matrice des coefficients de corrlation peut se prsenter sous la forme
dun tableau ou dun diagramme :
Dpense totale
Dpense hbergement
Dpense alimentation
Dpense restaurant
Dpense loisirs
Dpense
totale
Dpense h
bergement
Dpense
alimentation
Dpense
restaurant
Dpense
loisirs
1,00
0,76 1,00
0,76 0,68 1,00
0,59 0,56 0,48 1,00
0,70 0,51 0,41 0,45 1,00
: coef.>0,85
: 0,85>coef.>0,70
: 0,70>coef.>0,50
Dpense totale
Dpense hbergement
Dpense alimentation
Dpense restaurant
Dpense loisirs
0,76
0,76
0,59
0,70
0,68
0,56
0,51
3.33 lanalyse multivarie : Pour expliquer
Lanalyse de la variance deux facteurs (MANOVA) Lanalyse de la variance deux facteurs (MANOVA)
Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour comparer pour chaque modalit de deux variables nominales,
la valeur dune variable numrique
Exemple : analyser les valeurs de la dpense dun sjour
touristique selon le sexe et le mode dhbergement choisi
La dpense est significativement
diffrente selon le sexe pour les
touristes en camping
Quelque soit le sexe, la dpense totale
est significativement diffrente selon
les modes dhbergement sauf pour
location/gte
3.33 lanalyse multivarie : Pour synthtiser
Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour rendre lisible une analyse multi-dimensionnelle en trouvant des
facteurs qui permettent de rduire le nombre de dimensions cad de
variables considrer
Les techniques :
Variables numriques : Analyse en composantes principales
Variables nominales : Analyse factorielle multiple
(table individus x modalits)
Analyse factorielle des correspondances
(tableaux croiss)
3.33 lanalyse multivarie : Pour synthtiser
Grard Lcrivain Analyse des donnes et enqutes par sondage
Analyse en Composantes Principales Analyse en Composantes Principales
LACP reprend les individus en lignes et analyse les
correspondances avec des variables numriques (critres) places
en colonnes
Exemple : (tir de Sphinx dveloppement); pour les touristes
(individus) ce que sont les critres illustratifs de vacances idales :
soleil, sport, contacts, activits, confort, nature, le monde, le repos,
la famille, le tout compris
Rque : ces critres apparaissaient sous forme dchelles dans le questionnaire et
sont donc traits comme variables numriques
Problme : nous sommes ici dans un espace danalyse 10 dimensions
quil convient de retranscrire dans un espace synthtique deux
dimensions ( limage dune photographie qui retranscrit en 2
dimensions lespace rel compos de 3 dimensions quitte sacrifier
certains dtails).
3.33 lanalyse multivarie : Pour synthtiser
Analyse en Composantes Principales Analyse en Composantes Principales
Grard Lcrivain Analyse des donnes et enqutes par sondage
Les deux dimensions sont reprsentes par deux axes :
-laxe principal 1 est la premire composante principale cad
quil reprsente lindicateur pour laquelle la variance des
individus est maximale afin dintgrer un maximum
dobservations.
Cet axe principal disposera les variables qui contribuent
positivement son sens .
- mme dmarche pour le second axe qui disposera de
variables fortement corrles avec lui mais qui sera
indpendant du 1er axe
Grard Lcrivain Analyse des donnes et enqutes par sondage
Soleil
Sport
Contacts
Club
Monde
Confort
Nature
Tout_compris
Repos_calme
Famille
Axe 1 (21.2%)
Axe 2 (17.3%)
-les variables reprsentes par un
axe (vecteurs propres)
-le cercle de corrlation
Sur la carte, on trouve :
-au niveau des facteurs :
Laxe 1 est corrl
ngativement avec repos, calme
et confort et positivement avec
soleil, sport et monde. Le
facteur 1 est donc relatif la
finalit des vacances (il oppose
sur cette dimension la
recherche de lexcitation celle
du calme et du repos)
Laxe 2 est corrl avec activits et tout compris.Le facteur 2 est relatif leur
organisation (dun ct la consommation, de lautre lautonomie).
Analyse en Composantes Principales Analyse en Composantes Principales
3.33 lanalyse multivarie : Pour classifier et
dresser des typologies
Grard Lcrivain Analyse des donnes et enqutes par sondage
- au niveau des individus : dans le mme plan factoriel, on peut reprsenter les
individus :
CALME
CONFORT
LE
MOUVEMENT
LORGANISATION
Soleil
Sport
Contacts
Club
Monde
Confort
Nature
Tout_compris
Repos_calme
Famille
Axe 1 (21.2%)
Axe 2 (17.3%)
les points situs gauche ont
un score lev sur laxe 1 et
correspondent des individus
exprimant un degr daccord
lev avec lopinion selon
laquelle les vacances idales
sont repos-calme ; on
trouvera donc gauche ceux
qui cherchent le calme, droite
ceux que le sport, le monde, le
soleil attirent, en haut ceux qui
cherchent les ambiances club,
en bas les autonomes. On
aboutit l la construction
dune typologie.