You are on page 1of 0

Grard Lcrivain Analyse des donnes et enqutes par sondage

Analyse des donnes


Analyse des donnes
applique
applique
aux techniques denqute
aux techniques denqute
par sondage.
par sondage.
III. Lanalyse des donnes
III. Lanalyse des donnes
3.1 La notion de variable
3.2 Quels traitements dvelopper ?
3.3 Lanalyse des donnes de
lenqute
Diffrencier question (libell), variable (titre et mode dexpression de
la question) et modalits (rponses possibles)
Les diffrents types de variables cad de modes dexpression de la
question
Variable Variable
Qualitative
une qualit non
quantifie
Quantitative
une mesure, une
quantit
Nominale
pas de classement
Ordinale
classement,
hirarchisation,
chelles
Discrte
une valeur
unique
Continue
une valeur
possible dans
un intervalle
Texte

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.1 La notion de variables
:
:
Variables quantitatives ou numriques : (prcision
dune grandeur) : ge, niveau dpense,
Variables chelles : organisation dun ordre, dune
graduation
Variables nominales : dfinition d'un tat
Variables texte : commentaires libres
Genre :
Homme, Femme
Satisfaction :
Pas du satisfait, Peu satisfait, Assez satisfait, Trs satisfait

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.1 La notion de variables
:
:
nature de linformation
nature de linformation
3.2 Quels traitements dvelopper ?
Les objectifs de lanalyse de donnes
Les objectifs de lanalyse de donnes
Pour dcrire, agrger, synthtiser : Tableaux de Bord

Grard Lcrivain Analyse des donnes et enqutes par sondage
TS
TS
S
S
S
S
S
TS
S TS
S
TS
TS
S
TS
TS
S
TS
TS
TS
TS
S
S
S
S
S
S
S
S S
S
TS
+ S
Supports
lus
Frquence
MLI
utilisation
MLI
pour...
Consultation
ONISEP
Inform(e)modes
empr
Emprunts
documents
Emprunts
documents1
Gne
Taille
MLI
juge..
Amnagement
MLI
Utlisation
ordinateu
ordinateur
pour...
Accs
aux
postes
Matrise
du
thsauru
Formation
thsaurus
Visite
MLI
juge
Exposition
commente
Participation
MLI
VOTRE
CLASSE
Section
3.2 Quels traitements dvelopper ?
Les objectifs de lanalyse de donnes
Les objectifs de lanalyse de donnes

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour expliquer, cibler des groupes de variables proches: Systmes de
Relations
Pour expliquer, cibler des groupes de variables proches: Systmes de
Relations- autre exemple (tir de Sphinx dveloppement)

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour regrouper, organiser, segmenter : Typologies et arbres de
dcision

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.2 Quels traitements dvelopper ?
Les objectifs de lanalyse de donnes
Les objectifs de lanalyse de donnes

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour regrouper, organiser, segmenter : Typologies et arbres de
dcision (exemple tir de Sphinx dveloppement)
3.2 Quels traitements dvelopper ?
Les diffrents niveaux de lanalyse de donnes
Les diffrents niveaux de lanalyse de donnes
Analyse univarie ou analyse plat
Analyse bivarie ou analyse croise
Analyse multivarie des donnes
Tableaux plat
Tableaux croiss ou
tableaux de contingence
Cartes factorielles
Pour dcrire les rsultats dune variable la fois
Pour mettre en relation deux variables afin
dexpliquer, de prciser une analyser
Pour analyser simultanment plus de deux
variables pour dresser des typologies, synthtiser

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.3 Les diffrents niveaux de
3.3 Les diffrents niveaux de
lanalyse des donnes
lanalyse des donnes :
3.31 lanalyse univarie
Dcrire les caractristiques dune seule variable la fois
il y a 25% de lycens
Lge moyen des lves est de 17,9 ans
Variable nominale ou chelle :
calcul des effectifs, pourcentages et intervalle de confiance.
Variable numrique ou chelle :
calcul des moyennes cart-type, mise en classes

Grard Lcrivain Analyse des donnes et enqutes par sondage
Question rponse unique
Pourcentages calculs par rapport au nombre
dobservations : la somme est suprieure 100
La somme des pourcentages
est gale 100
Question rponses multiples non
ordonnes ou ordonnes

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat des variables nominales
Vous lisez surtout ...
Rfrence : pourcentages pour les 22 observations de la vue
Livres 3 13.6%
BD 2 9.1%
journaux 2 9.1%
magazines 15 68.2%
Total 22 100.0%
13.6%
9.1%
9.1%
68.2%
Vous lisez surtout ...
Rfrence : pourcentages pour les 17 observations de la vue
Livres 1 5.9%
BD 2 11.8%
journaux 4 23.5%
magazines 10 58.8%
Total 17 100.0%
5.9%
11.8%
23.5% 58.8%
Vous lisez surtout ...
Rfrence : pourcentages pour les 4 observations de la vue
Livres 0 0.0%
BD 1 25.0%
journaux 1 25.0%
magazines 2 50.0%
Total 4 100.0%
25.0%
25.0%
50.0%

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat stratifie
Pour prsenter les rsultats dune variable en stratifiant
lchantillon (ici les habitudes de lecture des lycens selon leur
section dappartenance)
Section gnrale Section tertiaire
Section industrielle
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat des variables nominales

Grard Lcrivain Analyse des donnes et enqutes par sondage
Test du chi2 : Test du chi2 : le chi2 est calcul comme la somme des carrs des
carts aux effectifs thoriques (l'effectif thorique est la valeur de la
case si la rpartition tait quilibre).
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat des variables nominales

Grard Lcrivain Analyse des donnes et enqutes par sondage
Le test du chi2 est la certitude exprime en pourcentage de la
dpendance des deux variables.
Selon la valeur de cette certitude, on dira que l'cart est trs
significatif (1-p >99%), significatif (99%>1-p>95%), peu
significatif (95%>1-p>85%), non significatif (1-p<85%). Cette
certitude est note "1-p", p tant donc le risque de se tromper, qui
est souvent utilis comme rfrence.
Les cases qui sont le plus importantes dans le calcul du chi2 sont
encadres (jusqu' concurrence de 60%). Si l'effectif est infrieur
l'effectif thorique, l'encadrement est en rouge sinon en bleu.
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat des variables nominales

Grard Lcrivain Analyse des donnes et enqutes par sondage
Intervalles de confiance : affiche l'intervalle de confiance de
chacune des modalits.
Ceux-ci tiennent compte du taux d'erreur qui dpend notamment
de la taille de l'chantillon.
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat des chelles

Grard Lcrivain Analyse des donnes et enqutes par sondage
Les questions "chelle" ont la particularit de pouvoir tre traites comme
des questions fermes ou numriques. En effet, chaque chelon
correspond un nombre, de 1 n.
1. En dehors de la MLI, lisez-vous (livres ou journaux, magazines,
BD)...
1.Trs souvent 2.souvent
3.rarement 4.jamais
On peut analyser les donnes comme des questions fermes avec un
tableau de frquence et donc calculer des paramtres statistiques de
position et de dispersion; valuer le degr de prcision des rsultats
1. Habitude de lecture - En dehors de la MLI, lisez-vous (livres ou journaux, magazines, BD)...
En dehors de la MLI, lisez-vous (livres ou journaux, magazines, BD)...
Taux de rponse : 100.0%
'souvent' (21 observations)
4 valeurs diffrentes
Effectif moyen : 11.25
Moyenne = 2.38 'souvent'
Valorisation des chelons : de 1 (Trs souvent) 4 (jamais)
Trs souvent 5 11.1% 1.9% < f < 20.3%
souvent 21 46.7% 32.1% < f < 61.2%
rarement 16 35.6% 21.6% < f < 49.5%
jamais 3 6.7% 0.0% < f < 14.0%
Total 45 100.0%
11.1%
46.7%
35.6%
6.7%
On peut se contenter des
principaux paramtres de
position et de dispersion
(moyenne et cart-type en
gnral) et de leur
reprsentation graphique.
Quel ge avez-vous?
Moyenne = 21,86 Ecart-type = 2,14
Mdiane = 22,00
Min = 18,00 Max = 39,00
18,00 39,00
21,86
Quel ge avez-vous?
Moyenne = 21,86
Moins de 20 8 4,3%
De 20 25 165 88,7%
De 25 30 11 5,9%
30 et plus 2 1,1%
Total 186 100,0%
4,3%
88,7%
5,9%
1,1%
Quatre classes d'gales amplitudes
(ici 5 points)
Quel ge avez-vous?
Moyenne = 21,86
AGE 37 20,0%
AGE = 99 53,5%
AGE + 49 26,5%
Total 185 100,0%
20,0%
53,5%
26,5%
Trois classes entre +1 et -1
cart-type
On prfre en gnral une
mise en classes et celle-ci
peut obir plusieurs
logiques.
Le traitement plat d'une question numrique peut tre prsent de
diffrentes manires : (exemple tir de Sphinx dveloppement)
Grard Lcrivain - Universit de Boulogne sur mer - DESS Mtiers du Conseil.
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
lanalyse plat des variables quantitatives
Pour dpouiller une question texte, il
est possible de faire apparatre le
lexique, la liste des mots les plus
cits. On a exclu ici les mots outils
(mots grammaticaux sans contenu).
La liste a t limite aux 18 mots les
plus cits.
Que signifie "russir sa vie"?
vie 122 10,9%
Russir 81 7,2%
travail 55 4,9%
argent 45 4,0%
Gagner 44 3,9%
profiter 38 3,4%
famille 36 3,2%
bon 26 2,3%
amis 24 2,1%
Trouver 22 2,0%
Fonder 18 1,6%
personnelle 16 1,4%
garder 16 1,4%
faire 16 1,4%
clibataire 14 1,2%
activits 14 1,2%
job 11 1,0%
... 523 46,7%
Total 1121 100,0%
Que signifie "russir sa vie"?
Russir sa vie professionnelle et sa vie personnelle 2 1,1%
Gagner beaucoup d'argent 2 1,1%
Russir sa vie professionnelle et sa vie personnelle, c'est russir sa vie 1 0,5%
russir sa vie, c'est d'abord russir sa vie affective 1 0,5%
... 180 96,8%
Total 186 100,0%
Le cas chant, on peut
prsenter la liste des
rponses, si leur diversit
n'est pas trop grande. Ici, les
rponses sont trs
diversifies.
Grard Lcrivain - Universit de Boulogne sur mer - DESS Mtiers du Conseil.
3.3 Les diffrents niveaux de lanalyse des donnes
3.3 Les diffrents niveaux de lanalyse des donnes
Tris plat des questions-textes (exemple tir de Sphinx dveloppement)
Grard Lcrivain - Universit de Boulogne sur mer - DESS Mtiers du Conseil.

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.3 Les diffrents niveaux de
3.3 Les diffrents niveaux de
lanalyse des donnes
lanalyse des donnes :
3.32 lanalyse bivarie
3.32 Lanalyse bivarie
Pour tudier les relations entres 2 variables :
entre une variable explicative et une variable explique
Si..la section du lycen.... alors, les comportements de lecture
Quand.. Insatisfait... alors, Ne revient pas
Pour tudier le degr de convergence qui relie
deux variables quantitatives (coefficient de corrlation)
Pour tudier le degr de significativit dune relation entre deux variables
(par le test du kish2 ou partir d'une analyse de variance avec le test F de Fisher)
Le choix des traitements et tests statistiques entre deux variables
dpendra de la nature de ces dernires

Grard Lcrivain Analyse des donnes et enqutes par sondage
Il sagit de comparer les rponses chaque modalit de la variable A en fonction
de des rponses la question B.
Exemple : voir les comportements de lecture des lycens en fonction de leur section.
Dpendance
(ex: sexe et types de lecture)
Traitements : tris croiss et AFC
Test statistique : test chi
2

test de discrimination(belson)
Corrlation
(ex : nombre livres lus et ge)
Traitements : rgression
Test statistique : corrlation
Comparaison
(ex : sexe et nombre de livres lus)
Traitements : tableaux de
moyennes et analyse de la
variance
Tests statistiques test de Fisher
V2
Nominale
V2
Numrique
V1
Nominale
V1
Numrique
Si
Alors
V
a
r
i
a
b
l
e

e
x
p
l
i
c
a
t
i
v
e
V
a
r
i
a
b
l
e

e
x
p
l
i
c
a
t
i
v
e
Variable explique
Variable explique
3.32 Lanalyse bivarie
Comparaison
(ex : sexe et nombre de livres lus)
Traitements : tableaux de
moyennes
Tests statistiques : analyse
de la variance et test de Fisher

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
Le tableau de rsultats dun tri crois est appel tableau de contingence
(tudier les contingences cad les relations et le contenu des relations entre
deux variables.

Grard Lcrivain Analyse des donnes et enqutes par sondage
en effectifs
en % total
Ces deux modes de reprsentation
des donnes ne permettent pas
une lecture croise des donnes; il
convient donc de retraiter ces
donnes
3.32 / Lanalyse bivarie : croiser deux variables nominales

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour permettre une lecture croise des donnes, on les retranscrit en % lignes
ou en % colonnes ( frquences marginales lignes ou colonnes) :
frquences marginales lignes
Support de lecture privilgi en fonction de la section
gnrale technologie tertiaire industrielle Total
Livres
BD
journaux
magazines
Total
75.0% 25.0% 0.0%
40.0% 40.0% 20.0%
28.6% 57.1% 14.3%
55.6% 37.0% 7.4%
100.0%
100.0%
100.0%
100.0%
51.2% 39.5% 9.3% 100.0%
0% 10%20%30% 40%50%60% 70%80%90%100.0%
Livres
100.0%
BD
100.0%
journaux
100.0%
magazines
100.0%
Total
100.0%
Exemple de lecture : 55,6% des magazines sont lus par les lycens issus dune section
gnrale.
Support de lecture et section
gnrale
technologie
tertiaire
industrielle Total
Livres
BD
journaux
magazines
Total
13.6% 5.9% 0.0%
9.1% 11.8% 25.0%
9.1% 23.5% 25.0%
68.2% 58.8% 50.0%
9.3%
11.6%
16.3%
62.8%
100.0% 100.0% 100.0% 100.0%
0% 10%20%30% 40%50%60% 70%80%90%100.0%
Livres
100.0%
BD
100.0%
journaux
100.0%
magazines
100.0%
Total
100.0%
frquences marginales colonnes
3.32 / Lanalyse bivarie : croiser deux variables nominales

Grard Lcrivain Analyse des donnes et enqutes par sondage
Exemple de lecture :
Sur lensemble des lycens
en section gnrale, 68,2%
privilgient les magazines
comme support de lecture
premier.
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour vrifier leur degr de dpendance le test du chi2

Grard Lcrivain Analyse des donnes et enqutes par sondage
Le test du Chi-deux indique si la relation entre les deux variables est significative.
Les cases colores nous montrent les informations essentielles cad les Chi-deux partiels les plus
forts.
en bleu, les sur-reprsentations
en rose, les sous-reprsentations
Dans cet exemple, certains critres
sont lis au genre : pour les hommes
la consommation et le prix sont
dterminants, alors que pour les
femmes interroges le critre premier
est la vitesse
Quels sont pour vous dans la liste suivante les trois principaux points prendre en considration
pour l'achat d'une automobile ?
Sexe de l'interview
Vitesse Confort Scurit
Consom
mation
Prix Publicit
Distri
buteur
S.A.V.
Entretien
Total
Homme
Femme
9.2% 5.9% 3.9% 34.6% 30.1% 2.6% 3.9% 9.8%
29.4% 17.4% 14.9% 13.4% 5.0% 12.4% 4.0% 3.5%
100.0%
100.0%
p = <0.1% ; chi2 = 104.51 ; ddl = 7 (TS)
Les couples de modalits en bleu (rose) sont sur-reprsentes (sous-reprsentes)
Comparer les effectifs observs
la rfrence de lqui-rpartion.
37 hommes achtent franais
ils devraient tre :
70 x (57 / 137) = 30
Le test du chi2
mesure lcart une rpartition de rfrence
et value son importance
MARQUE
SEXE
Homme
Femme
TOTAL
Franais Etranger TOTAL
37 20 57
33 47 80
70 67 137
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour vrifier leur degr de dpendance
Explication du test du chi2 (illustration tire de Sphinx dveloppement )

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour valuer un caractre explicatif le test de Belson

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pourquoi ? : Quand on dispose de plusieurs facteurs explicatifs
dun phnomne observ, pour ces diffrents facteurs on peut se
demander quel est celui qui dispose de la force explicative la plus
importante cad le facteur discriminant.
Comment ? : Par le critre de Belson (exclusivement sur des
variables dichotomiques cad ne prenant que deux tats possibles).
Exemple : On se pose la question de savoir parmi les deux variables
explicatives suivantes (sexe et PCS) quelle est celle qui dtermine le
mieux la satisfaction lie aux conditions de la mise en place des 35
heures dans une grande entreprise ? (Tableaux page suivante)
3.32 / Lanalyse bivarie : croiser deux variables nominales
pour valuer un caractre explicatif le test de Belson

Grard Lcrivain Analyse des donnes et enqutes par sondage
Mode danalyse :

Etape 1 : Comparer la situation relle la situation de rfrence

Une situation de rfrence correspond ce que serait la ralit sil n y avait aucune
relation entre la variable expliquer et chacune des deux variables. Il faut alors mesurer la
distance qui spare la situation relle de celle de rfrence. La meilleure variable explicative
sera celle la plus loigne de lindpendance totale (la distance est leve au carr pour
obtenir des chiffres positifs)
Lindpendance totale suppose que :
Satisfait non satisfait Total
Masculin 44% 11% 55%
Fminin 36% 9% 45%
Total 80% 20% 100%

En % global Satisfait non satisfait Total
Masculin 50% 5% 55%
Fminin 30% 15% 45%
Total 80% 20% 100%

En % global Satisfait non satisfait Total
PCS- 60% 3% 63%
PCS+ 20% 17% 37%
Total 80% 20% 100%

Satisfait non satisfait Total
PCS- 50.4% 12.6% 63%
PSC+ 29.6% 7.4% 37%
Total 80% 20% 100%

3.32 / Lanalyse bivarie : croiser deux variables nominales
pour valuer un caractre explicatif le test de Belson

Grard Lcrivain Analyse des donnes et enqutes par sondage
Etape 2 : Mesure de lcart entre population relle et thorique par le critre de Belson
cad en mettant au carr la valeur absolue de lcart dtermin dans chaque tableau :

Sexe d =6 = 36
PCS d = 9.6 = 92.16

Donc d PCS > d sexe soit la variable PCS est la plus loigne de lindpendance cad la plus
prs de la dpendance : La PCS est une meilleure variable explicative que le sexe pour la
satisfaction des conditions de la mise en place des 35heures

Limite du critre de Belson :

Il sadapte une situation o les tableaux de contingence sont de taille rduite et les variables
dichotomiques.
Dans les autres cas, prendre le khi 2
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC)
Pour mieux visualiser la relation entre ces deux variables,
on reprsente les carts lqui-rpartition cad les
dpendances entre des modalits des deux variables par la
technique de lAFC

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC)
Axe 1 (74.6%)
Axe 2 (17.0%)
LOUEUR
HOTEL
RESIDENCE SECONDAIRE
CAMPING
AMIS/FAMILLE
CADRE SUPERIEUR/PROFESSION LIBERALE
COMMERCANT/ARTISAN
ETUDIANT
EMPLOYE/OUVRIER
CADRE MOYEN
RETRAITE
INACTIF
Rque : la surface des carrs est proportionnelle aux effectifs
La carte visualise les attractions et rpulsions entre diffrentes modalits des deux
variables
Les axes affichent les % de variance explique : la carte restitue ici 91,6% de
linformation initiale

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC)

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser deux variables nominales
LAnalyse Factorielle des Correspondances (AFC) (autre exemple)

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser une variable nominale
avec une variable numrique : Le tableau de moyennes croises Le tableau de moyennes croises
Un tableau de moyennes croises permet d'valuer une variable ferme en
fonction de variables ouvertes numriques ou fermes chelles.
Les modalits de la variable valuer apparaissent en ligne. Chaque critre
d'valuation occupe une colonne; si la case est coche, le test sur le t de Student
est appliqu pour comparer la moyenne de la case avec la moyenne de l'ensemble
des observations tudies.
Marque voiture croise avec ...
Quel est votre ge ?
Moyenne Ecart-type
Quel est le nombre de
personnes composant le
mnag...
Moyenne Ecart-type
Quelle distance
effectuez-vous
mensuellement ?
Moyenne Ecart-type
Combien dpensez-vous par
mois ?
Moyenne Ecart-type
Renault
Peugeot
Citron
Talbot
Ford
Fiat
Volkswagen
Opel
Japonaise
Autre
Total
18.67 0.49
19.57 0.79
18.67 0.98
18.25 0.50
20.00 1.76
18.00 0.00
19.68 1.86
20.00 2.14
19.33 1.95
19.19 1.42
19.19 1.51
3.83 1.03
4.50 1.22
3.82 1.17
4.00
3.40 0.52
3.67 0.82
3.69 1.65
2.50 0.53
3.00 0.00
3.25 1.18
3.52 1.14
1 403.83 885.64
2 771.17 817.72
1 249.27 694.58
1 604.00
2 403.40 842.85
1 287.00 1 183.10
3 065.23 255.16
2 802.50 961.61
3 203.00 0.00
2 165.88 1 070.23
2 202.31 1 057.89
903.42 602.35
1 841.33 596.86
796.00 432.03
989.00
1 483.00 520.72
802.67 753.63
1 882.92 198.04
1 729.50 653.72
1 977.00 0.00
1 343.38 678.90
1 377.83 672.03
Les modalits en bleu (rose) sont sur-values (sous-values)
Les cases qui sont
significativement
diffrentes de la
moyenne sont
encadres (en bleu si
la moyenne de la
case est suprieure,
en rouge si elle est
infrieure).

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.32 / Lanalyse bivarie : croiser une variable nominale
avec une variable numrique : Le test de Fisher Le test de Fisher
(exemple de Sphinx dveloppement)

Grard Lcrivain Analyse des donnes et enqutes par sondage
A partir d'une analyse des variances, le test F de Fisher nous
indique si la relation entre les deux variables est significative.
Dans cet exemple, l'objectif de salaire varie en fonction du genre, d'une
manire trs significative :
les filles ont un objectif de salaire nettement infrieur la moyenne
les cases colores nous
montrent les catgories dont
les moyennes sont
statistiquement diffrentes
de la moyenne gnrale (par
le test de Student)
Objectif de salaire en fonction du genre
SALAIRE
OBJECTIF
Une fille
Un garon
Total
21 474,03
28 776,60
25 488,30
p = <0,1% ; F = 15,88 (TS)
Une fille 21 474,03
Un garon 28 776,60
Total 25 488,30
Le test de Fisher est significatif si la probabilit de rejet (p) est < 5% (ici
il est trs significatif avec p <0,1%)
.
L'analyse permet de confronter deux variables correspondant des nombres
(c'est dire ouvertes numriques ou bien fermes chelles). La premire variable
est la variable expliquer (la dpense consacre son automobile), la seconde est
une variable explicative (le revenu)
Cette analyse est plus pertinente que le tableau crois des deux variables avec
leurs classes respectives.
3.32 / Lanalyse bivarie : croiser deux variables numriques :
La corrlation La corrlation

Grard Lcrivain Analyse des donnes et enqutes par sondage
REVENU
DEPENSE
0.88
257.51
La droite de rgression linaire, de type y=ax+b,
permet de dcrire une tendance, c'est dire
l'volution gnrale de la dpense consacre
son automobile en fonction du revenu.
Cette tendance est illustre par une droite de
rgression qui ajuste linairement le nuage de
point.
Le coefficient de corrlation, ici =0,9 cad trs
forte corrlation positive (ce coefficient est
toujours compris entre 1 et +1) caractrise la
qualit de lajustement (donc trs bonne qualit
de lajustement)
3.32 / Lanalyse bivarie : croiser deux variables numriques :
La corrlation La corrlation (autre exemple)

Grard Lcrivain Analyse des donnes et enqutes par sondage
TAILLE
DEPENSE
0.66
257.51
La dpense consacre son automobile en fonction du nombre de personnes
composant la famille
Lajustement est peu prcis et ce
degr dimprcision est vrifi
par un coefficient de corrlation
sans signification (r = - 0,29).
Grard Lcrivain - Universit de Boulogne sur mer - DESS Mtiers du Conseil.

Grard Lcrivain Analyse des donnes et enqutes par sondage
3.3 Les diffrents niveaux
3.3 Les diffrents niveaux
de lanalyse des donnes
de lanalyse des donnes :
3.33 lanalyse
multivarie
Rgression multiple et
Analyse de la variance
Analyse en Composantes principales et
Analyse Factorielle des Correspondances
multiples
Regrouper les individus par la classification
Automatique et la typologie
3.33 lanalyse multivarie

Grard Lcrivain Analyse des donnes et enqutes par sondage
Ses objectifs et modes dexpression Ses objectifs et modes dexpression
Pour expliquer
Pour synthtiser
Pour classifier
V1
V2
V3
Vn
V
0
Variables explicatives
Variable explique
Vo = a
1
xV
1
+ a
2
xV
2
+ a
3
xV
3
+ a
n
xV
n
Equation de rgression multiple
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple La rgression multiple

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour dterminer sous forme dquation linaire la relation
explicative amenant des variables (variables explicatives)
expliquer ou non un phnomne (variable explique)
La qualit de lajustement sapprcie par rapport la valeur du coefficient de
corrlation
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple : La rgression multiple : exemple illustratif

Grard Lcrivain Analyse des donnes et enqutes par sondage
Expliquer la dpense touristique totale V1 en fonction des
dpenses dhbergement V2, dalimentation V3, de restauration
V4 et de loisir V5
On obtient un modle du type
V1= aV2+bV3+cV4+ rsidu.
La qualit de lajustement sapprcie
par rapport la valeur du coefficient de
corrlation. Plus la valeur absolue est
leve, plus faible est lcart entre les
valeurs calcules par lquation et les
valeurs observes en ralit (cet cart
est appel rsidu) :
Equation de la rgression :
Dpense totale = +0.796 * Dpense hbergement +1.638 * Dpense alimentation
+0.734 * Dpense restaurant +1.858 * Dpense loisirs +174.856
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple : La rgression multiple : exemple illustratif

Grard Lcrivain Analyse des donnes et enqutes par sondage
Equation de la rgression :
Dpense totale = +0.796 * Dpense hbergement +1.638 * Dpense
alimentation +0.734 * Dpense restaurant +1.858 * Dpense loisirs +174.856
Les 4 variables expliquent 80.2% de la variance de Dpense totale et le
coefficient de rgression multiple = 0,9
Significativit des paramtres :
'Dpense hbergement' : coefficient = 0,80, cart-type = 0,23
'Dpense alimentation' : coefficient = 1,64, cart-type = 0,28
'Dpense restaurant' : coefficient = 0,73, cart-type = 0,45 (Peu influent)
'Dpense loisirs' : coefficient = 1,86, cart-type = 0,29
Leffet de chaque variable explicative dpend du coefficient de rgression figurant
dans lquation. Plus celui-ci est lev, plus la variable explicative considre
influence la variable explique.
3.33 lanalyse multivarie : Pour expliquer
La rgression multiple : La rgression multiple : exemple illustratif

Grard Lcrivain Analyse des donnes et enqutes par sondage
Cependant , il faut galement prendre en compte lcart type de chacun de ces
coefficients : plus il est lev, moins linfluence de la variable considre est
marque. Certains termes de l'quation sont peu influents, leur rapport
coefficient / cart-type est infrieur 2
La matrice des coefficients de corrlation peut se prsenter sous la forme
dun tableau ou dun diagramme :
Dpense totale
Dpense hbergement
Dpense alimentation
Dpense restaurant
Dpense loisirs
Dpense
totale
Dpense h
bergement
Dpense
alimentation
Dpense
restaurant
Dpense
loisirs
1,00
0,76 1,00
0,76 0,68 1,00
0,59 0,56 0,48 1,00
0,70 0,51 0,41 0,45 1,00
: coef.>0,85
: 0,85>coef.>0,70
: 0,70>coef.>0,50
Dpense totale
Dpense hbergement
Dpense alimentation
Dpense restaurant
Dpense loisirs
0,76
0,76
0,59
0,70
0,68
0,56
0,51
3.33 lanalyse multivarie : Pour expliquer
Lanalyse de la variance deux facteurs (MANOVA) Lanalyse de la variance deux facteurs (MANOVA)

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour comparer pour chaque modalit de deux variables nominales,
la valeur dune variable numrique
Exemple : analyser les valeurs de la dpense dun sjour
touristique selon le sexe et le mode dhbergement choisi
La dpense est significativement
diffrente selon le sexe pour les
touristes en camping
Quelque soit le sexe, la dpense totale
est significativement diffrente selon
les modes dhbergement sauf pour
location/gte
3.33 lanalyse multivarie : Pour synthtiser

Grard Lcrivain Analyse des donnes et enqutes par sondage
Pour rendre lisible une analyse multi-dimensionnelle en trouvant des
facteurs qui permettent de rduire le nombre de dimensions cad de
variables considrer
Les techniques :
Variables numriques : Analyse en composantes principales
Variables nominales : Analyse factorielle multiple
(table individus x modalits)
Analyse factorielle des correspondances
(tableaux croiss)
3.33 lanalyse multivarie : Pour synthtiser

Grard Lcrivain Analyse des donnes et enqutes par sondage
Analyse en Composantes Principales Analyse en Composantes Principales
LACP reprend les individus en lignes et analyse les
correspondances avec des variables numriques (critres) places
en colonnes
Exemple : (tir de Sphinx dveloppement); pour les touristes
(individus) ce que sont les critres illustratifs de vacances idales :
soleil, sport, contacts, activits, confort, nature, le monde, le repos,
la famille, le tout compris
Rque : ces critres apparaissaient sous forme dchelles dans le questionnaire et
sont donc traits comme variables numriques
Problme : nous sommes ici dans un espace danalyse 10 dimensions
quil convient de retranscrire dans un espace synthtique deux
dimensions ( limage dune photographie qui retranscrit en 2
dimensions lespace rel compos de 3 dimensions quitte sacrifier
certains dtails).
3.33 lanalyse multivarie : Pour synthtiser
Analyse en Composantes Principales Analyse en Composantes Principales

Grard Lcrivain Analyse des donnes et enqutes par sondage
Les deux dimensions sont reprsentes par deux axes :
-laxe principal 1 est la premire composante principale cad
quil reprsente lindicateur pour laquelle la variance des
individus est maximale afin dintgrer un maximum
dobservations.
Cet axe principal disposera les variables qui contribuent
positivement son sens .
- mme dmarche pour le second axe qui disposera de
variables fortement corrles avec lui mais qui sera
indpendant du 1er axe

Grard Lcrivain Analyse des donnes et enqutes par sondage
Soleil
Sport
Contacts
Club
Monde
Confort
Nature
Tout_compris
Repos_calme
Famille
Axe 1 (21.2%)
Axe 2 (17.3%)
-les variables reprsentes par un
axe (vecteurs propres)
-le cercle de corrlation
Sur la carte, on trouve :
-au niveau des facteurs :
Laxe 1 est corrl
ngativement avec repos, calme
et confort et positivement avec
soleil, sport et monde. Le
facteur 1 est donc relatif la
finalit des vacances (il oppose
sur cette dimension la
recherche de lexcitation celle
du calme et du repos)
Laxe 2 est corrl avec activits et tout compris.Le facteur 2 est relatif leur
organisation (dun ct la consommation, de lautre lautonomie).
Analyse en Composantes Principales Analyse en Composantes Principales
3.33 lanalyse multivarie : Pour classifier et
dresser des typologies

Grard Lcrivain Analyse des donnes et enqutes par sondage
- au niveau des individus : dans le mme plan factoriel, on peut reprsenter les
individus :

CALME
CONFORT
LE
MOUVEMENT
LORGANISATION
Soleil
Sport
Contacts
Club
Monde
Confort
Nature
Tout_compris
Repos_calme
Famille
Axe 1 (21.2%)
Axe 2 (17.3%)
les points situs gauche ont
un score lev sur laxe 1 et
correspondent des individus
exprimant un degr daccord
lev avec lopinion selon
laquelle les vacances idales
sont repos-calme ; on
trouvera donc gauche ceux
qui cherchent le calme, droite
ceux que le sport, le monde, le
soleil attirent, en haut ceux qui
cherchent les ambiances club,
en bas les autonomes. On
aboutit l la construction
dune typologie.

You might also like