You are on page 1of 14

Examen : Techniques de classification

Contenu







Question 1 :

Certaines variables sont de type nominal et prennent la valeur 0 ou 1. Deux individus qui sopposent
sur cette variable auront une distance de 1 au regard de celle-ci.
Les autres variables ont t traites comme des variables intervalles et standardises au moyen de la
mthode RANGE ou DGOWER. Cela va les placer sur une chelle de 0 1. De ce fait, les carts par
rapport ces variables seront plus faibles que par rapport aux variables nominaux prenant des
valeurs 0 et 1. Alors, pour rtablir limportance de ces variables, vous avez utilis loption MULT=2.
Nous nous gardons donc dutiliser une option MULT.
La mthode RANGE utilise le maximum comme paramtre de localisation et ltendue comme
paramtre de dispersion ; elle est donc trs sensible aux valeurs extrmes, mais ce nest pas un
problme ici car, comme nous lavons vu, les valeurs sont sous forme dchelle et il ny a donc pas
doutliers.

Question 2 : Prparation des donnes et classification

Valeurs manquantes

Le tableau suivant prsente le nombre de valeurs manquantes pour chaque variable :

Obs. _VAR_ _NMISS_
1
Sexe 0
2
Age 0
3
Nat 0
4
LangMat 0
5
LangEtr 0
6
Couple 0
7
Matrim 0
8
NbEnf 0
9
NbPersM 0
10
NbFS 0
11
NivEtu 0
12
Occup 0
13
RechEmp 0
14
RevenuE 0
15
RevenuM 0
16
Proprio 0
17
Logemt 0
18
ZonLgmt 0
19
L01Lecture 0
20
L02EcMusic 0
21
L03Cinema 0
22
L04Spectacle 0
23
L05Expo 0
24
L06Tele 0
25
L07Ordi 0
26
L08ActPhy 0
27
L09Marche 0
28
L10Voyage 0
29
L11ActArtist 0
30
L12Collect 0
31
L13Benevol 0
32
L14Bricol 0
33
L15Jardin 0
34
L16Tricot 0
35
L17Cuisine 0
36
L18Chasse 0
37
VisiFam 0
38
VisiAmi 0
39
VieLocale 0






Au regard des 5500 observations et qui composent notre table. Il semble donc que bien
videmment les valeurs manquantes tant inexistantes ne perturberont pas la classification mene
par la suite.
Valeurs extrmes
Presque toutes les variables notre disposition sont sous forme dchelle, ce qui rend impossible une
valeur aberrante pour lune dentre elles.

Certes, certains individus pourraient tre de type aberrant , non pas au regard dune certaine
variable, mais par une combinaison de valeurs qui rendraient cette observation trs distante de
toutes les autres. Ces points pourraient tre tudis au moyen dun fastclus si nous devions en
mener une tude pousse.
La seule variable pouvant prendre des valeurs extrmes est lge. Nous ltudions au moyen dune
proc univariate :
Quantiles (Dfinition 5)
Quantile
Valeur
estime
100Max 100%
90
99%
84
95%
78
90%
73
75% Q3
61
50% Mdiane
48
25% Q1
36
10%
27
5%
23
1%
19
0% Min
17


Observations extrmes
Le plus bas Le plus haut
Valeur Obs Valeur Obs
17 3039 89 4963
18 5153 90 104
18 4940 90 225
18 4883 90 516
18 4838 90 3398





Nous remarquons donc quelques individus de 18 ans et quelques individus trs gs : de 84 90 ans.
Le 99
me
percentile est 90 ans, ce qui signifie que seul 1% des personnes ont un ge suprieur.

Etude de la corrlation linaire :
Un proc corr nous permet dobtenir la corrlation entre les variables. Aucune nest vraiment norme
donc elles sont tous retenues pour la classification.






Classification mixte :

Nous effectuons alors une classification mixte avec 700 graines initiales, soit 10 % de lchantillon de
dpart. Le choix de la classification mixte provient du nombre assez volumineux de nos donnes.
Nous retenons la mthode WARD dont l'esprit est proche de celui de Fastclus, et pour laquelle les
indicateurs comme le CCC ou encore le r carr semi-partiel sappliquent plutt bien.
Voici dailleurs certains indicateurs :

Le R semi-partiel fait apparaitre un pied bien net pour 7 clusters.
Le R simple prend la valeur de 0.85 pour 7 clusters. Ce qui est bien. (non montr dans ce fichier)

Le pseudo F accuse un pic 6-7 clusters pour decrotre violemment par la suite.

Le CCC certes ngatif avant 5 clusters mais grimpe environ 18 au 7 me avec un pic marqu. (le
but tant davoir le moins de cluster possible donc notre analyse).
Nous retiendrons 7 clusters.
1020

579

256

973

696

1132

844

5500


Nous obtenons donc 7 classes dont leffectif se situe aux alentours de 800, sauf pour le cluster 2
(seulement 256 individus)

Caractrisation des groupes obtenus


B) Caractrisation des groupes obtenues par caractristiques individuelles

*Des variables nominales :
Pour cela nous utiliserons la macro VNOMEFFET elle indique que le V de Cramer du plus elev au
plus faible. Contrairement au , il reste stable si lon augmente lchantillon dans les mmes
proportions inter-modalits.


Variable V de Cramer
======
Khi-2
=====
P-
value
Test du rapport
de
vraisemblance
==========
P-
value
Coefficient
Phi
=========
NivEtu 0,6756 15062,15 <.0001 11698,35 <.0001 1,6549
Occup 0,5027 6948,47 <.0001 4850,80 <.0001 1,1240
Matrim 0,4003 2643,76 <.0001 2395,74 <.0001 0,6933
Proprio 0,3844 812,83 <.0001 844,44 <.0001 0,3844
Couple 0,3195 561,49 <.0001 539,14 <.0001 0,3195
Logemt 0,2551 357,78 <.0001 350,58 <.0001 0,2551
RevenuM 0,2375 1862,08 <.0001 1765,13 <.0001 0,5819
RevenuE 0,2338 1803,16 <.0001 1646,41 <.0001 0,5726
NbEnf 0,2321 1777,27 <.0001 1646,54 <.0001 0,5685
RechEmp 0,2310 293,40 <.0001 310,99 <.0001 0,2310
NbPersM 0,2099 1453,34 <.0001 1589,60 <.0001 0,5140
LangMat 0,1834 185,07 <.0001 183,31 <.0001 0,1834
LangEtr 0,1770 172,21 <.0001 163,23 <.0001 0,1770
Nat 0,1407 217,82 <.0001 182,46 <.0001 0,1990
NbFS 0,1375 623,77 <.0001 636,79 <.0001 0,3368
ZonLgmt 0,1368 102,87 <.0001 111,87 <.0001 0,1368
Sexe 0,0943 48,94 <.0001 49,01 <.0001 0,0943




Il apparait que le niveau dtudes joue un trs grand rle en matire de loisirs. Viennent
ensuite loccupation de lenqut puis son tat matrimonial et le fait quil soit propritaire et
sa vie en couple.

Extrait cluster 1 :
Cluster=1

Variable Modalits
Effectif
modalit
cluster
Effectif
attendu
sous HO
Ecart
effectif
attendu
KHI-2 de
la
modalit
cluster
Test
value P-Value '
NivEtu 20 612 262,05 349,95 467,35 27,78 <.0001 ....|****
Occup 1 813 570,46 242,54 103,12 16,95 <.0001 ....|****
NivEtu 17 207 84,20 122,80 179,11 15,48 <.0001 ....|****
Matrim 1 404 227,37 176,63 137,22 14,72 <.0001 ....|****
Proprio 0 608 405,96 202,04 100,55 14,32 <.0001 ....|****
RechEmp 1 163 65,84 97,16 143,40 13,72 <.0001 ....|****
Occup 2 92 42,65 49,35 57,09 8,55 <.0001 ....|****
Logemt 0 403 305,44 97,56 31,16 7,39 <.0001 ....|****
NivEtu 15 171 107,38 63,62 37,70 7,19 <.0001 ....|****
RevenuM 12 204 141,87 62,13 27,21 6,23 <.0001 ....|****
RevenuE 9 225 163,20 61,80 23,40 5,85 <.0001 ....|****
RevenuM 11 157 108,31 48,69 21,89 5,48 <.0001 ....|****

RevenuM 14 57 102,74 -45,74 20,36 -5,27 <.0001 ****|....
RevenuE 12 29 68,25 -39,25 22,57 -5,45 <.0001 ****|....
Occup 3 1 34,68 -33,68 32,71 -6,45 <.0001 ****|....
Matrim 2 543 634,44 -91,44 13,18 -6,54 <.0001 ****|....
Logemt 1 617 714,56 -97,56 13,32 -7,39 <.0001 ****|....
NivEtu 99 0 47,48 -47,48 47,48 -7,82 <.0001 ****|....
NbPersM 1 91 192,50 -101,50 53,52 -9,00 <.0001 ****|....
NivEtu 30 0 63,05 -63,05 63,05 -9,08 <.0001 ****|....
RevenuM 0 119 233,12 -114,12 55,86 -9,43 <.0001 ****|....
Matrim 3 4 89,95 -85,95 82,12 -10,51 <.0001 ****|....
RechEmp 0 857 954,16 -97,16 9,89 -13,72 <.0001 ****|....
Proprio 1 412 614,04 -202,04 66,48 -14,32 <.0001 ****|....
NivEtu 40 0 202,89 -202,89 202,89 -17,63 <.0001 ****|....
NivEtu 4 25 243,69 -218,69 196,25 -17,79 <.0001 ****|....
Occup 4 0 258,15 -258,15 258,15 -20,60 <.0001 ****|....

Cluster 1

Nous analyserons toujours de la faon suivante pour la significativit des variables nominales dans
chaque cluster :
Exemple : le niveau dtude a un V de cramer important, nous pouvons le verifier dans ce
cluster puisquil est significatif positivement (****) et les toiles droit (impact negatif) . De
plus, dans ce cluster cest la modalit 20 qui a t retenues significative et moindre mesure
17. Donc dans ce cluster, il sagit davantage de ens. Professionnel court (612 individus) et
2nd cycle d'ens. gnraldans le cas du niveau dtude (qui est significatif).
Les deuxieme colonne est trs importante car cest elle qui nous renseigne en terme
caractristiques selon variables.
Aucun occup (modalit 4)
Suite de linterprtation du cluster 1 pour les caractristiques individuelles :

En suivant la dmarche ci-dessus, pour ce cluster

Cluster 2 : Extrait des variables significatives
Variable Modalits Effectif
modalit
cluster
Effectif
attendu
sous HO
Ecart
effectif
attendu
KHI-2 de
la
modalit
cluster
Test
value
P-
Value
'
NivEtu 40 440 115,17 324,83 916,19 35,75 <.0001 ....|****
NivEtu 30 139 35,79 103,21 297,60 18,83 <.0001 ....|****
RevenuM 16 82 17,37 64,63 240,47 16,64 <.0001 ....|****
RevenuM 15 82 21,27 60,73 173,46 14,19 <.0001 ....|****
RevenuE 13 90 25,48 64,52 163,42 13,82 <.0001 ....|****
Proprio 1 495 348,56 146,44 61,53 13,14 <.0001 ....|****
RevenuE 12 109 38,74 70,26 127,42 12,35 <.0001 ....|****
RevenuM 14 138 58,32 79,68 108,86 11,63 <.0001 ....|****
RevenuE 14 51 12,74 38,26 114,93 11,46 <.0001 ....|****
RevenuE 15 27 4,95 22,05 98,29 10,53 <.0001 ....|****
RevenuE 16 21 3,37 17,63 92,28 10,18 <.0001 ....|****
Matrim 2 466 360,14 105,86 31,12 9,59 <.0001 ....|****
Couple 1 486 410,14 75,86 14,03 7,33 <.0001 ....|****
NbEnf 2 262 189,39 72,61 27,84 6,80 <.0001 ....|****
LangEtr 1 93 50,53 42,47 35,69 6,61 <.0001 ....|****
Occup 1 394 323,82 70,18 15,21 6,21 <.0001 ....|****
NbPersM 2 277 211,39 65,61 20,37 5,99 <.0001 ....|****
Sexe 0 323 261,71 61,29 14,35 5,41 <.0001 ....|****
Variable Modalits Effectif
modalit
cluster
Effectif
attendu
sous HO
Ecart
effectif
attendu
KHI-2 de
la
modalit
cluster
Test
value
P-
Value
'
Logemt 1 461 405,62 55,38 7,56 5,31 <.0001 ....|****
RevenuE 11 90 55,90 34,10 20,80 5,07 <.0001 ....|****

Impact positif sur les loisirs.
Cluster 3 :

Pas assez de temps pour ajouter toutes les variables significatives et surtout les interpreter avec leurs
modalits.


Niveau tu
Occup
matrim
99 = "Non concern, tudes en cours"
3 = "Etudiant ou en formation".

Mari

Les autres ne pouvant pas tre pris en compte car frquence trop faible dans le cluster malgr
sa significativit.



Occup 4
NivEtu 4
Logemt 1
Pas assez de temps pour ajouter toutes les variables significatives et surtout les interprter avec leurs
modalits.
Cluster 5 :

NivEtu 4
Occup 6
Matrim 2


Cluster 6 :
NivEtu 20
Matrim 2
NivEtu 15
Logemt 1

Cluster 7 :
NivEtu (40
30 )Occup 1
Matrim 1

Activit de loisirs :
Voici les variables loisirs qui discriminent le mieux les groupes :

Variable V de Cramer
======
Khi-2
=====
P-
value
Test du
rapport
de
vraisemblance
==========
P-
value
Coefficient
Phi
=========
L07Ordi 0,5321 1557,51 <.0001 1788,52 <.0001 0,5321
L03Cinema 0,5085 1422,00 <.0001 1556,66 <.0001 0,5085
L08ActPhy 0,4330 1031,17 <.0001 1092,22 <.0001 0,4330
L02EcMusic 0,3581 705,13 <.0001 752,37 <.0001 0,3581
L04Spectac 0,3345 615,42 <.0001 612,99 <.0001 0,3345
L05Expo 0,3323 607,16 <.0001 587,29 <.0001 0,3323
L10Voyage 0,3177 555,12 <.0001 556,11 <.0001 0,3177
L11ActArti 0,2632 381,11 <.0001 352,36 <.0001 0,2632
L01Lecture 0,2449 329,88 <.0001 339,93 <.0001 0,2449



Voir code pour
plus de dtails par
cluster

******VARIABLES INTERVALLES


Variable Moyenn
e dans
la classe
Moyenne
d'ensembl
e
Valeu
r test
Probabilit
de
la valeur
test
--------
-
Somme
des scores
Score
attend
u sous
H0
Score
moyen
NbPersM 3.4529 2.6227 23,36 <.0001 ....|***
*
814.75298
8
510.00 0.79877
7
RevenuM 9.6912 8.8900 5,33 <.0001 ....|***
*
540.61986
3
510.00 0.53001
9
L06Temp
s
2.7723 2.6688 2,04 0.0208 ....|**.. 500.76499
3
464.41 0.53903
7
NbFS 3.1745 3.0409 2,00 0.0226 ....|**.. 540.48238
1
510.00 0.52988
5
RevenuE 7.8696 8.1327 -2,59 0.0048 .***|...
.
453.51136
4
510.00 0.44461
9
NbEnf 1.5892 1.8947 -7,59 <.0001 ****|..
..
439.61534
2
510.00 0.43099
5
Age 34.0039 49.1575 -32,01 <.0001 ****|..
..
0.000000 510.00 0.00000
0
Sortie cluster 1
Nb persM est superieur la moyenne densemble dans le cluster
De meme que revenuM
L06TempA
Quant lage et nombre denfant elle est inferieur la moyenne densemble (de lechantillon)
Et ainsi de suite pour les autres clusters (manque de temps)

QUESTION 3 :
Il faudrait faire un proc tabulate mlant les clusters retenues, L06Tele, L06Temps
Ainsi que les choix de programmes.
Le temps ne permet pas de raliser cela.

You might also like