Professional Documents
Culture Documents
DATA MINING
& STATISTIQUE DCISIONNELLE
04/04/2008
Plan du cours
Quest-ce que le data mining ? A quoi sert le data mining ? Les 2 grandes familles de techniques Le droulement dun projet de data mining Cots et gains du data mining Facteurs de succs - Erreurs - Consulting Lanalyse et la prparation des donnes Techniques descriptives de data mining Techniques prdictives de data mining Logiciels de statistique et de data mining Informatique dcisionnelle et de gestion CNIL et limites lgales du data mining Le text mining Le web mining
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 2
Techniques descriptives
04/04/2008
0%
04/04/2008
Decision Trees Clustering Statistics Neural nets Regression Visualization Assocation rules Nearest neighbor Bayesian Sequence / time series analysis SVM Hybrid methods Genetic algorithms Boosting Bagging Other
Analyse factorielle
Projection du nuage de points sur un espace de dimension infrieure pour obtenir une visualisation de lensemble des liaisons entre variables tout en minimisant la perte dinformation
Classification
carte de Kohonen Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10 04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 6
La classification
04/04/2008
Mthode descriptive : Utilisation en marketing, mdecine, sciences humaines Les objets classer sont :
des individus des variables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 8
2 objets dun mme groupe se ressemblent le + possible 2 objets de groupes distincts diffrent le + possible le nombre des groupes est parfois fix pas de variable cible privilgie dcrire de faon simple une ralit complexe en la rsumant
04/04/2008
Complexit du problme !
1 partition 1 classe (abcd) 7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad), (d,abc) 6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab) 1 partition 4 classes (a,b,c,d)
Exemple : pour n = 30 objets, on a B30 = 8,47.1023 Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 9
La classification
nb de produits
ge
revenus
04/04/2008
10
attention : il est employ dans un autre sens par les anglosaxons (qui disent classification pour dsigner la technique prdictive que les franais appellent classement )
04/04/2008
Soit une matrice rectangulaire dont : Cette structure permet de classer individus ou variables Soit une matrice carre de similarits, distances entre : Cette structure permet aussi de classer individus ou
variables
04/04/2008
12
Soit
2 classes sont toujours disjointes : mthodes de partitionnement : gnralement, le nombre de classes est dfini a priori
certaines mthodes permettent de saffranchir de cette contrainte (analyse relationnelle, mthodes paramtriques par estimation de densit comme la proc SAS/MODECLUS)
Soit
Mthodes hirarchiques
ascendantes (agglomratives)
bases sur une notion de distance ou de densit
descendantes (divisives) centres mobiles, k-means et nues dynamiques k-modes, k-prototypes, k-reprsentants (k-medoids) rseaux de Kohonen mthodes bases sur une notion de densit mthode de Condorcet (analyse relationnelle)
Mthodes de partitionnement
Applications de la classification
Marketing
: dcouper la clientle en segments dots chacun dune offre et dune communication spcifique Commercial : rpartir lensemble des magasins dune enseigne en tablissements homognes du point de vue type de clientle, CA, CA par rayon (selon type darticle), taille du magasin Mdical : dterminer des groupes de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque groupe regroupant tous les patients ragissant identiquement Sociologie : dcouper la population en groupes homognes du point de vue sociodmographique, style de vie, opinions, attentes
Stphane Tuffry - Data Mining - http://data.mining.free.fr 15
04/04/2008
Utilisation pour :
les ciblages des actions commerciales lvaluation du potentiel commercial laffectation des clients aux diffrents types de commerciaux
04/04/2008
16
patrimoine - ge
5 P C R 2 0
-5 crdit conso - CB
10
faibles revenus
PCR1
forts revenus
04/04/2008
18
Noeud 0 Catgorie % 6 42,55 2 11,80 3 11,03 4 6,99 1 20,22 5 7,40 Total (100,00)
Noeud 3 Catgorie % n 6 5,02 1734 2 0,16 54 3 0,01 3 4 0,37 127 1 94,19 32563 5 0,27 92 Total (20,55) 34573
Noeud 4 Catgorie % 6 7,36 2 28,74 3 26,95 4 16,90 1 2,10 5 17,94 Total (40,94)
Noeud 5 Catgorie % n 6 10,28 3362 2 57,00 18959 3 0,00 0 4 30,58 9996 1 1,14 373 5 0,00 0 Total (19,43) 32690
Noeud 6 Catgorie % n 6 4,73 1710 2 2,31 835 3 51,29 18557 4 4,54 1643 1 2,97 1075 5 34,16 12358 Total (21,51) 36178
04/04/2008
Noeud 7 Catgorie % n 6 8,71 2223 2 74,30 18958 3 0,00 0 4 15,53 3963 1 1,46 373 5 0,00 0 Total (15,17) 25517
Noeud 8 Catgorie % 6 15,88 2 0,01 3 0,00 4 84,11 1 0,00 5 0,00 Total (4,26)
Noeud 9 Catgorie % n 6 3,78 766 2 1,49 303 3 32,37 6565 4 5,21 1057 1 5,30 1075 5 51,84 10514 Total (12,06) 20280
Noeud 10 Catgorie % n 6 5,94 944 2 3,35 532 3 75,43 11992 4 3,69 586 1 0,00 0 5 11,60 1844 Total (9,45) 15898
19
Techniques de classification :
La classification dindividus
04/04/2008
20
Classification
Homognit des groupes dindividus Moins de variables discriminantes (ventuellement, valeurs manquantes compltes) + grande fiabilit des prdictions
04/04/2008
21
Dtecter les structures prsentes dans les donnes Permettre de dterminer le nombre optimal de classes Fournir des classes bien diffrencies Fournir des classes stables vis--vis de lgres
modifications des donnes Traiter efficacement les grands volumes de donnes Traiter tous les types de variables (quantitatives et qualitatives)
Mais
pas de critre universel de qualit semblable laire sous la courbe ROC des mthodes de scoring
de nombreuses techniques existent
04/04/2008
22
Il
faut choisir une distance entre individus, le plus souvent la distance euclidienne de standardiser les variables si elles ne sont pas toutes mesures dans la mme unit et ont des moyennes ou des variances dissemblables
Ncessit
2 pi ( xi x ) = pi ( xi x j ) + iI jclasses iI j
04/04/2008
2 pi (x j x ) jclasses iI j
24
Une classe est homogne son inertie est faible Deux critres de bonne classification : grande IR, petite IA Ces deux critres sont quivalents daprs la formule de
Huygens : ITOT = IA + IR
inertie totale
04/04/2008
25
4 classes
0. 4
0. 3
0. 2
0. 1
0. 0 1 2 3 4 5 N um ber of C l ust er s 6 7 8 9
04/04/2008
4 classes
N um be r of C lu st ers
4 classes
N um ber of C l ust er s
04/04/2008
28
Utilisables ds que lon dispose dune distance : dans un espace des individus ou des variables Schma de lalgorithme :
1) les classes initiales sont les observations 2) on calcule les distances entre classes 3) les 2 classes les plus proches sont 4)
fusionnes et
remplaces par une seule on reprend en 2) jusqu navoir plus quune seule classe, qui contient toutes les observations le niveau o lon coupe larbre dtermine le nb de classes la hauteur dune branche est proportionnelle la perte dinertie interclasse (R semi-partiel)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 29
04/04/2008
couper ici avant une forte perte dinertie interclasse en passant de 4 3 classes
04/04/2008
30
04/04/2008
31
04/04/2008
Critre de Ward (baisse dinertie interclasse rsultant de la fusion des 2 classes) correspond lobjectif davoir la plus forte inertie interclasse possible avoir la plus faible baisse dinertie en fusionnant 2 classes la distance de 2 classes A et B, de barycentres a et b, et deffectifs nA et nB, vaut :
d (a, b) d ( A, B) = 1 1 + n A nB
cest une fonction de la distance des barycentres tend produire des classes sphriques et de mmes effectifs
peu efficace sur les classes allonges trs sensible aux outliers mthode la plus utilise (fonctionne bien sur les pbs rels)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 33
04/04/2008
D C D
distance minimale(A,B) = distance minimale(C,D) = 3 distance minimale(A,C) = distance minimale(B,D) = 4 distance minimale(A,D) = distance minimale(B,C) = 5
distance maximale(A,B) = distance maximale(C,D) = 7 distance maximale(A,C) = distance maximale(B,D) = 4,4 distance maximale(A,D) = distance maximale(B,C) = 8,0 34
04/04/2008
Effet de chane
04/04/2008
35
Illustration de la CAH
04/04/2008
36
04/04/2008
37
Avantages de la CAH
Permet
de classer : des individus, des variables, des moyennes de classes obtenues en sortie dun algorithme des centres mobiles
si on classe des moyennes, on amliore les rsultats si on connat non seulement les moyennes des classes, mais aussi les inerties intraclasses et les effectifs des classes
R semi-partiel et pseudo t
04/04/2008
38
classes 2) On calcule les distances entre chaque individu et chaque centre ci de ltape prcdente, et on affecte chaque individu au centre le plus proche, ce qui dfinit k classes 3) On remplace les k centres ci par les barycentres des k classes dfinies ltape 2 4) On regarde si les centres sont rests suffisamment stables ou si un nombre fix ditrations a t atteint :
si oui, on arrte (en gnral, aprs au moins une dizaine ditrations) si non, on revient ltape 2
04/04/2008
39
04/04/2008
40
Variantes
k-means
le barycentre de chaque groupe est recalcul chaque nouvel individu introduit dans le groupe, au lieu dattendre laffectation de tous les individus la convergence est parfois possible en une seule itration plus grande rapidit les rsultats risquent de dpendre de lordre du fichier ! chaque classe nest plus reprsente par son barycentre (ventuellement extrieur la population), mais par un sous-ensemble de la classe, appel noyau, qui, sil est bien compos (des individus les plus centraux, par exemple), sera plus reprsentatif de la classe que son barycentre
Stphane Tuffry - Data Mining - http://data.mining.free.fr 41
Nues dynamiques
04/04/2008
Rapidit (complexit en n) SAS permet de dtecter les outliers et de les isoler ou non
les outliers sont des classes rduites un lment on peut les supprimer de lensemble des centres initiaux et utiliser une option ( strict=s dans la proc FASTCLUS de SAS) qui attribue le n de classe k toute observation plus proche de la ke classe que des autres, mais spare de cette classe par une distance suprieure au seuil s indiqu
choix du seuil en regardant les rayons (_radius_) des classes deffectifs levs et en choisissant s lgrement suprieur
on ne compare pas toutes les observations entre elles mais par rapport aux centres de classes
04/04/2008
42
Centres mobiles :
obligation de fixer a priori le nombre de classes
possibilit de saider dune ACP
dpendance au choix des centres initiaux ne dtecte bien que les formes convexes
surtout sphriques de mme taille
2 observations places dans des classes diffrentes ne sont jamais plus compares
pas doptimisation globale mme dfaut que les arbres de dcision
Stphane Tuffry - Data Mining - http://data.mining.free.fr 43
04/04/2008
04/04/2008
44
04/04/2008
45
04/04/2008
46
Mthodes mixtes
Exemples
les CAH Ward ou average linkage ou centroid peuvent tre prcdes dune procdure k-means algorithme BIRCH (= 2-step cluster component dans SPSS)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 47
04/04/2008
Utiliser
04/04/2008
48
converge=0.02 les itrations sarrtent quand plus aucun centre ne se dplace dune distance > 0.02
option sans objet si maxiter 1
chaque individu est affect dans le fichier OUT une classe ces (ici 10) classes sont dcrites dans le fichier MEAN delete=2 supprime les centres avec 2 individus rattachs (pour viter davoir pour centre un outlier )
Stphane Tuffry - Data Mining - http://data.mining.free.fr 49
04/04/2008
Code SAS :
proc Autres options :
fastclus data=test summary maxc=10 maxiter=50 converge=0.02 mean=centres out=presegm cluster=presegm delete=2; limite les statistiques affiches var &var; run;
(autre option : short )
drift : pour remplacer la mthode des centres mobiles par celle des k-means (convergence plus rapide) radius=d : spcifie la distance minimale entre 2 centres initiaux (= 0 par dfaut) replace=none : acclre la phase de slection des centres initiaux en empchant les substitutions des centres les plus proches (choisir alors radius assez grand) mieux vaut laisser loption par dfaut replace=full
Stphane Tuffry - Data Mining - http://data.mining.free.fr 50
04/04/2008
_FREQ_
21 31
_RMSSTD_
0.26371 0.22412
_RADIUS_
0.62286 0.45198
_NEAR_
7 6
_GAP_
0.90908 1.23883
X
-0.03354 1.25483
Y
-0.78624 1.60977
_FREQ_ : effectif de la classe donnes utilises par la CAH ultrieure _RMSSTD_ : inertie intra-classe _NEAR_ : no de la classe la + proche _GAP_ : distance entre le centre et lautre centre le + proche _RADIUS_ : distance max entre 1 individu et son centre X, Y : coordonnes du centre de la classe Le fichier OUT contient les var. initiales + les variables : CLUSTER = presegm : no de la classe DISTANCE : sparant lindividu du centre de sa classe
Obs 1 X
-1.92073 -1.88339
Y
-1.49419 -1.36798
N
1 1
presegm
9 9
DISTANCE
0.38436 0.33055
04/04/2008
51
0.90858
calcul en supposant les variables non corrles non calcul si le nb de classes > 20 % du nb dobservations
Cubic Clustering Criterion =
8.533
04/04/2008
52
Suppression des centres nayant au plus que 2 individus data centres;set centres;where _freq_ > 2;run; Nouvelle FASTCLUS sur le fichier des centres purs avec option strict=0.6 pour carter les individus loigns dune distance > 0.6 de toute classe proc fastclus data=test seed=centres summary
maxc=10 maxiter=50 converge=0.02 strict=0.6 mean=centres2 out=presegm cluster=presegm ; var &var;run;
102 103
-0.59774 -0.80046 -1.05012 -0.97533 4 4 -1 -3 0.65400 0.64009
04/04/2008
53
0.4
04/04/2008
54
CAH
par la mthode de Ward applique aux centres en sortie de la procdure FASTCLUS : proc cluster data=centres outtree=tree
CAH par la mthode de Wong applique aux centres en sortie de la procdure FASTCLUS : proc cluster data=centres outtree=tree
method=density hybrid ccc pseudo print=10 proc cluster data=centres outtree=tree method=twostage hybrid ccc pseudo print=10
method=ward ccc pseudo print=10; var &var; pour recopier la variable presegm copy presegm; dans le fichier OUTTREE run;
NCL 9 8 7 6 5 4 3 2 1
Clusters Joined
OB6 OB8
FREQ
37
SPRSQ
0.0160
RSQ
.931
ERSQ
.906
CCC
5.04
PSF
350
PST2
51.2
CL9
OB7
56
0.0181
.913
.893
3.38
312
31.2
ex aequo
OB1
OB5
43
0.0198
.893
.877
2.41
292
69.4
OB3
OB10
38
0.0199
.873
.855
2.37
290
62.0
CL7
OB4
65
0.0315
.842
.824
1.95
281
56.3
CL6
CL8
94
0.0739
.768
.778
-.88
235
84.1
CL5
CL4
159
0.1980
.570
.700
-8.2
142
140
CL3
OB9
186
0.2255
.344
.530
-7.4
113
98.0
CL2
OB2
217
0.3442
.000
.000
0.00
113
04/04/2008
56
_PARENT_
CL9 CL9 CL8
_NCL_
10 10 9
_FREQ_
19 18 37
_HEIGHT_
0.00000 0.00000 0.01599
_RMSSTD_
0.26769 0.25155 0.40234
_SPRSQ_
0.00000 0.00000 0.01599
_RSQ_
0.94681 0.94681 0.93081
_PSF_
. . 349.798
_PST2_
. . 51.224
_ERSQ_
. . 0.90621
CL3
couper ici avant une forte perte dinertie interclasse (SPRSQ)
04/04/2008
57
Les classes sont notes CLn sauf les singletons nots OBn FREQ : nb dindividus dans la nouvelle classe SPRSQ (R semi-partiel = perte dinertie interclasse) PST2 (pseudo t)
un pic pour k classes et un creux pour k+1 classes indique que la classification en k+1 classes est bonne le R doit sapprocher de 1 viter CCC << 0 (prsence doutliers) rechercher une grande valeur
Stphane Tuffry - Data Mining - http://data.mining.free.fr 58
RSQ (proportion de la variance explique par les classes) CCC (cubic clustering criterion) PSF (pseudo F)
04/04/2008
afficher le dendrogramme (dans le sens ou |) crer un fichier OUT contenant le no (CLUSTER) et le nom (CLUSNAME) de la classe de chaque individu (not OBn)
pour la classification ayant le nb de classes spcifi par NCL
3 tapes :
on dfinit une distance dP entre 2 classes comme inversement proportionnelle la densit au milieu de ces 2 classes (ou dP = si les 2 classes sont non adjacentes) CAH selon la mthode du saut minimum applique dP
montagnes sont les classes et les fonds des valles sont les frontires Stphane Tuffry - Data Mining - http://data.mining.free.fr 04/04/2008 60
Principe
: une classe est une rgion entourant un maximum local de la fonction de densit de probabilit Dtecte bien tous les types de classes, en particulier les classes de formes irrgulires et de tailles et de variances ingales Mieux vaut standardiser les variables continues et carter les outliers Rclame des effectifs suffisamment importants On ne fixe pas le nb de classes, mais un paramtre de lissage ( smoothing parameter ) qui est :
le nombre k de voisins de chaque point x ou le rayon r de la sphre entourant x ou le nb de classes des k-means prliminaires (Wong)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 61
04/04/2008
Hormis
la mthode de Wong, aucune mthode par estimation de densit nest prcde de FASTCLUS Exemple de classification par les 5 plus proches voisins :
proc proc
cluster data=test outtree=tree method=density k=5 ccc pseudo print=10; var &var;run; tree data=tree ncl=4 out=segmhier;run;
04/04/2008
Seules les mthodes par estimation de densit dtectent ces classes. Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
Stphane Tuffry - Data Mining - http://data.mining.free.fr
64
04/04/2008
Seules les mthodes Ward et par estimation de densit dtectent ces classes. Ward, Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
Stphane Tuffry - Data Mining - http://data.mining.free.fr
65
Seules les mthodes single linkage et par estimation de densit dtectent ces classes. Single linkage, Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prlim. ou 10 voisins)
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 66
04/04/2008
67
04/04/2008
68
04/04/2008
69
Le rseau de Kohonen
pijk
individu 2
individu N
rectangulaire de taille lxm) de la grille sont gnralement choisies par lutilisateur mais peuvent aussi voluer au cours de lapprentissage
Le + utilis des rseaux de Chaque nud dentre est neurones apprentissage connect tous les nuds de non supervis sortie, avec une pondration pijk
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 70
pijk
k =1
(i,j)
couche dentre
individu N
et tous les nuds voisins (I,J) voient leurs poids ajusts pIJk + .f(i,j;I,J).(xk pIJk) pour les rapprocher de (xk)
distance entre (i,j) et (I,J) f(i,j;i,j) = 1
Apprentissage du rseau
(i-1,j)
(i,j)
(i+1,j)
lajustement fait en sorte qu deux individus proches correspondent deux nuds proches en sortie
04/04/2008
Tout
se passe comme si la grille du rseau tait en caoutchouc et si on la dformait pour lui faire traverser le nuage des individus en sapprochant au plus prs des individus.
avec un plan factoriel : cest une projection non-linaire avec les autres mthodes de classification : rduction de la dimension
Une
fois que tous les individus de lchantillonnage dapprentissage ont t prsents au rseau et que tous les poids ont t ajusts, lapprentissage est achev. En phase dapplication, le rseau de Kohonen fonctionne en reprsentant chaque individu en entre par le nud du rseau qui lui est le plus proche au sens de la distance dfinie ci-dessus. Ce nud sera la classe de lindividu.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 73
04/04/2008
04/04/2008
74
Synonymes
: 1) carte de Kohonen 2) SOM (Self Organizing Map) Utilisation comme une ACP non linaire
pour reprsenter sur une carte les groupes dindividus et comparer les groupes sopposant sur la carte
Utilisation
Utilisation
voir 04/04/2008
pour placer les prototypes dun rseau de neurones RBF viter dutiliser directement pour obtenir qq classes
75
04/04/2008
76
04/04/2008
77
04/04/2008
78
Analyse relationnelle
Dfinition
La classification relationnelle
On
commence la constitution des classes en plaant chaque individu A dans la classe S telle que c(A,S) soit maximum et 0. Si c(A,S) < 0 pour tout S existant, A constitue le 1er lment dune nouvelle classe. Cette tape constitue la 1re itration.
04/04/2008
81
04/04/2008
82
Faiblesse
continues
la discrtisation fait perdre la relation dordre dans R, que ne gre pas lanalyse relationnelle le principe de la mthode conduit rassembler les individus qui sont proches sur une majorit de variables
dans le cas de 2 variables, on verra par exemple que si :
deux individus x et y sont dans le mme dcile de la 1re variable, et trs diffrents sur la 2de variable x et un autre individu z sont assez proches , car dans le mme quintile (mais pas le mme dcile) pour les 2 variables alors x sera agrg avec y et non avec z !
Conseil
04/04/2008
Techniques de classification :
La classification de variables
04/04/2008
84
Classification ascendante
ventuellement binaires
Stphane Tuffry - Data Mining - http://data.mining.free.fr
avec ACP oblique) : procdure VARCLUS de SAS Ces mthodes sappliquent des variables numriques
85
04/04/2008
1) On part de lensemble des variables 2) On fait une ACP et on retient les 2 premiers axes, de
valeurs propres 1 et 2 (on a 1 2) :
si 2 > 1 (critre de Kaiser on peut remplacer la valeur 1 par une autre), on effectue une rotation quartimax oblique et on rpartit les variables dans le groupe V1 des var plus corrles avec le 1er axe et le groupe V2 des var plus corrles avec le 2d axe
ensuite on raffecte chaque var dans V1 ou V2 pour tenter de maximiser encore plus la variance explique par la 1re composante principale de chacun de ces groupes (non orthogonales entre elles)
04/04/2008
86
04/04/2008
87
Pour chaque classe, la variable-classe est (par dfaut) la 1re composante principale de la classe Le but de VARCLUS est de maximiser la somme (sur lensemble des classes) des variances de ces variablesclasse VARCLUS exprime la variable-classe comme combinaison linaire des variables contenues dans la classe Du fait des rotations obliques de VARCLUS, les diffrentes variables-classe sont (faiblement) corrles On peut limiter la raffectation de variables lintrieur dun dcoupage de classes, pour ne pas affecter une variable une classe anciennement forme, ce qui dtruirait la structure darbre de la classification
04/04/2008
Dans une ACP, toutes les composantes principales sont calcules partir des mmes variables (variables initiales) Dans VARCLUS
les variables initiales sont spares itrativement en sousgroupes (par quartimax) et les composantes principales sont calcules sur ces sousgroupes et non lensemble des variables
Si on limite k le nb de classes de variables, de sorte que lon ne retient que k composantes par VARCLUS, ces k composantes expliquent peut-tre moins de variance que les k premires composantes de lACP, mais elles sont plus faciles interprter VARCLUS est une mthode performante de classification
mais plus consommatrice en temps de calcul que lACP : attention si plus de 30 variables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 89
04/04/2008
04/04/2008
90
Rechercher les associations consiste rechercher les rgles du type : Si pour un individu, la variable A = xA, la variable B = xB, etc, alors, dans 80% des cas, la variable Z = xZ, cette configuration se rencontrant pour 20 % des individus La valeur de 80% est appele indice de confiance et la valeur de 20% est appele indice de support Par exemple, dans lensemble de transactions ci-contre :
A B B A C
B C E B D
C E
D F
04/04/2008
Une rgle est donc une expression de la forme : >Si Condition alors Rsultat. Exemple : >Si couches et samedi, alors bire. Lindice de support est la probabilit : >p (condition et rsultat). Il ne doit pas tre trop petit. Lindice de confiance est la probabilit : >p (condition et rsultat) / p (condition).
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 92
Dans lexemple prcdent, on a : Or, probabilit (B) = 0,8 Cette probabilit est suprieure lindice de confiance
de C B, ce qui fait que lon ne gagne rien utiliser la rgle C B pour prdire B. Si lon suppose alatoirement quun ticket de caisse contient B, on na qu1 chance / 5 de se tromper, contre 1 chance / 3 en appliquant la rgle C B.
04/04/2008
93
04/04/2008
94
Il faut noter que si le lift de la rgle est < 1, alors le lift de la rgle inverse, c.a.d. de : est > 1, puisque : et Si
Si Condition alors NON Rsultat confiance (rgle inverse) = 1 - confiance (rgle) p (NON rsultat) = 1 - p (rsultat).
une rgle nest pas utile, on peut donc essayer la rgle inverse en esprant que cette dernire soit intressante en termes de mtier ou de marketing.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 95
04/04/2008
Taxinomie : dfinition
les produits dpargne bancaire, financire parmi les produits dpargne bancaire, les comptes de chques, les livrets parmi les livrets, les livrets A, les Codevi, les LEP
La
04/04/2008
96
Taxinomie : utilisation
Mais travailler au niveau le plus fin multiplie les rgles, parmi lesquelles un grand nombre nauront quun faible support et seront peut-tre limines
Taxinomie : intrt
micro-informatique ou HIFI dans un grand magasin) seront codifis au niveau le plus fin Les articles les plus courants (exemple : produits alimentaires) seront codifis un niveau plus gnral. On regroupera par exemple tous les yaourts, fromages blancs, flancs en produits laitiers , tout en distinguant un tlviseur dun magntoscope ou dun camscope. Lintrt de cette faon de procder est dobtenir des rgles plus pertinentes, dans lesquelles les articles les plus courants ne dissimulent pas, par leur frquence, les articles les moins courants.
04/04/2008
98
04/04/2008
99
Le panier de la mnagre
Cette technique est trs utilise dans la grande distribution : >do les termes danalyse du ticket de caisse ou du panier de la mnagre pour dsigner la recherche dassociations Autres usages : associations doptions retenues dans les produits packags (banque, tlphonie, assurance) web mining (analyse de la navigation sur un site internet) Difficults : volumes de donnes importants trouver des rgles intressantes noyes parmi les rgles triviales ou non utilisables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 100
04/04/2008