You are on page 1of 101

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Plan du cours

Quest-ce que le data mining ? A quoi sert le data mining ? Les 2 grandes familles de techniques Le droulement dun projet de data mining Cots et gains du data mining Facteurs de succs - Erreurs - Consulting Lanalyse et la prparation des donnes Techniques descriptives de data mining Techniques prdictives de data mining Logiciels de statistique et de data mining Informatique dcisionnelle et de gestion CNIL et limites lgales du data mining Le text mining Le web mining
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 2

Techniques descriptives

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10% 20% 30% 40% 50% 60%

0%

04/04/2008
Decision Trees Clustering Statistics Neural nets Regression Visualization Assocation rules Nearest neighbor Bayesian Sequence / time series analysis SVM Hybrid methods Genetic algorithms Boosting Bagging Other

Sondages sur www.kdnuggets.com

Stphane Tuffry - Data Mining - http://data.mining.free.fr 4

avril 2006 en % des votants

novembre 2003 en % des votants

Les techniques descriptives

Rappel : Les techniques descriptives :



visent mettre en vidence des informations prsentes mais caches par le volume des donnes il ny a pas de variable cible prdire

Analyse factorielle
Projection du nuage de points sur un espace de dimension infrieure pour obtenir une visualisation de lensemble des liaisons entre variables tout en minimisant la perte dinformation

Classification

Dtection dassociations entre des objets


04/04/2008

Trouver dans lespace de travail des groupes homognes dindividus ou de variables

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 principales familles de mthodes descriptives

carte de Kohonen Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10 04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 6

Techniques descriptives de data mining :

La classification

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que la classification ?

Regrouper des objets en groupes, ou classes, ou familles,


ou segments, ou clusters, de sorte que :

Mthode descriptive : Utilisation en marketing, mdecine, sciences humaines Les objets classer sont :

des individus des variables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 8

2 objets dun mme groupe se ressemblent le + possible 2 objets de groupes distincts diffrent le + possible le nombre des groupes est parfois fix pas de variable cible privilgie dcrire de faon simple une ralit complexe en la rsumant

04/04/2008

Complexit du problme !

Le nombre de partitions (non recouvrantes) de n objets est


le nombre de Bell :

1 kn Bn = e k =1 k! Exemple : pour n = 4 objets, on a Bn = 15, avec

1 partition 1 classe (abcd) 7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad), (d,abc) 6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab) 1 partition 4 classes (a,b,c,d)

Exemple : pour n = 30 objets, on a B30 = 8,47.1023 Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 9

La classification
nb de produits

ge

revenus

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10

Terminologie : de nombreux synonymes

Classification, ou classification automatique, terme


gnralement employ par les auteurs franais

attention : il est employ dans un autre sens par les anglosaxons (qui disent classification pour dsigner la technique prdictive que les franais appellent classement )

Segmentation : terme employ en marketing (les


segments de clientle ) et assez explicite Typologie, ou analyse typologique Clustering : terme anglo-saxon le plus courant Taxinomie ou taxonomie (biologie, zoologie) Nosologie (mdecine) Reconnaissance de forme non supervise ...
Stphane Tuffry - Data Mining - http://data.mining.free.fr 11

04/04/2008

Structure des donnes classer

Soit une matrice rectangulaire dont : Cette structure permet de classer individus ou variables Soit une matrice carre de similarits, distances entre : Cette structure permet aussi de classer individus ou
variables

lignes = individus colonnes = variables

individus ou variables (par exemple : la matrice des corrlations)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

12

Structure des classes obtenues

Soit

2 classes sont toujours disjointes : mthodes de partitionnement : gnralement, le nombre de classes est dfini a priori
certaines mthodes permettent de saffranchir de cette contrainte (analyse relationnelle, mthodes paramtriques par estimation de densit comme la proc SAS/MODECLUS)

Soit

2 classes sont disjointes ou lune contient lautre : mthodes hirarchiques :


ascendantes (agglomratives : agglomration progressive dlments 2 2) descendantes (divisives)

Soit 2 classes peuvent avoir plusieurs objets en commun


(classes empitantes ou recouvrantes ) :
analyse floue , o chaque objet a une certaine probabilit dappartenir une classe donne
Stphane Tuffry - Data Mining - http://data.mining.free.fr 13 04/04/2008

Les diffrentes mthodes

Mthodes hirarchiques

ascendantes (agglomratives)
bases sur une notion de distance ou de densit

descendantes (divisives) centres mobiles, k-means et nues dynamiques k-modes, k-prototypes, k-reprsentants (k-medoids) rseaux de Kohonen mthodes bases sur une notion de densit mthode de Condorcet (analyse relationnelle)

Mthodes de partitionnement

Mthodes mixtes Analyse floue (fuzzy clustering)


04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 14

Applications de la classification

Marketing

: dcouper la clientle en segments dots chacun dune offre et dune communication spcifique Commercial : rpartir lensemble des magasins dune enseigne en tablissements homognes du point de vue type de clientle, CA, CA par rayon (selon type darticle), taille du magasin Mdical : dterminer des groupes de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque groupe regroupant tous les patients ragissant identiquement Sociologie : dcouper la population en groupes homognes du point de vue sociodmographique, style de vie, opinions, attentes
Stphane Tuffry - Data Mining - http://data.mining.free.fr 15

04/04/2008

Classification gnrale de la clientle

Dtection des profils :



clients clients clients clients clients dont on est la 2de banque avec faibles encours mais 1re banque chez nous tendance pargne tendance crdit consommation tendance crdit habitat

Utilisation pour :
les ciblages des actions commerciales lvaluation du potentiel commercial laffectation des clients aux diffrents types de commerciaux

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

16

Reprsentation des classes


10

patrimoine - ge
5 P C R 2 0

-5 crdit conso - CB

10

faibles revenus

PCR1

forts revenus

S1 : rouge S2 : vert S3 : rose


04/04/2008

S4 : orange S5 : bleu S6 : noir


17

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Interprtation des classes

Statistiques descriptives des classes (comparaison des


moyenne ou des modalits par un test statistique)

Analyse factorielle reprsentant les classes obtenues et les


variables initiales

Arbre de dcision avec la classe obtenue comme variable


cible

Classification des variables : variables initiales +


indicatrices des classes obtenues

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

18

Reprsentation des classes


Noeud 1 Catgorie % n 6 100,00 64771 2 0,00 0 3 0,00 0 4 0,00 0 1 0,00 0 5 0,00 0 Total (38,51) 64771 Noeud 2 Catgorie % 6 6,58 2 19,19 3 17,94 4 11,37 1 32,88 5 12,04 Total (61,49) n 6806 19848 18560 11766 34011 12450 103441

Noeud 0 Catgorie % 6 42,55 2 11,80 3 11,03 4 6,99 1 20,22 5 7,40 Total (100,00)

n 71577 19848 18560 11766 34011 12450 168212

Identification des classes par un arbre de dcision

Noeud 3 Catgorie % n 6 5,02 1734 2 0,16 54 3 0,01 3 4 0,37 127 1 94,19 32563 5 0,27 92 Total (20,55) 34573

Noeud 4 Catgorie % 6 7,36 2 28,74 3 26,95 4 16,90 1 2,10 5 17,94 Total (40,94)

n 5072 19794 18557 11639 1448 12358 68868

Noeud 5 Catgorie % n 6 10,28 3362 2 57,00 18959 3 0,00 0 4 30,58 9996 1 1,14 373 5 0,00 0 Total (19,43) 32690

Noeud 6 Catgorie % n 6 4,73 1710 2 2,31 835 3 51,29 18557 4 4,54 1643 1 2,97 1075 5 34,16 12358 Total (21,51) 36178

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Noeud 7 Catgorie % n 6 8,71 2223 2 74,30 18958 3 0,00 0 4 15,53 3963 1 1,46 373 5 0,00 0 Total (15,17) 25517

Noeud 8 Catgorie % 6 15,88 2 0,01 3 0,00 4 84,11 1 0,00 5 0,00 Total (4,26)

n 1139 1 0 6033 0 0 7173

Noeud 9 Catgorie % n 6 3,78 766 2 1,49 303 3 32,37 6565 4 5,21 1057 1 5,30 1075 5 51,84 10514 Total (12,06) 20280

Noeud 10 Catgorie % n 6 5,94 944 2 3,35 532 3 75,43 11992 4 3,69 586 1 0,00 0 5 11,60 1844 Total (9,45) 15898

19

Techniques de classification :

La classification dindividus

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

20

Intrt de la classification pour la prdiction

Classification
Homognit des groupes dindividus Moins de variables discriminantes (ventuellement, valeurs manquantes compltes) + grande fiabilit des prdictions

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

21

Critres de bon algorithme

Dtecter les structures prsentes dans les donnes Permettre de dterminer le nombre optimal de classes Fournir des classes bien diffrencies Fournir des classes stables vis--vis de lgres
modifications des donnes Traiter efficacement les grands volumes de donnes Traiter tous les types de variables (quantitatives et qualitatives)

Mais

Ce point est rarement obtenu sans transformation

pas de critre universel de qualit semblable laire sous la courbe ROC des mthodes de scoring
de nombreuses techniques existent

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

22

Classification avec des variables continues

Il

faut choisir une distance entre individus, le plus souvent la distance euclidienne de standardiser les variables si elles ne sont pas toutes mesures dans la mme unit et ont des moyennes ou des variances dissemblables

Ncessit

Prfrable disoler les outliers (individus hors-norme)


Voir exemple plus loin des 2 ellipses avec CAH single linkage

Quand on a des variables qualitatives se ramener


une classification de variables continues par une ACM
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 23

Inertie dun nuage dindividus

Inertie totale ITOT de la population : moyenne (pondre


par le poids de chaque individu gnralement 1/effectif) des carrs des distances des individus au barycentre Inertie intraclasse IA : somme des inerties totales de chaque classe Inertie interclasse IR : moyenne (pondre par la somme des poids de chaque classe) des carrs des distances des barycentres de chaque classe au barycentre global Formule de Huygens : ITOT = IA + IR
2

2 pi ( xi x ) = pi ( xi x j ) + iI jclasses iI j
04/04/2008

2 pi (x j x ) jclasses iI j
24

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Inertie et qualit dune classification

Une classe est homogne son inertie est faible Deux critres de bonne classification : grande IR, petite IA Ces deux critres sont quivalents daprs la formule de
Huygens : ITOT = IA + IR

inertie totale

inertie interclasse + inertie intraclasse

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Mesures de qualit dune classification

R = proportion de la variance explique par les classes



rapport IR / ITOT tre le plus proche possible de 1 sans avoir trop de classes sarrter aprs le dernier saut important
R -S qua r ed 1. 0 0. 9 0. 8 0. 7 0. 6 0. 5

4 classes

0. 4

0. 3

0. 2

0. 1

0. 0 1 2 3 4 5 N um ber of C l ust er s 6 7 8 9

Pseudo F = mesure la sparation entre toutes les classes



rechercher une grande valeur avec n = nb dobservations et c = nb de classes on a pseudo F =
R c 1 1 R nc
26

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Mesures de qualit dune classification

Cubic clustering criterion (CCC)



> 2 : bonne classification entre 0 et 2 : classification peut-tre OK mais vrifier < 0 : prsence doutliers gnants (surtout si CCC < - 30)
un creux pour k classes suivi dun pic pour k+1 classes indique une bonne classification en k+1 classes (surtout si on
a une ou une douce partir de k+2 classes)
C u bi c C l ust er i ng C ri t e r i on 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 1 2 3 4 5 6 7 8 9

4 classes

N um be r of C lu st ers

Ne pas utiliser CCC et pseudo F avec single linkage


04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 27

Mesures de qualit dune CAH

semi-partiel (SPRSQ) = mesure la perte dinertie interclasse provoque en regroupant 2 classes


le but tant davoir une inertie interclasse maximum, on recherche un faible SPRSQ suivi dun fort SPRSQ lagrgation suivante un pic pour k classes et un creux pour k+1 classes indique une bonne classification en k+1 classes
S e m i -P ar t i al R -S qu ar ed 0. 35 0. 34 0. 33 0. 32 0. 31 0. 30 0. 29 0. 28 0. 27 0. 26 0. 25 0. 24 0. 23 0. 22 0. 21 0. 20 0. 19 0. 18 0. 17 0. 16 0. 15 0. 14 0. 13 0. 12 0. 11 0. 10 0. 09 0. 08 0. 07 0. 06 0. 05 0. 04 0. 03 0. 02 0. 01

4 classes

N um ber of C l ust er s

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

Classification ascendante hirarchique

Utilisables ds que lon dispose dune distance : dans un espace des individus ou des variables Schma de lalgorithme :

1) les classes initiales sont les observations 2) on calcule les distances entre classes 3) les 2 classes les plus proches sont 4)

fusionnes et

remplaces par une seule on reprend en 2) jusqu navoir plus quune seule classe, qui contient toutes les observations le niveau o lon coupe larbre dtermine le nb de classes la hauteur dune branche est proportionnelle la perte dinertie interclasse (R semi-partiel)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 29

Rsultat sous forme dun arbre appel dendrogramme :


04/04/2008

Classification ascendante hirarchique

couper ici avant une forte perte dinertie interclasse en passant de 4 3 classes

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

30

Les diffrentes distances utilises 1/3

Distance minimale entre 2 observations a A et b B



sait dtecter les classes allonges/irrgulires voire sinueuses sensible leffet de chane : 2 classes bien distinctes mais relies par une srie de points isols vont se retrouver regroupes moins adapte pour dtecter les classes sphriques bonnes proprits thoriques frquemment utilise saut minimum ou single linkage

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

31

Les diffrentes distances utilises 2/3

Distance maximale entre 2 observations a A et b B



tend produire des classes de diamtres gaux trs sensible aux outliers ! peu utilise saut maximum ou critre du diamtre ou complete linkage intermdiaire entre saut minimum et saut maximum tend produire des classes de variances gales saut moyen ou average linkage plus simple calculer mais moins prcise distance des barycentres ou centroid method
Stphane Tuffry - Data Mining - http://data.mining.free.fr 32

Distance moyenne entre 2 observations a A et b B

Distance entre les barycentres ( centrodes ) de A et B

04/04/2008

Les diffrentes distances utilises 3/3

Critre de Ward (baisse dinertie interclasse rsultant de la fusion des 2 classes) correspond lobjectif davoir la plus forte inertie interclasse possible avoir la plus faible baisse dinertie en fusionnant 2 classes la distance de 2 classes A et B, de barycentres a et b, et deffectifs nA et nB, vaut :

d (a, b) d ( A, B) = 1 1 + n A nB

cest une fonction de la distance des barycentres tend produire des classes sphriques et de mmes effectifs
peu efficace sur les classes allonges trs sensible aux outliers mthode la plus utilise (fonctionne bien sur les pbs rels)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 33

04/04/2008

Influence du choix de la distance


A B A B

D C D

distance minimale(A,B) = distance minimale(C,D) = 3 distance minimale(A,C) = distance minimale(B,D) = 4 distance minimale(A,D) = distance minimale(B,C) = 5

distance maximale(A,B) = distance maximale(C,D) = 7 distance maximale(A,C) = distance maximale(B,D) = 4,4 distance maximale(A,D) = distance maximale(B,C) = 8,0 34

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Effet de chane

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

35

Illustration de la CAH

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

36

Illustration de la CAH (autre cas)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

37

Avantages de la CAH

Permet

de classer : des individus, des variables, des moyennes de classes obtenues en sortie dun algorithme des centres mobiles
si on classe des moyennes, on amliore les rsultats si on connat non seulement les moyennes des classes, mais aussi les inerties intraclasses et les effectifs des classes

Sadapte aux diverses formes de classes, par le choix de


la distance Permet de choisir le nombre de classes de faon optimale, grce des indicateurs de qualit de la classification en fonction du nombre de classes

R semi-partiel et pseudo t

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

38

Mthode des centres mobiles

1) On choisit k individus comme centres initiaux des

classes 2) On calcule les distances entre chaque individu et chaque centre ci de ltape prcdente, et on affecte chaque individu au centre le plus proche, ce qui dfinit k classes 3) On remplace les k centres ci par les barycentres des k classes dfinies ltape 2 4) On regarde si les centres sont rests suffisamment stables ou si un nombre fix ditrations a t atteint :

si oui, on arrte (en gnral, aprs au moins une dizaine ditrations) si non, on revient ltape 2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

39

Centres mobiles : illustration

Source : Ludovic Lebart Analyse des donnes applique - 2002

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

40

Variantes

k-means

le barycentre de chaque groupe est recalcul chaque nouvel individu introduit dans le groupe, au lieu dattendre laffectation de tous les individus la convergence est parfois possible en une seule itration plus grande rapidit les rsultats risquent de dpendre de lordre du fichier ! chaque classe nest plus reprsente par son barycentre (ventuellement extrieur la population), mais par un sous-ensemble de la classe, appel noyau, qui, sil est bien compos (des individus les plus centraux, par exemple), sera plus reprsentatif de la classe que son barycentre
Stphane Tuffry - Data Mining - http://data.mining.free.fr 41

Nues dynamiques

04/04/2008

Avantages des centres mobiles

Rapidit (complexit en n) SAS permet de dtecter les outliers et de les isoler ou non

les outliers sont des classes rduites un lment on peut les supprimer de lensemble des centres initiaux et utiliser une option ( strict=s dans la proc FASTCLUS de SAS) qui attribue le n de classe k toute observation plus proche de la ke classe que des autres, mais spare de cette classe par une distance suprieure au seuil s indiqu
choix du seuil en regardant les rayons (_radius_) des classes deffectifs levs et en choisissant s lgrement suprieur

on ne compare pas toutes les observations entre elles mais par rapport aux centres de classes

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

42

Inconvnients de ces techniques

Centres mobiles :

obligation de fixer a priori le nombre de classes
possibilit de saider dune ACP

dpendance au choix des centres initiaux ne dtecte bien que les formes convexes
surtout sphriques de mme taille

Classification ascendante hirarchique :


complexit algorithmique non linaire (en n2 ou n3, parfois n2log(n))
lalgorithme des voisins rciproques permet de passer de n3 en n2, en regroupant judicieusement plus de 2 observations pas seulement les 2 plus proches chaque itration

2 observations places dans des classes diffrentes ne sont jamais plus compares
pas doptimisation globale mme dfaut que les arbres de dcision
Stphane Tuffry - Data Mining - http://data.mining.free.fr 43

04/04/2008

Influence du choix des centres initiaux

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

44

CAH versus nues dynamiques 1/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

45

CAH versus nues dynamiques 2/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

46

Mthodes mixtes

Combiner les avantages de CAH et des k-means



effectuer une 1re classification sur les n observations par les centres mobiles ou les k-means, en fixant le nombre de classes entre 10 et 100 (ou limite de Wong : n0,3) valeur assez grande pour limiter le risque de fusion de classes naturelles puis effectuer la CAH sur les centres de ces pr-classes la mthode par estimation de densit de Wong est obligatoirement prcde dune procdure k-means
les autres mthodes par estim. de densit ne sont pas mixtes

Exemples

les CAH Ward ou average linkage ou centroid peuvent tre prcdes dune procdure k-means algorithme BIRCH (= 2-step cluster component dans SPSS)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 47

04/04/2008

Mthodes mixtes avec SAS 1/12 :


premire phase de standardisation

Standardiser les variables :


proc standard data=dbscan out=test mean=0 std=1; var &var; run; Cette tape est vivement recommande si les variables ont des variances sensiblement ingales
une ACM si les variables sont qualitatives et non quantitatives

Utiliser

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

48

Mthodes mixtes avec SAS 2/12

Lancer une procdure des centres mobiles pour obtenir :



(au +) maxc (ici 10) classes, dont le no est dans cluster en (au +) maxiter (ici 50) itrations (sauf si convergence avant)
valeur par dfaut = 1 valeur conseille 10 valeur = 0 chaque individu est directement affect lun des centres initiaux et on obtient aussitt les classes finales

converge=0.02 les itrations sarrtent quand plus aucun centre ne se dplace dune distance > 0.02
option sans objet si maxiter 1

chaque individu est affect dans le fichier OUT une classe ces (ici 10) classes sont dcrites dans le fichier MEAN delete=2 supprime les centres avec 2 individus rattachs (pour viter davoir pour centre un outlier )
Stphane Tuffry - Data Mining - http://data.mining.free.fr 49

04/04/2008

Mthodes mixtes avec SAS 3/12 :


requte pour les centres mobiles

Code SAS :
proc Autres options :
fastclus data=test summary maxc=10 maxiter=50 converge=0.02 mean=centres out=presegm cluster=presegm delete=2; limite les statistiques affiches var &var; run;
(autre option : short )

drift : pour remplacer la mthode des centres mobiles par celle des k-means (convergence plus rapide) radius=d : spcifie la distance minimale entre 2 centres initiaux (= 0 par dfaut) replace=none : acclre la phase de slection des centres initiaux en empchant les substitutions des centres les plus proches (choisir alors radius assez grand) mieux vaut laisser loption par dfaut replace=full
Stphane Tuffry - Data Mining - http://data.mining.free.fr 50

04/04/2008

Mthodes mixtes avec SAS 4/12 :


donnes crites en sortie
Une ligne par classe

Le fichier MEAN contient des infos sur les classes :


Obs 1 2 presegm
1 2

_FREQ_
21 31

_RMSSTD_
0.26371 0.22412

_RADIUS_
0.62286 0.45198

_NEAR_
7 6

_GAP_
0.90908 1.23883

X
-0.03354 1.25483

Y
-0.78624 1.60977

Une ligne par individu

_FREQ_ : effectif de la classe donnes utilises par la CAH ultrieure _RMSSTD_ : inertie intra-classe _NEAR_ : no de la classe la + proche _GAP_ : distance entre le centre et lautre centre le + proche _RADIUS_ : distance max entre 1 individu et son centre X, Y : coordonnes du centre de la classe Le fichier OUT contient les var. initiales + les variables : CLUSTER = presegm : no de la classe DISTANCE : sparant lindividu du centre de sa classe
Obs 1 X
-1.92073 -1.88339

Y
-1.49419 -1.36798

N
1 1

presegm
9 9

DISTANCE
0.38436 0.33055

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

51

Mthodes mixtes avec SAS 5/12 :


qualit de la classification

Vrifier que R >> 0 et CCC > 2 Exemple :


Pseudo F Statistic =
401.74
0.94535

Observed Over-All R-Squared =

Approximate Expected Over-All R-Squared =

0.90858

calcul en supposant les variables non corrles non calcul si le nb de classes > 20 % du nb dobservations
Cubic Clustering Criterion =
8.533

calcul en supposant les variables non corrles

Maximiser ces valeurs en testant diffrentes valeurs du nb


de classes

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

52

Mthodes mixtes avec SAS 6/12 :


FASTCLUS en 2 temps pour liminer des outliers

Premire FASTCLUS pour crer un fichier de centres


proc fastclus data=test summary maxc=10 maxiter=50

Suppression des centres nayant au plus que 2 individus data centres;set centres;where _freq_ > 2;run; Nouvelle FASTCLUS sur le fichier des centres purs avec option strict=0.6 pour carter les individus loigns dune distance > 0.6 de toute classe proc fastclus data=test seed=centres summary
maxc=10 maxiter=50 converge=0.02 strict=0.6 mean=centres2 out=presegm cluster=presegm ; var &var;run;
102 103
-0.59774 -0.80046 -1.05012 -0.97533 4 4 -1 -3 0.65400 0.64009

converge=0.02 outseed=centres delete=2; var &var; run;

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

53

Mthodes mixtes avec SAS 7/12 :


visualisation des classes
Plot of _GAP_*_FREQ_. Plot of _RADIUS_*_FREQ_. Symbol used is 'G'. Symbol used is 'R'. 1.4 D i s t a n 1.2 c e t o 1.0 N e a r e s 0.8 t C l u s 0.6 t e r proc gplot data=centres; plot _gap_*_freq_='G' _radius_*_freq_='R' / overlay; run; G G G G G G G G G G R R R R R R fixer strict proche des _radius_ des grands clusters R R R R 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Frequency of Mining Cluster - http://data.mining.free.fr Stphane Tuffry - Data

0.4

04/04/2008

54

Mthodes mixtes avec SAS 8/12 :


classification ascendante hirarchique

CAH

par la mthode de Ward applique aux centres en sortie de la procdure FASTCLUS : proc cluster data=centres outtree=tree

CAH par la mthode de Wong applique aux centres en sortie de la procdure FASTCLUS : proc cluster data=centres outtree=tree
method=density hybrid ccc pseudo print=10 proc cluster data=centres outtree=tree method=twostage hybrid ccc pseudo print=10

method=ward ccc pseudo print=10; var &var; pour recopier la variable presegm copy presegm; dans le fichier OUTTREE run;

Structure hirarchique dcrite dans le fichier OUTTREE


04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 55

Mthodes mixtes avec SAS 9/12 :


historique des dernires fusions de classes
Cluster History T i e

NCL 9 8 7 6 5 4 3 2 1

Clusters Joined
OB6 OB8

FREQ
37

SPRSQ
0.0160

RSQ
.931

ERSQ
.906

CCC
5.04

PSF
350

PST2
51.2

CL9

OB7

56

0.0181

.913

.893

3.38

312

31.2

ex aequo

OB1

OB5

43

0.0198

.893

.877

2.41

292

69.4

OB3

OB10

38

0.0199

.873

.855

2.37

290

62.0

CL7

OB4

65

0.0315

.842

.824

1.95

281

56.3

CL6

CL8

94

0.0739

.768

.778

-.88

235

84.1

CL5

CL4

159

0.1980

.570

.700

-8.2

142

140

CL3

OB9

186

0.2255

.344

.530

-7.4

113

98.0

CL2

OB2

217

0.3442

.000

.000

0.00

113

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

56

Mthodes mixtes avec SAS 10/12 :


fichier OUTTREE et dendrogramme
Obs 1 2 3 _NAME_
OB6 OB8 CL9

_PARENT_
CL9 CL9 CL8

_NCL_
10 10 9

_FREQ_
19 18 37

_HEIGHT_
0.00000 0.00000 0.01599

_RMSSTD_
0.26769 0.25155 0.40234

_SPRSQ_
0.00000 0.00000 0.01599

_RSQ_
0.94681 0.94681 0.93081

_PSF_
. . 349.798

_PST2_
. . 51.224

_ERSQ_
. . 0.90621

CL3
couper ici avant une forte perte dinertie interclasse (SPRSQ)

CL4 CL5 CL6 CL8

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

57

Mthodes mixtes avec SAS 11/12 :


choix du nombre de classes

Les classes sont notes CLn sauf les singletons nots OBn FREQ : nb dindividus dans la nouvelle classe SPRSQ (R semi-partiel = perte dinertie interclasse) PST2 (pseudo t)

un pic pour k classes et un creux pour k+1 classes indique que la classification en k+1 classes est bonne le R doit sapprocher de 1 viter CCC << 0 (prsence doutliers) rechercher une grande valeur
Stphane Tuffry - Data Mining - http://data.mining.free.fr 58

RSQ (proportion de la variance explique par les classes) CCC (cubic clustering criterion) PSF (pseudo F)
04/04/2008

les petites classes isoles expliquent ici un CCC lgrement ngatif

Mthodes mixtes avec SAS 12/12 :


fin de la requte

La proc TREE sert :


proc tree data=tree ncl=4 out=segmhier; copy presegm;run; horizontal

afficher le dendrogramme (dans le sens ou |) crer un fichier OUT contenant le no (CLUSTER) et le nom (CLUSNAME) de la classe de chaque individu (not OBn)
pour la classification ayant le nb de classes spcifi par NCL

Il ne reste plus qu croiser :



le fichier PRESEGM contenant la pr-classe PRESEGM de chaque individu le fichier SEGMHIER contenant la classe dfinitive CLUSTER de chaque pr-classe

data segm; merge presegm segmhier; by presegm; run;


04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 59

Les mthodes non paramtriques en CAH (estimation de densit)

3 tapes :

estimation de la densit selon une certaine mthode :


plus proches voisins (la densit en un point x = nb dobservations dans une sphre centre sur x, divis par le volume de la sphre) mthode des noyaux uniformes mthode hybride de Wong (utilise les k-means dans une analyse prliminaire)

La densit de probabilit est un paysage vallonn dont les

on dfinit une distance dP entre 2 classes comme inversement proportionnelle la densit au milieu de ces 2 classes (ou dP = si les 2 classes sont non adjacentes) CAH selon la mthode du saut minimum applique dP

montagnes sont les classes et les fonds des valles sont les frontires Stphane Tuffry - Data Mining - http://data.mining.free.fr 04/04/2008 60

Mthodes par estimation de densit

Principe

: une classe est une rgion entourant un maximum local de la fonction de densit de probabilit Dtecte bien tous les types de classes, en particulier les classes de formes irrgulires et de tailles et de variances ingales Mieux vaut standardiser les variables continues et carter les outliers Rclame des effectifs suffisamment importants On ne fixe pas le nb de classes, mais un paramtre de lissage ( smoothing parameter ) qui est :

le nombre k de voisins de chaque point x ou le rayon r de la sphre entourant x ou le nb de classes des k-means prliminaires (Wong)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 61

04/04/2008

Estimation de densit avec SAS

Hormis

la mthode de Wong, aucune mthode par estimation de densit nest prcde de FASTCLUS Exemple de classification par les 5 plus proches voisins :

proc proc

cluster data=test outtree=tree method=density k=5 ccc pseudo print=10; var &var;run; tree data=tree ncl=4 out=segmhier;run;

Variante empchant la fusion des grosses classes avant


que les petites classes naient fusionn avec les grosses

appele algorithme two stage proc cluster data=test outtree=tree


method=two k=5 ccc pseudo print=10;
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 62

Comparaison des mthodes avec k = 10


mthode density mthode twostage

Remarque : avec k = 5, les 2 mthodes dcouvrent les bonnes classes


04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 63

Efficacit des mthodes par estimation de densit 1/3

04/04/2008

Seules les mthodes par estimation de densit dtectent ces classes. Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
Stphane Tuffry - Data Mining - http://data.mining.free.fr

64

Efficacit des mthodes par estimation de densit 2/3

04/04/2008

Seules les mthodes Ward et par estimation de densit dtectent ces classes. Ward, Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
Stphane Tuffry - Data Mining - http://data.mining.free.fr

65

Efficacit des mthodes par estimation de densit 3/3

Seules les mthodes single linkage et par estimation de densit dtectent ces classes. Single linkage, Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prlim. ou 10 voisins)
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 66

Importance du paramtre de lissage

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

67

Comparaison de mthodes par densit


(single linkage est la seule autre mthode efficace ici)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

68

Comparaison de mthodes par densit


(single linkage est la seule autre mthode efficace ici)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

69

Le rseau de Kohonen

Les nuds de la couche dentre


couche de sortie

correspondent aux variables de classification et servent prsenter les individus

pijk

Les nuds de la couche de sortie


individu 1

sont disposs sur une grille

individu 2

La forme et la taille (par ex :


couche dentre

individu N

rectangulaire de taille lxm) de la grille sont gnralement choisies par lutilisateur mais peuvent aussi voluer au cours de lapprentissage

Le + utilis des rseaux de Chaque nud dentre est neurones apprentissage connect tous les nuds de non supervis sortie, avec une pondration pijk
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 70

Activation dun nud


un individu (xk)k[1,n] est la distance euclidienne :
couche de sortie

La rponse dun nud (i,j)


dij (x ) = (xk pijk )
n 2

pijk

Le nud retenu pour


individu 1 individu 2

k =1

reprsenter (xk) est le nud pour lequel dij(x) est minimum

(i,j)
couche dentre

individu N

et tous les nuds voisins (I,J) voient leurs poids ajusts pIJk + .f(i,j;I,J).(xk pIJk) pour les rapprocher de (xk)
distance entre (i,j) et (I,J) f(i,j;i,j) = 1

Initialisation alatoire des


poids pijk
04/04/2008

= taux dapprentissage f(i,j;I,J) = fct dcroissante de la


71

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Apprentissage du rseau

Pour chaque individu, un seul


(i-1,j+1) (i,j+1) (i+1,j+1)

nud de sortie est activ ( le gagnant )

Le gagnant et ses voisins


voient leurs poids ajusts

(i-1,j)

(i,j)

(i+1,j)

En rapprochant les voisins,


(i-1,j-1) (i,j-1) (i+1,j-1)

lajustement fait en sorte qu deux individus proches correspondent deux nuds proches en sortie

Des groupes (clusters) de


ge revenus nombre denfants

nuds se forment en sortie


72

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Application dun rseau de Kohonen

Tout

se passe comme si la grille du rseau tait en caoutchouc et si on la dformait pour lui faire traverser le nuage des individus en sapprochant au plus prs des individus.
avec un plan factoriel : cest une projection non-linaire avec les autres mthodes de classification : rduction de la dimension

Une

fois que tous les individus de lchantillonnage dapprentissage ont t prsents au rseau et que tous les poids ont t ajusts, lapprentissage est achev. En phase dapplication, le rseau de Kohonen fonctionne en reprsentant chaque individu en entre par le nud du rseau qui lui est le plus proche au sens de la distance dfinie ci-dessus. Ce nud sera la classe de lindividu.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 73

04/04/2008

Reprsentation dune carte de Kohonen

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

74

Utilisation des rseaux de Kohonen

Synonymes

: 1) carte de Kohonen 2) SOM (Self Organizing Map) Utilisation comme une ACP non linaire
pour reprsenter sur une carte les groupes dindividus et comparer les groupes sopposant sur la carte

Utilisation

comme pr-classification avant une CAH (voir la classification mixte)


on construit une carte de taille au moins 10 x 10 nuds on regroupe ensuite les 100 nuds en un nb plus petit de classes qui doivent tre connexes dans le plan

Utilisation
voir 04/04/2008

pour placer les prototypes dun rseau de neurones RBF viter dutiliser directement pour obtenir qq classes

les exemples suivants Stphane Tuffry - Data Mining - http://data.mining.free.fr

75

Kohonen peine mieux que k-means


(moins bien que single-linkage ou Wong ou + proches voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

76

Kohonen pas mieux que k-means


(moins bien que Ward ou Wong ou + proches voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

77

Kohonen pas mieux que k-means


(moins bien que single-linkage ou + proches voisins)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

78

Analyse relationnelle

Dfinition

dun critre de similarit : le critre de Condorcet

Critre de Condorcet de deux individus A et B



c(A,B) := (nb de variables ayant mme valeur pour A et B) (nb de variables ayant des valeurs diffrentes pour A et B) on considre que deux variables continues ont la mme valeur si elles sont dans le mme dcile

Critre de Condorcet dun individu A et dune classe S

c(A,S) = c(A,Bi), la somme tant sur tous les Bi S.


Stphane Tuffry - Data Mining - http://data.mining.free.fr 79 04/04/2008

La classification relationnelle

On

commence la constitution des classes en plaant chaque individu A dans la classe S telle que c(A,S) soit maximum et 0. Si c(A,S) < 0 pour tout S existant, A constitue le 1er lment dune nouvelle classe. Cette tape constitue la 1re itration.

On peut raliser une 2de itration, en reprenant chaque


individu et en le raffectant ventuellement une autre classe, parmi ceux dfinis lors de la 1re itration.

On ralise ainsi plusieurs itrations, jusqu' ce que soit


atteint le nb max ditrations ou de classes spcifi.
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 80

Illustration de lanalyse relationnelle 1/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

81

Illustration de lanalyse relationnelle 2/2

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

82

Utilisation de lanalyse relationnelle

Faiblesse
continues

de lanalyse relationnelle sur les variables

la discrtisation fait perdre la relation dordre dans R, que ne gre pas lanalyse relationnelle le principe de la mthode conduit rassembler les individus qui sont proches sur une majorit de variables
dans le cas de 2 variables, on verra par exemple que si :
deux individus x et y sont dans le mme dcile de la 1re variable, et trs diffrents sur la 2de variable x et un autre individu z sont assez proches , car dans le mme quintile (mais pas le mme dcile) pour les 2 variables alors x sera agrg avec y et non avec z !

sensibilit aux variables binaires et aux variables redondantes

Conseil
04/04/2008

: rserver lanalyse relationnelle aux variables qualitatives


Stphane Tuffry - Data Mining - http://data.mining.free.fr 83

Techniques de classification :

La classification de variables

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

84

Classification de variables numriques

Classification ascendante

hirarchique sur variables


remplacer la distance euclidienne par le coefficient de corrlation de Pearson utiliser la mthode single linkage car il suffit que 2 groupes V et W de variables contiennent v V et w W suffisamment corrles pour que les groupes soient proches

Classification descendante hirarchique (combine

ventuellement binaires
Stphane Tuffry - Data Mining - http://data.mining.free.fr

avec ACP oblique) : procdure VARCLUS de SAS Ces mthodes sappliquent des variables numriques
85

04/04/2008

Algorithme VARCLUS de SAS 1/2


(option maxeigen par dfaut)

1) On part de lensemble des variables 2) On fait une ACP et on retient les 2 premiers axes, de
valeurs propres 1 et 2 (on a 1 2) :

si 2 > 1 (critre de Kaiser on peut remplacer la valeur 1 par une autre), on effectue une rotation quartimax oblique et on rpartit les variables dans le groupe V1 des var plus corrles avec le 1er axe et le groupe V2 des var plus corrles avec le 2d axe
ensuite on raffecte chaque var dans V1 ou V2 pour tenter de maximiser encore plus la variance explique par la 1re composante principale de chacun de ces groupes (non orthogonales entre elles)

04/04/2008

si 2 1, lensemble des variables nest pas divis

Stphane Tuffry - Data Mining - http://data.mining.free.fr

86

Procdure VARCLUS de SAS 2/2


3) On reprend en 2) avec chacune des classes V1 et V2 4) On sarrte quand on na plus de classes avec 2 > 1

ou quand un nb de classes spcifi a t atteint ou quand les scissions produisent des classes vides aprs raffectation

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

87

Remarques sur VARCLUS

Pour chaque classe, la variable-classe est (par dfaut) la 1re composante principale de la classe Le but de VARCLUS est de maximiser la somme (sur lensemble des classes) des variances de ces variablesclasse VARCLUS exprime la variable-classe comme combinaison linaire des variables contenues dans la classe Du fait des rotations obliques de VARCLUS, les diffrentes variables-classe sont (faiblement) corrles On peut limiter la raffectation de variables lintrieur dun dcoupage de classes, pour ne pas affecter une variable une classe anciennement forme, ce qui dtruirait la structure darbre de la classification

04/04/2008

option hierarchy - permet de limiter le temps de calcul


Stphane Tuffry - Data Mining - http://data.mining.free.fr 88

Diffrence entre VARCLUS et une ACP standard

Dans une ACP, toutes les composantes principales sont calcules partir des mmes variables (variables initiales) Dans VARCLUS

les variables initiales sont spares itrativement en sousgroupes (par quartimax) et les composantes principales sont calcules sur ces sousgroupes et non lensemble des variables

Si on limite k le nb de classes de variables, de sorte que lon ne retient que k composantes par VARCLUS, ces k composantes expliquent peut-tre moins de variance que les k premires composantes de lACP, mais elles sont plus faciles interprter VARCLUS est une mthode performante de classification

mais plus consommatrice en temps de calcul que lACP : attention si plus de 30 variables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 89

04/04/2008

Techniques de data mining :

Recherche dassociations (analyse du ticket de caisse)

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

90

Les recherches dassociations

Rechercher les associations consiste rechercher les rgles du type : Si pour un individu, la variable A = xA, la variable B = xB, etc, alors, dans 80% des cas, la variable Z = xZ, cette configuration se rencontrant pour 20 % des individus La valeur de 80% est appele indice de confiance et la valeur de 20% est appele indice de support Par exemple, dans lensemble de transactions ci-contre :

T26 T1245 T156 T2356 T145

A B B A C

B C E B D

C E

D F

lindice de confiance de B E =3/4 lindice de support de B E =3/5


Stphane Tuffry - Data Mining - http://data.mining.free.fr 91

04/04/2008

Les associations : dfinitions

Une rgle est donc une expression de la forme : >Si Condition alors Rsultat. Exemple : >Si couches et samedi, alors bire. Lindice de support est la probabilit : >p (condition et rsultat). Il ne doit pas tre trop petit. Lindice de confiance est la probabilit : >p (condition et rsultat) / p (condition).
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 92

Intrt dune rgle dassociation

Dans lexemple prcdent, on a : Or, probabilit (B) = 0,8 Cette probabilit est suprieure lindice de confiance

B est prsent dans presque tous les tickets de caisse.

indice de confiance de lassociation C B est 2/3 indice de support = 2/5.

de C B, ce qui fait que lon ne gagne rien utiliser la rgle C B pour prdire B. Si lon suppose alatoirement quun ticket de caisse contient B, on na qu1 chance / 5 de se tromper, contre 1 chance / 3 en appliquant la rgle C B.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

93

Lift dune rgle : mesure son intrt

Lamlioration apporte par une rgle, par rapport une


rponse au hasard est appele lift et vaut : lift (rgle) = confiance (rgle) / p (rsultat) = p (condition et rsultat) / [ p (condition) x p (rsultat) ].

Quand le lift est < 1, la rgle napporte rien. Exemples :



lift (C B) = 5/6 (rgle inutile) lift (B E) = 5/4 (rgle utile).

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

94

Lift de la rgle inverse

Il faut noter que si le lift de la rgle est < 1, alors le lift de la rgle inverse, c.a.d. de : est > 1, puisque : et Si

Si Condition alors NON Rsultat confiance (rgle inverse) = 1 - confiance (rgle) p (NON rsultat) = 1 - p (rsultat).

Si Condition alors Rsultat

une rgle nest pas utile, on peut donc essayer la rgle inverse en esprant que cette dernire soit intressante en termes de mtier ou de marketing.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 95

04/04/2008

Taxinomie : dfinition

Les produits peuvent tre dfinies avec un niveau plus


ou moins fin de dtail. On peut par exemple considrer :

les produits dpargne bancaire, financire parmi les produits dpargne bancaire, les comptes de chques, les livrets parmi les livrets, les livrets A, les Codevi, les LEP

La

taxinomie des produits est lensemble de ces niveaux.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

96

Taxinomie : utilisation

Le niveau le plus fin permet dentreprendre des


actions commerciales plus prcises

Mais travailler au niveau le plus fin multiplie les rgles, parmi lesquelles un grand nombre nauront quun faible support et seront peut-tre limines

Travailler au niveau le plus gnral permet dobtenir


des rgles plus fortes

>Les 2 points de vue ont leurs avantages et leurs


inconvnients >Il faut adapter le niveau de gnralit chaque produit, en fonction notamment de sa raret
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 97

Taxinomie : intrt

Les articles les plus rares et les plus chers (exemple :

micro-informatique ou HIFI dans un grand magasin) seront codifis au niveau le plus fin Les articles les plus courants (exemple : produits alimentaires) seront codifis un niveau plus gnral. On regroupera par exemple tous les yaourts, fromages blancs, flancs en produits laitiers , tout en distinguant un tlviseur dun magntoscope ou dun camscope. Lintrt de cette faon de procder est dobtenir des rgles plus pertinentes, dans lesquelles les articles les plus courants ne dissimulent pas, par leur frquence, les articles les moins courants.

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

98

Illustration avec Clementine

04/04/2008

Stphane Tuffry - Data Mining - http://data.mining.free.fr

99

Le panier de la mnagre

Cette technique est trs utilise dans la grande distribution : >do les termes danalyse du ticket de caisse ou du panier de la mnagre pour dsigner la recherche dassociations Autres usages : associations doptions retenues dans les produits packags (banque, tlphonie, assurance) web mining (analyse de la navigation sur un site internet) Difficults : volumes de donnes importants trouver des rgles intressantes noyes parmi les rgles triviales ou non utilisables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 100

04/04/2008

Utilisation de variables supplmentaires

En ajoutant des variables temporelles (jour et heure de


la transaction), on pourra rechercher lensemble des vnements qui dbouchent sur lacquisition dun nouveau produit, sur le dpart du client En ajoutant le nom du fabricant, on pourra dtecter des phnomnes dattachement une marque Autres variables supplmentaires :

Le dveloppement des cartes de fidlit permet de


croiser les achats avec de nombreuses autres donnes : ge, adresse
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 101

canal de distribution mode de paiement

You might also like