You are on page 1of 62

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Plan du cours

Quest-ce que le data mining ?


A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
La prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Le droulement dun projet de


data mining

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 10 tapes dun projet

Choix du sujet - Dfinition des objectifs


Inventaire des donnes existantes
Collecte, nettoyage et mise en forme des donnes
tude statistique de la base danalyse
Mise en uvre des algorithmes (classification, scoring)

- laboration des modles


Validation et choix dun modle
Dclaration la CNIL
Dploiement du modle
Formation des utilisateurs
Suivi des modles

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Dfinition des objectifs

Dfinir prcisment le sujet et certains critres essentiels

(variable cible)
exemple : client risque et client sans risque
Dfinir la population cible
tous les clients, les clients actifs, les prospects aussi
unit statistique : individu, famille, entreprise, groupe
Dterminer la priode tudier
Le sujet doit faire partie des objectifs de lentreprise et lui
apporter un avantage rel
Les objectifs doivent tre ralistes (tenir compte des
actions passes et de la saturation du march)
Prvoir lutilisation oprationnelle des modles produits

forme de la restitution, priodicit de mise jour, suivi

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Inventaire des donnes utiles

Recenser avec les spcialistes mtier et les informaticiens,


les donnes utiles :

accessibles raisonnablement (pas sur microfilms !)


fiables
suffisamment jour
historises, si besoin est
lgalement utilisables

du systme dinformation (SI) de lentreprise


stockes dans lentreprise, hors du SI (fichiers Excel...)
achetes ou rcupres lextrieur de lentreprise
calcules partir des donnes prcdentes (indicateurs,
ratios, volutions au cours du temps)

Il y a les donnes :

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quand on manque de donnes

Enqutes auprs dchantillons de clients

en les incitant rpondre des questionnaires en leur


proposant des cadeaux

Utilisation des mgabases de donnes (Axciom, Wegener

Direct Marketing)
Gomarketing (type dhabitat en fonction de ladresse)

donnes moins prcises que des donnes nominatives


mais disponibles pour des prospects

Scoring prnom
Recours des modles standards pr-tablis par des
socits spcialises (ex : scores gnriques)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Gomarketing

Donnes conomiques
nb

entreprises, population active, chmage, commerces et


services de proximit, habitudes de consommation

Donnes sociodmographiques
population,

richesse, ge et nombre denfants


structures familiales, niveau socioprofessionnel

moyens,

Donnes rsidentielles
anciennet,

type et confort des logements, proportion de


locataires et propritaires

Donnes concurrentielles
implantation

de lentreprise, implantation de ses concurrents,


parts de march, taux de pntration

Type

dhabitat (lotype) : beaux quartiers, classe moyenne,

classe ouvrire, centre ville et quartiers commerants...

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Scoring prnom (ex : Pascal)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Construction de la base danalyse


variable cible :
acheteur (O/N)
O
N

ge

PCS

58
27

46

32

cadre
ouvrier

technicien

employ

situation
nb
montant
famille
achats achats
mari
2
40
clibataire
3
30

clibataire
3
75

mari
1
50

variable expliquer
observe anne n

variables explicatives
observes anne n-1

O : au moins 1000 clients cibls dans l'anne n et acheteurs


N : au moins 1000 clients cibls dans l'anne n et non acheteurs

variable
explicative m

chantillon
apprentissage
test

test

apprentissage

au moins 2000 cas

n
client
1
2

2000

rpartition
alatoire
des clients
entre les 2
chantillons

PREDICTION

f
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10

Types de donnes 1/3

Donnes de transaction et RFM

o (lieux des transactions, Internet), quand


(frquence/rcence des transactions), comment
(mode de paiement), combien (nombre et montants
des transactions), quoi (ce qui est achet)

Donnes sur les produits et contrats

nb, types, options, prix, date dachat ou de souscription,


date et motif de rsiliation ou de retour du produit, dure
moyenne de vie ou date dchance, dlai et mode de
paiement, remise accorde au client, marge de lentreprise

Anciennets

ge, anciennet comme client, anciennet ladresse


actuelle, anciennet dans lemploi, anciennet du dernier
sinistre (en assurance)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

11

Types de donnes 2/3

Donnes sur les canaux

canal de prise de contact (parrainage, annonce presse,


appel tlphonique, rponse un mailing)
canal privilgi de contact et communication (courrier,
tlphone, Internet, magasin/agence)
canal privilgi de commande (courrier, tlphone, Minitel,
Internet, magasin/agence)
canal privilgi de livraison (magasin/agence, domicile)

Donnes relationnelles et attitudinales

ractions aux propositions commerciales, rponses aux


questionnaires, rponses aux enqutes de satisfaction,
appels au service clientle, rclamations
image de la marque auprs du client, attractivit des
concurrents, propension ou inertie du client au changement

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

12

Types de donnes 3/3

Donnes sociodmographiques

familiales (situation de famille, nb denfants et leur ge,


nombre de personnes charge)
professionnelles (salaire, PCS, nb dactifs dans le mnage)
patrimoniales (patrimoine mobilier et immobilier, statut de
propritaire/locataire, valeur du logement, possession
dune rsidence secondaire)
gographiques (anciennet ladresse, code INSEE de la
commune, IRIS et lot INSEE, type dhabitat dduit de
lIRIS ou de llot)
environnementales et gomarketing (concurrence,
population, population active, population cliente, taux de
chmage, potentiel conomique, taux de dtention de
produit dans la zone dhabitation du client)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

13

Importance des retours

Le

data mining ne devine pas le profil des clients


cibler, il lextrapole partir des donnes fournies.

Pour

les tudes dapptence, les retours des actions


commerciales prcdentes (refus dachat) permettent de
dgager les profils positifs et ngatifs
> Il est capital de mmoriser cette information.

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

14

Donnes ne pas utiliser

Non fiables
trop de valeurs aberrantes ou manquantes
Disponibles sur une dure trop courte
soumises aux variations saisonnires
Redondantes
dont le poids est artificiellement augment, ou dont la
colinarit rend instable les rsultats de certaines mthodes
Non pertinentes
quil faut remplacer par de nouveaux indicateurs
Trs corrles lobjectif de ltude mais seulement dans
lchantillon dapprentissage
qui entranent un sur-apprentissage dans les prdictions
Trop peu corrles lobjectif de ltude
qui crent du bruit , des fluctuations alatoires

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

15

Slection des donnes utiliser

Choix des variables les plus discriminantes

test du , V de Cramer (var. nominales) ou de Kendall


(var. ordinales)
test de la variance paramtrique (ANOVA) ou non (KruskalWallis)
utilisation dun arbre CHAID ou CART

Transformation des variables (recodage, normalisation par


un logarithme ou une racine carre)

permet de se rapprocher dune loi normale (var. quantitative)


permet de diminuer le nb de modalits (var. qualitative)

ex : en fonction de la variable cible, la main ou par


utilisation dun arbre CHAID ou CART

Choix des discrtisations (dcoupage des var. continues)


Choix des variables les moins corrles entre elles

tests de multicolinarit

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

16

Cration de nouvelles variables

Cration dindicateurs pertinents (maxima, moyennes,

prsence/absence)
Calcul de ratios
Calcul dvolutions temporelles de variables
Cration de dures, danciennets partir de dates
Croisement de variables, interactions
Utilisation de coordonnes factorielles

pour obtenir presque autant dinformation avec moins de


variables

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

17

Prsence de 3 classes

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

18

Discrtisation en tranches naturelles


Densit

clients sans
apptence

clients avec
apptence

variable explicative Y
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

19

Pour llaboration des modles


prdictifs

(Facultatif) Pr-segmentation (classification) de la

population tudie :
en groupes forcment distincts selon les donnes disponibles

(clients / prospects)
en groupes statistiquement pertinents vis--vis des objectifs de
ltude
selon certaines caractristiques sociodmographiques (ge,
profession) si elles correspondent des offres marketing
spcifiques

Partition des donnes en :

un chantillon dapprentissage
un chantillon de test
si possible, un chantillon de validation
Mise en uvre de une ou plusieurs techniques de data
mining

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

20

Pr-segmentation : questions
oprationnelles

Simplicit de la pr-segmentation (pas trop de rgles)


Nombre limit de segments et stabilit des segments
Tailles gnralement comparables des segments
Homognit des segments du point de vue des variables

explicatives
Homognit des segments du point de vue de la variable
expliquer

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

21

Analyser le pass pour prdire lavenir

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois

12 mois

aujourdhui

observation des

observation de la

variables explicatives

variable expliquer

Le modle sera par exemple une fonction f telle que :


Probabilit(variable cible = x) = f(variables explicatives)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

22

Mthodes inductives : 4 tapes

Apprentissage : construction du modle


sur un 1er chantillon pour lequel on connat
la valeur de la variable cible
Test : vrification du modle sur un 2d
chantillon pour lequel on connat la valeur
de la variable cible, que lon compare la
valeur prdite par le modle
si le rsultat du test est insuffisant
(daprs la matrice de confusion ou la
courbe ROC), on recommence
lapprentissage
Validation du modle sur un 3e
chantillon, pour avoir une ide du taux
derreur non biais du modle
Application du modle lensemble de la
population

24/12/2006

valeur prdite

valeur relle
A

1800

200

300

1700

TOTAL

Stphane Tuffry - Data Mining - http://data.mining.free.fr

TOTAL

4000

23

Exemples de modles prdictifs

Arbres de dcision

Rgles compltement explicites


Traitent les donnes htrognes, ventuellement manquantes,
sans hypothses de distribution
Dtection de phnomnes non linaires
Moindre robustesse

Analyse discriminante linaire

Rsultat explicite P(Y/ X1, , Xp) sous forme dune formule


Requiert des Xi continues, sans colinarit, et des lois Xi/Y
multinormales et homoscdastiques (attention aux outliers )
Optimale si les hypothses sont remplies

Rgression logistique

Comme lanalyse discriminante, sans hypothse sur les lois Xi/Y,


Xi peut tre discret, avec une prcision parfois trs lgrement
infrieure

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

24

Algorithme darbre de dcision

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Validation des modles

Etape trs importante car des modles peuvent :

donner de faux rsultats (donnes non fiables)


mal se gnraliser dans lespace (autre chantillon) ou le
temps (chantillon postrieur)
sur-apprentissage

tre peu efficaces (dterminer avec 2 % derreur un


phnomne dont la probabilit dapparition = 1 % !)
tre incomprhensibles ou inacceptables par les utilisateurs
souvent en raison des variables utilises

ne pas correspondre aux attentes

matrices de confusion, courbes ROC, de lift, et indices


associs

Principaux outils de comparaison :

24/12/2006

( A ) M o d le tr o p s im p le
( B ) B o n m o d le
( C ) M o d le t ro p c o m p le x e
Stphane
Tuffry - Data Mining
- http://data.mining.free.fr

26

Validation dun modle de score


100

% d'individus rpondants

90
ciblage alatoire

80

ciblage par scoring

70

ciblage idal

60
50
40
30
20

Lift = 30/10 = 3

10
0
0

25

50

75

100

% d'individus cibls

COURBE DE LIFT
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

27

Comparaison de modles de score

Les indicateurs

statistiques de 2
modles de nature
diffrentes (exemple :
R dune analyse
discriminante et dune
rgression logistique)
sont rarement
comparables
On compare les
modles laide des
courbes ROC ou de lift

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

Comparaison de modles : courbe ROC


Zone sous la courbe
Variable(s) de
rgression logistique
analyse discriminante
arbre de dcision

1,0

Zone
,906
,889
,887

,8

Source de la courbe
,5

Ligne de rfrence
arbre de dcision

,3
analys discriminante
0,0
0,0

24/12/2006

rgress. logistique
,3

,5

,8

1,0

Stphane Tuffry - Data Mining - http://data.mining.free.fr

29

Dploiement informatique

Plusieurs possibilits ne sexcluant pas :

utilisation dun tableur sur un PC pour raliser un


publipostage (marketing direct)
intgration dans les fichiers clients de production ou
dinfocentre (pour des ciblages)
intgration dans les fichiers clients de production et sur le
poste de travail des commerciaux

Diffrents niveaux de finesse de linformation

notes fines dans les fichiers (ex : de 1 1000)


restitues agrges sur le poste de travail (ex : de 1 10)
et regroupes en tranches (par ex : faible / moyen / fort)

Spcifier les habilitations daccs


Spcifier la priodicit des mises jour
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

30

Utilisation des logiciels


Transfert modle
Paramtres

Donnes
en entre
(ex : fichier
chantillon
de clients)

Donnes
en entre
(ex : fichier
complet de
clients)

Rgles
(ex : grille
de score)

Donnes
en entre
(ex : fichier
complet de
clients)

Rgles
exportes
(Cobol, C,
PMML)
Transfert
donnes

Logiciel de
data mining

Logiciel de
data mining

Ordinateur
central

Donnes
en sortie
(ex : fichier
de clients
scors)

Rgles
(ex : grille
de score)
Environnement
data mining

Base
danalyse

Construction du
modle
24/12/2006

Environnement
data mining

Donnes
en sortie
(ex : fichier
de clients
scors)
Donnes
de production

Application du modle dans


lenvironnement data mining

Programmes de
gestion

Donnes de
production

Application du modle aprs export


dans lenvironnement de production

Stphane Tuffry - Data Mining - http://data.mining.free.fr

31

Utilisation oprationnelle dun score


revenus
couleur

% populat. 0 - 1000

1001 - 2 000

2 001 - 3 000

> 3 000

rouge

20 %

tudier

tudier

tudier

tudier

orange

20 %

tudier

dcouvert = 150

dcouvert = 450

dcouvert = 750

carte = dbit immd.

carte = dbit immd.

carte = dbit diff.

prt pers. = 0

prt pers. = 3000

prt pers. = 4500

dcouvert = 150

dcouvert = 450

dcouvert = 1500

dcouvert = 1500

carte = retrait

carte = dbit immd.

carte = dbit diff.

carte = dbit diff.

prt pers. = 0

prt pers. = 3000

prt pers. = 9000

prt pers. = 12 k

dcouvert = 150

dcouvert = 750

dcouvert = 1500

dcouvert = 1500

carte = dbit

carte = dbit diff.

carte = dbit diff.

carte = Premium

immdiat

prt pers. = 7500

prt pers. = 12 k

prt pers. = 15 k

vert ( fonc )

vert ( clair )

20 %

40 %

prt pers. = 0

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

32

Formation des utilisateurs

Prsenter lobjectif recherch avec les nouveaux outils


Principe et fonctionnement des outils de data mining

sans entrer dans les dtails techniques

il ne sagit que doutils statistiques

Limites des outils

Mode dutilisation

aide la dcision et non pas prise automatique de dcision

Apport des outils (cest le point le plus important)


Ce qui change dans le travail des utilisateurs

du point de vue oprationnel


du point de vue organisationnel (adaptation des
procdures, des dlgations de pouvoir)

Etape importante pour viter des rejets !


24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

33

Cycle de vie dun score

Les outils de data mining (scores surtout) ont une phase


dexprimentation

sur une petite chelle


destine les ajuster et valider, et tester leur utilisation

Quand

les outils sont en production, ils doivent tre


appliqus rgulirement des donnes rafrachies
Les outils en production doivent tre revus
rgulirement (tous les 2 5 ans)

volution de lenvironnement concurrentiel, conomique,


sociodmographique, rglementaire
apparition, disparition, modification de produits

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

34

Suivi du score

Suivi ponctuel pour une campagne marketing

pour analyser les rsultats et amliorer le score suivant


comparer les rsultats des individus cibls ceux dun
chantillon tmoin (cible alatoire ou traditionnelle)

Suivi permanent pour lutilisation commerciale

vrifier la bonne utilisation du score


sassurer de la pertinence des infractions au score

vrifier le bon fonctionnement du score


pour un score de risque, le taux de dfaillance dans chaque
tranche de score doit rester lintrieur dune fourchette
fixe

vrifier la stabilit du modle au fil des calculs


matrice de transition

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

35

Suivi du score
mois
score

M1

M2

M3

M4

M5

M6

M7

M8

M9

M 10

M 11

M 12

TOTAL

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

36

Suivi du score : matrice de transition


score M1

score M2

Permet de
contrler
la stabilit
du modle

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

37

24/12/2006
Bi
la
n

f
in
iti
o
In
ve n d
es
nt
ai
ob
P
C
re
r
on
pa
d e je c
st
ti f
ra
s
itu
s
d
t
io
on
ti o
n
n
n
de
de
es
s
do
la
v
l
nn
ab ba
al
se
e
ua
or
s
at
tio
d
io
an
n
n
va
de aly
l id
s
s
at
m e
io
od
n
l
D
d
es
c
es
la
m
R
ra
es
D
tio od
oc
tit
le
n
ut
um
s

io
la
n
An ent
de
C
at
al
NI
s
i
ys
on
L
r
e
s
u
d
pr
l ta
ta

ts
il l sen
e
de tatio
ns
s
r
su
lta
ts

Rpartition de la charge dtude


20% 20%
20%
18%
16%
14%
12% 10% 10%
10%
10%
10%
8%
8%
5%
6%
3%
4%
2%
2%
2%
0%

Stphane Tuffry - Data Mining - http://data.mining.free.fr


38

Cots et gains du data mining

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

39

Cots

Distinguer : cots du data warehouse et du data mining


Investissement initial dans un DW : environ 1 M
Dpend des choix techniques :

machine ddie au dcisionnel ou non


progiciels dalimentation de lentrept ou dveloppements
maison
modle de donnes achet ou labor en interne

Cots du data mining trs infrieurs :

cots humains infrieurs car quipe ddie au DM + petite


cot des logiciels entre 2 k (sur PC mais avec plusieurs
algorithmes performants) et 200 k (sur gros systmes,
avec une architecture informatique de production)
existence de logiciels libres : R

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

40

Le retour sur investissement

Le RSI est difficile valuer :

les gains proviennent du data mining mais aussi dune


bonne communication, dun marketing efficace, de
commerciaux motivs
le DM nest quune brique dans le marketing de bases de
donnes (exemple du crdit praccord)

Le RSI vient de :

laugmentation des taux de rponse des actions marketing


laugmentation de la productivit des commerciaux
la meilleure utilisation des canaux
la fidlisation des clients
la rduction des impays

On peut tenter de lestimer avec un chantillon tmoin


24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

41

Exemple de calcul de RSI


A
B
C
D
E
F
G
H

nombre de clients cibls


cot de chaque mailing
cot de chaque relance tlphonique
cot total ( = A x (B + C) )
nombre de nouvelles souscriptions
taux de souscription ( = E / A )
cot par souscription ( = D / E )
chiffre daffaire annuel par souscription

CA total annuel ( = H x E )
RSI ( = I / D )
24/12/2006

ciblage tradit. ciblage DM


30 000
15 000
1
1
5
5
180 000
90 000
1 000
1 500
3,33 %
10 %
180
60
150
175
(montants
souscrits
suprieurs)
150 000
262 500
83 %
292 %

Stphane Tuffry - Data Mining - http://data.mining.free.fr

42

RSI dun score dattrition


A
B
C
D
E
F
G
H
I
J
K
L

cot dacquisition dun nouveau client


rentabilit annuelle des partants
temps dactivation dun client
perte occasionne par un dpart ( = A + (B x C) )
cot de fidlisation dun partant dtect
nombre total de clients
nombre de partants annuels
taux dattrition = ( G / F )
nombre de partants dtects ( tort ou raison)
cot total de la fidlisation ( = E x I )
nombre de vrais partants retenus
pertes vites ( = D x K )
gain total net ( = L J )
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

150
450
0,5 an
375
50
1 000 000
80 000
8%
40 000
2 000 000
8 000
3 000 000
1 000 000
43

Les facteurs de succs et les


erreurs viter

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

44

Les facteurs de succs dun projet

Des objectifs prcis, stratgiques et ralistes


La qualit et la richesse des informations collectes
Le stockage des informations relationnelles sur

les

clients (rponses aux sollicitations commerciales, aux enqutes de

satisfaction, canaux de prdilection)

La collaboration des comptences mtiers et statistiques


La matrise des techniques de data mining utilises
Une bonne restitution des rsultats et limplication de

tous les partenaires chargs de leur mise en uvre


Lanalyse des retours de chaque action pour la suivante

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

45

Le DM dans la culture dentreprise

Lentreprise doit veiller :

ses comptences en data mining


la qualit des donnes recueillies
une mise en uvre et un suivi rigoureux des actions
sappuyant sur le data mining
une ventuelle adaptation de ses processus marketing
passer du marketing produit au marketing client

une ventuelle adaptation de ses processus de dcision


adaptation des dlgations de pouvoir

Le

data mining est un processus itratif, chaque


action prparant la suivante par lexploitation de ses
rsultats

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

46

Vendre le data mining

Les commerciaux et analystes peuvent voir une mise en

cause de leur savoir-faire


Il faut les convaincre que le scoring ne fournit quune
aide la dcision, et non la dcision elle-mme

Il

laquelle reste toujours leur prrogative, comme lexige la


loi Informatique et liberts

faut aussi les convaincre de bien alimenter les


bases de donnes marketing

notamment en ce qui
campagnes : refus dachat

concerne

les

retours

des

Ils doivent tre sensibiliss au gain de productivit et de


scurit quils peuvent attendre du scoring

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

47

Les ides fausses sur le DM

Aucun a priori n'est ncessaire


On n'a plus besoin de spcialistes du mtier
On n'a plus besoin de statisticiens ( Il suffit d'appuyer

sur un bouton )
Le data mining permet de faire des dcouvertes
incroyables
Le data mining est rvolutionnaire
Il faut utiliser toutes les donnes disponibles
Il faut toujours chantillonner
Il ne faut jamais chantillonner

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

48

Aucun a priori n'est ncessaire

Les techniques prdictives requirent un a priori :

puisquil faut choisir une variable cible, soigneusement


dfinie

Certaines techniques descriptives, telle la classification,

peuvent tre mises en uvre sans savoir quelles seront


les classes obtenues, ni mme quel est le nombre
pertinent de classes
Mais :
Le rsultat de la classification est influenc par le choix
des donnes et de leur codage en entre de lalgorithme :

>il est donc impossible dtre totalement neutre mme dans


une classification

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

49

On n'a plus besoin de spcialistes


du mtier

Le

concours des spcialistes (mtier, marketing) est


indispensable dans plusieurs phases :

la dfinition des objectifs


par exemple, avant llaboration dun score de risque, il
convient de sentendre sur la dfinition prcise dun risque

le recensement des donnes utiles et lgalement


utilisables, donnes brutes et donnes composes
il est intressant de connatre les indicateurs considrs
comme pertinents par les spcialistes

lanalyse des rsultats


le spcialiste mtier peut, au vu des 1ers rsultats, dire sils
paraissent triviaux, nouveaux et intressants creuser, ou
surprenants et trs suspects, auquel cas il faudra vrifier la
validit des donnes et de la mthodologie utilise

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

50

On n'a plus besoin de statisticiens

Dans une tude de data mining, la partie la + longue et la


+ dterminante est le travail des donnes

elle ne peut tre effectue quau vu danalyses statistiques


permettant de vrifier la fiabilit des donnes, leurs
distributions, leurs corrlations et de raliser les mises en
forme de donnes pralables ; ces oprations ne seront pas
ralises lidentique pour toutes les mthodes de DM
certaines mthodes ncessitent un chantillonnage pralable

Dans les mthodes prdictives, il faut prendre garde de ne

pas inclure parmi les variables explicatives des variables


corrles par dfinition la variable cible. Il faut se mfier
du phnomne de sur-apprentissage
Le paramtrage fin des algorithmes peut avoir une
grande incidence sur les rsultats obtenus

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

51

Le data mining permet de faire


des dcouvertes incroyables

Les rgles mises jour par le data mining sont rarement


incroyables : elles font souvent intervenir des variables
considres comme discriminantes par les spcialistes,
dune faon conforme au bon sens.
O rside donc lapport du data mining ?
>Dans le fait quil existe des milliers de combinaisons,
conformes au bon sens, de variables a priori
discriminantes dans une problmatique donne...
>... et que le data mining permet de dtecter LA
meilleure combinaison possible (ou lune des
meilleures), avec, pour chacune de ces variables X, la
meilleure valeur prcise n tester ( si X n, alors )
24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

52

Le data mining est rvolutionnaire

Le data mining englobe la statistique et lanalyse


des donnes traditionnelle, dont il ne diffre que par
les points suivants :

certaines techniques de DM nappartiennent qu lui,


comme les rseaux de neurones et les arbres de dcision
le nombre dindividus tudis est souvent plus important
en DM, o loptimisation des algorithmes est importante
le DM fait moins dhypothses contraignantes sur les lois
statistiques suivies
les modles en DM sont plus souvent des ensembles de
rgles locales que des modles globaux
le DM recherche parfois plus la comprhensibilit des
modles que leur prcision

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

53

Il faut utiliser toutes les donnes


disponibles

Un algorithme de DM est-il dautant + efficace quil a

+ de donnes en entre ? NON !


Les donnes non fiables ou mal renseignes perturbent tous
les algorithmes
La prsence dindividus hors-norme ( outliers ) perturbe
les modles linaires
Les donnes avec des modalits aux effectifs irrguliers
affectent les analyses factorielles
Les donnes peu discriminantes ou colinaires diminuent le
pouvoir prdictif dune analyse discriminante ou dune
rgression logistique
Les donnes redondantes peuvent affecter une classification
Les donnes trop nombreuses affectent les rseaux de
neurones

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

54

Il faut toujours chantillonner

Un bon chantillonnage est toujours dlicat

raliser, et ncessite une bonne connaissance de la


population

difficile avoir, surtout avec les populations instables que


sont les clientles

Exemple dinconvnient induit par lchantillonnage :

un cart de distribution dune variable dans lchantillon


dapprentissage par rapport la population totale, peut
produire des carts importants dans les rsultats

Autre contre-indication au recours lchantillonnage :


la recherche de phnomnes rares (typologies de
fraude) ou de segments troits de clientle

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

55

Il ne faut jamais chantillonner

Certaines techniques de data mining, les techniques de

prdiction inductives (arbres de dcision, rseaux de


neurones rtropropagation supervise), imposent le
recours lchantillonnage

Il

puisquelles procdent par laboration dun modle partir


dune partie de la population,
modle ensuite test sur une autre partie de la population

peut aussi tre souhaitable de travailler sur un


chantillon de la population, si celle-ci est trs grande,
afin de limiter des temps de calcul prohibitifs
A powerful computationally intense procedure operating
on a subsample of the data may in fact provide superior
accuracy than a less sophisticated one using the entire
data base . Jerome H. Friedman (1997)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

56

7 pistes damlioration sur le MBDD

Mmoriser les rsultats des campagnes commerciales


Sensibiliser les commerciaux limportance des donnes

saisies
Acheter des donnes externes (INSEE, Consodata)
Complter ces donnes par des enqutes auprs de
clients et de commerciaux
Prciser la dfinition et amliorer le calcul de donnes
stratgiques : rentabilit, fidlit
Crer de nouvelles variables synthtiques pertinentes
Augmenter la profondeur de lhistorique des donnes.

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

57

Le recours au consulting

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

58

Internalisation ou externalisation 1/2

Soit

lentreprise internalise lactivit de data mining,


ventuellement avec laide de consultants spcialiss
Soit elle externalise totalement cette activit, en
fournissant ses fichiers de donnes des prestataires
spcialiss (les credit-bureaux pour la banque),
ceux-ci lui restituant ses fichiers enrichis avec les
informations de data mining quils auront calcules
(score, segment, etc.)

ne pas oublier de faire signer une clause de confidentialit

Soit

elle sous-traite la fabrication des modles de DM,


mais se les fait livrer, afin de les appliquer elle-mme
ses fichiers

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

59

Internalisation ou externalisation 2/2

Lintrt

du recours des prestataires est de disposer

Lintrt

davoir des comptences en interne dans

immdiatement de leur savoir et de leur exprience

lentreprise est de pouvoir :

acqurir une parfaite connaissance de ses donnes


avoir une plus grande ractivit lorsquune nouvelle tude
est demande
actualiser en permanence ses rsultats
dvelopper pour un cot bien plus faible quantit doutils
de score, de classification, de recherche dassociation de
produits pour des besoins et des destinataires varis

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

60

Scores personnaliss et gnriques

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

61

Comparatif des diverses solutions

Performance Transfert de

Prennit court

Prennit long

Rapidit

du score

comptence

terme du score

terme du score

dobtention

(1)

(2)

(sert 1 seule fois)

(3)

(4)

(5)

+ + (30 jours)

(6)

(sert 1 seule fois)

24/12/2006

Stphane Tuffry - Data Mining - http://data.mining.free.fr

62

You might also like