Professional Documents
Culture Documents
DATA MINING
& STATISTIQUE DCISIONNELLE
24/12/2006
Plan du cours
24/12/2006
24/12/2006
(variable cible)
exemple : client risque et client sans risque
Dfinir la population cible
tous les clients, les clients actifs, les prospects aussi
unit statistique : individu, famille, entreprise, groupe
Dterminer la priode tudier
Le sujet doit faire partie des objectifs de lentreprise et lui
apporter un avantage rel
Les objectifs doivent tre ralistes (tenir compte des
actions passes et de la saturation du march)
Prvoir lutilisation oprationnelle des modles produits
24/12/2006
Il y a les donnes :
24/12/2006
Direct Marketing)
Gomarketing (type dhabitat en fonction de ladresse)
Scoring prnom
Recours des modles standards pr-tablis par des
socits spcialises (ex : scores gnriques)
24/12/2006
Gomarketing
Donnes conomiques
nb
Donnes sociodmographiques
population,
moyens,
Donnes rsidentielles
anciennet,
Donnes concurrentielles
implantation
Type
24/12/2006
24/12/2006
ge
PCS
58
27
46
32
cadre
ouvrier
technicien
employ
situation
nb
montant
famille
achats achats
mari
2
40
clibataire
3
30
clibataire
3
75
mari
1
50
variable expliquer
observe anne n
variables explicatives
observes anne n-1
variable
explicative m
chantillon
apprentissage
test
test
apprentissage
n
client
1
2
2000
rpartition
alatoire
des clients
entre les 2
chantillons
PREDICTION
f
24/12/2006
10
Anciennets
24/12/2006
11
24/12/2006
12
Donnes sociodmographiques
24/12/2006
13
Le
Pour
24/12/2006
14
Non fiables
trop de valeurs aberrantes ou manquantes
Disponibles sur une dure trop courte
soumises aux variations saisonnires
Redondantes
dont le poids est artificiellement augment, ou dont la
colinarit rend instable les rsultats de certaines mthodes
Non pertinentes
quil faut remplacer par de nouveaux indicateurs
Trs corrles lobjectif de ltude mais seulement dans
lchantillon dapprentissage
qui entranent un sur-apprentissage dans les prdictions
Trop peu corrles lobjectif de ltude
qui crent du bruit , des fluctuations alatoires
24/12/2006
15
tests de multicolinarit
24/12/2006
16
prsence/absence)
Calcul de ratios
Calcul dvolutions temporelles de variables
Cration de dures, danciennets partir de dates
Croisement de variables, interactions
Utilisation de coordonnes factorielles
24/12/2006
17
Prsence de 3 classes
24/12/2006
18
clients sans
apptence
clients avec
apptence
variable explicative Y
24/12/2006
19
population tudie :
en groupes forcment distincts selon les donnes disponibles
(clients / prospects)
en groupes statistiquement pertinents vis--vis des objectifs de
ltude
selon certaines caractristiques sociodmographiques (ge,
profession) si elles correspondent des offres marketing
spcifiques
un chantillon dapprentissage
un chantillon de test
si possible, un chantillon de validation
Mise en uvre de une ou plusieurs techniques de data
mining
24/12/2006
20
Pr-segmentation : questions
oprationnelles
explicatives
Homognit des segments du point de vue de la variable
expliquer
24/12/2006
21
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois
12 mois
aujourdhui
observation des
observation de la
variables explicatives
variable expliquer
24/12/2006
22
24/12/2006
valeur prdite
valeur relle
A
1800
200
300
1700
TOTAL
TOTAL
4000
23
Arbres de dcision
Rgression logistique
24/12/2006
24
24/12/2006
25
24/12/2006
( A ) M o d le tr o p s im p le
( B ) B o n m o d le
( C ) M o d le t ro p c o m p le x e
Stphane
Tuffry - Data Mining
- http://data.mining.free.fr
26
% d'individus rpondants
90
ciblage alatoire
80
70
ciblage idal
60
50
40
30
20
Lift = 30/10 = 3
10
0
0
25
50
75
100
% d'individus cibls
COURBE DE LIFT
24/12/2006
27
Les indicateurs
statistiques de 2
modles de nature
diffrentes (exemple :
R dune analyse
discriminante et dune
rgression logistique)
sont rarement
comparables
On compare les
modles laide des
courbes ROC ou de lift
24/12/2006
28
1,0
Zone
,906
,889
,887
,8
Source de la courbe
,5
Ligne de rfrence
arbre de dcision
,3
analys discriminante
0,0
0,0
24/12/2006
rgress. logistique
,3
,5
,8
1,0
29
Dploiement informatique
30
Donnes
en entre
(ex : fichier
chantillon
de clients)
Donnes
en entre
(ex : fichier
complet de
clients)
Rgles
(ex : grille
de score)
Donnes
en entre
(ex : fichier
complet de
clients)
Rgles
exportes
(Cobol, C,
PMML)
Transfert
donnes
Logiciel de
data mining
Logiciel de
data mining
Ordinateur
central
Donnes
en sortie
(ex : fichier
de clients
scors)
Rgles
(ex : grille
de score)
Environnement
data mining
Base
danalyse
Construction du
modle
24/12/2006
Environnement
data mining
Donnes
en sortie
(ex : fichier
de clients
scors)
Donnes
de production
Programmes de
gestion
Donnes de
production
31
% populat. 0 - 1000
1001 - 2 000
2 001 - 3 000
> 3 000
rouge
20 %
tudier
tudier
tudier
tudier
orange
20 %
tudier
dcouvert = 150
dcouvert = 450
dcouvert = 750
prt pers. = 0
dcouvert = 150
dcouvert = 450
dcouvert = 1500
dcouvert = 1500
carte = retrait
prt pers. = 0
prt pers. = 12 k
dcouvert = 150
dcouvert = 750
dcouvert = 1500
dcouvert = 1500
carte = dbit
carte = Premium
immdiat
prt pers. = 12 k
prt pers. = 15 k
vert ( fonc )
vert ( clair )
20 %
40 %
prt pers. = 0
24/12/2006
32
Mode dutilisation
33
Quand
24/12/2006
34
Suivi du score
24/12/2006
35
Suivi du score
mois
score
M1
M2
M3
M4
M5
M6
M7
M8
M9
M 10
M 11
M 12
TOTAL
24/12/2006
36
score M2
Permet de
contrler
la stabilit
du modle
24/12/2006
37
24/12/2006
Bi
la
n
f
in
iti
o
In
ve n d
es
nt
ai
ob
P
C
re
r
on
pa
d e je c
st
ti f
ra
s
itu
s
d
t
io
on
ti o
n
n
n
de
de
es
s
do
la
v
l
nn
ab ba
al
se
e
ua
or
s
at
tio
d
io
an
n
n
va
de aly
l id
s
s
at
m e
io
od
n
l
D
d
es
c
es
la
m
R
ra
es
D
tio od
oc
tit
le
n
ut
um
s
io
la
n
An ent
de
C
at
al
NI
s
i
ys
on
L
r
e
s
u
d
pr
l ta
ta
ts
il l sen
e
de tatio
ns
s
r
su
lta
ts
24/12/2006
39
Cots
24/12/2006
40
Le RSI vient de :
41
CA total annuel ( = H x E )
RSI ( = I / D )
24/12/2006
42
150
450
0,5 an
375
50
1 000 000
80 000
8%
40 000
2 000 000
8 000
3 000 000
1 000 000
43
24/12/2006
44
les
24/12/2006
45
Le
24/12/2006
46
Il
notamment en ce qui
campagnes : refus dachat
concerne
les
retours
des
24/12/2006
47
sur un bouton )
Le data mining permet de faire des dcouvertes
incroyables
Le data mining est rvolutionnaire
Il faut utiliser toutes les donnes disponibles
Il faut toujours chantillonner
Il ne faut jamais chantillonner
24/12/2006
48
24/12/2006
49
Le
24/12/2006
50
24/12/2006
51
52
24/12/2006
53
24/12/2006
54
24/12/2006
55
Il
24/12/2006
56
saisies
Acheter des donnes externes (INSEE, Consodata)
Complter ces donnes par des enqutes auprs de
clients et de commerciaux
Prciser la dfinition et amliorer le calcul de donnes
stratgiques : rentabilit, fidlit
Crer de nouvelles variables synthtiques pertinentes
Augmenter la profondeur de lhistorique des donnes.
24/12/2006
57
Le recours au consulting
24/12/2006
58
Soit
Soit
24/12/2006
59
Lintrt
Lintrt
24/12/2006
60
24/12/2006
61
Performance Transfert de
Prennit court
Prennit long
Rapidit
du score
comptence
terme du score
terme du score
dobtention
(1)
(2)
(3)
(4)
(5)
+ + (30 jours)
(6)
24/12/2006
62