Professional Documents
Culture Documents
DATA MINING
& STATISTIQUE DCISIONNELLE
06/12/2009
Plan du cours
Techniques prdictives
Points forts et points faibles
06/12/2009
Gnralits
06/12/2009
06/12/2009
Classement classification
Le classement consiste
placer chaque individu de la
population dans une classe,
parmi
plusieurs
classes
prdfinies, en fonction des
caractristiques de lindividu
indiques comme variables
explicatives
Le rsultat du classement est
un
algorithme
permettant
daffecter chaque individu la
meilleure classe
Le plus souvent, il y a 2
classes prdfinies ( sain et
malade , par exemple)
06/12/2009
La classification consiste
regrouper les individus dune
population en un nombre
limit de classes qui :
ne sont pas prdfinies
mais dtermines au cours
de lopration (mme leur
nombre nest pas toujours
prdfini)
regroupent les individus
ayant des caractristiques
similaires et sparent les
individus ayant des
caractristiques diffrentes
(forte inertie interclasse
faible inertie intraclasse)
Prdiction
06/12/2009
1 quantitative n quantitatives
(covariable)
(covariables)
1 qualitative
(facteur)
n qualitatives
(facteurs)
mlange
ANOVA, arbres
de dcision,
rseaux de
neurones
ANCOVA,
arbres de
dcision,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
rgression
logistique,
arbres, rseaux
de neurones
expliquer
1 quantitative
n quantitatives
(reprsentent des
quantits )
1 qualitative
nominale ou
binaire
1 discrte
(comptage)
1 quantitative
asymtrique
1 qualitative
ordinale
n quantitatives
ou qualitatives
06/12/2009
rg. linaire
simple,
rgression
robuste, arbres
de dcision
rgression
PLS2
ADL,
rgression
logistique,
arbres de
dcision
MANOVA
MANOVA,
rseaux de
neurones
ADL, rg. logistique, rgression
rgression
reg. logistique PLS, logistique,
logistique,
arbres, rseaux de
DISQUAL,
DISQUAL,
neurones, SVM
arbres
arbres, rseaux
de neurones
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
modle linaire gnralis
(rgressions gamma et log-normale)
rgression logistique ordinale
(au moins 3 niveaux)
Techniques inductives et
transductives
06/12/2009
sopre
en regardant, parmi les individus dj classs, la classe
des k individus qui sont les plus proches voisins (ou en
calculant la moyenne dans le voisinage de la variable
prdire)
La valeur de k sera choisie en sorte dobtenir le meilleur
classement (prdiction) possible :
0
0
0
1
0 1
0
1
0
0
1
1 ? 0
1
1
0
1
? est class en "0"
06/12/2009
10
Une
et de calcul
On utilise surtout les techniques inductives.
Une
06/12/2009
11
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois
12 mois
aujourdhui
observation des
observation de la
variables explicatives
variable expliquer
Application du modle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois
aujourdhui
+ 12 mois
observation des
prdiction de la
variables explicatives
variable expliquer
12
06/12/2009
13
mauvaise
gnralisation
donnes de test
et d'application
t
donnes apprentissage
bonne
gnralisation
taille de l'chantillon
taille suffisante
06/12/2009
14
Sur-apprentissage en rgression
06/12/2009
15
Sur-apprentissage en classement
(C) Modle trop
complexe
06/12/2009
16
taux
d'erreur
bonne
gnralisation
donnes apprentissage
taille du modle
(A)
06/12/2009
(C)
17
n
282
60
342
rglements crdit
Taux d'amlioration=0,0286
<=1,165
>1,165
Noeud 3
Catgorie
%
N
89,64
O
10,36
Total
(73,39)
Noeud 4
Catgorie
%
N
62,64
O
37,36
Total
(26,61)
n
225
26
251
<=101,935
Noeud 5
Catgorie
%
n
N
91,32 221
O
8,68 21
Total
(70,76) 242
>101,935
Noeud 6
Catgorie
%
n
N
44,44
4
O
55,56
5
Total
(2,63) 9
n
57
34
91
nb achats
Taux d'amlioration=0,0054
<=55,5
Noeud 9
Catgorie
%
N
68,66
O
31,34
Total
(19,59)
>55,5
n
46
21
67
Noeud 10
Catgorie
%
N
45,83
O
54,17
Total
(7,02)
n
11
13
24
n
241
48
289
rglements crdit
Taux d'amlioration=0,0286
<=1,165
Intrt du bootstrap
aggregating (bagging) avec
des mthodes relativement
peu robustes comme les
arbres de dcision
06/12/2009
>1,165
Noeud 3
Catgorie
%
n
N
90,95 181
O
9,05 18
Total
(68,86) 199
Noeud 4
Catgorie
%
N
66,67
O
33,33
Total
(31,14)
<=101,935
Noeud 5
Catgorie
%
N
91,19
O
8,81
Total
(66,78)
>101,935
n
176
17
193
Noeud 6
Catgorie
%
n
N
83,33
5
O
16,67
1
Total
(2,08) 6
n
60
30
90
nb achats
Taux d'amlioration=0,0054
<=55,5
Noeud 9
Catgorie
%
N
65,52
O
34,48
Total
(20,07)
>55,5
n
38
20
58
Noeud 10
Catgorie
%
N
68,75
O
31,25
Total
(11,07)
18
n
22
10
32
Mthodes de slection
06/12/2009
19
06/12/2009
20
Matrice de confusion
valeur prdite
valeur relle
A
1800
200
300
1700
TOTAL
TOTAL
4000
21
QPRESS
QPRESS
(
n (c k ))
=
n (k 1)
n = taille chantillon
k = nb de groupes
c = nb dindividus bien classs
22
Sensibilit et spcificit
06/12/2009
23
1,0
Courbe ROC
,8
Source de la courbe
,5
La courbe ROC
,3
Ligne de rfrence
arbre de dcision
analys discriminante
rgress. logistique
06/12/2009
24
06/12/2009
25
prdiction parfaite
seuil s maximum :
tous classs en -
prdiction nulle
taux de faux positifs
06/12/2009
26
Prvu
CHD
Observ
CHD
0
0
1
1
45
16
Pourcentage global
12
27
Pourcentage
correct
78,9
62,8
72,0
06/12/2009
27
Incorrect
vnement
Nonvnement
0.000
57
0.100
Pourcentages
vnement
Nonvnement
Spcificit
POS
fausse
NEG
fausse
Correct
Sensibilit
43
57.0
100.0
0.0
43.0
57
42
58.0
100.0
2.3
42.4
0.0
0.200
55
36
62.0
96.5
16.3
39.6
22.2
0.300
51
19
24
70.0
89.5
44.2
32.0
24.0
0.400
50
25
18
75.0
87.7
58.1
26.5
21.9
0.500
45
27
16
12
72.0
78.9
62.8
26.2
30.8
0.600
41
32
11
16
73.0
71.9
74.4
21.2
33.3
0.700
32
36
25
68.0
56.1
83.7
17.9
41.0
0.800
24
39
33
63.0
42.1
90.7
14.3
45.8
51
48.0
10.5
97.7
14.3
54.8
57
43.0
0.0
100.0
57.0
prdit0.900
1.000
Observ
total
06/12/2009
42
1
1 total
43
45
12
57
16
27
43
61
39
100
28
7e variable
0. 9
0. 8
0. 7
1re variable
0. 6
0. 5
0. 4
0. 3
0. 2
0. 1
0. 0
0. 0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
1. 0
1 - Spci f i ci t
06/12/2009
29
30
DATA auc;
SET wilcoxon;
n2 = N; R2 = SumOfScores ;
n1 = LAG(N); R1 = LAG(SumOfScores) ;
u1 = (n1*n2) + (n1*(n1+1)/2) - R1 ;
u2 = (n1*n2) + (n2*(n2+1)/2) - R2 ;
u = MIN(u1,u2);
AUC = ROUND(1- (u/(n1*n2)),0.001);
RUN;
n (n + 1)
n (n + 1)
U = minn1n2 + 1 1
R1 , n1n2 + 2 2
R2
2
2
06/12/2009
n2
R2
n1
R1
U1
U2
AUC
711
1038858.0
711
1038858
1490
1384443.0
1490
1384443
711
1038858
273648
785742
273648
0.74169
31
Utilisation de lAUC
Le
Zone
,887
,906
,889
Erreur Std.
,008
,007
,008
Signif.
b
asymptotique
,000000
,000000
,000000
Intervalle de confiance
95% asymptotique
Borne
Borne
infrieure
suprieure
,872
,902
,892
,921
,873
,904
32
Courbe de lift
La courbe de lift :
% d'individus rpondants
90
ciblage alatoire
80
70
ciblage idal
60
50
40
30
Lift = 40/10 = 4
20
10
0
0
25
50
75
100
% d'individus cibls
06/12/2009
33
Cas particuliers :
06/12/2009
34
Technique de prdiction :
La rgression linaire
06/12/2009
35
mesure
On observe les valeurs correspondantes y1, , yn de Y
Exemples :
06/12/2009
36
Y = 0 + 1X1 + + kXk +
important : on suppose lindpendance linaire des Xi
06/12/2009
37
La
V(i) = s
cov(i,j) = 0 i j
i ~ N(0,s)
06/12/2009
38
La composante stochastique
06/12/2009
39
Des
06/12/2009
40
( x x )( y y ) cov( X ,Y )
b=
=
( x x )
i
b = Y/X
Yi
Y
i
Lestimateur a de la constante
vaut :
a = y - b.x
06/12/2009
41
06/12/2009
42
Mais
06/12/2009
43
Modle
1
(cons tante)
TEMPERAT
ISOLATIO
Coefficients non
s tandardis s
Erreur
B
s tandard
1467,643
62,422
-37,060
2,295
-29,774
3,492
Coefficients
s tandardis s
Bta
-,866
-,457
t
23,512
-16,147
-8,526
Signification
,000
,000
,000
Valeur des
coefficients
cart-type des
estimateurs
Coefficients
comparables
entre eux
Statistique t
de Student
44
2
SCE = ( yi y i )
yi
SCT = ( yi y )
xi
06/12/2009
45
Somme
des carrs
Rgress ion 3267046,7
Rs idu
116727,068
Total
3383773,7
ddl
2
12
14
Carr moyen
1633523,333
9727,256
F
167,933
Signification
,000 a
SCR
2 prdicteurs rgression
linaire multiple
= somme des carrs Rgression
SCE
= nombre de variables
= nombre dobservations
SCR
p
F=
SCE
n p 1
suit une loi F de ddl (p,n-p-1)
sous lhypothse nulle (H0) :
(b1 = b2 = 0)
06/12/2009
46
Coefficient de dtermination
R2 = SCR / SCT
R2 = proportion de variation de la variable cible
(
1 R )(n 1)
R ajust = 1
2
n p 1
R ajust est toujours < R et peut tre < 0
Modle
1
R
,983 a
R-deux
,966
R-deux ajus t
,960
Erreur s tandard
de l'es timation
98,627
a.
06/12/2009
47
Intervalles de confiance
48
06/12/2009
49
Prcautions dutilisation
50
Test dautocorrlation
06/12/2009
51
rsidus positifs
rsidus ngatifs
52
rsidus positifs
rsidus ngatifs
ou utiliser la Stphane
mthode
carrs pondrs
Tuffrydes
- Datamoindres
Mining - http://data.mining.free.fr
06/12/2009
53
Homoscdasticit et autocorrlation
des rsidus
= (i - i-1) / i
vaut entre 0 et 4
proche de 2 si pas dautocorrlation (OK entre 1,5 et 2,5)
< 2 pour des corrlations positives
> 2 pour des corrlations ngatives
R
,983 a
R-deux
,966
R-deux ajus t
,960
Durbin-Wats on
1,819
a.
06/12/2009
54
06/12/2009
55
Exemple tir de :
06/12/2009
56
DF
Somme des
carrs
Carr
moyen
Model
234.6
234.6
Error
14
145.4
10.4
Corrected Total
15
380.1
Valeur F
Pr > F
22.6
0.0003
Root MSE
3.22
R-Square
0.62
Dependent Mean
12.60
Adj R-Sq
0.59
Coeff Var
25.60
06/12/2009
Variable
D
F
Rsultat
estim
des
paramtres
Intercept
0.52
0.81
Erreur
std
Valeur du
test t
Pr > |t|
Tolrance
Inflation
de variance
2.67
0.20
0.8476
0.17
4.75
0.0003
1.00
1.00
57
ya
22
21
17
20
16
19
15
Et
pourtant !
18
17
16
15
14
13
12
11
14
10
Les
situations
sont bien
diffrentes
13
12
11
10
9
8
7
6
9
8
7
6
5
4
3
2
0
7
10
11
12
13
14
15
16
17
18
19
20
21
22
23
yc
30
10
11
12
13
14
15
16
17
18
19
20
21
22
23
16
17
18
19
20
21
22
23
yd
20
19
ye
30
18
17
16
15
20
20
14
13
12
10
11
10
9
10
0
13
14
15
16
17
18
19
20
21
22
23
24
xe
25
26
27
28
29
30
31
32
33
34
7
6
5
4
3
0
7
10
11
12
13
14
15
x
06/12/2009
16
17
18
19
20
21
22
23
10
11
12
13
14
15
x
58
Rgression 1 :
Durbin-Watson D
2.538
Number of Observations
16
-0.277
06/12/2009
59
Rgression 2 :
0.374
Number of Observations
16
0.595
06/12/2009
60
Rgression 3 :
Durbin-Watson D
1.289
Number of Observations
16
-0.015
06/12/2009
61
Rgression 4 :
Durbin-Watson D
1.821
Number of Observations
16
-0.094
06/12/2009
62
Rgression 5 :
Durbin-Watson D
0.310
Number of Observations
16
0.723
06/12/2009
63
Attention la multicolinarit
Mesure par :
VIF = 1 / tolrance
doit tre < 5
06/12/2009
64
Attention la multicolinarit
Modle
1
Dimens ion
1
2
3
06/12/2009
Valeur propre
2,145
,766
,089
Indice de
condition
nement
1,000
1,673
4,915
Proportions de la variance
(cons tante) TEMPERAT ISOLATIO
,03
,07
,03
,02
,92
,02
,95
,01
,95
65
Effets de la multicolinarit
Petite
variation
de Y
06/12/2009
66
Solutions la multicolinarit
06/12/2009
67
Technique de prdiction :
La rgression PLS
06/12/2009
68
06/12/2009
69
(1983)
On a Y variable expliquer et Xi variables explicatives
Le choix des variables transformes rsulte dun
compromis entre :
maximisation de la variance des Xi (ACP)
maximisation de la corrlation entre Xi et Y (rgression)
donc : on cherche les combinaisons linaires Tj des Xi
maximisant cov(Tj,Y) = r(Tj,Y).var(Tj).var(Y)
06/12/2009
70
on a donc T1 = i cov(Y,Xi).Xi
Y = c1T1 + Y1
Xi = c1iT1 + X1i
71
Y1 = c2T2 + Y2
X1i = c2iT2 + X2i
06/12/2009
72
non la composante h
On calcule la somme des carrs rsiduels (REsidual Sum of
Squares), comme en rgression linaire :
RESSh = k(y(h-1),k- (h-1),k)
o (h-1),k = chth,k = prvision de y(h-1),k calcule pour chaque
observation k
06/12/2009
73
y
)
en posant RESS0 = i
Souvent : on fixe = 0,95 si n < 100, et = 1 si n 100
06/12/2009
74
06/12/2009
75
06/12/2009
76
Technique de prdiction :
La rgression robuste
06/12/2009
77
Rgression robuste
06/12/2009
78
79
x x
i
Rgression polynomiale
Rgression sur variables qualitatives par codage optimal
(moindres carrs alterns)
06/12/2009
80
Influence
80
60
Moindres
valeurs absolues
40
Winsoriss
20
Ecrts
0
-10
06/12/2009
Rsidus
10
20
81
06/12/2009
82
06/12/2009
83
Technique de classement :
Analyse discriminante
06/12/2009
84
Deux problmatiques
Situation
Analyse
Analyse
Lanalyse
06/12/2009
85
Autre formulation
Analyse
une
86
Approche
probabiliste
(baysienne)
06/12/2009
Oui
Oui
Non
Oui
multinormalit
homoscdasticit
quiprobabilit
87
Technique de classement :
Analyse discriminante
gomtrique
06/12/2009
88
correspondant k groupes Gi
06/12/2009
89
80
60
70
50
40
60
30
ESPECE
20
VIRGINICA
VERSICOLOR
SETOSA
0
PE_W
06/12/2009
10
20
30
VIRGINICA
SE_L
PE_L
10
ESPECE
50
VERSICOLOR
SETOSA
40
10
20
30
40
50
SE_W
90
Illustration de la problmatique
descriptive
en revanche laxe z
diffrencie
groupes.
bien
les
trois
z
CCCC
CCCC
CCCC
CCCC
BBBB
BBBB
BBBB
AAAA
AAAA
AAAA
La droite :
z = + 1 spare les B et C
z = - 1 spare les A et B
91
Les
Variance
06/12/2009
92
93
94
mtrique V-1
ou mtrique W-1 quivalente
06/12/2009
95
Facteur ACP 2
-1
ESPECE
VIRGINICA
-2
VERSICOLOR
-3
SETOSA
-2
-1
1
VIRGINICA
SETOSA
Fonction discriminante 2
meilleure
sparation
avec W-1
0
VERSICOLOR
CIBLE
-1
Barycentres
VIRGINICA
-2
VERSICOLOR
SETOSA
-3
-20
-10
10
Fonction discriminante 1
Facteur ACP 1
sparation imparfaite
06/12/2009
96
3,00000
Espce
3,00000
SETOSA
SETOSA
VERSICOLOR
VERSICOLOR
VIRGINICA
VIRGINICA
2,00000
Fonction discriminante 2
2,00000
Facteur ACP 2
1,00000
0,00000
1,00000
0,00000
meilleure -1,00000
sparation
-2,00000
avec W-1
-1,00000
-2,00000
-3,00000
-3,00000
-2,00000
-1,00000
0,00000
1,00000
Facteur ACP 1
06/12/2009
2,00000
sparation imparfaite
-10,00000
-5,00000
0,00000
5,00000
10,00000
Fonction discriminante 1
97
discriminante de Fisher :
i + i,1X1 + i,2X2 + i,pXp
et on classe x dans le groupe pour lequel la fonction est
maximale
06/12/2009
98
CIBLE
VERSICOLOR VIRGINICA
1,56982
1,24458
,70725
,36853
,52115
1,27665
,64342
2,10791
-72,85261 -104,36832
CIBLE
SETOSA
VERSICOLOR
VIRGINICA
Total
06/12/2009
Effectif
Effectif
Effectif
Effectif
Total
50
50
50
150
99
f(x)
100
g2
06/12/2009
101
Technique de classement :
Analyse discriminante
probabiliste
06/12/2009
102
P (Gi ) P ( x / Gi )
P (Gi / x) =
P(G j ) P( x / G j )
06/12/2009
103
En
e
P (Gi / x) =
'x+
1+ e
06/12/2009
104
1e possibilit : Hypothse de
multinormalit
1
(2 ) p / 2
1
exp ( x i )' i ( x i )
det( i )
2
1
maximum Log ( pi ) ( x i )' i ( x i ) log(det( i ))
i
2
2
105
Multinormalit
06/12/2009
106
Hypothse dhomoscdasticit
1
maximum Log ( pi ) x' x i ' 1 i + x ' 1 i )
i
2
2
a priori
Les probabilits
Soit, puisque x-1x est indpendant de i : ne changent quune
constante additive
1
1
maximum Log ( pi ) i ' i + x' i )
i
2
ai
Homoscdasticit (+ multinormalit)
=> on passe dune
fonction quadratique une fonction linaire
06/12/2009
107
Homoscdasticit
06/12/2009
108
Cas de 2 groupes
(hypothses de multinormalit et homoscdasticit)
p1 exp ( x 1 )' 1 ( x 1 )
2
P (G1 / x) =
1
1
1
p1 exp ( x 1 )' ( x 1 ) + p2 exp ( x 2 )' ( x 2 )
2
1
p2
1
1
1
1
= 1+
exp ( x 1 )' ( x 1 ) + ( x 2 )' ( x 2 )
P (G1 / x)
p1
2
2
109
110
En rsum :
Avec
les
hypothses
dhomoscdasticit :
de
multinormalit
et
06/12/2009
111
06/12/2009
112
Daprs Bayes :
pi f i ( x)
P(Gi / x) =
p j f j ( x)
j
Problme destimation de la
densit :
frquence
f i ( x) =
volume
x
x
x
x
x x
x
x
x
Mthodes :
Condition : avoir un
chantillon de grande taille
06/12/2009
113
D de Mahalanobis
une
mesure de la distance entre les deux groupes
discriminer, et donc de la qualit de la discrimination
Analogue au R dune rgression
Plus D est grand, mieux cest
On peut faire un test de Fisher sur lhypothse nulle que
tous les centrodes sont gaux
Il peut servir de critre dans une rgression pas pas
06/12/2009
114
Carr
06/12/2009
115
Lambda de Wilks
SE_L
SE_W
PE_L
PE_W
Lambda
de Wilks
,381
,599
,059
,071
F
119,265
49,160
1180,161
960,007
ddl1
2
2
2
2
ddl2
147
147
147
147
Signification
,000
,000
,000
,000
116
Matrice de confusion
Validation croise
Matrice de confusionb,c
Original
Effectif
Valid-croisa
Effectif
CIBLE
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
Total
50
50
50
100,0
100,0
100,0
50
50
50
100,0
100,0
100,0
a. Dans la validation croise, chaque observation est classe par les fonctions drives de
toutes les autres observations.
b. 98,0% des observations originales classes correctement.
c. 98,0% des observations valides-croises classes correctement.
06/12/2009
117
Nombre de
variables
1
2
3
4
Lambda
,059
,037
,025
,023
Statistique
1180,161
307,105
257,503
199,145
F exact
ddl1
ddl2
2
147,000
4
292,000
6
290,000
8
288,000
Signification
,000
,000
,000
,000
06/12/2009
118
119
cible
_TYPE_
_NAME_
nbproduits
abonnement1
nbenfants
abonnement2
evolconsom
nbsorties
6385.00
6385.00
6385.00
6385.00
6385.00
6385.00
5306.00
5306.00
5306.00
5306.00
5306.00
5306.00
1079.00
1079.00
1079.00
1079.00
1079.00
1079.00
MEAN
8.94
371.28
1.34
23.11
1.16
6.48
MEAN
8.47
281.68
1.38
19.62
1.14
5.96
MEAN
11.23
811.86
1.15
40.28
1.25
9.05
119
LINEAR
_LINEAR_
0.38
-0.00
1.12
-0.00
8.42
0.05
120
LINEAR
_CONST_
-7.50
-7.50
-7.50
-7.50
-7.50
-7.50
121
LINEAR
_LINEAR_
0.48
0.00
0.83
0.01
9.14
0.09
122
LINEAR
_CONST_
-11.27
-11.27
-11.27
-11.27
-11.27
-11.27
06/12/2009
120
06/12/2009
121
Inconvnients de lanalyse
discriminante
122
Technique de classement :
La rgression logistique
06/12/2009
123
E(Y/X=x) = Prob(Y=1/X=x)
sous la forme E(Y/X=x) = 0 + 1X1 + 2X2 + + pXp
Difficult ! Xi continues => terme de droite non born alors
que Prob(Y=1/X=x) [0,1] => il faut le transformer !
06/12/2009
124
06/12/2009
125
06/12/2009
126
Visiblement
1.0
.8
.6
Prob(Y=1 / X)
.4
.2
0.0
10
20
30
40
50
60
70
AGE
06/12/2009
127
06/12/2009
ID
1
2
3
4
5
AGRP
1
1
1
1
1
AGE
20
23
24
25
25
CHD
0
0
0
0
1
97
98
99
100
8
8
8
8
64
64
65
69
0
1
1
1
128
CHD
CHD
Mean
.8
absent
present (Proportion)
9
1
0.10
.6
13
2
0.13
9
3
0.25
.4
10
5
0.33
7
6
0.46
.2
3
5
0.63
4
13
0.76
0.0
2
8
0.80
1
2
3
4
5
57
43
0.43
AGEGRP
Stphane Tuffry - Data Mining - http://data.mining.free.fr
Proportion (CHD)
Age Group
20 29
30 34
35 39
40 44
45 49
50 54
55 - 59
60 - 69
Total
06/12/2009
1.0
129
Fonction de lien
( x) =
e
1+ e
jxj
j
0 +
jxj
j
( x)
Log (
) = 0 + 1 x1 + ... + p x p
1 ( x)
Fonction de lien : Logit((x))
Cohrent
06/12/2009
130
Fonction de lien
Fonction de transfert
Logit
Log (/ [1 ])
exp(t )
exp( z )
=
dz
2
1 + exp(t ) (1 + exp( z ) )
Probit
(normit)
fonction inverse de la
fonction de rpartition
dune loi normale
centre rduite
Log [ Log(1)]
Log-log
06/12/2009
s (t ) =
z2 / 2
dz
1 exp[ exp(t)]
131
logit
0,6
loglog
probit
0,4
0,2
4,6
3,8
2,2
1,4
0,6
-0,2
-1
-1,8
-2,6
-3,4
-4,2
-5
coeff (logit)
06/12/2009
coeff (probit)
132
( x + 1) /[1 ( x + 1)]
OR =
=e
( x) /[1 ( x)]
133
Interprtation du odds-ratio OR
06/12/2009
134
06/12/2009
135
Etape
a
1
X
Y
Constante
B
E.S.
13,184 2237,865
-2,726
441,662
-100,184 21856,781
06/12/2009
Wald
,000
,000
,000
ddl
1
1
1
Signif.
,995
,995
,996
Coefficients
-2log-vrais
emblance Constante
Itration
X
Etape
1
9,271
-,132
,182
1
2
5,000
-,750
,344
3
2,974
-2,082
,563
4
1,747
-4,940
,908
5
,816
-10,239
1,505
6
,319
-16,448
2,252
7
,121
-22,508
3,017
8
,045
-28,505
3,789
9
,017
-34,483
4,567
10
,006
-40,456
5,349
11
,002
-46,429
6,131
12
,001
-52,401
6,914
13
,000
-58,374
7,698
14
,000
-64,346
8,481
15
,000
-70,319
9,265
16
,000
-76,292
10,049
17
,000
-82,265
10,833
18
,000
-88,238
11,617
19
,000
-94,211
12,400
IC
20pour Exp(B) 95,0%
,000
-100,184
13,184
Exp(B)a. Mthode
Infrieur
: Entre Suprieur
531846,3
,000
.
b. La cons tante est incluse dans le modle.
,065
,000
.
c. -2log-vrais emblance initiale : 27,726
,000
Y
-,071
-,119
-,172
-,237
-,339
-,478
-,629
-,785
-,944
-1,105
-1,267
-1,429
-1,591
-1,753
-1,915
-2,077
-2,239
-2,401
-2,564
-2,726
136
Itration
Etape
1
1
2
3
4
5
6
7
8
9
10
-2log-vrais
emblance
11,036
7,473
5,973
5,323
5,079
5,020
5,014
5,014
5,014
5,014
Constante
-,620
-1,523
-3,054
-5,345
-7,956
-9,952
-10,746
-10,840
-10,841
-10,841
Coefficients
X
,204
,373
,583
,840
1,113
1,321
1,406
1,417
1,417
1,417
Y
-,062
-,100
-,136
-,172
-,207
-,234
-,245
-,247
-,247
-,247
a. Mthode : Entre
b. La cons tante est incluse dans le modle.
c. -2log-vrais emblance initiale : 27,526
d. L'es timation a t interrompue au numro d'itration 10 parce
que les es timations de paramtres ont chang de moins de
,001.
Etape
a
1
X
Y
Constante
B
1,417
-,247
-10,841
E.S.
1,379
,189
13,949
Wald
1,056
1,696
,604
ddl
1
1
1
Signif.
,304
,193
,437
Exp(B)
4,124
,781
,000
06/12/2009
137
continues
dcoupes en classes considres comme var. ordinales
dcoupes en classes considres comme var. nominales
Variable(s ) de rsultats
tests
Var explicatives en
clas s es ordinales
Var explicatives en
clas s es nominales
Var explicatives continues
Intervalle de confiance
95% as ymptotique
Borne
Borne
infrieure
s uprieure
Erreur Std.
Signif.
b
asymptotique
,834
,008
,000
,818
,850
,836
,008
,000
,820
,852
,820
,010
,000
,801
,839
Zone
138
Les donnes
Le modle
vecteur X
x1
M
xi
M
xn
y1
M
yi
M
yn
( x ) = P(Y = 1 / X = x )
i
0 +
e
1+ e
j xi j
0 +
j xi j
yi = 0 ou 1
06/12/2009
139
Recherche du maximum de
vraisemblance
= Prob(Y = y / X = x ) = ( x ) (1 ( x ))
i
i =1
1 y i
i =1
0 +
n
= (
i =1
i yi
1+ e
j xi j
0 +
) (1
y
0 +
jx j
i
e
1+ e
j xi j
j
0 +
1 y i
jx j
i
= L( 0 , 1 ,..., p )
06/12/2009
140
Cov( 0 , 1 )
V (0 )
V ( ) =
Cov
(
)
V
(
)
0
1
1
Log L( )
= ( 0 , 1 )
intervient dans la
statistique de Wald
(voir + loin)
06/12/2009
141
On dfinit la dviance :
06/12/2009
142
Comparaison de modles
143
Autres indicateurs
Cas particulier
>D(0) D(k) = 2 [Log L(0) Log L(k)]
suit une loi du k degrs de libert sous lhypothse
n = nb total dindividus
pnalise les modles complexes
144
Le de Wald
06/12/2009
145
Le de Wald (suite)
Etape
a
1
AGE
Cons tante
B
,111
-5,309
E.S.
,024
1,134
Wald
21,254
21,935
ddl
1
1
Signif.
,000
,000
Exp(B)
1,117
,005
> 3,84
06/12/2009
odds-ratio
1 IC
146
CLASS
0
1
2
3
Frquence
885
325
285
706
CLASS
CLASS(1)
CLASS(2)
CLASS(3)
Constante
-,068
1,596
,740
-1,087
E.S.
,117
,144
,148
,087
Wald
173,228
,336
123,520
24,920
157,383
ddl
3
1
1
1
1
Signif.
,000
,562
,000
,000
,000
Exp(B)
,934
4,936
2,096
,337
CLASS
0
1
2
3
Frquence
885
325
285
706
-1,664
-,856
-1,596
,509
E.S.
,139
,166
,144
,115
Wald
173,228
143,335
26,593
123,520
19,757
ddl
3
1
1
1
1
Signif.
,000
,000
,000
,000
,000
Exp(B)
,189
,425
,203
1,664
06/12/2009
147
Etape
1
1
2
3
4
5
6
7
8
9
10
CHD = 0
Obs erv
Thorique
9
9,213
9
8,657
8
8,095
8
8,037
7
6,947
5
5,322
5
4,200
3
3,736
2
2,134
1
,661
CHD = 1
Obs erv
Thorique
1
,787
1
1,343
2
1,905
3
2,963
4
4,053
5
4,678
5
5,800
10
9,264
8
7,866
4
4,339
Total
10
10
10
11
11
10
10
13
10
5
Test de Hosmer-Lemeshow
Etape
1
Khi-deux
,890
ddl
8
Signif.
,999
148
-2log-vrais
emblance
107,353 a
R-deux de
Cox & Snell
,254
R-deux de
Nagelkerke
,341
a.
Dviance
quivalent
du R de la
2 Log L(k)
rgression
(est > 0 puisque linaire - ne
L(k) [0,1])
peut atteindre 1
06/12/2009
R ajust pour
varier entre 0
et 1
149
Criterion
R de Cox &
Snell
Intercept
Intercept
and
Only Covariates
AIC
138.663
111.353
SC
141.268
116.563
-2 Log L
136.663
107.353
dviance
R de
Nagelkerke
06/12/2009
Test
ChiSquare
DF
Pr > ChiSq
Likelihood Ratio
29.3099
<.0001
Score
26.3989
<.0001
Wald
21.2541
<.0001
150
Incorrect
vnement
Nonvnement
0.000
57
0.100
Pourcentages
vnement
Nonvnement
Spcificit
POS
fausse
NEG
fausse
Correct
Sensibilit
43
57.0
100.0
0.0
43.0
57
42
58.0
100.0
2.3
42.4
0.0
0.200
55
36
62.0
96.5
16.3
39.6
22.2
0.300
51
19
24
70.0
89.5
44.2
32.0
24.0
0.400
50
25
18
75.0
87.7
58.1
26.5
21.9
0.500
45
27
16
12
72.0
78.9
62.8
26.2
30.8
0.600
41
32
11
16
73.0
71.9
74.4
21.2
33.3
0.700
32
36
25
68.0
56.1
83.7
17.9
41.0
0.800
24
39
33
63.0
42.1
90.7
14.3
45.8
51
48.0
10.5
97.7
14.3
54.8
57
43.0
0.0
100.0
57.0
prdit0.900
1.000
Observ
total
06/12/2009
42
1
1 total
43
45
12
57
16
27
43
61
39
100
151
06/12/2009
152
Tests de concordance
06/12/2009
79.0
0.600
19.0
0.612
2.0
0.297
2451
0.800
153
Effet de la multicolinarit
Rgression
Corrlation de Pears on
1
,975**
N
36841 36300
Corrlation de Pears on
,975**
1
N
36300 36300
On
Etape
a
1
VAR1
Cons tante
B
,098
-4,898
E.S.
,004
,062
Wald
759,291
6290,898
ddl
1
1
Signif.
,000
,000
Exp(B)
1,103
,007
Etape
a
2
VAR1
VAR2
Cons tante
B
,020
,092
-4,993
E.S.
,014
,015
,065
06/12/2009
Wald
2,125
39,280
5867,055
ddl
1
1
1
Signif.
,145
,000
,000
Exp(B)
1,020
1,096
,007
154
des
06/12/2009
155
La
( x)
Log (
) = 0 + 1 x1 + ... + p x p
1 ( x)
E ( x)
Log (
) = '0 + 1 x1 + ... + p x p
1 E ( x)
156
Si
Un
06/12/2009
157
qualitatives ou continues
Permet de traiter une variable cible ordinale ou nominale
Hypothses + gnrales que lanalyse discriminante
(pas de multinormalit ni dhomoscdasticit)
Permet de traiter les rponses non monotones
Odds-ratios facilement interprtables (pour modle logit)
Peut prendre en compte les interactions entre variables
Modlise directement une probabilit
Fournit des intervalles de confiance sur les rsultats
Nombreux tests statistiques disponibles
Possibilit de slection pas pas des variables
06/12/2009
158
06/12/2009
159
logit
probit
log-log : Log [ Log(1)]
utilis quand les valeurs leves de la cible sont plus
probables
ex : valeurs 3 5 / 5 dans une enqute de satisfaction
06/12/2009
160
que le
logit des probabilits cumulatives scrit sous la forme
i
=
= exp i ( xi x'i )
Prob(Y r / X = x' ) / Prob(Y > r / X = x' ) exp( r + i x'i )
i
161
exp j + jk x k
k
, j = 1, ..., m 1
Prob(Y = j / X = x) =
m 1
1 + exp i + ik x k
i =1
k
1
Prob(Y = m / X = x) =
m 1
1 + exp i + ik x k
i =1
k
06/12/2009
162
Techniques de classement :
06/12/2009
163
Terminologie
Covariables
(quantitatives)
Facteurs
=
(qualitatives)
variables
variables
explicatives
explicatives
continues
catgorielles
06/12/2009
164
Effets mixtes
06/12/2009
165
Ex
06/12/2009
166
Les
06/12/2009
167
06/12/2009
168
On
06/12/2009
169
06/12/2009
170
Modlise
06/12/2009
171
S (t , xi ) = S 0 (t )
j =0
06/12/2009
172
06/12/2009
173
06/12/2009
174
Gnralise
faons
Les variables explicatives peuvent non seulement tre
continues, mais :
qualitatives (ANOVA)
continues et qualitatives (ANCOVA)
MANOVA, MANCOVA
mixtes
Prise en compte des modles mesures rptes
06/12/2009
175
Gnralise
g() =
g() = -1/
g()=log(/1-)
(logit, probit, log-log)
g() = log()
multinomiale, etc.
06/12/2009
176
177
ou
binomiale
06/12/2009
178
Arbres de dcision
06/12/2009
179
est la racine
Les nuds terminaux sont les
feuilles
06/12/2009
180
Arbre de classement
SURV (Echantillon d'apprentissage)
Noeud 0
Catgorie
%
n
1
32,99 511
0
67,01 1038
Total
(100,00) 1549
SEX
Prob. ajuste - valeur=0,0000, Khi-deux=341,5082, ddl=1
Noeud 1
Catgorie
%
n
1
21,08 253
0
78,92 947
Total
(77,47) 1200
Noeud 2
Catgorie
%
n
1
73,93 258
0
26,07
91
Total
(22,53) 349
CLASS
Prob. ajuste - valeur=0,0000, Khi-deux=95,2936, ddl=2
1
Noeud 5
Catgorie
%
n
1
96,46 109
0
3,54
4
Total
(7,30) 113
06/12/2009
2;0
Noeud 6
Catgorie
%
n
1
87,00
87
0
13,00
13
Total
(6,46) 100
3
Noeud 7
Catgorie
%
n
1
45,59
62
0
54,41
74
Total
(8,78) 136
181
06/12/2009
182
Arbre de rgression
PNB
Ce sont la
consommation
dnergie et
lesprance de vie
qui expliquent le
mieux le PNB par
habitant
Noeud 0
Moyenne 3250,141
Ecart type 4330,307
n
163
%
100,0
Prvisions 3250,141
ENERG
Valeur p aj.=0,000, F=122,386,
ddl1=2, ddl2=160
<= 19
> 65
Noeud 1
Noeud 2
Noeud 3
Moyenne 2407,358
Ecart type 2824,902
n
53
%
32,5
Prvisions 2407,358
Moyenne 8876,463
Ecart type 4388,009
n
41
%
25,2
Prvisions 8876,463
Moyenne
Ecart type
n
%
Prvisions
554,319
479,405
69
42,3
554,319
ESPER
Valeur p aj.=0,000, F=29,878,
ddl1=1, ddl2=67
06/12/2009
<= 53
> 53
Noeud 4
Noeud 5
Moyenne
Ecart type
n
%
Prvisions
322,513
179,728
39
23,9
322,513
Moyenne
Ecart type
n
%
Prvisions
855,667
574,784
30
18,4
855,667
183
06/12/2009
184
Cest bien entendu sur cette dernire rgle que les arbres
diffrent le plus
Le critre du 2
06/12/2009
186
06/12/2009
187
06/12/2009
188
4.
06/12/2009
189
Lors du calcul de la
06/12/2009
190
Il
Il
06/12/2009
191
06/12/2009
192
18-25 ans
25-29 ans
29-32 ans
32-35 ans
35-38 ans
38-40 ans
40-42 ans
42-45 ans
45-51 ans
> 51 ans
Total
06/12/2009
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
non
127
61,1%
104
45,2%
93
47,9%
113
53,3%
93
49,7%
149
54,8%
108
60,0%
116
54,5%
77
40,5%
71
32,9%
1051
50,0%
oui
81
38,9%
126
54,8%
101
52,1%
99
46,7%
94
50,3%
123
45,2%
72
40,0%
97
45,5%
113
59,5%
145
67,1%
1051
50,0%
Total
208
100,0%
230
100,0%
194
100,0%
212
100,0%
187
100,0%
272
100,0%
180
100,0%
213
100,0%
190
100,0%
216
100,0%
2102
100,0%
193
tranches 2 et 3
tranches 4 8
tranches 9 et 10
Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
AGE
Prob. ajuste - valeur=0,0000, Khi-deux=50,4032, ddl=3
<=24
Noeud 6
Catgorie
%
n
O
38,94
81
N
61,06 127
Total
(9,90) 208
(24,32]
Noeud 7
Catgorie
%
n
O
53,54 227
N
46,46 197
Total
(20,17) 424
(32,45]
Noeud 8
Catgorie
%
n
O
45,58 485
N
54,42 579
Total
(50,62) 1064
>45
Noeud 9
Catgorie
%
n
O
63,55 258
N
36,45 148
Total
(19,31) 406
194
Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
REVENUS
Prob. ajuste - valeur=0,0000, Khi-deux=34,0522, ddl=2
<=350
Noeud 10
Catgorie
%
n
O
33,33
70
N
66,67 140
Total
(9,99) 210
(350,2667]
Noeud 11
Catgorie
%
n
O
53,60 789
N
46,40 683
Total
(70,03) 1472
>2667
Noeud 12
Catgorie
%
n
O
45,71 192
N
54,29 228
Total
(19,98) 420
06/12/2009
195
Indice de Gini
Plus
06/12/2009
196
06/12/2009
197
diffrent de CHAID
06/12/2009
198
Variables quidivisantes :
Variables quirductrices :
06/12/2009
199
La
Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
AGE
Taux d'amlioration=0,0088
<=45,5
Noeud 1
Catgorie
%
n
O
46,76 793
N
53,24 903
Total
(80,69) 1696
>45,5
Noeud 2
Catgorie
%
n
O
63,55 258
N
36,45 148
Total
(19,31) 406
200
06/12/2009
Article
Prix
Achat
125
100
70
120
95
60
220
85
75
10
90
201
Prix
60
70
75
85
90
95
100
120
125
220
Seuil
55
65
72
80
87
92
97
110
122
172
230
>
>
>
>
>
>
>
>
>
>
>
Gini
0,420
0,400
0,375
0,343
0,417
0,400
0,300
0,343
0,375
0,400
0,420
6/10.(1-0,5-0,5)+4/10.(1-0-1)=6/10*0,5=0,3
06/12/2009
202
Si
Pour
06/12/2009
203
Entropie
Plus
Comme
06/12/2009
204
Arbre C5.0
type de variables
Dispositif doptimisation de larbre par construction puis
lagage dun arbre maximum
06/12/2009
205
Pr-lagage et Post-lagage
06/12/2009
206
lagage et sur-apprentissage
taux
d'erreur
donnes de test
et d'application
donnes apprentissage
profondeur arbre
(nb de feuilles)
laguer ici
Relative Cost
0.30
06/12/2009
0.248
0.28
0.26
0.24
0.22
0.20
0
100
200
300
Stphane Tuffry
- Data Mining
- http://data.mining.free.fr
Number
of Nodes
400
207
Validation croise
06/12/2009
208
06/12/2009
209
Beaucoup
Dure de traitement
06/12/2009
210
06/12/2009
211
Le rchantillonnage
06/12/2009
212
Rchantillonnage Bootstrap
On
213
ex : la moyenne = E(F)
06/12/2009
214
1 n
ex : = xi
n i =1
215
06/12/2009
216
Pour
06/12/2009
217
06/12/2009
218
Rchantillonnage boostrap et
bagging
06/12/2009
219
NB
06/12/2009
220
06/12/2009
221
Ensuite
en ajoutant un
tirage alatoire parmi les variables explicatives
vite de voir apparatre toujours les mmes variables
Efficace sur les souches ( stumps ), arbres 2 feuilles
06/12/2009
222
dterministe du
Bagging :
06/12/2009
223
En boosting :
on construit un ensemble de modles dont on agrge ensuite les
prdictions
Mais :
on nutilise pas ncessairement des chantillons bootstrap mais
06/12/2009
224
BAGGING
BOOSTING
Caractristiques
Avantages et inconvnients
Technique de rduction de la variance par moyenne
de modles
06/12/2009
225
complet ?
Quelle fonction derreur pour pondrer les individus (rsidu
de la dviance pour un modle linaire gnralis) ?
Faut-il chaque itration nutiliser que lerreur de litration
prcdente, ou la multiplier par lerreur de toutes les
itrations antrieures (risque : zoomer excessivement
sur les individus outliers mal classs) ?
Que faire des individus trs mal classs litration i :
borner leur erreur (ex : limiter 2 le rsidu de la dviance),
leur interdire de participer litration i+1, ou ne rien faire ?
Comment raliser lagrgation finale ? Prendre en compte
tous les modles ou carter ceux qui sajustent trop mal ?
06/12/2009
226
Arbre boost
Arbre simple
06/12/2009
227
Ces
AVANTAGES
perte de lisibilit
importance du temps machine de traitement
INCONVNIENTS
228
Combinaison et agrgation de
modles
Sur :
Appliquer :
Quoi :
Le mme
chantillon
Des chantillons
diffrents
La mme
technique
Modle simple
Agrgation de modles
Des
techniques
diffrentes
Combinaison de
modles
Mlange (*)
06/12/2009
229
06/12/2009
230
La prcision
La robustesse
La concision
06/12/2009
231
06/12/2009
232
06/12/2009
233
06/12/2009
234
06/12/2009
235
0
0
0
1
0 1
0
1
0
0
1
1
? 0
1
1
0
1
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
1
+
1
00 11
Analyse discriminante
Rseau de neurones
Arbre de dcision
06/12/2009
236
06/12/2009
237
06/12/2009
238
Thorie de lapprentissage de
Vapnik
06/12/2009
239
fonction de perte :
y continue L(y,f(x)) = (y f(x))
y = 0/1 L(y,f(x)) = |y f(x)|
Risque (ou risque rel) = esprance de la fonction de perte
sur lensemble des valeurs possibles des donnes (x,y)
comme on ne connat pas la loi de probabilit conjointe de x
et y, on ne peut questimer le risque
n
n
2
n
i =1
i =1
06/12/2009
240
mauvaise
gnralisation
donnes de test
et d'application
t
donnes apprentissage
bonne
gnralisation
taille de l'chantillon
241
Complexit et VC-dimension
06/12/2009
242
Hachage de points
en deux sous-chantillons
Chaque manire correspond un ensemble (x1,y1) , ,
(xn,yn) , avec yi = +1 ou 1
Un ensemble F de fonctions f(x,) hache lchantillon si
les 2n sparations peuvent tre faites par des f(x,) F,
c.a.d si on peut toujours trouver tel que signe(f(xi,)) = yi
pour tout i
Cela signifie que F peut discriminer nimporte quelle
configuration de lchantillon : problme de classement
Les droites du plan peuvent hacher certains
chantillons de trois points (ceux qui sont non aligns)
mais aucun chantillon de quatre points
06/12/2009
243
VC-dimension
244
Exemples de VC-dimension
06/12/2009
245
B2
b21
b22
margin
b11
b12
06/12/2009
246
Thormes de convergence
h (log(2n / h) + 1) log( / 4)
n
06/12/2009
247
Consquences
et de h (log(2n / h) + 1) log( / 4)
n
Cest le modle qui ralise le meilleur compromis entre
ajustement et robustesse
Pour une taille n fixe, lorsque h diminue, gnralement
Remp augmente et h (log(2n / h) +n1) log( / 4) diminue il faut
trouver la valeur optimale de h
Si n augmente, h peut augmenter aussi, car le terme
h (log(2n / h) + 1) log( / 4)
tend vers 0 lorsque h/n tend vers 0
n
A pouvoir prdictif gal, il privilgier le modle qui a la plus
faible VC-dimension
06/12/2009
248
06/12/2009
249