Predictive S

Stphane Tuffry
DATA MINING
& STATISTIQUE DCISIONNELLE
06/12/2009
Stphane Tuffry - Data Mining - http://data.mining.free.fr
Plan du cours
Quest-ce que le data mining ?

A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
Lanalyse et la prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining
06/12/2009
Techniques prdictives
Points forts et points faibles
06/12/2009
Techniques prdictives de data mining :
Gnralits
06/12/2009
Les 2 grandes familles :

Classement et prdiction
Classement : la variable expliquer est qualitative
on parle aussi de classification (dans lcole anglosaxonne) ou de discrimination

scoring : classement appliqu une problmatique
dentreprise
Prdiction : la variable expliquer est continue
on parle aussi de rgression

ou dapprentissage supervis (rseaux de neurones)
06/12/2009
Classement classification
Le classement consiste
placer chaque individu de la
population dans une classe,
parmi
plusieurs
classes
prdfinies, en fonction des
caractristiques de lindividu
indiques comme variables
explicatives
Le rsultat du classement est
un
algorithme
permettant
daffecter chaque individu la
meilleure classe
Le plus souvent, il y a 2
classes prdfinies ( sain et
malade , par exemple)
06/12/2009
La classification consiste
regrouper les individus dune
population en un nombre
limit de classes qui :
ne sont pas prdfinies
mais dtermines au cours
de lopration (mme leur
nombre nest pas toujours
prdfini)
regroupent les individus
ayant des caractristiques
similaires et sparent les
individus ayant des
caractristiques diffrentes
(forte inertie interclasse
faible inertie intraclasse)
Prdiction
La prdiction consiste estimer
la valeur dune variable continue (dite expliquer ,

cible , rponse , dpendante ou endogne )
en fonction de la valeur dun certain nombre dautres
variables (dites explicatives , de contrle ,
indpendantes ou exognes )
Cette variable cible est par exemple :
le poids (en fonction de la taille)

la taille des ailes dune espce doiseau (en fonction de lge)
le prix dun appartement (en fonction de sa superficie, de
ltage et du quartier)
la consommation dlectricit (en fonction de la temprature
extrieure et de lpaisseur de lisolation)
06/12/2009
Choix dune mthode : nature des donnes

explicatives
1 quantitative n quantitatives
(covariable)
(covariables)
1 qualitative
(facteur)
n qualitatives
(facteurs)
mlange
ANOVA, arbres
de dcision,
rseaux de
neurones
ANCOVA,
arbres de
dcision,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
rgression
logistique,
arbres, rseaux
de neurones
expliquer
1 quantitative
n quantitatives
(reprsentent des
quantits )
1 qualitative
nominale ou
binaire
1 discrte
(comptage)
1 quantitative
asymtrique
1 qualitative
ordinale
n quantitatives
ou qualitatives
06/12/2009
rg. linaire
simple,
rgression
robuste, arbres
de dcision
rgression
PLS2
ADL,
rgression
logistique,
arbres de
dcision
rg. linaire multiple, ANOVA,

rg. robuste, PLS,
arbres de
arbres, rseaux de
dcision
neurones
rgression PLS2,
rseaux de neurones
MANOVA
MANOVA,
rseaux de
neurones
ADL, rg. logistique, rgression
rgression
reg. logistique PLS, logistique,
logistique,
arbres, rseaux de
DISQUAL,
DISQUAL,
neurones, SVM
arbres
arbres, rseaux
de neurones
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
modle linaire gnralis
(rgressions gamma et log-normale)
rgression logistique ordinale
(au moins 3 niveaux)
modle mesures rptes

(les n variables reprsentent des mesures rptes dune mme quantit)
Techniques inductives et
transductives
Dans les techniques inductives :
une phase dapprentissage (phase inductive) pour laborer

un modle, qui rsume les relations entre les variables
et qui peut ensuite tre appliqu de nouvelles donnes
pour en dduire un classement ou une prdiction (phase
dductive)
Les techniques transductives
ne comprennent quune seule tape (ventuellement

ritre), au cours de laquelle chaque individu est
directement class (ou objet dune prdiction) par
rfrence aux autres individus dj classs
il ny a pas laboration dun modle
06/12/2009
k-plus proches voisins
La plus connue des techniques transductives

Le classement (prdiction) de chaque individu
sopre
en regardant, parmi les individus dj classs, la classe
des k individus qui sont les plus proches voisins (ou en
calculant la moyenne dans le voisinage de la variable
prdire)
La valeur de k sera choisie en sorte dobtenir le meilleur
classement (prdiction) possible :
ce choix est la principale difficult de cet algorithme !
Ainsi, dans lexemple ci-contre,

lindividu ? est class en 0 ,
car entour en majorit de 0
0
0
0
1
0 1
0
1
0
0
1
1 ? 0
1
1
0
1
? est class en "0"
06/12/2009
10
Limites des mthodes transductives
Une
technique inductive rsume dans un modle

linformation contenue dans les donnes
ce qui permet d appliquer rapidement ce modle de
nouvelles donnes
Une technique transductive manipule lensemble des
individus dj classs, pour tout nouveau classement
ce qui ncessite donc une grande puissance de stockage
et de calcul
On utilise surtout les techniques inductives.
Une
mthode transductive, comme les k-NN, peut tre

utilise dans une tape pralable de dtection et de
mise lcart des individus hors norme, des outliers .
06/12/2009
11
Mthodes inductives : schma

laboration du modle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois
12 mois
aujourdhui
observation des
observation de la
variables explicatives
variable expliquer
Application du modle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois
aujourdhui
+ 12 mois
observation des
prdiction de la
variables explicatives
variable expliquer
Le modle sera par exemple une fonction f telle que :

Probabilit(variable cible = x) = f(variables explicatives)
06/12/2009
12
Mthodes inductives : 4 tapes
Apprentissage : construction du modle sur un 1er
chantillon pour lequel on connat la valeur de la

variable cible
Test : vrification du modle sur un 2d chantillon
pour lequel on connat la valeur de la variable cible, que
lon compare la valeur prdite par le modle
si le rsultat du test est insuffisant (daprs la matrice de
confusion ou laire sous la courbe ROC), on recommence
lapprentissage
Eventuellement, validation du modle sur un 3e
chantillon, pour avoir une ide du taux derreur non

biais du modle
Application du modle lensemble de la population
scorer, pour dterminer la valeur de la variable cible
de chaque individu
06/12/2009
13
Courbes du taux derreur en

apprentissage et en test
taux
d'erreur
mauvaise
gnralisation
donnes de test
et d'application
t
donnes apprentissage
bonne
gnralisation
taille de l'chantillon
taille suffisante
06/12/2009
14
Sur-apprentissage en rgression
(A) Modle trop simp le
(B) Bon modle
(C) Modle trop complexe
Un modle trop pouss dans la phase dapprentissage :

pouse toutes les fluctuations de lchantillon dapprentissage,
dtecte ainsi de fausses liaisons,
et les applique tort sur dautres chantillons
06/12/2009
15
Sur-apprentissage en classement
(C) Modle trop
complexe
(B) Bon modle
Source : Olivier Bousquet
06/12/2009
16
Taux derreur en fonction de la complexit

du modle
mauvaise
gnralisation
donnes de test
et d'application
taux
d'erreur
bonne
gnralisation
taille du modle
(A)
06/12/2009
(B) arrter ici
(C)
17
Sur-apprentissage dans un arbre

variable cible (Echantillon d'apprentissage)
Noeud 0
Catgorie
%
N
82,46
O
17,54
Total
(100,00)
la scission des nuds 9 et 10

manque de robustesse
n
282
60
342
rglements crdit
Taux d'amlioration=0,0286
<=1,165
>1,165
Noeud 3
Catgorie
%
N
89,64
O
10,36
Total
(73,39)
Noeud 4
Catgorie
%
N
62,64
O
37,36
Total
(26,61)
n
225
26
251
abonnement autre service 2

<=101,935
Noeud 5
Catgorie
%
n
N
91,32 221
O
8,68 21
Total
(70,76) 242
la diffrence entre les erreurs en

test et en apprentissage est
dautant plus petite que lchantillon
dapprentissage est plus grand
>101,935
Noeud 6
Catgorie
%
n
N
44,44
4
O
55,56
5
Total
(2,63) 9
n
57
34
91
nb achats
<=55,5
Noeud 9
Catgorie
%
N
68,66
O
31,34
Total
(19,59)
variable cible (Echantillon de Test)

Noeud 0
Catgorie
%
N
83,39
O
16,61
Total
(100,00)
>55,5
n
46
21
67
Noeud 10
Catgorie
%
N
45,83
O
54,17
Total
(7,02)
n
11
13
24
n
241
48
289
rglements crdit
<=1,165
Intrt du bootstrap
aggregating (bagging) avec
des mthodes relativement
peu robustes comme les
arbres de dcision
06/12/2009
>1,165
Noeud 3
Catgorie
%
n
N
90,95 181
O
9,05 18
Total
(68,86) 199
Noeud 4
Catgorie
%
N
66,67
O
33,33
Total
(31,14)
abonnement autre service 2

<=101,935
Noeud 5
Catgorie
%
N
91,19
O
8,81
Total
(66,78)
>101,935
n
176
17
193
Noeud 6
Catgorie
%
n
N
83,33
5
O
16,67
1
Total
(2,08) 6
n
60
30
90
nb achats
<=55,5
Noeud 9
Catgorie
%
N
65,52
O
34,48
Total
(20,07)
>55,5
n
38
20
58
Noeud 10
Catgorie
%
N
68,75
O
31,25
Total
(11,07)
18
n
22
10
32
Mthodes de slection
Pas pas : Ascendante ( forward )
aucune variable au dpart : on ajoute 1 1 celles qui

contribuent le plus au modle (en un sens pouvant varier
selon les cas : R, maximum de vraisemblance)
Pas pas : Descendante ( backward )
toutes les variables au dpart : on rejette 1 1 celles qui

sont insuffisamment corrles la cible et contribuent le
moins au modle
Pas pas : Mixte ( stepwise )
comme Ascendante , mais on peut retrancher une

variable chaque tape si son pouvoir discriminant est
contenu dans une combinaison des nouvelles variables
Globale : Algorithme de Furnival et Wilson (si 2 groupes)
cherche ajuster le R en comparant une partie de tous les

modles possibles (limine les moins intressants a priori)
06/12/2009
19
Validation des modles
Etape trs importante car des modles peuvent :
donner de faux rsultats (donnes non fiables)

mal se gnraliser dans lespace (autre chantillon) ou le
temps (chantillon postrieur)
sur-apprentissage
tre peu efficaces (dterminer avec 2 % derreur un

phnomne dont la probabilit dapparition = 1 % !)
tre incomprhensibles ou inacceptables par les utilisateurs
souvent en raison des variables utilises
ne pas correspondre aux attentes
matrices de confusion, courbes ROC, de lift, et indices

associs
Principaux outils de comparaison :
06/12/2009
20
Matrice de confusion
valeur prdite
valeur relle
A
1800
200
300
1700
TOTAL
TOTAL
4000
Taux derreur = (200 + 300) / 4000 = 12,5 %

06/12/2009
21
QPRESS
Pour vrifier que le % dindividus correctement classs

est significativement meilleur que par un classement
alatoire, on calcule la quantit suivante :
QPRESS
(
n (c k ))
=
n (k 1)
n = taille chantillon
k = nb de groupes
c = nb dindividus bien classs
valeur critique : 10,8 0,1 % - 6,63 1 % - 3,84 5 %
QPRESS suit un 1 degr de libert

Ici on a : QPRESS = (4000 - 7000)/4000 = 2250
06/12/2009
22
Sensibilit et spcificit
Pour un score devant discriminer un groupe A (les positifs
; ex : les risqus) par rapport un autre groupe B (les

ngatifs ; ex : les non risqus), on dfinit 2 fonctions du
seuil de sparation s du score :
sensibilit = (s) = Proba(score s / A) = probabilit de

bien dtecter un positif
spcificit = (s) = Proba(score < s / B) = probabilit de
bien dtecter un ngatif
Pour un modle, on cherche s qui maximise (s) tout en

minimisant les faux positifs 1 - (s) = Proba(score s / B)
faux positifs : ngatifs considrs comme positifs cause du

score
Le meilleur modle : permet de capturer le plus possible

de vrais positifs avec le moins possible de faux positifs
06/12/2009
23
1,0
Courbe ROC
,8
Source de la courbe
,5
La courbe ROC
,3
Ligne de rfrence
arbre de dcision
analys discriminante
(receiver operating characteristic)

0,0
rgress. logistique
sur laxe Y : sensibilit = (s) 0,0 ,3 ,5

,8
1,0
sur laxe X : 1 - spcificit = 1 - (s)
proportion y de vrais positifs en fonction de la proportion x de
faux positifs, lorsque l'on fait varier le seuil s du score

Exemple : si la courbe ROC passe par le point (0,3;0,9), ce point
correspond un seuil s qui est tel que : si on considre risqus
tous les individus dont le score s, on a dtect :
30% de faux risqus (30% des non-risqus ont un score s :
ce sont les faux positifs)
90 % de vrais risqus (90 % des risqus ont un score s : ce
sont les vrais positifs)
NB : 0,3 ne correspond pas 30 % de la population totale !
06/12/2009
24
Exemple de courbe ROC
06/12/2009
25
Interprtation de la courbe ROC

seuil s minimum :
tous classs en +
taux de vrais positifs
prdiction parfaite
seuil s maximum :
tous classs en -
prdiction nulle
taux de faux positifs
06/12/2009
26
Matrice de confusion et courbe ROC

Tableau de classementa
Prvu
CHD
Observ
CHD
0
0
1
1
45
16
Pourcentage global
12
27
Pourcentage
correct
78,9
62,8
72,0
a. La valeur de csure est ,500
Sensibilit = 27/43 = 0,63

Seuil 0,5 (= csure de
la matrice de confusion)
1 - Spcificit = 1-(45/57) = 0,21
06/12/2009
27
Matrice de confusion (avec SAS)

Table de classification
Correct
Niveau de
prob.
Incorrect
vnement
Nonvnement
0.000
57
0.100
Pourcentages
vnement
Nonvnement
Spcificit
POS
fausse
NEG
fausse
Correct
Sensibilit
43
57.0
100.0
0.0
43.0
57
42
58.0
100.0
2.3
42.4
0.0
0.200
55
36
62.0
96.5
16.3
39.6
22.2
0.300
51
19
24
70.0
89.5
44.2
32.0
24.0
0.400
50
25
18
75.0
87.7
58.1
26.5
21.9
0.500
45
27
16
12
72.0
78.9
62.8
26.2
30.8
0.600
41
32
11
16
73.0
71.9
74.4
21.2
33.3
0.700
32
36
25
68.0
56.1
83.7
17.9
41.0
0.800
24
39
33
63.0
42.1
90.7
14.3
45.8
51
48.0
10.5
97.7
14.3
54.8
57
43.0
0.0
100.0
57.0
prdit0.900
1.000
Observ
total
06/12/2009
42
1
1 total
43
45
12
57
16
27
43
61
39
100
Correct = (45 + 27) / 100 = 72 %

Sensibilit = 45 / 57 = 78,9 %
Spcificit = 27 / 43 = 62,8 %
POS fausse = 16 / 61 = 26,2 %
NEG fausse = 12 / 39 = 30,8 %
28
Courbes ROC avec entre

progressive des variables du modle
Sensi bi l i t
1. 0
7e variable
0. 9
0. 8
0. 7
1re variable
0. 6
0. 5
0. 4
0. 3
0. 2
0. 1
0. 0
0. 0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
1. 0
1 - Spci f i ci t
06/12/2009
29
AUC : Aire sous la courbe ROC
Aire AUC sous la courbe ROC = probabilit que score(x)
> score(y), si x est tir au hasard dans le groupe A (

prdire) et y dans le groupe B
1re mthode destimation : par la mthode des trapzes
2e mthode destimation : par les paires concordantes
soit n1 (resp. n2) le nb dobservations dans A (resp. B)

on sintresse aux n1n2 paires formes dun x dans A et
dun y dans B
parmi ces t paires : on a concordance si score(x) >
score(y) ; discordance si score(x) < score(y)
soient nc = nb de paires concordantes ; nd = nb de paires
discordantes ; n1n2 - nc - nd = nb dex aequo
aire sous la courbe ROC (nc + 0,5[t - nc - nd]) / n1n2
U = n1n2(1 AUC) ou n1n2AUC
3e mthode quivalente : par le test de Mann-Whitney

06/12/2009
30
AUC : calcul avec SAS

ODS OUTPUT WilcoxonScores = wilcoxon;
PROC NPAR1WAY WILCOXON DATA=&data
CORRECT=no;
CLASS &cible;
VAR &score;
RUN;
U est la statistique de Mann-Whitney,

qui se dduit des effectifs ni et de la
somme des rangs Ri fournis par la proc
NPAR1WAY de SAS
DATA auc;
SET wilcoxon;
n2 = N; R2 = SumOfScores ;
n1 = LAG(N); R1 = LAG(SumOfScores) ;
u1 = (n1*n2) + (n1*(n1+1)/2) - R1 ;
u2 = (n1*n2) + (n2*(n2+1)/2) - R2 ;
u = MIN(u1,u2);
AUC = ROUND(1- (u/(n1*n2)),0.001);
RUN;
n (n + 1)
n (n + 1)
U = minn1n2 + 1 1
R1 , n1n2 + 2 2
R2
2
2
nb de fois o un score du groupe 1 >

un score du groupe 2
PROC PRINT DATA=auc (KEEP = AUC) ;

TITLE "Aire sous la courbe ROC de &data";
WHERE AUC > .;
Obs Class N
SumOfScores
RUN;
06/12/2009
n2
R2
n1
R1
U1
U2
AUC
711
1038858.0
711
1038858
1490
1384443.0
1490
1384443
711
1038858
273648
785742
273648
0.74169
31
Utilisation de lAUC
Le
modle est d'autant meilleur que lAUC est plus

proche de 1
Si l'AUC = 0,5 : modle pas meilleur qu'une notation
alatoire. Il existe un intervalle de confiance sur
lAUC et un test associ :
Variable(s) de
rsultats tests
arbre de dcision
rgression logistique
analyse discriminante
Zone
,887
,906
,889
Erreur Std.
,008
,007
,008
Signif.
b
asymptotique
,000000
,000000
,000000
Intervalle de confiance
95% asymptotique
Borne
Borne
infrieure
suprieure
,872
,902
,892
,921
,873
,904
a. Dans l'hypothse non-paramtrique

b. Hypothse nulle /: zone vraie = 0.5
Permet de comparer des modles de types diffrents

sur tout chantillon
06/12/2009
32
Courbe de lift
La courbe de lift :
sur laxe Y : on a la sensibilit = (s) = Proba(score s / A)

sur laxe X : on a Proba(score s)
proportion y de vrais positifs en fonction des individus
slectionns, lorsque l'on fait varier le seuil s du score
mme ordonne que la courbe ROC, mais une abscisse
gnralement plus grande
> la courbe de lift est gnralement
sous la courbe ROC
100
Trs utilise en marketing
% d'individus rpondants
90
ciblage alatoire
80
ciblage par scoring
70
ciblage idal
60
50
40
30
Lift = 40/10 = 4
20
10
0
0
25
50
75
100
% d'individus cibls
06/12/2009
33
Lien entre courbe de lift et ROC
Relation entre laire AUL sous la courbe de lift et laire AUC :
AUC AUL = p(AUC 0,5) AUL = p/2 + (1 p)AUC

o p = Proba(A) = probabilit a priori de lvnement dans la
population
Cas particuliers :
AUC = 1 AUL = p/2 + (1 p) = 1 p/2

AUC = 0,5 AUL = p/2 + 1/2 p/2 = 0,5
p petit AUC et AUL sont proches
AUC1 > AUC2 AUL1 > AUL2
Ces indicateurs sont des critres universels de comparaison

de modles
06/12/2009
34
Technique de prdiction :
La rgression linaire
06/12/2009
35
Cadre du modle linaire
Dans le modle simple : X et Y deux variables continues

Les valeurs xi de X sont contrles et sans erreur de
mesure
On observe les valeurs correspondantes y1, , yn de Y
Exemples :
X peut tre le temps et Y une grandeur mesure

diffrentes dates
Y peut tre la diffrence de potentiel mesure aux bornes
dune rsistance pour diffrentes valeurs de lintensit X du
courant
06/12/2009
36
Hypothse fondamentale du modle linaire
X et Y ne sont pas indpendantes et la connaissance de X
permet damliorer la connaissance de Y

Savoir que X = x permet rarement de connatre
exactement la valeur de Y, mais on suppose que cela de
connatre la valeur moyenne E(Y|X=x), lesprance
conditionnelle de Y sachant que X = x
On suppose plus prcisment que E(Y|X=x) est une
fonction linaire de x, ce qui permet dcrire
E(yi) = + xi pour tout i = 1, , n

yi = + xi + i, avec E(i) = 0 pour tout i = 1, , n
n = nb dobservations et i = rsidu de lobservation i
Rgression linaire multiple :
Y = 0 + 1X1 + + kXk +
important : on suppose lindpendance linaire des Xi
06/12/2009
37
Autres hypothses du modle linaire
La
variance des rsidus est la mme pour toutes les

valeurs de X (homoscdasticit)
V(i) = s
cov(i,j) = 0 i j
i ~ N(0,s)
Les rsidus sont linairement indpendants

Les rsidus sont normalement distribus
06/12/2009
38
La composante stochastique
Lexistence de la composante stochastique (i) correspond

au fait que :
des individus avec mme valeur xi peuvent avoir des

rponses Y diffrentes (variation synchronique)
OU un mme individu mesur plusieurs reprises avec la
mme valeur xi peut avoir des rponses Y diffrentes
(variation diachronique)
On a quivalence de i ~ N(0,s) et Y/X=xi ~ N( + xi,s)

Cette hypothse de normalit classe la rgression linaire
dans la famille des modles linaires gnraux (GLM)

Dans les modles linaires gnraliss, la loi de Y/X=xi
nest plus ncessairement normale
06/12/2009
39
Que signifie la variance des estimateurs ?
Aprs avoir postul lexistence dune relation E(Y) = +

X, on recherche des estimateurs a et b de et
On natteint jamais les vritables coefficients et car :
le modle linaire nest le plus souvent quune

approximation de la ralit
on ne travaille que sur des chantillons et non la population
entire
on commet des erreurs de mesure
Des
modles sur des chantillons diffrents donneront

des estimateurs a et b diffrents
Do une variance des estimateurs a et b
06/12/2009
40
Mthode des moindres carrs

ordinaires (MCO)
On recherche des estimateurs a

et b de et qui minimisent
les rsidus i= (Yi - i), o i
est prdit par la droite = a +
bX
Lestimateur b de la pente est :
( x x )( y y ) cov( X ,Y )
b=
=
( x x )
i
b = Y/X
Yi
Y
i
Lestimateur a de la constante
vaut :
a = y - b.x
La droite = a + b.X ajuste le

nuage de points
06/12/2009
41
Proprits des estimateurs MCO
Les estimateurs MCO des coefficients ont :
une moyenne : E(a) et E(b)

une variance :
constante : a= s [1/n +x / (xi -x)]
avec : s = variance des rsidus
> IC au niveau 100(1-)% = a t/2,n-p-1. a
pente : b = s [1/ (xi -x)]
> IC au niveau 100(1-)% = b t/2,n-p-1. b
La mthode MCO est optimale car :
les estimateurs sont sans biais : E(a) = et E(b) =

de variance minimale parmi tous les estimateurs linaires
on dit quils sont BLUE : best linear unbiased estimators
Hypothse de normalit i ~ N(0,s) les estimateurs

sont de variance minimale parmi tous les estimateurs
06/12/2009
42
Consquence des formules de variance
Pour diminuer les variances :
diminuer la variance rsiduelle s de lchantillon

augmenter la taille n de lchantillon
augmenter ltendue des valeurs observes de X
Mais
: on accepte parfois (rgression ridge) des

estimateurs lgrement biaiss pour diminuer leur
variance
06/12/2009
43
Coefficients de rgression et tests

Coefficientsa
Modle
1
(cons tante)
TEMPERAT
ISOLATIO
Coefficients non
s tandardis s
Erreur
B
s tandard
1467,643
62,422
-37,060
2,295
-29,774
3,492
Coefficients
s tandardis s
Bta
-,866
-,457
t
23,512
-16,147
-8,526
Signification
,000
,000
,000
a. Variable dpendante : CONSOMMA
Valeur des
coefficients
cart-type des
estimateurs
Coefficients
comparables
entre eux
Statistique t
de Student
Une valeur t > 2 ou t < - 2 est significative 95 % dun coeff 0

06/12/2009
44
Sommes des carrs

somme des carrs rsiduels
somme des carrs totale
2
SCE = ( yi y i )
yi
SCT = ( yi y )
somme des carrs dus la rg.

2
SCR = ( y i y )
i
xi
06/12/2009
45
Test global du modle

ANOVAb
Modle
1
Somme
des carrs
Rgress ion 3267046,7
Rs idu
116727,068
Total
3383773,7
ddl
2
12
14
Carr moyen
1633523,333
9727,256
F
167,933
Signification
,000 a
a. Valeurs prdites : (cons tantes ), ISOLATIO, TEMPERAT
SCR
2 prdicteurs rgression
linaire multiple
= somme des carrs Rgression
SCE
= somme des carrs Erreurs
= nombre de variables
= nombre dobservations
b. Variable dpendante : CONSOMMA
SCR
p
F=
SCE
n p 1
suit une loi F de ddl (p,n-p-1)
sous lhypothse nulle (H0) :
(b1 = b2 = 0)
06/12/2009
R = SCR / SCT = 1 (SCE / SCT)
variance s du terme derreur = 98,627
46
Coefficient de dtermination
R2 = SCR / SCT
R2 = proportion de variation de la variable cible
explique par tous les prdicteurs (syn : rgresseurs)

Bon ajustement si R proche de 1
R2 est biais (optimiste car croissant avec le nb de
variables) et on lui substitue le R ajust :
(
1 R )(n 1)
R ajust = 1
2
n p 1
R ajust est toujours < R et peut tre < 0
Modle
1
R
,983 a
R-deux
,966
R-deux ajus t
,960
Erreur s tandard
de l'es timation
98,627
a.
06/12/2009
47
Intervalles de confiance
0 = a + bx0 est une prvision de Y et de la moyenne E(Y)
en tout point x0 de lintervalle de mesure (car E(i) = 0)

Daprs les formules sur les variances des estimateurs, les
IC (100-) % de E(Y) et Y au point X0 sont :
0 t/2,n-p-1. s [1/n + (x0 -x) / (xi -x)]1/2 pour E(Y)

0 t/2,n-p-1. s [1 + 1/n + (x0 -x) / (xi -x)]1/2 pour Y
(on a ajout la variance du terme derreur)
Autrement dit, la variance de la valeur prdite pour une

observation est :
s [1 + 1/n + (x0 -x) / (xi -x)]
>Plus difficile destimer une valeur possible de Y sachant
X=x0 que la moyenne des valeurs possibles sachant X=x0

>LIC augmente quand x0 s loigne dex
06/12/2009
48
IC de la moyenne et des observations
06/12/2009
49
Prcautions dutilisation
Le modle nest valide que sur ltendue des observations,
et surtout prs de la moyenne de X

Un petit chantillon (< 20) ne dtecte que les relations
fortes ; un grand dtecte toutes les relations mme faibles
(rejet de H0 malgr petit R)
Minimum de 5 observations (mieux vaut en avoir > 15)
Attention aux rsidus standardiss (rsidu / s) > 3
Pour savoir si les extrmes ont une influence : les enlever et
voir les coeff. restent dans les IC des coeff. initiaux
Attention aux distances de Cook > 1
la distance de Cook dune observation i mesure lcart des

coefficients avec et sans cette observation
Rgression multiple : vrifier labsence de multicolinarit

06/12/2009
50
Analyse des rsidus

Vrification du respect des hypothses de base
Test dautocorrlation
(statistique de DurbinWatson comprise entre 1,5 et

2,5)
Test dhomoscdasticit
(galit de la variance en
fonction de y)
Test de normalit (test de
Kolmogorov)
Vrification dabsence de
points extrmes
Un diagramme des rsidus
est souvent trs parlant
06/12/2009
Les rsidus standardiss doivent

tre rpartis alatoirement
autour de 0 et rester dans les
bornes [-3 ; +3]
51
Problme 1 : Autocorrlation des

rsidus
rsidus = Y -
rsidus positifs
rsidus ngatifs
Corrlation entre i et i+1 les valeurs moyennes de Y sont

sur-estimes ; les autres sont sous-estimes
06/12/2009
52
Problme 2 : Htroscdasticit des

rsidus
rsidus = Y -
rsidus positifs
rsidus ngatifs
Appliquer le test de Levene en regroupant en classes les

valeurs de Y
Estimation prcise de Y en fonction de X lorsque Y est petit ;
grande incertitude quand Y est grand
remplacer Y par son log, son inverse ou sa racine carre
(ou par le carr ou lexponentielle quand la variance diminue)
ou utiliser la Stphane
mthode
carrs pondrs
Tuffrydes
- Datamoindres
Mining - http://data.mining.free.fr
06/12/2009
53
Homoscdasticit et autocorrlation
des rsidus
Utiliser un diagramme des rsidus pour vrifier
lhomoscdasticit et labsence dautocorrlation

Statistique de Durbin-Watson pour lautocorrlation :
= (i - i-1) / i
vaut entre 0 et 4
proche de 2 si pas dautocorrlation (OK entre 1,5 et 2,5)
< 2 pour des corrlations positives
> 2 pour des corrlations ngatives
R
,983 a
R-deux
,966
R-deux ajus t
,960
Durbin-Wats on
1,819
a.
06/12/2009
54
Normalit des rsidus
06/12/2009
55
Utilit des tests sur les rsidus 1/3
Exemple tir de :
Tomassone, Lesquoy, Millier : La Rgression nouveaux

regards sur une ancienne mthode statistique, 1986
Anscombe F.J. : Graphs in Statistical Analysis, 1973
06/12/2009
56
Dans les 5 rgressions : mmes sommes de carrs, mme

variance rsiduelle, mme F-ratio, mmes R, mme droite
de rgression, mmes carts-types des coefficients
Analyse de variance
Source
DF
Somme des
carrs
Carr
moyen
Model
234.6
234.6
Error
14
145.4
10.4
Corrected Total
15
380.1
Valeur F
Pr > F
22.6
0.0003
Root MSE
3.22
R-Square
0.62
Dependent Mean
12.60
Adj R-Sq
0.59
Coeff Var
25.60
Rsultats estims des paramtres
06/12/2009
Variable
D
F
Rsultat
estim
des
paramtres
Intercept
0.52
0.81
Erreur
std
Valeur du
test t
Pr > |t|
Tolrance
Inflation
de variance
2.67
0.20
0.8476
0.17
4.75
0.0003
1.00
1.00
57

yb
18
ya
22
21
17
20
16
19
15
Et
pourtant !
18
17
16
15
14
13
12
11
14
10
Les
situations
sont bien
diffrentes
13
12
11
10
9
8
7
6
9
8
7
6
5
4
3
2
0
7
10
11
12
13
14
15
16
17
18
19
20
21
22
23
yc
30
10
11
12
13
14
15
16
17
18
19
20
21
22
23
16
17
18
19
20
21
22
23
yd
20
19
ye
30
18
17
16
15
20
20
14
13
12
10
11
10
9
10
0
13
14
15
16
17
18
19
20
21
22
23
24
xe
25
26
27
28
29
30
31
32
33
34
7
6
5
4
3
0
7
10
11
12
13
14
15
x
06/12/2009
16
17
18
19
20
21
22
23
10
11
12
13
14
15
x
58
Rgression 1 :
Durbin-Watson D
2.538
Number of Observations
16
1st Order Autocorrelation
-0.277
06/12/2009
59
Rgression 2 :
Forte autocorrlation positive !

Durbin-Watson D
0.374
16
0.595
06/12/2009
60
Rgression 3 :
Durbin-Watson D
1.289
16
-0.015
06/12/2009
61
Rgression 4 :
Durbin-Watson D
1.821
16
-0.094
06/12/2009
62
Rgression 5 :
Durbin-Watson D
0.310
16
0.723
06/12/2009
63
Attention la multicolinarit
Multicolinarit = plusieurs variables explicatives
(fortement) corrles entre elles.

Cela entrane :
des coefficients de rgression trs sensibles aux fluctuations

mme faibles des donnes
des carts-types levs pour les coefficients de rgression
une dgradation de la prcision des prvisions
Mesure par :
tolrance Xi = 1 - (coefficient de dtermination de la

rgression de Xi sur les autres variables)
doit tre > 0,2
VIF = 1 / tolrance
doit tre < 5
06/12/2009
64
Attention la multicolinarit
Autre mesure possible : les indices de conditionnement

de la matrice des corrlations
Modle
1
on a multicolinarit modre (resp. forte) si prsence

dindices k > 10 (resp. 30)
on regarde si on peut relier la valeur propre
correspondante une forte contribution (> 50 %) de la
composante la variance de 2 ou plusieurs variables
Dimens ion
1
2
3
06/12/2009
Valeur propre
2,145
,766
,089
Indice de
condition
nement
1,000
1,673
4,915
Proportions de la variance
(cons tante) TEMPERAT ISOLATIO
,03
,07
,03
,02
,92
,02
,95
,01
,95
65
Effets de la multicolinarit
X1 et X2 presque colinaires => coefficients de la

rgression trs sensibles de petites variations de Y
Petite
variation
de Y
06/12/2009
66
Solutions la multicolinarit
Suppression des variables concernes

accepter de baisser un peu R pour baisser la multicolinarit
Transformation (logarithme) des variables concernes
Rgression biaise (ridge)
lerreur quadratique de lestimation de la pente de la rgression =
variance_estimateur + (biais_estimateur), do une erreur
quadratique avec biais < erreur sans biais si le biais est
compens par une faible variance
Rgression sur composantes principales
passer ensuite des coefficients de rgression des composantes
principales ceux des variables initiales
Rgression PLS (Partial Least Squares)
utilisable mme si : nb observations << nb variables
on dmontre (De Jong, 1993) que la rgression PLS sur k
composantes est toujours plus prdictive que la rgression sur les k
premires composantes principales
06/12/2009
67
La rgression PLS
06/12/2009
68
La mthode Partial Least Squares
Cest une mthode qui se juxtapose dautres mthodes
de rgression (linaire, logistique, analyse discriminante)

Utile en prsence dun grand nombre de variables
prsentant de la colinarit ou des valeurs manquantes
Algorithme simple (suite de rgressions simples, sans
inversion ni diagonalisation de matrices) efficace sur
de grands volumes de donnes
Utilisation en chimie, industrie ptrolifre, cosmtique,
biologie, mdecine, agroalimentaire
en cosmtique : conserver tous les ingrdients dun

produit trs nombreuses variables explicatives
en agroalimentaire (analyse sensorielle) : expliquer le
classement dun produit par plusieurs dgustateurs
(variable Y), en fonction de ses proprits (jusqu
plusieurs centaines) physico-chimiques et de saveur
06/12/2009
69
Principe de la rgression PLS
Rgression PLS invente par Herman et Svante Wold
(1983)
On a Y variable expliquer et Xi variables explicatives
Le choix des variables transformes rsulte dun
compromis entre :
maximisation de la variance des Xi (ACP)
maximisation de la corrlation entre Xi et Y (rgression)
donc : on cherche les combinaisons linaires Tj des Xi
maximisant cov(Tj,Y) = r(Tj,Y).var(Tj).var(Y)
06/12/2009
70
Etape 1 de la rgression PLS
On cherche une combinaison T1 = i 1iXi des Xi qui
maximise la variance de T1 et la corrlation entre T1 et Y

maximiser cov(T1,Y) = r(T1,Y).var(T1).var(Y)
La solution est 1i = cov(Y,Xi)
en normant ||(11,, 1p)|| = 1
on a donc T1 = i cov(Y,Xi).Xi
La rgression de Y sur T1 donne un rsidu Y1 :
Y = c1T1 + Y1
Xi = c1iT1 + X1i
La rgression de Xi sur T1 donne aussi des rsidus X1i :

On ritre en remplaant Y par Y1 et les Xi par les X1i
tape 2
06/12/2009
71
Etape 2 de la rgression PLS
On rpte la mme opration en remplaant Y par son
rsidu Y1 et les Xi par leurs rsidus X1i

On obtient une combinaison T2 = i 2iXi en normant
||(21,, 2p)|| = 1
Puis on rgresse Y1 sur T2 et les X1i sur T2 : on obtient des
rsidus Y2 et X2i
Y1 = c2T2 + Y2
X1i = c2iT2 + X2i
On ritre jusqu ce que le nb de composantes Tk donne
un rsultat satisfaisant (vrifi par validation croise)

A la fin, on a :
Y = c1T1 + Y1 = c1T1 + c2T2 + Y2 = j cjTj + rsidu
Et on remplace cette expression par une expression de la

rgression de Y en fonction des Xi
06/12/2009
72
Choix du nombre de composantes 1/2
On procde gnralement par validation croise

On se place ltape h et on veut dcider de conserver ou
non la composante h
On calcule la somme des carrs rsiduels (REsidual Sum of
Squares), comme en rgression linaire :
RESSh = k(y(h-1),k- (h-1),k)
o (h-1),k = chth,k = prvision de y(h-1),k calcule pour chaque
observation k
Ensuite, les observations sont partages en G groupes, et

on ralise G fois ltape courante de lalgorithme PLS sur
Yh-1 et les Xh-1,i en tant chaque fois un groupe
06/12/2009
73
Choix du nombre de composantes 2/2
Puis on calcule la somme prdite des carrs rsiduels
(Predicted REsidual Sum of Squares) PRESSh

Analogue la prcdente mais qui vite le surapprentissage en remplaant la prvision (h-1),k par la
prvision (h-1),-k dduite de lanalyse ralise sans le groupe
contenant lobservation k
PRESSh = k(y(h-1),k - (h-1),-k)
On retient la composante h si : PRESSh .RESSh-1
2
(
y
y
)
en posant RESS0 = i
Souvent : on fixe = 0,95 si n < 100, et = 1 si n 100
06/12/2009
74
Nombre de composantes PLS
Cette slection par validation croise permet de retenir

un nombre de composantes :
suffisamment grand pour expliquer lessentiel de la

variance des Xi et de Y
suffisamment petit pour viter le sur-apprentissage
En pratique le nombre de composantes dpasse

rarement 3 ou 4
Notons galement que la rgression PLS sur k
composantes est toujours plus prdictive que la

rgression sur les k premires composantes principales
06/12/2009
75
Gnralisations de la rgression PLS
Rgression PLS2 dveloppe pour prdire plusieurs Yj

simultanment
on peut avoir nb(Yj) >> nb observations
Rgression logistique PLS dveloppe par Michel

Tenenhaus (2000)
algorithme analogue au prcdent
Et rgression logistique sur composantes PLS, quivalente

la rgression logistique PLS mais plus simple :
on commence par une rgression PLS de lindicatrice de Y sur

les Xi (ou des indicatrices de Y, si Y a plus de 2 modalits)
on obtient k composantes PLS (ventuellement : k = 1)
puis on effectue une rgression logistique de Y sur les
composantes PLS
06/12/2009
76
La rgression robuste
06/12/2009
77
Rgression robuste
Mthodes valides quand les rsidus des observations ne

suivent pas une loi normale
Peu sensibles aux outliers

De plus en plus rpandues dans les logiciels statistiques
SAS, R, S-PLUS, STATA
06/12/2009
78
Algorithmes de rgression robuste
Moindres mdianes de carrs

Moindres carrs winsoriss (least winsored squares)
remplacement des x centiles extrmes par Qx
suppression des x centiles extrmes
par linverse de la variance de la variable expliquer, pour

compenser lhtroscdasticit, en posant par ex. pi = s/si
au voisinage dun point xi
Moindres carrs crts (least trimmed squares)

Moindres carrs pondrs
Moindres carrs localement pondrs sur les voisins (LOESS)

Doubles moindres carrs
Rgression spline
Mthode du noyau
06/12/2009
79
Autres algorithmes de rgression
Moindres valeurs absolues
x x
i
Rgression polynomiale
Rgression sur variables qualitatives par codage optimal
(moindres carrs alterns)
06/12/2009
80
Influence des rsidus

100
Moindres carrs
Influence
80
60
Moindres
valeurs absolues
40
Winsoriss
20
Ecrts
0
-10
06/12/2009
Rsidus
10
20
81
Principe de la rgression LOESS
Pour chaque point x : on prend les n voisins
le nombre n est choisi pour reprsenter un certain % de

lensemble des points
ce % est appel paramtre de lissage ( smoothing
parameter )
il existe des critres pour le choix de ce paramtre
On pondre chacun de ces n points selon une fonction
dcroissante de leur distance x

On calcule la rgression pondre sur les n voisins pour
prdire x
LOESS utilisable avec plusieurs rgresseurs
Initiateur : Cleveland (1979)
06/12/2009
82
Exemples de rgressions LOESS
06/12/2009
83
Technique de classement :
Analyse discriminante
06/12/2009
84
Deux problmatiques
Situation
: on a un ensemble dindividus appartenant

chacun un groupe, le nb de groupes tant fini et > 1
Analyse
discriminante descriptive : trouver une

reprsentation des individus qui spare le mieux les
groupes
Analyse
discriminante prdictive : trouver des rgles

daffectation des individus leur groupe
Lanalyse
discriminante offre une solution ces deux

problmatiques
06/12/2009
85
Autre formulation
Situation : on a un ensemble dindividus caractriss par

une variable expliquer Y qualitative et des variables
explicatives Xi quantitatives
Analyse
discriminante descriptive : trouver

reprsentation des liaisons entre Y et les Xi
une
Analyse discriminante prdictive : trouver des rgles de

prdiction des modalits de Y partir des valeurs des Xi
Cette formulation est quivalente la prcdente

06/12/2009
86
Les diffrentes formes danalyse

discriminante
Mthode descriptive
Mthode prdictive
(reprsenter les groupes) (prdire lappartenance
un groupe)
Approche
gomtrique
Approche
probabiliste
(baysienne)
06/12/2009
Oui
Oui
analyse factorielle discriminante
analyse discriminante linaire
Non
Oui
multinormalit
homoscdasticit
quiprobabilit
analyse discriminante linaire

a. d. quadratique
a. d. non paramtrique
rgression logistique
87
gomtrique
06/12/2009
88
Lanalyse discriminante gomtrique
Y variable cible qualitative k modalits
correspondant k groupes Gi
Xj p variables explicatives continues

Principe de lanalyse factorielle discriminante : remplacer
les Xj par des axes discriminants : combinaisons

linaires des Xj prenant les valeurs les + diffrentes
possibles pour des individus diffrant sur la variable
cible
Remarquer lanalogie avec lACP
On a k-1 axes (si nb individus n > p > k)
Exemple historique : les iris de Fisher (3 espces 4
variables, longueur et largeur des ptales et des
spales)
06/12/2009
89
Exemple historique : les iris de Fisher

70
80
60
70
50
40
60
30
ESPECE
20
VIRGINICA
VERSICOLOR
SETOSA
0
PE_W
06/12/2009
10
20
30
VIRGINICA
SE_L
PE_L
10
ESPECE
50
VERSICOLOR
SETOSA
40
10
20
30
40
50
SE_W
90
Illustration de la problmatique
descriptive
Dans lexemple suivant :

laxe x diffrencie bien les
groupes B et C mais
non les groupes A et B
laxe y diffrencie bien les
groupes A et B mais
non les groupes B et C
en revanche laxe z
diffrencie
groupes.
bien
les
trois
z
CCCC
CCCC
CCCC
CCCC
BBBB
BBBB
BBBB
AAAA
AAAA
AAAA
La droite :
z = + 1 spare les B et C
z = - 1 spare les A et B
z est une fonction de score

06/12/2009
91
Double objectif de lanalyse

factorielle discriminante
Les
n individus forment un nuage de n points dans Rp,

form des k sous-nuages Gi diffrencier
Variance interclasse ( between ) = variance des
barycentres gi ( centrodes ) des classes Gi
B = 1/n ni(gi - g)(gi - g) = matrice de covariance

between
Variance
intraclasse ( within ) = moyenne des

variances des classes Gi
W = 1/n niVi = matrice de covariance within
maximise la variance interclasse sur u : max uBu

minimise la variance intraclasse sur u : min uWu
Thorme de Huygens : B + W = variance totale V

Impossible de trouver un axe u qui simultanment :
06/12/2009
92
Visualisation du double objectif
Maximum de dispersion interclasse : u parallle au segment

joignant les centrodes
Minimum de dispersion intraclasse : u perpendiculaire laxe
principal des ellipses (on suppose lhomoscdasticit)
06/12/2009
93
Compromis entre les 2 objectifs
On reformule lobjectif : au lieu de maximiser uBu ou
minimiser uWu, on maximise uBu/uWu

maximiser uBu/uVu (Huygens)
On montre que :
la solution u est le vecteur propre de V-1B associ la

plus grande valeur propre de V-1B
u vecteur propre de V-1B u vecteur propre de W-1B, de
valeur propre /1-
On dit que les mtriques V-1
et W-1 sont quivalentes
la mtrique W-1 (de Mahalanobis) est plus utilise par les

Anglo-saxons et les diteurs de logiciels
Distance d de 2 points x et y : d(x,y) = (x-y) W-1(x-y)

06/12/2009
94
Autre formulation de la solution
ACP du nuage des centrodes gi avec :
mtrique V-1
ou mtrique W-1 quivalente
Ces mtriques correspondent une projection oblique

Sans cette oblicit, il sagirait dune simple ACP mais les
groupes seraient mal spars
mal class sans loblicit
06/12/2009
95
ACP avec mtrique usuelle et avec W-1

3
Facteur ACP 2
-1
ESPECE
VIRGINICA
-2
VERSICOLOR
-3
SETOSA
-2
-1
1
VIRGINICA
SETOSA
Fonction discriminante 2
meilleure
sparation
avec W-1
0
VERSICOLOR
CIBLE
-1
Barycentres
VIRGINICA
-2
VERSICOLOR
SETOSA
-3
-20
-10
10
Facteur ACP 1
sparation imparfaite
06/12/2009
96
ACP avec mtrique usuelle et avec W-1

Espce
3,00000
Espce
3,00000
SETOSA
SETOSA
VERSICOLOR
VERSICOLOR
VIRGINICA
VIRGINICA
2,00000
2,00000
Facteur ACP 2
1,00000
0,00000
1,00000
0,00000
meilleure -1,00000
sparation
-2,00000
avec W-1
-1,00000
-2,00000
-3,00000
-3,00000
-2,00000
-1,00000
0,00000
1,00000
Facteur ACP 1
06/12/2009
2,00000
sparation imparfaite
-10,00000
-5,00000
0,00000
5,00000
10,00000
97
Analyse discriminante prdictive et

fonctions de Fisher
On classe x dans le groupe Gi pour lequel la distance au
centre gi est minimale :

d(x,gi) = (x-gi)W-1(x-gi) = x W-1x 2gi W-1x + gi W-1gi
Minimiser d(x,gi) maximiser (2gi W-1x - gi W-1gi)

gi W-1gi = i est une constante ne dpendant pas de x
Pour chacun des k groupes Gi, on a une fonction
discriminante de Fisher :
i + i,1X1 + i,2X2 + i,pXp
et on classe x dans le groupe pour lequel la fonction est
maximale
06/12/2009
98
Exemple des iris de Fisher

Coefficients des fonctions de classement
SETOSA
SE_L
2,35442
SE_W
2,35879
PE_L
-1,64306
PE_W
-1,73984
(Cons tante) -86,30847
CIBLE
VERSICOLOR VIRGINICA
1,56982
1,24458
,70725
,36853
,52115
1,27665
,64342
2,10791
-72,85261 -104,36832
Fonctions discriminantes linaires de Fis her
CIBLE
SETOSA
VERSICOLOR
VIRGINICA
Total
06/12/2009
Effectif
Effectif
Effectif
Effectif
Class e d'affectation pour analys e 1

SETOSA VERSICOLOR VIRGINICA
50
0
0
0
48
2
0
1
49
50
49
51
Total
50
50
50
150
99
Rgle daffectation dans le cas de 2

groupes
Laspect descriptif est simple (laxe discriminant joint les 2

centrodes) et on sintresse laspect prdictif
On classe x dans le groupe G1 si :

2g1 W-1x - g1 W-1g1 > 2g2 W-1x g2 W-1g2
(g1-g2) W-1x (g1 W-1g1 - g2 W-1g2) > 0
f(x)
f(x) : fonction de score de Fisher

D de Mahalanobis : d(g1,g2) = (g1-g2) W-1(g1-g2)
W-1(g1-g2) = axe discriminant proportionnel V-1(g1-g2)
06/12/2009
100
Limite de la rgle gomtrique

daffectation
Rgle gomtrique : affecter chaque individu au groupe dont il est

le + proche (distance de lindividu au centrode du groupe)
ce nest pas trivial car il faut prendre la mtrique W-1 (faire une
projection oblique de x sur laxe discriminant)
A viter si les 2 groupes ont des probabilits a priori ou des
variances diffrentes
g1
g2
Dans ce cas : analyse discriminante quadratique (voir plus loin)
06/12/2009
101
probabiliste
06/12/2009
102
Lapproche probabiliste (baysienne)
Pour tout i k, soient :
P(Gi/x) = proba a posteriori dappartenance Gi sachant x

(connaissant les caractristiques de x, son dossier )
pi = P(Gi) = proba a priori dappartenance Gi (proportion
de Gi dans la population)
fi(x) = P(x/Gi) = densit conditionnelle de la loi de x
connaissant son groupe Gi
Daprs le thorme de Bayes :
P (Gi ) P ( x / Gi )
P (Gi / x) =
P(G j ) P( x / G j )
Rgle de classement baysienne :
on classe x dans le groupe Gi o P(Gi/x) est maximum
06/12/2009
103
3 possibilits pour estimer P(Gi/x)
En
commenant par calculer P(x/Gi) selon une mthode

paramtrique (on suppose la multinormalit de P(x/Gi)
avec ventuellement galit des i, donc le nb de
paramtres du problme est fini : ADL ou ADQ)
En commenant par estimer P(x/Gi) selon une mthode
non paramtrique (pas dhypothse sur la densit P(x/Gi) :
mthode du noyau ou des plus proches voisins)
Directement par une approche semi-paramtrique
(rgression logistique) o on crit P(Gi/x) sous la forme :
'x+
e
P (Gi / x) =
'x+
1+ e
06/12/2009
104
1e possibilit : Hypothse de
multinormalit
La densit dune loi multinormale N(i,i) est :

f i ( x) =
1
(2 ) p / 2
1
exp ( x i )' i ( x i )
det( i )
2
Daprs Bayes, maximiser P(Gi/x) maximiser pifi(x) :

1
1
1
maximum Log ( pi ) ( x i )' i ( x i ) log(det( i ))
i
2
2
>On obtient une rgle quadratique en x

06/12/2009
105
Multinormalit
06/12/2009
106
Hypothse dhomoscdasticit
Sous cette hypothse, on a : 1 = 2 = = k =

On classe x dans le groupe Gi pour avoir :
1
1
1
maximum Log ( pi ) x' x i ' 1 i + x ' 1 i )
i
2
2
a priori
Les probabilits
Soit, puisque x-1x est indpendant de i : ne changent quune
constante additive
1
1
maximum Log ( pi ) i ' i + x' i )
i
2
ai
Homoscdasticit (+ multinormalit)
=> on passe dune
fonction quadratique une fonction linaire
Avec en + lquiprobabilit => on a quivalence des rgles

gomtrique (maximiser la fct de Fisher) et baysienne
06/12/2009
107
Homoscdasticit
06/12/2009
108
Cas de 2 groupes
(hypothses de multinormalit et homoscdasticit)
Probabilit dappartenance au groupe 1 :

1
p1 exp ( x 1 )' 1 ( x 1 )
2
P (G1 / x) =
1
1
1
p1 exp ( x 1 )' ( x 1 ) + p2 exp ( x 2 )' ( x 2 )
2
1
p2
1
1
1
1
= 1+
exp ( x 1 )' ( x 1 ) + ( x 2 )' ( x 2 )
P (G1 / x)
p1
2
2
On peut crire 1/P(G1/x) = 1 + (p2/p1)e-f(x)
avec f(x) = (x-1)-1(x-1) - (x-2)-1(x-2)
On classe x dans G1 si P(G1/x) > 0,5

(p2/p1)e-f(x) < 1 f(x) > log(p2/p1)
06/12/2009
109
Cas de 2 groupes (suite)
Dveloppons la fonction f(x) :
f(x) = (1- 2) -1x - (1-11 - 2-12)
On reconnat la fonction de score de Fisher

>La rgle baysienne prcdente quivaut la rgle :
fonction de Fisher > log(p2/p1)
qui gnralise la rgle gomtrique f(x) > 0 lorsque les
probabilits a priori p1 et p2 sont diffrentes

De plus, la probabilit a posteriori P(G1/x) scrit :
1
e f ( x)
P (G1 / x) =
=
p 2 f ( x ) p2 f ( x )
+ e
1 + e
p1
p1
Gnralisation de la fonction logistique !

06/12/2009
110
En rsum :
Avec lhypothse de multinormalit :
La rgle baysienne est quadratique
Avec
les
hypothses
dhomoscdasticit :
de
multinormalit
et
La rgle baysienne est linaire

Dans le cas de 2 groupes, elle scrit f(x) > log(p2/p1), o
f(x) est la fonction de Fisher obtenue par un raisonnement
gomtrique
Avec les hypothses de multinormalit, dhomoscdasticit

et dquiprobabilit :
La rgle baysienne est linaire et quivalente la rgle

gomtrique
Dans le cas de 2 groupes, elle scrit f(x) > 0 et la
probabilit a posteriori P(G1/x) scrit sous la forme
logistique P(G1/x) = 1 / (1 + e-f(x))
06/12/2009
111
Cots de mauvais classement
On peut introduire des cots derreurs
C(i/j) = cot de classement dans Gi au lieu de Gj

C(i/i) = 0
Cot moyen de classement en Gi = j C(i/j) P(Gj/x)

On classe x dans le Gi qui minimise le cot
Cas de 2 groupes :
Cot moyen dun classement en G1 : C(1/2) P(G2/x)

Cot moyen dun classement en G2 : C(2/1) P(G1/x)
On classe x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x)
06/12/2009
112
An. Discriminante non paramtrique
Daprs Bayes :
pi f i ( x)
P(Gi / x) =
p j f j ( x)
j
Problme destimation de la
densit :
frquence
f i ( x) =
volume
x
x
x
x
x x
x
x
x
Mthodes :
noyau (on fixe le diamtre)

k-plus proches voisins (on
fixe le nb de voisins)
Condition : avoir un
chantillon de grande taille
06/12/2009
113
D de Mahalanobis
Dfinition : D = d(g1,g2) = (g1 - g2) W-1(g1 - g2)

Le carr D de la distance de Mahalanobis fournit
une
mesure de la distance entre les deux groupes
discriminer, et donc de la qualit de la discrimination
Analogue au R dune rgression
Plus D est grand, mieux cest
On peut faire un test de Fisher sur lhypothse nulle que
tous les centrodes sont gaux
Il peut servir de critre dans une rgression pas pas
06/12/2009
114
Corrlation canonique = coefficient de corrlation entre

la fonction de score et la moyenne par classe (pour
chaque individu : on prend la moyenne de la fonction
discriminante dans sa classe)
Carr
de la corrlation canonique R = coefficient de

dtermination R = proportion de la variance de la
fonction discriminante explique par lappartenance
lune ou lautre classe discriminer
Autrement dit R = variance interclasse / variance totale
Le but de lanalyse discriminante est de maximiser ce

rapport
06/12/2009
115
Lambda de Wilks
Lambda de Wilks = variance intraclasse / variance totale
varie entre 0 et 1 (var. totale = var. intra + var. inter)

= 1 => tous les centrodes sont gaux
Plus est bas, mieux cest

Test de Fisher sur le lambda
de Wilks <=> Test de

lhypothse nulle que tous les centrodes sont gaux
Il peut servir de critre dans une rgression pas pas
SE_L
SE_W
PE_L
PE_W
Lambda
de Wilks
,381
,599
,059
,071
F
119,265
49,160
1180,161
960,007
ddl1
2
2
2
2
ddl2
147
147
147
147
Signification
,000
,000
,000
,000
Les groupes diffrent beaucoup sur la longueur des ptales

06/12/2009
116
Matrice de confusion
Validation croise
Matrice de confusionb,c
Original
Effectif
Valid-croisa
Effectif
CIBLE
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
Classe(s) d'affectation prvue(s)

SETOSA VERSICOLOR VIRGINICA
50
0
0
0
48
2
0
1
49
100,0
,0
,0
,0
96,0
4,0
,0
2,0
98,0
50
0
0
0
48
2
0
1
49
100,0
,0
,0
,0
96,0
4,0
,0
2,0
98,0
Total
50
50
50
100,0
100,0
100,0
50
50
50
100,0
100,0
100,0
a. Dans la validation croise, chaque observation est classe par les fonctions drives de
toutes les autres observations.
b. 98,0% des observations originales classes correctement.
c. 98,0% des observations valides-croises classes correctement.
06/12/2009
117
Rsum des critres statistiques
D de Mahalanobis : test de Fisher

Lambda de Wilks = 1 - R : test de Fisher
Pas
1
2
3
4
Nombre de
variables
1
2
3
4
Lambda
,059
,037
,025
,023
Statistique
1180,161
307,105
257,503
199,145
F exact
ddl1
ddl2
2
147,000
4
292,000
6
290,000
8
288,000
Signification
,000
,000
,000
,000
Matrice de confusion : test Q de Press

Coefficients discriminants standardiss (sur var. centres
rduites)
pour comparer limportance des variables explicatives
06/12/2009
118
Syntaxe SAS de lanalyse

discriminante
ods rtf file="c:\fisher_sas.doc";
proc stepdisc data=matable.ascorer;
class cible;
var var1 var2 vari; run;
proc discrim data=matable.ascorer method=normal pool=yes
crossvalidate all canonical out=matable.scoree
outstat=matable.destat;
class cible;
priors proportional;
proc discrim data=matable.destat testdata=matable.test
testout=tout;
class cible;
ods rtf close ;
06/12/2009
119
Fichier en sortie OUTSTAT

Obs
cible
_TYPE_
_NAME_
nbproduits
abonnement1
nbenfants
abonnement2
evolconsom
nbsorties
6385.00
6385.00
6385.00
6385.00
6385.00
6385.00
5306.00
5306.00
5306.00
5306.00
5306.00
5306.00
1079.00
1079.00
1079.00
1079.00
1079.00
1079.00
MEAN
8.94
371.28
1.34
23.11
1.16
6.48
MEAN
8.47
281.68
1.38
19.62
1.14
5.96
MEAN
11.23
811.86
1.15
40.28
1.25
9.05
119
LINEAR
_LINEAR_
0.38
-0.00
1.12
-0.00
8.42
0.05
120
LINEAR
_CONST_
-7.50
-7.50
-7.50
-7.50
-7.50
-7.50
121
LINEAR
_LINEAR_
0.48
0.00
0.83
0.01
9.14
0.09
122
LINEAR
_CONST_
-11.27
-11.27
-11.27
-11.27
-11.27
-11.27
06/12/2009
120
Avantages de lanalyse discriminante
Problme solution analytique directe (inverser W)

Optimale quand les hypothses de non colinarit,
homoscdasticit et multinormalit sont vrifies

Les coefficients des combinaisons linaires constituent
un rsultat relativement explicite
Modlise trs bien les phnomnes linaires
Aptitude dtecter les phnomnes globaux
Ne ncessite pas un gros ensemble dapprentissage
Rapidit de calcul du modle
Possibilit de slection pas pas
Facilit dintgrer des cots derreur de classement
Technique implmente dans de nombreux logiciels
06/12/2009
121
Inconvnients de lanalyse
discriminante
Ne dtecte que les phnomnes linaires

Ne sapplique pas tout type de donnes (donnes
numriques sans valeurs manquantes)
mais possibilit dutiliser une ACM (mthode DISQUAL)
normaliser les variables

slectionner soigneusement les variables les + discriminantes
liminer les variables colinaires
liminer les individus hors norme
sil reste de lhtroscdasticit, mieux vaut avoir des classes
de tailles comparables
travailler sur des populations homognes
Hypothses contraignantes, et pour sen rapprocher :
il vaut donc mieux pralablement segmenter

06/12/2009
122
La rgression logistique
06/12/2009
123
La rgression logistique binaire
Y variable cible binaire Y = 0 / 1

Xj p variables explicatives continues, binaires ou qualitatives
p = 1 rgression logistique simple

p > 1 rgression logistique multiple
la variable cible Y est qualitative k modalits

cas particulier : Y ordinale (rgression logistique ordinale)
Gnralisation : rgression logistique polytomique

Pb de rgression : modliser lesprance conditionnelle
E(Y/X=x) = Prob(Y=1/X=x)
sous la forme E(Y/X=x) = 0 + 1X1 + 2X2 + + pXp
Difficult ! Xi continues => terme de droite non born alors
que Prob(Y=1/X=x) [0,1] => il faut le transformer !
en rgression linaire : E(Y/X=x) nest pas borne
06/12/2009
124
Variable expliquer : discrte ou

continue
06/12/2009
125
Prdiction dune variable binaire
Cas dune variable x

multinormale : x N(0,1) sur
lensemble des Y=0 et x
N(1,1) sur lensemble des Y=1.
La courbe thorique E(Y/X=x)
est donne par
fN(1,1)(x)/(fN(1,1)(x)+fN(0,1)(x))
o fN(,) est la fonction de
densit de la loi N(,).
06/12/2009
126
Visiblement
la rgression linaire ne convient pas

(distribution des rsidus !)
La figure fait pressentir que ce nest pas une fonction
linaire de 0 + 1X1 + + pXp quil faut appliquer,
mais une courbe en S
Les courbes en S sont courantes en biologie et en
Probabilit d'une maladie cardiaque
pidmiologie
en fonction de l'age
1.0
.8
.6
Prob(Y=1 / X)
.4
.2
0.0
10
20
30
40
50
60
70
AGE
06/12/2009
127
Age and Coronary Heart Disease (CHD)

(source : Hosmer & Lemeshow - chapitre 1)
CHD = maladie coronarienne (rtrcissement

des artres du muscle cardiaque)
06/12/2009
ID
1
2
3
4
5
AGRP
1
1
1
1
1
AGE
20
23
24
25
25
CHD
0
0
0
0
1
97
98
99
100
8
8
8
8
64
64
65
69
0
1
1
1
128
Ici, difficile de calculer (x) := Prob(Y=1/X=x) car trop peu
de valeurs de Y pour une valeur x donne

On regroupe les valeurs de X par tranches :
proportion des Y = 1 sachant x : meilleur estimateur de la

probabilit que Y = 1 sachant x
procdure de regroupement en classes : classique en scoring !
Tableau des effectifs

de CHD par tranches dge
n
10
15
12
15
13
8
17
10
100
Graphique des proportions

de CHD par tranches dge
CHD
CHD
Mean
.8
absent
present (Proportion)
9
1
0.10
.6
13
2
0.13
9
3
0.25
.4
10
5
0.33
7
6
0.46
.2
3
5
0.63
4
13
0.76
0.0
2
8
0.80
1
2
3
4
5
57
43
0.43
AGEGRP
Proportion (CHD)
Age Group
20 29
30 34
35 39
40 44
45 49
50 54
55 - 59
60 - 69
Total
06/12/2009
1.0
129
Fonction de lien
On crit donc (x) = Prob(Y=1/X=x) sous la forme :

0 +
( x) =
e
1+ e
jxj
j
0 +
jxj
j
( x)
Log (
) = 0 + 1 x1 + ... + p x p
1 ( x)
Fonction de lien : Logit((x))
Cohrent
avec la rgle baysienne de lanalyse

discriminante et le calcul de la probabilit a posteriori
dans le cas gaussien homoscdastique
06/12/2009
130
Les diffrentes fonctions de lien

Modle
Fonction de lien
Fonction de transfert
Logit
Log (/ [1 ])
exp(t )
exp( z )
=
dz
2
1 + exp(t ) (1 + exp( z ) )
Probit
(normit)
fonction inverse de la
fonction de rpartition
dune loi normale
centre rduite
Log [ Log(1)]
Log-log
06/12/2009
s (t ) =
z2 / 2
dz
1 exp[ exp(t)]
131
Similarit des fonctions de transfert

1,2
1
0,8
logit
0,6
loglog
probit
0,4
0,2
4,6
3,8
2,2
1,4
0,6
-0,2
-1
-1,8
-2,6
-3,4
-4,2
-5
coeff (logit)
06/12/2009
coeff (probit)
132
Logit : odds-ratio dun rgresseur Xi
Mesure lvolution du rapport des probas dapparition de
lvnement Y=1 contre Y=0 (odds = cote des

parieurs) lorsque Xi passe de x x+1. Dans ce cas,
logit((x)) augmente du coefficient i de Xi la cote
(x)/[1 - (x)] est multiplie par exp(i)
Formule gnrale :
( x + 1) /[1 ( x + 1)]
OR =
=e
( x) /[1 ( x)]
Si Xi est binaire 0/1, la formule devient :

P(Y = 1 / X i = 1) / P (Y = 0 / X i = 1)
OR =
= e i
P (Y = 1 / X i = 0) / P (Y = 0 / X i = 0)
06/12/2009
133
Interprtation du odds-ratio OR
Attention : odds-ratio du risque relatif (x+1)/(x)
sauf si (x) est petit (dtection de phnomne rare)
ex : comparer les hommes (x=1) et les femmes (x=0)
ex : comparer lge 61 et 60, 60 et 59 avec le mme OR ?

Risque de manque de robustesse par manque de donnes
(voir CHD ci-dessus). Non dtection de la non-linarit.
Un seul OR pour X binaire
Un seul OR est plus douteux pour X continue
OR nutiliser sur des variables qualitatives quaprs
dichotomisation (nb indicatrices = nb modalits - 1, en

prenant une modalit comme rfrence)
ex : comparer petites villes et campagne avec un

OR1 et comparer grandes villes et campagne avec
un OR2, car aucune raison davoir OR1 = OR2
indicatrices cres automatiquement par certains logiciels
06/12/2009
134
Odds-ratio dune variable qualitative
Exemple : comparaison de la probabilit (x) dapparition
dun vnement dans les grandes villes, les petites villes et

la campagne
quand on passe de la modalit de rfrence ( campagne )

la modalit petite ville , la cote (x)/[1 - (x)] est
multiplie par lexponentielle 0,573 de la diffrence des
coefficients B associs la modalit petite ville (B = 0,558) et la modalit de rfrence (B = 0)
autrement dit, la cote (x)/[1 - (x)] de lvnement
(diffrent de sa probabilit (x) !) est presque 2 fois plus
faible dans une petite ville qu la campagne
06/12/2009
135
Sparation complte des groupes

Historique des itrationsa, b,c,d
Variables dans l'quation
Etape
a
1
X
Y
Constante
B
E.S.
13,184 2237,865
-2,726
441,662
-100,184 21856,781
a. Variable(s ) entres l'tape 1 : X, Y.
06/12/2009
Wald
,000
,000
,000
ddl
1
1
1
Signif.
,995
,995
,996
Coefficients
-2log-vrais
emblance Constante
Itration
X
Etape
1
9,271
-,132
,182
1
2
5,000
-,750
,344
3
2,974
-2,082
,563
4
1,747
-4,940
,908
5
,816
-10,239
1,505
6
,319
-16,448
2,252
7
,121
-22,508
3,017
8
,045
-28,505
3,789
9
,017
-34,483
4,567
10
,006
-40,456
5,349
11
,002
-46,429
6,131
12
,001
-52,401
6,914
13
,000
-58,374
7,698
14
,000
-64,346
8,481
15
,000
-70,319
9,265
16
,000
-76,292
10,049
17
,000
-82,265
10,833
18
,000
-88,238
11,617
19
,000
-94,211
12,400
IC
20pour Exp(B) 95,0%
,000
-100,184
13,184
Exp(B)a. Mthode
Infrieur
: Entre Suprieur
531846,3
,000
.
b. La cons tante est incluse dans le modle.
,065
,000
.
c. -2log-vrais emblance initiale : 27,726
,000
Y
-,071
-,119
-,172
-,237
-,339
-,478
-,629
-,785
-,944
-1,105
-1,267
-1,429
-1,591
-1,753
-1,915
-2,077
-2,239
-2,401
-2,564
-2,726
d. L'estimation a t interrompue au numro

d'itration 20 parce que le nombre maximal
d'itrations a t atteint. Solution finale
introuvable.
136
Sparation incomplte des groupes

Historique des itrationsa, b,c,d
Itration
Etape
1
1
2
3
4
5
6
7
8
9
10
-2log-vrais
emblance
11,036
7,473
5,973
5,323
5,079
5,020
5,014
5,014
5,014
5,014
Constante
-,620
-1,523
-3,054
-5,345
-7,956
-9,952
-10,746
-10,840
-10,841
-10,841
Coefficients
X
,204
,373
,583
,840
1,113
1,321
1,406
1,417
1,417
1,417
Y
-,062
-,100
-,136
-,172
-,207
-,234
-,245
-,247
-,247
-,247
a. Mthode : Entre
b. La cons tante est incluse dans le modle.
c. -2log-vrais emblance initiale : 27,526
d. L'es timation a t interrompue au numro d'itration 10 parce
que les es timations de paramtres ont chang de moins de
,001.
Etape
a
1
X
Y
Constante
B
1,417
-,247
-10,841
E.S.
1,379
,189
13,949
Wald
1,056
1,696
,604
ddl
1
1
1
Signif.
,304
,193
,437
Exp(B)
4,124
,781
,000
IC pour Exp(B) 95,0%

Infrieur
Suprieur
,276
61,535
,539
1,133
a. Variable(s ) entres l'tape 1 : X, Y.
06/12/2009
137
Illustration du dcoupage en classes
Un mme modle de score avec 4 variables explicatives :
continues
dcoupes en classes considres comme var. ordinales
dcoupes en classes considres comme var. nominales
Comparaison des performances
Aire sous la courbe ROC
Variable(s ) de rsultats
tests
Var explicatives en
clas s es ordinales
Var explicatives en
clas s es nominales
Var explicatives continues
Intervalle de confiance
95% as ymptotique
Borne
Borne
infrieure
s uprieure
Erreur Std.
Signif.
b
asymptotique
,834
,008
,000
,818
,850
,836
,008
,000
,820
,852
,820
,010
,000
,801
,839
Zone
a. Dans l'hypothse non-paramtrique

b. Hypothse nulle /: zone vraie = 0.5
Le dcoupage en classes nominales lemporte

06/12/2009
138
Estimation des coefficients
Les donnes
Le modle
vecteur X
x1
M
xi
M
xn
y1
M
yi
M
yn
( x ) = P(Y = 1 / X = x )
i
0 +
e
1+ e
j xi j
0 +
j xi j
yi = 0 ou 1
06/12/2009
139
Recherche du maximum de
vraisemblance
Vraisemblance = probabilit dobtenir les donnes
observes [(x1,y1),(x2,y2),,(xn,yn)], exprime en fonction

des coefficients i
n
= Prob(Y = y / X = x ) = ( x ) (1 ( x ))
i
i =1
1 y i
i =1
0 +
n
= (
i =1
i yi
1+ e
j xi j
0 +
) (1
y
0 +
jx j
i
e
1+ e
j xi j
j
0 +
1 y i
jx j
i
= L( 0 , 1 ,..., p )
On cherche les coefficients i maximisant la vraisemblance
et ajustant donc le mieux possible les donnes observes

Pas de solution analytique utiliser une mthode
numrique itrative (ex : Newton-Raphson)
06/12/2009
140
Cas de la rgression logistique simple
On cherche 2 coefficients 0 et 1 maximisant la

vraisemblance n
0 + 1 x i
0 + 1 x i
e
e
1 y i
yi
L(0,1) = (
) (1
)
0 + 1 x i
0 + 1 x i
1+ e
i =1 1 + e
Pour ces coefficients, la matrice des covariances
Cov( 0 , 1 )
V (0 )
V ( ) =
Cov
(
)
V
(
)
0
1
1
est estime par la matrice

1
Log L( )
= ( 0 , 1 )
intervient dans la
statistique de Wald
(voir + loin)
Il faut inverser la matrice hessienne H = LogL()/
impossible en cas de sparation complte des groupes
06/12/2009
141
Vraisemblance et dviance dun modle
Soit L(0) = vraisemblance du modle rduit la constante

Soit L(n) = vraisemblance du modle satur (avec toutes
les variables explicatives et toutes les interactions pour en

avoir autant que dobservations distinctes) = vraisemblance
maximale
Soit L(k) = vraisemblance du modle avec k variables
On dfinit la dviance :
D(k) = 2 [Log L(k) Log L(n)] = Log [L(n)/ L(k)]

= 2 Log L(k) puisque L(n) = 1 pour une cible 0/1
But de la rgression logistique : maximiser la vraisemblance
L(k) minimiser la dviance D(k)
L(k) petit [0,1] -2 Log L(k) [0,+[ avec un terme

2 pour avoir lanalogie entre dviance et (erreurs)
06/12/2009
142
Comparaison de modles
Pour savoir sil convient dajouter q variables explicatives

un modle qui en contient dj k
On calcule la diffrence des dviances
>D(k) - D(k+q) = 2 [Log L(k) - Log L(k+q)]
Sous lhypothse H0 de la nullit des l derniers
coefficients, D(k) - D(k+q) suit un q d de libert
>Sous le seuil critique de la valeur du ( si la
probabilit dpasse 0,05) : on rejette les q nouvelles
variables
Mthode la plus utilise en rgression pas pas

06/12/2009
143
Autres indicateurs
Cas particulier
>D(0) D(k) = 2 [Log L(0) Log L(k)]
suit une loi du k degrs de libert sous lhypothse
H0 de la nullit de tous les coefficients 1, , k. Rejet de

H0 si cette diffrence dpasse le seuil critique du .
Critre dAkaike AIC = 2 Log L(k) + 2(k+1)
k = nb de ddl = nb de paramtres estimer
n = nb total dindividus
pnalise les modles complexes
ils doivent tre le plus bas possible
Critre de Schwartz BIC = 2 Log L(k) + (k+1).log n

Ces 2 critres permettent de comparer 2 modles
06/12/2009
144
Le de Wald
Statistique de Wald = (i / cart-type(i) )

suit un 1 degr de libert sous lhypothse nulle H0 :
le coefficient i = 0
>teste la significativit de chaque coefficient i
en comparant le sous-modle excluant Xi avec le modle

incluant toutes les variables
on doit avoir Wald > 4 (plus prcisment 3,84 = 1,96
venant du test de Student)
Mthode utilise en rgression pas pas

NB : viter le de Wald si peu dobservations ou si les
coefficients i sont grands

NB : Pour les variables qualitatives plus de 2 modalits,
la significativit du rsultat de ce test dpend du choix de
la modalit de rfrence
06/12/2009
145
Le de Wald (suite)
Wald > 3,84 = 1,96 Intervalle de confiance de

lodds-ratio ne contient pas 1
Etape
a
1
AGE
Cons tante
B
,111
-5,309
E.S.
,024
1,134
Wald
21,254
21,935
ddl
1
1
Signif.
,000
,000
Exp(B)
1,117
,005

Infrieur
Suprieur
1,066
1,171
a. Variable(s ) entres l'tape 1: AGE.
> 3,84
06/12/2009
odds-ratio
1 IC
146
Influence du choix de la modalit de

rfrence
Codages des variables nominales
CLASS
0
1
2
3
Frquence
885
325
285
706
Codage des paramtres

(1)
(2)
(3)
1,000
,000
,000
,000
1,000
,000
,000
,000
1,000
,000
,000
,000

B
Etape
a
1
CLASS
CLASS(1)
CLASS(2)
CLASS(3)
Constante
-,068
1,596
,740
-1,087
E.S.
,117
,144
,148
,087
Wald
173,228
,336
123,520
24,920
157,383
ddl
3
1
1
1
1
Signif.
,000
,562
,000
,000
,000
Exp(B)
,934
4,936
2,096
,337
a. Variable(s) entres l'tape 1 : CLASS.
Le choix de la modalit de rfrence influe sur la

significativit des coefficients !
Codages des variables nominales
CLASS
0
1
2
3
Frquence
885
325
285
706
Codage des paramtres

(1)
(2)
(3)
1,000
,000
,000
,000
,000
,000
,000
1,000
,000
Etape
,000
,000
1,000 a

B
CLASS
CLASS(1)
CLASS(2)
CLASS(3)
Constante
-1,664
-,856
-1,596
,509
E.S.
,139
,166
,144
,115
Wald
173,228
143,335
26,593
123,520
19,757
ddl
3
1
1
1
1
Signif.
,000
,000
,000
,000
,000
Exp(B)
,189
,425
,203
1,664
a. Variable(s) entres l'tape 1 : CLASS.
06/12/2009
147
Test de Hosmer et Lemeshow

Test peu puissant : accepte facilement les
modles sur les petits effectifs
Tableau de contingence pour le test de Hosmer-Lemeshow
Etape
1
1
2
3
4
5
6
7
8
9
10
CHD = 0
Obs erv
Thorique
9
9,213
9
8,657
8
8,095
8
8,037
7
6,947
5
5,322
5
4,200
3
3,736
2
2,134
1
,661
CHD = 1
Obs erv
Thorique
1
,787
1
1,343
2
1,905
3
2,963
4
4,053
5
4,678
5
5,800
10
9,264
8
7,866
4
4,339
Total
10
10
10
11
11
10
10
13
10
5
Test de Hosmer-Lemeshow
Etape
1
Khi-deux
,890
ddl
8
Signif.
,999
trs bon ajustement

06/12/2009
On dcoupe les observations

en g = 10 groupes, ordonns
par probabilit croissante
(fournie par le modle)
On calcule le du tableau
gx2 des frquences pour
lvnement modlis (ici CHD
= 1) et lvnement contraire,
que lon compare la loi du
(g - 2) degrs de liberts
Si le est grand (la proba est
faible), les frquences
observes et attendues sont
significativement diffrentes et
le modle ne sajuste pas bien
aux donnes
148
Autres tests (sur SPSS)

Rcapitulatif du modle
Etape
1
-2log-vrais
emblance
107,353 a
R-deux de
Cox & Snell
,254
R-deux de
Nagelkerke
,341
a.
Dviance
quivalent
du R de la
2 Log L(k)
rgression
(est > 0 puisque linaire - ne
L(k) [0,1])
peut atteindre 1
06/12/2009
R ajust pour
varier entre 0
et 1
149
Autres tests (sur SAS : proc logistic)

Model Fit Statistics
Criterion
R de Cox &
Snell
Intercept
Intercept
and
Only Covariates
AIC
138.663
111.353
SC
141.268
116.563
-2 Log L
136.663
107.353
dviance
R-Square 0.2541 Max-rescaled R-Square 0.3410
R de
Nagelkerke
Testing Global Null Hypothesis: BETA=0
06/12/2009
Test
ChiSquare
DF
Pr > ChiSq
Likelihood Ratio
29.3099
<.0001
Score
26.3989
<.0001
Wald
21.2541
<.0001
150
Matrice de confusion (avec SAS)

Table de classification
Correct
Niveau de
prob.
Incorrect
vnement
Nonvnement
0.000
57
0.100
Pourcentages
vnement
Nonvnement
Spcificit
POS
fausse
NEG
fausse
Correct
Sensibilit
43
57.0
100.0
0.0
43.0
57
42
58.0
100.0
2.3
42.4
0.0
0.200
55
36
62.0
96.5
16.3
39.6
22.2
0.300
51
19
24
70.0
89.5
44.2
32.0
24.0
0.400
50
25
18
75.0
87.7
58.1
26.5
21.9
0.500
45
27
16
12
72.0
78.9
62.8
26.2
30.8
0.600
41
32
11
16
73.0
71.9
74.4
21.2
33.3
0.700
32
36
25
68.0
56.1
83.7
17.9
41.0
0.800
24
39
33
63.0
42.1
90.7
14.3
45.8
51
48.0
10.5
97.7
14.3
54.8
57
43.0
0.0
100.0
57.0
prdit0.900
1.000
Observ
total
06/12/2009
42
1
1 total
43
45
12
57
16
27
43
61
39
100
Correct = (45 + 27) / 100 = 72 %

Sensibilit = 45 / 57 = 78,9 %
Spcificit = 27 / 43 = 62,8 %
POS fausse = 16 / 61 = 26,2 %
NEG fausse = 12 / 39 = 30,8 %
151
Syntaxe SAS de la rgression

logistique
ods rtf file= c:\logistic_sas.doc ;
proc logistic data=matable.ascorer outmodel=mon.modele;
class
var_quali_1 (ref=A1) var_quali_i (ref=Ai) / param=ref;
model cible (ref=0)=
Hosmer-Lemeshow
var_quali_1 var_quali_i var_quanti_1 var_quanti_j
/ selection=forward sle=.05 maxiter=25 outroc=roc rsquare lackfit
ctable;
R
output out=matable.scoree predicted=proba resdev=deviance;
run;
enregistre la probabilit
symbol1 i=join v=none c=blue; niv. de signif. en entre
prdite pour lvnement
proc gplot data=roc;
where _step_ in (1 7); matrice de confusion
title Courbe ROC;
plot _sensit_*_1mspec_=1 / vaxis=0 to 1 by .1 cframe=ligr;
run;
ods rtf close ;
proc logistic inmodel=mon.modele; score data= autretable.ascorer;run;
06/12/2009
152
Tests de concordance
Soit n1 (resp. n2) le nb dobservations o Y=0 (resp. Y=1)

Soit n = n1+ n2 le nb total dobservations
On sintresse aux t = n1n2 paires formes dune
observation o Y = 1 et dune observation o Y = 0

Parmi ces t paires : on a concordance si la proba estime
que Y = 1 est + grande quand Y = 1 que quand Y = 0
Soient nc = nb de paires concordantes ; nd = nb de paires
discordantes ; t - nc - nd = nb dex-quo ( tied )
Association of Predicted Probabilities and
Observed Responses
D de Somers = (nc - nd) / t = indice Gini
Percent Concordant
Somers' D
Gamma = (nc - nd) / (nc + nd)
Percent Discordant
Gamma
Percent Tied
Tau-a
Tau-a = 2 (nc - nd) / n(n-1)
Pairs
c
c = (nc + 0,5[t - nc - nd]) / t = aire sous la courbe ROC
Plus ces indices sont proches de 1, meilleur est le modle
06/12/2009
79.0
0.600
19.0
0.612
2.0
0.297
2451
0.800
153
Effet de la multicolinarit
Rgression
logistique avec 2 variables VAR1 et VAR2

fortement corrles :
VAR1
VAR2
VAR1
VAR2
Corrlation de Pears on
1
,975**
N
36841 36300
Corrlation de Pears on
,975**
1
N
36300 36300
**. La corrlation es t s ignificative au niveau 0.01
On
constate une dgradation du pouvoir prdictif de

VAR1 avec lintroduction de VAR2 :
Etape
a
1
VAR1
Cons tante
B
,098
-4,898
E.S.
,004
,062
Wald
759,291
6290,898
ddl
1
1
Signif.
,000
,000
Exp(B)
1,103
,007

Infrieur
Suprieur
1,096
1,111
a. Variable(s ) entres l'tape 1: VAR1.
Etape
a
2
VAR1
VAR2
Cons tante
B
,020
,092
-4,993
E.S.
,014
,015
,065
a. Variable(s ) entres l'tape 2: VAR2.
06/12/2009
Wald
2,125
39,280
5867,055
ddl
1
1
1
Signif.
,145
,000
,000
Exp(B)
1,020
1,096
,007

Infrieur
Suprieur
,993
1,048
1,065
1,129
154
Rsum des tests
Test du sur indicateur de Wald (> 4)

1 IC 95 % de lodds-ratio = exp(ai 1,96(ai))
Test du sur 2 [Log L(0) Log L(k)]
(Test de Hosmer et Lemeshow sur comparaison
des
proportions observes et thoriques)

R de Cox-Snell et R ajust de Nagelkerke
AIC et BIC
Multicolinarit
(tolrance,
VIF,
indices
de
conditionnement)
Matrice de confusion, tests de concordance, aire sous la
Association of Predicted Probabilities and
courbe ROC
Observed Responses
Percent Concordant 79.0 Somers' D 0.600
Moins de 20 degrs de libert
0.612
Percent Discordant 19.0 Gamma
(variables ou modalits) sont
2.0 Tau-a
0.297
Percent Tied
2451 c
0.800
Pairs
souvent retenus
06/12/2009
155
Influence de lchantillonnage 1/2
La
rgression logistique consiste crire (x) :=

P(Y=1/X=x) sous la forme
( x)
Log (
) = 0 + 1 x1 + ... + p x p
1 ( x)
avec des coefficients maximisant la vraisemblance
Si lon effectue un chantillonnage E indpendant de X,

alors la probabilit E(x) := P(Y=1/X=x,XE) vrifie
E ( x)
Log (
) = '0 + 1 x1 + ... + p x p
1 E ( x)
avec 0 = 0 + constante (= log(p1,E/p0,E) + log(p0/p1))

pi = proportion de cas Y=i dans la population totale
Pi,E = proportion de cas Y=i dans lchantillon E
Ceci est vrai de logit mais non de probit !

06/12/2009
156
Influence de lchantillonnage 2/2
Si
E est indpendant de X, la mme fonction de score

permet de dcider si Y=1 (en changeant seulement le
seuil de dcision)
Un
cas particulier : p1,E/p0,E = p1/p0 => 0 = 0
score calcul sur une sous-population E peut

sappliquer une sous-population E, si la distribution
des variables explicatives est la mme dans E et E,
mme si lvnement prdire est plus rare dans E
en appliquant le calcul de P(Y=1/X=x,XE) aux XE et en

fixant le mme seuil dacceptation P(Y=1/X=x,XE) > so,
on aura le mme % daccepts dans E (puisque les var.
explicatives ont mmes distributions dans E et E), mais la
frquence de lvnement sera plus faible dans les
accepts de E, puisque leur proba P(Y=1/X=x,XE) <
P(Y=1/X=x,XE)
06/12/2009
157
Avantages de la rgression logistique
Permet de traiter les variables explicatives discrtes,
qualitatives ou continues
Permet de traiter une variable cible ordinale ou nominale
Hypothses + gnrales que lanalyse discriminante
(pas de multinormalit ni dhomoscdasticit)
Permet de traiter les rponses non monotones
Odds-ratios facilement interprtables (pour modle logit)
Peut prendre en compte les interactions entre variables
Modlise directement une probabilit
Fournit des intervalles de confiance sur les rsultats
Nombreux tests statistiques disponibles
Possibilit de slection pas pas des variables
06/12/2009
158
Limites de la rgression logistique
Suppose la non-colinarit des variables explicatives

Approximation numrique :
calcul itratif moins rapide que le calcul direct de lanalyse

discriminante
moindre prcision que lanalyse discriminante quand les
hypothses de cette dernire sont satisfaites
ne converge pas toujours vers une solution optimale
inoprant dans le cas de la sparation complte des
groupes ! puisque la log-vraisemblance sapproche de 0
(iris de Fisher et sparation des Setosa !)
Ne traite pas les valeurs manquantes de variables
continues (sauf dcoupage en classes)

Sensible aux valeurs hors norme de variables continues
(sauf dcoupage en classes)
06/12/2009
159
La rgression logistique ordinale 1/2
La variable cible Y est ordinale

Fonctions de lien :
logit
probit
log-log : Log [ Log(1)]
utilis quand les valeurs leves de la cible sont plus
probables
ex : valeurs 3 5 / 5 dans une enqute de satisfaction
Cauchit : tg[( -0,5)]

utilis quand les valeurs extrmes de la cible sont plus
probables
ex : valeur 5 / 5 dans une enqute de satisfaction
06/12/2009
160
La rgression logistique ordinale 2/2
Y prend m valeurs ordonnes, notes 1, 2, , m

Dans le modle pentes gales : on suppose
que le
logit des probabilits cumulatives scrit sous la forme
logit (Prob(Y r / X = x) ) = r + i xi , pour 1 r < m

i
>Seule la constante dpend de r

On parle de proportional odds model car :
exp( r + i xi )
Prob(Y r / X = x) / Prob(Y > r / X = x)
i
=
= exp i ( xi x'i )
Prob(Y r / X = x' ) / Prob(Y > r / X = x' ) exp( r + i x'i )
i
>Les odds-ratios pour un
r fix sont tous proportionnels

entre eux et le rapport ne dpend pas de r
Le modle pentes diffrentes : vite trs complexe

06/12/2009
161
La rgression logistique multinomiale
Y prend m valeurs non ordonnes, notes 1, 2, , m

On choisit une modalit de rfrence, par exemple m
On crit les probabilits sous la forme :
exp j + jk x k
k
, j = 1, ..., m 1
Prob(Y = j / X = x) =
m 1
1 + exp i + ik x k
i =1
k
1
Prob(Y = m / X = x) =
m 1
1 + exp i + ik x k
i =1
k
Cest un modle plus complexe que le modle ordinal

pentes gales, car les coefficients ij dpendent de j
06/12/2009
162
Techniques de classement :
Le modle linaire gnral

Le modle linaire gnralis
Le modle additif gnralis
06/12/2009
163
Terminologie
Covariables
(quantitatives)
Facteurs
=
(qualitatives)
variables
variables
explicatives
explicatives
continues
catgorielles
niveaux dun facteur = ses modalits
06/12/2009
164
Effets fixes et alatoires 1/2
Effets fixes des facteurs et covariables
contrls par lexprimentateur

en prenant toutes les valeurs
dont on veut quantifier leffet sur la variable cible
similaire une analyse de rgression but prdictif
en prenant un chantillon de valeurs

on veut quantifier la proportion de la variance de la variable
cible quils expliquent
similaire une analyse de corrlation
but descriptif et non prdictif
Prsence deffets fixes et alatoires
Effets alatoires des facteurs et covariables
Effets mixtes
06/12/2009
165
Effets fixes et alatoires 2/2
Ex 1 : comparaison de 2 traitements sur plusieurs patients

dans plusieurs hpitaux mettre la variable hpital en
effet alatoire
permet dviter le biais d au lieu o est administr le

traitement
ne permet pas de prdire le rsultat dans un nouvel hpital
Ex
2 : comparaison de 2 conditionnements dun produit

sur les achats de plusieurs consommateurs dans plusieurs
magasins mettre la variable magasin en effet
alatoire
permet dviter le biais d au lieu dachat

ne permet pas de prdire les achats dans un nouveau
magasin
06/12/2009
166
Modle mesures rptes 1/2
Les
mesures y1, y2, yk de Y prdire sur plusieurs

individus sont corrles (donnes longitudinales) car
il sagit dun mme individu observ k fois (par ex : avant et

aprs un traitement mdical)
ou de k individus partageant une caractristique commune
(mme famille, mme segment)
On sort des hypothses de la rgression linaire et de la
rgression logistique qui supposent labsence de

corrlation des mesures sur plusieurs individus
Y peut tre continue ou discrte
Un modle mesures rptes peut traiter la fois des
effets fixes et alatoires
06/12/2009
167
Modle mesures rptes 2/2
Dans un modle mesures rptes, on a des effets :
intra-individus ( within-subject effects )

influence du temps, du traitement (comparaison du patient
avant et aprs traitement)
gnralise la comparaison de moyennes sur 2 chantillons
apparis
inter-individus ( between-subject effects )

influence des caractristiques du patient, telles que lge, le
sexe, la formulation sanguine (comparaison du patient par
rapport aux autres)
interactions intra-inter ( within-subject-by-between-subject

effects )
interactions du traitement et des caractristiques du patient
06/12/2009
168
Application aux donnes de survie 1/2
Pour chaque individu, les observations sont rptes dans
le temps des instants t1, t2,, tN

On sintresse la survenue dun vnement (par ex :
dcs, dpart) un instant ti, modlise par la var cible :
yk = 0 si k < i, yi = 1, pas dobservation si k > i : on connat

le dlai de survenue de lvnement
on a yk = 0 pour tout k N si lvnement ne survient pas
(et si lindividu est observ jusquau bout) : on ne connat
que la limite infrieure du dlai de survenue de lvnement
(cette donne est censure )
la donne est aussi censure si lindividu est perdu de vue
avant la fin et avant la survenance de lvnement
On
cherche expliquer la variable dlai de survie

pour mettre en vidence les facteurs favorables
06/12/2009
169
Application aux donnes de survie 2/2
Un modle courant (de Cox)
06/12/2009
170
Modle de survie de Kaplan-Meier
Modlise
la dure avant lapparition dun vnement

(dcs, dpart)
Certaines donnes sont censures (encore vivant), mais
on doit en tenir compte (les dures de vie + longues
tant + censures, par dfinition)
On cherche des modles intgrant la fois les donnes
censures et non censures
Le modle de Kaplan-Meier permet de calculer une
estimation non paramtrique de la fonction de survie :
S(t) = Prob(dure de vie > t)
Il permet de comparer les fonctions de survie (et les
courbes de survie) de plusieurs chantillons ( strates )
correspondant par ex. plusieurs traitements mdicaux

diffrents
et deffectuer des tests
06/12/2009
171
Modle de survie de Cox 1/3
Mme champ dapplication que le modle de Kaplan-Meier

Le modle de rgression de Cox hasards proportionnels
(1972) permet dajouter p variables explicatives et
destimer leurs coefficients dans la fonction de survie,
donc leur impact sur la dure de vie
ex : sexe / nb cigarettes fumes par jour
Cest un modle semi-paramtrique (forme paramtrique
() pour les effets des var. explicatives, et forme non

paramtrique de la fonction de survie)
Pour tout individu i de var. explicatives xij, la fonction
de
p
survie sexprime sous la forme :
exp( j xij )
S (t , xi ) = S 0 (t )
j =0
o xi0 = 1 i et So(t) est la fonction de survie de base

( hasard de base ),
et o lon recherche le vecteur suppos indpendant de i.
06/12/2009
172
On trouve le vecteur des coefficients de rgression par
maximisation dune fonction de vraisemblance (comme la

rgression logistique)
plusieurs mthodes de slection des var. explicatives

existent (ascendante, descendante, pas pas)
interprtation des odds-ratios
ninterviennent pas dans le calcul de

interviennent dans le calcul de So(t)
Les donnes censures :
Le terme de hasards proportionnels vient de ce que le

rapport hi(t) / hk(t) ne dpend pas de t
sauf si les xij en dpendent
06/12/2009
173

(fonctionnalits supplmentaires)
Les variables explicatives xij peuvent dpendre ou non de t
soit en tant une fonction de t, soit en prenant une valeur

diffrente par valeur de t
On peut faire des analyses stratifies (sur des chantillons

diffrents), en supposant que le vecteur des coefficients
de rgression est indpendant de lindividu i et de la strate
en revanche, le hasard de base So(t) dpend de la strate

do lutilisation des analyses stratifies sur une strate Xj
quand une variable explicative Xj ne satisfait pas lhypothse
des hasards proportionnels
Xj nintervient plus dans le terme exp() mais intervient dans
So(t)
06/12/2009
174
Modle linaire gnral (GLM)
Gnralise
la rgression linaire multiple de plusieurs
faons
Les variables explicatives peuvent non seulement tre
continues, mais :
qualitatives (ANOVA)
continues et qualitatives (ANCOVA)
MANOVA, MANCOVA
Il peut y avoir plusieurs variables continues expliquer

Prise en compte des modles effet fixes, alatoires ou
mixtes
Prise en compte des modles mesures rptes
06/12/2009
175
Modle linaire gnralis (GLZ)
Gnralise
le modle linaire gnral quand Y prdire

nest plus forcment continue
On crit g(E(Y/X=x)) = 0 + iixi
g = fonction de lien monotone diffrentiable (g-1 =
fonction de transfert)
La distribution de Y/X=x peut tre :
normale (continue : rgression)

gamma (continue positive)
Bernoulli (discrte : oui/non)
g() =
g() = -1/
g()=log(/1-)
(logit, probit, log-log)
de Poisson (discrte : comptage)
g() = log()
Y = nb de sinistres (assurance) ou effectif dun tableau de

contingence (modle log-linaire)
multinomiale, etc.
06/12/2009
176
Modle linaire gnralis (GLZ)
Double gnralisation du modle linaire gnral : loi de
Y/X=x non normale et g 1

Estimation du modle : par la mthode du maximum de
vraisemblance (analogue des moindres carrs)
valuation du modle : par calcul de la dviance des logvraisemblances (analogue de la somme des carrs des
rsidus de la rgression) et test du
Existence dune rgression logistique mesures rptes
(proc GENMOD de SAS)
Variable V offset : sert tarer un modle si la variable
cible dpend linairement de V
le nb de sinistres dans une compagnie dassurance doit tre

quilibr par la variable offset nb de contrats
Source : Nelder-Wedderburn (1972)

06/12/2009
177
Modle additif gnralis (GAM)
On crit g(E(Y/X=x)) = 0 + ifi(xi)

g : fonction de lien (g-1 : fonction de transfert)
fi : fonction quelconque (non-paramtrique : on na plus un
simple paramtre comme le coefficient i) de xi
par ex : fi = fonction spline
Mais le modle reste additif (cest i qui combine les fi)

La distribution de Y peut tre normale, poissonienne
ou
binomiale
ex : modle logistique additif gnralis si g() = log(/1- )
Modlisation puissante mais attention au sur-apprentissage
et linterprtabilit des rsultats

Source : Hastie - Tibshirani (1990)
06/12/2009
178
Technique de classement ou prdiction :
Arbres de dcision
06/12/2009
179
Classement par arbre de dcision
Le premier nud de larbre
est la racine
Les nuds terminaux sont les
feuilles
Le chemin entre la racine et
chaque feuille est lexpression

dune rgle
par exemple : les clients dont

lge est < x, les revenus < y
et le nombre de comptes > z
appartiennent dans n % des
cas la classe C
Si chaque nud de larbre a

au plus deux nuds fils, on
dit que larbre est binaire
06/12/2009
180
Arbre de classement
SURV (Echantillon d'apprentissage)
Noeud 0
Catgorie
%
n
1
32,99 511
0
67,01 1038
Total
(100,00) 1549
SEX
Prob. ajuste - valeur=0,0000, Khi-deux=341,5082, ddl=1
Noeud 1
Catgorie
%
n
1
21,08 253
0
78,92 947
Total
(77,47) 1200
Noeud 2
Catgorie
%
n
1
73,93 258
0
26,07
91
Total
(22,53) 349
CLASS
1
Noeud 5
Catgorie
%
n
1
96,46 109
0
3,54
4
Total
(7,30) 113
06/12/2009
2;0
Noeud 6
Catgorie
%
n
1
87,00
87
0
13,00
13
Total
(6,46) 100
3
Noeud 7
Catgorie
%
n
1
45,59
62
0
54,41
74
Total
(8,78) 136
181
Prdiction par arbre de dcision
Les arbres peuvent sappliquer la prdiction : la

variable expliquer X est continue
Cest une alternative la rgression linaire multiple

Principe :
la variable X doit avoir une variance + faible dans les

nuds fils
la variable X doit avoir une moyenne la + distincte
possible dun nud fils un autre
06/12/2009
182
Arbre de rgression
PNB
Ce sont la
consommation
dnergie et
lesprance de vie
qui expliquent le
mieux le PNB par
habitant
Noeud 0
Moyenne 3250,141
Ecart type 4330,307
n
163
%
100,0
Prvisions 3250,141
ENERG
Valeur p aj.=0,000, F=122,386,
ddl1=2, ddl2=160
<= 19
(19, 65]; <manquantes>
> 65
Noeud 1
Noeud 2
Noeud 3
Moyenne 2407,358
Ecart type 2824,902
n
53
%
32,5
Prvisions 2407,358
Moyenne 8876,463
Ecart type 4388,009
n
41
%
25,2
Prvisions 8876,463
Moyenne
Ecart type
n
%
Prvisions
554,319
479,405
69
42,3
554,319
ESPER
Valeur p aj.=0,000, F=29,878,
ddl1=1, ddl2=67
06/12/2009
<= 53
> 53
Noeud 4
Noeud 5
Moyenne
Ecart type
n
%
Prvisions
322,513
179,728
39
23,9
322,513
Moyenne
Ecart type
n
%
Prvisions
855,667
574,784
30
18,4
855,667
183
Classement par arbre de dcision
Pour rpartir les individus dune population en n classes,
on commence par choisir la variable sparant le mieux

les individus de chaque classe en fonction de la variable
cible, en sous-populations appeles nuds : le critre
prcis (C1) de choix de la variable et de sa valeur teste
dpend de chaque type darbre
Pour chaque nud, on rpte la mme opration, ce qui
donne naissance un ou plusieurs nuds fils. Chaque

nud fils donne son tour naissance un ou plusieurs
nuds, et ainsi de suite, jusque ce que :
la sparation des individus ne soit plus possible

OU un certain critre (C2) darrt dapprofondissement de
larbre soit satisfait
06/12/2009
184
Critre darrt dun arbre (C2)
Le critre darrt (C2) dpend du type et du paramtrage

de larbre. Souvent (C2) combine plusieurs rgles :
la profondeur de larbre a atteint une limite fixe

OU le nombre de feuilles (cest--dire de rgles) a atteint un
maximum fix
OU leffectif de chaque nud est infrieur une valeur
fixe en de de laquelle on estime quil ne faut plus diviser
un nud (au moins 75 100 pour de bons rsultats)
OU la division ultrieure de tout nud provoquerait la
naissance dun fils deffectif infrieur une valeur fixe
OU la qualit de larbre est suffisante
OU la qualit de larbre naugmente plus de faon sensible.
Cest bien entendu sur cette dernire rgle que les arbres
diffrent le plus
exemple : dans les arbres CART la qualit se mesure par la

puret des
nuds
Stphane
Tuffry - Data Mining - http://data.mining.free.fr
06/12/2009
185
Principaux critres de scission (C1)
Le critre du 2
lorsque les variables explicatives sont qualitatives

utilis dans larbre CHAID
pour tous types de variables explicatives

lindice de Gini est utilis dans larbre CART
lindice Twoing est utilis dans larbre CART lorsque la
variable cible a 3 modalits
lentropie est utilise dans les arbres C4.5 et C5.0
plus les classes sont uniformment distribues dans un
nud, plus lindice de Gini et lentropie sont levs ; plus le
nud est pur, plus ils sont bas
Lindice de Gini, lindice Twoing et lentropie
06/12/2009
186
Les principaux arbres de dcision
CHAID (CHi-Square Automation Interaction Detection)

utilise
le test du 2 pour dfinir la variable la plus

significative et le dcoupage de ses modalits
adapt ltude des variables explicatives discrtes
CART (Classification and Regression Tree)
cherche maximiser la puret des nuds
adapt ltude de tout type de variables explicatives
C5.0 de J.R. Quinlan
cherche maximiser le gain dinformation ralis en
affectant chaque individu une branche de larbre
adapt ltude de tout type de variables explicatives
06/12/2009
187
Arbre CHAID Algorithme 1/2
Cet arbre est de conception plus ancienne (principe :

1975, Hartigan ; algorithme : 1980, Kass)
Il discrtise automatiquement les variables explicatives
continues
La cible est une variable qualitative k modalits
Utilise plusieurs fois la statistique du 2 :
1. On construit pour chaque prdicteur Xi, le tableau de
contingence Xi x Y et on effectue les tapes 2 et 3
2. On slectionne la paire de modalits de Xi dont le
sous-tableau (2 x k) a le plus petit . Si ce nest
pas significatif, on fusionne les 2 modalits et on
rpte cette tape
06/12/2009
188
Arbre CHAID Algorithme 2/2

3. Eventuellement, pour chaque modalit compose
4.
06/12/2009
de plus de 3 modalits originales, on dtermine la

division binaire au le plus grand. Sil est
significatif, on effectue cette division
On calcule la significativit (probabilit associe au
) de chaque prdicteur Xi dont les modalits ont t
prcdemment regroupes et on retient le plus
significatif. Si ce est plus significatif que le seuil
choisi, on peut diviser le nud en autant de nudsfils quil y a de modalits aprs regroupement. Si ce
natteint pas le seuil spcifi, le nud nest pas
divis
189
Arbre CHAID Ajustement de Bonferroni
Lors du calcul de la
significativit de tous les

prdicteurs (tape 4), on
peut multiplier la valeur de
la probabilit du par le
coefficient de Bonferroni,
qui est le nombre de
possibilits de regrouper les
m modalits dun prdicteur
en g groupes (1 g m)
Ce calcul permet dviter la
survaluation de la
significativit des variables
modalits multiples
06/12/2009
190
Arbre CHAID Caractristiques
CHAID traite lensemble des valeurs manquantes comme

une seule catgorie (quil fusionne ventuellement avec
une autre)
Il
pas dutilisation de variables de substitution
nest pas binaire et produit des arbres souvent plus

larges que profonds
Il
utile pour la discrtisation de variables continues
souffre de labsence de dispositif automatique

doptimisation par lagage : quand larbre maximum est
labor, les critres darrt tant rencontrs, sa
construction sachve
Il est utile pour discrtiser les variables continues
Le nb de classes obtenues dpend des seuils fixs pour le
test du
06/12/2009
191
Discrtisation avec CHAID 1/4
Supposons que nous voulions prdire une variable cible

laide de certaines variables, dont lge, et que nous
voulions dcouper lge en classes pour les raisons dj
indiques :
prise en compte de la non-monotonie ou non-linarit de

la rponse en fonction de lge
suppression du problme des extrmes
modle plus robuste
Nous allons dcouper lge en 10 tranches (ou plus, si le

nb dindividus est grand) et regarder le % dindividus
dans la cible pour chaque classe dge
06/12/2009
192

cible
tranche d'ge
18-25 ans
25-29 ans
29-32 ans
32-35 ans
35-38 ans
38-40 ans
40-42 ans
42-45 ans
45-51 ans
> 51 ans
Total
06/12/2009
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
non
127
61,1%
104
45,2%
93
47,9%
113
53,3%
93
49,7%
149
54,8%
108
60,0%
116
54,5%
77
40,5%
71
32,9%
1051
50,0%
oui
81
38,9%
126
54,8%
101
52,1%
99
46,7%
94
50,3%
123
45,2%
72
40,0%
97
45,5%
113
59,5%
145
67,1%
1051
50,0%
Total
208
100,0%
230
100,0%
194
100,0%
212
100,0%
187
100,0%
272
100,0%
180
100,0%
213
100,0%
190
100,0%
216
100,0%
2102
100,0%
193
Nous voyons que certaines classes sont proches du

point du vue du % dans la
cible :
PROPENS
tranches 2 et 3
tranches 4 8
tranches 9 et 10
Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
AGE
<=24
Noeud 6
Catgorie
%
n
O
38,94
81
N
61,06 127
Total
(9,90) 208
(24,32]
Noeud 7
Catgorie
%
n
O
53,54 227
N
46,46 197
Total
(20,17) 424
(32,45]
Noeud 8
Catgorie
%
n
O
45,58 485
N
54,42 579
Total
(50,62) 1064
>45
Noeud 9
Catgorie
%
n
O
63,55 258
N
36,45 148
Total
(19,31) 406
Nous voyons que CHAID a fait automatiquement ce que

nous avons fait manuellement
06/12/2009
194
Pour la scission de la racine de larbre, la variable AGE

est retenue devant la variable REVENUS car la proba
associe au des REVENUS est plus grande que celle
associe lAGE
PROPENS
Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
REVENUS
<=350
Noeud 10
Catgorie
%
n
O
33,33
70
N
66,67 140
Total
(9,99) 210
(350,2667]
Noeud 11
Catgorie
%
n
O
53,60 789
N
46,40 683
Total
(70,03) 1472
>2667
Noeud 12
Catgorie
%
n
O
45,71 192
N
54,29 228
Total
(19,98) 420
NB : si le nb de ddl nest pas le mme pour 2 variables,

il faut comparer les probas et non les eux-mmes
06/12/2009
195
Indice de Gini
Indice de Gini dun nud = 1 i fi
o les fi, i = 1 p, sont les frquences relatives dans le nud des

p classes prdire (variable cible)
= probabilit que 2 individus, choisis alatoirement dans un

nud, appartiennent 2 classes diffrentes
Plus
les classes sont uniformment distribues dans un

nud, plus lindice de Gini est lev ; plus le nud est
pur, plus lindice de Gini est bas
Dans le cas de 2 classes, lindice va de 0 (nud pur) 0,5
(mlange maximal). Avec 3 classes, lindice va de 0 2/3.
Chaque sparation en k nuds fils (deffectifs n1, n2 nk)
doit provoquer la plus grande hausse de la puret, donc

la plus grande baisse de lindice de Gini. Autrement dit, il
faut minimiser :
k
nk
Gini (sparation) = Gini (k e noeud )
i =1
06/12/2009
196
Arbre CART 1/2
Le critre de division est bas sur lindice de Gini

Optimal : toutes les scissions possibles sont examines
Optimal : lagage suprieur celui de CHAID
une fois larbre maximum construit, lalgorithme en dduit

plusieurs sous-arbres par lagages successifs, quil
compare entre eux, avant de retenir celui pour lequel le
taux derreur mesur en test est le plus bas possible
Gnral : variable cible quantitative ou qualitative

CART sert la prdiction comme au classement
Gnral : CART permet la prise en compte de cots Cij
de mauvaise affectation (dun individu de la classe j

dans la classe i) en les intgrant dans le calcul de
lindice de Gini
Gini (nud) = C ij f i f j
i j
06/12/2009
197
Arbre CART 2/2
Un nud est considr comme une feuille lorsque
aucune sparation ne conduit une baisse significative

de lindice de Gini
Une feuille est affecte la classe C :
la mieux reprsente dans la feuille

ou la plus probable dans la feuille (si cette probabilit est
diffrente de la proportion cela dpend du paramtrage)
ou la moins coteuse si des cots de mauvais classement
ont t fixs
Dans sa version de base, CART est binaire
il est moins large que profond, mais parfois trop profond
Gre les valeurs manquantes en recourant aux variables

quidivisantes ou quirductrices
diffrent de CHAID
06/12/2009
198
Traitements des valeurs manquantes
Variables quidivisantes :
celles qui assurent ( peu prs) la mme puret des

nuds que la variable optimale
Variables quirductrices :
celles qui rpartissent les individus ( peu prs) de la

mme faon que la variable optimale
Ces variables servent de variables de rechange

lorsque la variable optimale a une valeur manquante.
Par cohrence, il vaut mieux utiliser les variables

quirductrices
06/12/2009
199
Exemple prcdent avec CART
La
scission de la racine se fait par lAGE, comme avec

CHAID, mais larbre binaire est moins quilibr :
PROPENS
Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
AGE
<=45,5
Noeud 1
Catgorie
%
n
O
46,76 793
N
53,24 903
Total
(80,69) 1696
>45,5
Noeud 2
Catgorie
%
n
O
63,55 258
N
36,45 148
Total
(19,31) 406
On peut aussi pnaliser les scissions dsquilibres

CART est surtout apte dtecter rapidement des profils
trs marqus
06/12/2009
200
Mcanisme de scission des nuds avec Gini

(ex : catalogue avec prix article et achat)
06/12/2009
Article
Prix
Achat
125
100
70
120
95
60
220
85
75
10
90
201
Mcanisme de scission des nuds avec Gini

Achat
Prix
60
70
75
85
90
95
100
120
125
220
Seuil
55
65
72
80
87
92
97
110
122
172
230
>
>
>
>
>
>
>
>
>
>
>
Gini
0,420
0,400
0,375
0,343
0,417
0,400
0,300
0,343
0,375
0,400
0,420
6/10.(1-0,5-0,5)+4/10.(1-0-1)=6/10*0,5=0,3
06/12/2009
202
CART et complexit du choix (C1)
Si
une variable explicative qualitative X a un

ensemble E de n valeurs possibles x1, , xn, toute
condition de sparation sur cette variable sera de la forme
X E, o E E - {0}
>2n-1 1 conditions de sparation possibles
Pour
une variable explicative continue X, la

complexit est lie au tri des valeurs x1, , xn de X,
puisquune fois les variables dans lordre x1 xn ,
il suffit de trouver lindice k tel que la condition
X moyenne (xk , xk+1)
soit la meilleure (selon le critre choisi, par exemple Gini).
06/12/2009
203
Entropie
Entropie (ou information ) dun nud = fi.log(fi)
o les fi, i = 1 p, sont comme ci-dessus les frquences

relatives dans le nud des p classes prdire
Plus
les classes sont uniformment distribues dans un

nud, plus lentropie est leve ; plus le nud est pur,
plus lentropie est basse (elle vaut 0 lorsque le nud ne
contient quune seule classe)
Comme
prcdemment, il faut minimiser lentropie dans

les nuds-fils
06/12/2009
204
Arbre C5.0
C5.0 (successeur de C4.5) est adapt comme CART tout
type de variables
Dispositif doptimisation de larbre par construction puis
lagage dun arbre maximum
le procd dlagage est diffrent de celui de CART et il est

li lintervalle de confiance du taux derreur donc
leffectif du nud
C5.0 cherche minimiser lentropie dans les nuds-fils

C5.0 nest pas binaire. Les variables qualitatives, au
niveau dun nud pre, donnent naissance un nud
fils par modalit
inconvnient : les nuds voient plus rapidement leurs

effectifs baisser (moindre fiabilit statistique)
06/12/2009
205
Pr-lagage et Post-lagage
Certains arbres (CHAID) effectuent un pr-lagage :
si un approfondissement dune branche dgrade la qualit

de larbre : on sarrte l
Dautres arbres (CART, C5.0) effectuent un post-lagage :
lapprofondissement de larbre est men son terme

AVANT dlaguer larbre
>ce qui est + efficace, car parfois le sur-apprentissage a
commenc avant dtre dtect par le taux derreur en test
>larbre peut ainsi dcouvrir des informations importantes
plus profondes que ce que montre un lagage prmatur
06/12/2009
206
lagage et sur-apprentissage
taux
d'erreur
donnes de test
et d'application
profondeur arbre
(nb de feuilles)
laguer ici
Un bon arbre doit tre lagu pour viter la remonte du

taux derreur due au sur-apprentissage
Relative Cost
0.30
06/12/2009
Relative Cost vs Number of Nodes
0.248
0.28
0.26
0.24
Source : CART (Salford)
0.22
0.20
0
100
200
300
Stphane Tuffry
- Data Mining
- http://data.mining.free.fr
Number
of Nodes
400
207
Validation croise
Lorsque la population est trop petite pour en extraire un
chantillon dapprentissage et un de test (courant en

pharmacie) :
On a recours la validation croise (leave-one-out)
La population est scinde en, disons, 10 chantillons de

tailles gales, ayant chacun la mme distribution pour la
classe ou la variable prdire.
On utilise les 9 premiers chantillons comme chantillon
dapprentissage, et le 1/10e restant comme chantillon de
test. On obtient ainsi un taux derreur en test.
On rpte ensuite 9 fois la mme opration sur chaque
9/10e possible, en prenant chaque 1/10e restant pour
chantillon de test.
On combine enfin les 10 taux derreur obtenus.
06/12/2009
208
Avantages des arbres de dcision 1
Ils fournissent des rgles :
explicites (contrairement aux rseaux de neurones)

qui scrivent directement avec les variables dorigine
la distribution non linaire ou non monotone des

prdicteurs par rapport la variable cible
la colinarit des prdicteurs
les interactions entre les prdicteurs
les individus hors-normes (isols dans des rgles
spcifiques)
les fluctuations des prdicteurs non discriminants (larbre
slectionne les plus discriminantes)
Mthode non paramtrique, non perturbe par :
06/12/2009
209
Avantages des arbres de dcision 2
Beaucoup
traitent (sans recodification) des donnes

htrognes (numriques et non numriques, voire
manquantes)
CART traite les valeurs manquantes en remplaant les

variables concernes par des variables quidivisantes
CHAID traite lensemble des valeurs manquantes dune
variable comme une modalit part ou pouvant tre
associe une autre
viter davoir plus de 15 % de valeurs manquantes
Dure de traitement
leur apprentissage peut tre un peu long, mais beaucoup

moins que pour les rseaux de neurones
leur application est trs rapide dexcution
06/12/2009
210
Inconvnients des arbres de dcision
Les nuds du niveau n+1 dpendent fortement de ceux

du niveau n
un arbre dtecte des optimums locaux et non globaux

>la modification dune seule variable, si elle est place prs
du sommet de larbre, peut entirement modifier larbre
les variables sont testes squentiellement et non
simultanment
>manque de robustesse
Lapprentissage ncessite un nombre suffisant dindividus
(pour avoir au moins 30 50 individus / nud)

Discontinuit de la rponse de la variable cible en fonction
des variables explicatives (nb de valeurs du score = nb de
feuilles)
Valeurs du score non uniformment distribues
06/12/2009
211
Pour amliorer les rsultats :
Le rchantillonnage
06/12/2009
212
Rchantillonnage Bootstrap
Pour estimer un paramtre statistique dont on ne connat

pas la loi dans un chantillon de n individus
On
ou quand son calcul exige une distribution normale non

vrifie
lapproche par une suite de B (souvent B 100)

tirages alatoires de n individus avec remise
en mesurant le paramtre pour chaque chantillon simul

puis en tablissant la distribution des frquences des
valeurs de ce paramtre
puis en calculant lintervalle de confiance du paramtre
(2n-1)!/[n!(n-1)!] chantillons bootstrap diffrents
Invent par Bradley Efron (1979)

06/12/2009
213
Principe du bootstrap 1/4
Pb : estimation dun paramtre statistique dfini dans une

population globale et fonction dune loi statistique F
ex : la moyenne = E(F)
dautant que la population peut tre en volution perptuelle

ou quil peut exister des erreurs de mesure, de saisie
Or, la population et la loi F sont gnralement inconnues

Quand
nous travaillons sur un jeu de donnes, il sagit

presque toujours dun chantillon S = {x1, x2, , xn} tir
dune population globale inconnue
et on cherche approcher le paramtre par un estimateur
dfini sur S, cet estimateur tant obtenu en remplaant la
loi inconnue F par la loi empirique , qui est la loi
discrte donnant une probabilit 1/n chaque xi
06/12/2009
214
Cet estimateur est appel estimateur plug-in

On le note = s(x) pour signifier quil dpend de lchantillon
1 n
ex : = xi
n i =1
est un estimateur plug-in de la moyenne
Si F est la loi normale de moyenne F et de dcart-type F,
on connat la distribution des estimateurs : elle suit la loi

normale
de moyenne F et de dcart-type F / n
E( ) = on dit que est un estimateur sans biais.

ici, de plus, il est donn par une formule explicite, de mme
que son cart-type
Plus gnralement se pose la question de la prcision et de

la robustesse dun estimateur, i.e. de son biais et de son
cart-type, gnralement non explicites
06/12/2009
215
Pour calculer lcart-type de lestimateur, il faudrait pouvoir
dterminer lestimateur sur un grand nombre dchantillons

S, S
Or, souvent un seul chantillon S nous est donn
Ide de Bradley Efron (1979) : reproduire le passage de la
population lchantillon S tudi, en faisant jouer
S = {x1, x2, , xn} le rle dune nouvelle population et en
obtenant les chantillons souhaits S, S par des tirages
alatoires avec remise des n individus x1, x2, , xn
chantillon bootstrap = chantillon obtenu par tirage avec
remise de n individus parmi n
Chaque xi peut tre tir plusieurs fois ou ne pas tre tir.
Sa probabilit dtre tir est p = 1 (1 1/n)n, p 0,632
(n +)
06/12/2009
216
Pour
avoir le biais et lcart-type de lestimateur dun

paramtre statistique avec et F inconnues
On tire B (souvent B 100) chantillons bootstrap
on calcule sur chacun deux lestimateur plug-in

on obtient une distribution des estimateurs plug-in
1 B *b
centre autour de la moyenne
B b =1
on dduit un cart-type qui fournit lapproximation
recherche de lcart-type de lestimateur
on peut dduire un intervalle de confiance [Q2,5 ; Q97,5]
95 % de lestimateur en regardant la 25e plus faible valeur Q2,5
et la 25e plus forte valeur Q97,5 de lestimateur bootstrap
le biais = diffrence entre lestimateur calcul sur S et la

moyenne des estimateurs bootstrap
06/12/2009
217
Application aux problmes de scoring
Les paramtres que lon cherche estimer sont :
le taux derreur (ou de bon classement) ou une autre mesure

de performance du modle de score (aire sous la courbe
ROC, indice de Gini)
les coefficients de la fonction de score
les prdictions (probabilits a posteriori dappartenance
chaque classe prdire)
La population globale sur laquelle devrait tre construit le

modle est inconnue :
on tire B chantillons bootstrap partir de lchantillon initial

puis on construit un modle sur chaque chantillon
on obtient des intervalles de confiance des indicateurs de
performance (ex : aire sous la courbe ROC) du modle
06/12/2009
218
Rchantillonnage boostrap et
bagging
06/12/2009
219
Biais des estimations
NB
: la moyenne des taux derreur sur les chantillons

bootstrap est une estimation biaise par optimisme
Une variante consiste calculer les erreurs sur les seuls
individus nappartenant pas lchantillon bootstrap : cest
lestimation out-of-bag
Comme cette estimation est cette fois-ci biaise par
pessimisme, Efron et Tibshirani ont propos de pallier
simultanment le biais optimiste de lestimation de la
resubstitution et le biais pessimiste du bootstrap out-ofbag par la formule magique du .632-bootstrap :
Estimation.632 = 0,368 x estimation(resubstitution)
+
0,632 x estimation(bootstrap-oob)
06/12/2009
220
Rchantillonnage boostrap avec

estimation out-of-bag
06/12/2009
221
Agrgation de modles : le bagging
BAGGING : bootstrap aggregating, Breiman, 1996

Construction dune famille de modles sur n chantillons
bootstrap (tirages avec remise)
Ensuite
agrgs par un vote ou une moyenne des

estimations (ou une moyenne des probabilits en
rgression logistique)
FORETS ALEATOIRES, Breiman, 2001

= Bagging pour les arbres de dcision
en ajoutant un
tirage alatoire parmi les variables explicatives
vite de voir apparatre toujours les mmes variables
Efficace sur les souches ( stumps ), arbres 2 feuilles
contrairement au simple bagging
06/12/2009
222
Agrgation de modles : le boosting
BOOSTING, Freund et Shapire, 1996

Version adaptative et gnralement
dterministe du
Bagging :
on travaille sur toute la population

et chaque itration, on augmente le poids des individus
mal classs dans les itrations prcdentes
tandis que le poids des bien classs naugmente pas
Plusieurs algorithmes : Discrete AdaBoost, Real AdaBoost,
LogitBoost, Gentle AdaBoost et ARCING (Adaptative

Resampling and Combining)
Avec CART, le nb de feuilles est prendre dans [4,8] ou =
p, o p = nb de variables explicatives
06/12/2009
223
Diffrence entre bagging et boosting
En boosting :
on construit un ensemble de modles dont on agrge ensuite les
prdictions
Mais :
on nutilise pas ncessairement des chantillons bootstrap mais
plus souvent lchantillon initial complet chaque itration (sauf

dans quelques versions des algorithmes AdaBoost et Arcing)
chaque modle est une version adaptative du prcdent,
ladaptation consistant augmenter le poids des individus
prcdemment mal classs tandis que le poids des bien classs
naugmente pas
lagrgation finale des modles est ralise par une moyenne de
tous les modles dans laquelle chacun est gnralement (sauf
dans lalgorithme Arcing) pondr par sa qualit dajustement
06/12/2009
224
BAGGING
BOOSTING
Caractristiques
Le bagging est alatoire
Le boosting est adaptatif et gnralement dterministe
On utilise des chantillons bootstrap
On utilise gnralement lchantillon initial complet
Chaque modle produit doit tre performant sur

lensemble des observations
Chaque modle produit doit tre performant sur certaines

observations ; un modle performant sur certains outliers
sera moins performant sur les autres individus
Dans lagrgation, tous les modles ont le mme

poids
Dans lagrgation, les modles sont gnralement

pondrs selon leur qualit dajustement (sauf lArcing)
Avantages et inconvnients
Technique de rduction de la variance par moyenne
de modles
Peut diminuer la variance et le biais du classifieur de base.

Mais la variance peut augmenter avec un classifieur stable
Perte de lisibilit quand le classifieur de base est un

arbre de dcision
Perte de lisibilit quand le classifieur de base est un arbre

de dcision
Inoprant sur les stumps
Efficace sur les stumps
Possibilit de parallliser lalgorithme
Algorithme squentiel ne pouvant tre paralllis
Pas de sur-apprentissage : suprieur au boosting

en prsence de bruit
Risque de sur-apprentissage mais globalement suprieur

au bagging sur des donnes non bruites (lArcing est
moins sensible au bruit)
Le bagging fonctionne souvent mieux que le

boosting
mais quand le boosting fonctionne, il fonctionne mieux
06/12/2009
225
Questions sur le boosting
Utiliser des chantillons bootstrap ou lchantillon initial
complet ?
Quelle fonction derreur pour pondrer les individus (rsidu
de la dviance pour un modle linaire gnralis) ?
Faut-il chaque itration nutiliser que lerreur de litration
prcdente, ou la multiplier par lerreur de toutes les
itrations antrieures (risque : zoomer excessivement
sur les individus outliers mal classs) ?
Que faire des individus trs mal classs litration i :
borner leur erreur (ex : limiter 2 le rsidu de la dviance),
leur interdire de participer litration i+1, ou ne rien faire ?
Comment raliser lagrgation finale ? Prendre en compte
tous les modles ou carter ceux qui sajustent trop mal ?
06/12/2009
226
Rsultat dun boosting (arbre)
Arbre boost
Arbre simple
06/12/2009
227
Agrgation de modles : Conclusion
Ces
techniques permettent damliorer parfois trs

nettement la qualit (tx de biens classs) et la robustesse
(sur un autre chantillon) des prdictions
mme avec seulement une centaine ditrations

mais surtout sur les arbres de dcision ! et non sur les
classifieurs forts (analyse discriminante ou rgression
logistique) pour lesquels le gain est faible
AVANTAGES
bonne rsistance au bruit

bonne rsistance au sur-apprentissage
perte de lisibilit
importance du temps machine de traitement
INCONVNIENTS
Objet de nombreux travaux thoriques en cours

06/12/2009
228
Combinaison et agrgation de
modles
Sur :
Appliquer :
Quoi :
Le mme
chantillon
Des chantillons
diffrents
La mme
technique
Modle simple
Agrgation de modles
Des
techniques
diffrentes
Combinaison de
modles
Mlange (*)
(*) Il pourrait sagir dune suite dchantillons bootstrap auxquels seraient

chaque fois appliqus un arbre de dcision et un rseau de neurones.
06/12/2009
229
Choix dune mthode de

modlisation
06/12/2009
230
Qualits attendues dune mthode 1/2
La prcision
le taux derreur doit tre le plus bas possible, et laire sous

la courbe ROC la plus proche possible de 1
La robustesse
tre le moins sensible possible aux fluctuations alatoires

de certaines variables et aux valeurs manquantes
ne pas dpendre de lchantillon dapprentissage utilis et
bien se gnraliser dautres chantillons
La concision
les rgles du modle doivent tre les plus simples et les

moins nombreuses possible
06/12/2009
231
Qualits attendues dune mthode 2/2
Des rsultats explicites
les rgles du modle doivent tre accessibles et

comprhensibles
La diversit des types de donnes manipules
toutes les mthodes ne sont pas aptes traiter les donnes

qualitatives, discrtes, continues et manquantes
La rapidit de calcul du modle
un apprentissage trop long limite le nombre dessais possibles
dans un classement, il est parfois intressant de pouvoir

pondrer les erreurs de classement, pour signifier, par
exemple, quil est plus grave de classer un patient malade en
non-malade que linverse
Les possibilits de paramtrage
06/12/2009
232
Choix dune mthode : nature des donnes
La rgression linaire traite les variables continues

Lanalyse discriminante traite les variables expliquer
nominales et les variables explicatives continues

Lanalyse discriminante DISQUAL traite les variables
expliquer nominales et les variables explicatives
qualitatives
La rgression logistique traite les variables expliquer
qualitatives (nominales ou ordinales) et les variables
explicatives continues ou qualitatives
Les rseaux de neurones traitent les variables continues
dans [0,1] et transforment les autres
Certains arbres de dcision (CHAID) traitent nativement
les variables discrtes et qualitatives (et transforment les
autres)
CART, C5.0 peuvent aussi traiter les variables continues
06/12/2009
233
Choix dune mthode : prcision,

robustesse, concision, lisibilit
Prcision : privilgier la rgression linaire, lanalyse

discriminante et la rgression logistique, et parfois les
rseaux de neurones en prenant garde au surapprentissage (ne pas avoir trop de neurones dans la ou
les couches caches)
Robustesse : viter les arbres de dcision et se mfier
des rseaux de neurones, prfrer une rgression
robuste une rgression linaire par les moindres carrs
Concision : privilgier la rgression linaire, lanalyse
discriminante et la rgression logistique, ainsi que les
arbres sans trop de feuilles
Lisibilit : prfrer les arbres de dcision et prohiber les
rseaux de neurones. La rgression logistique, DISQUAL,
lanalyse discriminante linaire et la rgression linaire
fournissent aussi des modles faciles interprter
06/12/2009
234
Choix dune mthode : autres critres
Peu de donnes : viter les arbres de dcision et les

rseaux de neurones
Donnes avec des valeurs manquantes : essayer de
recourir un arbre, une rgression PLS, ou une
rgression logistique en codant les valeurs manquantes
comme une classe particulire
Les valeurs extrmes de variables continues naffectent
pas les arbres de dcision, ni la rgression logistique et
DISQUAL quand les variables continues sont dcoupes
en classes et les extrmes placs dans 1 ou 2 classes
Variables explicatives trs nombreuses ou trs corrles :
utiliser les arbres de dcision ou la rgression PLS
Mauvaise comprhension de la structure des donnes :
rseaux de neurones (sinon exploiter la comprhension
des donnes par dautres types de modles)
06/12/2009
235
Choix dune mthode : topographie

des classes discriminer
1
0
0
0
1
0 1
0
1
0
0
1
1
? 0
1
1
0
1
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
1
+
1
00 11
? est class en "1"
? est class en "0"
? est class en "0"
Rseau de neurones
Arbre de dcision
Toutes les mthodes inductives de classement dcoupent
lespace des variables en rgions, dont chacune est

associe une des classes
La forme de ces rgions dpend de la mthode employe
06/12/2009
236
Influence des donnes et mthodes
Pour un jeu de donnes fix, les carts entre les
performances de diffrents modles sont souvent faibles
exemple de Gilbert Saporta sur des donnes dassurance

automobile (on mesure laire sous la courbe ROC) :
rgression logistique : 0,933

rgression PLS : 0,933
analyse discriminante DISQUAL : 0,934
analyse discriminante barycentrique : 0,935
le choix de la mthode est parfois affaire dcole
un peu de la technique de modlisation employe

beaucoup plus des donnes !
Les performances dun modle dpendent :
Do limportance de la phase prliminaire dexploration et

danalyse des donnes
et mme le travail (informatique) de collecte des donnes
06/12/2009
237
Les 8 principes de base de la

modlisation
La prparation des donnes est la phase la plus longue, pas la plus

passionnante mais la plus importante
Il faut un nombre suffisant dobservations pour en infrer un modle
Validation sur un chantillon de test distinct de celui dapprentissage
(ou validation croise)
Arbitrage entre la prcision dun modle et sa robustesse ( dilemme
biais variance )
Limiter le nb de variables explicatives et surtout viter leur colinarit
Perdre de linformation pour en gagner
dcoupage des variables continues en classes
La performance dun modle dpend plus de la qualit des donnes et

du type de problme que de la mthode
cf. match analyse discriminante vs rgression logistique
On modlise mieux des populations homognes
intrt dune classification pralable la modlisation
06/12/2009
238
Thorie de lapprentissage de
Vapnik
06/12/2009
239
Fonction de perte et risque dun

modle
Lerreur de prdiction dun modle se mesure par une
fonction de perte :
y continue L(y,f(x)) = (y f(x))
y = 0/1 L(y,f(x)) = |y f(x)|
Risque (ou risque rel) = esprance de la fonction de perte
sur lensemble des valeurs possibles des donnes (x,y)
comme on ne connat pas la loi de probabilit conjointe de x
et y, on ne peut questimer le risque
lestimation la plusn courante est le risque empirique

1
( y f ( x ) ) ou 1 1 yi f ( xi )
n
n
2
n
i =1
i =1
on retrouve le taux derreur pour y = 0/1 (n = effectif)
Biais lorsque le risque empirique est mesur sur
lchantillon dapprentissage : mieux vaut lchantillon de

test qui approche mieux le risque rel
06/12/2009
240
Risque empirique en apprentissage

et test
Si les courbes de risque empirique sur les donnes

dapprentissage et de test convergent partir dune taille n
de lchantillon dapprentissage, le pouvoir discriminant du
modle se gnralisera probablement bien
taux
d'erreur
mauvaise
gnralisation
donnes de test
et d'application
t
bonne
gnralisation
taille de l'chantillon
Cette convergence a souvent lieu mais pas toujours

Sil y a convergence, on dit que le modle est consistent
06/12/2009
241
Complexit et VC-dimension
Plus gnralement, Vladimir Vapnik (The Nature of Statistical

Learning Theory, 1995) sest intress la convergence du
risque empirique sur lchantillon dapprentissage vers le risque
rel (approch par le risque empirique sur lchantillon de test)
Il a dmontr deux rsultats fondamentaux :
sur lexistence dune convergence

sur la vitesse de convergence
Pour les noncer, il faut introduire une caractristique du modle
appele dimension de Vapnik-Chernovenkis (= VC-dimension).
La VC-dimension est une mesure de complexit dun modle
dfinie pour toute famille de fonctions Rp R (donc en particulier
pour les modles de classement {f(x) 0, oui ou non})

dont elle mesure le pouvoir sparateur des points de Rp
06/12/2009
242
Hachage de points
Soit un chantillon de points (x1, .. , xn) de Rp

Il existe 2n diffrentes manires de sparer cet chantillon
en deux sous-chantillons
Chaque manire correspond un ensemble (x1,y1) , ,
(xn,yn) , avec yi = +1 ou 1
Un ensemble F de fonctions f(x,) hache lchantillon si
les 2n sparations peuvent tre faites par des f(x,) F,
c.a.d si on peut toujours trouver tel que signe(f(xi,)) = yi
pour tout i
Cela signifie que F peut discriminer nimporte quelle
configuration de lchantillon : problme de classement
Les droites du plan peuvent hacher certains
chantillons de trois points (ceux qui sont non aligns)
mais aucun chantillon de quatre points
06/12/2009
243
VC-dimension
La VC-dimension de F est le plus grand nombre de points
qui peuvent tre hachs par les fonctions de F

Autrement dit, la VC-dimension de F vaut h si :
il existe un chantillon (x1, .. , xh) de Rp qui peut tre hach
aucun chantillon (x1, .. , xh+1) de Rp ne peut tre hach par F
Cela ne signifie pas que tout chantillon (x1, .. , xh) de Rp
puisse tre hach (exemple de 3 points aligns dans le
plan)
La VC-dimension des droites du plan vaut 3
La VC-dimension des paraboles du plan vaut 4
(source : Hastie Tibshirani Friedman)

06/12/2009
244
Exemples de VC-dimension
La VC-dimension de lensemble des hyperplans de Rp est

p+1
Mais la VC-dimension dune classe de fonctions nest pas
toujours gale son nombre de paramtres

Exemple : la VC-dimension de lensemble de fonctions
f(x,) = signe (sin(.x)), x [0,1],
avec un paramtre , est infinie
(source : Hastie
Tibshirani Friedman)
En effet, si grand soit le nombre de points, on pourra

toujours trouver un assez grand pour les sparer
06/12/2009
245
Hyperplans avec contrainte
L'ensemble des hyperplans de Rp de marge donne 2M,
cest--dire dquation contrainte par |||| 1/M, a une

VC-dimension borne par R/M (et bien sr par p+1) si
les observations sont dans une sphre de rayon R
Plus prcisment h min [partie entire (R/M),p] + 1
Cette formule montre que h nest pas un majorant dfini a
priori mais quil dpend de la configuration des donnes
Maximiser la marge minimiser la VC-dimension
La marge est le couloir qui spare les
observations. Elle vaut 2/ |||| si lq.
de lhyperplan est <.x> + 0
Si M > R, visiblement deux points ne
peuvent jamais tre spars (h 1)
B1
B2
b21
b22
margin
b11
b12
06/12/2009
246
Thormes de convergence
Les deux thormes de Vladimir Vapnik :
le risque empirique sur lchantillon dapprentissage Remp dun

modle converge vers son risque rel R sa VC-dimension
est finie
lorsque la VC-dimension h dun modle est finie, on a, avec
une probabilit derreur :
(*) R < Remp +
h (log(2n / h) + 1) log( / 4)
n
Cette majoration est universelle : elle sapplique tous les
modles, sans hypothse sur la loi conjointe de x et y

La majoration (*) nest vraie quavec une probabilit
derreur donne , et le majorant tend vers linfini lorsque
tend vers 0
06/12/2009
247
Consquences
Le meilleur modle est celui qui minimise la somme de Remp
et de h (log(2n / h) + 1) log( / 4)
n
Cest le modle qui ralise le meilleur compromis entre
ajustement et robustesse
Pour une taille n fixe, lorsque h diminue, gnralement
Remp augmente et h (log(2n / h) +n1) log( / 4) diminue il faut
trouver la valeur optimale de h
Si n augmente, h peut augmenter aussi, car le terme
h (log(2n / h) + 1) log( / 4)
tend vers 0 lorsque h/n tend vers 0
n
A pouvoir prdictif gal, il privilgier le modle qui a la plus
faible VC-dimension
06/12/2009
248
Cas des modles avec contrainte
Dans quelques cas simples, la VC-dimension dun modle
est gale au nombre de paramtres

Mais elle est le plus souvent difficile calculer et mme
majorer efficacement, ce qui limite lintrt pratique de la
majoration (*)
Les support vector machines (SVM) sont lun des premiers
types de modles dont il fut possible de calculer la VCdimension
Comme la rgression rgularise, il sagit de modles
calculs en appliquant une contrainte |||| 1/M
On a vu quen maximisant la marge 2M, on minimise h :
cela permet dassurer et de contrler le pouvoir de
gnralisation du modle
la rgression ridge est gnralement plus robuste que la

rgression linaire ordinaire
06/12/2009
249

Predictive S

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Predictive S

Uploaded by

Copyright:

Available Formats

Stphane Tuffry

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que le data mining ?

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques prdictives de data mining :

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 grandes familles :

Classement : la variable expliquer est qualitative

on parle aussi de classification (dans lcole anglosaxonne) ou de discrimination

Prdiction : la variable expliquer est continue

on parle aussi de rgression

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Stphane Tuffry - Data Mining - http://data.mining.free.fr

La prdiction consiste estimer

la valeur dune variable continue (dite expliquer ,

Cette variable cible est par exemple :

le poids (en fonction de la taille)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Choix dune mthode : nature des donnes

rg. linaire multiple, ANOVA,

modle mesures rptes

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Dans les techniques inductives :

une phase dapprentissage (phase inductive) pour laborer

Les techniques transductives

ne comprennent quune seule tape (ventuellement

Stphane Tuffry - Data Mining - http://data.mining.free.fr

k-plus proches voisins

La plus connue des techniques transductives

ce choix est la principale difficult de cet algorithme !

Ainsi, dans lexemple ci-contre,

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Limites des mthodes transductives

technique inductive rsume dans un modle

Une technique transductive manipule lensemble des

individus dj classs, pour tout nouveau classement

ce qui ncessite donc une grande puissance de stockage

mthode transductive, comme les k-NN, peut tre

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Mthodes inductives : schma

Le modle sera par exemple une fonction f telle que :

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Mthodes inductives : 4 tapes

Apprentissage : construction du modle sur un 1er

chantillon pour lequel on connat la valeur de la

Eventuellement, validation du modle sur un 3e

chantillon, pour avoir une ide du taux derreur non

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Courbes du taux derreur en

Stphane Tuffry - Data Mining - http://data.mining.free.fr

(A) Modle trop simp le

(B) Bon modle

(C) Modle trop complexe

Un modle trop pouss dans la phase dapprentissage :

Stphane Tuffry - Data Mining - http://data.mining.free.fr

(B) Bon modle

Source : Olivier Bousquet

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Taux derreur en fonction de la complexit

(B) arrter ici

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Sur-apprentissage dans un arbre