You are on page 1of 249

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Plan du cours

Quest-ce que le data mining ?


A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
Lanalyse et la prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques prdictives
Points forts et points faibles

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques prdictives de data mining :

Gnralits

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 grandes familles :


Classement et prdiction

Classement : la variable expliquer est qualitative

on parle aussi de classification (dans lcole anglosaxonne) ou de discrimination


scoring : classement appliqu une problmatique
dentreprise

Prdiction : la variable expliquer est continue

on parle aussi de rgression


ou dapprentissage supervis (rseaux de neurones)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Classement classification

Le classement consiste
placer chaque individu de la
population dans une classe,
parmi
plusieurs
classes
prdfinies, en fonction des
caractristiques de lindividu
indiques comme variables
explicatives
Le rsultat du classement est
un
algorithme
permettant
daffecter chaque individu la
meilleure classe
Le plus souvent, il y a 2
classes prdfinies ( sain et
malade , par exemple)

06/12/2009

La classification consiste
regrouper les individus dune
population en un nombre
limit de classes qui :
ne sont pas prdfinies
mais dtermines au cours
de lopration (mme leur
nombre nest pas toujours
prdfini)
regroupent les individus
ayant des caractristiques
similaires et sparent les
individus ayant des
caractristiques diffrentes
(forte inertie interclasse
faible inertie intraclasse)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Prdiction

La prdiction consiste estimer

la valeur dune variable continue (dite expliquer ,


cible , rponse , dpendante ou endogne )
en fonction de la valeur dun certain nombre dautres
variables (dites explicatives , de contrle ,
indpendantes ou exognes )

Cette variable cible est par exemple :

le poids (en fonction de la taille)


la taille des ailes dune espce doiseau (en fonction de lge)
le prix dun appartement (en fonction de sa superficie, de
ltage et du quartier)
la consommation dlectricit (en fonction de la temprature
extrieure et de lpaisseur de lisolation)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Choix dune mthode : nature des donnes


explicatives 

1 quantitative n quantitatives
(covariable)
(covariables)

1 qualitative
(facteur)

n qualitatives
(facteurs)

mlange

ANOVA, arbres
de dcision,
rseaux de
neurones

ANCOVA,
arbres de
dcision,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
rgression
logistique,
arbres, rseaux
de neurones

 expliquer
1 quantitative

n quantitatives
(reprsentent des
quantits )

1 qualitative
nominale ou
binaire
1 discrte
(comptage)
1 quantitative
asymtrique
1 qualitative
ordinale
n quantitatives
ou qualitatives
06/12/2009

rg. linaire
simple,
rgression
robuste, arbres
de dcision
rgression
PLS2
ADL,
rgression
logistique,
arbres de
dcision

rg. linaire multiple, ANOVA,


rg. robuste, PLS,
arbres de
arbres, rseaux de
dcision
neurones
rgression PLS2,
rseaux de neurones

MANOVA

MANOVA,
rseaux de
neurones
ADL, rg. logistique, rgression
rgression
reg. logistique PLS, logistique,
logistique,
arbres, rseaux de
DISQUAL,
DISQUAL,
neurones, SVM
arbres
arbres, rseaux
de neurones
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
modle linaire gnralis
(rgressions gamma et log-normale)
rgression logistique ordinale
(au moins 3 niveaux)

modle mesures rptes


(les n variables reprsentent des mesures rptes dune mme quantit)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques inductives et
transductives

Dans les techniques inductives :

une phase dapprentissage (phase inductive) pour laborer


un modle, qui rsume les relations entre les variables
et qui peut ensuite tre appliqu de nouvelles donnes
pour en dduire un classement ou une prdiction (phase
dductive)

Les techniques transductives

ne comprennent quune seule tape (ventuellement


ritre), au cours de laquelle chaque individu est
directement class (ou objet dune prdiction) par
rfrence aux autres individus dj classs
il ny a pas laboration dun modle

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

k-plus proches voisins

La plus connue des techniques transductives


Le classement (prdiction) de chaque individu

sopre
en regardant, parmi les individus dj classs, la classe
des k individus qui sont les plus proches voisins (ou en
calculant la moyenne dans le voisinage de la variable
prdire)
La valeur de k sera choisie en sorte dobtenir le meilleur
classement (prdiction) possible :

ce choix est la principale difficult de cet algorithme !

Ainsi, dans lexemple ci-contre,


lindividu ? est class en 0 ,
car entour en majorit de 0

0
0
0
1
0 1
0
1
0
0
1
1 ? 0
1
1
0
1
? est class en "0"

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10

Limites des mthodes transductives

Une

technique inductive rsume dans un modle


linformation contenue dans les donnes
ce qui permet d appliquer rapidement ce modle de
nouvelles donnes

Une technique transductive manipule lensemble des

individus dj classs, pour tout nouveau classement

ce qui ncessite donc une grande puissance de stockage

et de calcul
On utilise surtout les techniques inductives.

Une

mthode transductive, comme les k-NN, peut tre


utilise dans une tape pralable de dtection et de
mise lcart des individus hors norme, des outliers .

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

11

Mthodes inductives : schma


laboration du modle

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois

12 mois

aujourdhui

observation des

observation de la

variables explicatives

variable expliquer

Application du modle

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois

aujourdhui

+ 12 mois

observation des

prdiction de la

variables explicatives

variable expliquer

Le modle sera par exemple une fonction f telle que :


Probabilit(variable cible = x) = f(variables explicatives)
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

12

Mthodes inductives : 4 tapes

Apprentissage : construction du modle sur un 1er

chantillon pour lequel on connat la valeur de la


variable cible
Test : vrification du modle sur un 2d chantillon
pour lequel on connat la valeur de la variable cible, que
lon compare la valeur prdite par le modle
si le rsultat du test est insuffisant (daprs la matrice de
confusion ou laire sous la courbe ROC), on recommence
lapprentissage

Eventuellement, validation du modle sur un 3e

chantillon, pour avoir une ide du taux derreur non


biais du modle
Application du modle lensemble de la population
scorer, pour dterminer la valeur de la variable cible
de chaque individu

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

13

Courbes du taux derreur en


apprentissage et en test
taux
d'erreur

mauvaise
gnralisation
donnes de test
et d'application
t
donnes apprentissage

bonne
gnralisation

taille de l'chantillon
taille suffisante

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

14

Sur-apprentissage en rgression

(A) Modle trop simp le

(B) Bon modle

(C) Modle trop complexe

Un modle trop pouss dans la phase dapprentissage :


pouse toutes les fluctuations de lchantillon dapprentissage,
dtecte ainsi de fausses liaisons,
et les applique tort sur dautres chantillons

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

15

Sur-apprentissage en classement
(C) Modle trop
complexe

(B) Bon modle

Source : Olivier Bousquet

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

16

Taux derreur en fonction de la complexit


du modle
mauvaise
gnralisation
donnes de test
et d'application

taux
d'erreur

bonne
gnralisation

donnes apprentissage

taille du modle
(A)

06/12/2009

(B) arrter ici

(C)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

17

Sur-apprentissage dans un arbre


variable cible (Echantillon d'apprentissage)
Noeud 0
Catgorie
%
N
82,46
O
17,54
Total
(100,00)

la scission des nuds 9 et 10


manque de robustesse

n
282
60
342

rglements crdit
Taux d'amlioration=0,0286

<=1,165

>1,165

Noeud 3
Catgorie
%
N
89,64
O
10,36
Total
(73,39)

Noeud 4
Catgorie
%
N
62,64
O
37,36
Total
(26,61)

n
225
26
251

abonnement autre service 2


Taux d'amlioration=0,0112

<=101,935
Noeud 5
Catgorie
%
n
N
91,32 221
O
8,68 21
Total
(70,76) 242

la diffrence entre les erreurs en


test et en apprentissage est
dautant plus petite que lchantillon
dapprentissage est plus grand

>101,935
Noeud 6
Catgorie
%
n
N
44,44
4
O
55,56
5
Total
(2,63) 9

n
57
34
91

nb achats
Taux d'amlioration=0,0054

<=55,5
Noeud 9
Catgorie
%
N
68,66
O
31,34
Total
(19,59)

variable cible (Echantillon de Test)


Noeud 0
Catgorie
%
N
83,39
O
16,61
Total
(100,00)

>55,5

n
46
21
67

Noeud 10
Catgorie
%
N
45,83
O
54,17
Total
(7,02)

n
11
13
24

n
241
48
289

rglements crdit
Taux d'amlioration=0,0286

<=1,165

Intrt du bootstrap
aggregating (bagging) avec
des mthodes relativement
peu robustes comme les
arbres de dcision
06/12/2009

>1,165

Noeud 3
Catgorie
%
n
N
90,95 181
O
9,05 18
Total
(68,86) 199

Noeud 4
Catgorie
%
N
66,67
O
33,33
Total
(31,14)

abonnement autre service 2


Taux d'amlioration=0,0112

<=101,935
Noeud 5
Catgorie
%
N
91,19
O
8,81
Total
(66,78)

>101,935

n
176
17
193

Noeud 6
Catgorie
%
n
N
83,33
5
O
16,67
1
Total
(2,08) 6

n
60
30
90

nb achats
Taux d'amlioration=0,0054

<=55,5
Noeud 9
Catgorie
%
N
65,52
O
34,48
Total
(20,07)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

>55,5

n
38
20
58

Noeud 10
Catgorie
%
N
68,75
O
31,25
Total
(11,07)

18

n
22
10
32

Mthodes de slection

Pas pas : Ascendante ( forward )

aucune variable au dpart : on ajoute 1 1 celles qui


contribuent le plus au modle (en un sens pouvant varier
selon les cas : R, maximum de vraisemblance)

Pas pas : Descendante ( backward )

toutes les variables au dpart : on rejette 1 1 celles qui


sont insuffisamment corrles la cible et contribuent le
moins au modle

Pas pas : Mixte ( stepwise )

comme Ascendante , mais on peut retrancher une


variable chaque tape si son pouvoir discriminant est
contenu dans une combinaison des nouvelles variables

Globale : Algorithme de Furnival et Wilson (si 2 groupes)

cherche ajuster le R en comparant une partie de tous les


modles possibles (limine les moins intressants a priori)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

19

Validation des modles

Etape trs importante car des modles peuvent :

donner de faux rsultats (donnes non fiables)


mal se gnraliser dans lespace (autre chantillon) ou le
temps (chantillon postrieur)
sur-apprentissage

tre peu efficaces (dterminer avec 2 % derreur un


phnomne dont la probabilit dapparition = 1 % !)
tre incomprhensibles ou inacceptables par les utilisateurs
souvent en raison des variables utilises

ne pas correspondre aux attentes

matrices de confusion, courbes ROC, de lift, et indices


associs

Principaux outils de comparaison :

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

20

Matrice de confusion
valeur prdite 

valeur relle 
A

1800

200

300

1700

TOTAL

TOTAL

4000

Taux derreur = (200 + 300) / 4000 = 12,5 %


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

21

QPRESS

Pour vrifier que le % dindividus correctement classs


est significativement meilleur que par un classement
alatoire, on calcule la quantit suivante :

QPRESS

(
n (c k ))
=
n (k 1)

n = taille chantillon
k = nb de groupes
c = nb dindividus bien classs

valeur critique : 10,8 0,1 % - 6,63 1 % - 3,84 5 %

QPRESS suit un 1 degr de libert


Ici on a : QPRESS = (4000 - 7000)/4000 = 2250
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

22

Sensibilit et spcificit

Pour un score devant discriminer un groupe A (les positifs

; ex : les risqus) par rapport un autre groupe B (les


ngatifs ; ex : les non risqus), on dfinit 2 fonctions du
seuil de sparation s du score :

sensibilit = (s) = Proba(score s / A) = probabilit de


bien dtecter un positif
spcificit = (s) = Proba(score < s / B) = probabilit de
bien dtecter un ngatif

Pour un modle, on cherche s qui maximise (s) tout en


minimisant les faux positifs 1 - (s) = Proba(score s / B)

faux positifs : ngatifs considrs comme positifs cause du


score

Le meilleur modle : permet de capturer le plus possible


de vrais positifs avec le moins possible de faux positifs

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

23

1,0

Courbe ROC

,8

Source de la courbe
,5

La courbe ROC

,3

Ligne de rfrence
arbre de dcision
analys discriminante

(receiver operating characteristic)


0,0

rgress. logistique

sur laxe Y : sensibilit = (s) 0,0 ,3 ,5


,8
1,0
sur laxe X : 1 - spcificit = 1 - (s)
proportion y de vrais positifs en fonction de la proportion x de

faux positifs, lorsque l'on fait varier le seuil s du score


Exemple : si la courbe ROC passe par le point (0,3;0,9), ce point
correspond un seuil s qui est tel que : si on considre risqus
tous les individus dont le score s, on a dtect :
30% de faux risqus (30% des non-risqus ont un score s :
ce sont les faux positifs)
90 % de vrais risqus (90 % des risqus ont un score s : ce
sont les vrais positifs)
NB : 0,3 ne correspond pas 30 % de la population totale !

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

24

Exemple de courbe ROC

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Interprtation de la courbe ROC


seuil s minimum :
tous classs en +

taux de vrais positifs

prdiction parfaite

seuil s maximum :
tous classs en -

prdiction nulle
taux de faux positifs

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

26

Matrice de confusion et courbe ROC


Tableau de classementa

Prvu
CHD
Observ
CHD

0
0
1

1
45
16

Pourcentage global

12
27

Pourcentage
correct
78,9
62,8
72,0

a. La valeur de csure est ,500

Sensibilit = 27/43 = 0,63


Seuil 0,5 (= csure de
la matrice de confusion)

1 - Spcificit = 1-(45/57) = 0,21

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

27

Matrice de confusion (avec SAS)


Table de classification
Correct
Niveau de
prob.

Incorrect

vnement

Nonvnement

0.000

57

0.100

Pourcentages

vnement

Nonvnement

Spcificit

POS
fausse

NEG
fausse

Correct

Sensibilit

43

57.0

100.0

0.0

43.0

57

42

58.0

100.0

2.3

42.4

0.0

0.200

55

36

62.0

96.5

16.3

39.6

22.2

0.300

51

19

24

70.0

89.5

44.2

32.0

24.0

0.400

50

25

18

75.0

87.7

58.1

26.5

21.9

0.500

45

27

16

12

72.0

78.9

62.8

26.2

30.8

0.600

41

32

11

16

73.0

71.9

74.4

21.2

33.3

0.700

32

36

25

68.0

56.1

83.7

17.9

41.0

0.800

24

39

33

63.0

42.1

90.7

14.3

45.8

51

48.0

10.5

97.7

14.3

54.8

57

43.0

0.0

100.0

57.0

prdit0.900

1.000
Observ


total
06/12/2009

42

1
1 total

43

45

12

57

16

27

43

61

39

100

Correct = (45 + 27) / 100 = 72 %


Sensibilit = 45 / 57 = 78,9 %
Spcificit = 27 / 43 = 62,8 %
POS fausse = 16 / 61 = 26,2 %
NEG fausse = 12 / 39 = 30,8 %

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

Courbes ROC avec entre


progressive des variables du modle
Sensi bi l i t
1. 0

7e variable
0. 9
0. 8
0. 7

1re variable

0. 6
0. 5
0. 4

0. 3
0. 2
0. 1
0. 0
0. 0

0. 1

0. 2

0. 3

0. 4

0. 5

0. 6

0. 7

0. 8

0. 9

1. 0

1 - Spci f i ci t

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

29

AUC : Aire sous la courbe ROC

Aire AUC sous la courbe ROC = probabilit que score(x)

> score(y), si x est tir au hasard dans le groupe A (


prdire) et y dans le groupe B
1re mthode destimation : par la mthode des trapzes
2e mthode destimation : par les paires concordantes

soit n1 (resp. n2) le nb dobservations dans A (resp. B)


on sintresse aux n1n2 paires formes dun x dans A et
dun y dans B
parmi ces t paires : on a concordance si score(x) >
score(y) ; discordance si score(x) < score(y)
soient nc = nb de paires concordantes ; nd = nb de paires
discordantes ; n1n2 - nc - nd = nb dex aequo
aire sous la courbe ROC (nc + 0,5[t - nc - nd]) / n1n2

U = n1n2(1 AUC) ou n1n2AUC

3e mthode quivalente : par le test de Mann-Whitney


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

30

AUC : calcul avec SAS


ODS OUTPUT WilcoxonScores = wilcoxon;
PROC NPAR1WAY WILCOXON DATA=&data
CORRECT=no;
CLASS &cible;
VAR &score;
RUN;

U est la statistique de Mann-Whitney,


qui se dduit des effectifs ni et de la
somme des rangs Ri fournis par la proc
NPAR1WAY de SAS

DATA auc;
SET wilcoxon;
n2 = N; R2 = SumOfScores ;
n1 = LAG(N); R1 = LAG(SumOfScores) ;
u1 = (n1*n2) + (n1*(n1+1)/2) - R1 ;
u2 = (n1*n2) + (n2*(n2+1)/2) - R2 ;
u = MIN(u1,u2);
AUC = ROUND(1- (u/(n1*n2)),0.001);
RUN;

n (n + 1)
n (n + 1)

U = minn1n2 + 1 1
R1 , n1n2 + 2 2
R2
2
2

nb de fois o un score du groupe 1 >


un score du groupe 2

PROC PRINT DATA=auc (KEEP = AUC) ;


TITLE "Aire sous la courbe ROC de &data";
WHERE AUC > .;
Obs Class N
SumOfScores
RUN;

06/12/2009

n2

R2

n1

R1

U1

U2

AUC

711

1038858.0

711

1038858

1490

1384443.0

1490

1384443

711

1038858

273648

785742

273648

0.74169

Stphane Tuffry - Data Mining - http://data.mining.free.fr

31

Utilisation de lAUC

Le

modle est d'autant meilleur que lAUC est plus


proche de 1
Si l'AUC = 0,5 : modle pas meilleur qu'une notation
alatoire. Il existe un intervalle de confiance sur
lAUC et un test associ :
Variable(s) de
rsultats tests
arbre de dcision
rgression logistique
analyse discriminante

Zone
,887
,906
,889

Erreur Std.
,008
,007
,008

Signif.
b
asymptotique
,000000
,000000
,000000

Intervalle de confiance
95% asymptotique
Borne
Borne
infrieure
suprieure
,872
,902
,892
,921
,873
,904

a. Dans l'hypothse non-paramtrique


b. Hypothse nulle /: zone vraie = 0.5

Permet de comparer des modles de types diffrents


sur tout chantillon
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

32

Courbe de lift

La courbe de lift :

sur laxe Y : on a la sensibilit = (s) = Proba(score s / A)


sur laxe X : on a Proba(score s)
proportion y de vrais positifs en fonction des individus
slectionns, lorsque l'on fait varier le seuil s du score
mme ordonne que la courbe ROC, mais une abscisse
gnralement plus grande
> la courbe de lift est gnralement
sous la courbe ROC
100

Trs utilise en marketing

% d'individus rpondants

90

ciblage alatoire

80

ciblage par scoring

70

ciblage idal

60
50
40
30

Lift = 40/10 = 4

20
10
0
0

25

50

75

100

% d'individus cibls

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

33

Lien entre courbe de lift et ROC

Relation entre laire AUL sous la courbe de lift et laire AUC :

AUC AUL = p(AUC 0,5)  AUL = p/2 + (1 p)AUC


o p = Proba(A) = probabilit a priori de lvnement dans la
population

Cas particuliers :

AUC = 1 AUL = p/2 + (1 p) = 1 p/2


AUC = 0,5 AUL = p/2 + 1/2 p/2 = 0,5
p petit AUC et AUL sont proches
AUC1 > AUC2  AUL1 > AUL2

Ces indicateurs sont des critres universels de comparaison


de modles

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

34

Technique de prdiction :

La rgression linaire

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

35

Cadre du modle linaire

Dans le modle simple : X et Y deux variables continues


Les valeurs xi de X sont contrles et sans erreur de

mesure
On observe les valeurs correspondantes y1, , yn de Y
Exemples :

X peut tre le temps et Y une grandeur mesure


diffrentes dates
Y peut tre la diffrence de potentiel mesure aux bornes
dune rsistance pour diffrentes valeurs de lintensit X du
courant

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

36

Hypothse fondamentale du modle linaire

X et Y ne sont pas indpendantes et la connaissance de X

permet damliorer la connaissance de Y


Savoir que X = x permet rarement de connatre
exactement la valeur de Y, mais on suppose que cela de
connatre la valeur moyenne E(Y|X=x), lesprance
conditionnelle de Y sachant que X = x
On suppose plus prcisment que E(Y|X=x) est une
fonction linaire de x, ce qui permet dcrire

E(yi) = + xi pour tout i = 1, , n


yi = + xi + i, avec E(i) = 0 pour tout i = 1, , n
n = nb dobservations et i = rsidu de lobservation i

Rgression linaire multiple :

Y = 0 + 1X1 + + kXk +
important : on suppose lindpendance linaire des Xi

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

37

Autres hypothses du modle linaire

La

variance des rsidus est la mme pour toutes les


valeurs de X (homoscdasticit)

V(i) = s

cov(i,j) = 0 i j

i ~ N(0,s)

Les rsidus sont linairement indpendants


Les rsidus sont normalement distribus

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

38

La composante stochastique

Lexistence de la composante stochastique (i) correspond


au fait que :

des individus avec mme valeur xi peuvent avoir des


rponses Y diffrentes (variation synchronique)
OU un mme individu mesur plusieurs reprises avec la
mme valeur xi peut avoir des rponses Y diffrentes
(variation diachronique)

On a quivalence de i ~ N(0,s) et Y/X=xi ~ N( + xi,s)


Cette hypothse de normalit classe la rgression linaire

dans la famille des modles linaires gnraux (GLM)


Dans les modles linaires gnraliss, la loi de Y/X=xi
nest plus ncessairement normale

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

39

Que signifie la variance des estimateurs ?

Aprs avoir postul lexistence dune relation E(Y) = +


X, on recherche des estimateurs a et b de et

On natteint jamais les vritables coefficients et car :

le modle linaire nest le plus souvent quune


approximation de la ralit
on ne travaille que sur des chantillons et non la population
entire
on commet des erreurs de mesure

Des

modles sur des chantillons diffrents donneront


des estimateurs a et b diffrents
Do une variance des estimateurs a et b

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

40

Mthode des moindres carrs


ordinaires (MCO)

On recherche des estimateurs a


et b de et qui minimisent
les rsidus i= (Yi - i), o i
est prdit par la droite = a +
bX
Lestimateur b de la pente est :

( x x )( y y ) cov( X ,Y )
b=
=

( x x )
i

b = Y/X
Yi

Y
i

Lestimateur a de la constante
vaut :

a = y - b.x

La droite = a + b.X ajuste le


nuage de points

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

41

Proprits des estimateurs MCO

Les estimateurs MCO des coefficients ont :

une moyenne : E(a) et E(b)


une variance :
constante : a= s [1/n +x / (xi -x)]
avec : s = variance des rsidus
> IC au niveau 100(1-)% = a t/2,n-p-1. a
pente : b = s [1/ (xi -x)]
> IC au niveau 100(1-)% = b t/2,n-p-1. b

La mthode MCO est optimale car :

les estimateurs sont sans biais : E(a) = et E(b) =


de variance minimale parmi tous les estimateurs linaires
on dit quils sont BLUE : best linear unbiased estimators

Hypothse de normalit i ~ N(0,s) les estimateurs


sont de variance minimale parmi tous les estimateurs

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

42

Consquence des formules de variance

Pour diminuer les variances :

diminuer la variance rsiduelle s de lchantillon


augmenter la taille n de lchantillon
augmenter ltendue des valeurs observes de X

Mais

: on accepte parfois (rgression ridge) des


estimateurs lgrement biaiss pour diminuer leur
variance

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

43

Coefficients de rgression et tests


Coefficientsa

Modle
1

(cons tante)
TEMPERAT
ISOLATIO

Coefficients non
s tandardis s
Erreur
B
s tandard
1467,643
62,422
-37,060
2,295
-29,774
3,492

Coefficients
s tandardis s
Bta
-,866
-,457

t
23,512
-16,147
-8,526

Signification
,000
,000
,000

a. Variable dpendante : CONSOMMA

Valeur des
coefficients

cart-type des
estimateurs

Coefficients
comparables
entre eux

Statistique t
de Student

Une valeur t > 2 ou t < - 2 est significative 95 % dun coeff 0


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

44

Sommes des carrs


somme des carrs rsiduels

somme des carrs totale

2
SCE = ( yi y i )

yi

SCT = ( yi y )

somme des carrs dus la rg.


2
SCR = ( y i y )
i

xi
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

45

Test global du modle


ANOVAb
Modle
1

Somme
des carrs
Rgress ion 3267046,7
Rs idu
116727,068
Total
3383773,7

ddl
2
12
14

Carr moyen
1633523,333
9727,256

F
167,933

Signification
,000 a

a. Valeurs prdites : (cons tantes ), ISOLATIO, TEMPERAT

SCR

2 prdicteurs rgression
linaire multiple
= somme des carrs Rgression

SCE

= somme des carrs Erreurs

= nombre de variables

= nombre dobservations

b. Variable dpendante : CONSOMMA

SCR
p
F=
SCE
n p 1
suit une loi F de ddl (p,n-p-1)
sous lhypothse nulle (H0) :
(b1 = b2 = 0)
06/12/2009

R = SCR / SCT = 1 (SCE / SCT)

variance s du terme derreur = 98,627

Stphane Tuffry - Data Mining - http://data.mining.free.fr

46

Coefficient de dtermination

R2 = SCR / SCT
R2 = proportion de variation de la variable cible

explique par tous les prdicteurs (syn : rgresseurs)


Bon ajustement si R proche de 1
R2 est biais (optimiste car croissant avec le nb de
variables) et on lui substitue le R ajust :

(
1 R )(n 1)
R ajust = 1
2

n p 1
R ajust est toujours < R et peut tre < 0
Modle
1

R
,983 a

R-deux
,966

R-deux ajus t
,960

Erreur s tandard
de l'es timation
98,627

a.
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

47

Intervalles de confiance

0 = a + bx0 est une prvision de Y et de la moyenne E(Y)

en tout point x0 de lintervalle de mesure (car E(i) = 0)


Daprs les formules sur les variances des estimateurs, les
IC (100-) % de E(Y) et Y au point X0 sont :

0 t/2,n-p-1. s [1/n + (x0 -x) / (xi -x)]1/2 pour E(Y)


0 t/2,n-p-1. s [1 + 1/n + (x0 -x) / (xi -x)]1/2 pour Y
(on a ajout la variance du terme derreur)

Autrement dit, la variance de la valeur prdite pour une


observation est :

s [1 + 1/n + (x0 -x) / (xi -x)]

>Plus difficile destimer une valeur possible de Y sachant

X=x0 que la moyenne des valeurs possibles sachant X=x0


>LIC augmente quand x0 s loigne dex
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

48

IC de la moyenne et des observations

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

49

Prcautions dutilisation

Le modle nest valide que sur ltendue des observations,

et surtout prs de la moyenne de X


Un petit chantillon (< 20) ne dtecte que les relations
fortes ; un grand dtecte toutes les relations mme faibles
(rejet de H0 malgr petit R)
Minimum de 5 observations (mieux vaut en avoir > 15)
Attention aux rsidus standardiss (rsidu / s) > 3
Pour savoir si les extrmes ont une influence : les enlever et
voir les coeff. restent dans les IC des coeff. initiaux
Attention aux distances de Cook > 1

la distance de Cook dune observation i mesure lcart des


coefficients avec et sans cette observation

Rgression multiple : vrifier labsence de multicolinarit


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

50

Analyse des rsidus


Vrification du respect des hypothses de base

Test dautocorrlation

(statistique de DurbinWatson comprise entre 1,5 et


2,5)
Test dhomoscdasticit
(galit de la variance en
fonction de y)
Test de normalit (test de
Kolmogorov)
Vrification dabsence de
points extrmes
Un diagramme des rsidus
est souvent trs parlant

06/12/2009

Les rsidus standardiss doivent


tre rpartis alatoirement
autour de 0 et rester dans les
bornes [-3 ; +3]

Stphane Tuffry - Data Mining - http://data.mining.free.fr

51

Problme 1 : Autocorrlation des


rsidus
rsidus = Y -

rsidus positifs

rsidus ngatifs

Corrlation entre i et i+1 les valeurs moyennes de Y sont


sur-estimes ; les autres sont sous-estimes
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

52

Problme 2 : Htroscdasticit des


rsidus
rsidus = Y -

rsidus positifs

rsidus ngatifs

Appliquer le test de Levene en regroupant en classes les


valeurs de Y
Estimation prcise de Y en fonction de X lorsque Y est petit ;
grande incertitude quand Y est grand
remplacer Y par son log, son inverse ou sa racine carre
(ou par le carr ou lexponentielle quand la variance diminue)

ou utiliser la Stphane
mthode
carrs pondrs
Tuffrydes
- Datamoindres
Mining - http://data.mining.free.fr

06/12/2009

53

Homoscdasticit et autocorrlation
des rsidus

Utiliser un diagramme des rsidus pour vrifier

lhomoscdasticit et labsence dautocorrlation


Statistique de Durbin-Watson pour lautocorrlation :

= (i - i-1) / i
vaut entre 0 et 4
proche de 2 si pas dautocorrlation (OK entre 1,5 et 2,5)
< 2 pour des corrlations positives
> 2 pour des corrlations ngatives

R
,983 a

R-deux
,966

R-deux ajus t
,960

Durbin-Wats on
1,819

a.
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

54

Normalit des rsidus

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

55

Utilit des tests sur les rsidus 1/3

Exemple tir de :

Tomassone, Lesquoy, Millier : La Rgression nouveaux


regards sur une ancienne mthode statistique, 1986
Anscombe F.J. : Graphs in Statistical Analysis, 1973

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

56

Utilit des tests sur les rsidus 2/3

Dans les 5 rgressions : mmes sommes de carrs, mme


variance rsiduelle, mme F-ratio, mmes R, mme droite
de rgression, mmes carts-types des coefficients
Analyse de variance
Source

DF

Somme des
carrs

Carr
moyen

Model

234.6

234.6

Error

14

145.4

10.4

Corrected Total

15

380.1

Valeur F

Pr > F

22.6

0.0003

Root MSE

3.22

R-Square

0.62

Dependent Mean

12.60

Adj R-Sq

0.59

Coeff Var

25.60

Rsultats estims des paramtres

06/12/2009

Variable

D
F

Rsultat
estim
des
paramtres

Intercept

0.52

0.81

Erreur
std

Valeur du
test t

Pr > |t|

Tolrance

Inflation
de variance

2.67

0.20

0.8476

0.17

4.75

0.0003

1.00

1.00

Stphane Tuffry - Data Mining - http://data.mining.free.fr

57

Utilit des tests sur les rsidus 3/3


yb
18

ya
22
21

17

20

16

19

15

Et
pourtant !

18
17
16
15

14
13
12
11

14

10

Les
situations
sont bien
diffrentes

13
12
11
10
9
8
7
6

9
8
7
6
5
4
3
2

0
7

10

11

12

13

14

15

16

17

18

19

20

21

22

23

yc
30

10

11

12

13

14

15

16

17

18

19

20

21

22

23

16

17

18

19

20

21

22

23

yd
20
19
ye
30

18
17
16
15

20

20

14
13
12
10

11
10
9

10

0
13

14

15

16

17

18

19

20

21

22

23

24

xe

25

26

27

28

29

30

31

32

33

34

7
6
5
4
3

0
7

10

11

12

13

14

15
x

06/12/2009

16

17

18

19

20

21

22

23

10

11

12

13

14

15
x

Stphane Tuffry - Data Mining - http://data.mining.free.fr

58

Rgression 1 :

Durbin-Watson D

2.538

Number of Observations

16

1st Order Autocorrelation

-0.277

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

59

Rgression 2 :

Forte autocorrlation positive !


Durbin-Watson D

0.374

Number of Observations

16

1st Order Autocorrelation

0.595

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

60

Rgression 3 :

Durbin-Watson D

1.289

Number of Observations

16

1st Order Autocorrelation

-0.015

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

61

Rgression 4 :

Durbin-Watson D

1.821

Number of Observations

16

1st Order Autocorrelation

-0.094

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

62

Rgression 5 :

Durbin-Watson D

0.310

Number of Observations

16

1st Order Autocorrelation

0.723

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

63

Attention la multicolinarit

Multicolinarit = plusieurs variables explicatives

(fortement) corrles entre elles.


Cela entrane :

des coefficients de rgression trs sensibles aux fluctuations


mme faibles des donnes
des carts-types levs pour les coefficients de rgression
une dgradation de la prcision des prvisions

Mesure par :

tolrance Xi = 1 - (coefficient de dtermination de la


rgression de Xi sur les autres variables)
doit tre > 0,2

VIF = 1 / tolrance
doit tre < 5

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

64

Attention la multicolinarit

Autre mesure possible : les indices de conditionnement


de la matrice des corrlations

Modle
1

on a multicolinarit modre (resp. forte) si prsence


dindices k > 10 (resp. 30)
on regarde si on peut relier la valeur propre
correspondante une forte contribution (> 50 %) de la
composante la variance de 2 ou plusieurs variables

Dimens ion
1
2
3

06/12/2009

Valeur propre
2,145
,766
,089

Indice de
condition
nement
1,000
1,673
4,915

Proportions de la variance
(cons tante) TEMPERAT ISOLATIO
,03
,07
,03
,02
,92
,02
,95
,01
,95

Stphane Tuffry - Data Mining - http://data.mining.free.fr

65

Effets de la multicolinarit

X1 et X2 presque colinaires => coefficients de la


rgression trs sensibles de petites variations de Y

Petite
variation
de Y

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

66

Solutions la multicolinarit

Suppression des variables concernes


accepter de baisser un peu R pour baisser la multicolinarit
Transformation (logarithme) des variables concernes
Rgression biaise (ridge)
lerreur quadratique de lestimation de la pente de la rgression =
variance_estimateur + (biais_estimateur), do une erreur
quadratique avec biais < erreur sans biais si le biais est
compens par une faible variance
Rgression sur composantes principales
passer ensuite des coefficients de rgression des composantes
principales ceux des variables initiales
Rgression PLS (Partial Least Squares)
utilisable mme si : nb observations << nb variables
on dmontre (De Jong, 1993) que la rgression PLS sur k
composantes est toujours plus prdictive que la rgression sur les k
premires composantes principales

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

67

Technique de prdiction :

La rgression PLS

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

68

La mthode Partial Least Squares

Cest une mthode qui se juxtapose dautres mthodes

de rgression (linaire, logistique, analyse discriminante)


Utile en prsence dun grand nombre de variables
prsentant de la colinarit ou des valeurs manquantes
Algorithme simple (suite de rgressions simples, sans
inversion ni diagonalisation de matrices) efficace sur
de grands volumes de donnes
Utilisation en chimie, industrie ptrolifre, cosmtique,
biologie, mdecine, agroalimentaire

en cosmtique : conserver tous les ingrdients dun


produit trs nombreuses variables explicatives
en agroalimentaire (analyse sensorielle) : expliquer le
classement dun produit par plusieurs dgustateurs
(variable Y), en fonction de ses proprits (jusqu
plusieurs centaines) physico-chimiques et de saveur

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

69

Principe de la rgression PLS

Rgression PLS invente par Herman et Svante Wold

(1983)
On a Y variable expliquer et Xi variables explicatives
Le choix des variables transformes rsulte dun
compromis entre :
maximisation de la variance des Xi (ACP)
maximisation de la corrlation entre Xi et Y (rgression)
donc : on cherche les combinaisons linaires Tj des Xi
maximisant cov(Tj,Y) = r(Tj,Y).var(Tj).var(Y)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

70

Etape 1 de la rgression PLS

On cherche une combinaison T1 = i 1iXi des Xi qui

maximise la variance de T1 et la corrlation entre T1 et Y


 maximiser cov(T1,Y) = r(T1,Y).var(T1).var(Y)
La solution est 1i = cov(Y,Xi)
en normant ||(11,, 1p)|| = 1

on a donc T1 = i cov(Y,Xi).Xi

La rgression de Y sur T1 donne un rsidu Y1 :

Y = c1T1 + Y1

Xi = c1iT1 + X1i

La rgression de Xi sur T1 donne aussi des rsidus X1i :


On ritre en remplaant Y par Y1 et les Xi par les X1i
tape 2
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

71

Etape 2 de la rgression PLS

On rpte la mme opration en remplaant Y par son

rsidu Y1 et les Xi par leurs rsidus X1i


On obtient une combinaison T2 = i 2iXi en normant
||(21,, 2p)|| = 1
Puis on rgresse Y1 sur T2 et les X1i sur T2 : on obtient des
rsidus Y2 et X2i

Y1 = c2T2 + Y2
X1i = c2iT2 + X2i

On ritre jusqu ce que le nb de composantes Tk donne

un rsultat satisfaisant (vrifi par validation croise)


A la fin, on a :

Y = c1T1 + Y1 = c1T1 + c2T2 + Y2 = j cjTj + rsidu

Et on remplace cette expression par une expression de la


rgression de Y en fonction des Xi

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

72

Choix du nombre de composantes 1/2

On procde gnralement par validation croise


On se place ltape h et on veut dcider de conserver ou

non la composante h
On calcule la somme des carrs rsiduels (REsidual Sum of
Squares), comme en rgression linaire :
RESSh = k(y(h-1),k- (h-1),k)
o (h-1),k = chth,k = prvision de y(h-1),k calcule pour chaque
observation k

Ensuite, les observations sont partages en G groupes, et


on ralise G fois ltape courante de lalgorithme PLS sur
Yh-1 et les Xh-1,i en tant chaque fois un groupe

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

73

Choix du nombre de composantes 2/2

Puis on calcule la somme prdite des carrs rsiduels

(Predicted REsidual Sum of Squares) PRESSh


Analogue la prcdente mais qui vite le surapprentissage en remplaant la prvision (h-1),k par la
prvision (h-1),-k dduite de lanalyse ralise sans le groupe
contenant lobservation k
PRESSh = k(y(h-1),k - (h-1),-k)
On retient la composante h si : PRESSh .RESSh-1
2
(
y

y
)
en posant RESS0 = i
Souvent : on fixe = 0,95 si n < 100, et = 1 si n 100

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

74

Nombre de composantes PLS

Cette slection par validation croise permet de retenir


un nombre de composantes :

suffisamment grand pour expliquer lessentiel de la


variance des Xi et de Y
suffisamment petit pour viter le sur-apprentissage

En pratique le nombre de composantes dpasse


rarement 3 ou 4

Notons galement que la rgression PLS sur k

composantes est toujours plus prdictive que la


rgression sur les k premires composantes principales

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

75

Gnralisations de la rgression PLS

Rgression PLS2 dveloppe pour prdire plusieurs Yj


simultanment

on peut avoir nb(Yj) >> nb observations

Rgression logistique PLS dveloppe par Michel


Tenenhaus (2000)

algorithme analogue au prcdent

Et rgression logistique sur composantes PLS, quivalente


la rgression logistique PLS mais plus simple :

on commence par une rgression PLS de lindicatrice de Y sur


les Xi (ou des indicatrices de Y, si Y a plus de 2 modalits)
on obtient k composantes PLS (ventuellement : k = 1)
puis on effectue une rgression logistique de Y sur les
composantes PLS

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

76

Technique de prdiction :

La rgression robuste

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

77

Rgression robuste

Mthodes valides quand les rsidus des observations ne


suivent pas une loi normale

Peu sensibles aux outliers


De plus en plus rpandues dans les logiciels statistiques

SAS, R, S-PLUS, STATA

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

78

Algorithmes de rgression robuste

Moindres mdianes de carrs


Moindres carrs winsoriss (least winsored squares)

remplacement des x centiles extrmes par Qx

suppression des x centiles extrmes

par linverse de la variance de la variable expliquer, pour


compenser lhtroscdasticit, en posant par ex. pi = s/si
au voisinage dun point xi

Moindres carrs crts (least trimmed squares)


Moindres carrs pondrs

Moindres carrs localement pondrs sur les voisins (LOESS)


Doubles moindres carrs
Rgression spline
Mthode du noyau
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

79

Autres algorithmes de rgression

Moindres valeurs absolues

x x
i

Rgression polynomiale
Rgression sur variables qualitatives par codage optimal
(moindres carrs alterns)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

80

Influence des rsidus


100
Moindres carrs

Influence

80
60

Moindres
valeurs absolues

40

Winsoriss

20

Ecrts

0
-10
06/12/2009

Rsidus

10

20

Stphane Tuffry - Data Mining - http://data.mining.free.fr

81

Principe de la rgression LOESS

Pour chaque point x : on prend les n voisins

le nombre n est choisi pour reprsenter un certain % de


lensemble des points
ce % est appel paramtre de lissage ( smoothing
parameter )
il existe des critres pour le choix de ce paramtre

On pondre chacun de ces n points selon une fonction

dcroissante de leur distance x


On calcule la rgression pondre sur les n voisins pour
prdire x
LOESS utilisable avec plusieurs rgresseurs
Initiateur : Cleveland (1979)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

82

Exemples de rgressions LOESS

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

83

Technique de classement :

Analyse discriminante

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

84

Deux problmatiques

Situation

: on a un ensemble dindividus appartenant


chacun un groupe, le nb de groupes tant fini et > 1

Analyse

discriminante descriptive : trouver une


reprsentation des individus qui spare le mieux les
groupes

Analyse

discriminante prdictive : trouver des rgles


daffectation des individus leur groupe

Lanalyse

discriminante offre une solution ces deux


problmatiques

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

85

Autre formulation

Situation : on a un ensemble dindividus caractriss par


une variable expliquer Y qualitative et des variables
explicatives Xi quantitatives

Analyse

discriminante descriptive : trouver


reprsentation des liaisons entre Y et les Xi

une

Analyse discriminante prdictive : trouver des rgles de


prdiction des modalits de Y partir des valeurs des Xi

Cette formulation est quivalente la prcdente


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

86

Les diffrentes formes danalyse


discriminante
Mthode descriptive
Mthode prdictive
(reprsenter les groupes) (prdire lappartenance
un groupe)
Approche
gomtrique

Approche
probabiliste
(baysienne)

06/12/2009

Oui

Oui

analyse factorielle discriminante

analyse discriminante linaire

Non

Oui

multinormalit
homoscdasticit
quiprobabilit

analyse discriminante linaire


a. d. quadratique
a. d. non paramtrique
rgression logistique

Stphane Tuffry - Data Mining - http://data.mining.free.fr

87

Technique de classement :

Analyse discriminante
gomtrique

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

88

Lanalyse discriminante gomtrique

Y variable cible qualitative k modalits

correspondant k groupes Gi

Xj p variables explicatives continues


Principe de lanalyse factorielle discriminante : remplacer

les Xj par des axes discriminants : combinaisons


linaires des Xj prenant les valeurs les + diffrentes
possibles pour des individus diffrant sur la variable
cible
Remarquer lanalogie avec lACP
On a k-1 axes (si nb individus n > p > k)
Exemple historique : les iris de Fisher (3 espces 4
variables, longueur et largeur des ptales et des
spales)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

89

Exemple historique : les iris de Fisher


70

80

60

70

50

40

60
30

ESPECE

20

VIRGINICA
VERSICOLOR

SETOSA
0

PE_W

06/12/2009

10

20

30

VIRGINICA

SE_L

PE_L

10

ESPECE

50

VERSICOLOR
SETOSA

40
10

20

30

40

50

SE_W

Stphane Tuffry - Data Mining - http://data.mining.free.fr

90

Illustration de la problmatique
descriptive

Dans lexemple suivant :


laxe x diffrencie bien les
groupes B et C mais
non les groupes A et B
laxe y diffrencie bien les
groupes A et B mais
non les groupes B et C

en revanche laxe z
diffrencie
groupes.

bien

les

trois

z
CCCC
CCCC
CCCC

CCCC

BBBB
BBBB
BBBB
AAAA
AAAA
AAAA

La droite :
z = + 1 spare les B et C
z = - 1 spare les A et B

z est une fonction de score


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

91

Double objectif de lanalyse


factorielle discriminante

Les

n individus forment un nuage de n points dans Rp,


form des k sous-nuages Gi diffrencier
Variance interclasse ( between ) = variance des
barycentres gi ( centrodes ) des classes Gi

B = 1/n ni(gi - g)(gi - g) = matrice de covariance


between

Variance

intraclasse ( within ) = moyenne des


variances des classes Gi

W = 1/n niVi = matrice de covariance within

maximise la variance interclasse sur u : max uBu


minimise la variance intraclasse sur u : min uWu

Thorme de Huygens : B + W = variance totale V


Impossible de trouver un axe u qui simultanment :

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

92

Visualisation du double objectif

Maximum de dispersion interclasse : u parallle au segment


joignant les centrodes
Minimum de dispersion intraclasse : u perpendiculaire laxe
principal des ellipses (on suppose lhomoscdasticit)
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

93

Compromis entre les 2 objectifs

On reformule lobjectif : au lieu de maximiser uBu ou

minimiser uWu, on maximise uBu/uWu


 maximiser uBu/uVu (Huygens)
On montre que :

la solution u est le vecteur propre de V-1B associ la


plus grande valeur propre de V-1B
u vecteur propre de V-1B  u vecteur propre de W-1B, de
valeur propre /1-

On dit que les mtriques V-1

et W-1 sont quivalentes

la mtrique W-1 (de Mahalanobis) est plus utilise par les


Anglo-saxons et les diteurs de logiciels

Distance d de 2 points x et y : d(x,y) = (x-y) W-1(x-y)


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

94

Autre formulation de la solution

ACP du nuage des centrodes gi avec :

mtrique V-1
ou mtrique W-1 quivalente

Ces mtriques correspondent une projection oblique


Sans cette oblicit, il sagirait dune simple ACP mais les
groupes seraient mal spars
mal class sans loblicit

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

95

ACP avec mtrique usuelle et avec W-1


3

Facteur ACP 2

-1

ESPECE
VIRGINICA

-2

VERSICOLOR
-3

SETOSA
-2

-1

1
VIRGINICA
SETOSA

Fonction discriminante 2

meilleure
sparation
avec W-1

0
VERSICOLOR

CIBLE

-1
Barycentres
VIRGINICA

-2

VERSICOLOR
SETOSA

-3
-20

-10

10

Fonction discriminante 1

Facteur ACP 1

sparation imparfaite
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

96

ACP avec mtrique usuelle et avec W-1


Espce

3,00000

Espce

3,00000

SETOSA

SETOSA

VERSICOLOR

VERSICOLOR

VIRGINICA

VIRGINICA

2,00000

Fonction discriminante 2

2,00000

Facteur ACP 2

1,00000

0,00000

1,00000

0,00000

meilleure -1,00000
sparation
-2,00000
avec W-1

-1,00000

-2,00000

-3,00000

-3,00000
-2,00000

-1,00000

0,00000

1,00000

Facteur ACP 1

06/12/2009

2,00000

sparation imparfaite

-10,00000

-5,00000

0,00000

5,00000

10,00000

Fonction discriminante 1

Stphane Tuffry - Data Mining - http://data.mining.free.fr

97

Analyse discriminante prdictive et


fonctions de Fisher

On classe x dans le groupe Gi pour lequel la distance au

centre gi est minimale :


d(x,gi) = (x-gi)W-1(x-gi) = x W-1x 2gi W-1x + gi W-1gi

Minimiser d(x,gi)  maximiser (2gi W-1x - gi W-1gi)


gi W-1gi = i est une constante ne dpendant pas de x
Pour chacun des k groupes Gi, on a une fonction

discriminante de Fisher :
i + i,1X1 + i,2X2 + i,pXp
et on classe x dans le groupe pour lequel la fonction est
maximale

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

98

Exemple des iris de Fisher


Coefficients des fonctions de classement
SETOSA
SE_L
2,35442
SE_W
2,35879
PE_L
-1,64306
PE_W
-1,73984
(Cons tante) -86,30847

CIBLE
VERSICOLOR VIRGINICA
1,56982
1,24458
,70725
,36853
,52115
1,27665
,64342
2,10791
-72,85261 -104,36832

Fonctions discriminantes linaires de Fis her

CIBLE

SETOSA
VERSICOLOR
VIRGINICA

Total

06/12/2009

Effectif
Effectif
Effectif
Effectif

Class e d'affectation pour analys e 1


SETOSA VERSICOLOR VIRGINICA
50
0
0
0
48
2
0
1
49
50
49
51

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Total
50
50
50
150
99

Rgle daffectation dans le cas de 2


groupes

Laspect descriptif est simple (laxe discriminant joint les 2


centrodes) et on sintresse laspect prdictif

On classe x dans le groupe G1 si :


2g1 W-1x - g1 W-1g1 > 2g2 W-1x g2 W-1g2
 (g1-g2) W-1x (g1 W-1g1 - g2 W-1g2) > 0

f(x)

f(x) : fonction de score de Fisher


D de Mahalanobis : d(g1,g2) = (g1-g2) W-1(g1-g2)
W-1(g1-g2) = axe discriminant proportionnel V-1(g1-g2)
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

100

Limite de la rgle gomtrique


daffectation

Rgle gomtrique : affecter chaque individu au groupe dont il est


le + proche (distance de lindividu au centrode du groupe)
ce nest pas trivial car il faut prendre la mtrique W-1 (faire une
projection oblique de x sur laxe discriminant)
A viter si les 2 groupes ont des probabilits a priori ou des
variances diffrentes
g1

g2

Dans ce cas : analyse discriminante quadratique (voir plus loin)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

101

Technique de classement :

Analyse discriminante
probabiliste

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

102

Lapproche probabiliste (baysienne)

Pour tout i k, soient :

P(Gi/x) = proba a posteriori dappartenance Gi sachant x


(connaissant les caractristiques de x, son dossier )
pi = P(Gi) = proba a priori dappartenance Gi (proportion
de Gi dans la population)
fi(x) = P(x/Gi) = densit conditionnelle de la loi de x
connaissant son groupe Gi

Daprs le thorme de Bayes :

P (Gi ) P ( x / Gi )
P (Gi / x) =
P(G j ) P( x / G j )

Rgle de classement baysienne :

on classe x dans le groupe Gi o P(Gi/x) est maximum

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

103

3 possibilits pour estimer P(Gi/x)

En

commenant par calculer P(x/Gi) selon une mthode


paramtrique (on suppose la multinormalit de P(x/Gi)
avec ventuellement galit des i, donc le nb de
paramtres du problme est fini : ADL ou ADQ)
En commenant par estimer P(x/Gi) selon une mthode
non paramtrique (pas dhypothse sur la densit P(x/Gi) :
mthode du noyau ou des plus proches voisins)
Directement par une approche semi-paramtrique
(rgression logistique) o on crit P(Gi/x) sous la forme :
'x+

e
P (Gi / x) =
'x+
1+ e
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

104

1e possibilit : Hypothse de
multinormalit

La densit dune loi multinormale N(i,i) est :


f i ( x) =

1
(2 ) p / 2

1
exp ( x i )' i ( x i )
det( i )
2

Daprs Bayes, maximiser P(Gi/x)  maximiser pifi(x) :


1
1

1
maximum Log ( pi ) ( x i )' i ( x i ) log(det( i ))
i
2
2

>On obtient une rgle quadratique en x


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

105

Multinormalit

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

106

Hypothse dhomoscdasticit

Sous cette hypothse, on a : 1 = 2 = = k =


On classe x dans le groupe Gi pour avoir :
1
1

1
maximum Log ( pi ) x' x i ' 1 i + x ' 1 i )
i
2
2

a priori
Les probabilits
Soit, puisque x-1x est indpendant de i : ne changent quune
constante additive

1
1
maximum Log ( pi ) i ' i + x' i )
i
2

ai
Homoscdasticit (+ multinormalit)
=> on passe dune
fonction quadratique une fonction linaire

Avec en + lquiprobabilit => on a quivalence des rgles


gomtrique (maximiser la fct de Fisher) et baysienne

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

107

Homoscdasticit

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

108

Cas de 2 groupes
(hypothses de multinormalit et homoscdasticit)

Probabilit dappartenance au groupe 1 :


1

p1 exp ( x 1 )' 1 ( x 1 )
2

P (G1 / x) =
1

1
1
p1 exp ( x 1 )' ( x 1 ) + p2 exp ( x 2 )' ( x 2 )
2

1
p2
1
1

1
1
= 1+
exp ( x 1 )' ( x 1 ) + ( x 2 )' ( x 2 )
P (G1 / x)
p1
2
2

On peut crire 1/P(G1/x) = 1 + (p2/p1)e-f(x)

avec f(x) = (x-1)-1(x-1) - (x-2)-1(x-2)

On classe x dans G1 si P(G1/x) > 0,5


 (p2/p1)e-f(x) < 1  f(x) > log(p2/p1)
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

109

Cas de 2 groupes (suite)

Dveloppons la fonction f(x) :

f(x) = (1- 2) -1x - (1-11 - 2-12)

On reconnat la fonction de score de Fisher


>La rgle baysienne prcdente quivaut la rgle :

fonction de Fisher > log(p2/p1)

qui gnralise la rgle gomtrique f(x) > 0 lorsque les

probabilits a priori p1 et p2 sont diffrentes


De plus, la probabilit a posteriori P(G1/x) scrit :
1
e f ( x)
P (G1 / x) =
=
p 2 f ( x ) p2 f ( x )
+ e
1 + e
p1
p1

Gnralisation de la fonction logistique !


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

110

En rsum :

Avec lhypothse de multinormalit :

La rgle baysienne est quadratique

Avec

les
hypothses
dhomoscdasticit :

de

multinormalit

et

La rgle baysienne est linaire


Dans le cas de 2 groupes, elle scrit f(x) > log(p2/p1), o
f(x) est la fonction de Fisher obtenue par un raisonnement
gomtrique

Avec les hypothses de multinormalit, dhomoscdasticit


et dquiprobabilit :

La rgle baysienne est linaire et quivalente la rgle


gomtrique
Dans le cas de 2 groupes, elle scrit f(x) > 0 et la
probabilit a posteriori P(G1/x) scrit sous la forme
logistique P(G1/x) = 1 / (1 + e-f(x))

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

111

Cots de mauvais classement

On peut introduire des cots derreurs

C(i/j) = cot de classement dans Gi au lieu de Gj


C(i/i) = 0

Cot moyen de classement en Gi = j C(i/j) P(Gj/x)


On classe x dans le Gi qui minimise le cot
Cas de 2 groupes :

Cot moyen dun classement en G1 : C(1/2) P(G2/x)


Cot moyen dun classement en G2 : C(2/1) P(G1/x)
On classe x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

112

An. Discriminante non paramtrique

Daprs Bayes :

pi f i ( x)
P(Gi / x) =
p j f j ( x)
j

Problme destimation de la
densit :

frquence
f i ( x) =
volume

x
x

x
x

x x
x

x
x

Mthodes :

noyau (on fixe le diamtre)


k-plus proches voisins (on
fixe le nb de voisins)

Condition : avoir un
chantillon de grande taille

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

113

D de Mahalanobis

Dfinition : D = d(g1,g2) = (g1 - g2) W-1(g1 - g2)


Le carr D de la distance de Mahalanobis fournit

une
mesure de la distance entre les deux groupes
discriminer, et donc de la qualit de la discrimination
Analogue au R dune rgression
Plus D est grand, mieux cest
On peut faire un test de Fisher sur lhypothse nulle que
tous les centrodes sont gaux
Il peut servir de critre dans une rgression pas pas

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

114

Corrlation canonique = coefficient de corrlation entre


la fonction de score et la moyenne par classe (pour
chaque individu : on prend la moyenne de la fonction
discriminante dans sa classe)

Carr

de la corrlation canonique R = coefficient de


dtermination R = proportion de la variance de la
fonction discriminante explique par lappartenance
lune ou lautre classe discriminer

Autrement dit R = variance interclasse / variance totale

Le but de lanalyse discriminante est de maximiser ce


rapport

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

115

Lambda de Wilks

Lambda de Wilks = variance intraclasse / variance totale

varie entre 0 et 1 (var. totale = var. intra + var. inter)


= 1 => tous les centrodes sont gaux

Plus est bas, mieux cest


Test de Fisher sur le lambda

de Wilks <=> Test de


lhypothse nulle que tous les centrodes sont gaux
Il peut servir de critre dans une rgression pas pas

SE_L
SE_W
PE_L
PE_W

Lambda
de Wilks
,381
,599
,059
,071

F
119,265
49,160
1180,161
960,007

ddl1
2
2
2
2

ddl2
147
147
147
147

Signification
,000
,000
,000
,000

Les groupes diffrent beaucoup sur la longueur des ptales


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

116

Matrice de confusion
Validation croise
Matrice de confusionb,c

Original

Effectif

Valid-croisa

Effectif

CIBLE
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA
SETOSA
VERSICOLOR
VIRGINICA

Classe(s) d'affectation prvue(s)


SETOSA VERSICOLOR VIRGINICA
50
0
0
0
48
2
0
1
49
100,0
,0
,0
,0
96,0
4,0
,0
2,0
98,0
50
0
0
0
48
2
0
1
49
100,0
,0
,0
,0
96,0
4,0
,0
2,0
98,0

Total
50
50
50
100,0
100,0
100,0
50
50
50
100,0
100,0
100,0

a. Dans la validation croise, chaque observation est classe par les fonctions drives de
toutes les autres observations.
b. 98,0% des observations originales classes correctement.
c. 98,0% des observations valides-croises classes correctement.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

117

Rsum des critres statistiques

D de Mahalanobis : test de Fisher


Lambda de Wilks = 1 - R : test de Fisher
Pas
1
2
3
4

Nombre de
variables
1
2
3
4

Lambda
,059
,037
,025
,023

Statistique
1180,161
307,105
257,503
199,145

F exact
ddl1
ddl2
2
147,000
4
292,000
6
290,000
8
288,000

Signification
,000
,000
,000
,000

Matrice de confusion : test Q de Press


Coefficients discriminants standardiss (sur var. centres
rduites)

pour comparer limportance des variables explicatives

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

118

Syntaxe SAS de lanalyse


discriminante
ods rtf file="c:\fisher_sas.doc";
proc stepdisc data=matable.ascorer;
class cible;
var var1 var2 vari; run;
proc discrim data=matable.ascorer method=normal pool=yes
crossvalidate all canonical out=matable.scoree
outstat=matable.destat;
class cible;
priors proportional;
var var1 var2 vari; run;
proc discrim data=matable.destat testdata=matable.test
testout=tout;
class cible;
var var1 var2 vari; run;
ods rtf close ;
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

119

Fichier en sortie OUTSTAT


Obs

cible

_TYPE_

_NAME_

nbproduits

abonnement1

nbenfants

abonnement2

evolconsom

nbsorties

6385.00

6385.00

6385.00

6385.00

6385.00

6385.00

5306.00

5306.00

5306.00

5306.00

5306.00

5306.00

1079.00

1079.00

1079.00

1079.00

1079.00

1079.00

MEAN

8.94

371.28

1.34

23.11

1.16

6.48

MEAN

8.47

281.68

1.38

19.62

1.14

5.96

MEAN

11.23

811.86

1.15

40.28

1.25

9.05

119

LINEAR

_LINEAR_

0.38

-0.00

1.12

-0.00

8.42

0.05

120

LINEAR

_CONST_

-7.50

-7.50

-7.50

-7.50

-7.50

-7.50

121

LINEAR

_LINEAR_

0.48

0.00

0.83

0.01

9.14

0.09

122

LINEAR

_CONST_

-11.27

-11.27

-11.27

-11.27

-11.27

-11.27

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

120

Avantages de lanalyse discriminante

Problme solution analytique directe (inverser W)


Optimale quand les hypothses de non colinarit,

homoscdasticit et multinormalit sont vrifies


Les coefficients des combinaisons linaires constituent
un rsultat relativement explicite
Modlise trs bien les phnomnes linaires
Aptitude dtecter les phnomnes globaux
Ne ncessite pas un gros ensemble dapprentissage
Rapidit de calcul du modle
Possibilit de slection pas pas
Facilit dintgrer des cots derreur de classement
Technique implmente dans de nombreux logiciels

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

121

Inconvnients de lanalyse
discriminante

Ne dtecte que les phnomnes linaires


Ne sapplique pas tout type de donnes (donnes
numriques sans valeurs manquantes)

mais possibilit dutiliser une ACM (mthode DISQUAL)

normaliser les variables


slectionner soigneusement les variables les + discriminantes
liminer les variables colinaires
liminer les individus hors norme
sil reste de lhtroscdasticit, mieux vaut avoir des classes
de tailles comparables
travailler sur des populations homognes

Hypothses contraignantes, et pour sen rapprocher :

il vaut donc mieux pralablement segmenter


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

122

Technique de classement :

La rgression logistique

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

123

La rgression logistique binaire

Y variable cible binaire Y = 0 / 1


Xj p variables explicatives continues, binaires ou qualitatives

p = 1 rgression logistique simple


p > 1 rgression logistique multiple

la variable cible Y est qualitative k modalits


cas particulier : Y ordinale (rgression logistique ordinale)

Gnralisation : rgression logistique polytomique


Pb de rgression : modliser lesprance conditionnelle

E(Y/X=x) = Prob(Y=1/X=x)
sous la forme E(Y/X=x) = 0 + 1X1 + 2X2 + + pXp
Difficult ! Xi continues => terme de droite non born alors
que Prob(Y=1/X=x) [0,1] => il faut le transformer !

en rgression linaire : E(Y/X=x) nest pas borne

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

124

Variable expliquer : discrte ou


continue

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

125

Prdiction dune variable binaire

Cas dune variable x


multinormale : x N(0,1) sur
lensemble des Y=0 et x
N(1,1) sur lensemble des Y=1.
La courbe thorique E(Y/X=x)
est donne par
fN(1,1)(x)/(fN(1,1)(x)+fN(0,1)(x))
o fN(,) est la fonction de
densit de la loi N(,).

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

126

La rgression logistique binaire

Visiblement

la rgression linaire ne convient pas


(distribution des rsidus !)
La figure fait pressentir que ce nest pas une fonction
linaire de 0 + 1X1 + + pXp quil faut appliquer,
mais une courbe en S
Les courbes en S sont courantes en biologie et en
Probabilit d'une maladie cardiaque
pidmiologie
en fonction de l'age

1.0

.8

.6

Prob(Y=1 / X)

.4

.2

0.0
10

20

30

40

50

60

70

AGE

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

127

Age and Coronary Heart Disease (CHD)


(source : Hosmer & Lemeshow - chapitre 1)

CHD = maladie coronarienne (rtrcissement


des artres du muscle cardiaque)

06/12/2009

ID
1
2
3
4
5

AGRP
1
1
1
1
1

AGE
20
23
24
25
25

CHD
0
0
0
0
1

97
98
99
100

8
8
8
8

64
64
65
69

0
1
1
1

Stphane Tuffry - Data Mining - http://data.mining.free.fr

128

La rgression logistique binaire

Ici, difficile de calculer (x) := Prob(Y=1/X=x) car trop peu

de valeurs de Y pour une valeur x donne


On regroupe les valeurs de X par tranches :

proportion des Y = 1 sachant x : meilleur estimateur de la


probabilit que Y = 1 sachant x
procdure de regroupement en classes : classique en scoring !

Tableau des effectifs


de CHD par tranches dge
n
10
15
12
15
13
8
17
10
100

Graphique des proportions


de CHD par tranches dge

CHD
CHD
Mean
.8
absent
present (Proportion)
9
1
0.10
.6
13
2
0.13
9
3
0.25
.4
10
5
0.33
7
6
0.46
.2
3
5
0.63
4
13
0.76
0.0
2
8
0.80
1
2
3
4
5
57
43
0.43
AGEGRP
Stphane Tuffry - Data Mining - http://data.mining.free.fr
Proportion (CHD)

Age Group
20 29
30 34
35 39
40 44
45 49
50 54
55 - 59
60 - 69
Total
06/12/2009

1.0

129

Fonction de lien

On crit donc (x) = Prob(Y=1/X=x) sous la forme :


0 +

( x) =

e
1+ e

jxj
j

0 +

jxj
j

( x)
Log (
) = 0 + 1 x1 + ... + p x p
1 ( x)
Fonction de lien : Logit((x))

Cohrent

avec la rgle baysienne de lanalyse


discriminante et le calcul de la probabilit a posteriori
dans le cas gaussien homoscdastique

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

130

Les diffrentes fonctions de lien


Modle

Fonction de lien

Fonction de transfert

Logit

Log (/ [1 ])

exp(t )
exp( z )
=
dz
2
1 + exp(t ) (1 + exp( z ) )

Probit
(normit)

fonction inverse de la
fonction de rpartition
dune loi normale
centre rduite
Log [ Log(1)]

Log-log

06/12/2009

s (t ) =

z2 / 2

dz

1 exp[ exp(t)]

Stphane Tuffry - Data Mining - http://data.mining.free.fr

131

Similarit des fonctions de transfert


1,2
1
0,8

logit

0,6

loglog
probit

0,4
0,2

4,6

3,8

2,2

1,4

0,6

-0,2

-1

-1,8

-2,6

-3,4

-4,2

-5

coeff (logit)

06/12/2009

coeff (probit)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

132

Logit : odds-ratio dun rgresseur Xi

Mesure lvolution du rapport des probas dapparition de

lvnement Y=1 contre Y=0 (odds = cote des


parieurs) lorsque Xi passe de x x+1. Dans ce cas,
logit((x)) augmente du coefficient i de Xi la cote
(x)/[1 - (x)] est multiplie par exp(i)
Formule gnrale :

( x + 1) /[1 ( x + 1)]
OR =
=e
( x) /[1 ( x)]

Si Xi est binaire 0/1, la formule devient :


P(Y = 1 / X i = 1) / P (Y = 0 / X i = 1)
OR =
= e i
P (Y = 1 / X i = 0) / P (Y = 0 / X i = 0)
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

133

Interprtation du odds-ratio OR

Attention : odds-ratio du risque relatif (x+1)/(x)

sauf si (x) est petit (dtection de phnomne rare)

ex : comparer les hommes (x=1) et les femmes (x=0)

ex : comparer lge 61 et 60, 60 et 59 avec le mme OR ?


Risque de manque de robustesse par manque de donnes
(voir CHD ci-dessus). Non dtection de la non-linarit.

Un seul OR pour X binaire

Un seul OR est plus douteux pour X continue

OR nutiliser sur des variables qualitatives quaprs

dichotomisation (nb indicatrices = nb modalits - 1, en


prenant une modalit comme rfrence)

ex : comparer petites villes et campagne avec un


OR1 et comparer grandes villes et campagne avec
un OR2, car aucune raison davoir OR1 = OR2
indicatrices cres automatiquement par certains logiciels

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

134

Odds-ratio dune variable qualitative

Exemple : comparaison de la probabilit (x) dapparition

dun vnement dans les grandes villes, les petites villes et


la campagne

quand on passe de la modalit de rfrence ( campagne )


la modalit petite ville , la cote (x)/[1 - (x)] est
multiplie par lexponentielle 0,573 de la diffrence des
coefficients B associs la modalit petite ville (B = 0,558) et la modalit de rfrence (B = 0)
autrement dit, la cote (x)/[1 - (x)] de lvnement
(diffrent de sa probabilit (x) !) est presque 2 fois plus
faible dans une petite ville qu la campagne

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

135

Sparation complte des groupes


Historique des itrationsa, b,c,d

Variables dans l'quation

Etape
a
1

X
Y
Constante

B
E.S.
13,184 2237,865
-2,726
441,662
-100,184 21856,781

a. Variable(s ) entres l'tape 1 : X, Y.

06/12/2009

Wald
,000
,000
,000

ddl
1
1
1

Signif.
,995
,995
,996

Coefficients
-2log-vrais
emblance Constante
Itration
X
Etape
1
9,271
-,132
,182
1
2
5,000
-,750
,344
3
2,974
-2,082
,563
4
1,747
-4,940
,908
5
,816
-10,239
1,505
6
,319
-16,448
2,252
7
,121
-22,508
3,017
8
,045
-28,505
3,789
9
,017
-34,483
4,567
10
,006
-40,456
5,349
11
,002
-46,429
6,131
12
,001
-52,401
6,914
13
,000
-58,374
7,698
14
,000
-64,346
8,481
15
,000
-70,319
9,265
16
,000
-76,292
10,049
17
,000
-82,265
10,833
18
,000
-88,238
11,617
19
,000
-94,211
12,400
IC
20pour Exp(B) 95,0%
,000
-100,184
13,184

Exp(B)a. Mthode
Infrieur
: Entre Suprieur
531846,3
,000
.
b. La cons tante est incluse dans le modle.
,065
,000
.
c. -2log-vrais emblance initiale : 27,726
,000

Y
-,071
-,119
-,172
-,237
-,339
-,478
-,629
-,785
-,944
-1,105
-1,267
-1,429
-1,591
-1,753
-1,915
-2,077
-2,239
-2,401
-2,564
-2,726

d. L'estimation a t interrompue au numro


d'itration 20 parce que le nombre maximal
d'itrations a t atteint. Solution finale
introuvable.

Stphane Tuffry - Data Mining - http://data.mining.free.fr

136

Sparation incomplte des groupes


Historique des itrationsa, b,c,d

Itration
Etape
1
1
2
3
4
5
6
7
8
9
10

-2log-vrais
emblance
11,036
7,473
5,973
5,323
5,079
5,020
5,014
5,014
5,014
5,014

Constante
-,620
-1,523
-3,054
-5,345
-7,956
-9,952
-10,746
-10,840
-10,841
-10,841

Coefficients
X
,204
,373
,583
,840
1,113
1,321
1,406
1,417
1,417
1,417

Y
-,062
-,100
-,136
-,172
-,207
-,234
-,245
-,247
-,247
-,247

a. Mthode : Entre
b. La cons tante est incluse dans le modle.
c. -2log-vrais emblance initiale : 27,526
d. L'es timation a t interrompue au numro d'itration 10 parce
que les es timations de paramtres ont chang de moins de
,001.

Variables dans l'quation

Etape
a
1

X
Y
Constante

B
1,417
-,247
-10,841

E.S.
1,379
,189
13,949

Wald
1,056
1,696
,604

ddl
1
1
1

Signif.
,304
,193
,437

Exp(B)
4,124
,781
,000

IC pour Exp(B) 95,0%


Infrieur
Suprieur
,276
61,535
,539
1,133

a. Variable(s ) entres l'tape 1 : X, Y.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

137

Illustration du dcoupage en classes

Un mme modle de score avec 4 variables explicatives :

continues
dcoupes en classes considres comme var. ordinales
dcoupes en classes considres comme var. nominales

Comparaison des performances

Aire sous la courbe ROC

Variable(s ) de rsultats
tests
Var explicatives en
clas s es ordinales
Var explicatives en
clas s es nominales
Var explicatives continues

Intervalle de confiance
95% as ymptotique
Borne
Borne
infrieure
s uprieure

Erreur Std.

Signif.
b
asymptotique

,834

,008

,000

,818

,850

,836

,008

,000

,820

,852

,820

,010

,000

,801

,839

Zone

a. Dans l'hypothse non-paramtrique


b. Hypothse nulle /: zone vraie = 0.5

Le dcoupage en classes nominales lemporte


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

138

Estimation des coefficients

Les donnes

Le modle

vecteur X

x1
M
xi
M
xn

y1
M
yi
M
yn

( x ) = P(Y = 1 / X = x )
i

0 +

e
1+ e

j xi j

0 +

j xi j

yi = 0 ou 1

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

139

Recherche du maximum de
vraisemblance

Vraisemblance = probabilit dobtenir les donnes

observes [(x1,y1),(x2,y2),,(xn,yn)], exprime en fonction


des coefficients i
n

= Prob(Y = y / X = x ) = ( x ) (1 ( x ))
i

i =1

1 y i

i =1

0 +
n

= (
i =1

i yi

1+ e

j xi j

0 +

) (1
y

0 +

jx j
i

e
1+ e

j xi j
j

0 +

1 y i

jx j
i

= L( 0 , 1 ,..., p )

On cherche les coefficients i maximisant la vraisemblance

et ajustant donc le mieux possible les donnes observes


Pas de solution analytique utiliser une mthode
numrique itrative (ex : Newton-Raphson)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

140

Cas de la rgression logistique simple

On cherche 2 coefficients 0 et 1 maximisant la


vraisemblance n
0 + 1 x i
0 + 1 x i
e
e
1 y i
yi
L(0,1) = (
) (1
)
0 + 1 x i
0 + 1 x i
1+ e
i =1 1 + e

Pour ces coefficients, la matrice des covariances

Cov( 0 , 1 )
V (0 )
V ( ) =

Cov
(

)
V
(

)
0
1
1

est estime par la matrice


1

Log L( )

= ( 0 , 1 )

intervient dans la
statistique de Wald
(voir + loin)

Il faut inverser la matrice hessienne H = LogL()/

impossible en cas de sparation complte des groupes

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

141

Vraisemblance et dviance dun modle

Soit L(0) = vraisemblance du modle rduit la constante


Soit L(n) = vraisemblance du modle satur (avec toutes

les variables explicatives et toutes les interactions pour en


avoir autant que dobservations distinctes) = vraisemblance
maximale
Soit L(k) = vraisemblance du modle avec k variables

On dfinit la dviance :

D(k) = 2 [Log L(k) Log L(n)] = Log [L(n)/ L(k)]


= 2 Log L(k) puisque L(n) = 1 pour une cible 0/1
But de la rgression logistique : maximiser la vraisemblance
L(k) minimiser la dviance D(k)

L(k) petit [0,1] -2 Log L(k) [0,+[ avec un terme


2 pour avoir lanalogie entre dviance et (erreurs)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

142

Comparaison de modles

Pour savoir sil convient dajouter q variables explicatives


un modle qui en contient dj k
On calcule la diffrence des dviances
>D(k) - D(k+q) = 2 [Log L(k) - Log L(k+q)]
Sous lhypothse H0 de la nullit des l derniers
coefficients, D(k) - D(k+q) suit un q d de libert
>Sous le seuil critique de la valeur du ( si la
probabilit dpasse 0,05) : on rejette les q nouvelles
variables

Mthode la plus utilise en rgression pas pas


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

143

Autres indicateurs

Cas particulier
>D(0) D(k) = 2 [Log L(0) Log L(k)]
suit une loi du k degrs de libert sous lhypothse

H0 de la nullit de tous les coefficients 1, , k. Rejet de


H0 si cette diffrence dpasse le seuil critique du .
Critre dAkaike AIC = 2 Log L(k) + 2(k+1)

k = nb de ddl = nb de paramtres estimer

n = nb total dindividus
pnalise les modles complexes

ils doivent tre le plus bas possible

Critre de Schwartz BIC = 2 Log L(k) + (k+1).log n


Ces 2 critres permettent de comparer 2 modles
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

144

Le de Wald

Statistique de Wald = (i / cart-type(i) )


suit un 1 degr de libert sous lhypothse nulle H0 :
le coefficient i = 0
>teste la significativit de chaque coefficient i

en comparant le sous-modle excluant Xi avec le modle


incluant toutes les variables
on doit avoir Wald > 4 (plus prcisment 3,84 = 1,96
venant du test de Student)

Mthode utilise en rgression pas pas


NB : viter le de Wald si peu dobservations ou si les

coefficients i sont grands


NB : Pour les variables qualitatives plus de 2 modalits,
la significativit du rsultat de ce test dpend du choix de
la modalit de rfrence

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

145

Le de Wald (suite)

Wald > 3,84 = 1,96 Intervalle de confiance de


lodds-ratio ne contient pas 1
Variables dans l'quation

Etape
a
1

AGE
Cons tante

B
,111
-5,309

E.S.
,024
1,134

Wald
21,254
21,935

ddl
1
1

Signif.
,000
,000

Exp(B)
1,117
,005

IC pour Exp(B) 95,0%


Infrieur
Suprieur
1,066
1,171

a. Variable(s ) entres l'tape 1: AGE.

> 3,84

06/12/2009

odds-ratio

Stphane Tuffry - Data Mining - http://data.mining.free.fr

1 IC

146

Influence du choix de la modalit de


rfrence
Codages des variables nominales

CLASS

0
1
2
3

Frquence
885
325
285
706

Codage des paramtres


(1)
(2)
(3)
1,000
,000
,000
,000
1,000
,000
,000
,000
1,000
,000
,000
,000

Variables dans l'quation


B
Etape
a
1

CLASS
CLASS(1)
CLASS(2)
CLASS(3)
Constante

-,068
1,596
,740
-1,087

E.S.
,117
,144
,148
,087

Wald
173,228
,336
123,520
24,920
157,383

ddl
3
1
1
1
1

Signif.
,000
,562
,000
,000
,000

Exp(B)
,934
4,936
2,096
,337

a. Variable(s) entres l'tape 1 : CLASS.

Le choix de la modalit de rfrence influe sur la


significativit des coefficients !
Codages des variables nominales

CLASS

0
1
2
3

Frquence
885
325
285
706

Codage des paramtres


(1)
(2)
(3)
1,000
,000
,000
,000
,000
,000
,000
1,000
,000
Etape
,000
,000
1,000 a

Variables dans l'quation


B
CLASS
CLASS(1)
CLASS(2)
CLASS(3)
Constante

-1,664
-,856
-1,596
,509

E.S.
,139
,166
,144
,115

Wald
173,228
143,335
26,593
123,520
19,757

ddl
3
1
1
1
1

Signif.
,000
,000
,000
,000
,000

Exp(B)
,189
,425
,203
1,664

a. Variable(s) entres l'tape 1 : CLASS.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

147

Test de Hosmer et Lemeshow


Test peu puissant : accepte facilement les
modles sur les petits effectifs
Tableau de contingence pour le test de Hosmer-Lemeshow

Etape
1

1
2
3
4
5
6
7
8
9
10

CHD = 0
Obs erv
Thorique
9
9,213
9
8,657
8
8,095
8
8,037
7
6,947
5
5,322
5
4,200
3
3,736
2
2,134
1
,661

CHD = 1
Obs erv
Thorique
1
,787
1
1,343
2
1,905
3
2,963
4
4,053
5
4,678
5
5,800
10
9,264
8
7,866
4
4,339

Total
10
10
10
11
11
10
10
13
10
5

Test de Hosmer-Lemeshow
Etape
1

Khi-deux
,890

ddl
8

Signif.
,999

trs bon ajustement


06/12/2009

On dcoupe les observations


en g = 10 groupes, ordonns
par probabilit croissante
(fournie par le modle)
On calcule le du tableau
gx2 des frquences pour
lvnement modlis (ici CHD
= 1) et lvnement contraire,
que lon compare la loi du
(g - 2) degrs de liberts
Si le est grand (la proba est
faible), les frquences
observes et attendues sont
significativement diffrentes et
le modle ne sajuste pas bien
aux donnes

Stphane Tuffry - Data Mining - http://data.mining.free.fr

148

Autres tests (sur SPSS)


Rcapitulatif du modle
Etape
1

-2log-vrais
emblance
107,353 a

R-deux de
Cox & Snell
,254

R-deux de
Nagelkerke
,341

a.

Dviance

quivalent
du R de la
2 Log L(k)
rgression
(est > 0 puisque linaire - ne
L(k) [0,1])
peut atteindre 1
06/12/2009

R ajust pour
varier entre 0
et 1

Stphane Tuffry - Data Mining - http://data.mining.free.fr

149

Autres tests (sur SAS : proc logistic)


Model Fit Statistics

Criterion

R de Cox &
Snell

Intercept
Intercept
and
Only Covariates

AIC

138.663

111.353

SC

141.268

116.563

-2 Log L

136.663

107.353

dviance

R-Square 0.2541 Max-rescaled R-Square 0.3410

R de
Nagelkerke

Testing Global Null Hypothesis: BETA=0

06/12/2009

Test

ChiSquare

DF

Pr > ChiSq

Likelihood Ratio

29.3099

<.0001

Score

26.3989

<.0001

Wald

21.2541

<.0001

Stphane Tuffry - Data Mining - http://data.mining.free.fr

150

Matrice de confusion (avec SAS)


Table de classification
Correct
Niveau de
prob.

Incorrect

vnement

Nonvnement

0.000

57

0.100

Pourcentages

vnement

Nonvnement

Spcificit

POS
fausse

NEG
fausse

Correct

Sensibilit

43

57.0

100.0

0.0

43.0

57

42

58.0

100.0

2.3

42.4

0.0

0.200

55

36

62.0

96.5

16.3

39.6

22.2

0.300

51

19

24

70.0

89.5

44.2

32.0

24.0

0.400

50

25

18

75.0

87.7

58.1

26.5

21.9

0.500

45

27

16

12

72.0

78.9

62.8

26.2

30.8

0.600

41

32

11

16

73.0

71.9

74.4

21.2

33.3

0.700

32

36

25

68.0

56.1

83.7

17.9

41.0

0.800

24

39

33

63.0

42.1

90.7

14.3

45.8

51

48.0

10.5

97.7

14.3

54.8

57

43.0

0.0

100.0

57.0

prdit0.900

1.000
Observ


total
06/12/2009

42

1
1 total

43

45

12

57

16

27

43

61

39

100

Correct = (45 + 27) / 100 = 72 %


Sensibilit = 45 / 57 = 78,9 %
Spcificit = 27 / 43 = 62,8 %
POS fausse = 16 / 61 = 26,2 %
NEG fausse = 12 / 39 = 30,8 %

Stphane Tuffry - Data Mining - http://data.mining.free.fr

151

Syntaxe SAS de la rgression


logistique
ods rtf file= c:\logistic_sas.doc ;
proc logistic data=matable.ascorer outmodel=mon.modele;
class
var_quali_1 (ref=A1) var_quali_i (ref=Ai) / param=ref;
model cible (ref=0)=
Hosmer-Lemeshow
var_quali_1 var_quali_i var_quanti_1 var_quanti_j
/ selection=forward sle=.05 maxiter=25 outroc=roc rsquare lackfit
ctable;
R
output out=matable.scoree predicted=proba resdev=deviance;
run;
enregistre la probabilit
symbol1 i=join v=none c=blue; niv. de signif. en entre
prdite pour lvnement
proc gplot data=roc;
where _step_ in (1 7); matrice de confusion
title Courbe ROC;
plot _sensit_*_1mspec_=1 / vaxis=0 to 1 by .1 cframe=ligr;
run;
ods rtf close ;
proc logistic inmodel=mon.modele; score data= autretable.ascorer;run;

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

152

Tests de concordance

Soit n1 (resp. n2) le nb dobservations o Y=0 (resp. Y=1)


Soit n = n1+ n2 le nb total dobservations
On sintresse aux t = n1n2 paires formes dune

observation o Y = 1 et dune observation o Y = 0


Parmi ces t paires : on a concordance si la proba estime
que Y = 1 est + grande quand Y = 1 que quand Y = 0
Soient nc = nb de paires concordantes ; nd = nb de paires
discordantes ; t - nc - nd = nb dex-quo ( tied )
Association of Predicted Probabilities and
Observed Responses
D de Somers = (nc - nd) / t = indice Gini
Percent Concordant
Somers' D
Gamma = (nc - nd) / (nc + nd)
Percent Discordant
Gamma
Percent Tied
Tau-a
Tau-a = 2 (nc - nd) / n(n-1)
Pairs
c
c = (nc + 0,5[t - nc - nd]) / t = aire sous la courbe ROC
Plus ces indices sont proches de 1, meilleur est le modle

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

79.0

0.600

19.0

0.612

2.0

0.297

2451

0.800

153

Effet de la multicolinarit

Rgression

logistique avec 2 variables VAR1 et VAR2


fortement corrles :
VAR1
VAR2
VAR1
VAR2

Corrlation de Pears on
1
,975**
N
36841 36300
Corrlation de Pears on
,975**
1
N
36300 36300

**. La corrlation es t s ignificative au niveau 0.01

On

constate une dgradation du pouvoir prdictif de


VAR1 avec lintroduction de VAR2 :

Etape
a
1

VAR1
Cons tante

B
,098
-4,898

E.S.
,004
,062

Wald
759,291
6290,898

ddl
1
1

Signif.
,000
,000

Exp(B)
1,103
,007

IC pour Exp(B) 95,0%


Infrieur
Suprieur
1,096
1,111

a. Variable(s ) entres l'tape 1: VAR1.

Etape
a
2

VAR1
VAR2
Cons tante

B
,020
,092
-4,993

E.S.
,014
,015
,065

a. Variable(s ) entres l'tape 2: VAR2.

06/12/2009

Wald
2,125
39,280
5867,055

ddl
1
1
1

Signif.
,145
,000
,000

Exp(B)
1,020
1,096
,007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

IC pour Exp(B) 95,0%


Infrieur
Suprieur
,993
1,048
1,065
1,129

154

Rsum des tests

Test du sur indicateur de Wald (> 4)


1 IC 95 % de lodds-ratio = exp(ai 1,96(ai))
Test du sur 2 [Log L(0) Log L(k)]
(Test de Hosmer et Lemeshow sur comparaison

des

proportions observes et thoriques)


R de Cox-Snell et R ajust de Nagelkerke
AIC et BIC
Multicolinarit
(tolrance,
VIF,
indices
de
conditionnement)
Matrice de confusion, tests de concordance, aire sous la
Association of Predicted Probabilities and
courbe ROC
Observed Responses
Percent Concordant 79.0 Somers' D 0.600
Moins de 20 degrs de libert
0.612
Percent Discordant 19.0 Gamma
(variables ou modalits) sont
2.0 Tau-a
0.297
Percent Tied
2451 c
0.800
Pairs
souvent retenus

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

155

Influence de lchantillonnage 1/2

La

rgression logistique consiste crire (x) :=


P(Y=1/X=x) sous la forme

( x)
Log (
) = 0 + 1 x1 + ... + p x p
1 ( x)

avec des coefficients maximisant la vraisemblance

Si lon effectue un chantillonnage E indpendant de X,


alors la probabilit E(x) := P(Y=1/X=x,XE) vrifie

E ( x)
Log (
) = '0 + 1 x1 + ... + p x p
1 E ( x)

avec 0 = 0 + constante (= log(p1,E/p0,E) + log(p0/p1))


pi = proportion de cas Y=i dans la population totale
Pi,E = proportion de cas Y=i dans lchantillon E

Ceci est vrai de logit mais non de probit !


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

156

Influence de lchantillonnage 2/2

Si

E est indpendant de X, la mme fonction de score


permet de dcider si Y=1 (en changeant seulement le
seuil de dcision)

Un

cas particulier : p1,E/p0,E = p1/p0 => 0 = 0

score calcul sur une sous-population E peut


sappliquer une sous-population E, si la distribution
des variables explicatives est la mme dans E et E,
mme si lvnement prdire est plus rare dans E

en appliquant le calcul de P(Y=1/X=x,XE) aux XE et en


fixant le mme seuil dacceptation P(Y=1/X=x,XE) > so,
on aura le mme % daccepts dans E (puisque les var.
explicatives ont mmes distributions dans E et E), mais la
frquence de lvnement sera plus faible dans les
accepts de E, puisque leur proba P(Y=1/X=x,XE) <
P(Y=1/X=x,XE)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

157

Avantages de la rgression logistique

Permet de traiter les variables explicatives discrtes,

qualitatives ou continues
Permet de traiter une variable cible ordinale ou nominale
Hypothses + gnrales que lanalyse discriminante
(pas de multinormalit ni dhomoscdasticit)
Permet de traiter les rponses non monotones
Odds-ratios facilement interprtables (pour modle logit)
Peut prendre en compte les interactions entre variables
Modlise directement une probabilit
Fournit des intervalles de confiance sur les rsultats
Nombreux tests statistiques disponibles
Possibilit de slection pas pas des variables

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

158

Limites de la rgression logistique

Suppose la non-colinarit des variables explicatives


Approximation numrique :

calcul itratif moins rapide que le calcul direct de lanalyse


discriminante
moindre prcision que lanalyse discriminante quand les
hypothses de cette dernire sont satisfaites
ne converge pas toujours vers une solution optimale
inoprant dans le cas de la sparation complte des
groupes ! puisque la log-vraisemblance sapproche de 0
(iris de Fisher et sparation des Setosa !)

Ne traite pas les valeurs manquantes de variables

continues (sauf dcoupage en classes)


Sensible aux valeurs hors norme de variables continues
(sauf dcoupage en classes)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

159

La rgression logistique ordinale 1/2

La variable cible Y est ordinale


Fonctions de lien :

logit
probit
log-log : Log [ Log(1)]
utilis quand les valeurs leves de la cible sont plus
probables
ex : valeurs 3 5 / 5 dans une enqute de satisfaction

Cauchit : tg[( -0,5)]


utilis quand les valeurs extrmes de la cible sont plus
probables
ex : valeur 5 / 5 dans une enqute de satisfaction

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

160

La rgression logistique ordinale 2/2

Y prend m valeurs ordonnes, notes 1, 2, , m


Dans le modle pentes gales : on suppose

que le
logit des probabilits cumulatives scrit sous la forme

logit (Prob(Y r / X = x) ) = r + i xi , pour 1 r < m


i

>Seule la constante dpend de r


On parle de proportional odds model car :
exp( r + i xi )
Prob(Y r / X = x) / Prob(Y > r / X = x)

i
=
= exp i ( xi x'i )
Prob(Y r / X = x' ) / Prob(Y > r / X = x' ) exp( r + i x'i )
i

>Les odds-ratios pour un

r fix sont tous proportionnels


entre eux et le rapport ne dpend pas de r

Le modle pentes diffrentes : vite trs complexe


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

161

La rgression logistique multinomiale

Y prend m valeurs non ordonnes, notes 1, 2, , m


On choisit une modalit de rfrence, par exemple m
On crit les probabilits sous la forme :

exp j + jk x k
k

, j = 1, ..., m 1
Prob(Y = j / X = x) =
m 1

1 + exp i + ik x k
i =1
k

1
Prob(Y = m / X = x) =
m 1

1 + exp i + ik x k
i =1
k

Cest un modle plus complexe que le modle ordinal


pentes gales, car les coefficients ij dpendent de j

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

162

Techniques de classement :

Le modle linaire gnral


Le modle linaire gnralis
Le modle additif gnralis

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

163

Terminologie

Covariables

(quantitatives)
Facteurs
=
(qualitatives)

variables
variables

explicatives
explicatives

continues
catgorielles

niveaux dun facteur = ses modalits

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

164

Effets fixes et alatoires 1/2

Effets fixes des facteurs et covariables

contrls par lexprimentateur


en prenant toutes les valeurs
dont on veut quantifier leffet sur la variable cible
similaire une analyse de rgression but prdictif

en prenant un chantillon de valeurs


on veut quantifier la proportion de la variance de la variable
cible quils expliquent
similaire une analyse de corrlation
but descriptif et non prdictif

Prsence deffets fixes et alatoires

Effets alatoires des facteurs et covariables

Effets mixtes
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

165

Effets fixes et alatoires 2/2

Ex 1 : comparaison de 2 traitements sur plusieurs patients


dans plusieurs hpitaux mettre la variable hpital en
effet alatoire

permet dviter le biais d au lieu o est administr le


traitement
ne permet pas de prdire le rsultat dans un nouvel hpital

Ex

2 : comparaison de 2 conditionnements dun produit


sur les achats de plusieurs consommateurs dans plusieurs
magasins mettre la variable magasin en effet
alatoire

permet dviter le biais d au lieu dachat


ne permet pas de prdire les achats dans un nouveau
magasin

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

166

Modle mesures rptes 1/2

Les

mesures y1, y2, yk de Y prdire sur plusieurs


individus sont corrles (donnes longitudinales) car

il sagit dun mme individu observ k fois (par ex : avant et


aprs un traitement mdical)
ou de k individus partageant une caractristique commune
(mme famille, mme segment)

On sort des hypothses de la rgression linaire et de la

rgression logistique qui supposent labsence de


corrlation des mesures sur plusieurs individus
Y peut tre continue ou discrte
Un modle mesures rptes peut traiter la fois des
effets fixes et alatoires

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

167

Modle mesures rptes 2/2

Dans un modle mesures rptes, on a des effets :

intra-individus ( within-subject effects )


influence du temps, du traitement (comparaison du patient
avant et aprs traitement)
gnralise la comparaison de moyennes sur 2 chantillons
apparis

inter-individus ( between-subject effects )


influence des caractristiques du patient, telles que lge, le
sexe, la formulation sanguine (comparaison du patient par
rapport aux autres)

interactions intra-inter ( within-subject-by-between-subject


effects )
interactions du traitement et des caractristiques du patient

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

168

Application aux donnes de survie 1/2

Pour chaque individu, les observations sont rptes dans

le temps des instants t1, t2,, tN


On sintresse la survenue dun vnement (par ex :
dcs, dpart) un instant ti, modlise par la var cible :

yk = 0 si k < i, yi = 1, pas dobservation si k > i : on connat


le dlai de survenue de lvnement
on a yk = 0 pour tout k N si lvnement ne survient pas
(et si lindividu est observ jusquau bout) : on ne connat
que la limite infrieure du dlai de survenue de lvnement
(cette donne est censure )
la donne est aussi censure si lindividu est perdu de vue
avant la fin et avant la survenance de lvnement

On

cherche expliquer la variable dlai de survie


pour mettre en vidence les facteurs favorables

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

169

Application aux donnes de survie 2/2

Un modle courant (de Cox)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

170

Modle de survie de Kaplan-Meier

Modlise

la dure avant lapparition dun vnement


(dcs, dpart)
Certaines donnes sont censures (encore vivant), mais
on doit en tenir compte (les dures de vie + longues
tant + censures, par dfinition)
On cherche des modles intgrant la fois les donnes
censures et non censures
Le modle de Kaplan-Meier permet de calculer une
estimation non paramtrique de la fonction de survie :
S(t) = Prob(dure de vie > t)
Il permet de comparer les fonctions de survie (et les
courbes de survie) de plusieurs chantillons ( strates )

correspondant par ex. plusieurs traitements mdicaux


diffrents
et deffectuer des tests

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

171

Modle de survie de Cox 1/3

Mme champ dapplication que le modle de Kaplan-Meier


Le modle de rgression de Cox hasards proportionnels
(1972) permet dajouter p variables explicatives et
destimer leurs coefficients dans la fonction de survie,
donc leur impact sur la dure de vie

ex : sexe / nb cigarettes fumes par jour

Cest un modle semi-paramtrique (forme paramtrique

() pour les effets des var. explicatives, et forme non


paramtrique de la fonction de survie)
Pour tout individu i de var. explicatives xij, la fonction
de
p
survie sexprime sous la forme :
exp( j xij )

S (t , xi ) = S 0 (t )

j =0

o xi0 = 1 i et So(t) est la fonction de survie de base


( hasard de base ),
et o lon recherche le vecteur suppos indpendant de i.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

172

Modle de survie de Cox 2/3

On trouve le vecteur des coefficients de rgression par

maximisation dune fonction de vraisemblance (comme la


rgression logistique)

plusieurs mthodes de slection des var. explicatives


existent (ascendante, descendante, pas pas)
interprtation des odds-ratios

ninterviennent pas dans le calcul de


interviennent dans le calcul de So(t)

Les donnes censures :

Le terme de hasards proportionnels vient de ce que le


rapport hi(t) / hk(t) ne dpend pas de t

sauf si les xij en dpendent

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

173

Modle de survie de Cox 3/3


(fonctionnalits supplmentaires)

Les variables explicatives xij peuvent dpendre ou non de t

soit en tant une fonction de t, soit en prenant une valeur


diffrente par valeur de t

On peut faire des analyses stratifies (sur des chantillons


diffrents), en supposant que le vecteur des coefficients
de rgression est indpendant de lindividu i et de la strate

en revanche, le hasard de base So(t) dpend de la strate


do lutilisation des analyses stratifies sur une strate Xj
quand une variable explicative Xj ne satisfait pas lhypothse
des hasards proportionnels
Xj nintervient plus dans le terme exp() mais intervient dans
So(t)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

174

Modle linaire gnral (GLM)

Gnralise

la rgression linaire multiple de plusieurs

faons
Les variables explicatives peuvent non seulement tre
continues, mais :

qualitatives (ANOVA)
continues et qualitatives (ANCOVA)

MANOVA, MANCOVA

Il peut y avoir plusieurs variables continues expliquer


Prise en compte des modles effet fixes, alatoires ou

mixtes
Prise en compte des modles mesures rptes

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

175

Modle linaire gnralis (GLZ)

Gnralise

le modle linaire gnral quand Y prdire


nest plus forcment continue
On crit g(E(Y/X=x)) = 0 + iixi
g = fonction de lien monotone diffrentiable (g-1 =
fonction de transfert)
La distribution de Y/X=x peut tre :

normale (continue : rgression)


gamma (continue positive)
Bernoulli (discrte : oui/non)

g() =
g() = -1/
g()=log(/1-)
(logit, probit, log-log)

de Poisson (discrte : comptage)

g() = log()

Y = nb de sinistres (assurance) ou effectif dun tableau de


contingence (modle log-linaire)

multinomiale, etc.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

176

Modle linaire gnralis (GLZ)

Double gnralisation du modle linaire gnral : loi de

Y/X=x non normale et g 1


Estimation du modle : par la mthode du maximum de
vraisemblance (analogue des moindres carrs)
valuation du modle : par calcul de la dviance des logvraisemblances (analogue de la somme des carrs des
rsidus de la rgression) et test du
Existence dune rgression logistique mesures rptes
(proc GENMOD de SAS)
Variable V offset : sert tarer un modle si la variable
cible dpend linairement de V

le nb de sinistres dans une compagnie dassurance doit tre


quilibr par la variable offset nb de contrats

Source : Nelder-Wedderburn (1972)


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

177

Modle additif gnralis (GAM)

On crit g(E(Y/X=x)) = 0 + ifi(xi)


g : fonction de lien (g-1 : fonction de transfert)
fi : fonction quelconque (non-paramtrique : on na plus un
simple paramtre comme le coefficient i) de xi

par ex : fi = fonction spline

Mais le modle reste additif (cest i qui combine les fi)


La distribution de Y peut tre normale, poissonienne

ou

binomiale

ex : modle logistique additif gnralis si g() = log(/1- )

Modlisation puissante mais attention au sur-apprentissage

et linterprtabilit des rsultats


Source : Hastie - Tibshirani (1990)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

178

Technique de classement ou prdiction :

Arbres de dcision

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

179

Classement par arbre de dcision

Le premier nud de larbre

est la racine
Les nuds terminaux sont les

feuilles

Le chemin entre la racine et

chaque feuille est lexpression


dune rgle

par exemple : les clients dont


lge est < x, les revenus < y
et le nombre de comptes > z
appartiennent dans n % des
cas la classe C

Si chaque nud de larbre a


au plus deux nuds fils, on
dit que larbre est binaire

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

180

Arbre de classement
SURV (Echantillon d'apprentissage)
Noeud 0
Catgorie
%
n
1
32,99 511
0
67,01 1038
Total
(100,00) 1549
SEX
Prob. ajuste - valeur=0,0000, Khi-deux=341,5082, ddl=1

Noeud 1
Catgorie
%
n
1
21,08 253
0
78,92 947
Total
(77,47) 1200

Noeud 2
Catgorie
%
n
1
73,93 258
0
26,07
91
Total
(22,53) 349
CLASS
Prob. ajuste - valeur=0,0000, Khi-deux=95,2936, ddl=2

1
Noeud 5
Catgorie
%
n
1
96,46 109
0
3,54
4
Total
(7,30) 113

06/12/2009

2;0
Noeud 6
Catgorie
%
n
1
87,00
87
0
13,00
13
Total
(6,46) 100

3
Noeud 7
Catgorie
%
n
1
45,59
62
0
54,41
74
Total
(8,78) 136

Stphane Tuffry - Data Mining - http://data.mining.free.fr

181

Prdiction par arbre de dcision

Les arbres peuvent sappliquer la prdiction : la


variable expliquer X est continue

Cest une alternative la rgression linaire multiple


Principe :

la variable X doit avoir une variance + faible dans les


nuds fils
la variable X doit avoir une moyenne la + distincte
possible dun nud fils un autre

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

182

Arbre de rgression
PNB

Ce sont la
consommation
dnergie et
lesprance de vie
qui expliquent le
mieux le PNB par
habitant

Noeud 0
Moyenne 3250,141
Ecart type 4330,307
n
163
%
100,0
Prvisions 3250,141
ENERG
Valeur p aj.=0,000, F=122,386,
ddl1=2, ddl2=160

<= 19

(19, 65]; <manquantes>

> 65

Noeud 1

Noeud 2

Noeud 3

Moyenne 2407,358
Ecart type 2824,902
n
53
%
32,5
Prvisions 2407,358

Moyenne 8876,463
Ecart type 4388,009
n
41
%
25,2
Prvisions 8876,463

Moyenne
Ecart type
n
%
Prvisions

554,319
479,405
69
42,3
554,319

ESPER
Valeur p aj.=0,000, F=29,878,
ddl1=1, ddl2=67

06/12/2009

<= 53

> 53

Noeud 4

Noeud 5

Moyenne
Ecart type
n
%
Prvisions

322,513
179,728
39
23,9
322,513

Moyenne
Ecart type
n
%
Prvisions

855,667
574,784
30
18,4
855,667

Stphane Tuffry - Data Mining - http://data.mining.free.fr

183

Classement par arbre de dcision

Pour rpartir les individus dune population en n classes,

on commence par choisir la variable sparant le mieux


les individus de chaque classe en fonction de la variable
cible, en sous-populations appeles nuds : le critre
prcis (C1) de choix de la variable et de sa valeur teste
dpend de chaque type darbre

Pour chaque nud, on rpte la mme opration, ce qui

donne naissance un ou plusieurs nuds fils. Chaque


nud fils donne son tour naissance un ou plusieurs
nuds, et ainsi de suite, jusque ce que :

la sparation des individus ne soit plus possible


OU un certain critre (C2) darrt dapprofondissement de
larbre soit satisfait

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

184

Critre darrt dun arbre (C2)

Le critre darrt (C2) dpend du type et du paramtrage


de larbre. Souvent (C2) combine plusieurs rgles :

la profondeur de larbre a atteint une limite fixe


OU le nombre de feuilles (cest--dire de rgles) a atteint un
maximum fix
OU leffectif de chaque nud est infrieur une valeur
fixe en de de laquelle on estime quil ne faut plus diviser
un nud (au moins 75 100 pour de bons rsultats)
OU la division ultrieure de tout nud provoquerait la
naissance dun fils deffectif infrieur une valeur fixe
OU la qualit de larbre est suffisante
OU la qualit de larbre naugmente plus de faon sensible.

Cest bien entendu sur cette dernire rgle que les arbres
diffrent le plus

exemple : dans les arbres CART la qualit se mesure par la


puret des
nuds
Stphane
Tuffry - Data Mining - http://data.mining.free.fr
06/12/2009
185

Principaux critres de scission (C1)

Le critre du 2

lorsque les variables explicatives sont qualitatives


utilis dans larbre CHAID

pour tous types de variables explicatives


lindice de Gini est utilis dans larbre CART
lindice Twoing est utilis dans larbre CART lorsque la
variable cible a 3 modalits
lentropie est utilise dans les arbres C4.5 et C5.0
plus les classes sont uniformment distribues dans un
nud, plus lindice de Gini et lentropie sont levs ; plus le
nud est pur, plus ils sont bas

Lindice de Gini, lindice Twoing et lentropie

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

186

Les principaux arbres de dcision

CHAID (CHi-Square Automation Interaction Detection)


utilise

le test du 2 pour dfinir la variable la plus


significative et le dcoupage de ses modalits
adapt ltude des variables explicatives discrtes
CART (Classification and Regression Tree)
cherche maximiser la puret des nuds
adapt ltude de tout type de variables explicatives
C5.0 de J.R. Quinlan
cherche maximiser le gain dinformation ralis en
affectant chaque individu une branche de larbre
adapt ltude de tout type de variables explicatives

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

187

Arbre CHAID Algorithme 1/2

Cet arbre est de conception plus ancienne (principe :


1975, Hartigan ; algorithme : 1980, Kass)
Il discrtise automatiquement les variables explicatives
continues
La cible est une variable qualitative k modalits
Utilise plusieurs fois la statistique du 2 :
1. On construit pour chaque prdicteur Xi, le tableau de
contingence Xi x Y et on effectue les tapes 2 et 3
2. On slectionne la paire de modalits de Xi dont le
sous-tableau (2 x k) a le plus petit . Si ce nest
pas significatif, on fusionne les 2 modalits et on
rpte cette tape

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

188

Arbre CHAID Algorithme 2/2


3. Eventuellement, pour chaque modalit compose

4.

06/12/2009

de plus de 3 modalits originales, on dtermine la


division binaire au le plus grand. Sil est
significatif, on effectue cette division
On calcule la significativit (probabilit associe au
) de chaque prdicteur Xi dont les modalits ont t
prcdemment regroupes et on retient le plus
significatif. Si ce est plus significatif que le seuil
choisi, on peut diviser le nud en autant de nudsfils quil y a de modalits aprs regroupement. Si ce
natteint pas le seuil spcifi, le nud nest pas
divis

Stphane Tuffry - Data Mining - http://data.mining.free.fr

189

Arbre CHAID Ajustement de Bonferroni

Lors du calcul de la

significativit de tous les


prdicteurs (tape 4), on
peut multiplier la valeur de
la probabilit du par le
coefficient de Bonferroni,
qui est le nombre de
possibilits de regrouper les
m modalits dun prdicteur
en g groupes (1 g m)
Ce calcul permet dviter la
survaluation de la
significativit des variables
modalits multiples

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

190

Arbre CHAID Caractristiques

CHAID traite lensemble des valeurs manquantes comme


une seule catgorie (quil fusionne ventuellement avec
une autre)

Il

pas dutilisation de variables de substitution

nest pas binaire et produit des arbres souvent plus


larges que profonds

Il

utile pour la discrtisation de variables continues

souffre de labsence de dispositif automatique


doptimisation par lagage : quand larbre maximum est
labor, les critres darrt tant rencontrs, sa
construction sachve
Il est utile pour discrtiser les variables continues
Le nb de classes obtenues dpend des seuils fixs pour le
test du

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

191

Discrtisation avec CHAID 1/4

Supposons que nous voulions prdire une variable cible


laide de certaines variables, dont lge, et que nous
voulions dcouper lge en classes pour les raisons dj
indiques :

prise en compte de la non-monotonie ou non-linarit de


la rponse en fonction de lge
suppression du problme des extrmes
modle plus robuste

Nous allons dcouper lge en 10 tranches (ou plus, si le


nb dindividus est grand) et regarder le % dindividus
dans la cible pour chaque classe dge

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

192

Discrtisation avec CHAID 2/4


cible
tranche d'ge

18-25 ans
25-29 ans
29-32 ans
32-35 ans
35-38 ans
38-40 ans
40-42 ans
42-45 ans
45-51 ans
> 51 ans

Total

06/12/2009

Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans
Effectif
% dans

tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge
tranche d'ge

non
127
61,1%
104
45,2%
93
47,9%
113
53,3%
93
49,7%
149
54,8%
108
60,0%
116
54,5%
77
40,5%
71
32,9%
1051
50,0%

oui
81
38,9%
126
54,8%
101
52,1%
99
46,7%
94
50,3%
123
45,2%
72
40,0%
97
45,5%
113
59,5%
145
67,1%
1051
50,0%

Total
208
100,0%
230
100,0%
194
100,0%
212
100,0%
187
100,0%
272
100,0%
180
100,0%
213
100,0%
190
100,0%
216
100,0%
2102
100,0%

Stphane Tuffry - Data Mining - http://data.mining.free.fr

193

Discrtisation avec CHAID 3/4

Nous voyons que certaines classes sont proches du


point du vue du % dans la
cible :
PROPENS

tranches 2 et 3
tranches 4 8
tranches 9 et 10

Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102

AGE
Prob. ajuste - valeur=0,0000, Khi-deux=50,4032, ddl=3

<=24
Noeud 6
Catgorie
%
n
O
38,94
81
N
61,06 127
Total
(9,90) 208

(24,32]
Noeud 7
Catgorie
%
n
O
53,54 227
N
46,46 197
Total
(20,17) 424

(32,45]
Noeud 8
Catgorie
%
n
O
45,58 485
N
54,42 579
Total
(50,62) 1064

>45
Noeud 9
Catgorie
%
n
O
63,55 258
N
36,45 148
Total
(19,31) 406

Nous voyons que CHAID a fait automatiquement ce que


nous avons fait manuellement
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

194

Discrtisation avec CHAID 4/4

Pour la scission de la racine de larbre, la variable AGE


est retenue devant la variable REVENUS car la proba
associe au des REVENUS est plus grande que celle
associe lAGE
PROPENS

Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102

REVENUS
Prob. ajuste - valeur=0,0000, Khi-deux=34,0522, ddl=2

<=350
Noeud 10
Catgorie
%
n
O
33,33
70
N
66,67 140
Total
(9,99) 210

(350,2667]
Noeud 11
Catgorie
%
n
O
53,60 789
N
46,40 683
Total
(70,03) 1472

>2667
Noeud 12
Catgorie
%
n
O
45,71 192
N
54,29 228
Total
(19,98) 420

NB : si le nb de ddl nest pas le mme pour 2 variables,


il faut comparer les probas et non les eux-mmes

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

195

Indice de Gini

Indice de Gini dun nud = 1 i fi

o les fi, i = 1 p, sont les frquences relatives dans le nud des


p classes prdire (variable cible)

= probabilit que 2 individus, choisis alatoirement dans un


nud, appartiennent 2 classes diffrentes

Plus

les classes sont uniformment distribues dans un


nud, plus lindice de Gini est lev ; plus le nud est
pur, plus lindice de Gini est bas
Dans le cas de 2 classes, lindice va de 0 (nud pur) 0,5
(mlange maximal). Avec 3 classes, lindice va de 0 2/3.

Chaque sparation en k nuds fils (deffectifs n1, n2 nk)

doit provoquer la plus grande hausse de la puret, donc


la plus grande baisse de lindice de Gini. Autrement dit, il
faut minimiser :
k
nk
Gini (sparation) = Gini (k e noeud )
i =1

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

196

Arbre CART 1/2

Le critre de division est bas sur lindice de Gini


Optimal : toutes les scissions possibles sont examines
Optimal : lagage suprieur celui de CHAID

une fois larbre maximum construit, lalgorithme en dduit


plusieurs sous-arbres par lagages successifs, quil
compare entre eux, avant de retenir celui pour lequel le
taux derreur mesur en test est le plus bas possible

Gnral : variable cible quantitative ou qualitative


CART sert la prdiction comme au classement

Gnral : CART permet la prise en compte de cots Cij

de mauvaise affectation (dun individu de la classe j


dans la classe i) en les intgrant dans le calcul de
lindice de Gini
Gini (nud) = C ij f i f j
i j

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

197

Arbre CART 2/2

Un nud est considr comme une feuille lorsque

aucune sparation ne conduit une baisse significative


de lindice de Gini
Une feuille est affecte la classe C :

la mieux reprsente dans la feuille


ou la plus probable dans la feuille (si cette probabilit est
diffrente de la proportion cela dpend du paramtrage)
ou la moins coteuse si des cots de mauvais classement
ont t fixs

Dans sa version de base, CART est binaire

il est moins large que profond, mais parfois trop profond

Gre les valeurs manquantes en recourant aux variables


quidivisantes ou quirductrices

diffrent de CHAID

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

198

Traitements des valeurs manquantes

Variables quidivisantes :

celles qui assurent ( peu prs) la mme puret des


nuds que la variable optimale

Variables quirductrices :

celles qui rpartissent les individus ( peu prs) de la


mme faon que la variable optimale

Ces variables servent de variables de rechange


lorsque la variable optimale a une valeur manquante.

Par cohrence, il vaut mieux utiliser les variables


quirductrices

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

199

Exemple prcdent avec CART

La

scission de la racine se fait par lAGE, comme avec


CHAID, mais larbre binaire est moins quilibr :
PROPENS

Noeud 0
Catgorie
%
n
O
50,00 1051
N
50,00 1051
Total
(100,00) 2102
AGE
Taux d'amlioration=0,0088

<=45,5
Noeud 1
Catgorie
%
n
O
46,76 793
N
53,24 903
Total
(80,69) 1696

>45,5
Noeud 2
Catgorie
%
n
O
63,55 258
N
36,45 148
Total
(19,31) 406

On peut aussi pnaliser les scissions dsquilibres


CART est surtout apte dtecter rapidement des profils
trs marqus
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

200

Mcanisme de scission des nuds avec Gini


(ex : catalogue avec prix article et achat)

06/12/2009

Article

Prix

Achat

125

100

70

120

95

60

220

85

75

10

90

Stphane Tuffry - Data Mining - http://data.mining.free.fr

201

Mcanisme de scission des nuds avec Gini


Achat

Prix

60

70

75

85

90

95

100

120

125

220

Seuil

55

65

72

80

87

92

97

110

122

172

230

>

>

>

>

>

>

>

>

>

>

>

Gini

0,420

0,400

0,375

0,343

0,417

0,400

0,300

0,343

0,375

0,400

0,420

6/10.(1-0,5-0,5)+4/10.(1-0-1)=6/10*0,5=0,3
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

202

CART et complexit du choix (C1)

Si

une variable explicative qualitative X a un


ensemble E de n valeurs possibles x1, , xn, toute
condition de sparation sur cette variable sera de la forme
X E, o E E - {0}
>2n-1 1 conditions de sparation possibles

Pour

une variable explicative continue X, la


complexit est lie au tri des valeurs x1, , xn de X,
puisquune fois les variables dans lordre x1 xn ,
il suffit de trouver lindice k tel que la condition
X moyenne (xk , xk+1)
soit la meilleure (selon le critre choisi, par exemple Gini).

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

203

Entropie

Entropie (ou information ) dun nud = fi.log(fi)

o les fi, i = 1 p, sont comme ci-dessus les frquences


relatives dans le nud des p classes prdire

Plus

les classes sont uniformment distribues dans un


nud, plus lentropie est leve ; plus le nud est pur,
plus lentropie est basse (elle vaut 0 lorsque le nud ne
contient quune seule classe)

Comme

prcdemment, il faut minimiser lentropie dans


les nuds-fils

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

204

Arbre C5.0

C5.0 (successeur de C4.5) est adapt comme CART tout

type de variables
Dispositif doptimisation de larbre par construction puis
lagage dun arbre maximum

le procd dlagage est diffrent de celui de CART et il est


li lintervalle de confiance du taux derreur donc
leffectif du nud

C5.0 cherche minimiser lentropie dans les nuds-fils


C5.0 nest pas binaire. Les variables qualitatives, au
niveau dun nud pre, donnent naissance un nud
fils par modalit

inconvnient : les nuds voient plus rapidement leurs


effectifs baisser (moindre fiabilit statistique)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

205

Pr-lagage et Post-lagage

Certains arbres (CHAID) effectuent un pr-lagage :

si un approfondissement dune branche dgrade la qualit


de larbre : on sarrte l

Dautres arbres (CART, C5.0) effectuent un post-lagage :

lapprofondissement de larbre est men son terme


AVANT dlaguer larbre
>ce qui est + efficace, car parfois le sur-apprentissage a
commenc avant dtre dtect par le taux derreur en test
>larbre peut ainsi dcouvrir des informations importantes
plus profondes que ce que montre un lagage prmatur

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

206

lagage et sur-apprentissage
taux
d'erreur

donnes de test
et d'application

donnes apprentissage

profondeur arbre
(nb de feuilles)

laguer ici

Un bon arbre doit tre lagu pour viter la remonte du


taux derreur due au sur-apprentissage

Relative Cost

0.30

06/12/2009

Relative Cost vs Number of Nodes

0.248

0.28
0.26
0.24

Source : CART (Salford)

0.22
0.20
0

100

200

300

Stphane Tuffry
- Data Mining
- http://data.mining.free.fr
Number
of Nodes

400

207

Validation croise

Lorsque la population est trop petite pour en extraire un

chantillon dapprentissage et un de test (courant en


pharmacie) :
On a recours la validation croise (leave-one-out)

La population est scinde en, disons, 10 chantillons de


tailles gales, ayant chacun la mme distribution pour la
classe ou la variable prdire.
On utilise les 9 premiers chantillons comme chantillon
dapprentissage, et le 1/10e restant comme chantillon de
test. On obtient ainsi un taux derreur en test.
On rpte ensuite 9 fois la mme opration sur chaque
9/10e possible, en prenant chaque 1/10e restant pour
chantillon de test.
On combine enfin les 10 taux derreur obtenus.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

208

Avantages des arbres de dcision 1

Ils fournissent des rgles :

explicites (contrairement aux rseaux de neurones)


qui scrivent directement avec les variables dorigine

la distribution non linaire ou non monotone des


prdicteurs par rapport la variable cible
la colinarit des prdicteurs
les interactions entre les prdicteurs
les individus hors-normes (isols dans des rgles
spcifiques)
les fluctuations des prdicteurs non discriminants (larbre
slectionne les plus discriminantes)

Mthode non paramtrique, non perturbe par :

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

209

Avantages des arbres de dcision 2

Beaucoup

traitent (sans recodification) des donnes


htrognes (numriques et non numriques, voire
manquantes)

CART traite les valeurs manquantes en remplaant les


variables concernes par des variables quidivisantes
CHAID traite lensemble des valeurs manquantes dune
variable comme une modalit part ou pouvant tre
associe une autre
viter davoir plus de 15 % de valeurs manquantes

Dure de traitement

leur apprentissage peut tre un peu long, mais beaucoup


moins que pour les rseaux de neurones
leur application est trs rapide dexcution

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

210

Inconvnients des arbres de dcision

Les nuds du niveau n+1 dpendent fortement de ceux


du niveau n

un arbre dtecte des optimums locaux et non globaux


>la modification dune seule variable, si elle est place prs
du sommet de larbre, peut entirement modifier larbre
les variables sont testes squentiellement et non
simultanment
>manque de robustesse

Lapprentissage ncessite un nombre suffisant dindividus

(pour avoir au moins 30 50 individus / nud)


Discontinuit de la rponse de la variable cible en fonction
des variables explicatives (nb de valeurs du score = nb de
feuilles)
Valeurs du score non uniformment distribues

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

211

Pour amliorer les rsultats :

Le rchantillonnage

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

212

Rchantillonnage Bootstrap

Pour estimer un paramtre statistique dont on ne connat


pas la loi dans un chantillon de n individus

On

ou quand son calcul exige une distribution normale non


vrifie

lapproche par une suite de B (souvent B 100)


tirages alatoires de n individus avec remise

en mesurant le paramtre pour chaque chantillon simul


puis en tablissant la distribution des frquences des
valeurs de ce paramtre
puis en calculant lintervalle de confiance du paramtre
(2n-1)!/[n!(n-1)!] chantillons bootstrap diffrents

Invent par Bradley Efron (1979)


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

213

Principe du bootstrap 1/4

Pb : estimation dun paramtre statistique dfini dans une


population globale et fonction dune loi statistique F

ex : la moyenne = E(F)

dautant que la population peut tre en volution perptuelle


ou quil peut exister des erreurs de mesure, de saisie

Or, la population et la loi F sont gnralement inconnues


Quand

nous travaillons sur un jeu de donnes, il sagit


presque toujours dun chantillon S = {x1, x2, , xn} tir
dune population globale inconnue
et on cherche approcher le paramtre par un estimateur
dfini sur S, cet estimateur tant obtenu en remplaant la
loi inconnue F par la loi empirique , qui est la loi
discrte donnant une probabilit 1/n chaque xi

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

214

Principe du bootstrap 2/4

Cet estimateur est appel estimateur plug-in


On le note = s(x) pour signifier quil dpend de lchantillon

1 n
ex : = xi
n i =1

est un estimateur plug-in de la moyenne

Si F est la loi normale de moyenne F et de dcart-type F,

on connat la distribution des estimateurs : elle suit la loi


normale
de moyenne F et de dcart-type F / n

E( ) = on dit que est un estimateur sans biais.


ici, de plus, il est donn par une formule explicite, de mme
que son cart-type

Plus gnralement se pose la question de la prcision et de


la robustesse dun estimateur, i.e. de son biais et de son
cart-type, gnralement non explicites
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

215

Principe du bootstrap 3/4

Pour calculer lcart-type de lestimateur, il faudrait pouvoir

dterminer lestimateur sur un grand nombre dchantillons


S, S
Or, souvent un seul chantillon S nous est donn
Ide de Bradley Efron (1979) : reproduire le passage de la
population lchantillon S tudi, en faisant jouer
S = {x1, x2, , xn} le rle dune nouvelle population et en
obtenant les chantillons souhaits S, S par des tirages
alatoires avec remise des n individus x1, x2, , xn
chantillon bootstrap = chantillon obtenu par tirage avec
remise de n individus parmi n
Chaque xi peut tre tir plusieurs fois ou ne pas tre tir.
Sa probabilit dtre tir est p = 1 (1 1/n)n, p 0,632
(n +)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

216

Principe du bootstrap 4/4

Pour

avoir le biais et lcart-type de lestimateur dun


paramtre statistique avec et F inconnues
On tire B (souvent B 100) chantillons bootstrap

on calcule sur chacun deux lestimateur plug-in


on obtient une distribution des estimateurs plug-in
1 B *b
centre autour de la moyenne
B b =1
on dduit un cart-type qui fournit lapproximation
recherche de lcart-type de lestimateur
on peut dduire un intervalle de confiance [Q2,5 ; Q97,5]
95 % de lestimateur en regardant la 25e plus faible valeur Q2,5
et la 25e plus forte valeur Q97,5 de lestimateur bootstrap

le biais = diffrence entre lestimateur calcul sur S et la


moyenne des estimateurs bootstrap

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

217

Application aux problmes de scoring

Les paramtres que lon cherche estimer sont :

le taux derreur (ou de bon classement) ou une autre mesure


de performance du modle de score (aire sous la courbe
ROC, indice de Gini)
les coefficients de la fonction de score
les prdictions (probabilits a posteriori dappartenance
chaque classe prdire)

La population globale sur laquelle devrait tre construit le


modle est inconnue :

on tire B chantillons bootstrap partir de lchantillon initial


puis on construit un modle sur chaque chantillon
on obtient des intervalles de confiance des indicateurs de
performance (ex : aire sous la courbe ROC) du modle

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

218

Rchantillonnage boostrap et
bagging

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

219

Biais des estimations

NB

: la moyenne des taux derreur sur les chantillons


bootstrap est une estimation biaise par optimisme
Une variante consiste calculer les erreurs sur les seuls
individus nappartenant pas lchantillon bootstrap : cest
lestimation out-of-bag
Comme cette estimation est cette fois-ci biaise par
pessimisme, Efron et Tibshirani ont propos de pallier
simultanment le biais optimiste de lestimation de la
resubstitution et le biais pessimiste du bootstrap out-ofbag par la formule magique du .632-bootstrap :
Estimation.632 = 0,368 x estimation(resubstitution)
+
0,632 x estimation(bootstrap-oob)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

220

Rchantillonnage boostrap avec


estimation out-of-bag

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

221

Agrgation de modles : le bagging

BAGGING : bootstrap aggregating, Breiman, 1996


Construction dune famille de modles sur n chantillons
bootstrap (tirages avec remise)

Ensuite

agrgs par un vote ou une moyenne des


estimations (ou une moyenne des probabilits en
rgression logistique)

FORETS ALEATOIRES, Breiman, 2001


= Bagging pour les arbres de dcision

en ajoutant un
tirage alatoire parmi les variables explicatives
vite de voir apparatre toujours les mmes variables
Efficace sur les souches ( stumps ), arbres 2 feuilles

contrairement au simple bagging

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

222

Agrgation de modles : le boosting

BOOSTING, Freund et Shapire, 1996


Version adaptative et gnralement

dterministe du

Bagging :

on travaille sur toute la population


et chaque itration, on augmente le poids des individus
mal classs dans les itrations prcdentes
tandis que le poids des bien classs naugmente pas

Plusieurs algorithmes : Discrete AdaBoost, Real AdaBoost,

LogitBoost, Gentle AdaBoost et ARCING (Adaptative


Resampling and Combining)
Avec CART, le nb de feuilles est prendre dans [4,8] ou =
p, o p = nb de variables explicatives

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

223

Diffrence entre bagging et boosting

En boosting :
on construit un ensemble de modles dont on agrge ensuite les
prdictions

Mais :
on nutilise pas ncessairement des chantillons bootstrap mais

plus souvent lchantillon initial complet chaque itration (sauf


dans quelques versions des algorithmes AdaBoost et Arcing)
chaque modle est une version adaptative du prcdent,
ladaptation consistant augmenter le poids des individus
prcdemment mal classs tandis que le poids des bien classs
naugmente pas
lagrgation finale des modles est ralise par une moyenne de
tous les modles dans laquelle chacun est gnralement (sauf
dans lalgorithme Arcing) pondr par sa qualit dajustement

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

224

BAGGING

BOOSTING
Caractristiques

Le bagging est alatoire

Le boosting est adaptatif et gnralement dterministe

On utilise des chantillons bootstrap

On utilise gnralement lchantillon initial complet

Chaque modle produit doit tre performant sur


lensemble des observations

Chaque modle produit doit tre performant sur certaines


observations ; un modle performant sur certains outliers
sera moins performant sur les autres individus

Dans lagrgation, tous les modles ont le mme


poids

Dans lagrgation, les modles sont gnralement


pondrs selon leur qualit dajustement (sauf lArcing)

Avantages et inconvnients
Technique de rduction de la variance par moyenne
de modles

Peut diminuer la variance et le biais du classifieur de base.


Mais la variance peut augmenter avec un classifieur stable

Perte de lisibilit quand le classifieur de base est un


arbre de dcision

Perte de lisibilit quand le classifieur de base est un arbre


de dcision

Inoprant sur les stumps

Efficace sur les stumps

Possibilit de parallliser lalgorithme

Algorithme squentiel ne pouvant tre paralllis

Pas de sur-apprentissage : suprieur au boosting


en prsence de bruit

Risque de sur-apprentissage mais globalement suprieur


au bagging sur des donnes non bruites (lArcing est
moins sensible au bruit)

Le bagging fonctionne souvent mieux que le


boosting

mais quand le boosting fonctionne, il fonctionne mieux

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

225

Questions sur le boosting

Utiliser des chantillons bootstrap ou lchantillon initial

complet ?
Quelle fonction derreur pour pondrer les individus (rsidu
de la dviance pour un modle linaire gnralis) ?
Faut-il chaque itration nutiliser que lerreur de litration
prcdente, ou la multiplier par lerreur de toutes les
itrations antrieures (risque : zoomer excessivement
sur les individus outliers mal classs) ?
Que faire des individus trs mal classs litration i :
borner leur erreur (ex : limiter 2 le rsidu de la dviance),
leur interdire de participer litration i+1, ou ne rien faire ?
Comment raliser lagrgation finale ? Prendre en compte
tous les modles ou carter ceux qui sajustent trop mal ?

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

226

Rsultat dun boosting (arbre)

Arbre boost

Arbre simple

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

227

Agrgation de modles : Conclusion

Ces

techniques permettent damliorer parfois trs


nettement la qualit (tx de biens classs) et la robustesse
(sur un autre chantillon) des prdictions

mme avec seulement une centaine ditrations


mais surtout sur les arbres de dcision ! et non sur les
classifieurs forts (analyse discriminante ou rgression
logistique) pour lesquels le gain est faible

AVANTAGES

bonne rsistance au bruit


bonne rsistance au sur-apprentissage

perte de lisibilit
importance du temps machine de traitement

INCONVNIENTS

Objet de nombreux travaux thoriques en cours


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

228

Combinaison et agrgation de
modles

Sur :
Appliquer :

Quoi :

Le mme
chantillon

Des chantillons
diffrents

La mme
technique

Modle simple

Agrgation de modles

Des
techniques
diffrentes

Combinaison de
modles

Mlange (*)

(*) Il pourrait sagir dune suite dchantillons bootstrap auxquels seraient


chaque fois appliqus un arbre de dcision et un rseau de neurones.

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

229

Choix dune mthode de


modlisation

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

230

Qualits attendues dune mthode 1/2

La prcision

le taux derreur doit tre le plus bas possible, et laire sous


la courbe ROC la plus proche possible de 1

La robustesse

tre le moins sensible possible aux fluctuations alatoires


de certaines variables et aux valeurs manquantes
ne pas dpendre de lchantillon dapprentissage utilis et
bien se gnraliser dautres chantillons

La concision

les rgles du modle doivent tre les plus simples et les


moins nombreuses possible

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

231

Qualits attendues dune mthode 2/2

Des rsultats explicites

les rgles du modle doivent tre accessibles et


comprhensibles

La diversit des types de donnes manipules

toutes les mthodes ne sont pas aptes traiter les donnes


qualitatives, discrtes, continues et manquantes

La rapidit de calcul du modle

un apprentissage trop long limite le nombre dessais possibles

dans un classement, il est parfois intressant de pouvoir


pondrer les erreurs de classement, pour signifier, par
exemple, quil est plus grave de classer un patient malade en
non-malade que linverse

Les possibilits de paramtrage

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

232

Choix dune mthode : nature des donnes

La rgression linaire traite les variables continues


Lanalyse discriminante traite les variables expliquer

nominales et les variables explicatives continues


Lanalyse discriminante DISQUAL traite les variables
expliquer nominales et les variables explicatives
qualitatives
La rgression logistique traite les variables expliquer
qualitatives (nominales ou ordinales) et les variables
explicatives continues ou qualitatives
Les rseaux de neurones traitent les variables continues
dans [0,1] et transforment les autres
Certains arbres de dcision (CHAID) traitent nativement
les variables discrtes et qualitatives (et transforment les
autres)
CART, C5.0 peuvent aussi traiter les variables continues

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

233

Choix dune mthode : prcision,


robustesse, concision, lisibilit

Prcision : privilgier la rgression linaire, lanalyse


discriminante et la rgression logistique, et parfois les
rseaux de neurones en prenant garde au surapprentissage (ne pas avoir trop de neurones dans la ou
les couches caches)
Robustesse : viter les arbres de dcision et se mfier
des rseaux de neurones, prfrer une rgression
robuste une rgression linaire par les moindres carrs
Concision : privilgier la rgression linaire, lanalyse
discriminante et la rgression logistique, ainsi que les
arbres sans trop de feuilles
Lisibilit : prfrer les arbres de dcision et prohiber les
rseaux de neurones. La rgression logistique, DISQUAL,
lanalyse discriminante linaire et la rgression linaire
fournissent aussi des modles faciles interprter

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

234

Choix dune mthode : autres critres

Peu de donnes : viter les arbres de dcision et les


rseaux de neurones
Donnes avec des valeurs manquantes : essayer de
recourir un arbre, une rgression PLS, ou une
rgression logistique en codant les valeurs manquantes
comme une classe particulire
Les valeurs extrmes de variables continues naffectent
pas les arbres de dcision, ni la rgression logistique et
DISQUAL quand les variables continues sont dcoupes
en classes et les extrmes placs dans 1 ou 2 classes
Variables explicatives trs nombreuses ou trs corrles :
utiliser les arbres de dcision ou la rgression PLS
Mauvaise comprhension de la structure des donnes :
rseaux de neurones (sinon exploiter la comprhension
des donnes par dautres types de modles)

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

235

Choix dune mthode : topographie


des classes discriminer
1

0
0
0
1
0 1
0
1
0
0
1
1
? 0
1
1
0
1

0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11

0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
1
+
1
00 11

? est class en "1"

? est class en "0"

? est class en "0"

Analyse discriminante

Rseau de neurones

Arbre de dcision

Toutes les mthodes inductives de classement dcoupent

lespace des variables en rgions, dont chacune est


associe une des classes
La forme de ces rgions dpend de la mthode employe

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

236

Influence des donnes et mthodes

Pour un jeu de donnes fix, les carts entre les

performances de diffrents modles sont souvent faibles

exemple de Gilbert Saporta sur des donnes dassurance


automobile (on mesure laire sous la courbe ROC) :

rgression logistique : 0,933


rgression PLS : 0,933
analyse discriminante DISQUAL : 0,934
analyse discriminante barycentrique : 0,935

le choix de la mthode est parfois affaire dcole

un peu de la technique de modlisation employe


beaucoup plus des donnes !

Les performances dun modle dpendent :

Do limportance de la phase prliminaire dexploration et


danalyse des donnes

et mme le travail (informatique) de collecte des donnes

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

237

Les 8 principes de base de la


modlisation

La prparation des donnes est la phase la plus longue, pas la plus


passionnante mais la plus importante
Il faut un nombre suffisant dobservations pour en infrer un modle
Validation sur un chantillon de test distinct de celui dapprentissage
(ou validation croise)
Arbitrage entre la prcision dun modle et sa robustesse ( dilemme
biais variance )
Limiter le nb de variables explicatives et surtout viter leur colinarit
Perdre de linformation pour en gagner

dcoupage des variables continues en classes

La performance dun modle dpend plus de la qualit des donnes et


du type de problme que de la mthode

cf. match analyse discriminante vs rgression logistique

On modlise mieux des populations homognes

intrt dune classification pralable la modlisation

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

238

Thorie de lapprentissage de
Vapnik

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

239

Fonction de perte et risque dun


modle

Lerreur de prdiction dun modle se mesure par une

fonction de perte :
y continue L(y,f(x)) = (y f(x))
y = 0/1 L(y,f(x)) = |y f(x)|
Risque (ou risque rel) = esprance de la fonction de perte
sur lensemble des valeurs possibles des donnes (x,y)
comme on ne connat pas la loi de probabilit conjointe de x
et y, on ne peut questimer le risque

lestimation la plusn courante est le risque empirique


1
( y f ( x ) ) ou 1 1 yi f ( xi )

n
n
2
n

i =1

i =1

on retrouve le taux derreur pour y = 0/1 (n = effectif)

Biais lorsque le risque empirique est mesur sur

lchantillon dapprentissage : mieux vaut lchantillon de


test qui approche mieux le risque rel

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

240

Risque empirique en apprentissage


et test

Si les courbes de risque empirique sur les donnes


dapprentissage et de test convergent partir dune taille n
de lchantillon dapprentissage, le pouvoir discriminant du
modle se gnralisera probablement bien
taux
d'erreur

mauvaise
gnralisation
donnes de test
et d'application
t
donnes apprentissage

bonne
gnralisation

taille de l'chantillon

Cette convergence a souvent lieu mais pas toujours


Sil y a convergence, on dit que le modle est consistent
06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

241

Complexit et VC-dimension

Plus gnralement, Vladimir Vapnik (The Nature of Statistical


Learning Theory, 1995) sest intress la convergence du
risque empirique sur lchantillon dapprentissage vers le risque
rel (approch par le risque empirique sur lchantillon de test)
Il a dmontr deux rsultats fondamentaux :

sur lexistence dune convergence


sur la vitesse de convergence
Pour les noncer, il faut introduire une caractristique du modle
appele dimension de Vapnik-Chernovenkis (= VC-dimension).
La VC-dimension est une mesure de complexit dun modle

dfinie pour toute famille de fonctions Rp R (donc en particulier

pour les modles de classement {f(x) 0, oui ou non})


dont elle mesure le pouvoir sparateur des points de Rp

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

242

Hachage de points

Soit un chantillon de points (x1, .. , xn) de Rp


Il existe 2n diffrentes manires de sparer cet chantillon

en deux sous-chantillons
Chaque manire correspond un ensemble (x1,y1) , ,
(xn,yn) , avec yi = +1 ou 1
Un ensemble F de fonctions f(x,) hache lchantillon si
les 2n sparations peuvent tre faites par des f(x,) F,
c.a.d si on peut toujours trouver tel que signe(f(xi,)) = yi
pour tout i
Cela signifie que F peut discriminer nimporte quelle
configuration de lchantillon : problme de classement
Les droites du plan peuvent hacher certains
chantillons de trois points (ceux qui sont non aligns)
mais aucun chantillon de quatre points

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

243

VC-dimension

La VC-dimension de F est le plus grand nombre de points

qui peuvent tre hachs par les fonctions de F


Autrement dit, la VC-dimension de F vaut h si :
il existe un chantillon (x1, .. , xh) de Rp qui peut tre hach
aucun chantillon (x1, .. , xh+1) de Rp ne peut tre hach par F
Cela ne signifie pas que tout chantillon (x1, .. , xh) de Rp
puisse tre hach (exemple de 3 points aligns dans le
plan)
La VC-dimension des droites du plan vaut 3
La VC-dimension des paraboles du plan vaut 4

(source : Hastie Tibshirani Friedman)


06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

244

Exemples de VC-dimension

La VC-dimension de lensemble des hyperplans de Rp est


p+1

Mais la VC-dimension dune classe de fonctions nest pas

toujours gale son nombre de paramtres


Exemple : la VC-dimension de lensemble de fonctions
f(x,) = signe (sin(.x)), x [0,1],
avec un paramtre , est infinie
(source : Hastie
Tibshirani Friedman)

En effet, si grand soit le nombre de points, on pourra


toujours trouver un assez grand pour les sparer

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

245

Hyperplans avec contrainte

L'ensemble des hyperplans de Rp de marge donne 2M,

cest--dire dquation contrainte par |||| 1/M, a une


VC-dimension borne par R/M (et bien sr par p+1) si
les observations sont dans une sphre de rayon R
Plus prcisment h min [partie entire (R/M),p] + 1
Cette formule montre que h nest pas un majorant dfini a
priori mais quil dpend de la configuration des donnes
Maximiser la marge minimiser la VC-dimension
La marge est le couloir qui spare les
observations. Elle vaut 2/ |||| si lq.
de lhyperplan est <.x> + 0
Si M > R, visiblement deux points ne
peuvent jamais tre spars (h 1)
B1

B2

b21
b22

margin

b11

b12

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

246

Thormes de convergence

Les deux thormes de Vladimir Vapnik :

le risque empirique sur lchantillon dapprentissage Remp dun


modle converge vers son risque rel R sa VC-dimension
est finie
lorsque la VC-dimension h dun modle est finie, on a, avec
une probabilit derreur :

(*) R < Remp +

h (log(2n / h) + 1) log( / 4)
n

Cette majoration est universelle : elle sapplique tous les

modles, sans hypothse sur la loi conjointe de x et y


La majoration (*) nest vraie quavec une probabilit
derreur donne , et le majorant tend vers linfini lorsque
tend vers 0

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

247

Consquences

Le meilleur modle est celui qui minimise la somme de Remp

et de h (log(2n / h) + 1) log( / 4)
n
Cest le modle qui ralise le meilleur compromis entre
ajustement et robustesse
Pour une taille n fixe, lorsque h diminue, gnralement
Remp augmente et h (log(2n / h) +n1) log( / 4) diminue il faut
trouver la valeur optimale de h
Si n augmente, h peut augmenter aussi, car le terme
h (log(2n / h) + 1) log( / 4)
tend vers 0 lorsque h/n tend vers 0
n
A pouvoir prdictif gal, il privilgier le modle qui a la plus
faible VC-dimension

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

248

Cas des modles avec contrainte

Dans quelques cas simples, la VC-dimension dun modle

est gale au nombre de paramtres


Mais elle est le plus souvent difficile calculer et mme
majorer efficacement, ce qui limite lintrt pratique de la
majoration (*)
Les support vector machines (SVM) sont lun des premiers
types de modles dont il fut possible de calculer la VCdimension
Comme la rgression rgularise, il sagit de modles
calculs en appliquant une contrainte |||| 1/M
On a vu quen maximisant la marge 2M, on minimise h :
cela permet dassurer et de contrler le pouvoir de
gnralisation du modle

la rgression ridge est gnralement plus robuste que la


rgression linaire ordinaire

06/12/2009

Stphane Tuffry - Data Mining - http://data.mining.free.fr

249

You might also like