Data Mining Prediction

1
Techniques prdictives de
data mining
Walid AYADI
2
Techniques prdictives
visent extrapoler de nouvelles informations
partir des informations prsentes (cest le cas du
scoring)
expliquent les donnes
il y a une variable cible prdire.
Data mining - Walid Ayadi

3
Deux grandes familles
Classement : la variable expliquer est qualitative
Prdiction : la variable expliquer est continue

4
Classement
Le classement consiste placer chaque individu
de la population dans une classe, parmi plusieurs
Classes prdfinies, en fonction des caractristiques
de lindividu indiques.
Le rsultat du classement est un algorithme

permettant daffecter chaque individu la meilleure
classe.

5
Prdiction
La prdiction consiste estimer
- la valeur dune variable continue (dite expliquer ,

cible , dpendante ou endogne )
- en fonction de la valeur dun certain nombre dautres
variables (dites explicatives , indpendantes ou
exognes )

6
Mthodes prdictives

7
Rgression linaire multiple

8
Rgression multiple
Estimer la relation entre une variable dpendante
(Y ) quantitative et plusieurs variables indpendantes (X1,X2, )
Equation de rgression multiple

Cette quation prcise la faon dont la variable dpendante est
relie aux variables explicatives :
Y b0 b1 X 1 b 2 X 2 ...b p X p e
o b0, b1, b2, . . . , bp sont les paramtres et e est un bruit alatoire
reprsentant le terme derreur.
9
Rgression multiple
Les termes de lquation
yi b0 b1 x1i b 2 x2i ...b p x pi e i
ime observation Terme constant Influence de

de Y la variable Xp
Influence de la
variable X1
Rsidu de la ime
observation
10
Rgression multiple
Ecriture matricielle du modle

b0
y1 1 x1,1 x1, p e 1
b1

yn 1 x1,n xn , p e n
b p
y Xb e
11
Rgression multiple
Estimation des coefficients de

rgression / mthode des moindres
carrs ordinaires :
Le principe de lestimation des
coefficients de rgression :
b0 , b1 , b 2 ,..., b p
consiste minimiser la somme des
carrs des rsidus :
n n
i i i
e 2
i 1
( y
y ) 2
i 1
12
Rgression simple
Les estimations b0 ,b1
b1
( y y )( x x ) cov( x, y)
i i i

(x x)
i i
2
s 2
x
b0 y b1 x
Dmonstration?....
13
Rgression multiple
Estimation des coefficients du modle

La mthode des moindres carrs donne pour rsultat :

b X T X
1
X TY
Interprtation des coefficients de rgression estims

La pente bk (k0)
Lestime de Y varie dun facteur gal bk lorsque Xk augmente
dune unit, les autres variables tant maintenues constantes.
Lordonne lorigine b0
Cest la valeur moyenne de Y lorsque toutes les Xi sont nulles.
14
Rgression multiple
Contrainte : les variables explicatives doivent tre indpendantes.
Supposons que les variables dun modle non indpendantes

(corrles) alors b X T X 1 X T Y

Car si les variables sont corrles donc les colonnes de X T X

sont corrles et ainsi X T X 1 .
Rappel : si les colonnes dune matrice X sont corrles alors
1
X 1
tComX puisque det X 0
det X
avec det X : dterminant de X et Com X : comatrice de X
15
Rgression multiple
La mthode moindre carr ordinaire (MCO) est optimale car :

- les estimateurs sont sans biais : E ( ) etE ( b ) b
- de variance minimale parmi tous les estimateurs linaires
- on dit quils sont BLUE : best linear unbiased estimators
Hypothse de normalit i ~ N(0,s) les estimateurs sont de

variance minimale parmi tous les estimateurs
16
Exercice 1
Au cours dun mois donn, le reprsentant dune socit
commercialisant du matriel de bureau a visit 56
entreprises rpartis dans sept dpartement. Le tableau
suivant indique, dpartement par dpartement, le
nombre de visites ralises de mme que les commandes
enregistrs pendant la priode correspondante mesures
en milliers de dinars.
17
Exercice 1
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51
1. Estimer les paramtres du modle.

2. Interprter les rsultats trouvs.
18
Exercice 1
i Xi Yi XiYi X i2 X i X ( X i X ) 2 Yi Y ( X i X )(Yi Y )
1 2 23 46 4 -6 36 -13 78
2 3 27 81 9 -5 25 -9 45
3 5 28 140 25 -3 9 -8 24
4 9 39 351 81 1 1 3 3
5 10 39 390 100 2 4 3 6
6 12 45 540 144 4 16 9 36
7 15 51 765 255 7 49 15 105
Total 56 252 2313 58 0 140 0 297
8
Moy. 8 36 330.4 84 0 20 0 42.4
19
Exercice 1
cov( X , Y ) X iYi nXY 2313 (7)(8)(36) 42.4

b 2.12
VarX X i nX
2 2
588 (7)(64) 20
Y bX 36 (2.12)(8) 19
Lquation du modle est :
Y = 2.12 X +19
20
Exercice 1
Lquation du modle est :
Y = 2.12 X +19
Ce rsultat peut tre interprt de la faon suivante :
en labsence de visite, le montant des commandes dun

dpartement slverait 19 000 dinars.
chaque visite dun reprsentant amne une masse de

commandes supplmentaires denviron 2120 dinars.
21
Rgression multiple : qualit dajustement
Loi des carts
(Yi Y ) (Yi Y ) (Yi Yi )

2 2 2
22
Rgression multiple : qualit dajustement
Coefficient dajustement R = SCR / SCT

R = proportion de variation de la variable cible explique par
toutes les variables explicatives
Bon ajustement si R proche de 1
R est biais (optimiste car croissant avec le nombre de
variables) et on lui substitue le R ajust :
23
Exercice 1 :
Au cours dun mois donn, le reprsentant dune socit
commercialisant du matriel de bureau a visit 56
entreprises rpartis dans sept dpartement. Le tableau
suivant indique, dpartement par dpartement, le
nombre de visites ralises de mme que les commandes
enregistrs pendant la priode correspondante mesures
en milliers de dinars.
24
Exercice 1 : suite
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51
3. Calculer la dispersion rsiduelle (somme des carts entre les

Observations et les valeurs estimes par le modle).
4. Calculer le coefficient de dtermination et le coefficient ajust.
25
Exercice 1 : suite
i Xi Yi Yi Yi Y (Yi Y ) 2 (Yi Y ) (Yi Y ) 2 (Yi Yi ) (Yi Yi ) 2
1 2 23 23.27 -13 169 -12.73 162 0.27 0.07
2 3 27 25.39 -9 81 -10.61 112.57 -1.61 2.59
3 5 28 29.64 -8 64 -6.36 40.45 1.64 2.69
4 9 39 38.12 3 9 2.12 4.49 -0.88 0.77
5 10 39 40.24 3 9 4.24 17.98 1.24 1.54
6 12 45 44.49 9 81 8.49 72.08 -0.51 0.26
7 15 51 50.85 15 225 14.85 220.52 -0.51 0.02
Total 638 630.09 7.94
Dispersion rsiduelle :
e (Yi Yi ) 7.94

2 2
i
26
Exercice 1 : suite
i Xi Yi Yi Yi Y (Yi Y ) 2 (Yi Y ) (Yi Y ) 2 (Yi Yi ) (Yi Yi ) 2
1 2 23 23.27 -13 169 -12.73 162 0.27 0.07
2 3 27 25.39 -9 81 -10.61 112.57 -1.61 2.59
3 5 28 29.64 -8 64 -6.36 40.45 1.64 2.69
4 9 39 38.12 3 9 2.12 4.49 -0.88 0.77
5 10 39 40.24 3 9 4.24 17.98 1.24 1.54
6 12 45 44.49 9 81 8.49 72.08 -0.51 0.26
7 15 51 50.85 15 225 14.85 220.52 -0.51 0.02
Total 638 630.09 7.94
Coefficient de dtermination :
R 2 i
(Y Y )

2
630
0.987
(Yi Y ) 638
2
Le modle restitue 98,7% de linformation totale : une relation

linaire presque parfaite sur les donnes observes.
27
Rgression multiple : apport marginal de Xj

Modle : Y = b0 + b1X1 + + bjXj + + bkXk + e
Test de Student : H0 : bj = 0 (Xj non significative)
H1 : bj 0 (Xj significative)
b j b j
Soit la statistique t telle que t
S b
j
S X jY
S b : lerreur standard sur b j
j
X
i
ij nX j
i i
(Y Y ) 2
S X jY i
: lcart type des erreurs du modle
n2
28

Test de Student : H0 : bj = 0 (Xj non significative)
H1 : bj 0 (Xj significative)
Sous H0 : b j 0
t
S b
j
La statistique t suit une loi de Student (n-2) degr de libert
Calculer empiriquement la statistique du test et la comparer aux

valeurs du tableau de Student selon le seuil de significativit fix a priori.
Seuil de significativit ou de confiance : 0.05, 0.01, 0.1
29

Tableau de Student
30
Probabilit de dcision : P-valeur ou P-value
P-valeur = p(- t,n-1 < tobs <t,n-1 / H1 )

P-valeur=Prob.(dcider H0 / H1 rel)
P-value proche de 0 dcider H1 : Xj significative
P-value diffrent de 0 dcider H0 : Xj non significative
31
Exercice 1 : suite
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51
5. Appliquer le test de Student afin de vrifier la significativit de

la variable explicative Nombre de visites dans la modlisation de
la variables Commandes au seuil de confiance 0.02
32
Exercice 1 : suite
5.
7.94
S X iY 1.26
5
1.26
Sa 0.106
11.83
2.12
t 20
0.106
On compare t par rapport au chiffre lu sur la table de Student pour
n-k-1=7-2=5 degrs de libert (3.365 avec un seuil de confiance 0.02 )
variable trs significative ( t=20 >> 3.365)

33
Rgression multiple : apport de toutes les Xj

Test de Fisher-Snedecor :
H0 : b1 = b2 == bk = 0 (toutes les Xj non significatives)
H1 : b1 b2 bk 0 (au moins une Xj significative)
Sous H0 , la statistique f suit une loi de Fisher (k , n-k-1) degr de

libert avec :
R2 / k
f
(1 R 2 ) /( n k 1)
Avec n nombre dindividus (lignes) et k nombre de variables
(colonnes)
34
R2 / k
f
(1 R 2 ) /( n k 1)
On compare f avec une valeur f lue dans le tableau de Fisher un seuil

et en fonction des degrs de libert k et (n-k-1).
Si f f alors au moins un des coefficients est diffrent de zro.
P-valeur = p(fobs <f,k,n-k1 / H1 )

35

Valeurs f de la variable de
Fisher-Sndcor F(v1,v2)
ayant la probabilit d'tre
dpasses
36

Valeurs f de la variable de
Fisher-Sndcor F(v1,v2)
ayant la probabilit d'tre
dpasses
37
Exercice 2 :
Supposons que les services de police souhaitent tablir un modle de
rgression linaire reliant la variable endogne taux de criminalit
juvnile mesur par un indicateur Y, la densit de la population urbaine
mesure par un indicateur X1 et aux taux de scolarit X2. On a relev 5
observations :
Y X1 X2
1 2 4
1 3 2
2 5 2
3 7 1
3 8 1
1. Dterminer les paramtres du modle.

2. Calculer le coefficient de dtermination et le coefficient ajust.
3. Tester la significativit de chaque variable avec le test de Student.
4. Tester la significativit de toutes les variables avec le test de Fisher.
38
Exercice 2 : rponse
1. Pour simplifier les calculs matriciels, nous oprons un changement de
variables Y=Y-2, X1=X1-5, X2=X2-2
Y X1 X2
-1 -3 2
-1 -2 0
0 0 0
1 2 -1
1 3 -1
39
Exercice 2 : rponse
3 2
2 0
3 2 0 2 3 26 11
X 'X 0 0
2 0 0 1 1 11 6
2 1
3 1
1 1 6 11 0.17 0.31
(X X )
'

35 11 26 0.31 0.74

40
Exercice 2 : rponse 1
1
3 2 0 2 3 10
XY
'
0
2 0 0 1 1 4
1
1
0.17 0.31 10 0.46

b
0.31 0.74
4 0.14
b0 Y b1 X 1 b2 X 2 2 (0.46 5) (0.14 2) 0.58

Do lexpression finale de lquation de rgression multiple estime :
Y 0.46 X 1 0.14 X 2 0.58

41
Exercice 2 : rponse
Il existe une relation positive assez forte entre le taux de criminalit

juvnile et la densit urbaine. Laugmentation de lindicateur de ladensit
urbaine dune unit entraine laugmentation de la criminalit juvnile de
46% et laugmentation du taux de scolarisation dune unit de mesure
entraine laugmentation de criminalit juvnile 14%.
42
Exercice 2 : rponse
2. Coefficient de dtermination : R 2 0.971
Coefficient de dtermination ajust : R 2
ajust 0.942
3. Test de Student :
t X1 4.61 significative au niveau de confiance 0.05
t X 2 0.83 non significative
4. Test de Fisher : F= 34, il y a au moins une variable non significative.

43
Rgression multiple : exemple

Variable expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = March total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicit
X7 = Frais de ventes
X8 = Total budget publicit de la branche
44
Rgression multiple : exemple

R et R ajust proche de 1 :
Model Summary
un bon ajustement
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicit de la branche,
March total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicit, Prix, Frais de
v entes
Coeffi cientsa
Unstandardized
Coef f icients Variables
Model B St d. Error t Sig. significatives et
1 (Constant) 3129.231 641.355 4.879 .000 pertinentes :
MT 4.423 1.588 2.785 .009
P-valeur < 0.05
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
45
Mthodes de slection
automatique de variables
46
Slection de variables
Slection des variables pertinentes du modle :
Slectionner les variables avec des P-valeur proches de 0 partir du
modle complet ?
variables non pertinentes en prsence dautres variables
variables pertinentes seulement en prsence dautres variables
mthode dlimination progressive (backward selection)

mthode dintroduction progressive (forward selection)
mthode de rgression pas- pas (stepwise regression)
47
Rgression multiple : slection automatique

de variables
Mthode d'limination progressive (backward selection)
- La procdure dmarre en estimant les paramtres du modle complet
incluant toutes les variables explicatives que l'on a slectionnes et juges
pertinentes introduire.
- A chaque tape, la variable associe la plus grande p-value (du test de

Student pour la rgression linaire) est limine du modle, si cette valeur
est suprieure au seuil de confiance fix a priori .
- La procdure s'arrte lorsque les variables restant dans le modle ont

toutes une p-value plus petite que le seuil.
48
de variables
Mthode dintroduction progressive (forward selection)
- Il faut choisir au dpart les variables que l'on juge comme pouvant appartenir
au modle.
- A chaque tape de la procdure, une variable est ajoute en commenant par la

variable la plus fortement associe Y (plus petite p-value obtenue en ralisant
l'ensemble des modles de rgression linaire simple).
- Ensuite, on value l'apport spcifique de chacune des variables non encore

introduites dans le modle qui contient dj la ou les variable(s) retenue(s)
dans les tapes prcdentes et on introduit la variable dont l'apport
spcifique est le plus important. L'introduction d'une nouvelle variable dans
le modle ne se fait que si la p-value correspondante est infrieure un seuil de
confiance fix a priori. On peut utiliser aussi R ajust pour la rgression linaire.
- La procdure s'arrte lorsque toutes les variables sont introduites ou

lorsqu'on ne peut plus introduire de nouvelles variables selon le critre choisi
(plus petite p-value des variables restantes suprieure au seuil).
49

de variables
Mthode de rgression pas pas (stepwise regression)
Il s'agit d'une amlioration de la mthode d'introduction progressive.
- A chaque tape de la procdure, on examine la fois si une nouvelle
variable doit tre ajoute selon un seuil d'entre fix, et si une des
variables dj incluses doit tre limine selon un seuil de sortie fix.
- Cette mthode permet de retirer du modle d'ventuelles variables qui

seraient devenues moins indispensables du fait de la prsence de celles
nouvellement introduites.
- La procdure s'arrte lorsque aucune variable ne peut tre rajoute ou

retire du modle selon les critres choisis.
50
Rgression multiple : exemple backward

Variable expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = March total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicit
X7 = Frais de ventes
X8 = Total budget publicit de la branche
51

R et R ajust proche de 1 :
Model Summary
un bon ajustement
1 .898a .806 .752 256.29
v entes
Coeffi cientsa
Unstandardized
Coef f icients Variables
Model B St d. Error t Sig. significatives et
1 (Constant) 3129.231 641.355 4.879 .000 pertinentes :
MT 4.423 1.588 2.785 .009
P-valeur < 0.05
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
52
Model Summary
Etape 1
1 .898a .806 .752 256.29
v entes
Coeffi cientsa
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
Variable enleve : Total publicit de la branche

53
Rgression multiple : exemple backward Model Summaryb
Etape 2
1 .898a .806 .760 251.99
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicit, Inv estissements, Budget de
recherche, Prix, March total
b. Dependent Variable: Vent es
Coeffi cientsa
Unstandardized
Coef f icients
1 (Constant) 3115.648 579.517 5.376 .000
MT 4.426 1.561 2.836 .008
RG 1.706 3.191 .535 .597
PRIX -13.445 8.029 -1.675 .104
BR -3.392 6.451 -.526 .603
INV 1.931 .756 2.554 .016
PUB 8.558 1.784 4.798 .000
FV 1.482 2.710 .547 .588
Variable enleve : Budget de recherche

54
Etape 3 Model Summaryb
1 .897a .804 .766 249.04
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicit, Inv estissements, Prix, March
total
b. Dependent Variable: Vent es
Coeffi cientsa
Unstandardized
Coef f icients
1 (Constant) 3137.547 571.233 5.493 .000
MT 4.756 1.412 3.368 .002
RG 1.705 3.153 .541 .593
PRIX -14.790 7.521 -1.966 .058
INV 1.885 .742 2.539 .016
PUB 8.519 1.761 4.837 .000
FV .950 2.484 .382 .705
Variable enleve : Frais de ventes
Variables slectionnes via backward selection et Student test : MT, PRIX,

INV, PUB
55

de variables
Il est important de noter que ces mthodes peuvent ne pas conduire au
mme choix de variables explicatives retenir dans le modle final.
Elles ont l'avantage d'tre faciles utiliser et de traiter le problme de la

slection de variables de faon systmatique.
56
Modles paramtriques:
Rgression Logistic

57
La rgression logistique binaire

Les donnes
Y = variable expliquer binaire
X1,, Xk = variables explicatives numriques
ou binaires (indicatrices de modalits)
Rgression logistique simple (k = 1)
Rgression logistique multiple (k > 1)

58
La rgression logistique simple
Variable dpendante : Y = 0 / 1
Variable indpendante : X
Objectif : Modliser
(x) = Prob(Y = 1/X = x)
Pb de rgression : modliser lesprance conditionnelle

E(Y/X=x) = Prob(Y=1/X=x) sous la forme E(Y/X=x) = 0 + 1X1
Difficult ! X continue terme de droite non born alors

que Prob(Y=1/X=x) [0,1] il faut le transformer !
Le modle linaire (x) = b0 + b1 X convient mal lorsque X

est continue.
Le modle logistique est plus naturel.
59
Prdiction dune variable binaire
Visiblement la rgression
linaire ne convient pas
La figure fait pressentir que ce

nest pas une fonction
linaire de 0 + 1X1quil faut
appliquer, mais une courbe en S
60
Le modle logistique
b0 b1x Probabilit d'une maladie cardiaque

e
( x ) b0 b1x
en fonction de l'age
1 e
1.0
.8
ou .6
.4
Prob(Y=1 / X)
( x )
) b0 b1x
.2
Log(
1 ( x ) 0.0
10 20 30 40 50 60 70
AGE
Fonction de lien : Logit
60
61
Estimation des paramtres du modle logistique
Les donnes Le modle
X Y
x1 y1 ( x i ) P ( Y 1 / X x i )

xi yi eb0 b1xi
b0 b1x i
xn yn 1 e
yi = 1 si caractre prsent,
0 sinon
62
Vraisemblance des donnes

Probabilit dobserver les donnes
[(x1,y1), , (xi,yi), , (xn,yn)]
n
Prob( Y yi / X x i )
i 1
n
( x i ) yi (1 ( x i ))1yi
i1
n b 0 b1 xi
e 1
( b 0 b1 xi
) yi
( b 0 b1 xi
)1 yi
i 1 1 e 1 e
(b0 , b1 )
63
Estimation du maximum de vraisemblance

n
L(b0 , b1 ) Log ((b0 , b1 )) Log[ ( xi ) (1 ( xi )
yi 1 yi
]
i 1
n
( xi )
yi Log ( ) Log (1 ( xi ))
i 1 1 ( xi )
n
yi (b0 b1 xi ) Log (1 exp(b0 b1 xi ))
i 1
, b )
On cherche b0 et b1 maximisant la Log-vraisemblance L(b0 1
Pas de solution analytique utiliser une mthode numrique
itrative (ex : Newton-Raphson)
64
TEST DE WALD
Le modle eb0 b1x
( x ) P( Y 1 / X x )
1 eb0 b1x
Test de Wald
H0 : b1 = 0
H1 : b1 0
Sous H0 , la statistique de Wald suit une loi de Khi 2 1 degr de libert avec :
b 12
Wald 2
s1
s12 variance de b1
Dcision de rejeter H0 au risque
64
Rejet de H0 si Wald 12 (1)
65
TEST DE WALD
66
TEST DE WALD
67
Mesure de la qualit de la modlisation
R2 de Cox & Snell

( cte) 2 avec l(cte) vraisemblance avec seulement la
R2 1 [ ]n constante du modle et l(cte,X) vraisemblance
(cte, X ) avec la constante et les paramtres des
variables.
R2 ajust de Nagelkerke
2
R
2
2 2
R adj
R max Max R 2 1 [(cte)] n
68
Vraisemblance et dviance dun modle

Soit L(n) = vraisemblance du modle satur (avec toutes
les variables explicatives et toutes les interactions pour en
avoir autant que dobservations distinctes) = vraisemblance
maximale
Soit L(k) = vraisemblance du modle avec k variables
On dfinit la dviance :
D(k) = 2 [Log L(k) Log L(n)] = 2 Log L(k)
puisque L(n) = 1 pour une cible 0/1
But de la rgression logistique : maximiser la vraisemblance
L(k) minimiser la dviance D(k)
Modle retenir : modle k variables tel que la
dviance est la plus faible.
69
Comparaison des modles

Pour savoir sil convient dajouter q variables explicatives
un modle qui en contient dj k
On calcule la diffrence des dviances

D(k) - D(k+q) = 2 [Log L(k) - Log L(k+q)]
Sous lhypothse H0 de la nullit des q derniers

coefficients, D(k) - D(k+q) suit un q degr de libert
Sous le seuil critique de la valeur du ( si la

probabilit dpasse 0,05) : on rejette les q nouvelles
variables
70
Comparaison des modles

Critre AIC (Akaike Information Criterion) :
AIC = 2 Log L(k) +2 k

k : nombre de variable
Modle retenir : Modle avec k variables tel que

AIC le plus faible.
71
Exemple : age et maladie chronique du coeur
Variable Age pertinente selon le test de Wald.

Le R-deux de Cox et Snell du modle se situe 0,25 et indique que seulement
25 % de la variation dans la probabilit pour un patient d'tre malade pourrait
tre explique par la variable Age. Le R-deux de Nagelkerke qui est une version
ajuste du R-deux de Cox et Snell se situe 0,34. Ds lors, la variable Age
contribue expliquer 34 % de la variation dans la probabilit pour un patient
d'tre malade.
72
Tableau de classification
Une observation i est affecte la classe [Y=1] si i c.
Exemple: tableau de classification (c = 0.5)

Observation 0 1 Classe
1 0.3 0.7 1
2 0.6 0.4 0
3 0.9 0.1 0
4 0.15 0.85 1
5 0.75 0.25 0
73
Validation des modles

Matrice de confusion :
Exemple :
Taux de bon classement total = (1800+1700) / 4000 = 87,5 %

Taux de bon classement de la classe A = 1800/2000 = 90 %
Taux de bon classement de la classe B = 1700/2000 = 85 %
74
La rgression logistique multiple
Exemple : Prvision de faillite
Les donnes
Les ratios suivants sont observs sur 46 entreprises :
- X1 = Flux de trsorerie / Dette totale

- X2 = Resultat net / Actif
- X3 = Actif court terme / Dette court terme
- X4 = Actif court terme / Ventes
- Y = F si faillite, NF sinon
Deux ans aprs 21 de ces entreprises ont fait faillite et 25 sont restes en
bonne sant financire.
Case Su mmariesa
75
current
Les donnes
assets / current
cash flow / net income / current assets /
total debt total assets li abil ities net sales FAILLIT E
1 -.45 -.41 1.09 .45 F
des entreprises
2 -.56 -.31 1.51 .16 F
3 .06 .02 1.01 .40 F
4 -.07 -.09 1.45 .26 F
5 -.10 -.09 1.56 .67 F
6 -.14 -.07 .71 .28 F
7 .04 .01 1.50 .71 F
8 -.07 -.06 1.37 .40 F
9 .07 -.01 1.37 .34 F
10 -.14 -.14 1.42 .43 F
11 -.23 -.30 .33 .18 F
12 .07 .02 1.31 .25 F
13 .01 .00 2.15 .70 F
14 -.28 -.23 1.19 .66 F
15 .15 .05 1.88 .27 F
16 .37 .11 1.99 .38 F
17 -.08 -.08 1.51 .42 F
18 .05 .03 1.68 .95 F
19 .01 .00 1.26 .60 F
20 .12 .11 1.14 .17 F
21 -.28 -.27 1.27 .51 F
22 .51 .10 2.49 .54 NF
23 .08 .02 2.01 .53 NF
24 .38 .11 3.27 .35 NF
25 .19 .05 2.25 .33 NF
26 .32 .07 4.24 .63 NF
27 .31 .05 4.45 .69 NF
28 .12 .05 2.52 .69 NF
29 -.02 .02 2.05 .35 NF
30 .22 .08 2.35 .40 NF
31 .17 .07 1.80 .52 NF
32 .15 .05 2.17 .55 NF
33 -.10 -.01 2.50 .58 NF
34 .14 -.03 .46 .26 NF
35 .14 .07 2.61 .52 NF
36 .15 .06 2.23 .56 NF
37 .16 .05 2.31 .20 NF
38 .29 .06 1.84 .38 NF
39 .54 .11 2.33 .48 NF
40 -.33 -.09 3.01 .47 NF
41 .48 .09 1.24 .18 NF
42 .56 .11 4.29 .44 NF
43 .20 .08 1.99 .30 NF
44 .47 .14 2.92 .45 NF
45 .17 .04 2.45 .14 NF
46 .58 .04 5.06 .13 NF
a. Limited to first 100 cases.
76
Rsultats
Model Summary
-2 Log Cox & Snell Nagelkerke

Step likelihood R Square R Square
1 27. 443 .543 .725
Variables in the Equation
B S.E. Wald df Sig. Exp(B)

Step
a
X1 -7.138 6. 002 1. 414 1 .234 .001
1 X2 3. 703 13. 670 .073 1 .786 40. 581
X3 -3.415 1. 204 8. 049 1 .005 .033
X4 2. 968 3. 065 .938 1 .333 19. 461
Constant 5. 320 2. 366 5. 053 1 .025 204.283
a. Variable(s) ent ered on step 1: X1, X2, X3, X4.
77
Le modle estim
Pr ob(Y F / X)
5.320 7.138X1 3.703X 2 3.415X 3 2.968X 4
e
5.320 7.138X1 3.703X 2 3.415X 3 2.968X 4
1 e
Prvision de faillite
78
Analyse linaire discriminante

79
Analyse discriminante
Situation : on a un ensemble dindividus caractriss par
une variable expliquer Y qualitative et des variables
explicatives Xi quantitatives
Analyse discriminante descriptive : trouver une

reprsentation des individus qui spare le mieux les groupes
Analyse discriminante prdictive : trouver des rgles

daffectation des individus leur groupe
Lanalyse discriminante offre des solutions ces deux

problmatiques
80
Principe analyse discriminante

Crer une mthode pour choisir entre les combinaisons
linaires des variables celle qui maximise l'homognit
de chaque classe (Fisher 1936)
Thorme de Huyghens : dcomposer la matrice de

covariances de la population de taille n en deux matrices
diffrentes, l'une donnant la variabilit dans chacune
des k classes et l'autre la variabilit entre les k classes:
S=E+H
S matrice des variances/covariances
E matrice de la variabilit inter-classe
H matrice de la variabilit intra-classes
81
Chercher des fonctions qui sparent le mieux entre les

classes des fonctions qui maximisent la variabilit
inter-classes :
calculer le vecteur F qui maximise
Ft EF / FtSF
on dduit la relation :
EF = SF
qui devient, lorsque la matrice de covariances est inversible
S-1EF = F
82

Les variables qui maximise la variabilit inter-classes est
donne par XF1 :
o F1 est le vecteur propre associ la plus grande valeur
propre de la matrice S-1E.
La variabilit inter-classes associe reprsente ainsi la

proportion 1 de la variabilit totale.
Cette valeur est donc une mesure de la capacit

discriminante de F1, elle sera d'autant plus importante
que 1 s'approchera de 1.
83
Recherche des facteurs discriminants

Le 1er facteur discriminant (F1) est une nouvelle variable,
combinaison linaire des variables descriptives (centres),
dont la variance inter-classe est maximum (ou, de faon
quivalente la variance intra-classe est minimum).
Exemple : analyse discriminante pour k=3

84

Gomtriquement: le 1er facteur dtermine un axe dans
le nuage de points (passant par l'origine) tel que les
projections des points sur cet axe aient une variance
inter-classe (variance des moyennes de classe) maximale.

85

Le 2eme facteur (F2) est non corrl (perpendiculaire) au
1er et de variance inter-classe max. Etc pour le 3eme ...

86
Proprits des facteurs discriminants
Les facteurs sont entirement dtermins par la matrice

dfinie par: S-1E (vecteurs propres)
Le nombre maximum de facteurs discriminants = k 1

k : nombre de classe de la variable cible modliser
La part de variance inter-classe explique =

variance inter/ variance totale est dcroissante entre les
facteurs successifs.
87
Analyse discriminante descriptive

Si 2 groupes => 1 seul facteur = axe de projection o la
sparation inter-classe est la mieux exprime =>
coordonnes sur cet axe = scores discriminants.
Si + de 2 groupes => plan discriminant (F1) et (F2)

= plan de projection ou la variance inter-classe B (=>
dispersion des centrodes dans le plan) sera la mieux
reprsente
88
ACP contre analyse discriminante

89
Analyse discriminante prdictive

Les facteurs discriminants donnent la meilleure reprsentation
de la sparation des k centrodes de classe (dans un espace
orthonorm)
pour un individu x projet dans l'espace des facteurs: attribuer
la classe dont le centrode est le plus proche.
dtermination de 3 rgions de
dcision (R1, R2 , R3) dlimitant
les points 'senss appartenir
aux diffrentes classes
90

Distance d de 2 points x et y : d(x,y) = (x-y) H 1 (x-y)
avec H : matrice intra-classes des groupes.
On classe x dans le groupe Gi pour lequel la distance au

centre gi est minimale :
d(x,gi) = (x-gi) H 1 (x-gi) = x H 1x 2gi H x1 + gi H gi1
Minimiser d(x,gi) maximiser 2gi H 1x - gi H 1 gi
gi H 1 gi est une constante ne dpend pas de x

91

Pour chacun des k groupes Gi, on a une fonction
discriminante de Fisher :
i + i,1X1 + i,2X2 + i,pXp
et on classe x dans le groupe pour lequel la fonction

est maximale
92
Exemple analyse discriminante prdictive

But : construire les
fonctions prdictives
des groupes de
fleurs selon leurs
caractristiques via
une analyse
discriminante
93
Question : prdire la classe de la fleur de coordonnes (4.5, 3, 1.5, 0.2 )

94
Question : prdire la classe de la fleur F de coordonnes (4.5, 3, 1.5, 0.2 )

Rponse :
Score_Setosa = (2.35*4.5)+(2.35*3)+(-1.64*1.5)+(-1.73*0.2)-86.3=-71.48
Score_Versicolor= (1.56*4.5)+(0.7*3)+(0.52*1.5)+(0.64*0.2)-72.85= -62.82
Score_Virginica= (1.24*4.5)+(0.36*3)+(1.27*1.5)+(2.1*0.2)-104.36= -95.37
F appartient la classe Versicolor car Score_Versicolor est la

valeur maximal
95
Lanalyse discriminante
Les donnes
Les ratios suivants sont observs sur 46 entreprises :
- X1 = Flux de trsorerie / Dette totale

- X2 = Resultat net / Actif
- X3 = Actif court terme / Dette court terme
- X4 = Actif court terme / Ventes
- Y = F si faillite, NF sinon
Deux ans aprs 21 de ces entreprises ont fait faillite et 25 sont restes en
bonne sant financire.
Case Su mmariesa
96
current
Les donnes
assets / current
cash flow / net income / current assets /
total debt total assets li abil ities net sales FAILLIT E
1 -.45 -.41 1.09 .45 F
des entreprises
2 -.56 -.31 1.51 .16 F
3 .06 .02 1.01 .40 F
4 -.07 -.09 1.45 .26 F
5 -.10 -.09 1.56 .67 F
6 -.14 -.07 .71 .28 F
7 .04 .01 1.50 .71 F
8 -.07 -.06 1.37 .40 F
9 .07 -.01 1.37 .34 F
10 -.14 -.14 1.42 .43 F
11 -.23 -.30 .33 .18 F
12 .07 .02 1.31 .25 F
13 .01 .00 2.15 .70 F
14 -.28 -.23 1.19 .66 F
15 .15 .05 1.88 .27 F
16 .37 .11 1.99 .38 F
17 -.08 -.08 1.51 .42 F
18 .05 .03 1.68 .95 F
19 .01 .00 1.26 .60 F
20 .12 .11 1.14 .17 F
21 -.28 -.27 1.27 .51 F
22 .51 .10 2.49 .54 NF
23 .08 .02 2.01 .53 NF
24 .38 .11 3.27 .35 NF
25 .19 .05 2.25 .33 NF
26 .32 .07 4.24 .63 NF
27 .31 .05 4.45 .69 NF
28 .12 .05 2.52 .69 NF
29 -.02 .02 2.05 .35 NF
30 .22 .08 2.35 .40 NF
31 .17 .07 1.80 .52 NF
32 .15 .05 2.17 .55 NF
33 -.10 -.01 2.50 .58 NF
34 .14 -.03 .46 .26 NF
35 .14 .07 2.61 .52 NF
36 .15 .06 2.23 .56 NF
37 .16 .05 2.31 .20 NF
38 .29 .06 1.84 .38 NF
39 .54 .11 2.33 .48 NF
40 -.33 -.09 3.01 .47 NF
41 .48 .09 1.24 .18 NF
42 .56 .11 4.29 .44 NF
43 .20 .08 1.99 .30 NF
44 .47 .14 2.92 .45 NF
45 .17 .04 2.45 .14 NF
46 .58 .04 5.06 .13 NF
a. Limited to first 100 cases.
97
Lanalyse discriminante
Rsultat sous R-cran
98
Evaluation globale : sparabilit

Test de sparabilit :
H0 : centres de gravit confondus
H1 : un au moins de ces centres de gravit scarte des autres
La statistique du test est le de Wilks, son expression est :
H

S
o H reprsente le dterminant de la matrice de variance
covariance intra-classes, S le dterminant de la matrice de
variance co-variance globale.
Sous H0, -(n - (p+k)/2 1) Ln est approximativement distribue

suivant une loi Khi2 avec p(k-1) degrs de libert.
avec n est le nombre total d'observations.
p est le nombre de variables.
k est le nombre de groupes.
99
Evaluation individuelle des variables prdictives

Test : variation du Lambda de Wilks lors de l'adjonction de la
(J+1)-ime variable dans le modle de prdiction.
H0 : Variable J+1 non pertinente
H1 : Variable J+1 pertinente
La statistique du test :
N K J J
F 1
J 1 J 1
Avec N : taille de lchantillon, et K=nombre de classes.
Sous H0, F suit une loi de Fisher (K-1,N-K-J) degrs de libert.

100
Modle base de rgles

logiques :
Arbre de dcision

101
Arbre de dcision
Les donnes
Y = variable expliquer qualitative
X1,, Xk = variables explicatives quantitatives et/ou qualitatives

102
Principe arbre de dcision

Raliser la classification d'un objet
par une suite de tests sur les attributs
qui le dcrivent.
Organiser l'ensemble des tests

possible comme un arbre.
Une feuille de cette arbre dsigne

une des C classes de la variable
cible(mais chaque classe peut
correspondre plusieurs feuilles ). Exemple darbre de dcision

103
Principe arbre de dcision

Chaque nud est associ un test
portant sur un ou plusieurs attributs.
Le classement seffectue en
partant de la racine pour poursuivre
rcursivement le processus jusqu ce
qu'on rencontre une feuille.
Exemple darbre de dcision

104
Exemple bancaire
Prdire si un client sera un client qui rembourse son prt
avec succs (classe OUI) ou un client qui a des difficults de
remboursement (classe NON)
Client Logement salaire Salaire S. co-emp Succs
E1 locataire A Moyen Elev NON
E2 locataire A Moyen Faible NON
E3 propritaireA Moyen Elev OUI
E4 famille B Moyen Elev OUI
E5 famille C Elev Elev OUI
E6 famille C Elev Faible NON
E7 propritaireC Elev Faible OUI
E8 locataire B Moyen Elev NON
E9 locataire C Elev Elev OUI
E10 famille B Elev Elev OUI
E11 locataire B Elev Faible OUI
E12 propritaireB Moyen Faible OUI
E13 propritaireA Elev Elev OUI
E14 famille B Moyen Faible NON
105
Reprsentation par arbre de dcision

Logement
Locataire Propritaire Famille
Salaire OUI Salaire co emp
Moyen Elev Faible Elev
NON OUI NON OUI

106
Reprsentation par arbre de dcision
Chaque nud interne teste un attribut
Chaque branche correspond une valeur dattribut
Chaque feuille correspond une classe unique (dcision OUI

ou dcision NON) ou une classe majoritaire
On cherche un arbre le plus simple possible

expliquant lensemble des cas

107
Algorithme arbre de dcision

Procdure : construire-arbre(X)
- Si tous les points de X appartiennent la mme
classe alors crer une feuille portant le nom de cette
classe
Sinon
- choisir le meilleur attribut pour crer un nud
- le test associ ce noeud spare X en des parties : X1.Xn
- construire-arbre(X1)
-
- construire-arbre(Xn)
Fin

108
Description de lalgorithme
Droulement de la construction :
- Recherche de la variable qui spare le mieux

-Applique la sparation la population
-Obtention de nouveaux nuds
Arrt de lapprofondissement de larbre lorsque les conditions

darrts sont rencontres

109
Description de lalgorithme
Conditions darrts existantes :
- Profondeur de larbre atteint une limite fixe (=nombre de

variables utilises)
- Nombre de feuilles atteint un maximum fix
- Leffectif de chaque nud est infrieur un seuil fix
-

110
Choix du meilleur attribut

Comment trouver les variables qui sparent le mieux les
individus de chaque classe ?

Plusieurs critres de choix de variables correspondant
diffrents types darbres :
- CART (Classification And Regression Tree : Indice de Gini)
- CHAID (Chi square Automatic Interaction Detection)
- C5.0 (Entropie de Shannon)

111
Algorithme CART (1984)

Parmi les plus performants et plus rpandus

Accepte tout type de variables

Critre de sparation : Indice de Gini
Avec n : nombre de classes prdire

fi : frquence de la classe dans le nud
Plus lindice de Gini est bas, plus le nud est pure

112

Exemple :

113

Ainsi,

En sparant 1 nud en 2 nuds fils on cherche la plus
grande hausse de la puret

La variable la plus discriminante doit maximiser
IG(avant sep.)-[IG(fils1)+IG(fils2)]

114

Rpartition des individus dans les nuds
- Quand larbre est construit : critres de division connus
- On affecte chaque individu selon les rgles obtenues
remplissage des feuilles
Pour chaque feuille : plusieurs classes C

- Pc = Proportion dindividus de la feuille appartenant la
classe c
- On affecte la feuille la classe pour laquelle Pc est la plus
grande

115

Exemple :
Taux derreur global de larbre = somme pondre des taux

derreur des feuilles
116
Exercice
Une banque dispose des
informations suivantes sur un
ensemble de clients:
- M : moyenne des montants sur le
compte client.
- A : tranche d'ge du client.
- R : localit de rsidence du client.
- E : valeur oui si le client a un
niveau d'tudes suprieures.
Question : trouver un - I : classe oui correspond un client
arbre de dcision qui effectue une consultation de ses
capable de dire si un comptes bancaires en utilisant
client effectue des Internet
consultations de ses
comptes par Internet
117
Rseaux de neurones
118
Fondement biologique
L'lment fondamental du systmes nerveux est le neurone ou
cellule nerveuse.
Le neurone comprend une masse protoplasmique qui entoure le
noyau, de nombreuses arborisations protoplasmiques ou
dendrites et un long prolongement cylindrique ou axone.
Le systme nerveux peut tre vu comme un ensemble
de neurones interconnects.
119
L'axone se divise et ses ramifications sont relies aux dendrites
d'autres neurones ainsi qu'ventuellement aux siennes : les
points de jonction sont les synapses; elles sont caractrises
par une efficacit synaptique qui peut tre vue comme un
amplificateur de l'impulsion qui traverse la synapse.
Rseaux de neurones- Walid Ayadi

120
Chaque neurone possde en son noyau un additionneur
qui somme les impulsions lectriques amplifies par les synapses
l'entre dans le neurone et un seuil de stimulation. Si
l'excitation totale du neurone excde le seuil de stimulation, le
noyau initie une impulsion.

121
Les dendrites sont donc les organes d'entres du neurone et
l'axone son unit de sortie.
L'impulsion peut prendre la forme d'une excitation ou d'une
inhibition : l'activit d'un groupe de neurones peut renforcer
ou prvenir l'activit concurrente d'un autre groupe.

122
Quelques chiffres :
La dure d'une impulsion est de l'ordre de la milli-seconde
et l'amplitude d'environ 0,1 Volt.
La vitesse de propagation de l'influx nerveux est de 100 m/s
environ donc bien infrieure la vitesse de transmission de
l'information dans un rseau lectronique.
Chaque neurone intgre en permanence jusqu' 1000 signaux
synaptiques mais le nombre de contacts synaptiques par
neurones peut atteindre plusieurs dizaine de milliers.
Le cerveau contient environ 100 milliards de neurones donc,
par analogie avec la thorie des graphes, le nombre de
connexions (arcs) est de l'ordre de 104 (degr) * 1011 (nombre de
sommets) soit 1015 environ.

123
Neurone artificiel
De faon naturelle, on reprsente un neurone par une unit de
calcul ayant :
des entres ( dendrites +synapses)
une sortie ( axone)
des connexions pondres avec les autres neurones (
efficacit synaptique)
un additionneur
un seuil d'activation
un signal de sortie

124
Les rseaux de neurones

L'ensemble des neurones se prsente donc comme un graphe
pondr sur lequel va circuler un signal gnr par des stimulus
extrieurs (entres).
Un rseau de neurones : ensemble de noeuds connects
entre eux, chaque variable correspondant un nud

125
Neurone formel
Modlisation :
Le neurone reoit les entres x1, , xi, , xn.
Le potentiel dactivation du neurone p est dfini comme
la somme pondre (les poids sont les coefficients
synaptiques wi) des entres.
La sortie o est alors calcule en fonction du seuil
Soit : p = x.w = x1.w1 + + xi.wi + + xn.wn

Alors : o = 1 si p >
o = 0 si p

126
Neurone formel
Exemple
127
Dfinitions
- Dterminer un rseau de neurones = Trouver les coefficients
synaptiques.
- On parle de phase dapprentissage : les caractristiques du
rseau sont modifies jusqu ce que le comportement dsir
soit obtenu.
coefficients synaptiques

128
Percepton
129
Perceptron
On ajoute une entre supplmentaire x0 (le biais)
On associe comme fonction de transfert la fonction de Heavyside :
f(x) = 1 si x > 0
f(x) = 0 sinon

130
Perceptron
Apprentissage par l algorithme du perceptron
On note S la base d apprentissage.
S est compose de couples (x, c) o :
x est le vecteur associ l entre (x0, x1, , xn)
c la sortie correspondante souhaite
On cherche dterminer les coefficients (w0, w1, , wn).
Initialiser alatoirement les coefficients wi.

Rpter :
Prendre un exemple (x, c) dans S
Calculer la sortie o du rseau pour l entre x
Mettre jour les poids :
Pour i de 0 n :
wi = wi + (c o) xi
Fin Pour
Fin Rpter

131
Perceptron : exemple
Apprentissage par lalgorithme de perceptron du OU :
les descriptions appartiennent {0,1}2, les entres du
perceptron appartiennent {0,1}3, la premire composante
correspond l'entre x0 et vaut toujours 1, les deux composantes
suivantes correspondent aux variables x1 et x2 . On suppose qu'
l'initialisation, les poids suivants ont t choisis : w0=0 ; w1 =
1 et w2 = -1.

132
Perceptron : exemple
Apprentissage par lalgorithme de perceptron : exemple
Donc : w0 = 0 ; w1 = 1 ; w2 = 1
Ce perceptron calcule le OU logique pour tout couple (x1 ; x2)
133
Perceptron : exercice 1
Apprentissage d'un ensemble linairement sparable :
les descriptions appartiennent R2, le concept cible est dfini
l'aide de la droite d'quation y=x/2. Les couples (x,y) tels
que y>x/2 sont de classe 1 ; Les couples (x,y) tels que y <= x/2
sont de classe 0.
L'chantillon d'entre est :
S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}.
On suppose qu' l'initialisation, les poids ont t choisis :
w0=0 ; w1 = 0 et w2 = 0.
On choisit de prsenter tous les exemples en alternant exemple
positif (de classe 1) et exemple ngatif.

134
L'chantillon d'entre est :
S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}.
On suppose qu' l'initialisation, les poids ont t choisis :
w0=0 ; w1 = 0 et w2 = 0.

135
Apprentissage de parit : Considrons un afficheur numrique
sept segments et formons un perceptron donnant la parit
du chiffre crit, savoir 0 s'il est pair et 1 sinon.
On commence par coder chaque chiffre en
une liste de sept 0 ou 1 selon les segments
allums, liste qui constituera les neurones
d'entre du perceptron
136
On commence par coder chaque chiffre en
une liste de sept 0 ou 1 selon les segments
allums, liste qui constituera les neurones
d'entre du perceptron
But : Apprendre si
On considre un ensemble complet
un chiffre est pair
ou impair.
Les poids initiaux :

w=(1,1,1,1,1,1,1,1)
137
Trace de lalgorithme
138
Les rseaux de neurones

de Kohonen
139
Cartes de Kohonen : principe

n cellules dentre e = (e1, , en)
une carte : rseau de m neurones de sortie x1, , xm
connexions latrales (coefficients fixes) entre les neurones
de sortie : un neurone est connect ses 4 plus proches
voisins
connexions de coefficient wij entre une cellule dentre ei et un
neurone de sortie xj

140
Cartes de Kohonen : principe

Principes :
- Pour une entre, un seul neurone sur la carte est slectionn
(valeur 1).
- On encourage le vainqueur : the winner takes all.
- Ce neurone correspond le plus possible lentre :
minimisation dune distance.

141
Carte de Kohonen
Algorithme dapprentissage :
- Initialiser alatoirement les coefficients wij.
- Fixer les taux dapprentissage et .
Rpter
- Prendre une entre e = (e1, , ei, , en)
- Calculer la distance dj de chaque neurone xj par rapport e
- Slectionner le neurone xk le plus proche de e : dk = Min(dj)

- Modifier les coefficients pour le neurone slectionn et ses
plus proches voisins (4 pour une carte 2D) :
Pour tout i :
- wik = wik + (ei wik)
- wil = wil + (ei wil) o xl est un voisin de xk
Fin Pour Rseaux de neurones- Walid Ayadi
142
Apprentissage du rseau
Pour chaque individu, un seul
noeud de sortie est activ ( le gagnant )
Le gagnant et ses voisins voient leurs
poids ajusts
En rapprochant les voisins, lajustement
fait en sorte qu deux individus proches
correspondent deux nuds proches
en sortie
Des groupes (clusters) de nuds
se forment en sortie

143
Application dun rseau de Kohonen

Tout se passe comme si la grille du rseau tait en caoutchouc
et si on la dformait pour lui faire traverser le nuage des individus
en sapprochant au plus prs des individus.
avec un plan factoriel : cest une projection non-linaire
avec les autres mthodes de classification : rduction de la
dimension

144
Application dun rseau de Kohonen

Une fois que tous les individus de lchantillonnage
dapprentissage ont t prsents au rseau et que tous
les poids ont t ajusts, lapprentissage est achev.
En phase dapplication, le rseau de Kohonen fonctionne

en reprsentant chaque individu en entre par le noeud
du rseau qui lui est le plus proche au sens de la distance
dfinie ci-dessus. Ce noeud sera la classe de lindividu.

145
Exercice rseau de Kohonen
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.4 0.3 0.8 0.2
U U
1 2
Pour lentre (0.5, 0.2) et un taux dapprentissage de 0.2
a) Le neurone le plus proche de lentre?

b) Mise jour des poids du neurone gagnant?
c) Mise jour des poids des neurones voisins du neurone gagnant?

146
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.4 0.3 0.8 0.2
U U
1 2
Pour lentre (0.5, 0.2) et un taux dapprentissage de 0.2
a) Soit Dm la distance entre lentre et le poids du vecteur Cm on a :
D1 = (0.3 - 0.5)2 + (0.7 0.2)2 = 0.29

D2 = (0.6 0.5)2 + (0.9 0.2)2 = 0.50
D3 = (0.1 0.5)2 + (0.5 0.2)2 = 0.25
D4 = (0.4 0.5)2 + (0.3 0.2)2 = 0.02
D5 = (0.8 0.5)2 + (0.2 0.2)2 = 0.09
Le neurone le plus proche de lentre est donc C4, il gagne ainsi la comptition.
147
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.42 0.28 0.8 0.2
U U
1 2
b) Mise jour des poids pour le neurone gagnant J
w14(nouveau) = w14(vieux) + 0.2 (x1 w14(vieux))
= 0.4 + 0.2(0.5 0.4) = 0.4 + 0.02 = 0.42
= 0.3 + 0.2(0.2 0.3) = 0.3 - 0.02 = 0.28

148
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.18 0.44 0.4 0.3 0.74 0.2
U U
1 2
c) Si on permet J-1 et J+1 dapprendre alors
= 0.1 + 0.2(0.5 0.1) = 0.1 + 0.08 = 0.18
w23(nouveau) = 0.5 + 0.2(0.2 0.5) = 0.5 - 0.06 = 0.44
w15(nouveau) = 0.8 + 0.2(0.5 0.8) = 0.8 0.2*0.3 = 0.74
w25(nouveau) = 0.2 + 0.2(0.2 0.2) = 0.2 + 0.0 = 0.2

149
Exercice :
On considre des entres caractrises par deux variables
U1 et U2. Les coefficients initiaux entre les variables des
entres et les neurones de la carte sont affichs dans la
figure 1.
Pour les entres (1.5 , 0.8) ; (0.5 , 1) ; (2 , 1) et un taux
dapprentissage de 0.1 , rpondre aux questions suivantes
en tenant compte de lordre de passage des entres :
1. Le neurone le plus proche de chaque entre?
2. Mise jour des poids du neurone gagnant pour chaque entre?
3. Mise jour des poids des neurones voisins du neurone
gagnant?
150
Exemple dapplication C. K.
Exemple :
- Analyse de donnes socio-conomiques (PIB, croissance du PIB,
mortalit infantile, taux dillettrisme, ) de 52 pays.
- 1 neurone de la carte = 1 groupe de pays (mme situation
socioconomique).
- Neurones voisins = groupes de pays proches (du point de vue
de la situation socio-conomique).

151
Exemple dapplication C. K.

Data Mining Prediction

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining Prediction

Uploaded by

Copyright:

Available Formats

1

Data mining - Walid Ayadi

Deux grandes familles

Classement : la variable expliquer est qualitative

Prdiction : la variable expliquer est continue

Data mining - Walid Ayadi

Le rsultat du classement est un algorithme

Data mining - Walid Ayadi

- la valeur dune variable continue (dite expliquer ,

Data mining - Walid Ayadi

Data mining - Walid Ayadi

Rgression linaire multiple

Equation de rgression multiple

Les termes de lquation

yi b0 b1 x1i b 2 x2i ...b p x pi e i

ime observation Terme constant Influence de

Ecriture matricielle du modle

Estimation des coefficients de

Estimation des coefficients du modle

Interprtation des coefficients de rgression estims

Supposons que les variables dun modle non indpendantes

Rappel : si les colonnes dune matrice X sont corrles alors

La mthode moindre carr ordinaire (MCO) est optimale car :

Hypothse de normalit i ~ N(0,s) les estimateurs sont de

1. Estimer les paramtres du modle.

cov( X , Y ) X iYi nXY 2313 (7)(8)(36) 42.4

Lquation du modle est :

Ce rsultat peut tre interprt de la faon suivante :

en labsence de visite, le montant des commandes dun

chaque visite dun reprsentant amne une masse de

Rgression multiple : qualit dajustement

Loi des carts

(Yi Y ) (Yi Y ) (Yi Yi )

Rgression multiple : qualit dajustement

Coefficient dajustement R = SCR / SCT

3. Calculer la dispersion rsiduelle (somme des carts entre les

Le modle restitue 98,7% de linformation totale : une relation

Rgression multiple : apport marginal de Xj

Rgression multiple : apport marginal de Xj

La statistique t suit une loi de Student (n-2) degr de libert

Calculer empiriquement la statistique du test et la comparer aux

Rgression multiple : apport marginal de Xj

Rgression multiple : apport marginal de Xj

Probabilit de dcision : P-valeur ou P-value

P-valeur = p(- t,n-1 < tobs <t,n-1 / H1 )

5. Appliquer le test de Student afin de vrifier la significativit de

variable trs significative ( t=20 >> 3.365)

Rgression multiple : apport de toutes les Xj

Sous H0 , la statistique f suit une loi de Fisher (k , n-k-1) degr de

Rgression multiple : apport de toutes les Xj

On compare f avec une valeur f lue dans le tableau de Fisher un seuil

P-valeur = p(fobs <f,k,n-k1 / H1 )

Rgression multiple : apport de toutes les Xj

Rgression multiple : apport de toutes les Xj

1. Dterminer les paramtres du modle.

0.17 0.31 10 0.46

b0 Y b1 X 1 b2 X 2 2 (0.46 5) (0.14 2) 0.58

Y 0.46 X 1 0.14 X 2 0.58

Il existe une relation positive assez forte entre le taux de criminalit

4. Test de Fisher : F= 34, il y a au moins une variable non significative.

Rgression multiple : exemple

Rgression multiple : exemple

mthode dlimination progressive (backward selection)

Rgression multiple : slection automatique