You are on page 1of 151

1

Techniques prdictives de
data mining
Walid AYADI
2

Techniques prdictives
visent extrapoler de nouvelles informations
partir des informations prsentes (cest le cas du
scoring)
expliquent les donnes
il y a une variable cible prdire.

Data mining - Walid Ayadi


3

Deux grandes familles

Classement : la variable expliquer est qualitative

Prdiction : la variable expliquer est continue

Data mining - Walid Ayadi


4

Classement
Le classement consiste placer chaque individu
de la population dans une classe, parmi plusieurs
Classes prdfinies, en fonction des caractristiques
de lindividu indiques.

Le rsultat du classement est un algorithme


permettant daffecter chaque individu la meilleure
classe.

Data mining - Walid Ayadi


5

Prdiction
La prdiction consiste estimer

- la valeur dune variable continue (dite expliquer ,


cible , dpendante ou endogne )
- en fonction de la valeur dun certain nombre dautres
variables (dites explicatives , indpendantes ou
exognes )

Data mining - Walid Ayadi


6

Mthodes prdictives

Data mining - Walid Ayadi


7

Rgression linaire multiple


8

Rgression multiple
Estimer la relation entre une variable dpendante
(Y ) quantitative et plusieurs variables indpendantes (X1,X2, )

Equation de rgression multiple


Cette quation prcise la faon dont la variable dpendante est
relie aux variables explicatives :

Y b0 b1 X 1 b 2 X 2 ...b p X p e
o b0, b1, b2, . . . , bp sont les paramtres et e est un bruit alatoire
reprsentant le terme derreur.
9

Rgression multiple

Les termes de lquation

yi b0 b1 x1i b 2 x2i ...b p x pi e i

ime observation Terme constant Influence de


de Y la variable Xp
Influence de la
variable X1
Rsidu de la ime
observation
10

Rgression multiple

Ecriture matricielle du modle


b0
y1 1 x1,1 x1, p e 1
b1

yn 1 x1,n xn , p e n
b p
y Xb e
11

Rgression multiple

Estimation des coefficients de


rgression / mthode des moindres
carrs ordinaires :
Le principe de lestimation des
coefficients de rgression :
b0 , b1 , b 2 ,..., b p
consiste minimiser la somme des
carrs des rsidus :

n n

i i i
e 2

i 1
( y
y ) 2

i 1
12

Rgression simple
Les estimations b0 ,b1

b1
( y y )( x x ) cov( x, y)
i i i

(x x)
i i
2
s 2
x

b0 y b1 x

Dmonstration?....
13

Rgression multiple

Estimation des coefficients du modle


La mthode des moindres carrs donne pour rsultat :


b X T X
1
X TY

Interprtation des coefficients de rgression estims


La pente bk (k0)
Lestime de Y varie dun facteur gal bk lorsque Xk augmente
dune unit, les autres variables tant maintenues constantes.
Lordonne lorigine b0
Cest la valeur moyenne de Y lorsque toutes les Xi sont nulles.
14

Rgression multiple
Contrainte : les variables explicatives doivent tre indpendantes.

Supposons que les variables dun modle non indpendantes



(corrles) alors b X T X 1 X T Y


Car si les variables sont corrles donc les colonnes de X T X

sont corrles et ainsi X T X 1 .

Rappel : si les colonnes dune matrice X sont corrles alors

1
X 1
tComX puisque det X 0
det X
avec det X : dterminant de X et Com X : comatrice de X
15

Rgression multiple

La mthode moindre carr ordinaire (MCO) est optimale car :


- les estimateurs sont sans biais : E ( ) etE ( b ) b
- de variance minimale parmi tous les estimateurs linaires
- on dit quils sont BLUE : best linear unbiased estimators

Hypothse de normalit i ~ N(0,s) les estimateurs sont de


variance minimale parmi tous les estimateurs
16

Exercice 1
Au cours dun mois donn, le reprsentant dune socit
commercialisant du matriel de bureau a visit 56
entreprises rpartis dans sept dpartement. Le tableau
suivant indique, dpartement par dpartement, le
nombre de visites ralises de mme que les commandes
enregistrs pendant la priode correspondante mesures
en milliers de dinars.
17

Exercice 1
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51

1. Estimer les paramtres du modle.


2. Interprter les rsultats trouvs.
18

Exercice 1
i Xi Yi XiYi X i2 X i X ( X i X ) 2 Yi Y ( X i X )(Yi Y )
1 2 23 46 4 -6 36 -13 78
2 3 27 81 9 -5 25 -9 45
3 5 28 140 25 -3 9 -8 24
4 9 39 351 81 1 1 3 3
5 10 39 390 100 2 4 3 6
6 12 45 540 144 4 16 9 36
7 15 51 765 255 7 49 15 105
Total 56 252 2313 58 0 140 0 297
8
Moy. 8 36 330.4 84 0 20 0 42.4
19

Exercice 1

cov( X , Y ) X iYi nXY 2313 (7)(8)(36) 42.4


b 2.12
VarX X i nX
2 2
588 (7)(64) 20

Y bX 36 (2.12)(8) 19

Lquation du modle est :

Y = 2.12 X +19
20

Exercice 1
Lquation du modle est :

Y = 2.12 X +19

Ce rsultat peut tre interprt de la faon suivante :

en labsence de visite, le montant des commandes dun


dpartement slverait 19 000 dinars.

chaque visite dun reprsentant amne une masse de


commandes supplmentaires denviron 2120 dinars.
21

Rgression multiple : qualit dajustement

Loi des carts

(Yi Y ) (Yi Y ) (Yi Yi )



2 2 2
22

Rgression multiple : qualit dajustement

Coefficient dajustement R = SCR / SCT


R = proportion de variation de la variable cible explique par
toutes les variables explicatives
Bon ajustement si R proche de 1
R est biais (optimiste car croissant avec le nombre de
variables) et on lui substitue le R ajust :
23

Exercice 1 :
Au cours dun mois donn, le reprsentant dune socit
commercialisant du matriel de bureau a visit 56
entreprises rpartis dans sept dpartement. Le tableau
suivant indique, dpartement par dpartement, le
nombre de visites ralises de mme que les commandes
enregistrs pendant la priode correspondante mesures
en milliers de dinars.
24

Exercice 1 : suite
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51

3. Calculer la dispersion rsiduelle (somme des carts entre les


Observations et les valeurs estimes par le modle).
4. Calculer le coefficient de dtermination et le coefficient ajust.
25

Exercice 1 : suite
i Xi Yi Yi Yi Y (Yi Y ) 2 (Yi Y ) (Yi Y ) 2 (Yi Yi ) (Yi Yi ) 2
1 2 23 23.27 -13 169 -12.73 162 0.27 0.07
2 3 27 25.39 -9 81 -10.61 112.57 -1.61 2.59
3 5 28 29.64 -8 64 -6.36 40.45 1.64 2.69
4 9 39 38.12 3 9 2.12 4.49 -0.88 0.77
5 10 39 40.24 3 9 4.24 17.98 1.24 1.54
6 12 45 44.49 9 81 8.49 72.08 -0.51 0.26
7 15 51 50.85 15 225 14.85 220.52 -0.51 0.02
Total 638 630.09 7.94

Dispersion rsiduelle :

e (Yi Yi ) 7.94

2 2
i
26

Exercice 1 : suite
i Xi Yi Yi Yi Y (Yi Y ) 2 (Yi Y ) (Yi Y ) 2 (Yi Yi ) (Yi Yi ) 2
1 2 23 23.27 -13 169 -12.73 162 0.27 0.07
2 3 27 25.39 -9 81 -10.61 112.57 -1.61 2.59
3 5 28 29.64 -8 64 -6.36 40.45 1.64 2.69
4 9 39 38.12 3 9 2.12 4.49 -0.88 0.77
5 10 39 40.24 3 9 4.24 17.98 1.24 1.54
6 12 45 44.49 9 81 8.49 72.08 -0.51 0.26
7 15 51 50.85 15 225 14.85 220.52 -0.51 0.02
Total 638 630.09 7.94

Coefficient de dtermination :

R 2 i
(Y Y )

2
630
0.987
(Yi Y ) 638
2

Le modle restitue 98,7% de linformation totale : une relation


linaire presque parfaite sur les donnes observes.
27

Rgression multiple : apport marginal de Xj


Modle : Y = b0 + b1X1 + + bjXj + + bkXk + e
Test de Student : H0 : bj = 0 (Xj non significative)
H1 : bj 0 (Xj significative)

b j b j
Soit la statistique t telle que t
S b
j
S X jY
S b : lerreur standard sur b j
j
X
i
ij nX j

i i
(Y Y ) 2

S X jY i
: lcart type des erreurs du modle
n2
28

Rgression multiple : apport marginal de Xj


Modle : Y = b0 + b1X1 + + bjXj + + bkXk + e
Test de Student : H0 : bj = 0 (Xj non significative)
H1 : bj 0 (Xj significative)

Sous H0 : b j 0
t
S b
j

La statistique t suit une loi de Student (n-2) degr de libert

Calculer empiriquement la statistique du test et la comparer aux


valeurs du tableau de Student selon le seuil de significativit fix a priori.
Seuil de significativit ou de confiance : 0.05, 0.01, 0.1
29

Rgression multiple : apport marginal de Xj


Tableau de Student
30

Rgression multiple : apport marginal de Xj

Probabilit de dcision : P-valeur ou P-value

P-valeur = p(- t,n-1 < tobs <t,n-1 / H1 )


P-valeur=Prob.(dcider H0 / H1 rel)
P-value proche de 0 dcider H1 : Xj significative
P-value diffrent de 0 dcider H0 : Xj non significative
31

Exercice 1 : suite
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51

5. Appliquer le test de Student afin de vrifier la significativit de


la variable explicative Nombre de visites dans la modlisation de
la variables Commandes au seuil de confiance 0.02
32

Exercice 1 : suite
5.
7.94
S X iY 1.26
5
1.26
Sa 0.106
11.83
2.12
t 20
0.106
On compare t par rapport au chiffre lu sur la table de Student pour
n-k-1=7-2=5 degrs de libert (3.365 avec un seuil de confiance 0.02 )

variable trs significative ( t=20 >> 3.365)


33

Rgression multiple : apport de toutes les Xj


Modle : Y = b0 + b1X1 + + bjXj + + bkXk + e
Test de Fisher-Snedecor :
H0 : b1 = b2 == bk = 0 (toutes les Xj non significatives)
H1 : b1 b2 bk 0 (au moins une Xj significative)

Sous H0 , la statistique f suit une loi de Fisher (k , n-k-1) degr de


libert avec :

R2 / k
f
(1 R 2 ) /( n k 1)
Avec n nombre dindividus (lignes) et k nombre de variables
(colonnes)
34

Rgression multiple : apport de toutes les Xj

R2 / k
f
(1 R 2 ) /( n k 1)

On compare f avec une valeur f lue dans le tableau de Fisher un seuil


et en fonction des degrs de libert k et (n-k-1).
Si f f alors au moins un des coefficients est diffrent de zro.

P-valeur = p(fobs <f,k,n-k1 / H1 )


35

Rgression multiple : apport de toutes les Xj


Valeurs f de la variable de
Fisher-Sndcor F(v1,v2)
ayant la probabilit d'tre
dpasses
36

Rgression multiple : apport de toutes les Xj


Valeurs f de la variable de
Fisher-Sndcor F(v1,v2)
ayant la probabilit d'tre
dpasses
37

Exercice 2 :
Supposons que les services de police souhaitent tablir un modle de
rgression linaire reliant la variable endogne taux de criminalit
juvnile mesur par un indicateur Y, la densit de la population urbaine
mesure par un indicateur X1 et aux taux de scolarit X2. On a relev 5
observations :
Y X1 X2
1 2 4
1 3 2
2 5 2
3 7 1
3 8 1

1. Dterminer les paramtres du modle.


2. Calculer le coefficient de dtermination et le coefficient ajust.
3. Tester la significativit de chaque variable avec le test de Student.
4. Tester la significativit de toutes les variables avec le test de Fisher.
38

Exercice 2 : rponse
1. Pour simplifier les calculs matriciels, nous oprons un changement de
variables Y=Y-2, X1=X1-5, X2=X2-2

Y X1 X2
-1 -3 2
-1 -2 0
0 0 0
1 2 -1
1 3 -1
39

Exercice 2 : rponse

3 2
2 0
3 2 0 2 3 26 11
X 'X 0 0
2 0 0 1 1 11 6
2 1
3 1

1 1 6 11 0.17 0.31
(X X )
'

35 11 26 0.31 0.74

40

Exercice 2 : rponse 1
1
3 2 0 2 3 10
XY
'
0
2 0 0 1 1 4
1
1

0.17 0.31 10 0.46


b
0.31 0.74
4 0.14

b0 Y b1 X 1 b2 X 2 2 (0.46 5) (0.14 2) 0.58


Do lexpression finale de lquation de rgression multiple estime :

Y 0.46 X 1 0.14 X 2 0.58


41

Exercice 2 : rponse

Il existe une relation positive assez forte entre le taux de criminalit


juvnile et la densit urbaine. Laugmentation de lindicateur de ladensit
urbaine dune unit entraine laugmentation de la criminalit juvnile de
46% et laugmentation du taux de scolarisation dune unit de mesure
entraine laugmentation de criminalit juvnile 14%.
42

Exercice 2 : rponse
2. Coefficient de dtermination : R 2 0.971
Coefficient de dtermination ajust : R 2
ajust 0.942
3. Test de Student :
t X1 4.61 significative au niveau de confiance 0.05
t X 2 0.83 non significative

4. Test de Fisher : F= 34, il y a au moins une variable non significative.


43

Rgression multiple : exemple


Variable expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = March total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicit
X7 = Frais de ventes
X8 = Total budget publicit de la branche
44

Rgression multiple : exemple


R et R ajust proche de 1 :
Model Summary
un bon ajustement
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicit de la branche,
March total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicit, Prix, Frais de
v entes

Coeffi cientsa

Unstandardized
Coef f icients Variables
Model B St d. Error t Sig. significatives et
1 (Constant) 3129.231 641.355 4.879 .000 pertinentes :
MT 4.423 1.588 2.785 .009
P-valeur < 0.05
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
45

Mthodes de slection
automatique de variables
46

Slection de variables
Slection des variables pertinentes du modle :
Slectionner les variables avec des P-valeur proches de 0 partir du
modle complet ?
variables non pertinentes en prsence dautres variables
variables pertinentes seulement en prsence dautres variables

mthode dlimination progressive (backward selection)


mthode dintroduction progressive (forward selection)
mthode de rgression pas- pas (stepwise regression)
47

Rgression multiple : slection automatique


de variables
Mthode d'limination progressive (backward selection)
- La procdure dmarre en estimant les paramtres du modle complet
incluant toutes les variables explicatives que l'on a slectionnes et juges
pertinentes introduire.

- A chaque tape, la variable associe la plus grande p-value (du test de


Student pour la rgression linaire) est limine du modle, si cette valeur
est suprieure au seuil de confiance fix a priori .

- La procdure s'arrte lorsque les variables restant dans le modle ont


toutes une p-value plus petite que le seuil.
48
Rgression multiple : slection automatique
de variables
Mthode dintroduction progressive (forward selection)
- Il faut choisir au dpart les variables que l'on juge comme pouvant appartenir
au modle.

- A chaque tape de la procdure, une variable est ajoute en commenant par la


variable la plus fortement associe Y (plus petite p-value obtenue en ralisant
l'ensemble des modles de rgression linaire simple).

- Ensuite, on value l'apport spcifique de chacune des variables non encore


introduites dans le modle qui contient dj la ou les variable(s) retenue(s)
dans les tapes prcdentes et on introduit la variable dont l'apport
spcifique est le plus important. L'introduction d'une nouvelle variable dans
le modle ne se fait que si la p-value correspondante est infrieure un seuil de
confiance fix a priori. On peut utiliser aussi R ajust pour la rgression linaire.

- La procdure s'arrte lorsque toutes les variables sont introduites ou


lorsqu'on ne peut plus introduire de nouvelles variables selon le critre choisi
(plus petite p-value des variables restantes suprieure au seuil).
49

Rgression multiple : slection automatique


de variables
Mthode de rgression pas pas (stepwise regression)
Il s'agit d'une amlioration de la mthode d'introduction progressive.
- A chaque tape de la procdure, on examine la fois si une nouvelle
variable doit tre ajoute selon un seuil d'entre fix, et si une des
variables dj incluses doit tre limine selon un seuil de sortie fix.

- Cette mthode permet de retirer du modle d'ventuelles variables qui


seraient devenues moins indispensables du fait de la prsence de celles
nouvellement introduites.

- La procdure s'arrte lorsque aucune variable ne peut tre rajoute ou


retire du modle selon les critres choisis.
50

Rgression multiple : exemple backward


Variable expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = March total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicit
X7 = Frais de ventes
X8 = Total budget publicit de la branche
51

Rgression multiple : exemple backward


R et R ajust proche de 1 :
Model Summary
un bon ajustement
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicit de la branche,
March total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicit, Prix, Frais de
v entes

Coeffi cientsa

Unstandardized
Coef f icients Variables
Model B St d. Error t Sig. significatives et
1 (Constant) 3129.231 641.355 4.879 .000 pertinentes :
MT 4.423 1.588 2.785 .009
P-valeur < 0.05
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
52
Rgression multiple : exemple backward
Model Summary
Etape 1
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicit de la branche,
March total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicit, Prix, Frais de
v entes

Coeffi cientsa

Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES

Variable enleve : Total publicit de la branche


53
Rgression multiple : exemple backward Model Summaryb
Etape 2
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .760 251.99
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicit, Inv estissements, Budget de
recherche, Prix, March total
b. Dependent Variable: Vent es

Coeffi cientsa

Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3115.648 579.517 5.376 .000
MT 4.426 1.561 2.836 .008
RG 1.706 3.191 .535 .597
PRIX -13.445 8.029 -1.675 .104
BR -3.392 6.451 -.526 .603
INV 1.931 .756 2.554 .016
PUB 8.558 1.784 4.798 .000
FV 1.482 2.710 .547 .588
a. Dependent Variable: VENTES

Variable enleve : Budget de recherche


54
Rgression multiple : exemple backward
Etape 3 Model Summaryb

Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .897a .804 .766 249.04
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicit, Inv estissements, Prix, March
total
b. Dependent Variable: Vent es
Coeffi cientsa

Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3137.547 571.233 5.493 .000
MT 4.756 1.412 3.368 .002
RG 1.705 3.153 .541 .593
PRIX -14.790 7.521 -1.966 .058
INV 1.885 .742 2.539 .016
PUB 8.519 1.761 4.837 .000
FV .950 2.484 .382 .705
a. Dependent Variable: VENTES

Variable enleve : Frais de ventes

Variables slectionnes via backward selection et Student test : MT, PRIX,


INV, PUB
55

Rgression multiple : slection automatique


de variables
Il est important de noter que ces mthodes peuvent ne pas conduire au
mme choix de variables explicatives retenir dans le modle final.

Elles ont l'avantage d'tre faciles utiliser et de traiter le problme de la


slection de variables de faon systmatique.
56

Modles paramtriques:
Rgression Logistic

Data mining - Walid Ayadi


57

La rgression logistique binaire


Les donnes
Y = variable expliquer binaire
X1,, Xk = variables explicatives numriques
ou binaires (indicatrices de modalits)

Rgression logistique simple (k = 1)

Rgression logistique multiple (k > 1)


58
La rgression logistique simple
Variable dpendante : Y = 0 / 1
Variable indpendante : X
Objectif : Modliser

(x) = Prob(Y = 1/X = x)

Pb de rgression : modliser lesprance conditionnelle


E(Y/X=x) = Prob(Y=1/X=x) sous la forme E(Y/X=x) = 0 + 1X1

Difficult ! X continue terme de droite non born alors


que Prob(Y=1/X=x) [0,1] il faut le transformer !

Le modle linaire (x) = b0 + b1 X convient mal lorsque X


est continue.
Le modle logistique est plus naturel.
59

Prdiction dune variable binaire

Visiblement la rgression
linaire ne convient pas

La figure fait pressentir que ce


nest pas une fonction
linaire de 0 + 1X1quil faut
appliquer, mais une courbe en S
60

Le modle logistique

b0 b1x Probabilit d'une maladie cardiaque


e
( x ) b0 b1x
en fonction de l'age

1 e
1.0

.8

ou .6

.4
Prob(Y=1 / X)

( x )
) b0 b1x
.2

Log(
1 ( x ) 0.0
10 20 30 40 50 60 70

AGE

Fonction de lien : Logit

60
61

Estimation des paramtres du modle logistique

Les donnes Le modle

X Y
x1 y1 ( x i ) P ( Y 1 / X x i )

xi yi eb0 b1xi
b0 b1x i
xn yn 1 e
yi = 1 si caractre prsent,
0 sinon
62

Vraisemblance des donnes


Probabilit dobserver les donnes
[(x1,y1), , (xi,yi), , (xn,yn)]

n
Prob( Y yi / X x i )
i 1
n
( x i ) yi (1 ( x i ))1yi
i1
n b 0 b1 xi
e 1
( b 0 b1 xi
) yi
( b 0 b1 xi
)1 yi

i 1 1 e 1 e

(b0 , b1 )
63

Estimation du maximum de vraisemblance


n
L(b0 , b1 ) Log ((b0 , b1 )) Log[ ( xi ) (1 ( xi )
yi 1 yi
]
i 1

n
( xi )
yi Log ( ) Log (1 ( xi ))
i 1 1 ( xi )
n
yi (b0 b1 xi ) Log (1 exp(b0 b1 xi ))
i 1

, b )
On cherche b0 et b1 maximisant la Log-vraisemblance L(b0 1
Pas de solution analytique utiliser une mthode numrique
itrative (ex : Newton-Raphson)
64
TEST DE WALD
Le modle eb0 b1x
( x ) P( Y 1 / X x )
1 eb0 b1x

Test de Wald
H0 : b1 = 0
H1 : b1 0

Sous H0 , la statistique de Wald suit une loi de Khi 2 1 degr de libert avec :

b 12
Wald 2
s1
s12 variance de b1

Dcision de rejeter H0 au risque

64
Rejet de H0 si Wald 12 (1)
65
TEST DE WALD
66
TEST DE WALD
67
Mesure de la qualit de la modlisation

R2 de Cox & Snell


( cte) 2 avec l(cte) vraisemblance avec seulement la
R2 1 [ ]n constante du modle et l(cte,X) vraisemblance
(cte, X ) avec la constante et les paramtres des
variables.

R2 ajust de Nagelkerke
2
R
2
2 2
R adj
R max Max R 2 1 [(cte)] n
68

Vraisemblance et dviance dun modle


Soit L(n) = vraisemblance du modle satur (avec toutes
les variables explicatives et toutes les interactions pour en
avoir autant que dobservations distinctes) = vraisemblance
maximale
Soit L(k) = vraisemblance du modle avec k variables
On dfinit la dviance :
D(k) = 2 [Log L(k) Log L(n)] = 2 Log L(k)
puisque L(n) = 1 pour une cible 0/1
But de la rgression logistique : maximiser la vraisemblance
L(k) minimiser la dviance D(k)
Modle retenir : modle k variables tel que la
dviance est la plus faible.
69

Comparaison des modles


Pour savoir sil convient dajouter q variables explicatives
un modle qui en contient dj k

On calcule la diffrence des dviances


D(k) - D(k+q) = 2 [Log L(k) - Log L(k+q)]

Sous lhypothse H0 de la nullit des q derniers


coefficients, D(k) - D(k+q) suit un q degr de libert

Sous le seuil critique de la valeur du ( si la


probabilit dpasse 0,05) : on rejette les q nouvelles
variables
70

Comparaison des modles


Critre AIC (Akaike Information Criterion) :

AIC = 2 Log L(k) +2 k


k : nombre de variable

Modle retenir : Modle avec k variables tel que


AIC le plus faible.
71

Exemple : age et maladie chronique du coeur

Variable Age pertinente selon le test de Wald.


Le R-deux de Cox et Snell du modle se situe 0,25 et indique que seulement
25 % de la variation dans la probabilit pour un patient d'tre malade pourrait
tre explique par la variable Age. Le R-deux de Nagelkerke qui est une version
ajuste du R-deux de Cox et Snell se situe 0,34. Ds lors, la variable Age
contribue expliquer 34 % de la variation dans la probabilit pour un patient
d'tre malade.
72

Tableau de classification
Une observation i est affecte la classe [Y=1] si i c.

Exemple: tableau de classification (c = 0.5)


Observation 0 1 Classe
1 0.3 0.7 1
2 0.6 0.4 0
3 0.9 0.1 0
4 0.15 0.85 1
5 0.75 0.25 0
73

Validation des modles


Matrice de confusion :
Exemple :

Taux de bon classement total = (1800+1700) / 4000 = 87,5 %


Taux de bon classement de la classe A = 1800/2000 = 90 %
Taux de bon classement de la classe B = 1700/2000 = 85 %
74
La rgression logistique multiple
Exemple : Prvision de faillite

Les donnes
Les ratios suivants sont observs sur 46 entreprises :

- X1 = Flux de trsorerie / Dette totale


- X2 = Resultat net / Actif
- X3 = Actif court terme / Dette court terme
- X4 = Actif court terme / Ventes
- Y = F si faillite, NF sinon

Deux ans aprs 21 de ces entreprises ont fait faillite et 25 sont restes en
bonne sant financire.
Case Su mmariesa
75
current

Les donnes
assets / current
cash flow / net income / current assets /
total debt total assets li abil ities net sales FAILLIT E
1 -.45 -.41 1.09 .45 F

des entreprises
2 -.56 -.31 1.51 .16 F
3 .06 .02 1.01 .40 F
4 -.07 -.09 1.45 .26 F
5 -.10 -.09 1.56 .67 F
6 -.14 -.07 .71 .28 F
7 .04 .01 1.50 .71 F
8 -.07 -.06 1.37 .40 F
9 .07 -.01 1.37 .34 F
10 -.14 -.14 1.42 .43 F
11 -.23 -.30 .33 .18 F
12 .07 .02 1.31 .25 F
13 .01 .00 2.15 .70 F
14 -.28 -.23 1.19 .66 F
15 .15 .05 1.88 .27 F
16 .37 .11 1.99 .38 F
17 -.08 -.08 1.51 .42 F
18 .05 .03 1.68 .95 F
19 .01 .00 1.26 .60 F
20 .12 .11 1.14 .17 F
21 -.28 -.27 1.27 .51 F
22 .51 .10 2.49 .54 NF
23 .08 .02 2.01 .53 NF
24 .38 .11 3.27 .35 NF
25 .19 .05 2.25 .33 NF
26 .32 .07 4.24 .63 NF
27 .31 .05 4.45 .69 NF
28 .12 .05 2.52 .69 NF
29 -.02 .02 2.05 .35 NF
30 .22 .08 2.35 .40 NF
31 .17 .07 1.80 .52 NF
32 .15 .05 2.17 .55 NF
33 -.10 -.01 2.50 .58 NF
34 .14 -.03 .46 .26 NF
35 .14 .07 2.61 .52 NF
36 .15 .06 2.23 .56 NF
37 .16 .05 2.31 .20 NF
38 .29 .06 1.84 .38 NF
39 .54 .11 2.33 .48 NF
40 -.33 -.09 3.01 .47 NF
41 .48 .09 1.24 .18 NF
42 .56 .11 4.29 .44 NF
43 .20 .08 1.99 .30 NF
44 .47 .14 2.92 .45 NF
45 .17 .04 2.45 .14 NF
46 .58 .04 5.06 .13 NF
a. Limited to first 100 cases.
76

Rsultats
Model Summary

-2 Log Cox & Snell Nagelkerke


Step likelihood R Square R Square
1 27. 443 .543 .725

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
X1 -7.138 6. 002 1. 414 1 .234 .001
1 X2 3. 703 13. 670 .073 1 .786 40. 581
X3 -3.415 1. 204 8. 049 1 .005 .033
X4 2. 968 3. 065 .938 1 .333 19. 461
Constant 5. 320 2. 366 5. 053 1 .025 204.283
a. Variable(s) ent ered on step 1: X1, X2, X3, X4.
77

Le modle estim

Pr ob(Y F / X)
5.320 7.138X1 3.703X 2 3.415X 3 2.968X 4
e
5.320 7.138X1 3.703X 2 3.415X 3 2.968X 4
1 e
Prvision de faillite
78

Analyse linaire discriminante


79

Analyse discriminante
Situation : on a un ensemble dindividus caractriss par
une variable expliquer Y qualitative et des variables
explicatives Xi quantitatives

Analyse discriminante descriptive : trouver une


reprsentation des individus qui spare le mieux les groupes

Analyse discriminante prdictive : trouver des rgles


daffectation des individus leur groupe

Lanalyse discriminante offre des solutions ces deux


problmatiques
80

Principe analyse discriminante


Crer une mthode pour choisir entre les combinaisons
linaires des variables celle qui maximise l'homognit
de chaque classe (Fisher 1936)

Thorme de Huyghens : dcomposer la matrice de


covariances de la population de taille n en deux matrices
diffrentes, l'une donnant la variabilit dans chacune
des k classes et l'autre la variabilit entre les k classes:
S=E+H
S matrice des variances/covariances
E matrice de la variabilit inter-classe
H matrice de la variabilit intra-classes
81

Principe analyse discriminante

Chercher des fonctions qui sparent le mieux entre les


classes des fonctions qui maximisent la variabilit
inter-classes :
calculer le vecteur F qui maximise
Ft EF / FtSF
on dduit la relation :
EF = SF
qui devient, lorsque la matrice de covariances est inversible
S-1EF = F
82

Principe analyse discriminante


Les variables qui maximise la variabilit inter-classes est
donne par XF1 :
o F1 est le vecteur propre associ la plus grande valeur
propre de la matrice S-1E.

La variabilit inter-classes associe reprsente ainsi la


proportion 1 de la variabilit totale.

Cette valeur est donc une mesure de la capacit


discriminante de F1, elle sera d'autant plus importante
que 1 s'approchera de 1.
83

Recherche des facteurs discriminants


Le 1er facteur discriminant (F1) est une nouvelle variable,
combinaison linaire des variables descriptives (centres),
dont la variance inter-classe est maximum (ou, de faon
quivalente la variance intra-classe est minimum).

Exemple : analyse discriminante pour k=3


84

Recherche des facteurs discriminants


Gomtriquement: le 1er facteur dtermine un axe dans
le nuage de points (passant par l'origine) tel que les
projections des points sur cet axe aient une variance
inter-classe (variance des moyennes de classe) maximale.

Exemple : analyse discriminante pour k=3


85

Recherche des facteurs discriminants


Le 2eme facteur (F2) est non corrl (perpendiculaire) au
1er et de variance inter-classe max. Etc pour le 3eme ...

Exemple : analyse discriminante pour k=3


86

Proprits des facteurs discriminants

Les facteurs sont entirement dtermins par la matrice


dfinie par: S-1E (vecteurs propres)

Le nombre maximum de facteurs discriminants = k 1


k : nombre de classe de la variable cible modliser

La part de variance inter-classe explique =


variance inter/ variance totale est dcroissante entre les
facteurs successifs.
87

Analyse discriminante descriptive


Si 2 groupes => 1 seul facteur = axe de projection o la
sparation inter-classe est la mieux exprime =>
coordonnes sur cet axe = scores discriminants.

Si + de 2 groupes => plan discriminant (F1) et (F2)


= plan de projection ou la variance inter-classe B (=>
dispersion des centrodes dans le plan) sera la mieux
reprsente
88

ACP contre analyse discriminante


89

Analyse discriminante prdictive


Les facteurs discriminants donnent la meilleure reprsentation
de la sparation des k centrodes de classe (dans un espace
orthonorm)
pour un individu x projet dans l'espace des facteurs: attribuer
la classe dont le centrode est le plus proche.

dtermination de 3 rgions de
dcision (R1, R2 , R3) dlimitant
les points 'senss appartenir
aux diffrentes classes
90

Analyse discriminante prdictive


Distance d de 2 points x et y : d(x,y) = (x-y) H 1 (x-y)
avec H : matrice intra-classes des groupes.

On classe x dans le groupe Gi pour lequel la distance au


centre gi est minimale :

d(x,gi) = (x-gi) H 1 (x-gi) = x H 1x 2gi H x1 + gi H gi1

Minimiser d(x,gi) maximiser 2gi H 1x - gi H 1 gi

gi H 1 gi est une constante ne dpend pas de x


91

Analyse discriminante prdictive


Pour chacun des k groupes Gi, on a une fonction
discriminante de Fisher :
i + i,1X1 + i,2X2 + i,pXp

et on classe x dans le groupe pour lequel la fonction


est maximale
92

Exemple analyse discriminante prdictive


But : construire les
fonctions prdictives
des groupes de
fleurs selon leurs
caractristiques via
une analyse
discriminante
93

Exemple analyse discriminante prdictive

Question : prdire la classe de la fleur de coordonnes (4.5, 3, 1.5, 0.2 )


94

Exemple analyse discriminante prdictive

Question : prdire la classe de la fleur F de coordonnes (4.5, 3, 1.5, 0.2 )


Rponse :
Score_Setosa = (2.35*4.5)+(2.35*3)+(-1.64*1.5)+(-1.73*0.2)-86.3=-71.48
Score_Versicolor= (1.56*4.5)+(0.7*3)+(0.52*1.5)+(0.64*0.2)-72.85= -62.82
Score_Virginica= (1.24*4.5)+(0.36*3)+(1.27*1.5)+(2.1*0.2)-104.36= -95.37

F appartient la classe Versicolor car Score_Versicolor est la


valeur maximal
95

Lanalyse discriminante
Exemple : Prvision de faillite

Les donnes
Les ratios suivants sont observs sur 46 entreprises :

- X1 = Flux de trsorerie / Dette totale


- X2 = Resultat net / Actif
- X3 = Actif court terme / Dette court terme
- X4 = Actif court terme / Ventes
- Y = F si faillite, NF sinon

Deux ans aprs 21 de ces entreprises ont fait faillite et 25 sont restes en
bonne sant financire.
Case Su mmariesa
96
current

Les donnes
assets / current
cash flow / net income / current assets /
total debt total assets li abil ities net sales FAILLIT E
1 -.45 -.41 1.09 .45 F

des entreprises
2 -.56 -.31 1.51 .16 F
3 .06 .02 1.01 .40 F
4 -.07 -.09 1.45 .26 F
5 -.10 -.09 1.56 .67 F
6 -.14 -.07 .71 .28 F
7 .04 .01 1.50 .71 F
8 -.07 -.06 1.37 .40 F
9 .07 -.01 1.37 .34 F
10 -.14 -.14 1.42 .43 F
11 -.23 -.30 .33 .18 F
12 .07 .02 1.31 .25 F
13 .01 .00 2.15 .70 F
14 -.28 -.23 1.19 .66 F
15 .15 .05 1.88 .27 F
16 .37 .11 1.99 .38 F
17 -.08 -.08 1.51 .42 F
18 .05 .03 1.68 .95 F
19 .01 .00 1.26 .60 F
20 .12 .11 1.14 .17 F
21 -.28 -.27 1.27 .51 F
22 .51 .10 2.49 .54 NF
23 .08 .02 2.01 .53 NF
24 .38 .11 3.27 .35 NF
25 .19 .05 2.25 .33 NF
26 .32 .07 4.24 .63 NF
27 .31 .05 4.45 .69 NF
28 .12 .05 2.52 .69 NF
29 -.02 .02 2.05 .35 NF
30 .22 .08 2.35 .40 NF
31 .17 .07 1.80 .52 NF
32 .15 .05 2.17 .55 NF
33 -.10 -.01 2.50 .58 NF
34 .14 -.03 .46 .26 NF
35 .14 .07 2.61 .52 NF
36 .15 .06 2.23 .56 NF
37 .16 .05 2.31 .20 NF
38 .29 .06 1.84 .38 NF
39 .54 .11 2.33 .48 NF
40 -.33 -.09 3.01 .47 NF
41 .48 .09 1.24 .18 NF
42 .56 .11 4.29 .44 NF
43 .20 .08 1.99 .30 NF
44 .47 .14 2.92 .45 NF
45 .17 .04 2.45 .14 NF
46 .58 .04 5.06 .13 NF
a. Limited to first 100 cases.
97
Lanalyse discriminante
Exemple : Prvision de faillite
Rsultat sous R-cran
98

Evaluation globale : sparabilit


Test de sparabilit :
H0 : centres de gravit confondus
H1 : un au moins de ces centres de gravit scarte des autres
La statistique du test est le de Wilks, son expression est :
H

S
o H reprsente le dterminant de la matrice de variance
covariance intra-classes, S le dterminant de la matrice de
variance co-variance globale.

Sous H0, -(n - (p+k)/2 1) Ln est approximativement distribue


suivant une loi Khi2 avec p(k-1) degrs de libert.
avec n est le nombre total d'observations.
p est le nombre de variables.
k est le nombre de groupes.
99

Evaluation individuelle des variables prdictives


Test : variation du Lambda de Wilks lors de l'adjonction de la
(J+1)-ime variable dans le modle de prdiction.
H0 : Variable J+1 non pertinente
H1 : Variable J+1 pertinente

La statistique du test :

N K J J
F 1
J 1 J 1
Avec N : taille de lchantillon, et K=nombre de classes.

Sous H0, F suit une loi de Fisher (K-1,N-K-J) degrs de libert.


100

Modle base de rgles


logiques :
Arbre de dcision

Data mining - Walid Ayadi


101

Arbre de dcision
Les donnes

Y = variable expliquer qualitative

X1,, Xk = variables explicatives quantitatives et/ou qualitatives


102

Principe arbre de dcision


Raliser la classification d'un objet
par une suite de tests sur les attributs
qui le dcrivent.

Organiser l'ensemble des tests


possible comme un arbre.

Une feuille de cette arbre dsigne


une des C classes de la variable
cible(mais chaque classe peut
correspondre plusieurs feuilles ). Exemple darbre de dcision

Data mining - Walid Ayadi


103

Principe arbre de dcision


Chaque nud est associ un test
portant sur un ou plusieurs attributs.

Le classement seffectue en
partant de la racine pour poursuivre
rcursivement le processus jusqu ce
qu'on rencontre une feuille.

Exemple darbre de dcision

Data mining - Walid Ayadi


104

Exemple bancaire
Prdire si un client sera un client qui rembourse son prt
avec succs (classe OUI) ou un client qui a des difficults de
remboursement (classe NON)
Client Logement salaire Salaire S. co-emp Succs
E1 locataire A Moyen Elev NON
E2 locataire A Moyen Faible NON
E3 propritaireA Moyen Elev OUI
E4 famille B Moyen Elev OUI
E5 famille C Elev Elev OUI
E6 famille C Elev Faible NON
E7 propritaireC Elev Faible OUI
E8 locataire B Moyen Elev NON
E9 locataire C Elev Elev OUI
E10 famille B Elev Elev OUI
E11 locataire B Elev Faible OUI
E12 propritaireB Moyen Faible OUI
E13 propritaireA Elev Elev OUI
E14 famille B Moyen Faible NON
105

Reprsentation par arbre de dcision


Logement

Locataire Propritaire Famille

Salaire OUI Salaire co emp

Moyen Elev Faible Elev

NON OUI NON OUI

Data mining - Walid Ayadi


106

Reprsentation par arbre de dcision

Chaque nud interne teste un attribut

Chaque branche correspond une valeur dattribut

Chaque feuille correspond une classe unique (dcision OUI


ou dcision NON) ou une classe majoritaire

On cherche un arbre le plus simple possible


expliquant lensemble des cas

Data mining - Walid Ayadi


107

Algorithme arbre de dcision


Procdure : construire-arbre(X)
- Si tous les points de X appartiennent la mme
classe alors crer une feuille portant le nom de cette
classe
Sinon
- choisir le meilleur attribut pour crer un nud
- le test associ ce noeud spare X en des parties : X1.Xn
- construire-arbre(X1)
-
- construire-arbre(Xn)
Fin

Data mining - Walid Ayadi


108

Description de lalgorithme
Droulement de la construction :

- Recherche de la variable qui spare le mieux


-Applique la sparation la population
-Obtention de nouveaux nuds

Arrt de lapprofondissement de larbre lorsque les conditions


darrts sont rencontres

Data mining - Walid Ayadi


109

Description de lalgorithme

Conditions darrts existantes :

- Profondeur de larbre atteint une limite fixe (=nombre de


variables utilises)
- Nombre de feuilles atteint un maximum fix
- Leffectif de chaque nud est infrieur un seuil fix
-

Data mining - Walid Ayadi


110

Choix du meilleur attribut


Comment trouver les variables qui sparent le mieux les
individus de chaque classe ?


Plusieurs critres de choix de variables correspondant
diffrents types darbres :
- CART (Classification And Regression Tree : Indice de Gini)
- CHAID (Chi square Automatic Interaction Detection)
- C5.0 (Entropie de Shannon)

Data mining - Walid Ayadi


111

Algorithme CART (1984)


Parmi les plus performants et plus rpandus

Accepte tout type de variables

Critre de sparation : Indice de Gini

Avec n : nombre de classes prdire


fi : frquence de la classe dans le nud

Plus lindice de Gini est bas, plus le nud est pure

Data mining - Walid Ayadi


112

Algorithme CART (1984)


Exemple :

Data mining - Walid Ayadi


113

Algorithme CART (1984)


Ainsi,

En sparant 1 nud en 2 nuds fils on cherche la plus
grande hausse de la puret


La variable la plus discriminante doit maximiser
IG(avant sep.)-[IG(fils1)+IG(fils2)]

Data mining - Walid Ayadi


114

Algorithme CART (1984)


Rpartition des individus dans les nuds
- Quand larbre est construit : critres de division connus
- On affecte chaque individu selon les rgles obtenues
remplissage des feuilles

Pour chaque feuille : plusieurs classes C


- Pc = Proportion dindividus de la feuille appartenant la
classe c
- On affecte la feuille la classe pour laquelle Pc est la plus
grande

Data mining - Walid Ayadi


115

Algorithme CART (1984)


Exemple :

Taux derreur global de larbre = somme pondre des taux


derreur des feuilles
Data mining - Walid Ayadi
116

Exercice
Une banque dispose des
informations suivantes sur un
ensemble de clients:
- M : moyenne des montants sur le
compte client.
- A : tranche d'ge du client.
- R : localit de rsidence du client.
- E : valeur oui si le client a un
niveau d'tudes suprieures.
Question : trouver un - I : classe oui correspond un client
arbre de dcision qui effectue une consultation de ses
capable de dire si un comptes bancaires en utilisant
client effectue des Internet
consultations de ses
comptes par Internet
Data mining - Walid Ayadi
117

Rseaux de neurones
118

Fondement biologique
L'lment fondamental du systmes nerveux est le neurone ou
cellule nerveuse.
Le neurone comprend une masse protoplasmique qui entoure le
noyau, de nombreuses arborisations protoplasmiques ou
dendrites et un long prolongement cylindrique ou axone.
Le systme nerveux peut tre vu comme un ensemble
de neurones interconnects.
119

Fondement biologique
L'axone se divise et ses ramifications sont relies aux dendrites
d'autres neurones ainsi qu'ventuellement aux siennes : les
points de jonction sont les synapses; elles sont caractrises
par une efficacit synaptique qui peut tre vue comme un
amplificateur de l'impulsion qui traverse la synapse.

Rseaux de neurones- Walid Ayadi


120

Fondement biologique
Chaque neurone possde en son noyau un additionneur
qui somme les impulsions lectriques amplifies par les synapses
l'entre dans le neurone et un seuil de stimulation. Si
l'excitation totale du neurone excde le seuil de stimulation, le
noyau initie une impulsion.

Rseaux de neurones- Walid Ayadi


121

Fondement biologique
Les dendrites sont donc les organes d'entres du neurone et
l'axone son unit de sortie.
L'impulsion peut prendre la forme d'une excitation ou d'une
inhibition : l'activit d'un groupe de neurones peut renforcer
ou prvenir l'activit concurrente d'un autre groupe.

Rseaux de neurones- Walid Ayadi


122

Fondement biologique
Quelques chiffres :
La dure d'une impulsion est de l'ordre de la milli-seconde
et l'amplitude d'environ 0,1 Volt.
La vitesse de propagation de l'influx nerveux est de 100 m/s
environ donc bien infrieure la vitesse de transmission de
l'information dans un rseau lectronique.
Chaque neurone intgre en permanence jusqu' 1000 signaux
synaptiques mais le nombre de contacts synaptiques par
neurones peut atteindre plusieurs dizaine de milliers.
Le cerveau contient environ 100 milliards de neurones donc,
par analogie avec la thorie des graphes, le nombre de
connexions (arcs) est de l'ordre de 104 (degr) * 1011 (nombre de
sommets) soit 1015 environ.

Rseaux de neurones- Walid Ayadi


123

Neurone artificiel
De faon naturelle, on reprsente un neurone par une unit de
calcul ayant :
des entres ( dendrites +synapses)
une sortie ( axone)
des connexions pondres avec les autres neurones (
efficacit synaptique)
un additionneur
un seuil d'activation
un signal de sortie

Rseaux de neurones- Walid Ayadi


124

Les rseaux de neurones


L'ensemble des neurones se prsente donc comme un graphe
pondr sur lequel va circuler un signal gnr par des stimulus
extrieurs (entres).
Un rseau de neurones : ensemble de noeuds connects
entre eux, chaque variable correspondant un nud

Rseaux de neurones- Walid Ayadi


125

Neurone formel
Modlisation :
Le neurone reoit les entres x1, , xi, , xn.
Le potentiel dactivation du neurone p est dfini comme
la somme pondre (les poids sont les coefficients
synaptiques wi) des entres.
La sortie o est alors calcule en fonction du seuil

Soit : p = x.w = x1.w1 + + xi.wi + + xn.wn


Alors : o = 1 si p >
o = 0 si p

Rseaux de neurones- Walid Ayadi


126

Neurone formel
Exemple
127

Dfinitions
- Dterminer un rseau de neurones = Trouver les coefficients
synaptiques.
- On parle de phase dapprentissage : les caractristiques du
rseau sont modifies jusqu ce que le comportement dsir
soit obtenu.
coefficients synaptiques

Rseaux de neurones- Walid Ayadi


128

Percepton
129

Perceptron
On ajoute une entre supplmentaire x0 (le biais)
On associe comme fonction de transfert la fonction de Heavyside :
f(x) = 1 si x > 0
f(x) = 0 sinon

Rseaux de neurones- Walid Ayadi


130

Perceptron
Apprentissage par l algorithme du perceptron
On note S la base d apprentissage.
S est compose de couples (x, c) o :
x est le vecteur associ l entre (x0, x1, , xn)
c la sortie correspondante souhaite
On cherche dterminer les coefficients (w0, w1, , wn).

Initialiser alatoirement les coefficients wi.


Rpter :
Prendre un exemple (x, c) dans S
Calculer la sortie o du rseau pour l entre x
Mettre jour les poids :
Pour i de 0 n :
wi = wi + (c o) xi
Fin Pour
Fin Rpter

Rseaux de neurones- Walid Ayadi


131

Perceptron : exemple
Apprentissage par lalgorithme de perceptron du OU :
les descriptions appartiennent {0,1}2, les entres du
perceptron appartiennent {0,1}3, la premire composante
correspond l'entre x0 et vaut toujours 1, les deux composantes
suivantes correspondent aux variables x1 et x2 . On suppose qu'
l'initialisation, les poids suivants ont t choisis : w0=0 ; w1 =
1 et w2 = -1.

Rseaux de neurones- Walid Ayadi


132

Perceptron : exemple
Apprentissage par lalgorithme de perceptron : exemple

Donc : w0 = 0 ; w1 = 1 ; w2 = 1
Ce perceptron calcule le OU logique pour tout couple (x1 ; x2)
Rseaux de neurones- Walid Ayadi
133

Perceptron : exercice 1
Apprentissage d'un ensemble linairement sparable :
les descriptions appartiennent R2, le concept cible est dfini
l'aide de la droite d'quation y=x/2. Les couples (x,y) tels
que y>x/2 sont de classe 1 ; Les couples (x,y) tels que y <= x/2
sont de classe 0.
L'chantillon d'entre est :
S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}.
On suppose qu' l'initialisation, les poids ont t choisis :
w0=0 ; w1 = 0 et w2 = 0.
On choisit de prsenter tous les exemples en alternant exemple
positif (de classe 1) et exemple ngatif.

Rseaux de neurones- Walid Ayadi


134

Perceptron : exercice 1
L'chantillon d'entre est :
S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}.
On suppose qu' l'initialisation, les poids ont t choisis :
w0=0 ; w1 = 0 et w2 = 0.

Rseaux de neurones- Walid Ayadi


135

Perceptron : exercice 2
Apprentissage de parit : Considrons un afficheur numrique
sept segments et formons un perceptron donnant la parit
du chiffre crit, savoir 0 s'il est pair et 1 sinon.
On commence par coder chaque chiffre en
une liste de sept 0 ou 1 selon les segments
allums, liste qui constituera les neurones
d'entre du perceptron
136

Perceptron : exercice 2
On commence par coder chaque chiffre en
une liste de sept 0 ou 1 selon les segments
allums, liste qui constituera les neurones
d'entre du perceptron

But : Apprendre si
On considre un ensemble complet
un chiffre est pair
ou impair.

Les poids initiaux :


w=(1,1,1,1,1,1,1,1)
137

Perceptron : exercice 2
Trace de lalgorithme
138

Les rseaux de neurones


de Kohonen
139

Cartes de Kohonen : principe


n cellules dentre e = (e1, , en)
une carte : rseau de m neurones de sortie x1, , xm
connexions latrales (coefficients fixes) entre les neurones
de sortie : un neurone est connect ses 4 plus proches
voisins
connexions de coefficient wij entre une cellule dentre ei et un
neurone de sortie xj

Rseaux de neurones- Walid Ayadi


140

Cartes de Kohonen : principe


Principes :
- Pour une entre, un seul neurone sur la carte est slectionn
(valeur 1).
- On encourage le vainqueur : the winner takes all.
- Ce neurone correspond le plus possible lentre :
minimisation dune distance.

Rseaux de neurones- Walid Ayadi


141

Carte de Kohonen
Algorithme dapprentissage :
- Initialiser alatoirement les coefficients wij.
- Fixer les taux dapprentissage et .
Rpter
- Prendre une entre e = (e1, , ei, , en)
- Calculer la distance dj de chaque neurone xj par rapport e

- Slectionner le neurone xk le plus proche de e : dk = Min(dj)


- Modifier les coefficients pour le neurone slectionn et ses
plus proches voisins (4 pour une carte 2D) :
Pour tout i :
- wik = wik + (ei wik)
- wil = wil + (ei wil) o xl est un voisin de xk
Fin Pour Rseaux de neurones- Walid Ayadi
142

Apprentissage du rseau
Pour chaque individu, un seul
noeud de sortie est activ ( le gagnant )
Le gagnant et ses voisins voient leurs
poids ajusts
En rapprochant les voisins, lajustement
fait en sorte qu deux individus proches
correspondent deux nuds proches
en sortie
Des groupes (clusters) de nuds
se forment en sortie

Rseaux de neurones- Walid Ayadi


143

Application dun rseau de Kohonen


Tout se passe comme si la grille du rseau tait en caoutchouc
et si on la dformait pour lui faire traverser le nuage des individus
en sapprochant au plus prs des individus.
avec un plan factoriel : cest une projection non-linaire
avec les autres mthodes de classification : rduction de la
dimension

Rseaux de neurones- Walid Ayadi


144

Application dun rseau de Kohonen


Une fois que tous les individus de lchantillonnage
dapprentissage ont t prsents au rseau et que tous
les poids ont t ajusts, lapprentissage est achev.

En phase dapplication, le rseau de Kohonen fonctionne


en reprsentant chaque individu en entre par le noeud
du rseau qui lui est le plus proche au sens de la distance
dfinie ci-dessus. Ce noeud sera la classe de lindividu.

Rseaux de neurones- Walid Ayadi


145

Exercice rseau de Kohonen

C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.4 0.3 0.8 0.2

U U
1 2

Pour lentre (0.5, 0.2) et un taux dapprentissage de 0.2

a) Le neurone le plus proche de lentre?


b) Mise jour des poids du neurone gagnant?
c) Mise jour des poids des neurones voisins du neurone gagnant?

Rseaux de neurones- Walid Ayadi


146

C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.4 0.3 0.8 0.2

U U
1 2

Pour lentre (0.5, 0.2) et un taux dapprentissage de 0.2

a) Soit Dm la distance entre lentre et le poids du vecteur Cm on a :

D1 = (0.3 - 0.5)2 + (0.7 0.2)2 = 0.29


D2 = (0.6 0.5)2 + (0.9 0.2)2 = 0.50
D3 = (0.1 0.5)2 + (0.5 0.2)2 = 0.25
D4 = (0.4 0.5)2 + (0.3 0.2)2 = 0.02
D5 = (0.8 0.5)2 + (0.2 0.2)2 = 0.09

Le neurone le plus proche de lentre est donc C4, il gagne ainsi la comptition.
Rseaux de neurones- Walid Ayadi
147

C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.42 0.28 0.8 0.2

U U
1 2

b) Mise jour des poids pour le neurone gagnant J

w14(nouveau) = w14(vieux) + 0.2 (x1 w14(vieux))

= 0.4 + 0.2(0.5 0.4) = 0.4 + 0.02 = 0.42

w24(nouveau) = w24(vieux) + 0.2 (x2 w24(vieux))

= 0.3 + 0.2(0.2 0.3) = 0.3 - 0.02 = 0.28

Rseaux de neurones- Walid Ayadi


148

C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.18 0.44 0.4 0.3 0.74 0.2

U U
1 2

c) Si on permet J-1 et J+1 dapprendre alors

w13(nouveau) = w13(vieux) + 0.2 (x1 w13(vieux))

= 0.1 + 0.2(0.5 0.1) = 0.1 + 0.08 = 0.18

w23(nouveau) = 0.5 + 0.2(0.2 0.5) = 0.5 - 0.06 = 0.44

w15(nouveau) = 0.8 + 0.2(0.5 0.8) = 0.8 0.2*0.3 = 0.74

w25(nouveau) = 0.2 + 0.2(0.2 0.2) = 0.2 + 0.0 = 0.2

Rseaux de neurones- Walid Ayadi


149

Exercice :
On considre des entres caractrises par deux variables
U1 et U2. Les coefficients initiaux entre les variables des
entres et les neurones de la carte sont affichs dans la
figure 1.
Pour les entres (1.5 , 0.8) ; (0.5 , 1) ; (2 , 1) et un taux
dapprentissage de 0.1 , rpondre aux questions suivantes
en tenant compte de lordre de passage des entres :
1. Le neurone le plus proche de chaque entre?
2. Mise jour des poids du neurone gagnant pour chaque entre?
3. Mise jour des poids des neurones voisins du neurone
gagnant?
150

Exemple dapplication C. K.
Exemple :
- Analyse de donnes socio-conomiques (PIB, croissance du PIB,
mortalit infantile, taux dillettrisme, ) de 52 pays.
- 1 neurone de la carte = 1 groupe de pays (mme situation
socioconomique).
- Neurones voisins = groupes de pays proches (du point de vue
de la situation socio-conomique).

Rseaux de neurones- Walid Ayadi


151

Exemple dapplication C. K.

You might also like