Professional Documents
Culture Documents
Apprentissage
Sous la direction de Grard Dreyfus
statistique
Rseaux de neurones Cartes topologiques
Machines vecteurs supports
CD-R
r le
om
Su
li v r e
Cinq exemples de modles, offe
avec donnes et code source t a
vec ce
r
Neuro One 6.10.7*, outil
de cration de modles neuronaux
Compilateur C pour Windows.
Bibliothque non linaire
MonaEx70.dll, niveau 0.
* Version dvaluation de 6 semaines
pour MS-Windows NT, 2000, 2003, XP
Prvision
Data mining
Bio-ingnierie
Reconnaissance de formes
Robotique et commande de processus
Apprentissage
statistique
CHEZ LE MME DITEUR
Autres ouvrages
Cet ouvrage est la troisime dition, avec mise jour et nouveau titre,
de louvrage paru lorigine sous le titre
Rseaux de neurones Mthodologie et applications
(ISBN: 978-2-212-11464-5)
Je remercie la direction scientifique de lONERA et le chef de projet Jean-Louis Gobert pour le soutien
accord des recherches dordre gnral sur les rseaux de neurones notamment dans le cadre du projet
fdrateur de contrle actif des coulements.
Je tiens remercier parmi mes tudiants en thse actuels ou passs, ceux qui ont directement contribu
faire progresser notre comprhension collective du contrle neuronal savoir : Emmanuel Dauc
(Universit dAix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingnieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les tudiants de Suparo dont jai guid les
projets lan dernier et dont les ractions mont aides amliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels Grard Dreyfus pour le dialogue scientifique
qui sest instaur entre nous travers ces changes trs enrichissants pour moi. Bien conscient que les
justifications mathmatiques ne suffisent pas valuer lintrt dun algorithme, jai donc attach un
grand prix lexprience pratique que Grard ma transmise par ses observations.
Manuel Samuelides
Lapprentissage statistique
II
Je remercie mes tudiants du DEA de Sciences Cognitives de Grenoble. Au fil des annes, ils ont
contribu faire voluer mon cours par leurs remarques et leurs questions. Ils ont apport des corrections
mes notes, dont une partie a servi de base la rdaction du chapitre 6.
Le travail avec mes tudiants de thse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, ma apport la joie de la recherche partage, et a enrichi ma comprhension
du domaine de lapprentissage. Je les en remercie chaleureusement.
Enfin, je tiens remercier mon collgue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon
Le chapitre qui est prsent est le rsultat de nombreux efforts, il reprsente une collaboration fructueuse
entre informaticiens, physiciens et mathmaticiens. Nous tenons remercier amicalement tous les cher-
cheurs qui, par leur travail ou lintrt quils lui ont port, ont permis la ralisation de ce travail et tout
particulirement : Mziane Yacoub, Carlos Mejia, Michel Crpon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria
Je tiens remercier tous les collaborateurs du CEA et les tudiants qui ont particip ces travaux de
recherche. Sans tre exhaustif, je tiens exprimer toute ma gratitude Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Jol Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initi les recherches en rseaux de neurones au CEA-LETI.
Laurent Hrault
Sommaire
Introduction 1
Premier exemple : un problme lmentaire dapprentissage statistique 2
Point de vue algorithmique 3
Point de vue statistique 4
Quelques dfinitions concernant les modles 5
Modles statiques 5
Modles dynamiques 6
Deux exemples acadmiques dapprentissage supervis 7
Un exemple de modlisation pour la prdiction 7
Un exemple de classification 11
Conclusion 16
lments de thorie de lapprentissage 16
Fonction de perte, erreur de prdiction thorique 17
Dilemme biais-variance 22
De la thorie la pratique 25
Remplacer des intgrales par des sommes 26
Bornes sur lerreur de gnralisation 27
Minimisation du risque structurel 30
Conception de modles en pratique 30
Collecte et prtraitement des donnes 30
Les donnes sont prexistantes 30
Les donnes peuvent tre spcifies par le concepteur 30
Prtraitement des donnes 31
Slection des variables 31
Apprentissage des modles 32
Slection de modles 32
Slection de modles 32
Validation simple (hold-out) 32
Lapprentissage statistique
IV
Introduction 73
Rseaux de neurones : dfinitions et proprits 73
Les neurones 74
Les rseaux de neurones 75
Proprit fondamentale des rseaux de neurones statiques (non boucls) :
lapproximation parcimonieuse 82
quoi servent les rseaux de neurones non boucls apprentissage supervis ?
Modlisation statique et discrimination (classification) 84
quoi servent les rseaux de neurones apprentissage
non supervis ? Analyse et visualisation de donnes 87
Sommaire
V
Pr-traitements 204
Pr-traitements des entres 204
Pr-traitement des sorties pour la classification supervise 204
Pr-traitement des sorties pour la rgression 205
Rduction du nombre de composantes 206
Analyse en composantes principales 206
Principe de lACP 206
Analyse en composantes curvilignes 210
Formalisation de lanalyse en composantes curvilignes 211
Algorithme danalyse en composantes curvilignes 212
Mise en uvre de lanalyse en composantes curvilignes 213
Qualit de la projection 214
Difficults prsentes par lanalyse en composantes curvilignes 214
Sommaire
VII
Apprentissage adaptatif dun rseau de neurones par la mthode du filtrage de Kalman 252
Rseaux neuronaux rcurrents ou boucls 254
Simulateur neuronal dun systme dynamique command en boucle ouverte 254
Simulateur neuronal dun systme dynamique command en boucle ferme 255
Quelques rseaux boucls particuliers 255
Mise sous forme canonique des rseaux boucls 258
Apprentissage des rseaux de neurones rcurrents ou boucls 258
Apprentissage dirig (teacher forcing) 259
Dpliement de la forme canonique et rtropropagation travers le temps 260
Apprentissage en temps rel des rseaux boucls 262
Application des rseaux neuronaux boucls lidentification de systmes dynamiques
commands mesurs 263
Complments algorithmiques et thoriques 264
Calcul du gain de Kalman et propagation de la covariance 264
Importance de la distribution des retards dans un rseau rcurrent 266
Bibliographie 267
Gnralits sur la commande en boucle ferme des systmes non linaires 269
Principe de la commande en boucle ferme 269
Commandabilit 270
Stabilit des systmes dynamiques commands 271
Synthse dune commande neuronale par inversion du modle du processus 273
Inversion directe 273
Utilisation dun modle de rfrence 276
Commande avec modle interne 277
Commande prdictive et utilisation des rseaux rcurrents 278
Programmation dynamique et commande optimale 280
Exemple de problme dterministe espace dtats discret 280
Exemple de problme de dcision markovienne 281
Dfinition dun problme de dcision markovienne 282
Programmation dynamique horizon fini 286
Programmation dynamique horizon infini et cot actualis 287
Problmes de dcision markovienne partiellement observs 288
Apprentissage par renforcement et programmation neuro-dynamique 289
valuation dune politique par la mthode de Monte-Carlo et apprentissage
par renforcement 289
Sommaire
IX
6 La discrimination 301
Exemple 2 436
Exemple 3 437
Exemple 4 437
Exemple 5 437
Installation des exemples 437
Compiler le code source 438
Excuter le code source 438
Excuter le code source Visual Basic 439
Visualiser les modles 440
La librairie NDK (Neuro Developer Kit) 440
Programme de dmonstration de la librairie 440
Les compilateurs C 441
Licence 442
Index 443
Avant-propos et guide de lecture
En une vingtaine dannes, lapprentissage artificiel est devenu une branche majeure des mathmatiques
appliques, lintersection des statistiques et de lintelligence artificielle. Son objectif est de raliser des
modles qui apprennent par lexemple : il sappuie sur des donnes numriques (rsultats de mesures
ou de simulations), contrairement aux modles de connaissances qui sappuient sur des quations
issues des premiers principes de la physique, de la chimie, de la biologie, de lconomie, etc. Lapprentis-
sage statistique est dune grande utilit lorsque lon cherche modliser des processus complexes,
souvent non linaires, pour lesquels les connaissances thoriques sont trop imprcises pour permettre des
prdictions prcises. Ses domaines dapplications sont multiples : fouille de donnes, bio-informatique,
gnie des procds, aide au diagnostic mdical, tlcommunications, interface cerveau-machines, et bien
dautres.
Cet ouvrage reflte en partie lvolution de cette discipline, depuis ses balbutiements au dbut des
annes 1980, jusqu sa situation actuelle ; il na pas du tout la prtention de faire un point, mme partiel,
sur lensemble des dveloppements passs et actuels, mais plutt dinsister sur les principes et sur les
mthodes prouvs, dont les bases scientifiques sont sres. Dans un domaine sans cesse parcouru de
modes multiples et phmres, il est utile, pour qui cherche acqurir les connaissances et principes de
base, dinsister sur les aspects prennes du domaine.
Cet ouvrage fait suite Rseaux de neurones, mthodologies et applications, des mmes auteurs, paru
en 2000, rdit en 2004, chez le mme diteur, puis publi en traduction anglaise chez Springer.
Consacr essentiellement aux rseaux de neurones et aux cartes auto-adaptatives, il a largement contribu
populariser ces techniques et convaincre leurs utilisateurs quil est possible dobtenir des rsultats
remarquables, condition de mettre en uvre une mthodologie de conception rigoureuse, scientifique-
ment fonde, dans un domaine o lempirisme a longtemps tenu lieu de mthode.
Tout en restant fidle lesprit de cet ouvrage, combinant fondements mathmatiques et mthodologie de
mise en uvre, les auteurs ont largi le champ de la prsentation, afin de permettre au lecteur daborder
dautres mthodes dapprentissage statistique que celles qui sont directement dcrites dans cet ouvrage.
En effet, les succs de lapprentissage dans un grand nombre de domaines ont pouss au dveloppement
de trs nombreuses variantes, souvent destines rpondre efficacement aux exigences de telle ou telle
classe dapplications. Toutes ces variantes ont nanmoins des bases thoriques et des aspects mthodolo-
giques communs, quil est important davoir prsents lesprit.
Le terme dapprentissage, comme celui de rseau de neurones, voque videmment le fonctionnement du
cerveau. Il ne faut pourtant pas sattendre trouver ici dexplications sur les mcanismes de traitement des
informations dans les systmes nerveux ; ces derniers sont dune grande complexit, rsultant de
processus lectriques et chimiques subtils, encore mal compris en dpit de la grande quantit de donnes
exprimentales disponibles. Si les mthodes dapprentissage statistique peuvent tre dune grande utilit
pour crer des modles empiriques de telle ou telle fonction ralise par le systme nerveux, celles qui
sont dcrites dans cet ouvrage nont aucunement la prtention dimiter, mme vaguement, le fonctionne-
ment du cerveau. Lapprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacits analogues celles des tres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles dapprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il sinspirer de ce que lon sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font lobjet de dbats passionns, et passionnants, au sein de la communaut
scientifique : on nen trouvera pas les rponses ici.
Lapprentissage statistique
XII
Guide de lecture
La varit des motivations qui peuvent amener le lecteur aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de lapprentissage statistique ne ncessitent pas toutes la mise en
uvre des mmes mthodes.
Le premier chapitre ( Lapprentissage statistique : pourquoi, comment ? ) constitue une prsentation
gnrale des principes de lapprentissage statistique et des problmes fondamentaux rsoudre. partir
dexemples acadmiques trs simples, le lecteur est amen dcouvrir les problmes que pose la concep-
tion de modles par apprentissage. Ces problmes sont ensuite formaliss par la prsentation de quelques
lments de la thorie de lapprentissage. La conception des modles les plus simples les modles
linaires en leurs paramtres est dcrite. Enfin, les diffrentes tapes de la conception dun modle par
apprentissage statistique sont dtailles : slection de variables, apprentissage, slection de modle, test
du modle slectionn.
Le chapitre 2 est entirement consacr aux rseaux de neurones, qui constituent une des familles de
modles les plus utiliss. Les lecteurs qui sintressent un problme de modlisation statique liront ce
chapitre jusqu la section Techniques et mthodologie de conception de modles statiques (rseaux
non boucls) incluse. Ils tireront galement profit de la lecture du chapitre 3 ( Complments de mtho-
dologie pour la modlisation : rduction de dimension et validation de modle par r-chantillonnage ).
Les lecteurs qui se posent un problme de modlisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 ( Identification neuronale de systmes dynamiques commands et rseaux
boucls (rcurrents) . Sils veulent utiliser ce modle au sein dun dispositif de commande de processus,
ils liront ensuite le chapitre 5 ( Apprentissage dune commande en boucle ferme ).
Les lecteurs qui sintressent un problme de classification supervise (ou discrimination) liront le
chapitre 1, la section Rseaux de neurones apprentissage supervis et discrimination du chapitre 2,
puis le chapitres 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et
validation de modle par r-chantillonnage ) et surtout le chapitre 6 ( Discrimination ), qui introduit,
de manire originale, les machines vecteurs supports.
Enfin, les lecteurs qui cherchent rsoudre un problme qui relve de lapprentissage non supervis
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 ( Cartes auto-organisatrices et classification
automatique ).
Avant-propos
XIII
Chapitres 1 et 2 Grard Dreyfus est professeur lcole Suprieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire dlectronique de cet tablis-
sement. Il enseigne lapprentissage statistique lESPCI, ainsi que dans plusieurs
masters et mastres. Depuis 1988, il organise chaque anne deux sessions de forma-
tion continue pour ingnieurs, consacres lapprentissage statistique et ses appli-
cations industrielles et financires. Depuis 1982, les recherches de son laboratoire
sont entirement consacres la modlisation et lapprentissage, pour lingnierie
et la neurobiologie.
ESPCI, Laboratoire dlectronique, 10 rue Vauquelin, F 75005 Paris France
Chapitre 3 Jean-Marc Martinez, ingnieur au Centre dtudes de Saclay, effectue des recher-
ches dans le domaine des mthodes adaptes la supervision de la simulation. Il
enseigne les mthodes dapprentissage statistique lINSTN de Saclay et vry en
collaboration avec le LSC, unit mixte CEA Universit.
DM2S/SFME Centre dtudes de Saclay, 91191 Gif sur Yvette France
Lapprentissage statistique
XIV
Introduction
Une des tches essentielles du cerveau consiste transformer des informations en connaissances : identi-
fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activits qui nous paraissent naturelles une fois lapprentissage ncessaire accompli avec succs.
Lobjectif de lapprentissage statistique est dimiter, laide dalgorithmes excuts par des ordinateurs,
la capacit quont les tres vivants apprendre par lexemple. Ainsi, pour apprendre un enfant la lecture
des lettres ou des chiffres, on lui prsente des exemples de ceux-ci, crits dans des styles et avec des
polices diffrents. On ne fournit gnralement pas lenfant une description analytique et discursive de la
forme et de la topologie des caractres : on se contente de lui montrer des exemples. la fin de lappren-
tissage, on attend de lenfant quil soit capable de lire non seulement tous les chiffres et lettres qui lui ont
t prsents durant son apprentissage, mais galement tous les chiffres et lettres quil est susceptible de
rencontrer : en dautres termes, on attend de lui quil ait une capacit de gnralisation partir des exem-
ples qui lui ont t prsents. De mme, lissue de lapprentissage dun modle statistique partir
dexemples, celui-ci doit tre capable de gnraliser, cest--dire de fournir un rsultat correct, dans des
situations quil na pas connues pendant lapprentissage.
Considrons deux exemples simples de tches qui peuvent tre accomplies par apprentissage artificiel :
Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres lments de
ladresse des lettres et paquets, est frquemment effectue laide de modles obtenus par apprentissage
statistique, partir dexemples de chacune des classes de chiffres. Il sagit l dun problme de
classification : chaque chiffre inconnu doit tre attribu une classe parmi les 10 classes de chiffres
possibles (ou tre attribu une classe dite de rejet si le chiffre est trop mal crit pour tre reconnu
par la machine : lobjet postal doit alors tre trait manuellement).
Dans lindustrie pharmaceutique, on cherche prdire lactivit thrapeutique dune molcule partir
de sa structure, avant mme de synthtiser cette molcule, afin dviter quune synthse coteuse risque
de se rvler finalement inutile. Cette prdiction est frquemment effectue par des modles, construits
par apprentissage statistique, partir de bases de donnes de molcules dont les activits thrapeutiques
sont connues.
Ces deux problmes, quoique trs diffrents, ont une caractristique commune essentielle : ils ne peuvent
pas tre rsolus par lapplication de connaissances existant a priori. Il nexiste pas dquation mathma-
tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prdire prcisment
lactivit dune molcule connaissant sa structure ; de mme, il nexiste pas dquation qui dcrive les
proprits topologiques des chiffres manuscrits. Cest dans de telles conditions que le recours lappren-
Lapprentissage statistique
2
tissage statistique partir dexemples se rvle trs fructueux. Nous prsenterons bien dautres exemples
dapplications dans ce chapitre et les suivants.
Cet ouvrage prsente trois grandes familles de modles statistiques obtenus par apprentissage artificiel
les rseaux de neurones, les machines vecteur supports et les cartes auto-adaptatives qui connaissent
un grand succs, depuis plusieurs annes ; ils font lobjet de trs nombreuses applications.
Lobjectif de ce chapitre est de prsenter les bases de la conception dun modle par apprentissage, de
manire aussi intuitive que possible, mais avec la rigueur ncessaire pour une mise en uvre raisonnable
et lobtention de rsultats fiables. On prsente tout dabord un exemple trs lmentaire de modlisation
par apprentissage, qui montre la dualit entre lapproche algorithmique, traditionnelle en apprentissage,
dune part, et lapproche statistique, qui en est devenue indissociable, dautre part. La notion fondamen-
tale tant celle de modle, on prsente ensuite quelques dfinitions qui prcisent ce que lon entend par
modle dans cet ouvrage ; on introduit notamment la distinction entre modles linaires et modles non
linaires en les paramtres, ainsi que la distinction entre modles statiques et modles dynamiques. La
section suivante dcrit deux problmes acadmiques dapprentissage, lun dans le domaine de la classifi-
cation, lautre dans celui de la prdiction ; ces exemples simples permettent de mettre en vidence le
dilemme biais-variance, qui constitue un problme central pour la pratique de lapprentissage statistique.
On prsente ensuite, de manire plus formelle, les lments de la thorie de lapprentissage : fonction de
perte, erreur de prdiction thorique, classifieur de Bayes, dilemme biais-variance. Il sagit l essentielle-
ment de rsultats asymptotiques, valables dans lhypothse o le nombre dexemples est infini. La
cinquime section est plus proche de la pratique, en ce sens que les rsultats qui y sont prsents tiennent
compte du fait que les donnes sont en nombre fini : ce sont les bornes sur lerreur de prdiction, fournies
par la thorie de V. Vapnik. Les quatre sections suivantes sont de nature entirement pratique : elles expo-
sent les diffrentes tches accomplir pour concevoir un modle par apprentissage collecte des donnes,
prtraitements, slection des variables, apprentissage, slection de modles. Ces deux dernires tches
font lobjet de deux sections suivies dun rsum de la stratgie de conception de modles. On prsente
ensuite a conception des modles les plus simples : les modles linaires en leurs paramtres. Enfin, la
dernire section du chapitre fournit les lments de statistiques ncessaires une bonne comprhension
de la mise en uvre des mthodes dcrites tout au long de louvrage.
Dans cet ouvrage, toutes les variables seront regroupes en un vecteur not x, et tous les paramtres en un
vecteur not w. Un modle statique sera dsign par g(x, w) : aprs apprentissage, cest--dire estimation
des paramtres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prdiction effectue par le modle. Les modles dynamiques seront dfinis dans la section
suivante, intitule Quelques dfinitions concernant les modles .
titre dexemple trs simple de modle statique, supposons que lon ait effectu N mesures (p1, p2, ,
pN) du poids dun objet, avec des balances et dans des lieux diffrents. Nous cherchons estimer le poids
de cet objet. Nous observons que les rsultats des mesures sont tous peu prs identiques, des fluctua-
tions prs qui peuvent tre dues limprcision des mesures, aux rglages diffrents des balances, ou
des variations locales de lacclration de la pesanteur. On peut donc supposer raisonnablement que la
masse de lobjet est constante ; en consquence, la premire tape de conception dun modle prdictif
consiste postuler un modle de la forme
g ( x, w ) = w ,
o w est un paramtre constant dont la valeur est lestimation du poids de lobjet. La deuxime tape consiste
estimer la valeur de w partir des mesures disponibles : cest ce qui constitue lapprentissage proprement
dit. Une fois lapprentissage termin, le modle fournit une estimation du poids de lobjet, donc une prdic-
tion du rsultat de la mesure de celle-ci, quels que soient la balance utilise et le lieu de la mesure.
Cet exemple contient donc, sous une forme trs simplifie, les tapes que nous avons dcrites plus haut :
On sest fix un objectif : prdire la valeur dune grandeur ; dans cet exemple trs simple, cette valeur
est constante, mais, en gnral, la valeur prdite dpend de variables x.
On a postul un modle g(x, w), o x est le vecteur des variables du modle, et w est le vecteur des para-
mtres du modle ; dans cet exemple, il ny a pas de variable puisque la grandeur prdire est constante,
et il y a un seul paramtre w. Le modle postul est donc simplement la fonction constante g(x, w) = w.
Il reste alors estimer lunique paramtre du modle, cest--dire effectuer lapprentissage du modle
partir des donnes disponibles.
Cet apprentissage peut tre considr sous deux points de vue, qui suggrent deux mthodes destimation
diffrentes ; elles conduisent videmment au mme rsultat.
( )
J ( w ) = pk g ( x k , w ) ,
2
k =1
cest--dire la somme des carrs des diffrences entre les prdictions g(xk, w) et les mesures pk. xk dsigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postul un
modle constant, cette fonction de cot scrit
N
J ( w ) = ( pk w ) .
2
k =1
Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit dcrire que sa drive est
nulle :
Lapprentissage statistique
4
dJ ( w )
= 0,
dw
ce qui donne :
1 N
w= pk .
N k =1
Le meilleur modle prdictif, au sens de la distance des moindres carrs que nous avons choisie, et
compte tenu des donnes dont nous disposons, sous lhypothse que la masse de lobjet est constante, est
donc
1 N
g ( x, w ) = pk .
N k =1
Le poids prdit est donc simplement la moyenne des poids mesurs.
1 N
pk .
N k =1
1 N
On retrouve donc le modle prdictif obtenu par lapproche algorithmique : g ( x, w ) = pk .
N k =1
Ayant ainsi dtermin le modle par apprentissage, il est trs important destimer la confiance que lon
peut avoir en cette prdiction : pour cela, on calcule un intervalle de confiance sur la prdiction fournie.
Lapprentissage statistique : pourquoi, comment ?
5
CHAPITRE 1
Le calcul de lintervalle de confiance sur la moyenne dobservations est dcrit dans la dernire section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps t spars. Les tout premiers dve-
loppements de la thorie de lapprentissage, apparus dans les annes 1980, taient essentiellement
inspirs par le point de vue algorithmique, ce qui nintressait gure les statisticiens. Ce nest que dans les
annes 1990 quune vritable synergie sest cre entre les deux approches, permettant le dveloppement
de mthodologies efficaces et fiables pour la conception de modles par apprentissage.
Modles statiques
Un modle statique est une fonction paramtre note g ( x, w ), o x est le vecteur dont les composantes
sont les valeurs des variables, et o w est le vecteur des paramtres du modle.
o fi est une fonction connue, non paramtre, ou paramtres connus. Ce modle peut encore scrire
sous la forme dun produit scalaire :
g ( x, w ) = w f ( x ),
o f (x) est le vecteur dont les composantes sont les fonctions fi(x).
Les polynmes, par exemple, sont des modles linaires en leurs paramtres : les fonctions fi(x) sont les
monmes des variables x. Les polynmes sont nanmoins non linaires en leurs variables.
On appelle modle linaire un modle qui est linaire en ses paramtres et en ses variables. Les modles
linaires sont donc de la forme :
p
g ( x, w ) = wi xi = w x .
i =1
Un modle affine est un modle linaire qui contient une constante additive :
p 1
g ( x, w ) = w0 + wi xi .
i =1
Lapprentissage statistique
6
Remarque
Un modle afne peut donc tre considr comme un modle linaire dont une des variables est constante, gale 1. Il est donc inutile,
en gnral, de faire une distinction entre modles linaires et modles afnes.
o les fonctions fi sont des fonctions non linaires, paramtres par les composantes du vecteur w. Le
vecteur w a donc pour composantes les paramtres wi (i = 1 p) et les composantes de w. Les rseaux de
neurones, qui sont largement tudis dans cet ouvrage, constituent un exemple de modles non linaires
en leurs paramtres et non linaires en leurs variables.
Modles dynamiques
Dans les modles dcrits dans la section prcdente, le temps ne joue aucun rle fonctionnel : si les varia-
bles x sont indpendantes du temps, la valeur fournie par le modle (ou sortie du modle) est indpen-
dante du temps. Les modles dynamiques, en revanche, ont une forme de mmoire : la sortie du modle
un instant donn dpend de ses sorties passes. En consquence, elle peut voluer dans le temps, partir
dun tat initial, mme si les variables x sont constantes, voire nulles.
La trs grande majorit des applications des modles statistiques sont ralises laide dordinateurs, ou
de circuits lectroniques numriques. Dans les deux cas, les mesures des variables sont effectues inter-
valles rguliers, dont la dure est appele priode dchantillonnage. De mme, les prdictions du modle
ne sont pas fournies de manire continue, mais intervalles rguliers, gnralement caractriss par la
mme priode dchantillonnage que les mesures des variables. De tels systmes sont dits temps discret,
par opposition aux systmes physiques naturels, qui sont des systmes temps continu.
Ces derniers sont dcrits par des modles dynamiques temps continu, qui sont des quations (ou des
systmes dquations) diffrentielles du type :
dy
= g ( y, x, w )
dt
o t dsigne le temps, y la prdiction effectue par le modle, x et w les vecteurs des variables et des para-
mtres respectivement.
Pour les modles temps discret, le temps nest plus une variable continue :
t = kT
o T dsigne la priode dchantillonnage et k est un nombre entier positif. La prdiction de la valeur prise
par la grandeur modliser linstant kT, connaissant les prdictions effectues aux n instants prcdents,
et les valeurs des variables aux m instants prcdents, peut alors tre mise sous la forme :
o n et n sont des entiers positifs ; n est appel ordre du modle. Cette forme de modle est assez natu-
relle, mais nous verrons, dans les sections du chapitre 2 consacres la modlisation dynamique bote
noire , et dans les chapitres 4 et 5, quil existe des formes plus gnrales de modles dynamiques.
Comme pour les modles statiques, la fonction g(y, x, w) peut tre soit linaire, soit non linaire, par
rapport ses variables et ses paramtres. Dans la suite de ce chapitre, nous ne considrerons que des
modles statiques ; les modles dynamiques seront abords dans les chapitres 2, 4 et 5.
Cest donc un modle d+1 paramtres w0, w1, , wd. Le modle le plus simple de cette famille est le
modle constant g(x, w) = w0, mis en uvre dans la section intitule Premier exemple .
Pour effectuer lapprentissage de ces modles, on peut utiliser la mthode des moindres carrs, dj
mentionne. Les dtails en seront dcrits plus loin, dans la section intitule Conception de modles
linaires par rapport leur paramtres ; pour linstant, il est intressant dobserver les rsultats de ces
apprentissages, reprsents sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le mme
graphique comporte galement une reprsentation de la fonction 10 sin x / x.
20
d=1
d=6
Figure 1-2.
Trois modles
d = 10 polynomiaux
10 sinx / x
-5
-2 x +3
Le modle affine (d = 1) ne rend pas du tout compte des observations car il na pas la souplesse souhai-
table pour sadapter aux donnes ; dans le jargon de lapprentissage statistique, on dira que la complexit
du modle est insuffisante. linverse, le modle polynomial de degr 10 est suffisamment complexe
pour passer trs prcisment par tous les points dapprentissage ; on observe nanmoins que cette prci-
sion sur lensemble dapprentissage est obtenue au dtriment des qualits de gnralisation du modle :
cest le phnomne de surajustement. En effet, au voisinage de x = 2 comme au voisinage de x = +3, ce
modle fournit des prdictions trs loignes de la ralit reprsente en trait plein. En revanche, le
modle polynomial de degr 6 prsente un bon compromis : la courbe ne passe pas exactement par tous
les points ce qui est normal puisque ces points rsultent en partie dun tirage alatoire mais elle est
assez proche de la vraie fonction 10 sinx / x.
Afin de rendre ces considrations plus quantitatives, on a constitu, outre lensemble dapprentissage, un
deuxime ensemble de donnes, dit ensemble de test, indpendant du prcdent, mais dont les NT
Lapprentissage statistique : pourquoi, comment ?
9
CHAPITRE 1
lments sont issus de la mme distribution de probabilit. On dfinit lerreur quadratique moyenne sur
lensemble dapprentissage (EQMA) et lerreur quadratique moyenne sur lensemble de test (EQMT) :
1 NA p NT
(
yk g ( x k , w ) ) 1
( y g ( xk , w ) )
2 2
EQMA = EQMT = p
k .
N A k =1 NT k =1
Lensemble de test, comprenant NT = 1000 lments, est reprsent sur la figure 1-3. De plus, 100 ensem-
bles dapprentissage de NA = 15 lments chacun ont t constitus.
+10
Figure 1-3.
Ensemble de test
yp
-4
-2 x +3
100 modles ont t crs partir de ces ensembles dapprentissage, et, pour chacun de ces modles,
lEQMA et lEQMT ont t calcules. La figure 1-4 montre lvolution des moyennes des EQMA et
EQMT, en fonction de la complexit (degr) du modle polynomial postul.
Remarque 1
Le fait de prsenter des moyennes des EQMA et EQMT, sur 100 modles obtenus partir de 100 ensembles dapprentissage diffrents,
permet dviter lobservation de phnomnes lis une ralisation particulire du bruit prsent dans les observations dun ensemble
dapprentissage donn. Dans la pratique, on ne dispose videmment que dun seul ensemble dapprentissage.
Remarque 2
Dans la pratique, si lon disposait dun ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer lappren-
tissage. Par exemple, on utiliserait 500 exemples pour lapprentissage et 500 pour tester le modle. Dans cette section, nous nous plaons
volontairement dans un cadre acadmique, pour mettre en vidence les phnomnes importants. La mthodologie adopter pour la
conception de modles est prsente dans la section de ce chapitre intitule La conception de modle en pratique , et elle est large-
ment dveloppe dans le chapitre 2.
Lapprentissage statistique
10
6
EQMT EQMA
5
Figure 1-4.
Erreurs
quadratiques
4 moyennes
sur lensemble
dapprentissage
et sur lensemble
3 de test
0
0 2 4 6 8 10 12 14
Degr du modle polynomial
On observe que lerreur dapprentissage (EQMA) diminue lorsque la complexit du modle augmente :
le modle apprend de mieux en mieux les donnes dapprentissage. En revanche, lerreur sur lensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : laugmentation de la complexit du modle
au-del de d = 6 se traduit par une dgradation de ses capacits de gnralisation.
Remarque
Les brusques variations de lEQMA et de lEQMT observes lorsque lon passe du degr 3 au degr 4 sont dues la nature particulire de
lexemple tudi : en effet, dans le domaine de variation de x considr, la fonction sin x / x prsente deux points dinexion (points o la
drive seconde de la fonction est nulle). Or un polynme de degr d a au plus d 2 points dinexion : pour que le modle polynomial
puisse reproduire les deux points dinexion de la fonction gnratrice des donnes, il faut donc quil soit au moins de degr 4.
On observe galement que lEQMT reste toujours suprieure lcart-type du bruit (qui vaut 1 dans cet
exemple), et que lEQMT du modle qui a la meilleure gnralisation est voisine de lcart-type du bruit.
Ainsi, le meilleur modle ralise un compromis entre la prcision de lapprentissage et la qualit de la gn-
ralisation. Si le modle postul est trop peu complexe, lapprentissage et la gnralisation sont peu prcis ;
si le modle est trop complexe, lapprentissage est satisfaisant, mais la gnralisation ne lest pas. Ce
compromis entre la qualit de lapprentissage et celle de la gnralisation, gouvern par la complexit du
modle, est connu sous le terme de dilemme biais-variance : un modle qui a un biais faible apprend trs
bien les points dapprentissage, mais il peut avoir une variance leve car il peut tre fortement tributaire de
dtails de lensemble dapprentissage (modle surajust). En revanche, un modle peut avoir un biais lev
Lapprentissage statistique : pourquoi, comment ?
11
CHAPITRE 1
(il napprend pas parfaitement les lments de lensemble dapprentissage) mais une variance faible (il ne
dpend pas des dtails de lensemble dapprentissage). Le phnomne observ dans cet exemple est absolu-
ment gnral, comme nous le dmontrerons dans la section intitule Dilemme biais-variance .
Dans la section intitule lments de thorie de lapprentissage , on donnera une expression quantita-
tive de la notion de complexit. On montrera notamment que, pour les modles polynomiaux, la
complexit nest rien dautre que le nombre de paramtres du modle, soit d + 1 pour un polynme de
degr d ; on montrera galement que le dilemme biais-variance est gouvern par le rapport du nombre de
paramtres au nombre dexemples disponibles.
Retrouvons prsent le mme phnomne sur un second exemple acadmique, qui est cette fois un
problme de classification.
Un exemple de classification
3 Rappelons quun problme de classification
consiste affecter un objet inconnu une classe
parmi plusieurs. Considrons un problme deux
2
classes A et B. On souhaite que soit attribue tout
lment de la classe A une tiquette yp = +1, et
1 tout lment de B une tiquette yp = 1. On dispose
dun ensemble dapprentissage, constitu dexem-
ples de chacune des classes, dont la classe est
connue : des tiquettes exactes leur ont t affec-
x2
0
tes. Dans le problme considr ici, chaque
objet est dcrit par un vecteur x deux
-1
composantes : on peut donc le reprsenter par un
point dans le plan des variables (x1, x2). La figure 1-5
-2 reprsente un ensemble dapprentissage compre-
nant 80 exemples par classe. Les exemples de la
classe A sont reprsents par des croix, ceux de la
-3
-3 -2 -1 0 1 2 3 classe B par des cercles. On cherche la frontire
1
x entre ces classes, cest--dire une ligne, dans ce
plan, qui spare les exemples avec un nombre
Figure 1-5. Ensemble dapprentissage pour un problme derreurs minimal : on souhaite que la plupart des
acadmique de classification exemples dune classe (voire tous) soient dun ct
de la frontire, et que la plupart des exemples de
lautre classe (voire tous) soient de lautre ct ; on dit quil y a une erreur de classification lorsquun
exemple est situ du mauvais ct de la frontire.
Comme dans lexemple de modlisation, on prsente ici un problme acadmique : le processus gnra-
teur des donnes est connu, ce qui nest pas le cas pour un problme rel. Les exemples de lensemble
dapprentissage ont t tirs de deux distributions gaussiennes isotropes dcart-type gal 1, dont les
centres sont respectivement le point (x1 = + 0,5 ; x2 = 0,5) pour la classe A, et (x1 = 0,5 ; x2 = + 0,5)
pour la classe B. On dmontrera, dans la section intitule Classifieur de Bayes , que la diagonale du
carr, qui est laxe de symtrie du problme, est la frontire pour laquelle le risque derreur de classifica-
tion est minimal. On voit que cette frontire thorique idale ne spare pas parfaitement bien tous les
exemples dapprentissage : le taux derreur sur lensemble dapprentissage nest pas nul si lon choisit
cette frontire, mais nous montrerons que le taux derreur sur lensemble de tous les objets, engendrs par
le mme processus gnrateur, mais nappartenant pas lensemble dapprentissage, est minimal.
Lapprentissage statistique
12
Le classifieur de Bayes prsente donc une gnralisation optimale ; malheureusement, on ne peut le dter-
miner que si les distributions des exemples sont connues, ce qui nest gnralement pas le cas dans un
problme rel. On peut seulement sefforcer de trouver un classifieur qui en soit proche. Cest ce qui va
tre tent par les deux mthodes dcrites ci-dessous.
Pour visualiser les rsultats, le calcul est effectu pour 10 000 points disposs rgulirement sur une grille
de 100 100 points. La figure 1-6 montre les rsultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernire valeur est la valeur maximale de k puisque lensemble dapprentissage comporte en tout
160 exemples) ; les points affects la classe A par le classifieur sont reprsents en gris fonc, ceux qui
sont affects la classe B en gris clair.
Pour k = 1, on observe que la frontire est trs irrgulire, et dfinit des lots de lune des classes dans
lautre classe. Ce phnomne sexplique facilement : comme chaque point de lensemble dapprentissage
est son propre plus proche voisin, il est forcment bien class. La frontire dpend donc compltement de
lensemble dapprentissage choisi : un autre tirage alatoire de points dans les mmes distributions gaus-
siennes aurait produit une frontire trs diffrente. Cest un modle qui a un biais faible (tous les exemples
de lensemble dapprentissage tant bien appris, le taux derreur sur lensemble dapprentissage est nul)
et une variance leve (la frontire varie beaucoup si lon change lensemble dapprentissage). La capa-
cit de gnralisation est donc certainement trs faible, le modle tant compltement surajust
lensemble dapprentissage disponible. La croix en traits pais (x1 = 2, x2 = 2,5), qui nappartient pas
lensemble dapprentissage, est mal classe.
Lorsque lon augmente k, la frontire devient plus rgulire, et plus proche de la frontire optimale (k = 7,
k = 21). La croix en traits pais est correctement classe dans lensemble des croix. Pour k = 159, on
observe en revanche que la frontire devient trs rgulire, mais quelle est trs loigne de la solution
optimale (la diagonale du carr). La croix en traits pais est nouveau mal classe.
On passe ainsi de modles de faible biais et grande variance (faibles valeurs de k) des modles de faible
variance mais de biais lev (grandes valeurs de k). Comme dans lexemple prcdent, on voit apparatre
la ncessit de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dpend la
valeur de 1 / k.
3 3
2 2
1 1
x2
x2
0 0
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1
k=1 k=7
3 3
2 2
1 1
x2
x2
0 0
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1
k = 21 k = 159
Figure 1-6. Classification par la mthode des k plus proches voisins
Lapprentissage statistique
14
1
g(x) = ykp
k k plus proches
voisins de x
40
35
Ensemble de test Figure 1-9.
Taux derreur
Taux derreur de classification (%)
en fonction
30 du nombre
dexemples,
complexit fixe
25
Limite de Bayes
20
15
Ensemble dapprentissage
10
5
0 4 8 12 16 20
Nombre dexemples par classe
Conclusion
Dans cette section, deux problmes acadmiques simples dapprentissage supervis ont t prsents : un
exemple de prdiction et un exemple de classification. Ces deux exemples ont permis de mettre en
vidence un problme central de lapprentissage artificiel : le dilemme biais-variance, cest--dire la
ncessit de trouver le meilleur compromis possible entre la capacit du modle apprendre les exemples
dapprentissage et sa capacit gnraliser des situations non apprises. Ces observations empiriques
vont prsent tre justifies de manire plus rigoureuse.
y p , g ( x, w ) 0,
o yp est la valeur souhaite et g(x, w) est la valeur prdite par le modle, dont les paramtres sont les
composantes du vecteur w, tant donn le vecteur de variables x. Pour une tche de prdiction, yp est la
valeur mesure de la grandeur prdire ; pour une tche de classification deux classes, yp vaut +1 pour
un objet dune classe et 1 (ou 0) pour un objet de lautre classe.
Exemples
Une distance naturelle, trs frquemment utilise, est lerreur quadratique de modlisation :
y p , g ( x ,w ) = y p g ( x ,w ) .
2
y p , g ( x ,w ) = y p g ( x ,w ) .
P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx
P 2 == E X EY p X ( )
o EY p X ( ) dsigne lesprance mathmatique de la variable alatoire Y p X , cest--dire lesp- ( )
rance mathmatique de la fonction de perte pour les prdictions effectues par le modle pour un vecteur
de variables x donn.
Dmonstration
( )
La probabilit conjointe peut scrire pY p ,X = pY p y p x p X . Lerreur de prdiction thorique scrit donc
Lapprentissage statistique
18
( ) (
P 2 = y p , g ( x ,w ) pY p y p x p X dy p d x )
( ) (
= y p , g ( x ,w ) pY p y p x dy p p X d x )
= E X EY p X ( ) .
Considrons un exemple caractris par le vecteur de variables x. En ce point, le meilleur modle est le
modle pour lequel lerreur de prdiction thorique est minimum. Appliquons cette proprit successive-
ment deux tches : la prdiction et la classification.
Prdiction
Comme indiqu plus haut, la fonction de perte la plus frquemment utilise pour la prdiction est
y p , g ( x, w ) = y p g ( x, w )
2
f ( x ) = EY p X
Dmonstration
Rappelons que lesprance mathmatique de la fonction de perte est donne par :
( )
EY p X ( ) = y P g ( x ,w ) pY p y p x dy p . ( )
2
( )
d y P g ( x ,w ) 2 p p y p x dy p
=
Y
( )
dg ( x ,w )
g ( x ,w )=f ( x )
( ) (
= 2 y P f ( x ) pY p y p x dy p )
= 2 y pY p P
( y x ) dy
p p
(
2f ( x ) pY p y p x dy p . )
La premire intgrale nest autre que lesprance mathmatique de Yp tant donn x ; la seconde est gale 1 par dnition de la densit
de probabilit. On obtient ainsi : EY p X = f ( x ).
La distribution de probabilit des observations tant inconnue, la fonction de rgression est inconnue.
Pour connatre sa valeur en x, il faudrait raliser une infinit de mesures de la grandeur yp pour une valeur
donne des variables x et faire la moyenne des rsultats de ces mesures, ce qui nest videmment pas
raliste.
Cette fonction doit tre telle que lerreur de prdiction thorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus dtaill de ce problme).
Rgle de dcision de Bayes
Pour la prdiction, considre dans la section prcdente, on a mis en uvre, pour dfinir lerreur tho-
rique, la fonction de perte des moindres carrs. Pour la classification, on ne cherche pas approcher les
valeurs des rsultats de mesures, mais classer correctement des objets. On utilise donc une autre fonc-
tion de perte, mieux adapte ce problme :
y p ,sgn ( g ( x, w )) = 0 si y p = sgn ( g ( x, w ))
y p , sgn ( g ( x, w )) = 1 si y p sgn ( g ( x, w ))
Ainsi, la fonction de perte vaut 1 si le classifieur commet une erreur de classement pour lobjet dcrit par
x, et 0 sinon. Contrairement au cas de la prdiction, cette fonction est valeurs discrtes. Lesprance
mathmatique de la variable alatoire discrte nest autre que la probabilit pour que le classifieur
considr commette une erreur de classification pour un objet dcrit par x ; en effet :
E ( x ) = 1 Pr (1 x ) + 0 Pr ( 0 x )
= Pr (1 x ) .
Cette quantit est inconnue : pour lestimer, il faudrait disposer dune infinit dobjets dcrits par x, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classe par le classifieur consi-
dr.
La variable alatoire est fonction de Yp. Son esprance mathmatique peut donc scrire :
( ) (
E ( x ) = +1,sgn ( g ( x, w )) PrY p ( +1 x ) + 1,sgn ( g ( x,w )
w )) PrY p ( 1 x ) .
La probabilit dappartenance dun objet une classe C connaissant le vecteur de variables x qui dcrit
cet objet, note PrY p ( C x ), est appele probabilit a posteriori de la classe C pour lobjet dcrit par x.
On remarque que E ( x ) ne peut prendre que deux valeurs :
E ( x ) = PrY p ( +1 x ) si sgn ( g ( x, w )) = 1,
E ( x ) = PrY p ( 1 x ) si sgn ( g ( x, w )) = +1.
Supposons que la probabilit a posteriori de la classe A au point x soit suprieure celle de la classe B :
Rappelons que lon cherche la fonction g ( x, w ) pour laquelle la probabilit derreur de classification au
point x, cest--dire E ( x ), soit minimum. La fonction g ( x, w ) pour laquelle E ( x ) est minimum est
donc telle que sgn ( g ( x, w )) = +1, puisque, dans ce cas, E ( x ) = PrY p ( 1 x ), qui est la plus petite des deux
valeurs possibles.
linverse, si PrY p ( 1 x ) > PrY p ( +1 x ), la fonction g ( x, w ) qui garantit le plus petit taux derreur en x est
telle que sgn ( g ( x, w )) = 1.
Lapprentissage statistique
20
En rsum, le meilleur classifieur possible est celui qui, pour tout x, affecte lobjet dcrit par x la classe
dont la probabilit a posteriori est la plus grande en ce point.
Cette rgle de dcision (dite rgle de Bayes) garantit que le nombre derreurs de classification est
minimal ; pour pouvoir la mettre en uvre, il faut calculer (ou estimer) les probabilits a posteriori des
classes.
Classifieur de Bayes
Le classifieur de Bayes utilise, pour le calcul des probabilits a posteriori, la formule de Bayes : tant
donn un problme c classes Ci (i = 1 c), la probabilit a posteriori de la classe Ci est donne par la
relation
pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c
p X j Cj
j =1
( )
o pX x C j est la densit de probabilit du vecteur x des variables observes pour les objets de la classe
Cj (ou vraisemblance du vecteur x dans la classe Cj), et PrC j est la probabilit a priori de la classe Cj,
cest--dire la probabilit pour quun objet tir au hasard appartienne la classe Cj.
Si toutes les classes ont la mme probabilit a priori 1/c, la rgle de Bayes revient classer lobjet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : cest une application de la mthode du
maximum de vraisemblance.
Ainsi, si lon connat analytiquement les vraisemblances, et si lon connat les probabilits a priori des
classes, on peut calculer exactement les probabilits a posteriori.
Reprenons le cas considr plus haut, dans la section intitule un exemple de classification : deux
classes A et B dans un espace deux dimensions, telles que les vraisemblances des variables sont gaus-
siennes, de mme variance , de centres xA (x1A, x2A) et xB (x1B, x2B) :
( x x )2 ( x x )2
pX ( x A ) =
1
exp 1 21A exp 2 22 A
2 2 2
( x x )2 ( x x )2
pX ( x B ) =
1
exp 1 21B exp 2 22 B .
2 2 2
Supposons que les probabilits a priori des classes soient les mmes, gales 0,5.
Dans lexemple considr plus haut, chaque classe tait reprsente par le mme nombre dexemples. Si la probabilit a priori des classes
est estime par la frquence des exemples, cest--dire le rapport du nombre dexemples dune classe au nombre total dexemples, on est
dans le cas o les deux probabilits a priori sont gales 0,5.
Lapprentissage statistique : pourquoi, comment ?
21
CHAPITRE 1
1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A
0, 5
2 2 2
Pr ( A x ) =
1 (x x )
2
(x x ) 2
1 ( x x )2 ( x x )2
0, 5 exp 1 21A exp 2 22 A + 0, 5 exp 1 21B exp 2 22 B
2 2 2 2 2 2
1 ( x1 x1B )2 ( x 2 x 2 B )2
0, 5 exp exp
2
2 2 2 2
Pr ( B x ) = .
0, 5
1
exp
( x1 x1A )
2
exp
( x2 x2 A )
2
+ 0, 5
1
exp
( x1 x1B )
2
( x 2 x 2 B )2
exp
2 2 2 2 2 2 2 2 2 2
La rgle de classification de Bayes affecte lobjet dcrit par x la classe dont la probabilit a posteriori est
la plus grande (ou, puisque les probabilits a priori sont gales, la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontire entre les classes est donc le lieu des points, dans lespace des vecteurs x, o les vraisem-
blances sont gales : cest le lieu des points tels que
( x x )2 ( x x )2 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A = exp 1 21B exp 2 22 B .
2 2 2 2
soit encore
( x1 x1A )2 + ( x2 x2 A )2 = ( x1 x1B )2 + ( x2 x2 B )2 .
La frontire optimale entre les classes est donc le lieu des points quidistants des centres des
distributions : cest la mdiatrice du segment de droite qui joint ces centres.
Dans lexemple considr plus haut, les centres des gaussiennes taient symtriques par rapport la
diagonale du carr reprsent sur la figure 1-6 et la figure 1-8, donc la meilleure frontire possible entre
les classes tait la diagonale de ce carr. Le rsultat le plus proche du rsultat thorique tait le sparateur
linaire de la figure 1-8 ; en effet, on avait postul un modle linaire, et celui-ci tait vrai au sens
statistique du terme, cest--dire que la solution optimale du problme appartenait la famille des fonc-
tions dans laquelle nous cherchions une solution par apprentissage. On tait donc dans les meilleures
conditions possibles pour trouver une bonne solution par apprentissage.
Connaissant la surface de sparation fournie par le classifieur de Bayes, et sachant que les classes ont le
mme nombre dlments, il est facile de trouver le taux derreur de ce classifieur : cest la probabilit de
trouver un lment de la classe A (classe des +) dans le demi-plan suprieur gauche (ou, par symtrie, la
probabilit de trouver un lment de B (classe des o) dans le demi-plan complmentaire) :
+
1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A dx1dx2,
2
2
x2 > x1 2
Lapprentissage statistique
22
Dilemme biais-variance
Les deux exemples acadmiques considrs en dbut de chapitre ont permis de mettre en vidence le
dilemme biais-variance. Muni des lments thoriques de la section prcdente, on peut prsent forma-
liser ce problme.
Considrons le cas de la prdiction par un modle dont les paramtres sont dtermins par apprentissage ;
comme indiqu plus haut, la fonction de perte la plus frquemment utilise dans ce cas est le carr de
lerreur de modlisation :
y p , g ( x, w ) = y p g ( x, w )
2
P 2 = E X EY p X y p g ( x, w ) .
2
Cherchons lerreur de prdiction en un point x de lespace des variables
P 2 ( x ) = EY p X y p g ( x, w ) ,
2
en supposant que les observations yp effectues en ce point x sont des ralisations de la variable alatoire
Y p = f (x) +
o est une variable alatoire desprance mathmatique nulle et de variance 2, et o f(x) est une fonc-
tion certaine ; lesprance mathmatique de Yp est donc f(x), la fonction de rgression de yp, dont on a vu
plus haut que cest le meilleur modle possible au sens de la fonction de perte choisie.
Supposons enfin que le modle soit obtenu par apprentissage : les paramtres w du modle doivent donc
tre considrs comme des ralisations dun vecteur alatoire W qui dpend des ralisations de Yp
Lapprentissage statistique : pourquoi, comment ?
23
CHAPITRE 1
prsentes dans lensemble dapprentissage ; de mme, les prdictions g(x, w) peuvent tre considres
comme des ralisations dune variable alatoire G(x, W) qui dpendent de Yp. Pour rendre les quations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
Lerreur de prdiction thorique au point x est alors donne par :
P 2 ( x ) = 2 + var G ( x, W ) + E f ( x ) G ( x, W ) ,
2
Dmonstration
Rappelons que, pour une variable alatoire Z, on a la relation
E Z 2 = varZ + [E Z ] .
2
Le modle tant construit par apprentissage, ses paramtres, donc les prdictions du modle, sont eux-mmes des ralisations de varia-
bles alatoires W et G(x, W) par lintermdiaire de Yp. On peut donc crire :
P 2 ( x ) == E Y p G ( x ,W ) = var Y p G ( x ,w ) + E Y p G ( x ,W )
2 2
= var Y p f ( x ) + f ( x ) G ( x ,W ) + E Y p f ( x ) + f ( x ) G ( x ,W )
2
= var + f ( x ) G ( x ,W ) + E + f ( x ) G ( x ,W ) .
2
La fonction f(x) tant certaine (elle ne dpend pas de W, donc de lensemble dapprentissage), sa variance est nulle. Dautre part, lesp-
rance mathmatique de est nulle : on a donc nalement :
P 2 ( x ) = 2 + var G ( x ,W ) + E f ( x ) G ( x ,W ) .
2
Le premier terme de la somme est la variance du bruit de mesure. Le deuxime est la variance de la prdic-
tion du modle au point x, qui reprsente la sensibilit du modle lensemble dapprentissage. Le troi-
sime est le biais du modle, cest--dire le carr de lesprance mathmatique de lcart entre les prdic-
tions fournies par le modle et celles qui sont fournies par le meilleur modle possible (la fonction de
rgression f(x)).
Cette relation trs importante appelle plusieurs commentaires :
La qualit dun modle ne peut tre value que par comparaison entre son erreur de prdiction et la
variance du bruit sur les mesures. Un modle qui fournit des prdictions en dsaccord de 10 % avec les
mesures est un excellent modle si les mesures ont elles-mmes une prcision de 10 % ; mais si la prci-
sion sur les mesures est de 1 %, le modle est trs mauvais : il faut chercher lamliorer. Si la prcision
sur les mesures est de 20 %, la performance de 10% annonce pour le modle est trs suspecte : son esti-
mation doit tre remise en cause. Les trois termes de la somme tant positifs, lerreur de prdiction tho-
rique ne peut tre infrieure la variance des observations en x, cest--dire la variance du bruit qui
affecte les mesures ; en dautres termes, on ne peut pas esprer quun modle, conu par apprentissage,
fournisse des prdictions plus prcises que les mesures partir desquelles il a t construit. Cest ce qui
a t observ sur la figure 1-4, o le minimum de la racine carre de lerreur de prdiction thorique,
estime par lEQMT, tait de lordre de lcart-type du bruit.
On retrouve par cette relation le fait que le meilleur modle est la fonction de rgression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modle ne dpend pas de w, et le biais est nul ; lerreur de
prdiction est donc la plus petite possible, gale la variance du bruit.
Lapprentissage statistique
24
Si le modle ne dpend pas de paramtres ajustables, la variance est nulle, mais le biais peut tre trs
grand puisque le modle ne dpend pas des donnes. Par exemple, si g(x, w) = 0, la variance est nulle et
le biais vaut f ( x ) .
2
Dans les exemples acadmiques de prdiction et de classification que nous avons prsents, nous avons
observ que le biais et la variance varient en sens inverse en fonction de la complexit du modle : un
modle trop complexe par rapport aux donnes dont on dispose possde une variance leve et un biais
faible, alors quun modle de complexit insuffisante a une variance faible mais un biais lev. Comme
lerreur de gnralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins gal la variance du bruit. Cest exactement ce que nous avons observ sur la figure 1-4 :
lerreur quadratique moyenne sur lensemble de test, qui est une estimation de lerreur de gnralisation,
passe par un minimum pour un polynme de degr 6, qui prsente donc la complexit optimale compte
tenu des donnes dapprentissage dont on dispose.
La relation qui vient dtre tablie fournit lerreur de prdiction thorique en un point x. Lerreur de
prdiction thorique est
P 2 = E X P 2 ( x ) = P 2 ( x ) pX dx
= 2 + E X var G ( x, W ) + E X E f ( x ) G ( x, W ) .
2
Remarque
Lesprance mathmatique EX na pas le mme sens que lesprance mathmatique E : la premire porte sur toutes les conditions expri-
mentales possibles, tandis que la seconde porte sur toutes les ralisations possibles de lensemble dapprentissage.
Pour vrifier numriquement cette relation, reprenons lexemple de la modlisation par apprentissage
partir de donnes qui ont t cres artificiellement en ajoutant la fonction 10 sin(x)/x un bruit pseudo-
alatoire de variance gale 1, en NA = 15 points xk. Pour estimer le biais et la variance en un point x, 100
ensembles dapprentissage diffrents ont t crs, en tirant au hasard, dans une distribution normale
centre, 100 valeurs de yp pour chaque valeur de xk ; on a fait lapprentissage de 100 modles diffrents
g(x, wi), i = 1 100, cest--dire que 100 vecteurs de paramtres ont t estims par la mthode des moin-
dres carrs (qui sera dcrite plus loin). Un ensemble de test de 1 000 points a t cr, et, en chaque point
de cet ensemble, le biais et la variance du modle de paramtres wi ont t estims :
2
1 100 sin xktest
estimation du biais du modle g(x, wi) au point x test
k :
100 i =1 xk
( )
10 test g xktest , wi
estimation de la variance du modle g(x, wi) au point xktest :
2
1 100
99 i =1
( )
g xktest , w i
1 100
100 j =1
( )
g xktest , w j .
( )
Lerreur de prdiction P 2 xktest est estime par :
( )) .
100
1
(
yktest g xktest ,wi
2
100 i =1
Finalement, les esprances mathmatiques de ces trois quantits sont estimes par la moyenne de chacune
delles sur les 1 000 points de test.
Lapprentissage statistique : pourquoi, comment ?
25
CHAPITRE 1
sur un ensemble
de donnes indpendant
de lensemble dapprentissage
sur lensemble
dapprentissage
Complexit du modle
De la thorie la pratique
Les rsultats qui ont t prsents dans la section prcdente sont des rsultats asymptotiques, cest--dire
quils sont exacts si lon dispose dune quantit infinie de donnes. Ils sont trs utiles, car ils expliquent
les grandes lignes des phnomnes que lon observe, et mettent en vidence les problmes quil faut
rsoudre. Nanmoins, dans une situation relle de mise en uvre des mthodes dapprentissage artificiel,
on dispose toujours dune quantit finie de donnes, insuffisante pour estimer de manire trs prcise les
Lapprentissage statistique
26
intgrales ncessaires au calcul des esprances mathmatiques ou des variances ; de plus, les distributions
de probabilits auxquelles obissent les donnes sont galement inconnues. Dans cette section, on
prsente des rsultats thoriques sur lesquels il est possible de sappuyer pour trouver des mthodes prati-
ques de conception de modles par apprentissage. Le lecteur qui ne cherche pas approfondir la thorie
de lapprentissage peut sans dommage omettre de lire cette section et passer directement la section inti-
tule La conception de modles en pratique .
P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx
est minimale. Lintgrale ntant pas calculable, il convient donc de lestimer laide des donnes dispo-
nibles. On estime donc lerreur de prdiction thorique par lerreur de prdiction empirique (galement
appele risque empirique)
1 N
P *2 = (
ykp , g ( xk , w )
N k =1
)
( )
o ykp , g ( xk , w ) est la fonction de perte choisie.
Lapport fondamental de la thorie de lapprentissage, par rapport aux statistiques classiques, rside dans
ltude de la manire dont lerreur empirique converge (ou ne converge pas) vers lerreur thorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biais de lesprance mathmatique ; la
thorie de lapprentissage, pour sa part, sintresse la faon dont la moyenne converge vers lesprance
mathmatique lorsque le nombre dexemples augmente. Ainsi on peut valuer le nombre dexemples
ncessaires pour estimer lesprance mathmatique avec une prcision donne, ou bien valuer lerreur
que lon commet en estimant lesprance mathmatique par la moyenne, pour un nombre dexemples
donn.
Comme indiqu plus haut, la fonction de perte la plus utilise dans le cas de la prdiction est le carr de
lerreur, et lerreur de prdiction empirique est donne par
1 N p
(
yk g ( xk , w ) )
2
P *2 =
N k =1
o la somme porte sur un ensemble de donnes convenablement choisies parmi les donnes disponibles.
La premire tche consiste estimer les paramtres w, cest--dire effectuer lapprentissage proprement
dit. Pour cela, on choisit, parmi les donnes disponibles, un ensemble dapprentissage, de cardinal NA, et
lon cherche, laide dalgorithmes appropris, le vecteur w pour lequel la fonction de cot
NA
(
J = ykp g ( xk , w ) )
k =1
est minimale. Rappelons que, dans le cas o est le carr de lerreur, la fonction
Lapprentissage statistique : pourquoi, comment ?
27
CHAPITRE 1
NA
(
J = ykp g ( xk , w ) )
2
k =1
Supposons donc que lon ait trouv le minimum de la fonction de cot choisie ; la valeur de ce minimum
est-elle reprsentative de la qualit des prdictions que fournira le modle, muni des paramtres ainsi
dtermins, pour des valeurs de x qui ne font pas partie de lensemble dapprentissage ? Les exemples
prcdents montrent que la rponse est gnralement ngative. Ainsi, la figure 1-4 montre que lerreur
quadratique moyenne sur lensemble dapprentissage (EQMA), qui vaut J , est trs infrieure lerreur
quadratique moyenne sur lensemble de test pour des modles trop complexes (de degr suprieur ou gal
7). De mme, la figure 1-9 montre que lerreur sur lensemble dapprentissage est trs optimiste, cest-
-dire trs infrieure lerreur sur lensemble de test, lorsque le nombre dexemples est petit. Dautre part,
lerreur sur lensemble de test elle-mme nest quune estimation, laide dun nombre fini dexemples,
de lerreur de prdiction thorique. On peut donc en tirer deux enseignements :
dune part, il ne faut gnralement pas estimer la performance dun modle partir des rsultats de
lapprentissage ;
dautre part, il faut estimer le mieux possible lerreur de prdiction.
Les deux sections suivantes dcrivent, dune part, des lments thoriques qui permettent de borner
lerreur que lon commet en estimant les capacits de gnralisation partir des estimations obtenues
laide de donnes en nombre fini, et, dautre part, des lments mthodologiques qui permettent de dfinir
les bonnes pratiques pour la conception de modles par apprentissage.
Le rsultat le plus remarquable de cette thorie consiste en une expression quantitative de la notion de
complexit du modle : tant donne une famille de fonction g(x, w), la complexit de cette famille peut
tre caractrise par une grandeur, appele dimension de Vapnik-Chervonenkis. Le fait quil suffise dune
seule grandeur pour dfinir la complexit dune famille de fonctions quelconque est trs remarquable ; il
faut nanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonc-
tions nest pas toujours simple.
Pour la famille des polynmes de degr d, la dimension de Vapnik-Chervonenkis est gale au nombre de
paramtres du modle, soit d+1.
Exemple
Considrons la famille des fonctions afnes deux varia-
bles x1 et x2. Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
gale 3 : la gure 1-13 montre que les points appartenant
toutes les congurations possibles de 3 points apparte-
nant deux classes, en dimension 2, peuvent tre spars
par une fonction afne. En revanche, la gure 1-14 montre
une conguration de 4 points qui ne sont pas sparables
par une fonction de cette famille. Cette conguration admet
Figure 1-13. Toute configuration de 3 points dans le plan,
nanmoins un sparateur quadratique (une hyperbole), ce appartenant deux classes, admet un sparateur affine.
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions afnes de deux variables est gale 3, et que
celle des fonctions quadratiques de deux variables est
suprieure 3 ; comme indiqu plus haut, elle est gale au
nombre de paramtres, soit 6 pour les polynmes du
second degr deux variables.
La dimension de Vapnik-Chervonenkis est Figure 1-14. Une configuration de 4 points qui nadmet
gnralement une fonction croissante du pas de sparateur affine, mais qui admet un sparateur
quadratique.
nombre de paramtres. Mais ce nest pas
toujours le cas. Ainsi, la fonction sgn sin wx ( )
a un seul paramtre, mais peut sparer un nombre quelconque de points : il suffit de choisir une longueur
donde 2/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).
de Vapnik-Chervonenkis
x ox oo x o xx o x xo x o xx o de la fonction sin(wx) est infinie.
x
Cette dfinition de la complexit permet dtablir des bornes sur lerreur commise en remplaant lerreur
de prdiction thorique P2 par une erreur empirique P*2 estime sur lensemble dapprentissage. Ainsi,
supposons que lon effectue lapprentissage dun classifieur en cherchant la fonction indicatrice
1 + sgn g ( x, w )
( x, w ) = (de valeur 0 ou 1, comme indiqu plus haut) qui minimise une erreur empi-
2
rique P*2(w) sur un ensemble dapprentissage de cardinal NA. Soit h la dimension de Vapnik-
Lapprentissage statistique : pourquoi, comment ?
29
CHAPITRE 1
Chervonenkis de g(x, w). On a le rsultat suivant : si NA > h, alors, avec une probabilit au moins gale
1 , pour toute fonction de cette famille, la diffrence entre lerreur de gnralisation (inconnue) P2(w)
commise par cette fonction et lerreur empirique P*2(w) calcule sur les donnes dapprentissage est
borne suprieurement par la quantit
E ( N A , h, ) 4 P *2 ( w )
B ( N A , h, ) = 1 + 1 + ,
2 E ( N A , h, )
N
h ln 2 A + 1 ln
4
o E ( N A , h, ) = 4
h
.
NA
( )
De plus, pour la fonction g x , w * pour laquelle lerreur empirique est minimale (cest--dire pour le
modle de la famille considre qui est trouv par apprentissage), avec une probabilit au moins gale
1-2, la diffrence entre lerreur de gnralisation P2(w*) commise par cette fonction et la plus petite
erreur de gnralisation qui puisse tre commise par un modle de cette famille est borne suprieurement par :
-ln E ( N A , h, ) 4
B * ( N A , h, ) = + 1 + 1 + .
2NA 2 E ( N A , h, )
La figure 1-16 montre
lvolution de B*(NA, h,
) en fonction du nombre
dexemples et de la
40 dimension de Vapnik-
35
Chervonenkis ( = 10-2).
On observe que cette
30 borne crot lorsque le
nombre dexemples
)
25
B * NA ,h,
Dans la pratique, la mise en uvre de ces bornes est peu utile, car elles sont gnralement trs
pessimistes ; elles peuvent ventuellement tre utilises pour comparer des modles entre eux. Nan-
moins, lapproche possde le trs grand mrite de mettre en vidence des comportements universels de
familles de fonctions, indpendamment de la distribution des exemples, pour des nombres dexemples
Lapprentissage statistique
30
finis, et de fournir des guides pour la conception de modles utiles dans des applications difficiles. Ainsi,
les machines vecteurs supports, dcrites dans le chapitre 6, permettent un contrle sur la dimension de
Vapnik-Chervonenkis.
le nombre dexpriences, en neffectuant que celles qui sont rellement utiles pour la conception du
modle.
u u
u' = ,
su
o u dsigne la moyenne de la grandeur u considre
1 N
u = uk ,
N k =1
et su est lestimateur de lcart-type de u :
1 N
(u u ) 2
su = .
N 1 k =1
degr d vaut ( n + d )!, o n est le nombre de variables ; elle crot donc trs rapidement avec n. Conserver
n! d !
un contrle sur le nombre de variables est donc un lment important dans une stratgie de modlisation
qui cherche matriser la complexit des modles. Nous dcrirons plus en dtail, dans ce chapitre, le
problme de la slection de variables et nous proposerons une mthode efficace pour le rsoudre.
Lapprentissage statistique
32
Les rsultats de la slection de variables sont susceptibles de remettre en cause des ides reues concer-
nant le phnomne modliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
linfluence des variables candidates sur la grandeur modliser.
On peut galement souhaiter diminuer le nombre de variables en rduisant la dimension de lespace de
reprsentation de la grandeur que lon cherche modliser. Les principales mthodes utilises dans ce but
sont lAnalyse en Composantes Principales (ACP), lAnalyse en Composantes Indpendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore lAnalyse en Composantes Curvilignes (ACC).
LACP et lACC sont dcrites dans le chapitre 3 de cet ouvrage.
Slection de modles
Comme indiqu plus haut, la mthode de minimisation du risque structurel conduit concevoir des
modles de complexits diffrentes et choisir celui qui est susceptible davoir les meilleures proprits
de gnralisation.
Nous avons vu quil est impossible, en gnral, destimer la capacit de gnralisation dun modle
partir des rsultats de lapprentissage ; une telle procdure conduirait systmatiquement slectionner un
modle de biais faible et de variance leve, donc surajust. Pour slectionner le meilleur modle parmi
des modles de complexits diffrentes, il convient donc de les comparer sur la base des prdictions quils
effectuent sur des donnes qui nont pas servi lapprentissage. Nous dcrivons ci-dessous, dans la
section intitule Slection de modles , les mthodes les plus couramment utilises.
Slection de modles
Comme indiqu plus haut, la slection de modles est une tape cruciale dans la conception dun modle
par apprentissage. Nous dcrivons ici les trois mthodes les plus frquemment mises en uvre.
1 NA p
(
yk g ( x k , w ) )
2
EQMA =
N A k =1
o la somme porte sur les lments de lensemble dapprentissage.
Lapprentissage statistique : pourquoi, comment ?
33
CHAPITRE 1
Un ensemble de validation de taille NV, disjoint de lensemble dapprentissage, mais issu de la mme
distribution de probabilit, qui est utilis pour comparer les performances des modles du point de vue
de leur aptitude gnraliser. On calcule, pour chaque modle, son Erreur Quadratique Moyenne de
Validation (EQMV)
NV
( y )
1
g ( xk , w )
2
EQMV = p
k
NV k =1
( y )
1
g ( xk , w )
2
EQMT = p
k
NT k =1
o la somme porte sur les lments de la base de test ; ces donnes ne doivent videmment pas tre utili-
ses pendant toute la phase de slection de modle.
Parmi lensemble des modles dont on a effectu lapprentissage, on choisit videmment celui dont
lEQMV est la plus petite ; si plusieurs modles de complexits diffrentes peuvent prtendre tre
choisis car leurs EQMV sont petites, et du mme ordre de grandeur, on choisit celui dont la complexit
est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue un dernier apprentissage
avec lensemble des donnes utilises pralablement pour lapprentissage et la validation ; la performance
du modle ainsi obtenu est estime sur les donnes rserves pour le test.
(y g ( x k , wi ) )
2
Si = p
k
k sous-ensemble
de validaation i
Apprentissage
Validation
Test
Figure 1-18. Validation croise
Leave-one-out
Le leave-one-out (galement appel jackknife) est la limite de la validation croise, dans laquelle le
nombre de partitions D de lensemble dapprentissage-validation est gal au nombre de ses lments N.
Chaque sous-ensemble de validation est donc constitu dun seul exemple. Pour une famille de fonctions
de complexit donne, il faut donc raliser autant dapprentissages quil y a dexemples dans la base
dapprentissage-validation. Pour chaque exemple k exclu de lensemble dapprentissage, on calcule
lerreur de prdiction
rk k = ykp g( x, w k )
o g(x, w-k) dsigne le modle, de paramtres w-k, obtenu lorsque lexemple k est exclu de lensemble
dapprentissage.
Une fois la procdure effectue, on calcule le score de leave-one-out
1 N k
rk ( )
2
Et = .
N k =1
Comme dans les cas prcdents, on choisit le modle qui a le plus petit score de leave-one-out ; si
plusieurs modles de complexits diffrentes peuvent prtendre tre choisis car leurs scores de leave-
Lapprentissage statistique : pourquoi, comment ?
35
CHAPITRE 1
one-out sont petits, et du mme ordre de grandeur, on choisit celui dont la complexit est la plus faible.
Lapprentissage final est effectu avec lensemble des donnes disponibles.
3
Score de leave-one-out
La figure 1-19 montre le score de leave-one-out et
EQMA lEQMA en fonction du degr du modle polyno-
2,5 cart-type du bruit mial, pour lexemple tudi plus haut dans la
section intitule Un exemple de modlisation
pour la prdiction . Les rsultats sont remarqua-
2 blement voisins de ceux qui sont reprsents sur la
figure 1-4 ; mais, la diffrence de ces derniers,
lerreur de gnralisation nest pas estime sur un
1,5
ensemble de test de 1 000 exemples (il est tout
fait exceptionnel de disposer de donnes de test
1 aussi abondantes), mais avec les seuls 30 points
disponibles. La procdure conduit la slection
dun polynme de degr 6 ; il faut noter que les
0,5
0 2 4 6 8 10 12
rsultats prsents ici sont une moyenne sur
Degr du modle polynomial 100 ensembles dapprentissage.
Figure 1-19. EQMA et score de leave-one-out moyens
sur 100 bases dapprentissage comprenant chacune
30 exemples
6 Dans la pratique, on ne dispose que dun ensemble
Score de leave-one-out
dapprentissage, ce qui introduit une plus grande
EQMA
5 variabilit dans les rsultats ; ainsi, dans le cas
cart-type du bruit
reprsent sur la figure 1-20, les modles de degr
4 6 et 8 peuvent prtendre tre choisis ; compte
tenu du fait que les scores de leave-one-out sont
3
trs voisins, on choisit le modle de degr 6.
Cette technique est donc gourmande en temps de
2 calcul, en raison du grand nombre dapprentissages
ncessaires. Le calcul du PRESS, dcrit dans la
1
section Conception de modles linaires de ce
chapitre, et la mthode du leave-one-out virtuel,
qui sera dcrite dans le chapitre 2, constituent des
0
0 2 4 6 8 10 12 alternatives beaucoup plus conomiques en temps
Degr du modle polynomial de calcul.
Figure 1-20. EQMA et score de leave-one-out
pour un seul ensemble dapprentissage
Slection de variables
Comme soulign plus haut, la slection de variables constitue un lment important dans une stratgie de
conception dun modle par apprentissage ; elle contribue en effet la diminution de la complexit dun
modle. Louvrage [GUYON 2006] fournit une excellente vue densemble des approches modernes de la
slection de variables.
Lapprentissage statistique
36
Cadre thorique
Cette section pose les bases thoriques ncessaires une apprhension gnrale du problme de slection
de variables. Le lecteur peu soucieux de ce cadre thorique peut sans dommage omettre la lecture de cette
section et passer directement la section intitule Mthode de la variable sonde .
La prsentation qui suit est inspire de lintroduction de [GUYON 2006].
Lobjectif de la slection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
xn}, qui constituent le vecteur de variables que nous avons not x dans les sections prcdentes, celles
qui sont pertinentes pour la modlisation de la grandeur yp. Comme prcdemment, ces variables peuvent
tre modlises comme des ralisations des composantes X1, X2, , Xn dun vecteur alatoire X. On
dsigne par Xi le vecteur dont les composantes sont celles de X lexception de la variable xi. Enfin, on
dsigne par Si un vecteur alatoire dont les composantes sont un sous-ensemble des composantes de Xi
(Si peut tre identique Xi). En rsum, le vecteur X modlise toutes les variables candidates, le vecteur
Xi modlise le vecteur des variables candidates dont on a supprim la variable i, et le vecteur Si modlise
le vecteur des variables candidates dont on a supprim au moins la variable i, et ventuellement dautres
variables.
Il va de soi que la variable i est certainement non pertinente pour prdire la grandeur yp si et seulement si
les variables xi et yp varient indpendamment lune de lautre lorsque toutes les autres variables sont
fixes, ce qui peut scrire :
( ) ( ) (
pX ,Y p Xi , Y p S i = p Xi Xi S i pY p Y p S i .
i
)
Une variable qui est pertinente nobit donc pas cette relation. Pour savoir si une variable est peu perti-
nente ou trs pertinente, il est donc naturel de chercher savoir si le membre de gauche de cette galit
est peu diffrent, ou trs diffrent, du membre de droite. Sagissant de distributions de probabilits, une
diffrence sexprime gnralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilits pU et pV est dfinie par la
relation [KULLBACK 1959] :
+
pU
pV ln p du dv.
V
( )
+
p X ,Y p Xi , Y p S i
(
I Xi , Y S p i
) i
( )
= pX ,Y p Xi , Y p S i ln i
( ) (
pXi Xi S i pY p Y p S i )
dxi dy p .
Lapprentissage statistique : pourquoi, comment ?
37
CHAPITRE 1
Cette quantit nest autre que linformation mutuelle entre Xi et Yp, tant donnes toutes les autres varia-
bles. Plus elle est grande, plus la variable xi est pertinente pour la prdiction de yp, toutes les autres varia-
bles tant connues.
Puisque lon cherche un indice de pertinence qui soit indpendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de linformation
mutuelle :
( )( )
r ( i ) = Pr S i I Xi , Y p S i .
S i
On peut alors fixer un seuil et dcider de rejeter toutes les variables telles que
r ( i ) < .
Il faut nanmoins remarquer que les intgrales qui interviennent dans lexpression de lindice de perti-
nence ne sont pas calculables, puisque lon ne dispose que dun nombre fini N de ralisations de xi et de
yp. Ce critre de slection nest donc pas applicable en pratique ; en revanche, on peut, au moins en prin-
cipe, estimer la probabilit pour que lindice de pertinence soit suprieur un seuil , et dcider que la
variable candidate doit tre rejete si la probabilit pour que son indice de pertinence soit suprieur au
seuil est infrieure une quantit :
Pr ( r ( i, N ) > ) <
o r(i, N) dsigne lindice de pertinence estim pour la variable i partir dun chantillon de N exemples.
Les mthodes qui ncessitent lestimation de densits de probabilit sont gnralement de mise en uvre
dlicate, notamment lorsque les exemples sont en nombre limit. Nous dcrivons ci-dessous une mthode
simple et robuste qui est fonde sur lestimation de corrlations.
Pr ( r ( i, N ) > ) < .
Lapprentissage statistique
38
Dans cette expression, fi(x) peut tre soit la variable xi elle-mme, qui est alors appele variable
primaire , soit une fonction non paramtre des variables, alors appele variable secondaire . Pour
simplifier, on dsignera dans la suite par zi la variable candidate de numro i, quil sagisse dune variable
primaire ou dune variable secondaire :
p
g ( x, w ) = wi zi .
i =1
Lapprentissage statistique : pourquoi, comment ?
39
CHAPITRE 1
La figure 1-22 illustre la notion de variables primaire et secondaire, laide dun graphisme qui sera large-
ment utilis dans la suite de louvrage. Les cercles reprsentent des fonctions ; le cercle contenant un
signe reprsente une fonction sommation. Les carrs ne ralisent aucune fonction : ils symbolisent
simplement les variables du modle. Le modle reprsent gauche est un modle linaire en ses para-
mtres et en ses variables : les variables primaires et secondaires sont identiques. Le modle de droite est
un modle linaire en ses paramtres mais non linaire en ses variables ; les variables secondaires sont
obtenues partir des variables primaires par des transformations non linaires non paramtres. Ainsi, le
modle de droite pourrait reprsenter un polynme, les fonctions i tant des monmes des variables
primaires.
g(x, w)
g(x, w)
w1 w2 wp
z1 z2 Variables secondaires zp
w1 w2 wp
1 x2 Variables primaires xp
...
1 x2 xm
Variables primaires
Le carr du coefficient de corrlation entre deux variables alatoires U et V centres (de moyenne nulle),
dont on connat N ralisations, est estim par la quantit
(u v )
2
k k
k =1
r2
U ,V = N N
.
uk2 vk2
k =1 k =1
Cette quantit a une interprtation gomtrique simple. Considrons lespace des observations, de dimen-
sion N. Dans cet espace, la grandeur u est reprsente par un vecteur u, dont chaque composante est une
observation uk de u. Le carr du coefficient de corrlation est alors le carr du cosinus de langle uv entre
les vecteurs u et v dans cet espace :
r2
= cos uv 2
=
( u v)
2
U ,V
(u u )(v v )
Lapprentissage statistique
40
o le symbole reprsente le produit scalaire dans lespace des observations. Le coefficient de corrlation
est donc compris entre zro (observations non corrles, vecteurs reprsentatifs orthogonaux dans
lespace des observations) et 1 (observations compltement corrles, vecteurs reprsentatifs colinaires).
Ainsi, le coefficient de corrlation entre la grandeur modliser yp et la variable candidate zi est donn
par :
r2
=
(y p
k zi ) 2
Y p , Zi
(y p
k )
ykp ( zi zi )
p
o yk et zi sont les vecteurs reprsentatifs, dans lespace des observations, de la grandeur modliser et
de la variable candidate de numro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et zi. Le vecteur z, qui intervient par exemple dans la notation du modle g(z, w), dsigne le vecteur des variables du
modle : il est de dimension p. En revanche, le vecteur zi reprsente la variable numro i du modle dans lespace des observations : il est
de dimension N, o N dsigne le nombre dobservations.
partir de ce coefficient de corrlation, lindice de pertinence des variables candidates est dfini comme
le rang de la variable candidate dans un classement tabli par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procdure est la suivante :
calculer les coefficients de corrlation entre ykp et les p variables candidates, et choisir la variable candi-
date zi la plus corrle ykp ;
projeter le vecteur ykp et toutes les variables non slectionnes sur le sous-espace orthogonal la variable
zi ;
itrer dans ce sous-espace.
Les variables sont donc slectionnes les unes aprs les autres. chaque orthogonalisation, la contribu-
p
tion de la dernire variable slectionne au vecteur yk est supprime ; on obtient donc bien un classe-
ment des variables par ordre de pertinence dcroissante. Il est alors naturel de considrer que le rang dune
variable dans ce classement est le reflet de la pertinence de cette variable par rapport la modlisation que
lon cherche effectuer.
La figure 1-23 illustre le processus dans un cas trs
simple o lon aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), reprsentes par les vecteurs z1 et z2 dans lespace yp
des observations. La premire tape a pour effet de
slectionner la variable z1, car langle entre z1 et yP z1
est plus petit que langle entre z2 et yp. La deuxime
tape consiste projeter orthogonalement yP et la
variable non slectionne z2 sur le sous-espace ortho-
gonal z1. Toutes les variables candidates tant clas-
ses, le processus sarrte alors. Sil y avait plus de z21 yp1
deux variables candidates, le mme processus serait
itr dans le sous-espace orthogonal z1.
Remarque 1 z2
En pratique, il est prfrable dutiliser une variante de lalgorithme de
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
Gram-Schmidt, appele algorithme de Gram-Schmidt modi, qui le classement de deux variables candidates dans un
est plus stable numriquement [BJRCK 1967]. espace des observations de dimension trois
Lapprentissage statistique : pourquoi, comment ?
41
CHAPITRE 1
Remarque 2
Lalgorithme dorthogonalisation de Gram-Schmidt dcrit ci-dessus est un cas particulier dun algorithme dapprentissage de modles
linaires, dcrit plus loin dans la section Moindres carrs par orthogonalisation de Gram-Schmidt
Exemple important x2
Pour illustrer limportance de considrer les variables secondaires, et de ne pas se limiter aux varia-
1 2
bles primaires, considrons un problme simple de classication, illustr sur la gure 1-24.
On dispose de quatre exemples, appartenant deux classes : la classe A, reprsente par des croix,
o +
laquelle on affecte ltiquette yp = +1, et la classe B, reprsente par des cercles, laquelle on
affecte ltiquette yp = 1. Considrons comme variables candidates les variables primaires z1 = x1, z2
3 4 x1
= x2, ainsi que la variable secondaire z3 = x1 x2. Dans lespace des observations, de dimension 4, les
vecteurs reprsentatifs des variables candidates sont (les numros des observations sont indiqus + o
sur la gure 1-24)
1 +1 1 Figure 1-24.
+1 +1 +1 Exemple illustrant
z1 = ; z 2 = ; z 3 = limportance des variables
1 1 +1 secondaires
+1 1 1
et le vecteur reprsentatif de la grandeur modliser est
1
+1
y = .
p
+1
1
( ) ( )
2 2
Aucune des deux variables primaires, prise sparment, nest pertinente pour la prdiction de yp, puisque z 1 y p = 0 et z 2 y p = 0.
En revanche, le coefcient de corrlation entre z3 et yp vaut 1. Par consquent, la variable secondaire x1x2 dtermine entirement le
modle, alors que les variables primaires sont compltement inoprantes pour rsoudre ce problme de classication (connu sous le nom
de problme du OU exclusif ou problme du XOR ) avec des modles linaires en leurs paramtres. Le modle g(x, w) = x1x2
spare compltement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = 1 pour ceux
de la classe B. Il faut nanmoins remarquer que le problme peut tre rsolu avec comme variables x1 et x2 si lon met en uvre des mod-
les non linaires en leurs paramtres, des rseaux de neurones par exemple.
Cette procdure est risque : en effet, la dcision de rejet est fonde sur le classement dun seul vecteur
reprsentatif de la variable sonde, donc dune seule ralisation de ce vecteur alatoire. Si lon procdait
un autre tirage des valeurs de la variable sonde, on obtiendrait trs probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre dcision de rejet. En dautres termes, le rang
de la variable sonde est lui-mme une variable alatoire, dont la distribution de probabilit est une estima-
tion de la distribution de probabilit du rang des variables non pertinentes.
Prsentation rigoureuse
Cette dernire remarque renvoie la condition de rejet tablie dans la section Cadre thorique : une
variable candidate i est rejete si
Pr ( r ( i, N ) > ) <
o r(i, N) est lindice de pertinence de la variable i, estim partir de N observations. Dans le cadre de la
mthode de la variable sonde, lindice de pertinence est le rang (i, N) de la variable candidate i ; la
variable i est donc dautant plus pertinente que son rang est petit. Lquation prcdente scrit alors :
Pr ( ( i, N ) < 0 ) <
o 0 est le rang au-del duquel les variables candidates doivent tre rejetes. Or on souhaite que toutes
les ralisations de la variable sonde soient rejetes ; lapplication de la relation prcdente aux variables
sondes scrit donc :
Pr ( S < 0 ) <
(distribution inconnue)
valeur de fixe, le seuil de rejet 0 est le
du rang des variables
0,1
rang tel quune ralisation de la variable 0,08
sonde soit classe au-dessus de ce rang Variables non pertinentes
(distribution estime par celle des variables sondes)
avec une probabilit infrieure , ou
0,06
0,8
Probabilit cumule
dure ne contrle pas le risque de rejeter dventuelles variables pertinentes qui seraient classes au-del
du rang 15 ( risque de deuxime espce ) ; on verra, dans la section intitule Limitations de la
mthode , quil est nanmoins possible destimer ce risque, sans toutefois le contrler.
En pratique, deux techniques sont utilisables pour engendrer les ralisations de la variable sonde :
mlanger alatoirement les observations des variables candidates ;
tirer des nombres alatoires dans une distribution de moyenne nulle et de variance 1, puisque les varia-
bles candidates ont t pralablement normalises et centres, comme indiqu plus haut dans la section
Prtraitement des donnes .
Si les variables candidates obissent une distribution gaussienne, on peut lgitimement considrer que
la variable sonde est gaussienne. Alors, la probabilit cumule du rang de la variable sonde peut tre
calcule analytiquement [STOPPIGLIA 2003], de sorte quil est inutile dengendrer des ralisations de la
variable sonde. On procde de la manire suivante : chaque tape du classement par la mthode de
Gram-Schmidt, on calcule la probabilit cumule du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur choisie, on arrte le processus.
Si les variables nobissent pas une distribution gaussienne, on estime la probabilit cumule du rang de
la variable sonde. Pour cela, on engendre un grand nombre de ralisations de la variable sonde, et lon
procde lorthogonalisation de Gram-Schmidt. Chaque fois quune ralisation de la variable sonde est
rencontre, on en prend note et lon enlve cette variable du classement : on obtient ainsi une estimation
empirique de la probabilit cumule du rang de la variable sonde. Comme dans le cas prcdent, on arrte
le processus lorsque lestimation de la probabilit cumule atteint la valeur fixe lavance.
La figure 1-26 illustre cette approche laide dun 1 X
X
du rang de la variable sonde
Calcule
dun ensemble de 15 observations, on cherche 0,6
X
X
Limitations de la mthode
La principale limitation de la mthode de la variable sonde rsulte de lutilisation de lalgorithme de
Gram-Schmidt, qui exige que le nombre de variables slectionnes soit suprieur au nombre dexemples.
Il convient de noter que cette limitation porte sur le nombre de variables slectionnes, et non sur le
nombre de variables candidates : laide de la mthode de la variable sonde, on peut traiter des problmes
o le nombre de variables candidates est trs suprieur au nombre dexemples.
Lapprentissage statistique
44
Dautre part, la mthode contrle directement le risque de faux positif, cest--dire le risque de conserver
une variable alors quelle nest pas pertinente. Elle ne contrle pas directement le risque de faux ngatif,
cest--dire le risque de rejeter une variable alors quelle est pertinente. Nanmoins, il est possible de
conserver galement un contrle sur ce phnomne en estimant le taux de fausse dcouverte (false
discovery rate ou FDR), comme dcrit dans [DREYFUS 2006].
On observe que le taux derreur de classification moyen (en moyenne sur les 100 bases de donnes),
obtenu par un classifieur construit avec les descripteurs slectionns, est trs voisin du taux derreur de
classification obtenu par un classifieur tabli avec les vraies variables. Un test dhypothse (voir la
dernire section de ce chapitre) accepte lhypothse que la diffrence entre les taux derreurs moyens est
infrieur 0,125, cest dire une erreur sur 800 ; en dautres termes, la diffrence observe entre les taux
derreurs des deux classifieurs nest pas significative, puisque chaque base de donnes comprend
800 exemples dapprentissage. Cela signifie que, lorsque la mthode na trouv quune des deux vraies
variables, lautre variable slectionne permettait de discriminer les exemples de manire aussi prcise
que la vraie variable qui na pas t dcouverte. Les rsultats sont semblables sur les bases de test.
titre de comparaison, les taux derreurs sont denviron 45 % si les deux variables sont choisies alatoi-
rement, et de 30 % si une des vraies variables est utilise, lautre variable tant choisie alatoirement. Si
lon utilise un risque de 1% ( = 0,1), les trois premires variables du classement sont slectionnes, ce
qui ne dgrade pas les rsultats de manire significative [STOPPIGLIA 2003].
Exemple 2
On construit 100 bases de donnes de 100 exemples tirs de distributions gaussiennes deux variables x1
et x2, les centres tant dans les positions du problme du XOR (figure 1-24) ; 50 variables alatoires non
pertinentes sont ajoutes lensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monmes du second degr de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indpendantes. Comme indiqu plus haut, la seule variable pertinente pour rsoudre ce
problme est le produit x1x2 ; avec un risque de 1%, cest effectivement la seule variable slectionne.
Lapprentissage statistique : pourquoi, comment ?
45
CHAPITRE 1
EY p = w p z .
Nous cherchons construire un modle g, partir dun ensemble de N mesures { ykp, k = 1 N} qui cons-
tituent un ensemble de ralisations de la variable alatoire Yp ; nous dsignons par yp le vecteur, de dimen-
sion N, dont les composantes sont les ykp. Ce modle dpend de lensemble des mesures utilises pour sa
construction : il est donc lui-mme une ralisation dune variable alatoire G.
Supposons que lon ait dtermin un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur modliser. Un modle contenant toutes les variables mesurables
pertinentes est appel modle complet. On cherche alors un modle de la forme
GQ = W Q z Q
o zQ est le vecteur des variables du modle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante gale 1) et o W est un vecteur alatoire qui
dpend de la ralisation du vecteur Yp utilise pour la construction du modle. Rappelons que lon dit que
ce modle complet est vrai, pour indiquer quil existe certainement une ralisation wp du vecteur alatoire
W telle que gQ = EY p .
Supposons que lapprentissage soit effectu par minimisation de la fonction de cot des moindres carrs
( ) (y )
N
J ( w ) = ykp gQ ( z k , w ) gQ ( z, w ) ,
2 2
= p
k =1
o w dsigne une ralisation du vecteur des paramtres W, zk est le vecteur des Q+1 variables pour
lexemple k, et o gQ(z, w) est le vecteur des valeurs des ralisations de GQ pour les N mesures effectues.
Q
Soit wmc le vecteur des paramtres pour lequel la fonction de cot J est minimum. Le modle obtenu est
donc de la forme gQ = wmc Q
z , et lon peut dfinir le vecteur gQ = Zwmc
Q
, o :
gQ est le vecteur dont les N composantes sont les prdictions du modle pour chacune des N mesures
effectues ;
Lapprentissage statistique
46
Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numro i : la matrice Z a donc N lignes et Q+1 colonnes :
z 11 z 1, Q + 1
O z 2, Q + 1
Z = z 21
M O M
z N, 1 z N, Q + 1
On se pose la question suivante : les Q variables du modle complet sont-elles toutes pertinentes ? Pour
rpondre cette question, on remarque que, si une variable nest pas pertinente, le paramtre correspon-
dant du modle complet doit tre gal zro. On appelle sous-modle du modle complet un modle
obtenu en mettant zro un ou plusieurs paramtres du modle complet. Pour rpondre la question
pose, il faut donc comparer le modle complet tous ses sous-modles. Considrons un de ceux-ci, par
exemple le modle dont le vecteur w a ses q dernires composantes (numrotes de Q-q+2 Q+1) gales
Qq Qq
zro : gQ q = Zwmc , o wmc est le vecteur de paramtres obtenus en minimisant la fonction de cot des
( )
moindres carrs J ( w ) = y p gQ q ( z, w ) sous la contrainte que les q dernires composantes du vecteur
2
des paramtres soient nulles. On veut tester lhypothse nulle H0 : les q derniers paramtres du vecteur
alatoire W sont nuls. Si cette hypothse est vraie, la variable alatoire
2 2 2
N Q 1 Y GQ q Y GQ N Q 1 GQ GQ-q
p p
U= 2
= 2
q Y p GQ q Y p GQ
Supposons que lon dispose dune trs grande quantit de mesures ; si lhypothse nulle est vraie, le
numrateur de U est trs petit car le procd de minimisation de la fonction de cot donne des valeurs
nulles aux q paramtres inutiles du modle complet, donc gQ et gQ-q sont trs voisins. Si lhypothse
nulle est fausse, les deux modles ne peuvent pas tre trs voisins, mme si le nombre de mesures est trs
grand, puisque le sous-modle est trop pauvre pour rendre compte des donnes exprimentales. On
comprend ainsi que la valeur de la ralisation de U doit tre petite si lhypothse nulle est vraie.
Le test de Fisher consiste donc choisir un risque , et trouver, en inversant la distribution de probabilit
cumule de Fisher, la valeur u telle que Pr(u < u ) = . On calcule alors la quantit u (ralisation de la
variable U avec les mesures disponibles) :
Lapprentissage statistique : pourquoi, comment ?
47
CHAPITRE 1
( ) ( )
2 2
Qq
N Q 1 y gQ q z , wmc y p gQ z , wmc
p Q
u=
( )
2
q y p gQ z , wmc
Q
Si lon nest pas sr que la valeur de choisie pour effectuer cette procdure est optimale, on peut ajouter
une boucle extrieure portant sur diffrentes valeurs de .
Cette stratgie est applicable toute mthode de slection de variables fonde sur un classement des varia-
bles par ordre de pertinence.
Rappelons quil existe un grand nombre de mthodes de slection de variables. La mthode de la variable
sonde, dcrite ici, a t prsente car elle est simple et robuste ; elle a t valide sur une grande varit
dapplications ; nanmoins, il ny a pas de mthode miracle, et dans certains cas, dautres mthodes
peuvent se rvler plus efficaces. Une synthse trs complte des mthodes modernes de slection de
variables est prsente dans louvrage [GUYON 2006].
o les fonctions fi(x) sont des fonctions non paramtres des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent tre considres comme des variables secondaires zi, de sorte
que lon crira de manire gnrale un modle linaire en ses paramtres sous la forme
p
g ( z, w ) = wi zi
i =1
o les variables zi peuvent tre soit les variables primaires elles-mmes, soit des variables secondaires
dduites des variables primaires par une transformation non paramtre (ou paramtres fixs). On crira
aussi un tel modle sous la forme
g ( z, w ) = w z
y p , g ( z, w ) = y p g ( z, w )
2
de sorte que lon cherche les paramtres pour lesquels la fonction de cot des moindres carrs J(w) est
minimum :
NA
(
J ( w ) = ykp g ( z k , w ) )
2
k =1
o NA est le nombre dexemples de lensemble dapprentissage, zk est le vecteur des variables pour
lexemple k, et ykp est la valeur de la grandeur modliser pour lexemple k.
Dans la section intitule Variable sonde et test de Fisher , on a dfini la matrice des observations Z, qui
est une matrice N lignes et p colonnes, dont llment zij est la valeur prise par la variable numro j du
modle pour lexemple i de lensemble dapprentissage :
z 11 z 1, p
O z 2, p .
Z = z 21
M O M
z N, 1 z N, p
J ( w ) = y p g ( z, w )
2
o yp est le vecteur dont les N composantes sont les valeurs de la grandeur mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prdictions du modle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de cot est minimum :
dJ ( w )
w J = = 0,
dw w=wmc
qui reprsente un ensemble de p quations, dont les p inconnues sont les paramtres wi, i = 1 p. Comme
la fonction J(w) est quadratique en fonction des wi, sa drive par rapport wi est linaire : il sagit donc
dun systme linaire de p quations p inconnues, appeles quations canoniques.
On montre facilement que cette quation scrit
w J = 2 ZT y p Zwmc = 0( )
o ZT dsigne la transpose de la matrice Z, soit encore
( )
1
wmc = ZT Z ZT y p .
Lapprentissage statistique
50
Exemple 70
r2 = 0,89
Considrons un modle afne une variable (p = 2) comme 60 wmc1 = - 0,3
wmc2 = 5,9
reprsent sur la gure 1-27 :
50
yp
tions dune variable alatoire gaussienne de moyenne nulle et 20
Fonction de rgression
dcart-type gal 3. Rappelons que, dans un problme raliste, y=2+5x
10
la fonction de rgression est inconnue : lobjectif de lapprentis-
sage est de trouver un modle qui soit aussi proche que possible 0
1 x1
-20
-2 0 2 4 6 8 10
XT X = N .
k =1
N
2
xk
k =1
( x k )
k =1
( )
1
Par application de la relation w mc = X T X X T y p , on trouve les paramtres du modle afne :
N N N
N x k y kp x k y kp
k =1 k =1 k =1
xy p x y p
w mc 2 = 2
= 2
N
N x2 x
N (xk ) xk
2
k =1 k =1
1 N p 1 N
w mc 1 = y w mc 2 N x k = y p w mc 2 x
N k =1 k k =1
Remarque 1
La droite des moindres carrs passe par le centre de gravit des mesures.
En effet : g ( x ,w ) = w mc 1 + w mc 2 x = y p w mc 2 x + w mc 2 x = y p .
Remarque 2
xy p
Si les donnes sont centres ( x = y p = 0), la droite des moindres carrs passe par lorigine car wmc1 = 0. De plus : w mc 2 =
x2
1 N
(x x )
2
= 1 = x 2 , par consquent w mc 2 = xy .
p
Si, de plus, les donnes sont normalises, on a en outre
N k =1
Lapprentissage statistique : pourquoi, comment ?
51
CHAPITRE 1
Proprit
Le vecteur des paramtres wmc trouvs par la mthode des moindres carrs est un estimateur non
biais des paramtres wp de la fonction de rgression.
Dmonstration
( ) ( ) ( )
1 1 1
On a vu plus haut que w mc = Z T Z Z T y p. Par consquent : E w mc = Z T Z Z T EY p = Z T Z Z T ZW p = W p, ce qui prouve la
proprit.
Thorme de Gauss-Markov
Thorme
Les paramtres des modles obtenus par minimisation de la fonction de cot des moindres carrs sont
les paramtres de variance minimum.
Ainsi, dans la mesure o cest laugmentation de la variance qui produit le surajustement, la minimisation
de la fonction de cot des moindres carrs permet de limiter le phnomne (sans toutefois le supprimer,
bien entendu). Lexpression de la variance des paramtres est tablie plus loin, dans la section Variance
des paramtres dun modle linaire .
0,14 0,14
0,12 0,12
0,10 0,10
Frquence de wmc1
Frquence de wmc2
0,08 0,08
0,06 0,06
0,04 0,04
0,02 0,02
0 0
1,5 2 2,5 4,5 5 5,5
wmc1 wmc2
Figure 1-28. Distributions des paramtres dun modle linaire avec bruit gaussien
( g ( x, w ) g ( x, w ) ) ( y )
N
mc mc
p
yp
k =1
r= (N >> 1).
( ) ( )
N N
g ( x, wmc ) g ( x, wmc )
2 2
yp yp
k =1 k =1
Pour juger de la qualit du modle, on utilise le coefficient de dtermination, dont on dmontre quil est
une ralisation du carr du coefficient de corrlation entre les prdictions du modle et les observations :
N
( g ( xk, wmc ) y )
p 2
2
r = k--------------------------------------------------------
=1
N
-.
( yk y )
p p 2
k=1
Lapprentissage statistique : pourquoi, comment ?
53
CHAPITRE 1
r =
2
.
x2 (y ) p 2
Remarque
On retrouve ici la formule du carr du coefcient de corrlation introduit comme critre de pertinence dans la section Slection de
variables ; on trouve galement dans cette section linterprtation gomtrique de ce coefcient.
Pour juger visuellement de la qualit dun modle, il est trs commode dutiliser son diagramme de
dispersion, qui prsente les valeurs prdites par le modle en fonction des valeurs exprimentales
correspondantes : les points de ce diagramme sont dautant plus proches de la premire bissectrice que la
qualit de lapprentissage est meilleure.
Remarque trs importante
Rappelons quun apprentissage de trs bonne qualit ne signie pas que le modle obtenu soit capable de gnraliser correctement : un
modle qui a parfaitement appris les donnes dapprentissage peut tre surajust, donc gnraliser trs mal. Il faut ainsi considrer le
diagramme de dispersion sur les donnes dapprentissage pour juger de la qualit de lapprentissage, mais galement le diagramme de
dispersion sur des donnes non utilises pour lapprentissage, an destimer la capacit de gnralisation du modle.
Interprtation gomtrique 50
Prdictions du modle
p 10
g ( z, w ) = wi zi = w z
i =1 0
-10
est obtenu par la relation
( )
1 -20
wmc = ZT Z ZT y p -20 0 20 40 60 80
Mesures
o Z est la matrice des observations. Par consquent, Figure 1-29. Diagramme de dispersion pour les donnes
reprsentes sur la Figure 1-27.
le vecteur g(z, wmc) des prdictions du modle sur
lensemble dapprentissage est donn par
(
g ( z, wmc ) = Zwmc = Z ZT Z )
1
ZT y p
Or la matrice Z ( Z Z ) T 1
ZT (de dimensions N, N) nest autre que la matrice de projection orthogonale sur
les vecteurs colonnes de la matrice Z. Le vecteur des prdictions du modle sur lensemble dapprentis-
sage est donc la projection orthogonale du vecteur yp sur le sous-espace de lespace des observations
dfini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appel
espace des estimations .
Lapprentissage statistique
54
Remarque
( )
1
La matrice Z Z T Z Z T est souvent appele matrice chapeau et note H. En effet, le vecteur des estimations effectues par le
modle partir des observations y est souvent not y , donc y = Hy : la matrice H est la matrice qui met un chapeau sur y.
Z = 1 z2 .
Vecteur des estimations
1 z du modle
3
z1
Lespace des estimations est donc le sous-
v = z
espace dfini par les vecteurs colonnes de Z,
2
z
nots u et v respectivement. Le vecteur des 3
prdictions du modle pour lensemble Figure 1-30. Mthode des moindres carrs : interprtation
dapprentissage, ou vecteur des estimations, gomtrique
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des diffrences entre les mesures et les prdic-
tions sur lensemble dapprentissage est appel vecteur des rsidus. Le carr de son module est donc la somme
des carrs des erreurs sur les lments de lensemble dapprentissage. De tous les vecteurs qui joignent lextr-
mit de yp un point du sous-espace des estimations, cest celui qui a le plus petit module.
o Z est la matrice des observations. Si lon considre que les observations sont des ralisations de varia-
bles alatoires, le vecteur des paramtres est lui-mme une ralisation dun vecteur alatoire
( )
1
Wmc = ZT Z ZT Y p. Si les mesures de yp sont indpendantes et de mme variance 2, la variance du
vecteur alatoire Yp est la matrice
varY p = I NN 2.
o INN est la matrice identit de dimension N. La variance du vecteur des paramtres dun modle linaire
obtenu par la mthode des moindres carrs est donc :
( )
1
varWmc = ZT Z 2.
Lapprentissage statistique : pourquoi, comment ?
55
CHAPITRE 1
Dmonstration
Daprs la proprit rappele ci-dessous dans la section variance dun vecteur alatoire , on a :
( ) (( Z Z ) Z ) = ( Z Z ) Z (( Z Z ) Z )
1 1 T 1 1 T
varWmc = Z T Z Z T varY p T T T T T T 2
= (Z Z ) ( ) ( )
1 1 1
T
ZT Z ZT Z 2 = ZT Z 2
( ) 1 1
I NN si p << N, de sorte que var G ( z, Wmc ) z T z . ( )
1
donnes , ZT Z
N N
p
( ( ))
p p p
( )
Dautre part : E z z T z = E z zk2 = E z zk2 = E z zk ( )
+ varzk . Les donnes tant supposes
2
k =1 k =1 k =1 k =1
normalises et centres, le premier terme de la somme est nul, et le second est gal p. Il reste donc :
p
E z var G ( z, W ) = .
N
Ainsi, on retrouve le fait que, lorsque lon 0,22
par une moyenne sur 1 000 points de test. On Figure 1-31. Variance dun modle polynomial
observe que la variance augmente linairement en fonction du degr du polynme (N = 100, p = 2 21)
avec le nombre de paramtres, la pente de la droite
valant 1/N, conformment la relation dmontre ci-dessus.
Lapprentissage statistique
56
Remarque
Dans lexemple dcrit par la gure 1-11, la variance (reprsente par le symbole x) ne varie pas linairement avec le degr du polynme. Ceci
est d au fait que lexpression de la variance que lon vient dtablir est vraie dans la limite des trs grands ensembles dapprentissage (N inni) ;
pour N = 100 cette relation est raisonnablement bien vrie (gure 1-31) mais ce nest pas le cas si N vaut seulement 15 (gure 1-11).
( ) 1
1
ZT Z = N .
( zk )
2
k =1
Si lon effectue lapprentissage avec les N exemples disponibles, le paramtre wmc vaut alors :
N
z y p
k k
( )
1
k =1
wmc = Z Z T
Z y =
T p
N .
zk2
k =1
Supposons que lon retire lexemple i de lensemble des donnes disponibles, et que lon effectue
lapprentissage avec tous les autres exemples. Le paramtre du modle devient :
N
z y p
k k
z y
N
p
zi yip
k =1 k k
i k i
w mc = N
= k =1
N .
zk2 zk2
k =1 k =1
k i k i
Lapprentissage statistique : pourquoi, comment ?
57
CHAPITRE 1
Linfluence du retrait de lexemple i sur le modle se traduit donc par la variation de son unique
paramtre :
N N
i
z y p
k k zi yip z y p
k k
ri
k =1
w mc wmc = k =1
N
N
= zi N
z 2
k z 2
k z 2
k
k =1 k =1 k =1
k i k i
o ri est le rsidu (erreur de modlisation) sur lexemple i lorsque celui-ci est dans lensemble
dapprentissage :
N
z y p
k k
ri = y wmc zi = y
i
p
i
p k=1
N
zi .
zk2
k =1
Montrons prsent que lon peut calculer lerreur rii commise lorsque lexemple i a t retir de
lensemble dapprentissage en fonction de ri :
ri i ri = wmc
i
(
wmc zi = zi2 ) N
ri
= zi2 N
ri ,
z 2
k z 2
k z 2
i
k =1 k =1
k i
et par consquent :
ri z2
ri i = avec hii = N i .
1 hii
zk2
k =1
Cette relation rend donc inutile la ralisation de N apprentissages successifs, puisque lon peut calculer
exactement lerreur de modlisation qui aurait t commise sur lexemple i si celui-ci avait t retir de
lensemble dapprentissage.
La quantit hii est appele levier de lexemple i, compris entre 0 et 1. Elle est prsente de manire plus
dtaille dans la section suivante.
partir de cette relation, on peut dfinir le PRESS (Predicted REsidual Sum of Squares) Ep, par analogie
avec le score de leave-one-out Et :
2
1 N ri .
Ep =
N k =1 1 hii
Dans le chapitre 2, une extension de ces rsultats aux modles non linaires sera prsente sous le nom de
leave-one-out virtuel .
Lapprentissage statistique
58
Les leviers
Ce rsultat peut tre tendu au cas o le modle possde p paramtres. Le levier de lexemple i est alors
llment diagonal i de la matrice chapeau
( )
1
H = Z ZT Z Z T.
Cette matrice tant une matrice de projection orthogonale, les leviers possdent les proprits suivantes
(aisment vrifies sur lexpression des leviers dans le cas dun modle un seul paramtre, prsent dans
la section prcdente) :
N
0 < hii < 1 ; hii = p .
i =1
Cette dernire relation fournit une interprtation intressante des leviers : le levier de lexemple i est la
proportion des paramtres qui est utilise pour modliser lexemple i. Ainsi, un exemple qui possde un
grand levier a une grande importance pour le modle : en dautres termes, le modle est trs sensible au
bruit prsent sur la mesure de yp pour lexemple i. Il y a un risque de surajustement lexemple i.
Cet effet est illustr sur la figure 1-32.
1 + 1 +
(a) (b)
0,6 0,6
0,2 + 0,2
+ +
- 0,2 - 0,2
+
- 0,6
+ - 0,6
+
-1 -1
-1 - 0,6 - 0,2 x 0,2 0,6 1 -1 - 0,6 - 0,2 x 0,2 0,6 1
1 +
(c)
Leviers = 0,495
0,6
0,2 +
+
- 0,2 Leviers = 0,005
+
- 0,6
-1
-1 - 0,6 - 0,2 x 0,2 0,6 1
Figure 1-32. Interprtation des leviers
Lapprentissage statistique : pourquoi, comment ?
59
CHAPITRE 1
On dispose de 4 points exprimentaux, et lon postule un modle un paramtre. La figure (a) montre le
modle linaire ainsi obtenu. Supposons quune autre mesure effectue en x = 0,1 donne un rsultat
diffrent, comme indiqu sur la figure (b) ; on obtient alors le modle reprsent en trait plein, trs peu
diffrent du modle prcdent, reprsent en pointill. Supposons en revanche que ce soit le point en
x = 1 qui soit affect (figure (c)). On obtient alors le modle reprsent en trait plein, trs diffrent du
modle initial. On observe ainsi que le point situ en x = 1 a beaucoup plus dinfluence sur le modle
que le point situ en x = 0,1. Ceci se traduit par des leviers de valeurs trs diffrentes, dans un facteur
peu prs gal 100 : les points situs en x = 1 et x = 1 sont 100 fois plus importants pour le modle que
les points situs en x = 0,1 et x = + 0,1. Les expriences qui ont t effectues pour obtenir ces deux
rsultats taient donc peu prs inutiles : il aurait t plus profitable de rpter les mesures en x = 1 et x = +
1, afin de moyenner le bruit en ces points. On note que, conformment ce qui a t indiqu plus haut,
la somme des leviers est gale 1, qui est le nombre de paramtres du modle postul.
Cette illustration numrique met en lumire lintrt des plans dexpriences, qui permettent de choisir
les mesures les plus judicieuses pour tablir un modle prdictif prcis.
On considre lespace des observations, de dimension N, dans lequel la grandeur modliser est repr-
sente par un vecteur yp, et chacune des variables est reprsente par un vecteur zi, i = 1 p ; rappelons
que p est le nombre de paramtres du modle et que N est le nombre dobservations de lensemble
dapprentissage. Lalgorithme est une application simple du thorme des trois perpendiculaires :
choisir une variable i reprsente par le vecteur zi ;
y p zi
projeter yp sur la direction de zi, ce qui fournit le paramtre wmci de la variable i : wmci = ;
zi
projeter le vecteur des rsidus ri = y p wmci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal zi ;
projeter la projection de yp sur la projection dun deuxime vecteur zj, ce qui fournit un deuxime para-
mtre du modle ;
itrer jusqu puisement des variables du modle.
La figure 1-33 prsente lalgorithme dans le cas N = 3, p = 2. Les prdictions du modle pour lensemble
dapprentissage sont reprsentes par g(z, w), projection orthogonale de yp sur lespace des estimations,
qui est donc une combinaison linaire de z1 et z2. On peut obtenir ce vecteur en projetant dabord sur un
des vecteurs des variables (ici z1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
z1. Ce rsultat sobtient par application rpte du thorme des trois perpendiculaires.
Lapprentissage statistique
60
Dfinition
Soit pY(y) la densit de probabilit dune variable alatoire Y : la probabilit pour que la valeur dune
ralisation de Y soit comprise entre y et y+dy vaut pY(y)dy.
Ainsi, si lon traite une grandeur mesurable comme une variable alatoire, on fait comme si le rsultat de
la mesure de cette grandeur tait le rsultat dun tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (gnralement inconnue) pY(y). Utiliser une variable alatoire pour modliser le
rsultat dune mesure ne signifie pas du tout que lon considre la grandeur mesure comme rgie par des
lois non dterministes : la variable alatoire est un outil mathmatique, dont lutilisation est trs commode
lorsque les facteurs qui dterminent le rsultat de la mesure ne sont pas connus, ou sont connus mais non
matriss ni mesurs.
Ainsi, le lancer dun d est un phnomne parfaitement dterministe, qui obit toutes les lois de la
physique : si lon connaissait la position initiale de la main du joueur, si lon pouvait mesurer la vitesse
initiale du d, et si lon connaissait les caractristiques mcaniques de la matire dont sont constitus le
d et la table sur laquelle on le lance, on pourrait prdire exactement le rsultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesures, il est commode de modliser ce rsultat
comme la ralisation dune variable alatoire. Dans ce cas particulier, cette variable Y est une variable
discrte, qui ne peut prendre que 6 valeurs, et, pour un d non pip, la probabilit de ralisation de
chacune de ces valeurs est gale 1/6.
Lapprentissage statistique : pourquoi, comment ?
61
CHAPITRE 1
De mme, les mthodes statistiques sont susceptibles de prvoir les rsultats dune lection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.
Proprit
Remarque
Toute ralisation y de la variable alatoire Y tant comprise entre et + , on a videmment
+
FY ( ) = 0, FY ( + ) = 1 et pY ( y ) dy = 1.
-
Variable certaine
Une variable certaine de valeur y0 est une variable alatoire dont la densit de probabilit est une
distribution de Dirac ( y y0 ).
0,2
Deux variables alatoires X et Y sont indpendantes si la probabilit de ralisation dune des variables
est indpendante de la probabilit de ralisation de lautre. On a donc pX ,Y ( x, y ) = p X ( x ) pY ( y ).
pX ,Y ( x, y ) = pY ( y x ) pX ( x ) = p X ( x y ) pY ( y )
Remarque :
Si les variables sont indpendantes : pY ( y x ) = pY ( y ) et p X ( x y ) = p X ( x ).
Vecteur alatoire
Un vecteur alatoire est un vecteur dont les composantes sont des variables alatoires.
Dfinition
+
Lesprance mathmatique dune variable alatoire Y est EY = ypY ( y ) dy.
Lesprance mathmatique dune variable alatoire est donc le premier moment de sa densit de probabi-
lit.
Proprits
Il est facile de dmontrer les proprits suivantes :
lesprance mathmatique dune somme de variables alatoires est la somme des esprances mathma-
tiques des variables alatoires ;
lesprance mathmatique du produit de deux variables indpendantes est gale au produit de leurs
esprances mathmatiques ;
lesprance mathmatique dune variable certaine de valeur y0 est gale y0 ;
si une variable Y obit une distribution uniforme sur un intervalle [a, b], son esprance mathmatique
vaut (a+b)/2 ;
si une variable Y suit une loi gaussienne de moyenne , son esprance mathmatique vaut .
Lapprentissage statistique : pourquoi, comment ?
63
CHAPITRE 1
Comme nous lavons vu dans la section lments de la thorie de lapprentissage , lobjectif de tout
apprentissage est dobtenir une estimation fiable de lesprance mathmatique de la grandeur modliser.
cet effet, il est utile dintroduire le concept destimateur.
Dfinition
Un estimateur H dun paramtre de la distribution dune variable alatoire observable Y est dit non
biais si son esprance mathmatique EH est gale ce paramtre. Alors une ralisation de H
constitue une estimation non biaise du paramtre de la distribution.
Daprs la dnition prcdente, un estimateur dune variable certaine est non biais si son esprance mathmatique est gale la valeur
de la variable certaine.
Ainsi, chercher estimer les paramtres w dun modle, cest--dire faire lapprentissage dun modle,
revient chercher des estimateurs non biaiss des paramtres, ces derniers tant considrs comme des
variables certaines. Cest cette approche, dite frquentiste, qui est dcrite dans le prsent ouvrage.
Lapproche bayesienne qui considre les paramtres du modle comme des variables alatoires, permet
galement dobtenir dexcellents rsultats, comme dcrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.
Considrons la variable alatoire M = (Y1 + Y2 + + YN) / N. Puisque lesprance mathmatique dune somme de variables alatoires est
la somme des esprances mathmatiques de ces variables, on a videmment EM = EY : lesprance mathmatique de la variable alatoire
M (appele moyenne ) est bien gale lesprance mathmatique de la variable alatoire Y. La grandeur m = (y1 + y2 + + yN) / N,
ralisation de lestimateur de lesprance mathmatique de Y, constitue une estimation non biaise de cette dernire.
Il reste valuer la qualit de cette estimation : le fait quelle soit non biaise ne garantit pas quelle soit
prcise : sa prcision dpend du nombre et de la qualit des mesures effectues, cest--dire de la
dispersion des mesures autour de lesprance mathmatique. Pour caractriser numriquement cette
dispersion, on utilise la notion de variance.
Lapprentissage statistique
64
Dfinition
Remarque
La variance est galement lesprance mathmatique de [Y EY ] : varY = E Y E 2 .
2
( Y )
Proprits
Une variable certaine a une variance nulle.
varY = EY 2 ( EY ) .
2
varaY = a 2 varY .
Si une variable alatoire obit une distribution uniforme sur un intervalle [a, b], sa variance vaut
(ba)2/12.
Si une variable alatoire obit une loi gaussienne dcart-type , sa variance vaut 2.
1 N
(Y M ) est un estimateur non biais de la variance de Y.
2
La variable alatoire S 2 =
N 1 i =1 i
Si lon dispose de N rsultats de mesures yi, il faut donc, pour estimer la variance, calculer dabord la
1 N
valeur de la moyenne m = yi , puis calculer lestimation de la variance par la relation :
N i =1
1 N
( yi m ) .
2
s2 =
N 1 i =1
Lestimation de la variance permet donc dvaluer, de manire quantitative, la dispersion des rsultats des
mesures autour de leur moyenne. La moyenne tant elle-mme une variable alatoire, elle possde une
variance : on pourrait effectuer plusieurs sries de mesures, calculer la moyenne de chacune de ces sries,
puis estimer la variance de la moyenne, laquelle caractriserait la dispersion de lestimation de la grandeur
modliser. Nanmoins, cette procdure est lourde puisquelle requiert que lon effectue plusieurs sries
de mesures, dans des conditions supposes identiques.
Lapprentissage statistique : pourquoi, comment ?
65
CHAPITRE 1
Remarque
On a vu plus haut que
varY = E Y E 2 .
( Y)
La variance dune variable alatoire est donc la covariance de cette variable et delle-mme.
u1
u 2 , de dimension p, sa variance est la matrice (p, p) donne
tant donn un vecteur alatoire U =
M
up
par :
Proprit
Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable alatoire, indpendante de Y1, obis-
Y1
sant une loi de Pearson N degrs de libert, alors la variable alatoire Z = obit une loi de
Y2 / N
Student N degrs de libert.
Lapprentissage statistique
66
Loi de Fisher
Si Y1 est une variable alatoire de Pearson N1 degrs de libert, et si Y2 est une variable alatoire de
Y / N1
Pearson N2 degrs de libert, alors la variable alatoire Z = 1 obit une loi de Fisher N1 et N2
degrs de libert. Y2 / N2
Intervalles de confiance
Dans les sections prcdentes, nous avons vu que lestimation dune grandeur dpend la fois du nombre
dexpriences et de la variabilit des observations. On peut combiner lgamment la taille de lchantillon
et sa variabilit pour valuer la diffrence qui peut exister entre lestimation dune grandeur et sa vraie
valeur.
Dfinition
Un intervalle de confiance, au seuil de confiance 1 , pour une variable alatoire Y, est un intervalle
qui, avec une probabilit 1 , contient la valeur de lesprance mathmatique de Y.
En consquence, plus lintervalle de confiance est petit, plus on peut avoir confiance en lestimation de la
grandeur modliser.
Ainsi, supposons que lon ait ralis 100 ensembles de mesures ; partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance 95 % ( = 0,05). Alors, pour
95 % de ces ensembles de donnes, lintervalle de confiance contient la moyenne ; on ne peut videm-
ment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit lintrieur de linter-
valle de confiance calcul partir de cet ensemble de mesures.
z1
dinverser la fonction de rpartition de Z, cest--dire trouver la valeur z1 de z telle que Pr(z < z1) = / 2,
et la valeur z2 de z telle que Pr(z > z2) = / 2. Une fois dtermines les valeurs de z1 et de z2, on inverse la
fonction Z(Y) afin de trouver les valeurs a et b de y telles que Pr(a < y < b) = 1 .
Il est facile de dmontrer que la somme de N variables gaussiennes indpendantes est une variable gaus-
sienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne N et
de variance N2. Leur moyenne M obit donc une loi gaussienne de moyenne et de variance 2/N ; par
consquent la variable alatoire M obit une loi normale (gaussienne de moyenne nulle et de
/ N
variance unit).
Rappelons que lon cherche tablir deux bornes pour lesprance mathmatique , qui doivent tre de la
forme m a, o m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prvoir que
lintervalle de confiance crot avec la variance des mesures et dcrot avec leur nombre.
1 N Comme 2indiqu
plus haut, lestimateur non biais de la variance est la variable alatoire S 2 = 2(Yi M ) . Il est
N 1 i
commode de normaliser cette variable en la divisant par son esprance mathmatique =1 ; les variables Y
i
tant supposes gaussiennes, la variable alatoire M est galement gaussienne, donc (N 1) S2/ 2 est la
somme de N 1 variables gaussiennes indpendantes (il ny a que N 1 variables indpendantes puisque
M dpend des Yi) ; elle obit donc une loi de Pearson.
M
Dautre part, comme indiqu plus haut, la variable alatoire obit une loi normale.
/ N
M
M
Par consquent, la variable alatoire Z = / N = obit une loi de Student N 1 degrs
S /
2 2
S2 / N
de libert. La distribution de Student tant symtrique, il suffit alors de chercher la valeur de z0 telle
quune variable de Student soit comprise entre z0 et +z0 avec la probabilit 1 , soit encore telle quune
variable de Student soit comprise entre et z0 avec la probabilit / 2. partir des rsultats exprimen-
taux, on peut calculer une ralisation m de M, une ralisation s de S, et une ralisation z de Z par les rela-
1 N 1 N m
( yi m ) et z = 2 . Avec une probabilit 1 , lestimation m de
2
tions m = yi , s =
N i =1 N 1 i =1 s /N
se trouve lintrieur de lintervalle de confiance si z est dans lintervalle [ z0, + z0] :
m
z0 < < + z0
s2 / N
soit
m z0 s 2 / N < < m + z0 s 2 / N .
Lintervalle de confiance recherch est donc lintervalle centr sur lestimation de la moyenne m, et de
demi-largeur z0 s 2 / N .
Lapprentissage statistique
68
Variable de Student
voisine dune distribution normale) ; pour un 1
Tests dhypothse
On a vu plus haut que des tapes importantes dans la conception dun modle par apprentissage artificiel,
telles que la slection de variables ou la slection de modles, ncessitent de prendre des dcisions (slec-
tionner ou rejeter un modle ou une variable) partir des informations disponibles, qui sont gnralement
en nombre limit. Il faut donc prendre ces dcisions de manire raisonne. Les tests dhypothse sont les
outils appropris pour ce genre de situation. Ils permettent de faire une hypothse et dtablir une des deux
conclusions suivantes, avec un risque derreur fix :
les donnes confirment cette hypothse,
le fait que les donnes semblent confirmer cette hypothse est simplement le rsultat dun concours de
circonstances improbable, li la petite taille de lchantillon et la variabilit des mesures.
De nombreux tests dhypothses, adapts une grande varit de situations, ont t proposs (voir par
exemple [LEHMANN 1993]).
Le principe dun test dhypothse est le suivant : pour tester la validit dune hypothse (appele
hypothse nulle et traditionnellement note H0), on cherche tablir lexpression dune variable ala-
toire qui suit une loi connue si lhypothse nulle est vraie, et dont on peut calculer une ralisation partir
des donnes disponibles. Si la probabilit pour que cette ralisation se trouve dans un intervalle donn est
trop faible , on considre que la probabilit pour que lhypothse nulle soit vraie est trop faible : on la
rejette donc.
Lapprentissage statistique : pourquoi, comment ?
69
CHAPITRE 1
titre de premire illustration, supposons quun modle prdise que la grandeur modliser, par exemple
lunique paramtre dun modle constant, a une certaine valeur w0. On dispose dun ensemble de N obser-
vations de cette grandeur, et lon veut savoir si elles confirment lhypothse selon laquelle la grandeur a
pour vraie valeur w0. Ces mesures sont modlises comme des ralisations de N variables alatoires Yi
supposes gaussiennes, desprance mathmatique et de variance 2. Lhypothse nulle est donc
H0 : w0 = , et lhypothse alternative est w0 .
Nous avons vu dans la section prcdente que, si lhypothse nulle est vraie, cest--dire si w0 = , la
M w0
variable alatoire Z = , obit une loi de Student N 1 degrs de libert (M est lestimateur de
S2 / N
2
lesprance mathmatique, S est lestimateur de la variance). partir des N donnes disponibles, on peut
calculer une ralisation z de cette variable alatoire. Dautre part on peut calculer la valeur z0 telle que la
probabilit pour quune ralisation de la variable alatoire soit lextrieur de lintervalle [ z0, +z0] est
gale au risque choisi 1 . Si la ralisation observe z est lextrieur de cet intervalle, on peut consi-
drer que les donnes ne confirment pas de manire significative lhypothse H0 ; on rejette donc celle-ci,
avec un risque 1 de se tromper. En outre, il faut dfinir le niveau de risque derreur, not 1 , que
lon est dispos admettre, lerreur consistant rejeter lhypothse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple quune thorie prvoie quune grandeur vaut w0 = 1. Supposons que lon dispose
de 100 mesures de cette grandeur, dont la moyenne m vaut 2 et lcart-type vaut s = 10 : ces mesures sont
donc trs disperses autour de la moyenne. On se pose la question : ces donnes confirment-elles lhypo-
thse selon laquelle w0 vaut 1 ? La ralisation de la variable alatoire z vaut
m w0
z= = 1.
s2 / N
En se reportant la figure 1-35, on voit que z0 2
(pour = 0,95), de sorte que z est dans lintervalle
[ z0, +z0]. On accepte donc lhypothse nulle au
vu des donnes disponibles. linverse, si les 5
nulle. 1
ACCEPTATION
La certitude avec laquelle on accepte lhypo- 0 DE LHYPOTHSE NULLE
Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que lon accepte lhypothse nulle avec la plus
grande certitude possible ; cest naturel, puisque z = 0 correspond au cas o la moyenne est gale la
valeur postule de lesprance mathmatique.
Remarque
Dans ce cas particulier, le test dhypothse consiste regarder si la valeur de la moyenne dont on fait lhypothse se trouve dans lintervalle
de conance calcul au paragraphe prcdent, et rejeter lhypothse nulle si cette valeur est lextrieur de cet intervalle.
Un autre exemple de test dhypothses (test de Fisher) est dcrit dans la section Slection de variables .
Conclusion
Dans ce chapitre, les fondements de lapprentissage statistique et de sa mise en uvre ont t dcrits de
manire succincte ; on en trouvera une prsentation beaucoup plus dtaille dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont port essentiellement
sur les familles de modles et les algorithmes dapprentissage. Le nombre et la varit des applications,
leur difficult et leur exigence croissantes, ont rendu ncessaires la mise en place dun corps de doctrine
et dune mthodologie qui englobent tous les aspects de la conception de modle par apprentissage
statistique : slection de variables, slection de modle, planification dexpriences, estimation dinter-
valles de confiance sur les prdictions, sont au moins aussi importantes que lapprentissage lui-mme. Les
mthodes qui ont t dcrites ou esquisses dans ce chapitre peuvent tre mises en uvre pour la plupart
des grandes familles de modles. Les chapitres suivants de cet ouvrage sont consacrs diffrents types
de modles rseaux de neurones, cartes auto-organisatrices, machines vecteurs supports dont on
montrera les spcificits, la mise en uvre, et les applications.
Bibliographie
BJRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
CHEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to non-
linear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., GUYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applica-
tions, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
GUYON I., GUNN S., NIKRAVESH M., ZADEH L. [2006], Feature Extraction, Foundations and Applications,
Springer.
HASTIE T, TIBSHIRANI R., FRIEDMAN J. [2001], The elements of statistical learning, data mining, infer-
ence and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
LAGARDE DE J. [1983], Initiation lanalyse des donnes, Dunod, Paris.
LEHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.
Lapprentissage statistique : pourquoi, comment ?
71
CHAPITRE 1
Introduction
Le premier chapitre de cet ouvrage a prsent les principes de lapprentissage statistique, ainsi quune
mthodologie globale permettant de rsoudre les problmes pratiques qui se posent lorsque lon souhaite
concevoir un modle prcis et fiable. Il reste appliquer ces principes des familles de modles rpondant
des besoins spcifiques notamment, en ce qui concerne ce chapitre, aux rseaux de neurones.
Le terme de rseau de neurones suggre un lien fort avec la biologie. Ce lien existe : les mthodes
mathmatiques dcrites dans ce chapitre ont t appliques avec succs la modlisation des systmes
nerveux vivants. Nanmoins, le terme est plus mtaphorique que scientifique : si le lien avec la biologie a
constitu une motivation majeure des pionniers du domaine, les rels dveloppements des rseaux de
neurones sont de nature purement mathmatique et statistique ; leurs applications se situent dans des
domaines qui nont gnralement aucun rapport avec la neurobiologie. Cest la raison pour laquelle, aprs
avoir fourni les dfinitions essentielles et nonc la proprit fondamentale des rseaux de neurones
lapproximation non linaire parcimonieuse , les classes de problmes que les rseaux de neurones sont
susceptibles de rsoudre sont rappeles : modlisation non linaire statique ou dynamique, classification
(discrimination), modlisation semi-physique ( bote grise ) et traitement de donnes structures
(graphes). Des applications trs diverses, choisies en raison de leur caractre exemplaire, sont dcrites en
dtail afin de fournir au lecteur des ides prcises sur le type de problmes auxquels les rseaux de
neurones sont susceptibles dapporter des solutions lgantes.
Cest seulement aprs avoir dcrit ces applications que sont prsents, de manire plus dtaille, les algo-
rithmes et la mthodologie de conception quil convient de suivre pour obtenir des rsultats solides. Les
tapes de conception, dcrites de manire gnrique dans le premier chapitre, sont abordes en dtail ici :
slection des variables, apprentissage, slection de modles statiques. Les modles dynamiques sont
galement prsents dans une optique de mthodologie ; ils sont dcrits de manire plus dtaille dans le
chapitre 4. Des complments thoriques et algorithmiques clturent ce chapitre.
( ) ( )
g x , w = wi f i x
i =1
Lapprentissage statistique
74
o le vecteur w est le vecteur des paramtres du modle, et o les fonctions fi(x) sont des fonctions non
paramtres, ou paramtres fixs et connus, des variables x.
Les rseaux de neurones entrent dans la catgorie des modles non linaires en leurs paramtres. La
forme la plus courante de rseau de neurones statique est une extension simple de la relation prcdente :
p
g ( x, w ) = wi fi ( x, w )
i =1
o les fonctions fi(x, w), appeles neurones , sont des fonctions paramtres qui seront dfinies dans
la section suivante.
Les neurones
Dfinition
Suivant en cela lusage, on utilisera frquemment, par abus de langage, le terme de neurone linaire
pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
Les variables sur lesquelles opre le neurone sont souvent y
dsignes sous le terme dentres du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de reprsenter
graphiquement un neurone comme indiqu sur la figure 2-1.
Cette reprsentation est le reflet de linspiration biologique qui
a t lorigine de la premire vague dintrt pour f
les neurones formels, dans les annes 1940 1970
[McCULLOCH 1943] [MINSKY 1969].
La fonction f peut tre paramtre de manire quelconque.
Deux types de paramtrage sont frquemment utiliss :
les paramtres sont attachs aux variables du neurone : la x1 x2 xn
sortie du neurone est une fonction non linaire dune combi-
naison des variables {xi} pondres par les paramtres {wi}, Figure 2-1. Un neurone ralise une fonction
qui sont alors souvent dsigns sous le nom de poids ou, non linaire paramtre borne y = f (x, w)
en raison de linspiration biologique des rseaux de neurones, o les composantes du vecteur x
poids synaptiques . Conformment lusage (galement sont les variables et celles du vecteur w
sont les paramtres.
inspir par la biologie), cette combinaison linaire sera
appele potentiel dans tout cet ouvrage. Le potentiel v le
plus frquemment utilis est la somme pondre, laquelle sajoute un terme constant ou biais 1 :
n
v = w0 + wi xi .
i =1
1. Ce terme de biais est malheureux, mais consacr par lusage. Il na rien voir le biais dun estimateur, dfini dans la section
lments de statistiques du premier chapitre.
Les rseaux de neurones
75
CHAPITRE 2
La fonction f est appele fonction dactivation. Pour des raisons qui seront exposes plus loin, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :
n
y = th w0 + wi xi .
i =1
Le biais w0 peut tre considr comme le produit du paramtre w0 par la constante 1, de sorte quil est
commode dintroduire une variable gale 1 dans le vecteur des variables. La relation prcdente peut
alors scrire :
y = th ( w x )
n 2
( xi wi )
y = exp i =1
2 wn2+1
o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn+1 est son cart-type.
Dans les complments thoriques et algorithmiques, en fin de chapitre, dautres exemples de neurones
sont prsents.
La diffrence pratique essentielle entre les deux types de neurones qui viennent dtre dcrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des variables ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones fonction dactivation sigmode.
Dans le premier chapitre, on a introduit la distinction entre modles statiques et modles dynamiques.
Bien entendu, la mme distinction sapplique aux rseaux de neurones : on diffrencie les rseaux stati-
ques (ou rseaux non boucls) et les rseaux dynamiques (ou rseaux boucls).
Lapprentissage statistique
76
Dfinition
Un rseau de neurones non boucl ralise une (ou plusieurs) fonction(s) de ses entres par composition des
fonctions ralises par chacun des neurones.
Un rseau de neurones non boucl peut donc tre imagin comme un ensemble de neurones connects
entre eux, linformation circulant des entres vers les sorties sans retour en arrire . On peut alors
reprsenter le rseau par un graphe acyclique dont les nuds sont les neurones et les artes les
connexions entre ceux-ci. Si lon se dplace dans le rseau, partir dun neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de dpart. La repr-
sentation de la topologie dun rseau par un graphe est trs utile, notamment pour les rseaux boucls,
comme on le verra dans la section Rseaux de neurones dynamiques . Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermdiaires sont les neurones cachs (voir figure 2-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effec-
tues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient) et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet tel quun circuit lectronique, et les connexions nont pas de
ralit physique ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans lusage, car
il est commode quoique trompeur ; il a mme donn naissance au terme de connexionnisme.
Rseaux couches
La seule contrainte sur le graphe des connexions dun
rseau de neurones non boucl est quil ne contient
pas de cycle. On peut donc imaginer une grande ..... Ns neurone(s) de sortie
varit de topologies pour ces rseaux. Nanmoins,
pour des raisons qui seront dveloppes dans la
section Proprit fondamentale , la trs grande .... Nc neurones cachs
majorit des applications des rseaux de neurones
mettent en jeu des rseaux couches , dont un x1 x2 x3 .... xn
exemple est reprsent sur la figure 2-2. n variables
Figure 2-2. Un rseau de neurones n variables,
Forme gnrale
une couche de Nc neurones cachs et Ns neurones
Ce rseau ralise NS fonctions algbriques des de sortie
n variables du rseau ; chacune des sorties est une
fonction, ralise par le neurone de sortie correspondant, des fonctions non linaires ralises par
les neurones cachs.
Le temps ne joue aucun rle fonctionnel dans un rseau de neurones non boucl : si les variables sont
indpendantes du temps, les sorties le sont galement. Le temps ncessaire pour le calcul de la fonction
ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce calcul comme
instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux statiques , par
opposition aux rseaux boucls ou dynamiques qui seront introduits plus loin.
Les rseaux de neurones
77
CHAPITRE 2
Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
Perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).
proscrire
On mentionne souvent, outre la couche cache et la couche de sortie, une couche dentre voire des neurones dentre . Cette
expression est trompeuse, car les entres (reprsentes par des carrs sur la gure 2-2) ne sont pas des neurones : elles ne ralisent
aucun traitement de linformation.
Forme de rseau la plus utile : les rseaux une couche cache de sigmodes
et un neurone de sortie linaire
Comme indiqu dans le chapitre 1 et rappel au dbut de ce chapitre, lextension la plus naturelle des
modles linaires de la forme :
p
g ( x, w ) = wi fi ( x )
i =1
W1
Le modle reprsent sur la figure 2-3 a pour
expression : x x0 x1 x2 .... xn n variables + un biais
n
Nc x0=1
(qui relient les n+1 variables du rseau aux Nc neurones cachs). Cette proprit a des consquences importantes qui seront examines
dans la section Proprit fondamentale .
Ce quil faut retenir
Un rseau de neurones non boucl est une fonction non linaire de ses variables et de ses paramtres.
Quest-ce quun rseau de neurones zro neurone cach ?
Un rseau de neurones non boucl sans neurone cach, avec un neurone de sortie linaire, ralise simplement une fonction linaire de ses
entres. On peut donc considrer tout systme linaire comme un rseau de neurones, ce qui ne prsente aucun intrt, ni thorique ni pratique.
Les termes directs
Si la relation que lon cherche raliser entre les variables et les sorties prsente une importante composante linaire, il peut tre utile
dajouter, la structure de rseau couches qui vient dtre dcrite, des termes linaires, parfois appels termes directs , qui se tradui-
sent, dans la reprsentation graphique du rseau, par des connexions directes entre les entres et le neurone de sortie (gure 2-4). Par
exemple, pour un rseau dont les fonctions dactivation sont des sigmodes, le modle devient :
Nc
n n
g ( x ,w ) = w Nc +1,i th w ij x j + w i 0 + w Nc +1,0 + w Nc +1,k x k
i =1
j =1 k =1
= w 2 f (W1x ) + w 3 x '
o w3 est un vecteur de dimension n et x est le vecteur de composantes {x1, , xn}, cest--dire le vecteur x dpourvu du biais.
g(x, w)
Nc+1
Termes directs
w2 w3
f 1 1 .... Nc
W1
n
x j wij ( )
2
Nc
g ( x, w ) = wN c +1,i exp
j =1
i ==1 2 wi2
o x est le vecteur des entres du rseau (de dimension n) et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc+1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachs sont numrots de 1
Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux catgories de paramtres interviennent ici : ceux de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie) et les paramtres des fonctions radiales (centres et carts-
Les rseaux de neurones
79
CHAPITRE 2
types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des para-
mtres gaux 1. Dans ces rseaux, la sortie est une fonction linaire des paramtres de la dernire
couche de connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Les cons-
quences de cette proprit seront examines plus loin.
Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].
Forme gnrale
Larchitecture la plus gnrale, pour un rseau de neurones, est celle des rseaux boucls , dont le
graphe des connexions est cyclique : lorsque lon se dplace dans le rseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient son point de dpart (un tel chemin
est dsign sous le terme de cycle ). La sortie dun neurone du rseau peut donc tre fonction delle-
mme ; ceci nest videmment concevable que si la notion de temps est explicitement prise en considra-
tion.
lheure actuelle, limmense majorit des applications des rseaux de neurones est ralise par des
systmes numriques (ordinateurs conventionnels ou circuits numriques spcialiss pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systmes temps discret, rgis par des
quations aux diffrences (ou quations rcurrentes , do le terme de rseaux rcurrents ). Ces
quations jouent le mme rle, en temps discret, que les quations diffrentielles en temps continu.
Ainsi, chaque connexion dun rseau de neurones boucl (ou chaque arte de son graphe) est attach,
outre un paramtre comme pour les rseaux non boucls, un retard, multiple entier (ventuellement nul)
de lunit de temps choisie. Une grandeur, un instant donn, ne pouvant pas tre fonction de sa propre
valeur au mme instant, tout cycle du graphe du rseau doit contenir au moins une arte dont le retard
nest pas nul.
Dfinition
Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quation(s) aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs chacune
des connexions.
Proprit
Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 prsente un exemple de rseau de neurones boucl. Les chiffres dans les carrs indiquent le
retard attach chaque connexion, exprim en multiple de lunit de temps (ou priode dchantillonnage)
T. Ce rseau contient un cycle qui part du neurone 3 et revient celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce rseau est causal.
Lapprentissage statistique
80
Explications g(kT)
linstant kT : le neurone 3 calcule y3(kT) en fonction de y4[(k 1)T], u1(kT), u2[(k 1)T] (o k est un
entier positif et yi(kT) dsigne la sortie du neurone i linstant kT). Le neurone 4 calcule y4(kT) en
5
fonction de y3(kT) et u2(kT). Le neurone 5 calcule la sortie du rseau de neurones, g(kT), en fonction
de y3(kT), y4[(k 1)T] et u1(kT). Les quations rcurrentes qui gouvernent le rseau sont donc :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)] 0 1
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y (k), y4 (k 1), u1 (k)] 0
3 0 4
o, pour allger les notations, la priode dchantillonnage T a t omise. f3, f4, f5 sont les fonctions 1
non linaires ralises par les neurones 3, 4 et 5 respectivement.
0 1 0
Forme canonique des rseaux de neurones boucls
Dans la mesure o les rseaux de neurones boucls ralisent des quations u1(kT) u2(kT)
rcurrentes non linaires, il est utile dexaminer les liens entre ces modles
non linaires et les modles dynamiques linaires, utiliss notamment en Figure 2-5. Un rseau
automatique des systmes linaires. de neurones boucl
deux variables.
La description la plus gnrale dun systme linaire est la description dtat : Les chiffres dans les carrs
x ( k ) = Ax ( k 1) + Bu ( k 1) indiquent le retard attach
chaque connexion,
g ( k ) = Cx ( k ) + Du ( k ) multiple de lunit de temps
(ou priode dchantillon-
o x(k) est le vecteur des variables dtat linstant (discret) kT, u(k) est le nage) T. Le rseau contient
vecteur des variables de commande linstant kT, g(k) est le vecteur des un cycle qui part du
neurone 3, va au neurone 4,
prvisions du modle linstant kT, et A, B, C, D sont des matrices. Rappe- et revient au neurone 3.
lons que les variables dtat sont un ensemble de variables, en nombre
minimal, telles que lon peut calculer leurs valeurs linstant (k+1)T si lon connat leurs valeurs initiales
et si lon connat les valeurs des variables de commande tout instant compris entre 0 et kT. Le nombre
de variables dtat est appel ordre du systme.
De manire analogue, on dfinit la forme canonique dun systme non linaire temps discret par les
quations suivantes :
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1)) Prdictions du modle Variables dtat
linstant k linstant k
( )
g (k ) = f5 z 3 , z 4 ,u 1 (k ) .
Ces quations sont bien identiques celles de la forme non canonique :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)]
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y3 (k), y4 (k 1), u1 (k)]
en identiant z 3 y 3 (k ) et z 4 y 4 (k 1) .
Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans la section Techniques et
mthodologie de conception de modles dynamiques de ce chapitre, ainsi que dans les chapitres 4 et 8.
Rsum
Les dfinitions essentielles concernant les rseaux de neurones ont t prsentes dans cette section.
Reprenant la distinction gnrale entre modles statiques et modles dynamiques, on a introduit :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires ;
les rseaux de neurones boucls, dynamiques, rgis par des quations aux diffrences (ou quations
rcurrentes) non linaires.
On a vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique, compre-
nant un rseau de neurones non boucl dont les variables dtat sont ramenes ses entres avec un retard
unit.
Llment de base est donc le rseau de neurones non boucl ; ses proprits sont exposes dans la
section suivante.
Lapprentissage statistique
82
4
nombre de paramtres dun modle non linaire. Par Polynme
exemple, le nombre de paramtres dun polynme de de degr 5
nombre de variables est petit, de lordre de 1 ou 2. En revanche, ds que le nombre de variables devient
suprieur 2, il est gnralement avantageux de mettre en uvre des rseaux de neurones avec une
couche de neurones cachs non-linarit sigmode, plutt que des polynmes, ou des rseaux de RBF
ou dondelettes paramtres fixs. Si, en revanche, on considre que les centres et carts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramtres ajustables au mme titre
que les paramtres des connexions, il ny a pas, lheure actuelle, davantage mathmatiquement
dmontr utiliser un type de neurones plutt quun autre. En revanche, des arguments pratiques dcisifs
peuvent justifier une prfrence : connaissances a priori sur le type de non-linarit souhaitable, caractre
localis ou non de la fonction, rapidit de calcul, facilit dinitialisation de lapprentissage (voir la section
Initialisation des paramtres ), facilit de ralisation en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le modle g(x) est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les paramtres
w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 2-9, g(x, w)
dont lquation est :
g(x) = 0,5 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) 2 th(3 0,25 x).
Ce modle est aussi une combinaison linaire de fonctions (y = 1,
w2
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 0,25 x)), mais la 0,5 -2 3 -2
forme de ces fonctions dpend des valeurs des paramtres de la
matrice W1. f 1
0,15
g Paramtres
0 -1,02 0,1
1 2,73
5 6 2 1,02 0,05
3 2,73
4 7,23 0 Figure 2-10. Interpolation
4
5 4,58 dune parabole
1 3 0 2 6 -4,57 -0,005 par un rseau 2 neurones
cachs : (a) rseau ;
x 1 -0,1 (b) points dapprentissage
-0.15 -0,1 -0,05 0 0,05 0,1 0,15 (croix) et modle aprs
(a)
(a (b)
(b
18
apprentissage ;
6
(c) fonctions ralises
4 par les deux neurones cachs
14
(sigmodes) aprs
2
apprentissage ; (d) points
10
0 de test (croix) et modle
aprs apprentissage :
-2 6 lapproximation se dgrade
-4 en dehors de la zone
2 dapprentissage.
-6
-8 -2
-1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1
(c) (d)
Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justication de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.
Le plus souvent, le problme qui se pose est celui qui a t tudi en dtail dans le chapitre 1 : on dispose
dun ensemble de variables mesures {xk, k = 1 N} et dun ensemble de mesures {yp(xk), k = 1 N}
dune grandeur relative un processus de nature quelconque (physique, chimique, biologique, finan-
cier...). On suppose quil existe une relation entre le vecteur des variables x et la grandeur modliser, et
lon cherche dterminer une forme mathmatique de cette relation, valable dans le domaine o les
mesures ont t effectues, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entaches de bruit. De plus, toutes les variables qui dterminent la grandeur modliser ne
sont pas forcment mesures. En dautres termes, on cherche tablir un modle du processus, partir des
mesures disponibles, et delles seules : on dit que lon effectue une modlisation bote noire . On
tudiera plus loin la modlisation bote noire du comportement dun processus (lactionneur hydrau-
lique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle douver-
ture de la vanne dadmission de liquide hydraulique) et la grandeur yp est la pression dhuile dans laction-
neur. On verra galement plus loin un exemple de prdiction de proprits chimiques ou dactivits
thrapeutiques de molcules : on cherche une relation dterministe entre une proprit des molcules (par
exemple leurs points dbullition, leur action anti-HIV, leur toxicit) et des descripteurs de ces mol-
cules (masse molaire, nombre datomes, volume , moment dipolaire, etc.) ; on peut ainsi prdire les
proprits ou activits thrapeutiques de molcules dont la synthse na pas t effectue. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de bote noire qui vient dtre introduit soppose au terme de modle de connaissance ou
modle de comportement interne , qui dsigne un modle mathmatique tabli partir dune analyse
physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon tudie ; ce modle
peut contenir un nombre limit de paramtres ajustables, qui possdent une signification physique. On
verra, dans la section Modlisation dynamique bote grise , que les rseaux de neurones peuvent tre
utiliss pour llaboration de modles semi-physiques , intermdiaires entre les modles botes
noires et les modles de connaissance.
Modlisation statique
Rappelons que lapprentissage statistique dun modle consiste estimer les valeurs des paramtres du
modle pour lesquelles lerreur de prdiction empirique est minimale. Le plus souvent, pour la modlisa-
tion par rseau de neurones, la fonction de perte utilise est le carr de lerreur de modlisation, de sorte
que la fonction de cot minimiser est la fonction de cot des moindres carrs
N
(
J ( w ) = ykp g ( x k , w ) )
2
k =1
p
o y est la valeur prise par la grandeur modliser pour lexemple k, et g(xk, w) est la prdiction du
k
modle pour lexemple k. Rappelons galement que lon a dmontr, au chapitre 1, que le meilleur
modle possible est la fonction de rgression du processus, laquelle est inconnue. La dmarche de mod-
lisation consiste donc postuler un modle de complexit donne (un rseau de neurones trois neurones
cachs, par exemple), en effectuer lapprentissage par des mthodes qui seront dcrites dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl , et estimer la capa-
cit de gnralisation de ce modle, afin de la comparer celles dautres modles, de complexits diff-
rentes. Cette estimation permet finalement de choisir le meilleur modle compte tenu des donnes dispo-
nibles.
Cette procdure pose deux questions, centrales dans la pratique des rseaux de neurones :
comment, en pratique, dans une famille de rseaux de neurones de complexit donne, trouver celui
pour lequel la fonction de cot des moindres carrs est minimale ?
Lapprentissage statistique
86
une fois que celui-ci a t trouv, comment juger si ses capacits de gnralisation sont satisfaisantes ?
Ces questions pratiques seront abordes en dtail dans la section Techniques et mthodologie de
conception de modles statiques .
Classification (discrimination)
Comme indiqu dans le chapitre 1, classer un ensemble dobjets, cest attribuer chacun une classe (ou
catgorie ) parmi plusieurs classes dfinies lavance. Cette tche est appele classification ou
discrimination . Un algorithme qui ralise automatiquement une classification est appel classifieur.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gn-
rale, on dsignera sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de
ses pixels (contraction de picture elements ou lments dimage), un signal temporel par ses valeurs
successives au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son
bilan, un texte par lensemble des mots importants quil contient, etc. Schmatiquement, la question
laquelle un classifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a,
un b, un c, etc. ? Le signal observ est-il normal ou anormal ? Lentreprise examine constitue-t-elle un
excellent, trs bon, bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? La dpche
dagence reue est-elle relative une prise de participation entre entreprises ? Y aura-t-il demain une
alerte la pollution par lozone ? Les statisticiens appellent aussi classification la tche qui consiste
regrouper des donnes qui se ressemblent dans des classes qui ne sont pas dfinies lavance ; les rseaux
de neurones apprentissage non supervis, mentionns dans le chapitre 1 et dcrits en dtail dans le
chapitre 7, peuvent raliser ce genre de tches ; il y a donc une certaine confusion dans les termes. On
sefforcera toujours de prciser ce dont il sagit, lorsque le contexte ne rend pas la distinction vidente.
Dans tout ce paragraphe, on considre le cas o les classes sont connues lavance.
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. En effet, il faut bien distinguer laide la dcision et la dci-
sion elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Nanmoins, on a vu, dans le chapitre 1, que lon peut galement, par apprentissage,
obtenir une information beaucoup plus riche et fine quune simple dcision binaire : on peut estimer la
probabilit dappartenance de lobjet inconnu chacune des classes. Ceci permet notamment de conce-
voir des systmes de reconnaissance complexes qui utilisent plusieurs systmes de classification diff-
rents, chacun deux fournissant une estimation de la probabilit dappartenance de lobjet inconnu
chacune des classes. La dcision finale est prise au vu de ces estimations et en fonction, par exemple, des
domaines dexcellence de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de perti-
nence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Comme on le verra plus loin, les modles obtenus par apprentissage, notamment les rseaux de
neurones non boucls, sont bien adapts ce type de tche, dont limportance est de plus en plus vidente.
Les rseaux de neurones
87
CHAPITRE 2
Modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connais-
sance dun procd, mais que celui-ci ne soit pas satisfaisant ; cela peut sexpliquer par plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix. Par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionne-
ment normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire. Toutefois il serait nanmoins maladroit dabandonner compltement
toutes les connaissances accumules lors de la conception du modle, pour construire un autre modle
fond uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points
de vue, en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve
quelles soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir
son architecture. La mthodologie de conception dun tel modle sera prsente dans la section
Modlisation dynamique bote grise , et un exemple dapplication industrielle sera dcrit dans la
section Modlisation semi-physique dun procd manufacturier .
La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une commande. Sil sagit dune
rgulation, il faut imposer au systme de rester dans un tat dtermin quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un systme de rgulation de vitesse dune voiture
(cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une vitesse
constante gale la vitesse de consigne, indpendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des rac-
tions exothermiques ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gn-
ralement disposer dun modle qui, si les non-linarits sont importantes, peut tre un rseau de neurones.
Le chapitre 5 est entirement consacr la commande de processus non linaires.
Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessi-
tant de trouver, par apprentissage, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition est ncessaire mais non suffisante : puisque les rseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer dun ensemble de donnes de taille suffisamment
grande, et bien reprsentatif.
Une fois ces donnes recueillies, il faut sassurer de lintrt rel dun modle non linaire pour lappli-
cation considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours plus simple,
et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent, en labsence
de toute connaissance a priori sur lintrt dun modle non linaire, il faut dabord utiliser les
mthodes simples et prouves dlaboration dun modle linaire, qui ont t exposes dans le chapitre
1. Sil apparat que la prcision du modle est insuffisante bien que toutes les variables pertinentes
soient prsentes dans le modle, alors on doit envisager la mise en uvre de modles non linaires tels
que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinter-
roger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions non
linaire, les polynmes par exemple. Comme indiqu plus haut, les rseaux de neurones, notamment
fonction dactivation sigmode, sont dautant plus avantageux que le nombre de variables est grand ;
dans la majorit des cas, grand signifie, en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lesti-
mation des paramtres dune fonction non linaire possdant au moins trois variables. Si le nombre
de variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcis et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques, par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des prtraitements permettant de
quantifier ces donnes (par exemple, laide de techniques issues de la thorie des ensembles flous).
dexpriences prsente quelques lments qui permettent de construire itrativement un plan dexp-
riences pour un modle neuronal.
k =1
o xk dsigne le vecteur des valeurs des variables pour lexemple k, et ykp la valeur de la mesure correspon-
dante.
Si lon met en uvre des modles linaires en leurs paramtres (des fonctions radiales gaussiennes dont
les centres et carts-types sont fixs, par exemple), les mthodes dcrites dans le chapitre 1, section
Conception de modles linaires , sont directement applicables. La qualit du rsultat dpend essen-
tiellement du choix des centres et les carts-types des fonctions non linaires mises en uvre ; ce choix
doit tre effectu par des techniques de slection de modle analogues celles qui sont dcrites dans la
section Slection de modles du chapitre 1.
Si, en revanche, on met en uvre des modles non linaires en leurs paramtres, tels que des Percep-
trons multicouche ou des rseaux de RBF centres et carts-types variables, on doit rsoudre un
problme doptimisation non linaire multivariable. Les mthodes utilises cet effet seront exposes
en dtail dans la section Estimation des paramtres (apprentissage) dun rseau de neurones non
boucl . Il sagit de techniques itratives qui, partir dun rseau muni de paramtres dont les valeurs
sont alatoires, modifient ceux-ci jusqu ce quun minimum de la fonction de cot empirique soit
atteint, ou quun critre darrt soit satisfait.
Dans ce dernier cas, les techniques doptimisation sont des mthodes de gradient : elles sont fondes sur
le calcul, chaque itration, du gradient de la fonction de cot par rapport aux paramtres du modle,
gradient qui est ensuite utilis pour calculer une modification des paramtres. Le calcul du gradient peut
tre effectu de diverses manires : il en est une, appele rtropropagation (voir la section valuation
Lapprentissage statistique
92
du gradient de la fonction de cot ), qui est gnralement plus conome que les autres en termes de
nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot des moindres carrs, mthodes qui auraient pu tre mises
en uvre pour effectuer lapprentissage de rseaux [MARCOS 1992].
Ces algorithmes dapprentissage ont fait dnormes progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 2-12 montre le drou-
lement de lapprentissage dun modle une variable.
2 2
1,5 5 itrations 1,5 10 itrations
1
0,5 0,5
0
-0,5 -0,5
-1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
2 2
1,5 30 itrations 1,5 50 itrations
1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figure 2-12. Apprentissage dun rseau de neurones une variable et 3 neurones cachs. Le trait continu reprsente
la prdiction du modle aprs 5, 10, 30 et 50 itrations de lalgorithme dapprentissage (reproduit avec lautorisation de
Netral S.A.).
Les rseaux de neurones
93
CHAPITRE 2
Les croix reprsentent les mesures de lensemble dapprentissage. Initialement, on donne aux paramtres
du rseau des valeurs petites (voir la section Initialisation des paramtres ). Le rsultat obtenu au
bout de 50 itrations est satisfaisant visuellement ; quantitativement, lEQMA et lEQMT (cette
dernire tant calcule sur un ensemble de points non reprsents sur la figure) sont du mme ordre de
grandeur, et de lordre de lcart-type du bruit, de sorte que le modle est satisfaisant.
Conclusion
Dans ce paragraphe, on a expliqu quand et comment utiliser les rseaux de neurones pour la modlisa-
tion. Rappelons que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon
cherche tablir une relation non linaire entre des donnes numriques. Les rseaux de neurones entrent
dans le cadre gnral des mthodes statistiques dapprentissage dcrites dans le chapitre 1. Une vue gn-
rale de la mise en uvre de ces mthodes a t prsente, en insistant sur les conditions qui doivent tre
remplies pour quun rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage,
de slection de variables et de slection de modle proprement dites, dont lefficacit conditionne en
grande partie les performances des rseaux, seront abordes en dtail dans la section Techniques et
mthodologie de conception de modles statiques .
dutilisation des classifieurs statistiques, considrons quelques exemples plus ou moins acadmiques, qui
illustrent plusieurs aspects de cette tche. Pour chacun des exemples, on se posera trois questions :
les connaissances a priori sur le problme permettent-elles de dterminer simplement des descripteurs
pertinents ?
ces descripteurs sont-ils mesurables (ou calculables partir de mesures) ?
quel est le rle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu loccasion dutiliser un distributeur de tickets de mtro, ou un automate de page, qui recon-
nat les pices de monnaie utilises en paiement, et rejette les pices fausses ou trangres. Considrons
ce problme sous langle des trois questions ci-dessus :
il est facile de dterminer des descripteurs pertinents : le diamtre de la pice, son poids, son paisseur,
la composition de lalliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pices de monnaie
sont conues de manire en faciliter la discrimination) ;
les descripteurs sont des grandeurs physiques mesurables ;
la classe de rejet peut tre aussi grande que lon veut : elle nest limite que par la patience des usagers
qui naiment pas voir leurs pices rejetes sans raison ; ainsi, dans lespace des descripteurs, les classes
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la varia-
bilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification nest pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients poten-
tiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans lune des trois classes bon , moyen , insuffisant )
est alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents ;
les descripteurs ne sont pas ncessairement mesurables ;
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de clas-
sification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait lobjet
de nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exem-
ples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire identifient gnralement de la mme manire une image de chiffre donne
(sauf si le chiffre est vraiment mal crit) ;
Les rseaux de neurones
95
CHAPITRE 2
les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de
bas niveau , cest lintensit des pixels ; dans le cas dune description de haut niveau , cest le
nombre de boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pour-
centage de rejet doit tre aussi faible que possible. En effet, tout objet postal rejet ncessite linterven-
tion dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine pour lire le code postal. Le cahier des charges est donc exprim de
la manire suivante : pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffi-
rait quil ne prenne jamais de dcision. Compte tenu des donnes conomiques du problme, un bon
classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant pas
plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnos-
tics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic de type faux positif ).
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes convenable. Le problme central est celui
du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des problmes de clas-
sification non acadmiques : la rflexion du concepteur, et la mise en uvre de techniques de prtraite-
ment des donnes adaptes au problme (des exemples sont dcrits dans le chapitre 3), sont bien souvent
plus importantes que lalgorithme de classification lui-mme.
pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c
p X j Cj
j =1
o Pr ( Ci x ) dsigne la probabilit a posteriori de la classe Ci sachant que lon observe lobjet dcrit par
le vecteur x, pX ( x Ci ) dsigne la vraisemblance du vecteur de descripteurs x sachant que lobjet dcrit par
x appartient la classe Ci, et o PrC dsigne la probabilit a priori de la classe Ci. Le classifieur de Bayes
i
consiste en lestimation de la probabilit a posteriori dun objet dcrit par x laide de la formule de
Bayes, suivie dune prise de dcision selon la rgle de dcision de Bayes : attribuer lobjet la classe dont
la probabilit a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le mme cot. Son utilisation ncessite nanmoins de connatre aussi prcisment que possible les proba-
bilits a priori et les vraisemblances ; ces dernires sont particulirement difficiles estimer lorsque le
vecteur x est de grande dimension, ce qui est frquent dans des applications relles. Le classifieur de
Bayes prsente donc un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence lorsque
lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif pour
lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses perfor-
Lapprentissage statistique
96
mances celles du classifieur de Bayes sur ce mme problme. Introduisons ici le problme fictif laide
duquel on testera quelques classifieurs.
Il sagit dun problme deux classes et
une variable ; les lments de la classe A sont des Classe A Classe B
ralisations de nombres alatoires obissant une
loi qui est la somme de deux gaussiennes ; ceux de -15 -10 -5 0 +5 +10
la classe B sont des ralisations de nombres ala- Figure 2-13. Densits de probabilit pour les classes A
toires obissant une loi uniforme dans un inter- et B
valle born (figure 2-13).
On peut donc calculer analytiquement les probabi-
1
lits a posteriori (figure 2-14), et dterminer les
limites de chaque classe (figure 2-15). Pour estimer 0,5
le taux derreur, on ralise un grand nombre
dexemples de chaque classe et lon compte la 0
proportion de ces ralisations qui se trouve du -15 -10 -5 0 +5
mauvais ct des limites dtermines par le Figure 2-14. Probabilit a posteriori de la classe A,
classifieur de Bayes ; dans ce problme, on dispose calcule par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16)
partir desquels, par simple dnombrement, on estime le taux derreur 30,1 %. Ainsi, on peut affirmer
que, pour ce problme, aucun classifieur, aussi bien conu soit-il, ne peut raliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur rel est celui qui sapproche le plus
de cette limite thorique.
A B A B A 600 exemples
-15 -10 -5 0 +5
0 Rpartition des 1200 exemples
Figure 2-15. Classification ralise par le classifieur
de Bayes
600 exemples
-15 -10 -5 0 5 10
Classification et rgression
Le lien entre classification et estimation de la fonction de rgression stablit de manire trs simple dans
le cas dun problme deux classes. On montrera ensuite comment on peut traiter les problmes plus de
deux classes.
Proprit
Dmonstration
La fonction de rgression de (x) est lesprance mathmatique de tant donn x, note E x . Or,
E x = Pr ( = 1 x ) 1+ Pr ( = 0 x ) 0 = Pr ( = 1 x )
Le problme de lestimation de la probabilit a posteriori des classes ramne donc au problme de lesti-
mation de la fonction de rgression dune variable alatoire, ce qui peut tre ralis avec nimporte quelle
famille de fonctions bornes (les probabilits doivent tre comprises entre 0 et 1), notamment avec des
rseaux de neurones dont le neurone de sortie a une fonction dactivation sigmode, par exemple une
tangente hyperbolique. Cette dernire tant comprise entre 1 et +1, lestimation de la probabilit est
obtenue par 1 + g ( x, w ) 2 , o g(x, w) est la prdiction du modle. On peut aussi utiliser une fonction
sigmode du type 1 : variant entre 0 et 1, elle peut directement approcher une probabilit. La
1 + exp ( v )
figure 2-17 illustre cette approche : on effectue lapprentissage partir dun ensemble de couples
(xk, ykp), o xk est la valeur du descripteur x pour lexemple k, et ykp = +1 ou 1 selon que lexemple k
appartient la classe C1 ou la classe C2 (la figure prsente les rsultats aprs transformation ramenant
lestimation entre 0 et +1). Aprs estimation de la probabilit a posteriori, la frontire est dfinie comme
le lieu des points pour lesquels les probabilits a posteriori sont gales 0,5 (rgle de dcision de Bayes).
Estimation de la probabilit
Classe C1
a posteriori de la classe C1
0 Classe C2 sachant que lon observe le descripteur x1
1
Figure 2-17. Estimation
Frontire entre de la probabilit a posteriori
Pr (C1 | x)
00 0 0 0000000000000000
x1 x
La complexit de la frontire entre les classes dpend de la complexit du modle choisi. Le modle le plus
simple est le modle sans neurone cach, avec un neurone de sortie fonction sigmode. Il dfinit une surface
de sparation qui est une droite pour un problme deux variables, un plan pour un problme trois variables,
et une surface appele hyperplan dans les autres cas. Considrons en effet un classifieur un neurone :
g ( x, w ) = th ( v ) avec v = w x .
Aprs apprentissage, et aprs la transformation mentionne ci-dessus pour que la prdiction du modle
puisse constituer une estimation dune probabilit, cette dernire devient :
Lapprentissage statistique
98
1 + th ( w x )
.
2
La frontire est le lieu des points o les
probabilits a posteriori sont gales 1
0,5, donc le lieu des points pour
g(x1,x2,w0,w1,w2)
lesquels th(wx) = 0, soit encore : 0,8 Frontire entre les classes:
w x = 0, 0,6 ( ) ( )
Pr C1 x = Pr C2 x = 0,5
2 1
1 0,8
Frontire entre les classes:
0
( ) ( )
g(x, w)
0,6 Pr C1 x = Pr C2 x = 0,5
-1
x2
0,4
-2
0,2
-3
0
-4
4 5
2
-5 0
-2 0
-6 x2 -4 x1
-5 0 5 -6 -5
x1
Figure 2-19. Classification non linaire par un rseau de neurones deux neurones cachs et un neurone de sortie
activation sigmode
Les rseaux de neurones
99
CHAPITRE 2
Lexcellent ouvrage [BISHOP 1995] est entirement consacr la mise en uvre de rseaux de neurones
pour la classification. Le chapitre 6 du prsent ouvrage prsente en dtail les rseaux de neurones
(binaires ou non) ainsi que les machines vecteurs supports pour la classification.
Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance aux diffrentes classes ;
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Ces deux approches vont tre examines successivement.
Approche globale
Cette approche est frquemment mise en uvre, bien
C neurones quelle ne soit pas toujours la plus efficace pour des
..... fonction dactivation problmes difficiles. Elle consiste utiliser un rseau
sigmode
de neurones C sorties (figure 2-20), le rsultat tant
.... cod laide dun code 1-parmi-C : lvnement
lobjet appartient la classe Ci est associ un
vecteur g dont seule la composante i est gale 1, les
x1 x2 x3 .... xn Descripteurs autres composantes tant gales 0. De manire
analogue au cas de deux classes, on dmontre facile-
Figure 2-20. Classification non linaire C classes : ment que lesprance mathmatique de chacune des
Perceptron multicouche C neurones de sortie
fonction dactivation sigmode composantes est gale la probabilit a posteriori de la
classe correspondante.
Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : lune des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.
Il convient de noter plusieurs diffrences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modlisation statique :
contrairement au cas de la modlisation, les neurones de sortie dun rseau pour la classification ont une
fonction dactivation sigmode, pour assurer que lestimation de la probabilit soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification thorique lutilisation de la tangente hyperbolique
comme fonction dactivation des neurones de sortie pour la classification ;
pour la classification, il est parfois plus efficace, pour estimer les probabilits, de minimiser la fonction
de cot dentropie croise plutt que la fonction de cot des moindres carrs [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes dapprentissage qui seront prsents dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl sappliquent sans
difficult pour cette fonction de cot :
C
g ( x , w) 1 gi ( xk , w )
J = ik ln i kk (
+ 1 i ln
k
)
i 1 i
k
k i =1
o ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque lon prsente lentre
lexemple k, dcrit par le vecteur de descripteurs xk, et o gi(xk,w) est la valeur de la sortie i du classifieur
Lapprentissage statistique
100
pour cet exemple. On vrifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classs.
Bien entendu, il convient de vrifier que la somme des sorties vaut 1 la fin de lapprentissage. La
mthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficult ne se prsente videmment pas si lon utilise un ensemble de classifieurs deux deux .
Comme indiqu dans le Classification : Thorique Estime avec 4 neurones cachs
chapitre 1, le dilemme 1
biais-variance existe pour
la classification comme
pour la rgression. Des 0,5
exemples de surajustement
en classification ont t
prsents dans le chapitre 0
1, figure 1-6. Il faut donc -15 -10 -5 0 5 10
mettre en uvre, pour (a)
slectionner le meilleur
modle, les techniques de
slection de modles intro- Classification : Thorique Estime avec 5 neurones cachs
duites dans le chapitre 1. 1
Essentiellement, il faut
trouver un rseau dont les
taux derreurs de classifi- 0,5
cation sur lensemble
dapprentissage et sur un
ensemble de validation 0
soient du mme ordre de -15 -10 -5 0 5 10
grandeur, et les plus petits (b)
possibles.
La figure 2-21 montre un
Classification : Thorique Estime avec 6 neurones cachs
exemple de surajustement 1
dans lestimation de la
probabilit dappartenance
la classe A pour lexem- 0,5
ple prsent sur la figure
2-16 ; on voit que le rseau
4 neurones cachs est trop 0
peu complexe pour estimer -15 -10 -5 0 5 10
correctement la probabi- (c)
lit, alors quun rseau Figure 2-21. Estimation des probabilits dappartenance la classe A avec trois
6 neurones cachs sajuste classifieurs de complexits diffrentes : (a) 4 neurones cachs (complexit insuffisante),
sur les fluctuations de la (b) 5 neurones cachs (performance trs proche de la meilleure performance thorique),
(c) 6 neurones cachs (surajustement manifeste)
densit des points utiliss
pour lapprentissage. Le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur thorique de Bayes donne une erreur minimale de 30,1 %. On vrifie
bien ici que les rseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur thorique de Bayes.
Les rseaux de neurones
101
CHAPITRE 2
Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de traiter une classification C classes
comme C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes. Ces lments sont largement dvelopps dans le chapitre 6 ; ils seront introduits trs bri-
vement dans le paragraphe suivant, intitul Sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considrable ; les techniques de slection des variables exposes dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE 1994] :
Pr ( Ci x ) =
1
C
1
Pr (C 2 )
j =1 ij
j i
o C est le nombre de classes et Prij la probabilit dappartenance de lobjet la classe i, estime par le
rseau de neurones qui spare la classe Ci de la classe Cj.
Sparabilit linaire
Deux ensembles dobjets dcrits dans un espace de N descripteurs, appartenant deux classes diffrentes,
sont dits linairement sparables sils peuvent tre spars sans erreurs par un hyperplan dans lespace
des variables.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
Perceptron ), fonction dactivation en chelon, peut les sparer. Ce classifieur est de la forme :
+1 si x w 0
g ( x, w ) =
1 si x w < 0
On peut donc considrer un Perceptron comme la limite dun rseau un seul neurone, lorsque la pente
lorigine de la tangente hyperbolique tend vers linfini. La frontire est lhyperplan dquation xw = 0.
Lorsque lon dcoupe le problme en sous-problmes de sparation de classes deux deux, il apparat que
la sparation linaire entre deux classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multiclasses rputs difficiles , les exemples soient, en fait, linaire-
ment sparables si lon considre les classes deux deux. Or, dans ce dernier cas, des algorithmes simples
et lgants permettent de trouver une trs bonne solution, comme expliqu en dtail dans le chapitre 6 : la
premire tape, dans la conception dun classifieur, est donc de chercher savoir si les exemples des
classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO 1965], largement antrieur aux
rseaux de neurones, fournit rapidement une rponse cette question :
si les exemples sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers
une solution ;
Lapprentissage statistique
102
si les exemples ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre
fini ditrations.
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR 1992] ! De mme, il
existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et a
donn lieu la conception de nombreux classifieurs fort compliqus ; en quelques secondes de calcul,
lalgorithme de Ho et Kashyap montre que les exemples des deux classes sont linairement sparables. Il
est donc tout fait inutile, pour cette application, de concevoir un classifieur plus complexe quun rseau
un neurone ; cette application sera reprise dans le chapitre 6.
pour chaque paire de classes, effectuer la slection des variables selon les mthodes dcrites dans le
chapitre 1 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des exemples des classes deux deux laide
de lalgorithme de Ho et Kashyap ;
pour toutes les classes dont les exemples sont sparables deux deux, mettre en uvre les mthodes de
sparation linaire (dcrites dans le chapitre 6), et obtenir une estimation des probabilits a posteriori ;
pour les classes non linairement sparables, mettre en uvre de petits Perceptrons multicouches ou des
Perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 1 et 2) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET [KNERR 1990] [KNERR 1991], utilise
efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues. La dernire dentre elles est susceptible de remettre en cause les rsultats obtenus lors des
tapes prcdentes.
Les rseaux de neurones
103
CHAPITRE 2
Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie
comme le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que
cette dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense
majorit des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies
hirarchiques.
Rappelons que le chapitre 6 est entirement consacr la classification. Il prsente notamment les
machines vecteurs supports, qui sont des outils de classification trs puissants, notamment par le fait
quils permettent de contrler la complexit du modle.
Lide de lapprentissage partir de donnes structures remonte au dbut des annes 1990, o les
mmoires auto-associatives rcursives ont t conues afin de fournir un codage compact pour une
catgorie particulire de graphes appels arbres [POLLAK 1990]. Une synthse sur le dveloppement
de lapprentissage numrique partir de donnes structures est prsente dans [GOULON 2005].
Le principe des graph machines est simple : au lieu de construire une fonction g(x, w) qui est la mme
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou machine dans le jargon de
lapprentissage) par combinaison de fonctions lmentaires, cette combinaison ayant la structure du
graphe. Les fonctions lmentaires qui constituent les machines sont identiques, mais cest la faon de les
combiner qui change dun exemple lautre : cest elle qui reflte la structure du graphe auquel on veut
associer la grandeur que lon cherche prdire.
Ainsi, au lieu de concevoir une seule machine qui ralise la prdiction pour tous les exemples, on construit
autant de machines que dexemples ; toutes ces machines ont des structures diffrentes, qui refltent la
structure des donnes que lon veut traiter, mais elles sont constitues des mmes fonctions munies des
mmes paramtres. Les sections suivantes prsentent cette approche de manire un peu plus dtaille.
Lapprentissage statistique
104
Dfinitions
Graphes acycliques
Rappelons quun graphe est dfini par un ensemble de nuds et un ensemble dartes entre ces nuds, les
artes pouvant tre orientes. Sil nest pas possible de trouver un chemin dans le graphe, respectant
lorientation des artes, dont le point de dpart et le point darrive sont identiques, le graphe est dit
acyclique.
La figure 2-22 reprsente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaant chaque nud par une fonction paramtre f(z, w), o w est le vecteur des paramtres. La fonc-
tion du nud qui effectue le dernier calcul (nud racine ) peut tre diffrente des autres ; elle est note
F(z, W). Pour chaque graphe acyclique Gi, on construit une fonction gi ( graph machine ) qui est une
combinaison de fonctions paramtres ( fonctions de nuds ) identiques. Ces fonctions de nuds
peuvent tre, par exemple, des rseaux de neurones ; les fonctions gi sont parfois appeles rseaux
rcursifs [FRASCONI 1998].
Graphe G1: g w, W ( x 1, x 2, x 3, x 4 ) = F W ( x 4, f ( z 1, w ), f ( z 2, w ), f ( z 3, w ), W ) o :
1
x1, x2, x3, sont des vecteurs de variables, de dimension X1, qui fournissent une information sur les
nuds ; ces variables ne sont pas obligatoires, mais elles peuvent tre utiles pour fournir une informa-
tion spcifique aux nuds (un exemple en est prsent dans la section Aide la dcouverte de
mdicaments ). Si ces informations ne sont pas utiles, on a X1= 0, et, dans ce cas, la valeur de
gw1 ,W ( x1 , x2 , x3 , x4 ) ne dpend que du graphe et des paramtres des fonctions de nud ;
z1, z2, z3 sont des vecteurs de dimension D1 + 1 ; soit dk le degr du nud k, cest--dire le nombre
dartes adjacentes ce nud, et M1 = maxkdk . On a : D1 = M1 + X1 ; dans cet exemple M1 = 3, donc
D1 = 3. Ces vecteurs sont construits de la manire suivante :
pour tous les nuds, la premire composante z0 est gale 1 ;
pour le nud k, de degr dk, les composantes 2 dk + 1 de zk sont les valeurs de fw calcules
par les nuds parents du nud k, cest--dire les nuds j tels quil existe dans le graphe une
arte oriente de j vers k ; si dk < Mk, les composantes dk + 2 M1 + 1 sont gales zro ; si
X1 = 0, les composantes M1 + 2 M1 + 1 + X1 sont les composantes de xk.
7 7
9
4
10 8
6
5 4
6
1 3 5
1 2 3 3
1
Graphe G1
2 2 4
Graphe G2 Graphe G3
Figure 2-22. Trois graphes acycliques orients
Les rseaux de neurones
105
CHAPITRE 2
Dans lexemple reprsent sur la figure 2-22, sil nest pas ncessaire de fournir une information sur les
nuds (X1 = 0), on a D1 = 3.
Graphe G2 :
( ( ( ) )
gw2 ,W ( x1 , x2 , x 3 , x4 , x5 , x6 , x7 ) = FW x 7 , f ( z6 , w ) , fw x5 , f ( z 4 , w ) , fw x3 , f ( z2 , w ) , f ( z1 , w ) , w , w , W )
o les vecteurs x1 x7 et z1 z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
Sil nest pas ncessaire dtiqueter les nuds (X2 = 0), on a :
D2 = 2, z1 = z2 = z 4 = z6 = (1 0 0 ) , z 3 = 1 ( f ( z1 , w ) )
f ( z2 , w ) , z5 = 1 ( f ( z3 , w ) )
f ( z4 , w ) ,
T T T
( f ( z5 , w ) f ( z6 , w ) )
T
z7 = 1
Graphe G3 :
( ( ( ( ( ) ( ) ) ) )
gw3 ,W ( x1 ,..., x10 ) = FW x10 , fw x9 , fw x8 , f ( z 7 , w ), f x6 , f x5 , fw ( z 4 , w ), w , f x3 , f ( z2 , w ), f ( z1 , w ), w , w , w , w , W )
o les vecteurs x1 x10 et z1 z9 sont construits comme indiqu plus haut, avec M3= 2.
Si ces trois graphes sont utiliss comme ensemble dapprentissage, les trois graph machines doivent
possder les mmes fonctions de nuds, de sorte que le nombre de variables de la fonction de nud soit
D = max Di , i = 1 3.
i
Graphes cycliques
Les graph machines peuvent manipuler les cycles et les artes parallles, ce qui est important notamment
pour leurs applications en aide la dcouverte de mdicaments. Le graphe initial subit un prtraitement
qui consiste supprimer des artes, en nombre gal au nombre de cycles, et dtruire toutes les artes
parallles sauf une ; de plus, on affecte chaque nud une tiquette qui est gale son degr dans le
graphe initial, ce qui permet de conserver linformation complte sur la structure du graphe original.
Enfin, on choisit un nud racine et lon affecte les orientations convenables aux artes.
Apprentissage
Lapprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
prsent dans le chapitre 1. Il ncessite la dfinition dune fonction de perte et la minimisation dune fonc-
tion de cot par rapport aux paramtres de la fonction de nud. La fonction de cot peut, si ncessaire,
contenir un ou des termes de rgularisation (voir la section Apprentissage avec rgularisation ). Typi-
quement, la fonction de cot est de la forme :
N
(
J ( w, W ) = yip gwi ,W )
2
+ 1 w + 2 W
i =1
o N est le nombre dexemples de lensemble dapprentissage, yip est la valeur de la grandeur modliser
pour lexemple i, 1 et 2 sont des constantes de rgularisation convenablement choisies. Rappelons que
les paramtres w et W sont les mmes pour toutes les machines i, de sorte quil faut utiliser la technique
des poids partags qui sera dcrite dans la section valuation du gradient sous contrainte dgalit
des paramtres .
Lapprentissage statistique
106
Les algorithmes doptimisation, dcrits dans la section Modification des paramtres en fonction du
gradient de la fonction de cot sont directement applicables.
fw ( x ) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les artes tant quivalentes, on a w1 = w2 = w3 = w. Il ny a donc que deux paramtres indpen-
dants, w et w0.
Ce problme admet une solution vidente : w = w0 = 1. Ainsi, pour le graphe G1, on a :
( )
gw1 ,W ( x1 , x2 , x3 , x4 ) = f 1, f ( z1 , w ) , f ( z2 , w ) , f ( z 3 , w ) ,w = w0 + 3w1w0 = 4
gw4 ( x1 , x2 , x3 , x4 , x5 ) = f ( z5 , w )
avec :
x1 = 2, x2 = 2, x3 = 3, x4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2 ) ,
T
( f ( z1 , w ) )
f ( z2 , w ) 0 3 , z 4 = (1 0 0 0 1) , z5 = 1 ( f ( z3 , w ) f ( z4 , w ) 0 2 .)
T T T
z3 = 1
Postulons nouveau une fonction de nud affine f ( z, w ) = w0 + w1 z1 + w2 z2 + w3 z3 + w4 z4 . On a une
solution vidente : w0 = 0, w1 = w2 = w3 =1, w4 = 0,5. On obtient alors, pour le graphe G4 par exemple :
Les rseaux de neurones
107
CHAPITRE 2
gw4 ( x1 , x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w 2 = 5
obtenus pour lapprentissage de lindice de Wiener Figure 2-24. Prdiction de lindice de Wiener
dun graphe, cest--dire lapprentissage de la somme par une graph machine
des distances entre ses nuds. La base de donnes
utilise contient 150 graphes engendrs alatoirement, dont les indices de Wiener varient entre 1 et 426.
Les rsultats prsents ont t obtenus avec des fonctions de nuds qui sont des rseaux de neurones
4 neurones cachs ; la slection de modle a t effectue par validation croise. Dautres problmes
acadmiques sont dcrits dans [GOULON 2007].
Des exemples dapplication des graph machines la prdiction de proprits et dactivits de molcules
sont prsents dans la section Aide la dcouverte de mdicaments .
Exemples dapplications
Introduction
Le dbut de ce chapitre a t consacr lexpos du contexte mathmatique qui est essentiel pour
comprendre ce que sont rellement les rseaux de neurones et les principes sur lesquels repose leur mise
en uvre. Certains aspects peuvent paratre un peu techniques , mais il est important davoir bien
compris ces bases. En effet, la simplicit mme de mise en uvre des rseaux de neurones constitue un
danger, car elle peut conduire une application irrflchie qui donne des performances mdiocres ou
mauvaises.
Les rponses aux questions que se pose tout ingnieur ou chercheur qui envisage dutiliser des rseaux de
neurones peuvent galement tre claires par lexpos de quelques applications typiques. Bien entendu,
il nest pas question ici de faire un expos exhaustif des applications des rseaux de neurones : plusieurs
livres ny suffiraient pas. Il sagit plutt de montrer quelques applications ayant un caractre exemplaire,
en insistant sur les raisons pour lesquelles les rseaux de neurones ont un apport important, voire dcisif.
Reconnaissance de formes :
la lecture automatique de codes postaux
Cest sans doute dans le domaine de la reconnaissance de caractres que les rseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouv quils constituent des alternatives fiables dautres
mthodes de classification. On citera ici quelques exemples et rsultats, qui sappuient sur les considra-
tions pratiques dveloppes dans le paragraphe consacr aux rseaux de neurones pour la classification.
Lapprentissage statistique
108
Connectivit complte
30 neurones cachs
Connectivit partielle
(poids partags)
12 x 64
neurones cachs
Connectivit partielle
(poids partags)
256 variables
Lentre du rseau est une matrice de 16 16 pixels. Une premire couche de neurones cachs est
compose de 12 ensembles de 64 neurones cachs, chacun des 64 neurones cachs recevant des informa-
tions concernant un champ rceptif de 5 5 pixels. Ces ensembles de 64 neurones sont appels
cartes de caractristiques , car les variables de tous les neurones dune carte donne sont affectes des
mmes paramtres (technique des poids partags , dcrite dans la section valuation du gradient
sous contrainte dgalit des paramtres ). Ainsi, on fait agir le mme oprateur, localement, sur chaque
ensemble de 25 pixels, de sorte que lensemble des sorties dun groupe de 64 neurones constitue une carte
du rsultat de lapplication de loprateur limage. Si la technique des oprateurs locaux est classique en
traitement dimages, loriginalit de la prsente mthode rside dans le fait que ces derniers ne sont pas
conus par lingnieur : ils sont dtermins par apprentissage partir dexemples. Lopration est renou-
Lapprentissage statistique
110
vele dans une deuxime couche doprateurs qui traitent les rsultats de la premire couche. On obtient
ainsi 12 cartes de 16 neurones cachs, soit 192 neurones dont les sorties constituent le vecteur de descrip-
teurs utilis pour la classification. Celle-ci est effectue avec un rseau une couche de 30 neurones
cachs et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a t dfini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
tre gale 1 si la forme classer appartient la classe i, et doit tre sinon gale 0.
Ainsi, un tel rseau ralise automatiquement le prtraitement et la classification, oprations qui sont tradi-
tionnellement conues sparment. Le prix payer est videmment une certaine lourdeur dapprentissage
et, compte tenu du grand nombre de paramtres, la ncessit de faire preuve dune grande vigilance rela-
tivement au surajustement.
Pour traiter le mme problme, une approche trs diffrente [KNERR 1992] consiste raliser un prtrai-
tement plus labor de limage, afin dextraire des caractristiques discriminantes qui permettent
dutiliser un classifieur relativement simple. Le prtraitement est la dtection de contours suivie dune
normalisation, qui produit 4 cartes de caractristiques de 64 lments, soit un vecteur de 256 compo-
santes. Mettant en uvre la mthodologie de conception dun classifieur dcrite plus haut, les dix classes
ont t spares deux deux : 45 classifieurs diffrents ont t labors, dont lapprentissage a t effectu
sparment et qui sont trs simples puisque, dans lapplication considre, il se trouve que tous les exem-
ples de lensemble dapprentissage sont linairement sparables deux deux. Chacun des 45 classifieurs
est donc constitu dun seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractres de la base de
donnes USPS. Pour chaque chiffre manuscrit, lindication en haut droite est la classe dappartenance
du chiffre indique dans la base, et le chiffre en bas droite est la classe affecte par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas droite de la figure) qui est reconnu comme un
chiffre 1 alors quil est class dans la base comme un chiffre 8, ce qui est videmment une erreur dtique-
tage.
Le tableau 2-1 met en vidence lamlioration de performances qui rsulte de la mise en uvre dune
meilleure reprsentation : aprs ajustement des seuils de dcision afin dobtenir, dans les deux cas, un taux
derreur de 1 %, le taux de rejet pour la reprsentation par pixels est beaucoup plus lev que pour la
reprsentation par caractristiques. Il faut noter que les deux reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par un vecteur de 256 composantes) : lamlioration ne
provient pas de la compacit de la reprsentation, mais de sa bonne adquation au problme pos. Cest
la rflexion de lingnieur qui fait la diffrence.
1,2
1,0
0,8
0,6
0,4
0,2
0
1 5 9 13 17 21 25 29 33 37 41
Couple de classes
Pixels Caractristiques
Figure 2-28. Distances entre classes pour deux reprsentations : la reprsentation par cartes de caractristiques loigne
les classes les unes des autres, et donc facilite le travail ultrieur des classifieurs
Taux de chiffres bien classs Taux de rejet Taux dexemples mal classs
Reprsentation par pixels 70,9 % 28,1 % 1%
Reprsentation par caractristiques 90,3 % 8,7 % 1%
Tableau 2-1
seur qui dpend de la frquence du champ magntique. Ces courants sont dtects par un second
bobinage ; la prsence de dfauts dans le mtal modifie le signal recueilli, la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des dfauts. Comme il existe toujours plusieurs cat-
gories de dfauts, qui peuvent tre plus ou moins graves, il est important de pouvoir non seulement
dtecter ces dfauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dfauts et
des phnomnes normaux qui peuvent galement avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue celle engendre par une fissure,
alors quil sagit dun vnement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans lapplication considre, le systme de cration et de dtection des courants de Foucault est mont
sous la voiture, quelques dizaines de millimtres du rail, comme reprsent sur la figure 2-29.
Comme toujours, le choix des descripteurs du signal conditionne en grande partie lefficacit de la discri-
mination. Comme il sagit ici dimages mono-dimensionnelles (par opposition aux images
bidimensionnelles traites prcdemment), on peut utiliser un relativement petit nombre de descrip-
teurs qui sont fonds sur les composantes de Fourier du signal, condition que ces descripteurs soient
bien choisis. La mthode de la variable sonde, expose dans le chapitre 1, a t mise en uvre pour dve-
lopper cette application [OUKHELLOU 1998].
linformation quil juge pertinente, devient une ncessit absolue. Comme la plupart de ces outils sont
destins tre utiliss dans un cadre professionnel, les exigences de fiabilit et de convivialit sont trs
importantes ; les problmes rsoudre pour satisfaire ces exigences sont nombreux et difficiles. Laccs
linformation pertinente peut tre ralise en fournissant un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des rponses des questions). Le premier cas
relve du domaine de la recherche de textes, le second du domaine de lextraction dinformations.
La catgorisation de textes, appele galement filtrage , consiste trouver, dans un ensemble de docu-
ments (comme un fil de dpches dagence de presse, ou un ensemble de pages Web), ceux relatifs un sujet
dfini par avance. On peut ainsi fournir un utilisateur, en temps rel, toutes les informations importantes
pour lexercice de son mtier. Dans ce cas, lutilisateur nexprime pas son intrt par une requte, mais par
un ensemble de documents pertinents qui dfinissent un thme ou une catgorie. Pour un thme donn, la
catgorisation consiste donc rsoudre un problme de classification supervise deux classes ; celui-ci
peut tre rsolu notamment par les mthodes dcrites dans cet ouvrage : les rseaux de neurones, les
machines vecteurs supports (chapitre 6) ou les modles de Markov cachs (chapitre 4).
Cest un problme trs difficile, qui va bien au-del de la recherche par mots-cls. En effet, supposons,
que lon cherche slectionner, dans le flot des dpches de lAFP, celles qui sont pertinentes pour le
thme prises de participations entre entreprises ; des textes qui contiennent les phrases : la socit A
a rachet la socit B ou bien A est entr dans le capital de B hauteur de 10 % , ou encore A vient
de franchir la hausse le cap des 20 % des parts sociales de B , sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui dfinissent le thme. En revanche, la phrase la participation des commu-
nistes au gouvernement inquite les chefs dentreprises nest pas pertinente, bien quelle contienne deux
des mots du thme.
Lapplication (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des dpts et consignations,
qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en temps rel. Les objectifs
sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr ;
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, constitus de
systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones fournit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les docu-
ments considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la ralisation dun systme de cration auto-
matique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes ; partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible ;
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, et donc de la slection des variables, est videmment central
dans cette application.
Lapprentissage statistique
114
3
par ordre de R(m, t) dcroissant, on supprime la seconde
moiti de la liste, et lon construit un vecteur boolen v(t) tel
2
que vi(t) = 1 si le mot i est prsent dans la liste, et 0 sinon. On
calcule enfin le vecteur v = v ( t ) , o la somme porte sur tous
1
0 t
0 1 2 3 4 5 les documents pertinents : le vocabulaire spcifique du thme
log r(m)
est lensemble des mots dont la composante dans v est non
Figure 2-30. Vrification exprimentale
de la loi de Zipf sur le corpus Reuters, nulle. La figure 2-30 montre que, sur le corpus des dpches
et reprsentation des mots du vocabulaire Reuters, la loi de Zipf est assez bien vrifie, et que les mots
spcifique au thme Falkland petroleum du vocabulaire spcifique du thme Falkland petroleum
exploration exploration sont bien au milieu de la distribution.
Slection finale
lintrieur du vocabulaire spcifique ainsi dfini, qui peut tre encore vaste (une quelques centaines
de mots), une slection finale est effectue par la mthode de la variable sonde, dcrite dans le chapitre 1.
la fin de cette tape, il apparat que, en moyenne sur 500 thmes tudis, le vocabulaire spcifique dun
thme comprend 25 mots, ce qui est tout fait raisonnable pour un vecteur de variables dun rseau de
Les rseaux de neurones
115
CHAPITRE 2
neurones. Nanmoins, cette reprsentation nest pas encore satisfaisante, mme si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.
Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on cherche des mots de contexte dans une
fentre de 5 mots de part et dautre de chaque mot du vocabulaire spcifique. On dfinit :
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents pertinents ;
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermination
du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre entreprises , on
constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots dtient et
droits se trouvent dans les mots de contexte spcifique, et les mots risque et fonds dans le
contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.
des poids a t mise en uvre dans cette application ; on en verra leffet dans la section consacre
lapprentissage avec rgularisation.
0,8
0,8
Scor e
0,6
0,385 0,6
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,4 0,335
0,099 0,081
0,253
0
) 0,158
r2 r1
) ) ) r1
)
2) 2) 00
) 0) 0,2
N po po r 9r o0
2R R
N
rf2 fr2 U
N N er no rp
(S ( S2 k9 k 9r (K ( KU (M n trp a nt 0,0078
C ( o (o n IG a . (
D D
C ft ft eg
e en /S .( U 0
IC IC so so eg IT U s
ro ro ijm ijm IR rs er ICDC Microsoft Rutgers U Rutgers U (antrpms00)
ic ic .N N t ge u tg
M M U . u R (S2RNsamp) (ok9rfr2ps) (antrpnms00)
U R
Figure 2-32. Rsultats de lpreuve de routing de TREC-9 : en noir : rsultats obtenus par la mthode dcrite ci-dessus ;
en gris : rsultats obtenus par dautres mthodes
Pourquoi les mthodes dapprentissage statistique peuvent-elles tre mises en uvre avec profit dans ce
contexte ? Si lon admet quil existe une relation dterministe entre certains descripteurs de la molcule
et la proprit que lon veut prdire, alors on est ramen un problme de dtermination de la fonction de
rgression de la proprit envisage, en fonction des descripteurs choisis.
La premire question quil convient de se poser est celle des donnes utilisables pour lapprentissage et pour
lvaluation des performances du rseau. Compte tenu de limportance des enjeux, il existe de nombreuses
bases de donnes concernant des proprits telles que le point dbullition, la solubilit dans leau ou le coeffi-
cient de partage eau-octanol, ou encore des activits telles que laction anti-VIH, la toxicit, etc.
La deuxime question se poser est celle des variables pertinentes pour le modle envisag. Ici, les
connaissances du chimiste doivent ncessairement guider le choix de ces variables. On peut envisager
plusieurs catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire ;
etc.
Pour chaque proprit que lon cherche prdire, il faut donc tablir un ensemble de descripteurs que lon
peut supposer pertinents, et utiliser une technique de slection de variables, comme celles dcrites dans le
premier chapitre, afin de dterminer les descripteurs qui sont rellement utiles pour les molcules et la
proprit considres. En raison de leur parcimonie, des rseaux de neurones de trs petite taille (5
7 neurones cachs) fournissent gnralement des rsultats de meilleure qualit que les techniques de
rgression multilinaire habituellement mises en uvre dans ce domaine [DUPRAT 1998].
Nanmoins, les proprits et activits des molcules dpendent en grande partie de la structure de celles-
ci ; cest pourquoi il est particulirement intressant dutiliser des mthodes de rgression ou de classifi-
cation de donnes structures telles que les graph machines dcrites prcdemment dans la section
Modlisation et classification de donnes structures . En effet, elles permettent de saffranchir
compltement de la dtermination, du calcul et de la slection des descripteurs, puisque la structure
chimique dtermine directement les prdictions du modle.
titre dexemple, considrons la prdiction des 9
Ensemble dapprentissage-validation
proprits anti-VIH de drivs de la ttrahydroimi-
8 Ensemble de test
dazobenzo-diazepinone (TIBO), qui agit en
bloquant lactivit de lenzyme qui permet la dupli-
Activit prdite
7
cation du rtrovirus. Lactivit est exprime quanti-
tativement par le rapport log(1/IC50), o IC50 est la 6
concentration en TIBO qui produit linhibition de
50 % de lenzyme responsable de la duplication. 5
Les rsultats sont prsents sur la figure 2-33 ; ils
4
sont de meilleure qualit que ceux obtenus par les
mthodes conventionnelles, y compris les rseaux 3
de neurones, avec le grand avantage de supprimer 3 4 5 6 7 8 9
Activit mesure
les phases de conception, calcul et slection des
descripteurs [GOULON 2006]. Figure 2-33. Prdiction dune activit anti-VIH
fonction de nud constitue dun rseau de neurones 3 neurones cachs, qui ne commet aucune erreur,
ni sur les donnes dapprentissage, ni sur les donnes de test.
De nombreux autres exemples dapplications sont dcrits dans [GOULON 2007].
6 neurones
1600
cachs
1500
1400
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(a)
1600
1500
Polynme de degr 3
1400
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(b)
1600
1500
0 neurones cachs
1400 (modle linaire)
1300
1200
1100
1000
900
800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700
(c)
Figure 2-34. Diagrammes de dispersion (temprature prdite en fonction de la temprature observe) pour la prdiction
de la temprature de liquidus de verres doxydes en fonction de la composition, pour trois modles diffrents.
Lapprentissage statistique
120
le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux dri-
ves partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure : on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation par apprentissage est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candi-
dats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, et donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables du modle et, dautre part, le fait que la constitution
dune base de donnes est onreuse : le nombre dexemples est donc limit.
Les grandeurs candidates pour constituer des variables du modle sont des grandeurs mcaniques et lec-
triques qui peuvent tre mesures durant le processus. La slection des variables a t effectue laide
des mthodes dcrites dans le chapitre 1, et le choix ainsi effectu a t valid par les experts impliqus
dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des condi-
tions bien contrles ; elles sont ensuite arraches ( dboutonnes ) et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans la section Effet du retrait dun exemple sur lintervalle de confiance
pour sa prdiction , un plan dexpriences a t tabli, qui a permis denrichir progressivement la base
de donnes disponible. La moiti de ces donnes a t utilise pour lapprentissage, lautre pour le test ;
la slection de modle a t effectue par la procdure de leave-one-out virtuel, de sorte quil na pas t
ncessaire dutiliser un ensemble de validation.
La figure 2-35 prsente des diagrammes de dispersion typiques, o chaque prdiction figure avec son
intervalle de confiance. Lerreur de gnralisation estime (score de leave-one-out, voir chapitre 1 et
section Slection de modles du prsent chapitre) est de 0,27 mm, et lEQMT de lordre de 0,23 mm.
Ces quantits tant de lordre de grandeur de lincertitude de mesure, ces rsultats sont trs satisfaisants.
8 8
Diamtre prdit (mm)
Diamtre prdit (mm)
7 7
6 6
Figure 2-35.
5 5 Diagrammes
de dispersion
4 4 pour la prdiction
du diamtre
3 3 de soudures
par points,
2 2 et intervalles
2 3 4 5 6 7 8 2 3 4 5 6 7 8 de confiance sur
Diamtre mesur (mm) Diamtre mesur (mm) les prdictions
Les rseaux de neurones
121
CHAPITRE 2
Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot
On cherche concevoir un modle dun bras de robot dont la position est commande par un actionneur
hydraulique. La position du bras dpend de la pression de liquide hydraulique dans lactionneur, pression
commande par louverture dune vanne. Il sagit dun processus dynamique, command en temps discret ;
comme indiqu dans la section quoi servent les rseaux de neurones boucls ? , on omet de mentionner
la priode dchantillonnage T afin dallger les notations. Les variations de louverture de la vanne, cest--
dire la squence de signaux de commande {u(k)}, et la pression dhuile correspondante, cest--dire la
squence de la grandeur modliser {yp(k)}, sont reprsentes sur la figure 2-36. Cet ensemble de donnes
contient 1 024 points de mesure : la premire moiti dentre eux est utilise pour lapprentissage, la seconde
pour lestimation de la performance (squence de test). On ne dispose daucune autre information sur le
processus : on a donc ncessairement recours une modlisation bote noire.
1,5
Commande
1
0,5
-0,5
-1
-1,5
0 200 400 (a) 600 800 1000
-2
-4
0 200 400 (b) 600 800 1000
Figure 2-36. Squences dapprentissage et de test pour la modlisation dun bras de robot
Lexamen des donnes montre que le processus nest certainement pas linaire et que, compte tenu des
oscillations observes en rponse des variations de u(k) qui sont presque des chelons, le processus est
au moins dordre 2. On observe aussi que les squences dapprentissage et de test nexplorent quapproxi-
mativement le mme domaine de fonctionnement (signaux de sortie et de commande de mme type et de
mme amplitude). On note quaux instants 600 et 850 environ de la squence de validation, lamplitude
Lapprentissage statistique
122
g ( k + 1) = x1 ( k + 1) = 1 ( x1 ( k ) , x2 ( k ) , u ( k ))
x2 ( k + 1) = 2 ( x1 ( k ) , x2 ( k ) , u ( k ))
g(k+1) = x1(k+1)
x2(k+1)
q-1
5 yp
g
1 u(k) x2(k)
-5
g(k) = x1(k) 0 100 200 300 400 500
Figure 2-37. Modle neuronal dtat pour lactionneur Figure 2-38. Modlisation dtat de lactionneur hydraulique
hydraulique. La sortie est lune des variables dtat.
Lerreur quadratique moyenne obtenue avec le modle de la figure 2-37 est de 0,07 sur la squence
dapprentissage et de 0,12 sur la squence de validation, ce qui est une trs bonne performance compte
tenu de la reprsentativit des donnes disponibles. Les rsultats obtenus sur la squence de test sont
reprsents sur la figure 2-38. Les dfauts de modlisation rsultent du fait quil y ait des perturbations
non mesures, qui ne figurent pas dans les variables du rseau.
tion optimale du rseau et une bonne anticipation des difficults qui peuvent rsulter de pluies impor-
tantes. La fiabilit du systme dpend donc largement de la fiabilit des capteurs des niveaux deau dans
les collecteurs : il est donc important de pouvoir dtecter automatiquement quun capteur est en panne
[ROUSSEL 2001].
La possibilit de crer, par apprentissage, des modles statiques ou dynamiques a permis la ralisation de
nombreux systmes de dtection de dysfonctionnements : si lon dispose dun modle prcis du fonction-
nement normal du processus que lon veut surveiller, et que lon observe une diffrence significative entre
les prdictions du modle et les mesures effectues, on peut en conclure que le systme est en fonction-
nement anormal ou, dans lexemple dcrit ici, que le capteur considr est en panne.
Deux types de pannes doivent tre considrs :
capteur bloqu (fournissant une mesure constante) ;
capteur subissant une drive lente.
Ces deux types de pannes peuvent tres dtects en utilisant des rseaux de neurones boucls, notamment
des modles NARMAX, qui seront dcrits en dtail dans la section Techniques et mthodologie de
conception de modles dynamiques de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la diffrence de comportement de lerreur de modlisation lorsque le capteur est en
fonctionnement normal et lorsquil drive.
0,04
Erreur moyenne de modlisation
0,02
0
1 3 5 7 9 11 13
-0,02
Drive Figure 2-39.
-0,04
Fonctionnement Dtection
-0,06 normal de panne
de capteur dans
-0,08 un collecteur
deau pluviale
-0,10
-0,12
Jour
il faut gnralement disposer dun modle de celui-ci ; les rseaux de neurones interviennent donc dans
les systmes de commande non linaires comme modles du processus, soit pendant la phase dappren-
tissage, soit en tant qulment du systme de commande lui-mme (commande avec modle interne).
Dautre part, llaboration du signal de commande (par exemple langle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) partir de linformation de consigne (le cap
que doit suivre le vhicule) implique gnralement la ralisation dune fonction non linaire, donc les
rseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le vhicule exprimental REMI est quip dactionneurs (moteur lectrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur lectrique pour le papillon dadmission dair)
et de capteurs de deux types :
des capteurs qui permettent de connatre ltat du vhicule (capteurs proprioceptifs) : odomtres sur les
roues, capteur angulaire sur le volant et le papillon dadmission dair, capteur hydraulique sur le circuit
de freinage ;
un capteur qui permet de connatre la position du vhicule par rapport au monde extrieur (capteur
extroceptif) : une centrale inertielle.
Le systme de navigation et de pilotage est constitu des lments suivants :
un module de planification qui, partir de lobjectif atteindre et des contraintes (routes), dtermine la
trajectoire que doit suivre le vhicule, et le profil de vitesse respecter durant le trajet ;
un module de guidage, qui labore les consignes de cap et de vitesse ;
un module de pilotage, qui dtermine les positions souhaites pour les actionneurs ;
un module de commande des actionneurs eux-mmes.
Dans cette structure, les rseaux de neurones interviennent au niveau du pilotage pour dterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
Lapplication a ncessit la conception et la ralisation de deux systmes de commande destins raliser
deux tches :
la commande du volant, pour maintenir le vhicule sur sa trajectoire : un rgulateur neuronal de la posi-
tion a t ralis, qui permet une erreur latrale maximale de 40 cm, pour des courbures jusqu 0,1 m-1,
et des dvers jusqu 30 %, sur route et en tout-terrain ; cet asservissement a mis en uvre, en certains
de ses lments, une modlisation semi-physique ;
la commande de lacclrateur et du frein, pour respecter le profil de vitesse impos par le module de
guidage.
Il faut noter que les divers rseaux de neurones mis en jeu dans cette application, quils jouent le rle de
modles ou de correcteurs, sont tous de trs petite taille (moins dune dizaine de neurones cachs). Leur
mise en uvre en temps rel na ncessit aucun matriel spcialis : ils ont t raliss sous forme
uniquement logicielle, excuts sur une carte microprocesseur standard qui remplissait diverses autres
fonctions.
jusqu prsent. On reprendra ici les lments de mthodologie exposs succinctement dans le premier
chapitre : slection de variables, apprentissage, slection de modles.
(
J ( w ) = ykp g ( x k , w ) . )
2
k =1
Les mthodes qui peuvent tre mises en uvre pour minimiser la fonction de cot sont de deux types :
des mthodes non adaptatives dapprentissage : elles consistent estimer les paramtres du modle par
minimisation de la fonction de cot des moindres carrs, qui tient compte simultanment de tous les
exemples de lensemble dapprentissage ; lutilisation dune telle mthode ncessite videmment que
les N exemples soient disponibles ds le dbut de lapprentissage ;
des mthodes adaptatives dapprentissage : elles consistent modifier les paramtres du modle,
successivement en utilisant la fonction de perte relative chaque exemple k : ( xk , w ) = ykp g ( xk , w ) . ( )
2
Cette technique est la seule qui soit applicable lorsquon dsire effectuer lapprentissage sans attendre
que tous les exemples soient disponibles ; elle permet galement de mettre jour un modle si le
processus quil modlise est soumis des drives lentes (usures, encrassements).
Terminologie
En anglais, on dsigne lapprentissage non adaptatif sous le terme de batch training ou off-line training, et lapprentissage adaptatif sous le
terme de on-line training.
Lapprentissage non adaptatif, le plus frquemment utilis, est dcrit dans la section suivante.
Les rseaux de neurones
127
CHAPITRE 2
Terminologie
Pour lapprentissage non adaptatif, on utilise aussi, au lieu du terme ditration, le terme dpoque.
Ces deux points vont tre abords successivement ; on rappelle tout dabord le pralable indispensable :
la normalisation des variables.
Normalisation des variables et de la grandeur modliser
Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur modliser. La procdure de normalisation a t dcrite dans le
chapitre 1, section Prtraitement des donnes .
valuation du gradient de la fonction de cot
Lorsque le modle postul est un rseau de neurones, lvaluation du gradient de la fonction de cot peut
tre effectue dune faon conomique laide dun algorithme appel algorithme de rtropropagation
[RUMELHART 1986] [WERBOS 1974], devenu tellement populaire quil apparat parfois comme synonyme
dapprentissage de rseaux de neurones. En ralit, lalgorithme de rtropropagation nest pas un algo-
rithme dapprentissage, mais un ingrdient dans une procdure dapprentissage. On montrera dailleurs
quil est possible dvaluer le gradient au moyen dune autre mthode que la rtropropagation.
proscrire
On trouve trop souvent lexpression rseau de neurones rtropropagation (quand ce nest pas rseau backprop ...) pour dsigner
un rseau de neurones non boucl. Cette expression est doublement absurde : dune part, il est parfaitement possible de faire lapprentis-
sage dun rseau non boucl sans utiliser la rtropropagation, comme on le verra dans le paragraphe intitul valuation du gradient de
la fonction de cot dans le sens direct ; dautre part, on utilise aussi la rtropropagation dans lapprentissage de rseaux boucls, comme
on le montrera dans les paragraphes consacrs lapprentissage de modles dynamiques. Il ny a donc aucun lien entre larchitecture du
rseau (boucl ou non boucl) et lutilisation, ou la non-utilisation, de la rtropropagation.
Lapprentissage statistique
128
ni
yi = f ( vi ) = f wij x ij ,
j =1
o x ij dsigne la variable j du neurone i. Les ni variables du neurone i peuvent tre soit les sorties
dautres neurones, soit les variables du rseau. Dans toute la suite, x ij dsignera donc indiffremment soit
la sortie yj du neurone j, soit la variable j du rseau, lune ou lautre constituant une variable du neurone i.
La fonction de cot dont on cherche valuer le gradient est de la forme :
N N
(
J ( w ) = ykp g ( x k , w ) ) = ( x , w ),
2
k
k =1 k =1
o (xk,w) est la fonction de perte relative lexemple k. Pour valuer le gradient de la fonction de cot,
il suffit donc dvaluer le gradient de la fonction de perte relative lobservation k, et de faire ensuite la
somme sur tous les exemples.
Lalgorithme de rtropropagation consiste essentiellement en lapplication rpte de la rgle des drives
composes. On remarque tout dabord que la fonction de perte ne dpend du paramtre wij que par linter-
mdiaire de la valeur de la sortie du neurone i, qui est elle-mme fonction uniquement du potentiel du
neurone i ; on peut donc crire :
( x, w ) ( x, w ) vi
w = w = ik x ij ,k ,
ij vi x = xk
ij x = x
x = xk k
o
( x, w )
= ik dsigne la valeur du gradient de la fonction de perte par rapport au potentiel du
vi x = xk
neurone i lorsque les valeurs des variables du rseau sont celles qui correspondent lexemple k ;
v
i = x ij ,k dsigne la valeur de la drive partielle du potentiel du neurone i par rapport au para-
wij x = xk
mtre wij lorsque les variables du rseau sont celles qui correspondent lexemple k ;
x ij ,k est la valeur de la variable j du neurone i lorsque les variables du rseau sont celles qui correspon-
dent lexemple k.
Cette dernire quantit est entirement calculable si lon connat les valeurs des paramtres. Or celles-ci
sont connues tout moment pendant lapprentissage, puisquelles ont initialement des valeurs alatoires,
qui sont ensuite modifies selon les algorithmes qui seront prsents dans la section Modification des
paramtres en fonction du gradient de la fonction de cot ; les quantits x ij ,k sont donc connues. Il reste
donc valuer les quantits ik prsentes dans le membre de droite de lquation. On va dmontrer que ces
quantits peuvent tre avantageusement calcules dune manire rcursive en menant les calculs depuis la
(ou les) sortie(s) du rseau vers ses entres.
Les rseaux de neurones
129
CHAPITRE 2
En effet :
pour le neurone de sortie, de potentiel vs :
( x, w ) p 2 g ( x, w )
sk = =
vs x = xk vs ( yk g ( xk , w )) = 2e ( xk , w )
vs x = xk
,
o e ( xk , w ) = ykp g ( x k , w ) est lerreur de modlisation commise par le rseau, muni du vecteur de para-
mtres w, pour lexemple xk.
Or, la prdiction du modle est le rsultat du calcul du neurone de sortie ; cette relation scrit donc :
( ) ( )
sk = 2 e ( xk , w ) f vsk , o f vsk dsigne la drive de la fonction dactivation du neurone de sortie
lorsque les entres du rseau sont celles de lexemple k. Si, comme cest le cas lorsque le rseau est
utilis en modlisation, le neurone de sortie est linaire, lexpression se rduit : sk = 2 e ( xk ,w ) ;
pour un neurone cach i : la fonction de cot ne dpend du potentiel du neurone i que par lintermdiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, cest--dire
de tous les neurones qui, dans le graphe des connexions du rseau, sont adjacents au neurone i, entre ce
neurone et la sortie :
( x, w ) ( x, w ) vm v
ik = = mk m .
vi x = xk m vm x = x vi x = x
k k
m vi x = xk
Dsignant par vmk le potentiel du neurone m lorsque les variables du rseau sont celles de lexemple k, on
v
( )
a : vmk = wmi xim,k = wmi f vik . Par consquent m
vi x = xk
( )
= wmi f vik .
i i
Ainsi, les quantits ik peuvent tre calcules rcursivement, en parcourant le graphe des connexions
dans le sens rtrograde , depuis la (les) sortie(s) vers les variables du rseau (ce qui explique le terme
de rtropropagation).
Une fois que les gradients des fonctions de perte ont t calculs, il suffit den faire la somme pour obtenir
le gradient de la fonction de cot.
Rsum de la rtropropagation
Lalgorithme de rtropropagation comporte deux phases pour chaque exemple k :
une phase de propagation, au cours de laquelle les variables correspondant lexemple k sont utilises
pour calculer les sorties et les potentiels de tous les neurones ;
une phase de rtropropagation, au cours de laquelle sont calcules les quantits ik .
Une fois que ces quantits sont disponibles, on calcule les gradients des fonctions de perte par les relations
( x, w ) J ( w ) N ( x k , w )
w = k i , puis le gradient du cot total
x = .
ij x = xk
i j ,k
wij k =1 wij
Lalgorithme de rtropropagation peut tre interprt sous une forme graphique, en introduisant le
rseau adjoint du rseau dont on veut estimer les paramtres. Cette approche, parfois utile, est
prsente dans le chapitre 4 traitant de lidentification de systmes dynamiques.
Lapprentissage statistique
130
Remarque importante
Lalgorithme de rtropropagation a t prsent ici dans le cadre de la minimisation de la fonction de cot des moindres carrs. Il est facile
de ladapter au calcul du gradient de nimporte quelle autre fonction de cot drivable, notamment, pour la classication, la fonction de
cot dentropie croise.
( x, w ) g ( x, w )
w
=
x = xk ijw k (
y p g ( x, w ) 2
)
x = xk
(
= 2 e x k , w ) .
wij x = xk
ij
Or, g(x, w) est la sortie dun neurone du rseau, donc la dernire drive peut tre calcule rcursivement
par le mme procd que toutes les autres. Une fois valu le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rtropropagation.
Comparaison entre lvaluation du gradient de la fonction de cot par rtropropagation et par calcul
dans le sens direct
Les calculs qui viennent dtre exposs montrent que la rtropropagation ncessite lvaluation dun
gradient par neurone, alors que le calcul direct requiert lvaluation dun gradient par connexion. Comme
le nombre de connexions est peu prs proportionnel au carr du nombre de neurones, le nombre
dvaluations de gradient est plus important pour le calcul direct que pour la rtropropagation.
Donc, pour lapprentissage de rseaux non boucls, on utilisera avantageusement la rtropropagation pour
valuer le gradient de la fonction de cot.
Les rseaux de neurones
131
CHAPITRE 2
valuation du gradient sous contrainte dgalit des paramtres : les poids partags
On a vu dans la section Modlisation et classification de donnes structures , quil est ncessaire, pour
lapprentissage des graph machines, deffectuer lapprentissage sous la contrainte quun certain nombre
de paramtres doivent tre gaux entre eux la fin de lapprentissage. On retrouve la mme contrainte
pour lapprentissage des rseaux de convolution (section Reconnaissance des formes : la lecture auto-
matique de codes postaux ). Enfin, la mme contrainte est impose pour lapprentissage des rseaux
dynamiques, qui sera abord dans la section Techniques et mthodologie de conception de modles
dynamiques . Cette contrainte est appele contrainte des poids partags , introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
lvolution des paramtres, chaque itration de lalgorithme dapprentissage, dpend du gradient de la
fonction de cot ; pour que plusieurs paramtres restent gaux, il faut donc que le gradient de la fonction
de cot utilis pour leur mise jour soit le mme pour tous.
Supposons donc que, dans un mme rseau, v paramtres doivent tre gaux :
w1 = w2 = = wv = w
On peut crire le gradient de la fonction de cot sous la forme :
J J w1 J w2 J w ,
= + + ... +
w w1 w w2 w w w
w1 w2 w J J
or = = ... = = 1, donc = .
w w w w i =1 wi
Ainsi, lorsquun rseau contient des poids partags, il faut, chaque itration, effectuer la rtropropaga-
tion de la manire habituelle pour calculer les gradients par rapport ces paramtres, puis calculer la
somme de ces gradients, et affecter cette valeur chacun de ces gradients, avant de procder la modifi-
cation de ces paramtres.
Modification des paramtres en fonction du gradient de la fonction de cot
Dans la section prcdente, on a vu comment valuer le gradient de la fonction de cot par rapport aux
paramtres du modle, chaque itration du processus dapprentissage. Une fois que lon dispose de cette
valuation, on effectue une modification des paramtres, afin dapprocher dun minimum de la fonction
de cot. On examine prsent quelques algorithmes de minimisation itrative des paramtres du modle.
La mthode du gradient simple
La mthode du gradient simple consiste modifier les paramtres par la formule suivante, litration i
de lapprentissage :
Au voisinage dun minimum de la fonction de cot, le gradient de cette dernire tend vers zro : lvolu-
tion du vecteur des coefficients devient donc trs lente. Il en va de mme si la fonction de cot prsente
des plateaux o sa pente est trs faible ; ces plateaux peuvent tre trs loigns dun minimum, et,
dans la pratique, il est impossible de savoir si une volution trs lente du gradient est due au fait que lon
est au voisinage dun minimum, ou que lon se trouve sur un plateau de la fonction de cot.
Si la courbure de la surface de cot varie beaucoup, la direction du gradient peut tre trs diffrente de
la direction qui mnerait vers le minimum ; cest le cas si le minimum recherch se trouve dans une
valle longue et troite (les courbes de niveau sont des ellipsodes allongs au voisinage du
minimum), comme on le voit galement sur la figure 2-40.
Figure 2-40.
Minimisation
de la fonction
de cot par
la mthode
du gradient
simple
Pour porter remde au premier inconvnient, de trs nombreuses heuristiques ont t proposes, avec des
succs divers. Les mthodes de recherche unidimensionnelle (notamment celle qui est prsente dans les
complments thoriques et algorithmiques la fin de ce chapitre), fondes sur des principes solides, sont
recommandes.
Pour faire face aux deux autres problmes, on utilise des mthodes du second ordre qui, au lieu de modi-
fier les coefficients uniquement en fonction du gradient de la fonction de cot, utilisent les drives
secondes de cette dernire. Certaines de ces mthodes font galement intervenir un paramtre suscep-
tible dtre choisi laide de mthodes de recherche unidimensionnelle.
Les grandes lignes des mthodes du second ordre les plus frquemment utilises, ainsi que les mthodes
de recherche unidimensionnelle du pas, sont prsentes dans les sections suivantes.
Les mthodes de gradient du second ordre
Toutes les mthodes du second ordre sont drives de la mthode de Newton, dont on dcrit ici le principe.
Le dveloppement de Taylor dune fonction f(x) dune seule variable x au voisinage dun minimum x* est
donn par la relation :
d2 f
f ( x ) = f ( x *) +
1
2
( )
( x x *)2 2 + O x 3 ,
dx x = x*
car le gradient de la fonction de cot f(x) est nul au minimum. Une approximation du gradient de la fonc-
tion de cot au voisinage du minimum est obtenue aisment partir de la relation prcdente, en la dri-
vant par rapport w :
df d2 f
( x x *) 2 .
dx dx x = x*
Les rseaux de neurones
133
CHAPITRE 2
Par consquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itration si lon connaissait la drive seconde de la fonction son minimum : il suffirait pour cela
-----
df
-
dx
de modifier la variable w de la quantit x = ----------------------
2
-.
d--------f
d x2
x = x*
Le mme raisonnement sapplique une fonction de plusieurs variables, la drive seconde tant
2 f
remplace par la matrice hessienne H(w) de la fonction optimiser, de terme gnral : pour
xi x j
atteindre le minimum de la fonction de cot en une itration, il suffirait dappliquer au vecteur des poids
la modification suivante (sous rserve que la matrice hessienne soit inversible) :
x = H ( x *) f ( x ) .
1
Remarque
Ainsi, la diffrence de la mthode du gradient simple, les mthodes du second ordre adoptent une direction de dplacement, dans
lespace des variables, qui nest plus la direction du gradient, mais qui rsulte dune transformation linaire de celui-ci.
Cette dernire formule nest videmment pas applicable en pratique, puisque le vecteur x* nest pas
connu. Nanmoins, elle suggre plusieurs techniques qui mettent en uvre une approximation itrative de
la matrice hessienne (ou de son inverse). Deux dentre elles seront prsentes en annexe thorique et algo-
rithmique de ce chapitre : la mthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et lalgorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces mthodes ne sont pas spcifiques aux rseaux de neurones : ce sont des mthodes trs
gnrales doptimisation. On en trouvera des descriptions dtailles dans [PRESS 1992] ; cet ouvrage
prsente galement la technique du gradient conjugu , qui utilise la matrice hessienne de manire
implicite.
Pour lapprentissage des rseaux de neurones, la fonction optimiser f(x) en fonction des variables x nest
autre que la fonction de cot J(w), quil faut optimiser par rapport aux paramtres w du rseau. Le gradient
de J(w) est valu par lalgorithme de rtropropagation dcrit plus haut.
Que faire en pratique ?
En premier lieu, il ne faut pas utiliser la mthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre ditrations) sont suprieurs de plusieurs ordres de grandeur ceux des
mthodes du second ordre (voir ci-aprs le paragraphe prsentant quelques problmes tests). Lutilisation
de la mthode du gradient simple ne peut se justifier que dans le cas o lon utilise de trs gros rseaux
(plusieurs milliers de paramtres), ce qui peut se produire pour des problmes de classification dans
lesquels les objets classer ont de trs nombreux descripteurs (typiquement, des images reprsentes par
des descripteurs de bas niveau). Dans ce cas, on arrte la descente avant datteindre un minimum de la
fonction de cot, afin dviter le surajustement ; cette technique, dite darrt prmatur (early stopping),
constitue une forme de rgularisation, sur laquelle on reviendra dans la section consacre lapprentis-
sage avec rgularisation.
Remarque
On mentionne souvent dans la littrature lheuristique du terme de moment (momentum term [PLAUT 1986]) qui consiste ajouter au
terme de gradient J un terme proportionnel la variation des coefcients litration prcdente [w(i 1) w (i 2)] ; on ralise ainsi
une sorte de ltre passe-bas qui peut viter les oscillations et augmenter un peu la vitesse de convergence si est bien choisi.
Lapprentissage statistique
134
Le choix entre les mthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des consi-
drations relatives au temps de calcul et la taille de la mmoire. La mthode de BFGS ncessite de
choisir le moment o lon passe du gradient simple BFGS ; il ny a pas, cet effet, de rgle fonde sur
des arguments thoriques. Quelques ttonnements sont parfois ncessaires pour trouver le bon
nombre ditrations (typiquement, une centaine), mais celui-ci nest pas critique. La mthode de Leven-
berg-Marquardt ne prsente pas cet inconvnient, mais elle devient lourde pour des gros rseaux (une
centaine de paramtres), en raison de linversion de matrice ncessaire chaque itration. Globalement,
on a donc intrt choisir la mthode de Levenberg-Marquardt si le rseau est petit , et celle de BFGS
dans le cas contraire. Si lon dispose du temps ncessaire, il est recommand dessayer les deux. La
mthode du gradient conjugu peut galement constituer une solution efficace au problme doptimisa-
tion de la fonction de cot.
Initialisation des paramtres
Quelle que soit la mthode mise en uvre, il est ncessaire de fixer les valeurs des paramtres du rseau
au dbut de lapprentissage. Les considrations suivantes doivent guider linitialisation de ces grandeurs :
les paramtres relatifs aux biais (entres constantes gales 1) doivent tre initialiss zro, pour
sassurer que les sigmodes des neurones sont initialement situes autour de zro ; alors, si les entres,
ainsi que les paramtres (autres que ceux des biais), ont t normaliss et centrs comme cela est recom-
mand plus haut, les valeurs des sorties des neurones cachs le sont galement ;
il reste sassurer que ces valeurs des sorties des neurones cachs ne sont pas trop voisines de +1 ou 1.
En effet, rappelons que le gradient de la fonction de cot, qui est le moteur de la minimisation,
dpend de la drive de la fonction dactivation des neurones cachs par rapport au potentiel. Or, au
voisinage de leurs saturations +1 et 1, les drives des sigmodes sont voisines de zro : dans ces
conditions, le processus de minimisation ne dmarre pas.
Soit n le nombre de variables du modle ; chaque neurone a donc n1 variables xi et un biais. Les param-
tres non nuls doivent tre suffisamment petits pour que les potentiels des neurones cachs aient une
variance de lordre de 1, afin que les sigmodes ne soient pas satures. Supposons que les xi puissent tre
considres comme des variables alatoires indpendantes Xi, tires de distributions identiques, centres
et normalises. On veut tirer les paramtres initiaux au hasard dans une distribution centre autour de
zro, dont on cherche la variance. Rappelons que le paramtre relatif au biais est initialis zro comme
n
indiqu lalina prcdent. Le potentiel v = wi xi de chaque neurone est donc la somme de n 1 varia-
i =1
bles alatoires qui sont les produits de variables alatoires indpendantes, centres, ayant toutes la mme
distribution. On dmontre facilement, partir des dfinitions et proprits indiques dans les notions
lmentaires de statistiques prsentes la fin du chapitre 1, que lon a :
varV = ( n 1) varWi varXi
problmes matre-lve , qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile
russir avec des RBF ou des ondelettes quavec des rseaux de sigmodes. Il faut mettre en uvre une stra-
tgie plus labore, dcrite en dtail dans [OUSSAR 2000] : on prpare une bibliothque dondelettes
ou de RBF, cest--dire un ensemble dun grand nombre de ces fonctions, et lon applique une mthode
de slection analogue aux mthodes de slection des variables dcrites plus haut. On effectue ensuite
lapprentissage en donnant aux paramtres les valeurs des paramtres des ondelettes, ou des RBF, qui ont
t slectionnes.
Lexprience dannes denseignement et de recherche montre quil est trs facile dcrire un algorithme
dapprentissage faux, ou un programme dapprentissage bogu , qui converge nanmoins, parfois trs
lentement, et aboutit un modle qui nest pas compltement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperues si lon ne fait pas preuve de vigilance. Il est donc impor-
tant de tester la validit dune procdure dapprentissage que lon a crite soi-mme, ou tlcharge
gratuitement sur le Web.
cet effet, la mthode suivante (souvent appele problme matre-lve ) est commode et simple
mettre en uvre. On cre un rseau de neurones, le rseau matre , dont les paramtres sont arbitraires,
mais fixs et connus (par exemple, tirs au hasard, une fois pour toutes, dans une distribution uniforme
entre 4 et +4). On utilise ce rseau pour crer une base dapprentissage, aussi grande que lon veut, en
lui prsentant des variables alatoires (par exemple, tires dans une distribution uniforme entre 1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire lapprentissage dun second
rseau (le rseau lve ) qui a le mme nombre de variables et le mme nombre de neurones cachs
que le rseau matre. Si lalgorithme dapprentissage et le programme sont corrects, on doit retrouver les
paramtres du rseau matre avec une prcision correspondant aux seules erreurs darrondi (typiquement,
lerreur quadratique moyenne est de lordre de 1030, et chaque paramtre du rseau lve est gal au para-
mtre correspondant du rseau matre, aux erreurs darrondi prs). Si ce nest pas le cas, lalgorithme
dapprentissage, et/ou sa programmation, doivent gnralement tre mis en cause.
Remarque
La structure du rseau lve obtenu est identique celle du rseau matre une permutation prs pour les neurones cachs. Cest une
consquence du thorme dunicit [SONTAG 1993].
Remarque
Pour les mmes problmes, le taux de russite est strictement nul si lon utilise lalgorithme du gradient simple ou du gradient stochastique
(dcrit dans la section suivante), avec ou sans terme de moment.
Il faut noter que le problme matre-lve est difficile pour certaines architectures en raison dun grand
nombre de minima locaux. Cest pourquoi il est recommand de tester tout algorithme ou procdure
dapprentissage sur les architectures que lon vient de mentionner.
En rsum
Rsumons ici la dmarche quil convient dadopter pour lapprentissage dun rseau non boucl, dont on
a fix le nombre de variables, ainsi que le nombre de neurones cachs :
initialiser les paramtres selon la mthode indique dans le paragraphe prcdent ;
calculer le gradient de la fonction de cot par lalgorithme de rtropropagation ;
modifier les paramtres par une mthode de minimisation (gradient simple, BFGS, Levenberg-
Marquardt, gradient conjugu...) ;
si un nombre maximal ditrations (ou poques) a t atteint, ou si la variation du module du vecteur des
poids est infrieure une limite fixe, ou si la variation du module du gradient est infrieure une limite
fixe (lalgorithme nvolue plus), ou encore si le module du gradient de la fonction de cot est infrieur
une valeur fixe (on est arriv un minimum ou dans un voisinage trs proche), arrter la procdure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itration.
w k +1 = w k k J k w k( )
o wk dsigne la valeur du vecteur des paramtres aprs litration k, cest--dire aprs prsentation de
lexemple k et modification correspondante des coefficients. Pour lapprentissage adaptatif des modles
linaires, cet algorithme est appel algorithme LMS .
Certains rsultats empiriques suggrent que la mthode du gradient stochastique permet dviter les
minima locaux. Il ny a aucun lment thorique qui appuie cette affirmation.
Une autre technique, inspire notamment du filtrage adaptatif, a t utilise pour lapprentissage adaptatif des
rseaux de neurones : le filtre de Kalman tendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient
Les rseaux de neurones
137
CHAPITRE 2
stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
doprations par itration. Cette approche est prsente en dtail au chapitre 4 du prsent ouvrage.
2
riser les fonctions rgulires. La fonction mini-
1,5
miser est alors de la forme : J = J + , o J est,
1
par exemple, la fonction de cot des moindres carrs.
0,5
La fonction la plus largement utilise est celle qui
0
pnalise les modles ayant des paramtres levs :
= wi (mthode de modration des poids
2
-0,5
0 2 4 6 8 10 12 14
i Degr du polynme
ou weight decay ).
Figure 2-41. volution exponentielle du module
Notons galement que les machines vecteurs du vecteur des paramtres en fonction
supports, dcrites en dtail dans le chapitre 6, doivent de la complexit de modles polynomiaux
leur efficacit au fait quelles contiennent intrinsque-
ment un processus de rgularisation.
Lapprentissage statistique
138
Arrt prmatur
Principe
Comme dans la section prcdente, lapprentissage consiste minimiser, grce un algorithme itratif,
une fonction de cot calcule sur la base dapprentissage, par exemple la fonction de cot des moindres
carrs. La diffrence avec lapprentissage sans rgularisation rside dans le critre darrt de
lapprentissage : on arrte celui-ci prmaturment, cest--dire avant convergence complte de lalgo-
rithme. Ainsi, le modle ne sajuste pas trop finement aux donnes dapprentissage : le surajustement est
limit. La difficult rside alors videmment dans la dtermination du moment o arrter lapprentissage.
La mthode la plus classique consiste suivre lvolution de la fonction de cot sur une base de valida-
tion, et arrter les itrations lorsque le cot calcul sur cette base commence crotre.
Exemple (tir de [STRICKER 2000])
Il sagit dun problme de classification deux classes ; comme indiqu dans le chapitre 1, on dsire que
la sortie du rseau soit +1 pour tous les lments de lune des classes (classe A), et 0 pour tous les
lments de lautre classe (classe B). Aprs apprentissage, la sortie est une estimation de la probabilit
dappartenance de lobjet inconnu la classe A. Dans ce problme, lespace de description est un espace
deux dimensions, et les exemples sont tirs de deux distributions qui se recouvrent partiellement,
comme indiqu sur la figure 2-42.
Dans cet exemple acadmique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilit dappartenance dun objet dcrit par les coordonnes (x, y) la classe
A, comme indiqu au chapitre 1 ; la figure 2-43 montre les probabilits a posteriori dappartenance la
classe A, calcules par la formule de Bayes.
1 1
0,8
)
0
Pr A x,y
-1
0,6
0,4
(
-2
0,2
-3
-4 -3 -2 -1 0 1 2 3 4 0
Figure 2-42. Les exemples de la classe A 5
5
(cercles) sont tirs dune distribution 0
de probabilit qui est le produit de deux 0
distributions gaussiennes selon x et y ;
y x
-5 -5
la distribution selon x est une gaussienne
centre en 1, dcart-type 1, et la distribu- Figure 2-43. Probabilit dappartenance la classe A calcule
tion selon y est une gaussienne centre en 1 et par la formule de Bayes
dcart-type 0,5. Les exemples de la classe B
(croix) sont tirs dune distribution
de probabilit qui est le produit de deux
distributions de probabilit selon x et y ;
la distribution selon x est la somme de deux
gaussiennes dcart-type 0,5, centres en 2
et 1.
Les rseaux de neurones
139
CHAPITRE 2
Lapprentissage est effectu laide de 500 points. La figure 2-44 montre les probabilits a posteriori esti-
mes par un rseau 2 neurones cachs et par un rseau 10 neurones cachs.
1 1
0,8 0,8
)
)
Pr A x,y
Pr A x,y
0,6 0,6
0,4 0,4
(
(
0,2 0,2
0 0
4
4 4
0 0 0
0
x -4 -4 y x y
-4 -4
Figure 2-44. Probabilits a posteriori estimes par un rseau 2 neurones cachs ( gauche) et par un rseau 10 neurones
cachs ( droite)
On constate que le rsultat obtenu avec un rseau 2 neurones cachs est trs proche de la surface tho-
rique reprsente sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachs est quasi
binaire : dans la zone de recouvrement entre les classes, une trs petite variation de lun des descripteurs
x ou y entrane une brusque variation de la probabilit dappartenance. Le rseau 10 neurones cachs est
donc exagrment spcialis sur les exemples proches de la zone de recouvrement : il est surajust.
Ces variations sont trs caractristiques des rseaux dont les paramtres sont suffisamment grands pour
que les sigmodes des neurones cachs soient toujours dans leurs zones satures , comme illustr sur
la figure 2-45.
0,8
0,6
0,4
Erreur sur la base de validation
0,2
0,25
th(wx)
0 2 NC
0,20 5 NC
-0,2 10 NC
0,15
-0,4 0,10
-0,6 0,05
Lvolution de lerreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre ditrations de lapprentissage, est reprsente sur la figure 2-46, pour divers nombres de
Lapprentissage statistique
140
neurones cachs. On voit quil est difficile de savoir exactement o il faut arrter lapprentissage, car
lerreur porte pour lessentiel sur les exemples qui sont proches de la surface de sparation entre les
classes, ce qui correspond un nombre relativement petit de points.
Cette mthode est donc malaise appliquer, notamment pour les problmes de classification. Cest pour-
quoi lon prfre souvent mettre en uvre des mthodes de rgularisation par pnalisation des paramtres
de fortes valeurs ; il a t prouv thoriquement [SJBERG 1995] que larrt prmatur est quivalent
lintroduction dun terme de pnalisation dans la fonction de cot.
Rgularisation par modration des poids (weight decay)
Pendant lapprentissage, certains paramtres des rseaux 5 et 10 neurones cachs augmentent et finis-
sent par atteindre des valeurs trs leves, exactement comme dans le cas de la rgression polynomiale
illustr par la figure 2-41. Ce nest pas le cas pour le rseau deux neurones cachs.
La mthode de rgularisation par modration des poids a prcisment pour objectif dempcher les para-
mtres de prendre des valeurs exagres, en minimisant, pendant lapprentissage, une fonction de cot J
qui est la somme de la fonction de cot des moindres carrs J (ou de tout autre fonction de cot, telle que
lentropie croise qui est introduite dans le chapitre 1) et dun terme de rgularisation proportionnel la
p
somme des carrs des paramtres : J = J + wi2, o p est le nombre de paramtres du rseau, et est
2 i =1
un hyperparamtre dont la valeur doit tre dtermine par un compromis : si est trop grand, la minimisa-
tion tend faire diminuer les valeurs des paramtres sans se proccuper de lerreur de modlisation ;
linverse, si est trop petit, le terme de rgularisation a trs peu deffet sur lapprentissage, donc le sura-
justement risque dapparatre.
Le principe de la mise en uvre de la mthode est trs simple. On calcule le gradient de la fonction de
cot J par rtropropagation, puis on lui ajoute la contribution du terme de rgularisation :
J = J + w .
Il faut noter nanmoins que tous les paramtres du rseau nont pas le mme effet :
les paramtres de la premire couche de connexions (matrice W1 de la figure 2-3) dterminent la vitesse
de variation des sigmodes des neurones cachs, sauf les lments de W1 relatifs au biais, qui dtermi-
nent une translation horizontale des sigmodes des neurones cachs ;
les paramtres de la deuxime couche de connexions (vecteur w2 de la figure 2-3) dterminent
linfluence de chaque neurone cach sur la sortie, sauf les lments de w2 relatifs au biais, qui dtermi-
nent une translation verticale de la sortie du rseau.
Il est donc naturel dintroduire des hyperparamtres diffrents pour ces diffrents types de paramtres
[MCKAY 1992]. La fonction de cot devient alors :
0
J = J + wi2 + 21 wi2 + 22 wi2,
2 W0 W1 W2
o W0 reprsente lensemble des paramtres des biais des neurones cachs, o W1 reprsente lensemble
des paramtres relatifs aux variables des neurones cachs lexception des biais, et W3 lensemble des
paramtres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
dterminer les valeurs des trois hyperparamtres 0, 1, 2. Dans ce but, [MCKAY 1992] propose une
dmarche fonde statistiquement dune manire solide, mais qui repose sur de nombreuses hypothses et
conduit des calculs lourds. En pratique, il apparat que les valeurs de ces hyperparamtres ne sont pas
critiques ; une dmarche heuristique, qui consiste effectuer plusieurs apprentissages avec des valeurs
Les rseaux de neurones
141
CHAPITRE 2
diffrentes des paramtres, tester les modles obtenus sur un ensemble de donnes de validation, et
choisir le meilleur, est gnralement suffisante.
Voici un exemple de classification deux classes ; il sagit de dterminer, dans un ensemble de textes (les
dpches de lagence France-Presse), celles qui sont pertinentes pour un sujet donn. Cest donc un
problme deux classes (une dpche est soit pertinente, soit non pertinente), pour lequel on dispose
dune base de donnes tiquetes. La base dapprentissage est constitue de 1 400 exemples de dpches
pertinentes et de 8 000 dpches non pertinentes. On mesure la qualit du classement laide dun indice
F qui est calcul partir de la prcision du classifieur (pourcentage de documents rellement pertinents
dans lensemble des documents considrs comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considrs comme pertinents par le classifieur parmi les documents pertinents
prsents dans la base de donnes). La performance du classifieur est dautant meilleure que F est grand.
On considre un classifieur zro neurone cach, et un neurone de sortie fonction dactivation sigmode,
cest--dire un sparateur linaire. Il nest videmment pas possible de rduire le nombre de ses param-
tres tout en maintenant constant le nombre de ses variables : seules les mthodes de rgularisation peuvent
viter le surajustement. La figure 2-47 montre lvolution de F sur la base de test, lorsque aucune mthode
de rgularisation nest mise en uvre, en fonction des proportions des exemples pertinents et non perti-
nents dans la base dapprentissage. La figure 2-48 montre la norme du vecteur des paramtres w des
rseaux correspondants. On observe que les performances se dgradent, et que, corrlativement, la norme
des paramtres augmente lorsque le nombre dlments de la base dapprentissage diminue.
0,95 5000
4000
0,90
3000
0,85
2000
0,80
1000
0,75 0
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 Nombre de textes pertinents Nombre de textes non pertinents Nombre de textes pertinents
0 0
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage
Figure 2-47. Apprentissage sans rgularisation : Figure 2-48. Norme des paramtres en fonction
volution de lefficacit dun classifieur linaire du nombre de textes de la base dapprentissage
en fonction des proportions des exemples pertinents
et non pertinents dans la base dapprentissage
Avec les mmes bases dapprentissage et de test, on a effectu un apprentissage avec arrt prmatur. Les
rsultats (indice de performance F et norme des paramtres), prsents sur la figure 2-49, montrent que
les performances sont sensiblement amliores dans la zone o le nombre dexemples de la base
dapprentissage est faible, mais quelles sont dgrades dans la zone o les exemples sont nombreux
(F < 0,9), ce qui prouve que larrt de lapprentissage ne permet pas dexploiter au mieux les donnes
prsentes dans la base dapprentissage. La norme du vecteur des paramtres (non reprsente sur la
figure) est trs faible dans tout le domaine explor.
Lapprentissage statistique
142
F sur la
F sur la
base
base
de test
de test
1
0,95 0,95
0,90 0,90
0,85 0,85
0,80 0,80
0,75 0,75
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 0 Nombre de textes pertinents Nombre de textes non pertinents 0 0 Nombre de textes pertinents
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage
Figure 2-49. Apprentissage avec rgularisation par arrt Figure 2-50. Apprentissage avec rgularisation
prmatur : volution de lefficacit dun classifieur par modration des poids : volution de la norme
linaire en fonction des proportions des exemples des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base dapprentissage pertinents et non pertinents dans la base dapprentissage
La mthode de modration des poids a galement t mise en uvre sur cet exemple, en utilisant deux
hyperparamtres : un pour le biais (b = 0,001) et un pour les connexions entre les entres et le neurone
de sortie (1 = 1). Les rsultats sont prsents sur la figure 2-50 ; on observe que, cette fois, les perfor-
mances sont nettement amliores dans la zone o le nombre dexemples est faible, et que, contrairement
au cas de larrt prmatur, elles restent satisfaisantes dans la zone o les exemples sont nombreux. Il faut
noter quaucun effort particulier na t fourni pour optimiser les hyperparamtres. Comme prcdem-
ment, la norme du vecteur des paramtres reste uniformment faible.
Remarque
On peut galement pnaliser les modles dont les sorties varient trop vite, en pnalisant les valeurs leves des drives [BISHOP 1993].
Slection de modles
Dans le chapitre 1, le dilemme biais-variance et les mthodes de slection de modles dont il ncessite la
mise en uvre ont t dcrits en dtail. Les trois mthodes principales qui ont t prsentes validation
simple, validation croise et leave-one-out peuvent tre appliques directement lapprentissage des
rseaux de neurones comme lapprentissage des modles linaires. Nanmoins, les modles non
linaires en leurs paramtres ont une particularit quil faut prendre en considration : la fonction de cot
des moindres carrs prsente des minima locaux, de sorte que des initialisations diffrentes des param-
tres peuvent produire, en fin dapprentissage, des modles dont les performances sont diffrentes bien
quils aient la mme complexit.
Pour un modle non linaire par rapport ses paramtres, la problmatique de la slection de modle est
donc double :
parmi les modles de mme complexit, trouver celui qui ralise le meilleur compromis biais-variance ;
parmi les meilleurs modles de complexits diffrentes, de trouver celui qui ralise le meilleur
compromis biais-variance.
Toutes les techniques qui sont prsentes dans cette section ont pour objet, dune part, dliminer les
modles manifestement surajusts, et, dautre part, destimer lerreur de gnralisation des autres
modles, afin de choisir celui qui commet la plus petite erreur de gnralisation. On commencera donc,
en prliminaire, par montrer comment il est possible dliminer les modles manifestement surajusts.
Deux techniques de slection seront ensuite abordes :
une mthode globale de slection par estimation de lerreur de gnralisation : la validation croise ;
une mthode locale de slection qui permet destimer linfluence de chaque exemple sur le modle : la
mthode LOCL (Local Overfitting Control via Leverages), fonde sur la mthode des moindres carrs
locaux, qui fait appel notamment lestimation dintervalles de confiance pour les prdictions du
rseau.
Ces deux approches seront combines pour construire une mthodologie complte de conception de
modles non linaires.
existe donc, dans le modle, des paramtres redondants : le modle considr possde trop de paramtres,
donc une variance certainement trop grande. Un tel modle doit donc tre limin de lensemble des
modles candidats la slection. De plus, cette dficience du rang a un effet ngatif sur le droulement de
lapprentissage [SAARINEN 1993] [ZHOU 1998].
Calcul de la matrice jacobienne
Dans la section consacre lestimation des paramtres dun modle non linaire, on a vu que lon peut
facilement calculer, par rtropropagation, le gradient de la fonction de cot :
(
J y g ( x, w ) )
2
g ( x, w )
p
=
w
wi
(
= 2 y p g ( x, w ) ) wi
.
i
Si lerreur de modlisation yp g(x, w) vaut 1/2, le gradient de la fonction de cot est gal au gradient
de la prdiction du modle. Ainsi, la matrice jacobienne est aisment calcule par rtropropagation dune
erreur gale 1/2. Le temps supplmentaire ncessit par le calcul de la matrice jacobienne est donc
marginal, puisquil sagit dun calcul de rtropropagation effectu une seule fois par modle, la fin de
lapprentissage, alors que la rtropropagation est effectue lors de chaque itration de lapprentissage.
( p1 , p2 ) =
1
2
(
D p1 , p2 + D ( p2 , p1 ) .
)
On effectue donc plusieurs partitions alatoires de la base de donnes, et lon choisit, parmi ces partitions,
celle pour laquelle la distance de Kullback-Leibler entre la base dapprentissage et la base de validation
est la plus petite. Le tirage dun grand nombre de partitions et le calcul de la distance de Kullback-Leibler
tant beaucoup plus rapide quun apprentissage, on divise ainsi le temps de calcul par un facteur de lordre
de 5 par rapport une validation croise avec D = 5. Si lon fait lhypothse que les distributions sont deux
gaussiennes p1(1, 1) et p2(2, 2), la distance de Kullback-Leibler scrit :
( 2
+ 22 )
=
1
4 12 22
( )
12 22 + ( 1 2 )2 .
Les rseaux de neurones
145
CHAPITRE 2
On trouvera la dmonstration de cette relation dans les complments thoriques et algorithmiques en fin
de chapitre.
Cette heuristique se rvle trs utile pour une mise au point rapide dun premier modle ; elle peut tre
affine ensuite par une validation croise conventionnelle, ou par un leave-one-out virtuel .
Validation croise
La validation croise a t dcrite dans le chapitre 1. La slection de modles seffectue en partant du
modle le plus simple (modle zro neurone cach, cest--dire modle linaire), et en augmentant
progressivement la complexit des modles (pour des modles neuronaux : en augmentant le nombre de
neurones cachs).
Remarque
On pourrait aussi augmenter le nombre de couches de neurones cachs. Pour les problmes de modlisation, cela ne peut tre envisag
que dans une deuxime tape : une fois que lon a obtenu un modle satisfaisant avec une couche de neurones cachs, on peut, si le
temps disponible le permet, essayer damliorer un peu les performances en augmentant le nombre de couches caches, tout en dimi-
nuant le nombre de neurones par couche. Cette procdure apporte parfois une amlioration, gnralement marginale. En revanche, si lon
na pas obtenu de rsultats satisfaisants avec une couche cache, il est illusoire desprer en obtenir en augmentant le nombre de couches
caches.
Pour chaque famille de modles, on calcule le score de validation croise. Le surajustement se traduit par
une augmentation significative du score de validation croise. On arrte la procdure lorsque cette
augmentation apparat, et lon slectionne la complexit pour laquelle la plus petite EQMV a t obtenue.
On effectue alors lapprentissage dun modle de cette complexit laide de lensemble des donnes
disponibles (tout en laissant de ct des donnes destines au test de ce modle).
Leave-one-out
Rappelons que lestimation de lerreur de gnralisation par leave-one-out est un cas particulier de la vali-
dation croise, pour lequel D = N : litration k, on extrait lexemple k de lensemble dapprentissage,
on effectue des apprentissages (avec des initialisations diffrentes des paramtres) avec les N-1 lments
de la base dapprentissage. Pour chacun des modles obtenus, on calcule lerreur de prdiction commise
sur lobservation k lorsque celle-ci est extraite de lensemble dapprentissage, et lon retient la plus petite
1 N k 2
de ces erreurs, note rk k . On dfinit le score de leave-one-out Et = rk . On utilise ce score,
N k =1
( )
comme dans le cas de la validation croise, en augmentant progressivement la complexit des modles.
Cette technique a linconvnient dtre trs lourde en temps de calcul, mais on dmontre que le score de
validation croise est un estimateur non biais de lerreur de gnralisation [VAPNIK 1995].
Dans les sections suivantes, on prsente une autre technique, trs avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre dobservations disponibles). Elle est fonde sur lide que le
retrait dun exemple de lensemble dapprentissage ne doit pas beaucoup perturber le modle ; on peut
alors construire un modle localement linaire dans lespace des paramtres, ce qui permet de bnficier
des rsultats thoriques connus, relatifs aux modles linaires.
de la statistique PRESS, qui est exactement le score que lon obtiendrait si lon faisait un leave-one-out
sur les donnes disponibles. Dans ce paragraphe, on montre comment tendre ce rsultat aux modles non
linaires, et calculer le score de leave-one-out virtuel sans avoir raliser un vrai leave-one-out, cest-
-dire en faisant un apprentissage avec toutes les donnes disponibles (en gardant toujours un ensemble
de test). On introduit galement le calcul des leviers des observations pour un modle non linaire.
Approximation locale de la mthode des moindres carrs
Considrons un modle g(x, w*) obtenu par minimisation de la fonction de cot des moindres carrs. Un
dveloppement du modle au premier ordre, dans lespace des paramtres, au voisinage de w*, scrit
g ( x, w ) g ( x, w *) + Z ( w w *)
o Z est la matrice jacobienne du modle, dfinie plus haut. Ce modle est linaire par rapport ses para-
mtres w, et la matrice Z joue exactement le rle de la matrice des observations.
Pour tablir une approximation locale de la solution des moindres carrs wmc, il faut obtenir une approxi-
mation, au premier ordre en w wmc, du gradient de la fonction de cot des moindres carrs ; pour cela, il
faut partir dune approximation du second ordre de cette fonction de cot, donc, dune approximation du
second ordre du modle ([MONARI 2000] ; le mme rsultat est tabli dans [SEBER 1989], mais avec une
dmonstration incorrecte) On obtient alors une approximation de la solution des moindres carrs wmc :
( )
1
wmc w * + ZT Z ZT y p g ( x, w *) .
Ce rsultat est approch dans le cas dun modle non linaire, et il est exact dans le cas dun modle
linaire.
En effet, dans le cas dun modle linaire, Z est la matrice des observations, et g(x, w*) = Z w*. La rela-
tion prcdente devient alors
( ) ( )
1 1
wmc w * + ZT Z ZT y p ZT Z ZT g ( x, w *)
= w * + ( Z Z) ( Z Z) ( )
1 1 1
T
ZT y p T
ZT Zw* = ZT Z ZT y p
ce qui est le rsultat exact, dmontr dans le chapitre 1, section Apprentissage de modles linaires en
leurs paramtres .
( ) rk
k 1
wmc wmc ZT Z zk
1 hkk
o zk est le vecteur dont les composantes sont la k-ime ligne de la matrice jacobienne Z, rk est lerreur de
prdiction (ou rsidu) sur lexemple k lorsque celui-ci fait partie de lensemble dapprentissage :
rk = y p g ( xk , wmc ),
( )( )
T 1
et o hkk = z k ZT Z z k est le levier de lexemple k [LAWRANCE 1995]. Gomtriquement, hkk est la
composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire port par laxe k.
Rappelons (voir chapitre 1) que les leviers sont compris entre 0 et 1, et que leur somme est gale au
nombre de paramtres du modle.
Une procdure numrique efficace de calcul des leviers est prsente dans les complments thoriques et
algorithmiques la fin de ce chapitre.
La mthode du leave-one-out virtuel est une consquence des rsultats prcdents : on dmontre que
lerreur de prdiction commise sur lexemple k, lorsque celui-ci est retir de lensemble dapprentissage,
peut tre estime simplement partir de lerreur de prdiction commise sur ce mme exemple, sil est
dans lensemble dapprentissage :
rk .
rk k =
1 hkk
Comme indiqu dans le chapitre 1, ce rsultat est exact pour un modle linaire, (PRESS, voir par
exemple [ANTONIADIS 1992]), et il est approch pour un modle non linaire.
Remarque
Une approche analogue a t propose dans [HANSEN 1996] pour les modles dont lapprentissage est effectu avec rgularisation.
Illustrons cette mthode sur un exemple acadmique : un ensemble de 50 points dapprentissage est cr
en ajoutant la fonction sinx/x un bruit gaussien de moyenne nulle et de variance 102.
Ensemble dapprentissage
0,3
1 Intervalle de confiance 95 %
Prdiction du modle
0,5
rk k
0 - 0,3 0 0,3
rk
Figure 2-52. Prcision de lestimation des rsidus
par leave-one-out virtuel 1 hkk
Lapprentissage statistique
148
La figure 2-51 reprsente les points de lensemble dapprentissage et la prdiction dun modle
deux neurones cachs. Une procdure conventionnelle de leave-one-out, dcrite au paragraphe prcdent,
a t effectue, fournissant ainsi les valeurs des quantits rk k prsentes en ordonne de la figure 2-52, et
la formule prcdente a t applique, fournissant les valeurs prsentes en abscisse. Le fait que tous les
points soient aligns sur la bissectrice du graphe montre que lapproximation est trs prcise.
On peut donc, dune faon trs avantageuse en temps de calcul, remplacer le score de leave-one-out Et,
qui a t dfini plus haut
(
1 N ( k )
rk )
2
Et =
N k =1
qui constitue une trs bonne approximation de lerreur de gnralisation. Cette quantit est un lment
essentiel de la procdure de slection de modles qui sera expose dans la section suivante : elle fournit
une estimation de lerreur de gnralisation, au prix dun temps de calcul qui est N fois plus petit que la
procdure traditionnelle de leave-one-out, puisque lapprentissage est effectu une seule fois, avec tous
les exemples disponibles, au lieu de ltre N fois avec N-1 exemples.
Effet du retrait dun exemple sur lintervalle de confiance pour sa prdiction
Dans [SEBER 1989], un intervalle de confiance approch est propos pour un modle non linaire, avec
une confiance 1 :
(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z )
1
z
o tN p est la valeur dune variable de Student N-p degrs de libert et un niveau de confiance 1 , et
s est une estimation de la variance de lerreur de prdiction du modle. La figure 2-51 reprsente linter-
valle de confiance calcul par cette formule, en tous points de lintervalle considr.
Remarque
Il est possible de dnir de nombreux intervalles de conance pour des modles non linaires [TIBSHIRANI 1996], que lon peut soit calculer
analytiquement, soit estimer laide de mthodes de r-chantillonnage, telles que celles qui sont dcrites dans le chapitre 3 de cet
ouvrage. Les intervalles de conance utiliss dans le prsent chapitre ont lavantage de mettre en uvre les mmes quantits que celles
qui permettent de prdire le score de leave-one-out.
(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z ) z = g ( x, wmc ) tN p s hkk .
1
On voit ainsi que les intervalles de confiance sur les prdictions du modle font intervenir les mmes
quantits hkk que la prdiction du retrait dun exemple sur lerreur de prdiction du modle. Cela nest pas
surprenant car les deux groupes de relations proviennent du mme dveloppement de Taylor du modle
dans lespace des paramtres.
Les rseaux de neurones
149
CHAPITRE 2
Comme dans le cas prcdent, il est possible destimer lintervalle de confiance sur la prdiction dun
exemple extrait de lensemble dapprentissage : tant donn un vecteur de variables xk, lintervalle de
confiance approch sur la prdiction de cet exemple est donn par ([SEBER 1989])
hkk
EY pk ( x ) g ( x, wmc ) tN p s k .
1 hkk
Remarque
Le fait que lintervalle de conance soit nul signie que lon est sr que la prdiction du modle en ce point est exacte. Ce nest pas contra-
dictoire avec le fait que lerreur de prdiction rk ne soit pas nulle. En effet, lerreur de prdiction est la diffrence entre la valeur mesure et
la valeur prdite : elle est due la fois lerreur de modlisation (diffrence entre la grandeur prdite et son esprance mathmatique
inconnue) et au bruit (diffrence entre la grandeur mesure et son esprance mathmatique inconnue). Si le modle est parfait, lerreur de
prdiction est due uniquement au bruit. On ne peut donc avoir un levier nul que si la famille de fonctions dans laquelle on cherche lapproxi-
mation de la rgression contient la fonction de rgression elle-mme.
Si un levier est trs proche de 1, le vecteur unitaire port par laxe correspondant lexemple k est trs
proche du sous-espace des solutions ; cet exemple est donc presque parfaitement appris, et il a une trs
grande influence sur les paramtres du modle. Lerreur de prdiction sur cet exemple est presque nulle
lorsque lexemple fait partie de lensemble dapprentissage, et elle est trs grande lorsque lexemple
nen fait pas partie. Le modle est donc exagrment ajust cet exemple. Lintervalle de confiance est
trs petit lorsque lexemple fait partie de lensemble dapprentissage, et il est trs grand lorsque
lexemple en est extrait.
Lapprentissage statistique
150
Remarque
Pour un modle linaire par rapport aux paramtres, la premire tape est trs simple puisque la fonction de cot ne possde quun
minimum : on effectue un seul apprentissage.
Ayant effectu ce choix pour plusieurs familles de fonctions de complexits croissantes, on choisit le
meilleur modle, selon une procdure qui sera dcrite dans la section Choix de la complexit
optimale .
Slection dun modle dans une famille de modles de complexit donne : critres globaux
Pour une complexit de modle donne, plusieurs apprentissages sont effectus, et, lissue de chacun
deux, le rang de la matrice jacobienne du modle obtenu est valu. Si cette matrice nest pas de rang
plein, le modle doit tre limin, comme indiqu plus haut.
Il faut noter que, contrairement ce qui a parfois t publi, la valeur du nombre de conditionnement de
la matrice jacobienne ne doit pas tre utilis comme critre de comparaison entre modles. Ainsi, dans
[RIVALS 2000] [RIVALS 2004], les auteurs indiquent que les modles dont la matrice de conditionnement
est suprieure 108 doivent tre rejets. Dans [OUSSAR 2004], de nombreux contre-exemples montrent
quil ny a essentiellement aucun rapport entre le surajustement et le nombre de conditionnement de la
matrice jacobienne : des modles trs fortement surajusts peuvent avoir des nombres de conditionnement
infrieurs cette limite, et des modles dont le nombre de conditionnement est trs suprieur cette limite
peuvent ne pas prsenter de surajustement.
Remarque
Le fait de trouver, pour une complexit donne, que le minimum global de la fonction de cot correspond un modle dont la matrice jaco-
bienne nest pas de rang plein ne signie pas que tous les modles de mme complexit doivent tre limins : un minimum local peut fort
bien fournir un excellent modle mme si le minimum global fournit un modle surajust. On retrouve ici une ide analogue celle de larrt
prmatur, qui a t expose dans la section consacre la rgularisation : choisir un modle qui ne correspond pas au minimum global
de la fonction de cot peut constituer une forme de rgularisation.
Ayant effectu cette premire limination, il faut faire une slection parmi les modles restants. Dans ce
but, on met en uvre la technique du leave-one-out virtuel , dcrite plus haut. Rappelons la dfinition
du score de leave-one-out virtuel
Les rseaux de neurones
151
CHAPITRE 2
2
1 N rk .
Ep =
N k =1 1 hkk
Il doit tre compar lerreur quadratique moyenne sur lensemble dapprentissage (EQMA), dfinie plus
haut :
1 N
rk ( )
2
EA = .
N k =1
Rappelons galement que, dans la procdure de leave-one-out virtuel, lapprentissage est effectu partir
de tous les exemples disponibles, lexception des exemples de lensemble de test. Cest donc bien la
mme quantit N qui est prsente dans les relations prsentes ci-dessus pour Ep et EA.
N
Si tous les leviers sont gaux p/N, on a : E p = E . Ep et EA sont gaux dans la limite des grands ensembles dapprentissage pour
N p A
un modle sans surajustement, ce qui est normal puisque la diffrence entre lEQMA et lerreur de gnralisation est due au fait que le
nombre dlments de lensemble dapprentissage est ni : si lon disposait dun nombre inni dexemples, on pourrait connatre exacte-
ment la fonction de rgression.
Pour illustrer cela, considrons lexemple dun rseau 4 neurones cachs, dont lapprentissage est
effectu laide des exemples reprsents sur la figure 2-51. Cinq cents apprentissages ont t effectus,
avec des initialisations diffrentes des paramtres, en utilisant lalgorithme de Levenberg-Marquardt. La
figure 2-53 reprsente les rsultats obtenus, avec les conventions suivantes :
pour les modles dont la matrice jacobienne est de rang plein, chaque modle est reprsent par un point
dans un plan ; laxe des abscisses reprsente lEQMA, et laxe des ordonnes le score de leave-one-out
virtuel (estimation de lerreur de gnralisation du modle) ; notez lchelle logarithmique en
ordonnes ;
pour les modles dont la matrice jacobienne nest pas de rang plein, les points correspondants sont
reprsents en dessous du graphique prcdent, sur un axe figurant les EQMA de ces modles.
On remarque :
que la matrice jacobienne du modle dont lEQMA est la plus petite (modle qui a le mieux appris les
donnes ) nest pas de rang plein : ce modle est donc cart ;
que, dans cet exemple, 70 % des minima trouvs nont pas une matrice jacobienne de rang plein ;
que lestimation de lerreur de gnralisation varie de plusieurs ordres de grandeur, ce qui ncessite
lutilisation dune chelle logarithmique pour Ep. Les modles correspondant aux minima dont les
scores de leave-one-out virtuel sont levs sont trs spcialiss sur un ou quelques points, avec des
leviers trs voisins de 1.
Lapprentissage statistique
152
105
de leave-one-out virtuel Ep
104
(chelle logarithmique)
103
Score
10-1
0,075 0,080 0,085 0,09 0,095 0,1 0,105 0,110
Rang(Z) < p
La figure 2-54 montre les prdictions des modles qui ont la plus petite valeur de EA et la plus petite valeur
de Ep (reprsentes respectivement par un cercle gris et par un triangle gris sur la figure 2-53). On
remarque que le modle correspondant au minimum de EA fournit une prdiction plus irrgulire que
le modle correspondant au minimum de Ep. Ce dernier est donc plus satisfaisant ; il faut noter cependant
quil est le modle le plus satisfaisant trouv dans la famille des rseaux 4 neurones cachs. Pour
terminer la slection, il reste comparer ce modle aux meilleurs modles trouvs pour des complexits
diffrentes.
1,5
La figure 2-55 reprsente les scores de leave-one-out virtuel et les EQMA des meilleurs rseaux, trouvs
par cette procdure, pour des complexits croissantes partir dun rseau 0 neurone cach (modle
linaire) jusqu un modle 5 neurones cachs. titre indicatif, on a port aussi, sur ce graphe, lcart-
type du bruit. On note que, comme attendu, lEQMA diminue lorsquon augmente le nombre de neurones
cachs, tandis que le score de leave-one-out virtuel passe par un minimum et augmente lorsque la
complexit du rseau crot. Nanmoins, le choix entre les architectures 2, 3 et 4 neurones cachs nest
pas vident, dans la mesure o les scores de leave-one-out virtuel sont peu diffrents. Le paragraphe
suivant est consacr ce problme : celui du choix de la complexit optimale.
Remarque
partir de 3 neurones cachs, lEQMA passe au-dessous de lcart-type du bruit ; on peut donc en dduire que les modles possdant
plus de 3 neurones cachs sont surajusts. Cela ne peut nanmoins pas tre considr comme un critre pratique de slection sauf si
lcart-type du bruit est connu.
Les rseaux de neurones
153
CHAPITRE 2
0,3
EQMA
0,25
Ep
0,20
cart-type du bruit
0,15
0,10
0,05
0 NC 1 NC 2 NC 3 NC 4 NC 5 NC
Nombre de neurones cachs
Figure 2-55. volution de lEQMA et du score de leave-one-out virtuel en fonction du nombre de neurones cachs
0 0
3 8 3 8 13
-0,5 -0,5
On observe que lintervalle de confiance pour le modle 2 neurones cachs est peu prs uniforme sur
tout le domaine dapprentissage, alors que, pour le modle 4 neurones cachs, lintervalle de confiance
est important dans la rgion [8, 12], o une oscillation de la sortie du modle est observe, dont on nest
pas sr quelle soit significative. Si lon considre la distribution des leviers, reprsente sur la figure 2-
57, on observe une plus grande dispersion de ces derniers pour le modle 4 neurones cachs (traits
griss) que pour le modle 2 neurones cachs (traits noirs).
40
35 p/N
Nombre dexemples
30
25 2 neurones cachs
20 4 neurones cachs
15
10
5
0
0,1 0,3 0,5 0,7 0,9
Leviers
Figure 2-57. Histogramme des leviers pour des modles 2 et 4 neurones cachs
1 N N
= hkk .
N k =1 p
Cette quantit est toujours infrieure 1, et elle vaut 1 si et seulement si tous les leviers sont gaux
p/N.
Elle constitue donc un paramtre normalis qui caractrise la distribution des leviers : plus est proche
de 1, plus la distribution des leviers est troite autour de p/N. Ainsi, parmi les modles de complexits
diffrentes ayant des scores de leave-one-out virtuel du mme ordre de grandeur, on choisira celui qui
possde le paramtre le plus voisin de 1.
On peut galement caractriser la distribution des leviers par son cart-type normalis
2
p
N
N
n =
p ( N p ) k =1
hkk
N
qui vaut zro si tous les leviers sont gaux p/N, et qui vaut 1 dans le pire cas de surapprentissage, cest-
-dire si p leviers sont gaux 1 et les (p N) autres leviers sont gaux zro. Ainsi, un modle est
dautant plus satisfaisant que n est petit.
titre dillustration, la figure 2-58 prsente un modle une variable dont lapprentissage a t effectu
partir des points obtenus en ajoutant un bruit uniforme dcart-type gal 0,1 la courbe reprsente en
trait fin. On observe que les leviers ont une distribution assez peu disperse si lon fait abstraction des
points qui sont aux frontires du domaine, qui ont invitablement une grande importance dans un modle
une variable ; 3 leviers sont suprieurs 0,95 ; de plus, = 0,984 et n = 0,38.
Les rseaux de neurones
155
CHAPITRE 2
2 2
Modle et fonction de rgression
1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
1 1
0,8 0,8
Leviers
0,6
Leviers
0,6
0,4 0,4
0,2 0,2
0 0
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
x x
Figure 2-58. Modle, fonction de rgression et leviers Figure 2-59. Modle, fonction de rgression et leviers
pour un modle non surajust pour un modle surajust
partir du mme ensemble dapprentissage, on a obtenu un autre modle, reprsent sur la figure 2-59.
Ce modle prsente clairement un fort surajustement pour 1 x 2. On observe que les leviers sont trs
levs pour ces valeurs de x, et que, pour ce modle, les leviers sont beaucoup plus disperss que dans
lexemple prcdent : on a en effet = 0,979 et n = 0,56.
14 14
12 12
p/N
/
10 10
p/N
8 8
6 6
4 4
2 2
0 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Figure 2-60. Histogrammes des leviers : gauche, pour le modle non surajust (figure 2-58) ;
droite, pour un modle surajust (figure 2-59)
Lapprentissage statistique
156
La figure 2-60 montre lhistogramme des leviers pour chacun des deux modles : la distribution des
leviers du premier est clairement plus troite, avec un pic pour p/N, que la distribution des leviers du
second modle.
Ces exemples montrent clairement que les leviers permettent de reprer localement les risques de surajus-
tement, et doivent donc contribuer la slection du meilleur modle et/ou la planification dexpriences
supplmentaires.
Que faire en pratique ?
Rsumons la dmarche de slection de modle qui vient dtre dcrite.
Raliser les oprations suivantes pour une complexit donne (si les modles sont des rseaux de
neurones : pour un nombre de neurones cachs donn) :
effectuer des apprentissages, avec toutes les donnes disponibles, pour des initialisations diffrentes des
paramtres du rseau ;
valuer le rang de la matrice jacobienne des modles ainsi trouvs et liminer ceux dont la matrice jaco-
bienne est de rang infrieur au nombre de paramtres ajustables du modle ;
pour chaque modle dont la matrice jacobienne est de rang plein, calculer son score de leave-one-out
virtuel et son paramtre n (ou son paramtre ).
Raliser les oprations prcdentes pour des modles de complexits croissantes ; lorsque les scores de
leave-one-out virtuel deviennent trop grands, ou la distribution des leviers trop large, arrter la procdure
et choisir le modle. Deux stratgies sont envisageables :
si lensemble dapprentissage est dfinitivement fix et ne peut pas tre enrichi, il faut choisir, parmi les
modles qui ont de petits scores de leave-one-out virtuel, le modle avec le le plus lev ou le n le
plus faible ;
sil est possible denrichir lensemble dapprentissage en effectuant quelques expriences supplmen-
taires, il est prfrable de choisir un modle lgrement surajust, et deffectuer des expriences suppl-
mentaires dans les zones qui correspondent des leviers levs (ou des intervalles de confiance grands) ;
on choisira alors un modle qui a le score de leave-one-out le plus petit possible, mme sil ne corres-
pond pas la plus grande valeur de , ou la plus petite valeur de n.
laboration de plans dexpriences
Aprs avoir suivi la dmarche dlaboration et de slection de modles qui vient dtre dcrite, il peut
savrer ncessaire de complter la base de donnes utilise pour llaboration du modle. Il convient
alors de construire un plan dexpriences , en profitant des rsultats obtenus lors de llaboration du
modle, notamment des intervalles de confiance. En effet, un intervalle de confiance lev dans une
certaine zone de lespace peut tre d un nombre de points insuffisant. Il suffit donc de reprer les zones
de lespace des variables o les intervalles de confiance sont excessifs, et deffectuer ensuite les mesures
dans ces zones.
On sintresse prsent aux modles dynamiques, dont les variables et les prdictions sont relies entre
elles par des quations diffrentielles, ou, pour des systmes temps discret, par des quations rcur-
rentes ou quations aux diffrences. Dans tout cet ouvrage, on se placera uniquement dans le cadre de
systmes temps discret, car les applications relles des rseaux de neurones dynamiques pour la mod-
lisation font appel des ordinateurs ou des circuits intgrs numriques, qui sont des systmes
chantillonns : les grandeurs ne sont mesures qu des instants discrets, multiples dune priode
dchantillonnage T.
Remarque
Pour allger les notations, on omettra systmatiquement T dans les quations : la valeur dune variable x linstant kT, k entier positif, sera
note x(k).
Le chapitre 4 de cet ouvrage propose une prsentation gnrale des systmes dynamiques non linaires.
Dans le prsent chapitre, on se contentera dune introduction mthodologique succincte de la modlisa-
tion stochastique tats continus, qui dcoule directement des considrations relatives la modlisation
statique dcrite dans les sections prcdentes. Les lments de modlisation dynamique prsents ici sont
suffisants pour aborder, dans la dernire partie de ce chapitre, la mthodologie de modlisation semi-
physique , trs importante en raison de ses applications industrielles.
Reprsentation dtat
Un modle est sous la forme dune reprsentation dtat sil est constitu dun ensemble dquations de
la forme :
o le vecteur x(k) est appel vecteur dtat (dont les composantes sont les variables dtat ), le
vecteur u(k) est le vecteur des variables de commande, b1(k) et b2(k) sont les vecteurs des perturbations,
et le scalaire y(k) est la prdiction fournie par le modle. f est une fonction vectorielle non linaire, et g
est une fonction scalaire non linaire. La dimension du vecteur dtat (cest--dire le nombre de variables
dtat) est appele ordre du modle. Les variables dtat peuvent tre mesures ou non mesures.
Remarque 1
Pour un processus mono-entre u(k), le vecteur u(k) peut tre constitu de u(k) et de valeurs de la commande plusieurs instants passs :
u(k) = [u(k), u(k 1), , u(k m)]T.
Lapprentissage statistique
158
Remarque 2
Les perturbations sont des facteurs qui affectent la sortie, ou ltat, ou les deux la fois, et qui, contrairement aux variables de commande,
ne sont pas mesures ; elles ne peuvent donc pas constituer des variables du modle, bien quelles aient un effet sur la grandeur mod-
liser. Par exemple, pour un four, lintensit qui passe dans la rsistance chauffante est une grandeur de commande ; la dgradation de
lisolant thermique du four et le bruit de mesure du thermocouple constituent des perturbations, que lon peut, si ncessaire, modliser par
des variables alatoires.
Remarque 3
Rien ne soppose ce que la sortie elle-mme soit une des variables dtat (on en verra un exemple dans le paragraphe intitul Que faire
en pratique ? )
Lobjectif du concepteur dun modle sous forme de reprsentation dtat est donc de trouver des approxi-
mations des deux fonctions f et g, par apprentissage, partir de squences des entres, des sorties, et,
ventuellement, des variables dtat si celles-ci sont mesures.
Reprsentation entre-sortie
Un modle est sous la forme dune reprsentation entre-sortie sil est constitu dquations de la forme :
o h est une fonction non linaire, n est lordre du modle, m et p sont deux constantes positives, u(k) est
le vecteur des signaux de commande, b(k) est le vecteur des perturbations. Remarquons que les reprsen-
tations entre-sortie constituent des formes particulires des reprsentations dtat, o le vecteur dtat a
pour composantes [y(k-1), y(k-2), y(k-n)].
Attention
Pour raliser un modle linaire, les reprsentations dtat et entre-sortie sont strictement
quivalentes : le choix de lune ou lautre repose sur des considrations qui ont trait leur commo-
dit, compte tenu des objectifs de la modlisation considre. En revanche, pour la ralisation dun
modle non linaire, une reprsentation dtat est plus gnrale et plus parcimonieuse quune repr-
sentation entre-sortie ([LEVIN 1993]), comme on le verra plus loin sur un exemple ; nanmoins, elle
peut tre plus dlicate mettre en uvre, puisque deux fonctions f et g doivent tre approches, alors
que les modles entre-sortie ncessitent lapproximation de la seule fonction h.
Une fois effectu le choix entre reprsentation entre-sortie et reprsentation dtat, il convient de faire
une hypothse sur la faon dont le bruit intervient dans le processus. Cette distinction fondamentale est
souvent nglige dans la littrature sur les rseaux de neurones, alors quelle est bien connue dans le cas
de la modlisation dynamique linaire, comme on le verra au chapitre 4. On va montrer que lhypothse
effectue sur le bruit conditionne la fois lalgorithme dapprentissage quil faut utiliser et la structure
du modle qui doit tre mis en uvre. On va donc passer en revue les principales hypothses relatives au
bruit, et en dduire, dans chaque cas, la structure du modle dont il faut estimer les paramtres.
sage et lutilisation des modles entre-sortie, puis sur la structure, lapprentissage et lutilisation des
modles dtat.
( )
y p ( k ) = y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,..., u ( k m ) + b ( k )
Remarque
On emploie parfois, au lieu du vocable hypothse , lexpression modle hypothse , traduction de langlais postulated model. Pour viter
toute confusion entre hypothse et modle, et pour ne pas alourdir inutilement la nomenclature, nous nutiliserons pas ces derniers termes.
Par hypothse, le bruit agit donc sur la sortie, non seulement dune manire directe linstant k, mais
galement par lintermdiaire des sorties aux n instants prcdents ; puisque lon souhaite obtenir un
modle tel que lerreur de modlisation linstant k soit gale au bruit au mme instant, il faut quil tienne
compte des sorties du processus aux n instants prcdents. Considrons donc un rseau de neurones non
boucl, reprsent sur la figure 2-62, rgi par lquation
(
g ( k ) = RN y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,...u ( k m ) ,w )
o w est un vecteur des paramtres, et o la fonction RN est ralise par un rseau de neurones (non
boucl). Supposons que lon ait effectu lapprentissage du rseau de neurones RN de telle manire quil
ralise exactement la fonction . On a alors yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que
lerreur de modlisation soit gale au bruit : cest donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans le processus, et ne modlise pas le bruit.
Il est important de remarquer que les variables du modle sont les variables de commande et les valeurs
de la grandeur modliser, mesures sur le processus : le modle (galement appel prdicteur ) idal,
reprsent sur la figure 2-62 nest donc pas un rseau de neurones boucl.
Apprentissage du modle : apprentissage dirig
Puisque le modle obtenu est un modle non boucl, son apprentissage seffectue en mettant en uvre les techniques prsentes dans
la section Apprentissage non adaptatif de modles entre-sortie non boucls : apprentissage dirig .
Lapprentissage statistique
160
g(k) g(k)
.....
yp(k-1) yp(k-n+1)
RN
....
RN
q-1
Utilisation du modle
Puisquune partie des variables du prdicteur sont les valeurs de la grandeur modliser, mesures du processus, on ne peut calculer la
sortie quau temps immdiatement suivant : on dit que lon ralise un prdicteur un pas . Si lon dsire utiliser le modle comme simula-
teur, cest--dire prvoir la rponse du processus sur un horizon suprieur un pas dchantillonnage, il faut ncessairement utiliser
comme variables les prdictions faites par le modle aux instants prcdents : le prdicteur nest plus utilis dans des conditions optimales.
(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) )
p
y ( k ) = x p ( k ) + b ( k )
On suppose donc ici que le bruit est additif sur la sortie
yp(k)
uniquement (figure 2-63) : il intervient en dehors de la
boucle, donc il naffecte que la prdiction. Cette hypo-
thse est connue, en modlisation linaire adaptative,
..... sous les termes d output error ou observateur
xp(k-1) xp(k-n+1) parallle [NARENDRA 1989].
....
Puisque la sortie, linstant k, nest affecte que par le
q-1 bruit ce mme instant, le modle recherch ne doit
pas faire intervenir les valeurs passes de la grandeur
..... ..... .... modliser. Considrons donc un rseau de neurones
xp(k-n)
xp(k-2) boucl, reprsent sur la figure 2-64, rgi par lquation
b(k) u(k-1) u(k-m)
xp(k-1)
g ( k ) = RN ( g ( k 1) ,..., g ( k n ) , u ( k 1) ,..., u ( k m ) , w )
Figure 2-63. Hypothse bruit de sortie
Les rseaux de neurones
161
CHAPITRE 2
Utilisation du modle
Contrairement au cas prcdent, ce modle peut tre utilis comme simulateur dans des conditions optimales. Il peut aussi, bien sr, tre
utilis comme prdicteur un pas.
Illustration
Avant de continuer passer en revue les principales hypothses possibles, on va illustrer limportance du
choix du modle en fonction de la manire dont le bruit intervient dans le processus. Cette illustration est
tire de [NERRAND 1992] et de [NERRAND 1994].
Modlisation dun processus avec bruit de sortie
Considrons un processus, simul sur ordinateur, qui obit aux quations suivantes :
T c + dx p ( k 1)
x p ( k ) = 1 x p ( k 1) + T u ( k 1) ,
a + bx p ( k 1) a + bx p ( k 1)
p
y ( k ) = x p ( k ) + b ( k )
avec a = 0,139, b = 1,2, c = 5,633, d = 0,326, et une priode dchantillonnage T = 0,1 s. b(k) est un
bruit blanc damplitude maximale 0,5. Il sagit donc dun processus avec bruit de sortie. La figure 2-65
montre la rponse du processus simul une squence de crneaux pseudo-alatoires.
Lapprentissage statistique
162
Amplitude
6
ce type de bruit ; on effectue lapprentissage en fonction
4
dune hypothse retenue, et lon compare les rsultats de u
Erreur de modlisation
montre lerreur de modlisation aprs apprentissage 0,4
dun rseau de neurones boucl 5 neurones cachs. 0,2
On observe que lerreur de modlisation est un bruit 0
blanc damplitude 0,5 : on vrifie que, ayant effectu
-0,2
lhypothse exacte et ayant choisi la structure du
-0,4
modle en consquence, lerreur de modlisation est
bien gale au bruit, ce qui constitue le meilleur rsultat 0 100 200 300 400 500 600 700
de modlisation que lon puisse obtenir. Temps (0,1 sec)
Figure 2-66. Erreur de modlisation dun processus
Hypothse bruit dtat avec bruit de sortie aprs apprentissage
Considrons prsent lhypothse (inexacte) avec hypothse bruit de sortie
selon laquelle le bruit serait un bruit dtat.
Conformment cette hypothse, effectuons
Erreur de modlisation
0,4
lapprentissage dun rseau de neurones non
boucl, 5 neurones cachs. La figure 2-67 0,2
reprsente lerreur de modlisation : on vrifie 0
que son amplitude est suprieure 0,5. Le
rsultat est donc moins bon quavec lhypo- -0,2
thse bruit de sortie , ce qui est normal -0,4
puisque cette hypothse est inexacte. Souli-
gnons quil ne sagit pas ici dun problme 0 100 200 300 400 500 600 700
Temps (0,1 sec)
technique (trop ou trop peu de neurones cachs,
algorithme doptimisation inefficace, erreur de Figure 2-67. Erreur de modlisation dun processus avec bruit
programmation), mais dun problme de sortie aprs apprentissage avec lhypothse bruit dtat
fondamental : mme avec le meilleur algo-
rithme dapprentissage possible, et une structure de rseau de neurones parfaitement adapte, on ne pour-
rait pas obtenir une erreur de modlisation gale au bruit, puisque lon a fait une hypothse errone sur le
bruit.
Modlisation dun processus avec bruit dtat
Considrons prsent un processus, simul sur ordinateur, qui obit lquation suivante :
T p c + dy p ( k 1)
y p ( k ) = 1 y ( k 1) + T u ( k 1) + b ( k )
a + bx p ( k 1) a + by ( k 1)
p
Les rseaux de neurones
163
CHAPITRE 2
Il sagit donc dun processus avec bruit dtat, dont la partie dterministe est la mme que dans le cas
prcdent : elle sera donc modlise par un rseau de neurones cinq neurones cachs, comme prcdem-
ment. Faisons nouveau successivement les deux hypothses bruit de sortie et bruit dtat .
Hypothse bruit de sortie 1,5
Erreur de modlisation
Considrons tout dabord lhypothse 1,0
(inexacte) selon laquelle le bruit serait un bruit
de sortie. On a vu que le modle idal est alors 0,5
un modle boucl. La figure 2-68 montre lerreur 0
de modlisation aprs apprentissage dun
rseau de neurones boucl 5 neurones cachs. -0,5
On observe que lerreur de modlisation ne se -1,5
prsente pas du tout comme un bruit blanc : il 0 100 200 300 400 500 600 700
est manifeste que lerreur de modlisation Temps (0,1 sec)
contient de linformation que lapprentissage
Figure 2-68. Erreur de modlisation dun processus avec bruit
du modle na pas permis dapprhender. L dtat aprs apprentissage avec lhypothse bruit
encore, cet chec nest pas d une raison tech- de sortie
nique (modle insuffisamment complexe,
apprentissage inefficace) : cest lhypothse sur le bruit, donc la structure du modle (ici, modle
boucl), qui est en cause.
Hypothse bruit dtat
Erreur de modlisation
0,4
Faisons enfin lhypothse (exacte) selon laquelle le 0,2
bruit serait un bruit dtat. Le modle idal est alors un
0
rseau non boucl. La figure 2-69 montre que lerreur
-0,2
de modlisation a bien toutes les caractristiques dun
bruit blanc damplitude 0,5 : on a bien obtenu un -0,4
prdicteur idal. 0 100 200 300 400 500 600 700
(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k 1) ,...b ( k p ) )
y (k ) = xp (k ) + b(k )
p
reprsent sur la figure 2-70. On nomme parfois cette hypothse NARMAX (Non linaire Auto-Rgressif
Moyenne Ajuste et entres eXognes).
Il faut cette fois que le modle tienne compte simultanment des valeurs passes de la sortie du processus et des
valeurs passes de la sortie du modle. Considrons donc un rseau de neurones boucl, rgi par lquation
(
g ( k ) = RN y p ( k 1) ,...y p ( k n ) , u ( k 1) ,..., u ( k m ) , r ( k 1) ,..., r ( k p ) , w )
o r(k) = yp(k) g(k) (figure 2-71). Supposons que lon ait effectu lapprentissage du rseau de neurones
RN de telle manire quil ralise exactement la fonction . Supposons de plus que lerreur de prdiction
Lapprentissage statistique
164
soit gale au bruit aux p premiers instants : yp(k) g(k) = b(k) pour k = 0 p 1. On a alors
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que lerreur de modlisation soit gale au bruit :
cest donc le modle idal, puisquil modlise parfaitement tout ce qui est dterministe dans la reprsen-
tation, et ne modlise pas le bruit.
yp(k)
g(k)
r(k)
+ ...... r(k-p+1)
xp(k) xp(k-1) xp(k-n+1) .... yp(k)
r(k-1)
q-1 RN q-1
x ( k ) = ( x ( k 1) , u ( k 1)) yp(k)
y ( k ) = ( x ( k )) + b ( k )
comme reprsent sur la figure 2-72 pour un modle du
deuxime ordre.
Le bruit nintervenant que dans lquation dobserva-
tion, il na aucune influence sur la dynamique du
modle. Pour des raisons analogues celles qui ont t
dveloppes dans le cas des reprsentations entre- xp1(k)
sortie, le modle idal est un modle boucl, reprsent xp2(k)
sur la figure 2-73 :
x ( k ) = RN ( x ( k 1) , u ( k 1))
y ( k ) = RN ( x ( k )) q-1
x ( k ) = ( x ( k 1) , u ( k 1) , b ( k 1)) g(k)
y ( k ) = ( x ( k ))
Alors, par un argument analogue celui qui a t dve- RN
lopp pour les modles entre-sortie, le modle idal
devrait avoir pour entres, outre les entres de
commande u, les variables dtat du processus. Deux
cas peuvent alors se prsenter : x1(k)
ces variables sont mesures : on peut alors les consi-
x2(k)
drer comme des sorties, et lon est alors ramen un
modle entre-sortie ; le modle est un modle non
boucl, qui peut tre utilis essentiellement comme
prdicteur un pas ; RN
ces variables ne sont pas mesures : on ne peut pas
construire le modle idal ; il convient soit dutiliser q-1
une reprsentation entre-sortie (bien quelle soit
moins parcimonieuse quun modle dtat), soit
dutiliser un modle boucl, non optimal.
x2(k-1)
Hypothse bruit de sortie et bruit dtat u(k)
(reprsentation dtat) x1(k-1)
Supposons enfin que le processus puisse tre dcrit Figure 2-73. Modle idal pour une reprsentation
correctement par les quations : dtat avec lhypothse bruit de sortie
Lapprentissage statistique
166
x ( k ) = ( x ( k 1) , u ( k 1) , b1 ( k 1))
y ( k ) = ( x ( k ))
L encore, deux cas peuvent se prsenter :
si les variables dtat sont mesures, on peut les considrer comme des sorties, et lon est ramen au cas
dune reprsentation entre-sortie, considr prcdemment ;
si les variables dtat ne sont pas mesures, le modle idal doit faire intervenir la fois ltat et la sortie
mesure du processus ; il est donc de la forme :
(
x ( k ) = x ( k 1) , u ( k 1) , y p ( k 1) )
y ( k ) = ( x ( k ))
Tableau 2-2. Consquences des hypothses de bruit sur lapprentissage des modles dtat dynamiques
x ( k + 1) = ( x ( k ) , u ( k ))
g ( k + 1) = ( x ( k ) , u ( k ))
Les rseaux de neurones
167
CHAPITRE 2
o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat du
modle linstant k+1, connaissant ltat du modle et ses variables externes linstant k, et o les fonc-
tions vectorielles F et y sont ralises par un ou plusieurs rseaux de neurones non boucls. est lordre
de la forme canonique. Cette forme est donc la reprsentation dtat minimale ; si le vecteur dtat est de
la forme
g(k )
g(k ) = g(k 1)
M
g(k v + 1)
x = u ( k ) , u ( k 1) ,..., u ( k m + 1) , y p ( k ) , y p ( k 1) ,..., y p ( k n + 1) T
k
yk = y ( k + 1)
p
(
J (w ) = y p ( k ) g ( xk , w ) )
2
k =1
par rapport aux paramtres w du rseau non boucl de Rseau de neurones non boucl
la forme canonique. de la forme canonique
Le pige du prdicteur stupide
En apprentissage dirig, le modle prend en considration, chaque
pas de temps, les valeurs de la grandeur modliser mesures sur le ..... .....
processus. Il est donc trs facile dobtenir des rsultats qui peuvent
donner limpression dune grande qualit, surtout si lon se contente u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
destimer graphiquement celle-ci en superposant la courbe relle et la Figure 2-75. Apprentissage dirig dun modle
courbe prdite. Cela peut tre trompeur : en effet, un prdicteur dynamique sous forme canonique
stupide constitu dun simple retard dune unit de temps, cest--
dire un prdicteur qui prdit que la sortie linstant k + 1 sera gale
la sortie mesure linstant k, peut galement donner dexcellents rsultats : il suft pour cela que la sortie du processus varie peu entre
deux instants dchantillonnage. Il est donc trs important, lorsque lon a effectu un apprentissage dirig, de comparer la prcision du
modle obtenu celle du prdicteur stupide . Les dsillusions sont frquentes...
temps. Le vecteur des sorties de la copie k constitue le vecteur des variables de la copie suivante, corres-
pondant linstant k+1. Le dpliement temporel pour lapprentissage dun rseau dordre 2, avec m = 1,
laide dune squence de longueur N, est reprsent sur la figure 2-77.
Le concepteur doit choisir le vecteur des variables linstant initial. Si la grandeur modliser est connue
au cours des n premiers instants, il est naturel de prendre ces valeurs pour ltat initial. Les valeurs de la
grandeur modliser ninterviennent donc que pour linitialisation : cest la raison pour laquelle cet algo-
rithme est appel semi-dirig, par opposition aux algorithmes dirigs qui sont utiliss pour les rseaux non
boucls, dans lesquels les mesures effectues sur le processus interviennent tous les instants (figure 2-75).
Remarque trs importante
Toutes les copies tant identiques, il fautt utiliser la technique des poids partags, dcrite plus haut.
Vecteur des prdictions
linstant k +1 et aux n -1 instants prcdents
...... ......
u(k) u(k-m+1) g(k) g(k-1) g(k-n+2) g(k-n+1)
g(N)
u(N)
Rseau non boucl g(N-1) g(N-2) Figure 2-77.
Dpliement
g(2) g(1) temporel pour
u(k+1) g(k+1) g(k)
lapprentissage
semi-dirig
Rseau non boucl
Rseau non boucl dun rseau
dynamique
u(1) g(1) g(0) dordre 2
u(k)
g(k) g(k-1) sous forme
canonique,
Rseau non boucl avec m = 1
u(0)
g(0) g(0)
Lapprentissage statistique
170
Hypothse NARMAX
Le prdicteur tant boucl, son apprentissage ncessite, comme dans le cas prcdent, de dplier le
rseau en un grand rseau non boucl, compos de N copies identiques (cest--dire possdant toutes les
mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-78) sont :
le vecteur [u(k), ..., u(k-m+1)]T (on suppose, pour simplifier le schma, que le processus a une
seule variable de commande) ;
le vecteur [yp(k), ..., yp(k-n+1)]T ;
le vecteur des erreurs linstant k et aux p instants prcdents [r(k), ...,
r(k-p+1)]T.
Le vecteur de sortie de la copie k est le vecteur des erreurs linstant k+1 et aux p instants prcdents
[r(k+1), ..., r(k-p+2)]T. Le rseau ne calcule donc que r(k+1), les autres composantes du vecteur des
erreurs linstant k+1 tant dduites de celles du vecteur des erreurs linstant k par dcalage dune unit
de temps. Le vecteur des erreurs linstant k+1 entre dans la constitution du vecteur des variables de la
copie suivante, correspondant linstant k+1.
+
Figure 2-78.
g(k+1) yp(k+1) Copie k du rseau non boucl
de la forme canonique
pour lapprentissage
dun modle NARMAX
Rseau non boucl
de la forme canonique
Ce dernier vecteur constitue le vecteur des variables dtat de la copie suivante, correspondant linstant
k+1 (voir figure 2-79).
Pour linitialisation de la premire copie, le problme est plus dlicat que dans les cas prcdents, puisque
ltat initial nest pas connu. On peut, par exemple, prendre un vecteur nul.
Ltat ntant impos que pour la premire copie, il sagit encore dun algorithme semi-dirig.
......
u(k) x1(k) x2(k) xn(k)
Remarque
La remarque concernant le prdicteur stupide , formule propos de lapprentissage dirig des modles entre-sortie, sapplique
galement lapprentissage dirig des modles dtat.
tat prdit
linstant k+1
g(k+1)
x1(k+1) xn(k+1)
Figure 2-80.
Rseau non boucl Rseau non boucl Copie k pour lapprentissage
dun rseau dtat
comprenant deux rseaux
distincts pour ltat et pour
x1p(k) xnp(k) u(k) x1(k+1) xn(k+1) la grandeur modliser
comme indiqu au dbut de la section sur la modlisation dynamique bote noire , les modles dtat
sont plus gnraux et plus parcimonieux, mais dapprentissage moins ais, que les modles entre-
sortie; il est donc recommand dessayer dabord des modles entre-sortie, puis, si ceux-ci ne sont pas
satisfaisants, dessayer des modles dtat ;
des connaissances, mme trs sommaires, sur le processus modliser, fournissent souvent des indica-
tions sur la nature du bruit qui agit sur le processus ;
de mme, lobservation de la rponse du processus fournit souvent des indications concernant lordre
souhaitable pour le modle.
Pour illustrer cette dmarche de conception, on prsente ici un exemple : la modlisation bote noire
de lactionneur hydraulique dun bras de robot utilis pour lexploitation forestire. Les donnes ont t
recueillies par lUniversit de Linkping (Sude)2, et ont fait lobjet de modlisations bote noire
effectues par plusieurs quipes (voir notamment [SJBERG 1995]).
1,5
1 Commande u
0,5
0
Figure 2-81.
-0,5 Squences
dapprentissage
-1 et de test pour
la modlisation
-1,5 de lactionneur
0 200 400 (a) 600 800 1000 dun bras
de robot
Squence d'apprentissage Squence de test
4
Grandeur modliser yp
2
-2
-4
0 200 400 (b) 600 800 1000
La variable de commande est louverture de la vanne dadmission du liquide dans le vrin, et la grandeur
modliser est la pression hydraulique dans lactionneur. Deux squences dobservations sont
disponibles ; chacune delles comprend 512 points. La premire de ces squences est destine lappren-
tissage, la seconde au test. La figure 2-81(a) montre la squence des signaux de commande, et la figure 2-81(b)
reprsente les rponses correspondantes.
Remarque
Aucun ensemble de validation ntant fourni, les performances indiques sont les meilleures performances obtenues sur lensemble de test.
2. Ces donnes proviennent de la Division of Oil Hydraulics and Pneumatics, Dept. of Mechanical Eng., Linkping University, et
nous ont t aimablement communiques par P.-Y. Glorennec (IRISA, Rennes).
Lapprentissage statistique
174
Tout dabord, on observe facilement que le modle doit tre non linaire pour rendre compte des
observations : par exemple, des commandes dont les amplitudes sont dans un rapport 2 (par exemple les
variations rapides prsentes aux instants 10 et 380 environ) nentranent pas des rponses dans un rapport 2.
On ne dispose ici daucune indication sur la physique du dispositif, et notamment sur les sources de
perturbation. Il faut donc tester les hypothses de bruit dtat et de bruit de sortie.
De plus, les rponses des variations brusques (par exemple au voisinage de linstant 220) suggrent que
le modle doit tre dordre suprieur 1.
Enfin, lapplication ne ncessitant pas un apprentissage adaptatif, seuls les apprentissages non adaptatifs
seront envisags.
Modlisation entre-sortie
Comme indiqu plus haut, la modlisation entre-sortie est plus simple mettre en uvre que la modli-
sation dtat : cest donc celle que lon essaie en priorit. En labsence de toute connaissance sur le
processus, il faut faire successivement les hypothses de bruit dtat (apprentissage dirig dun modle
non boucl, modle NARX), de bruit de sortie (apprentissage semi-dirig dun modle boucl), et de
prsence simultane des deux (apprentissage avec prsence simultane, en entre, des prdictions du
modle et des mesures de la sortie du processus).
Les hypothses faisant intervenir un bruit dtat donnent des rsultats de trs mauvaise qualit lorsquils
sont utiliss comme simulateurs, cest--dire si on leur demande une prdiction plus dun pas de temps ;
ils ne seront pas prsents ici. On ne prsente que les rsultats obtenus par modlisation par apprentissage
semi-dirig dun modle boucl. Le meilleur modle est un modle dordre 2, 3 neurones cachs avec
fonction dactivation sigmode, avec un horizon de 1 sur lentre. Son quation est donc :
g ( k ) = RN ( g ( k 1) , g ( k 2 ) , u ( k 1) ,w )
Modlisation dtat
Compte tenu des rsultats obtenus avec les modles entre-sortie, on cherche concevoir des modles
dordre 2. Deux possibilits se prsentent :
modles deux variables dtat (non mesures dans cette application) ;
modles dont la prdiction constitue une des variables dtat (une des variables dtat est donc mesure).
L encore, les modles dont lapprentissage est effectu laide dun algorithme dirig (hypothse bruit
dtat ) donnent de trs mauvais rsultats lorsquils sont tests en simulateurs.
Le tableau 2-3 prsente les meilleurs rsultats obtenus aprs apprentissage semi-dirig mettant en uvre
lalgorithme de Levenberg-Marquardt, pour un rseau trois neurones cachs.
EQMA EQMT
Rseau sans variable dtat mesure 0,091 0,18
Rseau dont une des variables dtat est la sortie 0,071 0,12
Tableau 2-3. Rsultats obtenus aprs apprentissage semi-dirig avec optimisation par lalgorithme de Levenberg-Marquardt
(trois neurones cachs)
Les rseaux de neurones
175
CHAPITRE 2
Le meilleur modle est donc le rseau dont la sortie est une des variables dtat. Son quation est
x1 ( k ) = 1RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))
x2 ( k ) = RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))
2
g ( k ) = x2 ( k )
Remarque
notre connaissance, ces rsultats sont les meilleurs rsultats publis sur cette application. On peut en trouver le dtail, ainsi que des
rsultats obtenus avec des rseaux dondelettes, dans [OUSSAR 1998].
Proprit
Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle sappliquent directement les algorithmes dcrits dans les para-
graphes prcdents. Ces derniers sont donc compltement gnriques, en ce sens quils sappliquent
nimporte quelle structure de rseau boucl, sous rserve davoir pralablement ramen celle-ci
une forme canonique.
Lapprentissage statistique
176
On va donc montrer comment, tant donne une structure arbitraire de rseau, provenant, par exemple,
dune modlisation de connaissance, on peut trouver la forme canonique correspondante. Cette opration
peut se dcomposer en deux tapes :
dtermination de lordre du rseau ;
dtermination dun vecteur dtat et de la forme canonique correspondante.
Rappel
Lorsquon procde une modlisation purement bote noire , cest--dire que lon ne dispose daucun modle mathmatique, mme
approximatif, dont on dsire sinspirer pour concevoir le modle, on utilise directement la forme canonique : le problme de la mise sous
forme canonique ne se pose pas.
Dfinition
Forme canonique
On appelle forme canonique dun rseau de neurones boucl la forme dtat minimale
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1))
o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat
du modle linstant k+1, connaissant ltat du modle et ses entres linstant k, et o les fonctions
F et Y sont des fonctions qui peuvent notamment tre ralises par des rseaux de neurones non
boucls.
est lordre de la forme canonique. Il savre commode, mais pas obligatoire, dutiliser un seul
rseau de neurones pour raliser le prdicteur, dont les variables sont les variables externes et
les variables dtat un instant donn, et les sorties sont les variables dtat et les prdictions
linstant suivant (voir figure 2-6).
x = ( x , x , x , u )
2 1 1 2 3
x 2 = 2 ( x 1, x 3 )
x3 = 3 ( x 1, x 2 )
g = x 3
Un quivalent, en temps discret, de ces quations, tabli laide de la mthode dEuler, est donn par des
relations de la forme :
Les rseaux de neurones
177
CHAPITRE 2
x1 ( k + 1)) = 1 ( x1 ( k ) , x1 ( k 1) , x2 ( k 1) , x3 ( k 1) , u ( k 1))
x2 ( k + 1) = 2 ( x2 ( k + 1) , x3 ( k + 1))
x3 ( k + 1) = 3 ( x3 ( k ) , x3 ( k 1) , x1 ( k 1) , x2 ( k ) , x2 ( k 1))
g ( k + 1) = x3 ( k + 1)
Rappel
La mthode de discrtisation dEuler consiste remplacer la drive f(t) dune fonction linstant kT (o T est la priode dchantillonnage
et k un entier positif) par lexpression approche [f(kT) f((k 1)T)] / T. Dans la section consacre la modlisation bote grise , on
reviendra en dtail sur les problmes de discrtisation des quations diffrentielles dun modle temps continu.
Il est clair que ces quations ne sont pas sous une forme canonique. Il est souhaitable, pour la clart de
lanalyse du rseau, et pour faciliter lapprentissage si les fonctions inconnues sont paramtres, de
connatre le nombre minimal de variables qui permettent de dcrire ce modle, et de le mettre sous forme
canonique. Il faut noter que cette forme canonique nest pas unique : pour un rseau donn, on peut gn-
ralement trouver plusieurs formes canoniques, qui, bien entendu, ont toutes le mme nombre de variables
dtat.
Il savre intressant de reprsenter cette structure par le graphe du rseau, dont les nuds sont
les neurones, et les artes les connexions entre neurones ; on attribue chaque arte une longueur qui est
le retard (exprim en multiple entier, ventuellement nul, de la priode dchantillonnage) associ celle-
ci, et une direction (qui est celle de la circulation de linformation dans la connexion considre). La
longueur dun chemin dans le graphe est gale la somme des longueurs des artes de ce chemin.
Attention
Pour quun rseau de neurones temps discret soit causal, il ne doit pas possder de cycle de
longueur nulle.
Remarque
Un cycle dans un graphe est un chemin qui va dun nud lui-mme, sans passer deux fois par un autre nud, en respectant la direction
des artes. La longueur dun cycle est la somme des longueurs de ses artes.
En effet, si un cycle tait de longueur nulle, cela signifierait que la valeur de la sortie dun neurone du
rseau un instant donn dpendrait de la valeur de cette mme sortie au mme instant.
La figure 2-82 montre une reprsentation des quations du modle sous forme du graphe dun rseau de
neurones boucl ; les nuds 1, 2 et 3 reprsentent des neurones de fonction dactivation 1, 2 et 3,
respectivement, si ces dernires sont connues ; si elles ne le sont pas, chacun de ces nuds reprsente un
rseau de neurones non boucl ralisant une de ces fonctions. Les nombres reprsents dans des carrs
sont les retards associs chacune des connexions, exprims en nombre de priodes dchantillonnage.
Lapprentissage statistique
178
g(k+1)
2
0 2 Figure 2-82
Graphe
1 2 1 2 3 2 1 dun modle
2 0 dynamique
2
2
u(k)
On peut choisir comme vecteur dtat le vecteur z(k) = [x1(k), x2(k-1), x3(k), x3(k-1)]T. La forme canonique
correspondante est reprsente sur la figure 2-83.
g(k+1)
x3(k-1) x2(k)
q-1
2 2 q-1
Elle comprend un rseau non boucl avec trois neurones cachs (le neurone 1, et le neurone 2, qui est
dupliqu dans la forme canonique (avec des poids partags)), un neurone de sortie (le neurone 3), qui est
Les rseaux de neurones
179
CHAPITRE 2
un neurone dtat ; le neurone 1 est galement un neurone dtat. Le modle tant dordre quatre, il y a
quatre sorties dtat, relies aux entres dtat par des retards unit, reprsents par loprateur retard q1.
Remarque
Le rseau reprsent sur la gure 2-83 est strictement quivalent celui qui est reprsent sur la gure 2-82 : il sagit seulement dune
rcriture trs commode, qui permet, en premier lieu, de rendre la structure du modle plus lisible, et surtout dutiliser les algorithmes
dapprentissage conventionnels exposs plus haut, rendant ainsi inutile la conception dun algorithme dapprentissage spcique pour
chaque architecture de rseau.
Cette forme est bien une forme canonique du type reprsent sur la figure 2-6. Les dtails algorithmiques
de la mise sous forme canonique de ce modle sont donns dans [DREYFUS 1998].
chercheur possde sur le processus, condition que celles-ci puissent tre exprimes par des quations
algbriques ou diffrentielles. De surcrot, ce modle peut utiliser des fonctions paramtres, dont les
paramtres sont dtermins par apprentissage. Dans la mesure o lon met en uvre davantage de
connaissances expertes, les donnes exprimentales ncessaires pour estimer les paramtres dune
manire significative peuvent tre en quantit plus rduite.
= f ( x ( t ) , u ( t ))
dx
dt
y ( t ) = g ( x ( t ))
o x est le vecteur des variables dtat, y est le vecteur des grandeurs modliser, u est le vecteur des
signaux de commande, et o f et g sont des fonctions connues. Comme indiqu plus haut, ce modle peut
ne pas tre satisfaisant pour des raisons diverses : les fonctions f et g peuvent tre trop imprcises compte
tenu de lobjectif dutilisation du modle, ou mettre en jeu un trop grand nombre de paramtres, ou encore
ncessiter un temps de calcul trop grand, etc. Dans un modle semi-physique, les fonctions qui ne sont pas
connues avec suffisamment de prcision sont ralises par des rseaux de neurones dont on effectue
lapprentissage partir de donnes exprimentales, tandis que les fonctions qui sont connues dune
manire fiable sont conserves sous forme analytique, ou encore mises sous la forme de neurones dont la
fonction dactivation est connue et ne fait pas intervenir de paramtres ajustables.
En gnral, la conception dun modle semi-physique comprend trois tapes :
tape 1 : obtention, partir du modle de connaissance, dun modle temps discret : cela ncessite le
choix dune mthode de discrtisation approprie ;
tape 2 : apprentissage du modle semi-physique, ou de parties de celui-ci, partir de donnes obtenues
par intgration numrique du modle de connaissance ; cette tape est en gnral ncessaire pour
obtenir de bonnes valeurs initiales des paramtres, qui sont utilises lors de ltape suivante ;
tape 3 : apprentissage du modle semi-physique partir de donnes exprimentales.
Cette stratgie de conception de modle semi-physique va tre illustre au moyen dun exemple simple.
Exemple illustratif
Un modle de connaissance est dcrit par les quations suivantes :
dx1 ( t )
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
2
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )
Les rseaux de neurones
181
CHAPITRE 2
Les variables dtat x1 et x2 sont mesurables. La figure 2-84 montre la rponse du processus deux
squences dentre ; dans tout ce paragraphe, la squence de gauche est utilise comme ensemble
dapprentissage, et la squence de droite comme ensemble de test.
5 5
y(t) y(t)
4,5 4,5
(ensemble dapprentissage)
4 4
Grandeur modliser
Grandeur modliser
(ensemble dde test)
3,5 3,5
3 3
2,5 2,5
2 2
1,5 1,5
1 u(t) 1 u(t)
0,5 0,5
0 0
0 1000 2000 3000 4000 0 1000 2000 3000 4000
Temps Temps
(a) (b)
Figure 2-84. Rponse du processus deux squences dentre : a) squence dapprentissage, b) squence de test
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2
x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))
Le rseau de neurones semi-physique le plus simple est alors dcrit par les quations suivantes :
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2
x2 ( k + 1) = x2 ( k ) + T ( wx1 ( k ))
o w est un paramtre qui est estim par apprentissage partir des donnes exprimentales. Ces quations
sont sous la forme conventionnelle dun modle dtat : il nest donc pas ncessaire de les mettre sous
forme canonique ; si ce ntait pas le cas, il faudrait avoir recours la technique de mise sous forme cano-
nique dcrite prcdemment. Le rseau ainsi obtenu est reprsent sur la figure 2-86.
Pour simplifier les schmas, lentre constante (biais) ne y(k+1)
sera pas reprsente ; de plus, le temps discret kT sera
simplement not k. Sur la figure 2-86, le neurone 1 ralise x1(k+1) x2(k+1)
une somme pondre s de x1(kT) et x2(kT) avec les poids
3 4
indiqus sur la figure, puis la non-linarit s2, et ajoute
u(kT). Le neurone 2 multiplie son entre par le paramtre
1 T T 1
w. Les neurones 3 et 4 ralisent simplement des sommes
pondres. Si w valait 8,32, les rsultats du modle
1 q-1
seraient exactement les rsultats de lintgration num- 2
rique du modle de connaissance par la mthode dEuler
1 1 2 w
explicite, avec un pas dintgration gal T. Si w est un
paramtre ajustable, sa valeur peut tre estime partir de
donnes exprimentales par apprentissage, en utilisant un
des algorithmes vus plus haut (par exemple, un algo-
u(k) x1(k) x2(k)
rithme semi-dirig si lon suppose que le bruit qui inter-
vient dans le processus est un bruit de sortie). Le para- Figure 2-86. Forme canonique du modle
mtre w serait videmment initialis 8,32 avant de connaissance discrtis par la mthode dEuler
lapprentissage. On peut remarquer que, dans ce cas trs explicite
simple, ltape 2 de lalgorithme nest pas mise en uvre.
La figure 2-87 montre lerreur de modlisation, sur lensemble de test, pour ce modle semi-physique
lmentaire. Lerreur quadratique sur la squence de test vaut 0,08 (contre 0,17 pour le modle de
connaissance) ; dans la mesure o la variance du bruit est de 0,01, on peut penser que le modle peut tre
amlior.
Pour essayer damliorer le modle, on peut donc considrer le deuxime niveau de critique lgard du
modle de connaissance : le fait que le membre de droite de la seconde quation dtat pourrait tre une
fonction non linaire de x1. cet effet, on remplace donc le neurone 2 de la figure 2-86 par un rseau de
neurones statique dont lentre est x1. Le modle qui en rsulte est reprsent sur la figure 2-88, avec
trois neurones cachs (et donc, 6 paramtres ajustables reprsents sur la figure, et 4 paramtres ajustables
relatifs au biais, non reprsents).
Le rseau de neurones non boucl, constitu des neurones non numrots sur la figure 2-88, peut subir un
apprentissage partir de donnes engendres par intgration du modle de connaissance (tape 2 de la
procdure) : bien que ces valeurs ne soient pas trs prcises, les valeurs des paramtres ainsi obtenues
peuvent tre utilises avec profit pour initialiser lapprentissage du modle partir de valeurs exprimentales.
Les rseaux de neurones
183
CHAPITRE 2
y(k+1)
1,5
x1(k+1) x2(k+1)
1
3 44
Ereur de modlisation
0,5 T
1 T 1
0 w 4 w5 w6
1 q-1
-0,5
w1 w2 w3
1
-1
1 2
-1,5
0 500 1000 1500 2000 2500 3000 3500 4000
u(k) x1(k) x2(k)
Temps
Figure 2-87. Erreur de modlisation sur lensemble Figure 2-88. Forme canonique dun modle semi-
de test physique
La figure 2-89 montre lerreur de modlisation obtenue avec ce modle, en utilisant deux neurones dans
la couche cache du rseau bote noire non boucl. Lerreur quadratique moyenne sur lensemble de
test devient gale 0,02, ce qui constitue une amlioration importante par rapport au modle prcdent.
y(k+1)
1,5
x1(k+1) x2(k+1)
1 3 44
Erreur de modlisation
T
0,5
1 T 1
0
1 q-1
-0,5
-1
1 1 2
-1,5
0 1000 2000 3000 4000
Temps u(k) x1(k) x2(k)
Figure 2-89. Erreur de modlisation sur lensemble Figure 2-90. Forme canonique dun modle semi-
de test physique
Les rsultats ntant pas encore satisfaisants (lerreur quadratique sur lensemble de test est deux fois plus
grande que la variance du bruit), on peut mettre en uvre un rseau qui rponde au troisime niveau de
critique mise contre le modle de connaissance : la seconde quation dtat est non linaire par rapport
x1 et par rapport x2. Ce modle est reprsent sur la figure 2-90 (avec trois neurones cachs).
Lapprentissage statistique
184
Erreur de modlisation
dent. La variance de lerreur de modlisation tant 1
gale la variance du bruit (voir figure 2-91), le
0,5
modle peut tre considr comme satisfaisant.
0
Discrtisation du modle
de connaissance -0,5
x ( k + 1) = ( x ( k ) , T )
o T est le pas de discrtisation qui est, le plus souvent, gal la priode dchantillonnage des donnes
exprimentales ;
o k est un entier positif ;
et o la fonction dpend de la technique de discrtisation choisie (on verra au paragraphe suivant des
exemples de techniques de discrtisation).
Un schma de discrtisation implicite transforme la mme quation diffrentielle en une quation
temps discret de la forme suivante :
x ( k + 1) = x ( k + 1) , x ( k ) , T .
La diffrence essentielle entre ces deux formes rside en ceci que la quantit x[(k+1)T] est prsente
uniquement dans le membre de gauche, si lon utilise un schma explicite, tandis que ce terme est prsent
dans les deux membres, si lon utilise un schma implicite. En consquence, si lon veut raliser un
prdicteur un pas, cest--dire un modle qui permette de calculer les quantits linstant (k+1)T,
connaissant les quantits linstant kT, il faut rsoudre une quation non linaire lorsquon utilise un
schma implicite, alors que le calcul est immdiat si lon utilise un schma explicite.
Les rseaux de neurones
185
CHAPITRE 2
De faon plus gnrale, considrons un ensemble dquations dtat crit sous la forme vectorielle :
dx ( t )
= f ( x ( t ) , u ( t ))
dt
K x ( k ) x ( k + 1) + x ( k ) , u ( k ) , T = 0
o K est une matrice et Y est une fonction vectorielle qui dpendent de la technique de discrtisation
utilise, tandis que, si un schma implicite est mis en uvre, les quations discrtises peuvent tre mises
sous la forme gnrale :
K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0
L encore, on observe que le calcul du vecteur dtat x[(k+1)T] partir de ltat et des variables linstant
kT est immdiat si lon utilise un schma explicite (si la matrice K est inversible) :
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T
alors quil ncessite la rsolution dun systme dquations non linaires si lon utilise un schma impli-
cite.
Exemples
dx
Reprenons lexemple de lquation diffrentielle du premier ordre = f x ( t ) , u ( t ) .
dt
La mthode dEuler explicite consiste considrer que la fonction f est constante, gale f x ( kT ) entre
les instants kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T donne
immdiatement :
x ( k + 1) = x ( k ) + Tf x ( k )
En revanche, le schma dEuler implicite consiste considrer que la fonction f est constante, gale
f x ( k + 1) T entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T
donne immdiatement :
x ( k + 1) = x ( k ) + Tf x ( k + 1)
De mme, la mthode des trapzes (ou mthode de Tustin) consiste considrer que la fonction f varie
linairement entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle donne :
f ( x ( k + 1)) + f ( x ( k )) .
T
x ( k + 1) = x ( k ) +
2
Cette mthode est donc une mthode implicite, puisque des valeurs des grandeurs linstant (k+1)T appa-
raissent dans les deux membres de lquation : le calcul de x(k+1) ncessite la rsolution dune quation
algbrique non linaire.
Lapprentissage statistique
186
Application
Considrons le modle de connaissance trait plus haut, dcrit par les quations :
dx1 ( t )
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
2
dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )
Il est facile de vrifier que sa discrtisation par la mthode dEuler explicite donne :
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2
x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))
x2 ( k + 1) T ( 8, 32 x1 ( k + 1)) = x2 ( k )
K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0
avec :
et :
x ( k ) + Tu ( k + 1)
x ( k + 1) , x ( k ) , u ( k + 1) , T = 1
x2 ( k )
du ( t )
= u ( t ) , > 0
dt
Les rseaux de neurones
187
CHAPITRE 2
Ainsi, u(k + 1) se dduit de u(0) par une progression gomtrique de raison (1 T), qui converge si, et
seulement si, sa raison est infrieure 1, soit T < 2/. Le temps de calcul ncessaire pour intgrer num-
riquement cette quation est donc proportionnel 1/ : si la quantit est trs petite, le temps de calcul
peut tre prohibitif car le pas dchantillonnage doit tre trs fin.
Considrons prsent la discrtisation de la mme quation par la mthode dEuler implicite ; on obtient
alors :
u ( k + 1) u ( k )
= u ( k + 1),
T
soit encore :
1
u ( k + 1) = u(k)
1 + T
Comme le dnominateur du membre de droite est ncessairement suprieur 1, la raison de la progression
gomtrique est infrieure 1 : elle converge donc quelle que soit la valeur de . Ainsi, le choix du pas
dchantillonnage peut tre effectu indpendamment de la valeur de .
Nanmoins, cette proprit se paie, comme cela a t indiqu plus haut, par le fait que, en gnral (et
contrairement lexemple trs simple ci-dessus), on ne peut pas calculer directement les valeurs des quan-
tits linstant (k + 1)T : il faut rsoudre une quation algbrique non linaire. Cela a des consquences
sur la forme du modle neuronal qui en rsulte.
Schmas explicites et schmas implicites : consquences sur larchitecture du modle
neuronal
Un modle de connaissance discrtis par un schma Variables d'tat
explicite est trs simple mettre sous la forme dun linstant k+1
rseau de neurones boucl : comme cela a t vu plus x(k+1)
haut, on a
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T Rseau de neurones non boucl
q-1 q-1
ce qui est directement la forme canonique dun rseau
de neurones boucl comme cela est reprsent sur la
figure 2-92, o le rseau de neurones non boucl
x(k)
ralise une approximation de la fonction K1 . u(k-1)
Lexemple didactique prsent plus haut est un
Signaux de commande Variables d'tat
exemple de ralisation dun modle semi-physique linstant k-1 linstant k
partir dun modle physique discrtis par une Figure 2-92. Forme canonique du rseau obtenu
mthode explicite. par discrtisation avec un schma explicite
Lapprentissage statistique
188
Lorsque, pour des raisons de stabilit numrique voques plus haut, on met en uvre une mthode impli-
cite de discrtisation, la ralisation du modle semi-physique sous forme dun rseau de neurones boucl
est moins simple, mais elle est tout fait possible. La description de cette technique dpasse le cadre de
cet ouvrage. Le lecteur en trouvera une description dtaille dans [OUSSAR 2001].
Dans la pratique, lingnieur ou le chercheur, sil se doit davoir compris les fondements des outils quil
utilise ainsi que la mthodologie quil doit imprativement mettre en uvre sil veut obtenir des rsultats
fiables, na certainement ni le got ni le loisir de programmer lui-mme tous les algorithmes qui ont t
prsents. Il a donc le souci de choisir un bon outil pour atteindre ses objectifs.
lheure o ces lignes sont crites, deux types doutils de dveloppement sont disponibles :
des botes outils spcifiques aux rseaux de neurones, lintrieur doutils gnraux de calcul ;
typiquement, Matlab et SAS proposent des botes outils qui permettent un apprentissage et une mise
en uvre aise de rseaux de neurones non boucls ; leffort de programmation est trs rduit pour les
fonctions classiques, mais peut tre important, notamment pour la mise en uvre des lments de
mthodologie qui ne sont pas spcifiquement neuronaux (calcul des leviers, des intervalles de
confiance, du score de leave-one-out virtuel) ou pour celle des rseaux de neurones boucls ;
des outils de dveloppement spcifiques qui incluent une mthodologie complte, et pour lesquels
aucune programmation nest ncessaire ; cest le cas du logiciel franais NeuroOne3 ; ces logiciels
nautorisent pas linfinie varit de la programmation personnelle, mais ils permettent dobtenir rapide-
ment des rsultats dont la qualit dpend videmment de celle des algorithmes implants. Le CD-ROM
joint cet ouvrage propose une version dvaluation de ce logiciel.
Remarque
Il faut aussi mentionner des logiciels universitaires disponibles sur le Web, qui peuvent tre utiles pour une formation, mais qui ne sont pas
conseiller pour la ralisation dapplications ralistes, destines fonctionner en environnement industriel.
Lingnieur ou le chercheur choisira donc son outil en fonction de ses objectifs, de ses mthodes de
travail, des dlais et des obligations de rsultats auxquels il est soumis, et de lampleur de lapplication
raliser ; lidal est videmment de disposer des deux types doutils qui, dans bien des cas, se rvlent trs
complmentaires. En tout tat de cause, et quel que soit loutil mis en uvre, on ne saurait trop insister
sur limportance dune bonne comprhension des bases, et sur la ncessit absolue dune approche
mthodologique raisonne.
3. dit par NETRAL S.A. ; plusieurs illustrations et exemples dapplications de ce chapitre et du prcdent ont t raliss laide
de ce logiciel.
Les rseaux de neurones
189
CHAPITRE 2
Figure 2-93.
0,5 Sortie
dun neurone
3 variables
0 {x0=1, x1, x2}
y
munies
des paramtres
{w0=0, w1=+1,
-0,5 w2=-1}, dont
la fonction
dactivation
-1 est une tangente
hyperbolique :
5 y=th(x1-x2)
0 5
x2
0
x1
-5 -5
Lapprentissage statistique
190
0,8
0,2
0
2
1 2
0 1
0
-1 -1
-2 -2
Les rseaux de neurones
191
CHAPITRE 2
Algorithme de Ho et Kashyap
Lalgorithme de Ho et Kashyap permet de dterminer, en un nombre fini ditrations, si deux ensembles
dexemples sont linairement sparables ; dans laffirmative, cet algorithme fournit une solution (parmi
une infinit de solutions possibles). Contrairement certains algorithmes dvelopps dans le chapitre 6, il
ne fournit pas une solution optimise. Son intrt essentiel est donc de dterminer si deux classes sont
linairement sparables, ou si elles ne le sont pas ; dans laffirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes prsents dans le chapitre 6.
Considrons deux ensembles dexemples, appartenant deux classes A et B, en nombre na et nb ; si les
exemples sont dcrits par n descripteurs, chacun deux peut tre reprsent par un vecteur dans un espace
de dimension n. On dsigne par xkA le vecteur reprsentatif de lexemple k de la classe A (k = 1 na), et
par w le vecteur des paramtres du sparateur linaire ; si un tel sparateur existe, il doit obir aux
conditions :
Soit M la matrice dont les lignes sont les vecteurs reprsentatifs des exemples de A et les opposs des
vecteurs reprsentatifs des vecteurs de B. Un sparateur linaire existe si et seulement si il existe un
vecteur w tel que
Mw > 0
soit encore sil existe un vecteur y > 0 et un vecteur w tels que M w = y.
On a alors w = M* y, o M* est la matrice pseudo-inverse de la matrice M : M* = M T (M M T)1, qui peut
tre calcule par la mthode de Choleski [PRESS 1992].
Lalgorithme de Ho et Kashyap est le suivant :
Initialisation (itration 0) : w(0) = M* y(0) o y(0) est un vecteur positif quelconque
Itration i
(i) = M w(i) y(i)
y(i+1) = y(i) + ((i)+|(i)|) o est un scalaire positif infrieur 1
w(i+1) = w(i) + ((i)+|(i)|)
Si y(i) < 0 alors les exemples ne sont pas linairement sparables.
Si M w(i) >0 alors les exemples sont linairement sparables et w(i) est une solution.
Cet algorithme converge en un nombre fini ditrations.
Algorithme de BFGS
Lalgorithme de BFGS consiste modifier les paramtres, litration i de lalgorithme, par la relation
w ( i ) = w ( i 1) i Mi J ( w ( i 1))
o i est une constante positive, et o Mi est une approximation, calcule itrativement, de linverse de la
matrice hessienne ; elle est value chaque itration par la relation :
T M T T M + Mi 1 i 1 iT1
Mi = Mi 1 + 1 + i 1T i i 1 iT1 i 1 i 1 i 1 i 1T
i 1 i 1 i 1 i 1 i 1 i 1
Algorithme de Levenberg-Marquardt
Lalgorithme de Levenberg-Marquardt consiste modifier les paramtres, litration i, par la relation :
w ( i ) = w ( i 1) H ( w ( i 1)) + i I J ( w ( i 1)).
1
2 ek
T
e ek
N N
H ( w ( i )) = k + e,
k =1 w w = w( i )
w w=w(i ) k =1 wwT w=w(i ) k
Le second terme de cette expression tant proportionnel lerreur, on peut le ngliger en premire
approximation, ce qui fournit une expression approche :
g ( xk , w ) g ( xk , w )
T T
e ek
N N
H ( w ( i ) ) = k = .
k =1 w w = w( i )
w w=w(i ) k =1 w w = w( i )
w w=w(i )
Dans le cas dun modle linaire par rapport aux paramtres, g(xk, w) est une fonction linaire de w, donc
le second terme de lexpression de H est nul : lexpression qui t approche devient exacte.
Les rseaux de neurones
193
CHAPITRE 2
( A + BCD )1 = A1 A1 B ( C 1 + DA1 B)
1
DA1
g ( xk , w )
Par ailleurs, en posant k = , on peut construire rcursivement la matrice H en dfinis-
w w=w(i )
sant des matrices partielles H k , de dimension (k, k) par :
H k = H k 1 + Z k Z k , k = 1,, N
T
On a bien H = H N .
Si lon applique le lemme dinversion la relation prcdente en choisissant A = H , B = zk, C = I, et
D = kT , on obtient la relation suivante :
1 1
H k 1 k k H k 1
T
1 1
H k = H k 1 ----------------------------------
1
-
1 + k H k 1 k
T
1 1
En prenant, la premire tape (k = 1), H 0 = i I , on obtient, ltape N : H N = [ H + i I ] .
Inversion directe
Plusieurs mthodes directes dinversion existent. Comme lalgorithme est itratif, et que la procdure de
recherche du pas ncessite souvent plusieurs inversions de matrice, on a intrt utiliser une mthode
qui nengage pas trop de calculs. Comme lapproximation de la matrice hessienne augmente de i I
reste une matrice symtrique dfinie comme positive, il est avantageux dutiliser la mthode de
Cholesky [PRESS 1992].
Comme pour lalgorithme du gradient simple et celui de BFGS, le pas i doit tre ajust chaque itra-
tion. Une mthode de recherche unidimensionnelle peut tre utilise cet effet, comme indiqu dans la
section suivante.
Il faut noter que lexpression de la matrice hessienne de la fonction de cot ne sapplique que si la fonc-
tion optimiser est la fonction de cot des moindres carrs ; contrairement la mthode de BFGS, la
mthode de Levenberg-Marquardt ne peut donc pas sappliquer loptimisation de nimporte quelle fonc-
tion de cot, notamment la minimisation de la fonction de cot dentropie croise pour la classification.
ordre, on peut se contenter dune mthode assez rudimentaire. La mthode de Nash permet dobtenir des
rsultats satisfaisants : elle recherche un pas qui satisfasse une borne suprieure de la valeur de la fonction
de cot atteinte lissue de litration courante.
Plus prcisment, cette technique recherche un pas qui vrifie la condition de descente :
Complment thorique :
distance de Kullback-Leibler entre deux distributions gaussiennes
On cherche la distance de Kullback-Leibler entre deux gaussiennes (1, 1) et (2, 2).
On rappelle les relations suivantes :
+
1 ( x )2
exp dx = 1
2 2 2
+
1 ( x )2
x exp dx =
2 2 2
+
1 ( x )2
( x ) exp
2
dx =
2
2 2 2
Les rseaux de neurones
195
CHAPITRE 2
Cette expression ntant pas symtrique par rapport aux indices, on prfre calculer la quantit :
D ( p1 , p2 ) + D ( p2 , p1 )
=
2
Or
+
1 ( x 1 )2 1 ( x 1 ) ( x 2 )
2 2
D ( p1 , p2 ) = exp Log + dx
1 2 2 12 2 2 12 2 22
1
=
1 2
+ +
+
exp ( x 1 ) Log 1 dx exp ( x 1 ) ( x 1 ) dx + exp ( x 1 ) ( x 2 ) dx
2
2
2
2
2
2 12 2 2 12 2 12 2 12 2 22
( x 2 )2 = ( x 1 + 1 2 )2 = ( x 1 )2 + ( 1 2 )2 + 2 ( x 1 )( x 2 )
Do :
+
1 ( x 1 )2 ( x 2 )2 12
exp dx =
2 2 12 2 22 2 22
+
1 ( x 1 )2 2 ( x 1 ) ( 1 2 )
exp dx = 0
2 2 12 2 22
2 ( )
2
1
D ( p1 , p2 ) = Log 2 1 12 + 1 2 2
1 2 2 2 2
( 2
+ 22 )
=
1
4 12 22
( )
12 22 + ( 1 2 )2
Lapprentissage statistique
196
( )
1
hkk = zkT ZT Z zk
En tant qulments diagonaux dune matrice de projection orthogonale, les termes hkk, k = 1, , N ne
sont dfinis que dans le cas o Z est de rang plein, cest--dire si ZT Z est inversible. Dans ce cas, ils vri-
fient les proprits suivantes :
0 hkk 1 k
N
Une premire mthode de calcul des leviers consiste calculer la matrice ZT Z, linverser par une
mthode classique (Cholesky, dcomposition LU...), puis la multiplier droite et gauche par les
vecteurs zk et zkT. Cette mthode ne donne cependant de bons rsultats que si la matrice ZT Z est suffisam-
ment bien conditionne pour que son inversion se droule sans problme. Dans le cas contraire, ce calcul
donne des valeurs suprieures 1, voire ngatives.
Une meilleure solution consiste dcomposer la matrice Z sous la forme :
Z = U W VT
avec :
U matrice (N, p) telle que UT U = I,
W matrice (p, p) diagonale, dont les termes diagonaux, appels valeurs singulires de Z, sont positifs ou
nuls, et classs par ordre dcroissant,
V matrice (p, p) telle que VT V = V VT = I.
Cette dcomposition, connue sous le nom de dcomposition en valeurs singulires ou dcomposition
SVD (Singular Value Decomposition), est prcise et trs robuste, mme si la matrice Z est mal condi-
tionne ou de rang infrieur q (voir [PRESS 1992], et chapitre 3 sur les complments de mthodologie)
On obtient donc :
ZT Z = V W UT U W VT = V W 2 VT
Puis :
(ZT Z)-1 = V W -2 VT
Cette dcomposition permet donc le calcul direct de la matrice (ZT Z)1, dont les lments scrivent :
p
VlkVjk
( Z Z)
1
T
=
lj
k =1 Wkk2
( ) ( )
1 1
hkk = zkT ZT Z z k = Z kl Z kj ZT Z lj
k =1 j =1
Les rseaux de neurones
197
CHAPITRE 2
soit, finalement :
2
p 1 p
hkk = Z kjVji
i =1 Wij j =1
Cette mthode permet de calculer les leviers sans devoir procder explicitement aux calculs des termes de
la matrice (ZT Z)1, ce qui est important pour la prcision du calcul, dans le cas de matrices mal condition-
nes. Dun point de vue numrique, tant donn que les valeurs singulires de Z sont classes par ordre
dcroissant, il est conseill de calculer les leviers en faisant varier i de q 1, et non pas de 1 q.
Cette mthode de calcul fournit des termes systmatiquement positifs ou nuls.
Bibliographie
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BARTLETT P. L. [1997], For valid generalization, the size of the weights is more important than the size of
the network, Neural Information Processing Systems, 9, Morgan Kaufmann.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-
tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BISHOP C. [1993], Curvature-driven smoothing : a learning algorithm for feedforward networks, IEEE
Transactions on Neural Networks, 4, p. 882-884.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-
tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
BROYDEN C. G. [1970], The convergence of a class of double-rank minimization algorithms 2 : the new
algorithm, Journal of the Institute of Mathematics and its Applications, 6, p. 222-231.
CHEN S., BILLINGS S. A., LUO W., Orthogonal least squares methods and their application to non-linear
system identification, International Journal of Control, 50, p. 1873-1896.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-
tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DREYFUS G., IDAN Y. [1998], The canonical form of discrete-time nonlinear models, Neural Computa-
tion, 10, p. 133-164.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-
mation and Computer Sciences, 38, p. 586-594.
Lapprentissage statistique
198
FRASCONI P., GORI M., SPERDUTI A. [1998], A general framework for adapative processing of data struc-
tures, IEEE Transactions on Neural Networks, 9, 768-786.
GALLINARI P., CIBAS T. [1999], Practical complexity control in multilayer perceptrons. Signal
Processing, 74, p. 29-46.
GOODWIN G. C., SIN K. S. [1984], Adaptive Filtering Prediction and Control, Prentice-Hall, New Jersey.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2005], From Hopfied nets to recursive networks
to graph machines, Theoretical Computer Science, 344, p. 298-334.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2006], Graph Machines and Their Applications
to Computer-Aided Drug Design: a New Approach to Learning from Structured Data, Unconventional
Computing 2006, Lecture Notes in Computer Science, 4135, p. 1 19, Springer (2006).
GOULON-SIGWALT-ABRAM A., PICOT T., DUPRAT A., DREYFUS G. [2007], Predicting activities without
computing descriptors: graph machines for QSAR, SAR and QSAR in Environmental Resesarch, 18,
p. 141 - 153
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school,
p. 159-172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;
American Chemical Society.
HANSEN L.K., LARSEN J. [1996], Linear unlearning for cross-validation, Advances in Computational
Mathematics, 5, p. 269-280.
HAYKIN S. [1994], Neural Networks : a comprehensive approach, MacMillan.
HO E., KASHYAP R. L. [1965], An algorithm for linear inequalities and its applications, IEEE Transac-
tions on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and feedback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal
approoximators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramic Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications,
p. 41-50, Springer.
KNERR S. [1991], Un mthode nouvelle de cration automatique de rseaux de neurones pour la clas-
sification de donnes : application la reconnaissance de chiffres manuscrits, Thse de Doctorat de
l'Universit Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks with
single-layer training, IEEE Transactions on Neural Networks, 3, p. 962-968.
Les rseaux de neurones
199
CHAPITRE 2
KULLBACK S., LEIBLER R. A. [1951], On information and sufficiency, Annals of mathematical Statistics,
22, p. 79-86.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
KUO B. C. [1992], Digital Control Systems, Saunders College Publishing.
KUO B. C. [1995], Automatic Control Systems, Prentice Hall.
LAWRANCE A. J. [1995], Deletion, influence and masking in regression, Journal of the Royal Statistical
Society, B 57, p. 181-189.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
LEVENBERG K. [1944], A method for the solution of certain non-linear problems in least squares, Quar-
terly Journal of Applied Mathematics, 2, p. 164-168.
LEVIN A., NARENDRA K.S. [1993], Control of nonlinear dynamical systems using neural networks :
controllability and stabilization, IEEE Transaction on Neural Networks, 4, p. 1011-1020.
LJUNG L. [1987], System Identification; Theory for the User, Prentice Hall.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MCKAY D. J. C. [1992], A practical bayesian framework for backpropagation networks, Neural Compu-
tation, 4, p. 448-472.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training, International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MARQUARDT D. W. [1963], An algorithm for least-quares estimation of nonlinear parameters, Journal of
the Society of Industrial and Applied Mathematics, 11, p. 431-441.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Slection de modles non linaires par leave-one-out ; tude thorique et application
des rseaux de neurones au procd de soudage par points, Thse de Doctorat de l'Universit Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MONARI G., DREYFUS G. [2000], Withdrawing an example from the training set : an analytic estimation
of its effect on a non-linear parameterised model, Neurocomputing, 35, p. 195-201.
MONARI G., DREYFUS G. [2002], Local overfitting control via leverages, Neural Computation, 14,
p. 1481-1506.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation, 1, p. 281-294.
NARENDRA K. S, ANNASWAMY A. M. [1989], Stable Adaptative Systems, Prentice-Hall.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
NERRAND O. [1992], Rseaux de neurones pour le filtrage adaptatif, l'identification et la commande de
processus, thse de doctorat de lUniversit Pierre et Marie-Curie.
Lapprentissage statistique
200
NERRAND O., URBANI D., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks : why and how ? An illustration in process modeling, IEEE Transactions on Neural
Networks 5, p. 178-184.
OSADCHY M., LECUN Y., MILLER M. [2007], Synergistic Face Detection and Pose Estimation with
Energy-Based Models, Journal of Machine Learning Research, 8, p 1197-1215.
OUKHELLOU L [1997], Paramtrisation et Classification de Signaux en Contrle Non Destructif. Applica-
tion la Reconnaissance des Dfauts de Rails par Courants de Foucault, Thse de lUniversit de Paris
XI-Orsay.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-
tion: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
OUSSAR Y. [1998], Rseaux dondelettes et rseaux de neurones pour la modlisation statique et dyna-
mique de processus, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-
ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, 14, 1161-1172.
OUSSAR Y., MONARI G., DREYFUS G. [2004], Reply to the comments on Local Overfitting Control via
Leverages in Jacobian Conditioning Analysis for Model Validation by I. Rivals and L. Personnaz,
Neural Computation, 10, p. 419-443.
PLAUT D., NOWLAN S., HINTON G. E. [1986], Experiments on learning by back propagation, Technical
Report, Carnegie-Mellon University.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-
tific.
POGGIO T., TORRE V., KOCH C. [1985], Computational vision and regularization theory, Nature, 317,
p. 314-319.
POLLACK J. B. [1990], Recursive distributed representations, Artificial Intelligence, 46, p. 77-105.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-
bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of nonlinear dynamical systems with Kalman
Filter trained recurrent networks, IEEE Trans. on Neural Networks, 5, p. 279-297.
RIVALS I., PERSONNAZ L. [2000], Construction of confidence intervals for neural networks based on least
squares estimation, Neural Networks, 13, p. 463-484.
Les rseaux de neurones
201
CHAPITRE 2
RIVALS I., PERSONNAZ L. [2004], Jacobian conditioning analysis for model validation, Neural Computa-
tion, 16, p. 401-418.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and
intelligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles,
p. 137 142.
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones : application au pilo-
tage dun vhicule autonome, Thse de doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modlisation dun processus dynamique laide
de rseaux de neurones boucls. Application la modlisation de la relation pluie-hauteur deau dans un
rseau dassainissement et la dtection de dfaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
RUMELHART D. E., HINTON G. E., WILLIAMS R. J. [1986], Learning internal representations by error back-
propagation, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, p. 318-
362, MIT Press.
SAARINEN S., BRAMLEY R., CYBENKO G. [1993], Ill-conditioning in neural network training problems,
SIAM J. Sci. Stat. Comp., 14, p. 693-714.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-
ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
SJBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DELYON B. [1995], Nonlinear blackbox modeling in
system identification: a unified overview, Automatica, 31, p. 1691-1724.
SONTAG E. D. [1993], Neural networks for control, Essays on control : perspectives in the theory and its
applications, p. 339-380, Birkhuser.
STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Rseaux de neurones pour le traitement automatique du langage : conception et
ralisation de filtres d'informations, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Dispo-
nible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
TIBSHIRANI R. J. [1996], A comparison of some error estimates for neural models, Neural Computation,
8, p. 152-163.
TIKHONOV A. N., ARSENIN V. Y. [1977], Solutions of Ill-Posed Problems, Winston.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WAIBEL, HANAZAWA T., HINTON G., SHIKANO K., and LANG K. [1989], Phoneme recognition using time-
delay neural networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, 37, p. 328-339.
WERBOS P. J. [1974], Beyond regression : new tools for prediction and analysis in the behavioural
sciences, Ph. D. thesis, Harvard University.
Lapprentissage statistique
202
ZHOU G., SI J. [1998], A systematic and effective supervised learning mechanism based on jacobian rank
deficiency, Neural Computation, 10, p. 1031-1045.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using Learning-Based Filters to Detect Rule-based Filte-
ring Obsolescence, Confrence sur la Recherche dInformation Assiste par Ordinateur RIAO'2000,
Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.
3
Complments de mthodologie
pour la modlisation : rduction
de dimension et r-chantillonnage
Ce chapitre propose quelques complments la mthodologie de mise en uvre des rseaux de neurones.
Il apporte des lments de rponses des questions mthodologiques que le concepteur de modles se
pose lorsquil souhaite mettre en uvre un modle statistique utilisant des rseaux de neurones. En effet,
comme nous lavons soulign dans le chapitre prcdent, la conception dun modle neuronal ne se
rduit pas au choix du nombre de neurones dans la couche cache et la bonne excution dun algorithme
dapprentissage :
avant de mettre en uvre un rseau de neurones, ou tout autre modle statistique, il peut savrer nces-
saire de construire de nouvelles variables dentre afin de rduire leur nombre, tout en perdant le moins
dinformation possible sur leur rpartition ;
aprs lestimation des paramtres du modle (par lapprentissage si le modle est un rseau de
neurones), lutilisateur doit valuer le risque li lutilisation du modle construit, lequel est relatif
lerreur de gnralisation qui, par dfinition, nest pas calculable : elle doit donc tre estime. Nous
avons vu dans le chapitre prcdent une mthode destimation de lerreur de gnralisation par calcul du
score de leave-one-out virtuel ; nous prsentons ici une autre technique statistique rcente, fonde
sur le r-chantillonnage, qui permet destimer avec prcision les caractristiques statistiques de lerreur
de gnralisation.
Les lments de mthodologie prsents dans ce chapitre portent donc sur :
les pr-traitements effectuer sur les donnes,
les techniques de rduction du nombre dentres, fondes sur lanalyse en composantes principales et
lanalyse en composantes curvilignes,
lestimation de lerreur de gnralisation par les techniques statistiques de r-chantillonnage, notam-
ment le bootstrap.
La rduction de dimension ne vise pas seulement diminuer le nombre de variables dcrivant chaque
exemple : elle permet galement de construire des reprsentations plus synthtiques des donnes, en faci-
litant lanalyse. La mthode classique utilise dans le cadre linaire est lanalyse en composantes princi-
pales (ACP) : cette dernire, procdant par projection, est limite aux varits linaires. Pour traiter les
reprsentations non linaires, nous prsenterons une seconde mthode, lanalyse en composantes curvi-
lignes (ACC), qui peut tre vue comme une extension non linaire de lACP. Elle est similaire aux
cartes de Kohonen (voir chapitre 7), mais elle est plus souple, car la structure de lespace de projection
nest pas impose a priori.
Lapprentissage statistique
204
Les mthodes de r-chantillonnage sont utilises pour raliser des estimations lorsquon ne connat pas
les lois de probabilit des variables analyser. Dans les problmes poss par la rgression, notamment la
rgression par rseaux de neurones, elles permettent destimer lerreur de gnralisation, et dvaluer,
avec efficacit et robustesse, la variabilit du rseau par rapport aux donnes, lment cl du dilemme
biais-variance (prsent dans le chapitre 2) qui conditionne llaboration de tout modle statistique. Ces
techniques trs performantes sont gourmandes en temps de calcul, mais laccroissement de la vitesse des
calculateurs permet de plus en plus frquemment leur mise en uvre. Une nouvelle mthode sera
prsente, associant le bootstrap et larrt prmatur (early stopping, galement prsent dans le chapitre
prcdent), pour automatiser et contrler lapprentissage des rseaux de neurones.
Pr-traitements
La figure 3-1 montre leffet du pr-traitement. Il correspond une translation du centre de gravit du
nuage des points, suivie dune normalisation de la dispersion des valeurs sur chacun des axes sans modi-
fication de la rpartition des points.
Ce pr-traitement simple, appliqu toutes les composantes, permet souvent de dtecter des
anomalies dans la base de donnes. Un cart-type trop faible peut signifier que la composante corres-
pondante varie trop peu pour influencer le modle. Les composantes dcart-type nul doivent videmment
tre cartes dans la mesure o elles napportent aucune information dans la construction du modle. Pour
un diagnostic plus profond de ces anomalies , il faut informer lexpert du domaine.
J = y * ln y + (1 y * ) ln(1 y)
zi = k wik xk + wi0 .
Pour chaque exemple, len-
tropie croise sexprime alors
par :
n
yi ln yi + ( 1 yi ) ln ( 1 yi ).
* *
E = Figure 3-1. Centrage et rduction de donnes.
i=1
Rgles dapprentissage
Le lecteur curieux pourra sapercevoir que cette approche, malgr les apparences, ne complique pas les calculs : bien au contraire, elle les
simplie. En fait, cela revient ne pas tenir compte des non-linarits apportes par la fonction logistique dans le calcul des gradients :
E
---------- = ( y i y k* )x k
w ik
On retrouve la rgle du Perceptron de Rosenblatt et donc aussi celle de Widrow-Hoff, introduites dans le chapitre 2, propos de lappren-
tissage adaptatif.
N
1
EQM r = ---- ( y k y k* ) EQM = EQM r y
2 2
N
k=1
Principe de lACP
Pour rduire le nombre de facteurs (composantes), lACP dtermine des sous-espaces vectoriels de
dimension plus rduite que le nombre de facteurs, dans lesquels la rpartition des observations (points) est
prserve au mieux. Le critre retenu sur la rpartition est linertie totale du nuage des points. LACP se
prsente donc comme une mthode de projection linaire qui maximise linertie du nuage des points.
Avant de prsenter les dveloppements thoriques, reprenons, titre dillustration simple, lexemple de la
distribution dun nuage de points dans R2 reprsent par la figure 3-1. LACP dtermine le premier axe
principal comme tant celui par rapport auquel linertie du nuage de points est maximale. Le deuxime
axe est, parmi les axes orthogonaux au prcdent, celui par rapport auquel linertie du nuage de points est
maximale. Les autres axes sont dfinis orthogonaux deux deux sur le mme critre de maximisation de
linertie.
Complments de mthodologie pour la modlisation
207
CHAPITRE 3
Montrons que la notion mcanique dinertie totale du nuage de points est quivalente la notion
statistique de variance. Le calcul de linertie des points seffectue par rapport au centre de gravit du
nuage des points. En notant g le centre de gravit et In linertie du nuage des points dfinis dans Rn :
n n n
1
g i = ---- x ij I n = ( xij g j )
2
.
N
i=1 j=1 i=1
Linertie In est donc gale la trace de la matrice de variance-covariance des donnes X dfinie par :
V = (X Ig)T(X Ig) o I dsigne la matrice unit.
Linertie tant invariante par translation, on peut centrer les donnes par X = X Ig, et obtenir une relation
simple entre linertie et la matrice de variance-covariance sur les nouvelles donnes centres X :
Lapprentissage statistique
208
In = Trace(XT X).
Pour des donnes centres et rduites Trace(XT X) = n.
En considrant le sous-espace de dimension q < n et en notant Vnq la matrice associe au projecteur
sur Rq, le nuage des points projets sur Rq est reprsent par la matrice XV, dont linertie est :
Iq = Trace(VTXTXV).
LACP dfinit la projection linaire qui maximise Iq, valeur de linertie des points calcule dans Rq. Ce
problme est rsolu en recherchant un premier axe sur lequel linertie est maximale, puis un deuxime
orthogonal au premier pour poursuivre la maximisation de linertie, et ainsi de suite jusquau pime axe.
Les axes obtenus correspondent aux vecteurs propres de la matrice XTX, ordonns en fonction de leurs
valeurs propres, de la plus grande 1 la plus petite n. Les valeurs propres j, j = 1, , n sont positives
ou nulles, car la matrice XTX est une symtrique dfinie positive. En notant Vnq la matrice des vecteurs
propres, la transformation effectuer sur des donnes centres pour obtenir les composantes principales
sexprime par :
x Rn VTnq x Rq < n.
Les rgles utilises pour retenir les composantes principales (q parmi p) dpendent dune analyse qui
seffectue sur les valeurs propres. Avant de les prsenter, il nous semble utile de rappeler une technique
similaire lACP et largement utilise en algbre linaire, qui porte sur la dcomposition en valeurs
singulires, note SVD pour Singular Value Decomposition [CICHOKI 93]. Cette technique, trs utile dans
les problmes de rsolution de systmes linaires, a t mentionne dans le chapitre prcdent comme
outil de calcul des leviers pour des modles non linaires.
Thorme
La matrice diagonale S est compose par les valeurs singulires j ordonnes par valeurs dcroissantes.
Les valeurs singulires j sont les racines carres des valeurs propres j de la matrice symtrique dfinie
positive ATA ou de la matrice AAT si m < n. La matrice V associe au changement de base est reprsente
par les vecteurs propres de la matrice ATA.
ACP et SVD
Sur des donnes centres, il y a donc quivalence entre une analyse en composantes principales et une dcomposition en valeurs singulires.
Contrairement aux techniques de diagonalisation des matrices carres, la dcomposition en valeurs singu-
lires sapplique tout type de matrice. Lindice de la 1re valeur singulire gale 0 dtermine le rang de
la matrice ; son conditionnement, au sens de la norme L2, est gal au rapport des valeurs singulires
extrmes 1p.
partir de lorthogonalit des matrices U et V, il vient :
UT AV = S A = USVT.
Complments de mthodologie pour la modlisation
209
CHAPITRE 3
Dans une application de modlisation, si A reprsente la matrice des observations (dfinie dans le chapitre
prcdent) centres, la matrice US = AV dcrit les mmes exemples dans une reprsentation
orthogonale : les nouvelles entres obtenues aprs transformation sont non corrles linairement. La
mme technique est utilise en traitement du signal pour blanchir les signaux [DAVAUD 91]. Pour
rduire les nouvelles entres, il suffit de retenir la matrice U comme nouvelle base dexemples. La trans-
formation linaire devient S-1VTx au lieu de VTx.
La dcomposition en valeurs singulires, applique aux donnes centres de la matrice X, permet
dexprimer linertie en fonction des valeurs singulires j ou en fonction des valeurs propres j de la
matrice XTX :
p p
j Ip = j .
2
Ip = Trace(XTT) Ip =
j=1 j=1
Ce rsultat est bien connu en algbre linaire puisque linertie du nuage de points correspond la norme
matricielle de Frobenius qui sexprime en fonction des valeurs singulires :
xij j .
2 2
X F = =
i, j j
La matrice de projection ppq associe aux q premiers axes est donc reprsente par les q premiers
vecteurs de la matrice Vpq. La contribution relative linertie de chaque axe principal est donne par le
rapport entre 2j et la somme 12 + 22 + + p2. La contribution relative des q premiers axes est :
qn
j
2
q
j Iq
2 j=1
Iq = = I n -------------
n
-.
j
j=1 2
j=1
du nuage de points. Dans certains problmes, la composante principale nest pas llment le plus infor-
matif, bien au contraire. Par exemple, sur une srie de visages provenant de diffrentes parties du monde,
la reconnaissance de leur origine portera davantage sur la seconde composante et les suivantes, la
premire composante reprsentant plutt les caractristiques moyennes des visages.
1 1
0.5
0.5 0
0.5
0 1
1 1
0.5 0.5
1 0 1 0
0.5 0.5 0.5
0 0 0.5
0.5 0.5
1 1 1 1
1 4
3.5
0.5 3
2.5
0
2
1.5
0.5
1
0.5
1
0
1.5 0.5
1 0.5 0 0.5 1 1 0.5 0 0.5 1 1.5 2 2.5
Figure 3-4. Projection par ACC dune demi- Figure 3-5. Projection par ACC dune
sphre. sphre.
Sur des structures fermes, telles quune sphre ou un cylindre, la rduction de dimension introduira
ncessairement des distorsions locales. Cest le cas illustr par la figure 3-4, qui montre une projection
Complments de mthodologie pour la modlisation
211
CHAPITRE 3
dune sphre sur le plan. Lide centrale de lACC est un contrle graduel de la distorsion locale, effectu
au cours de lapprentissage.
Ayant pour objectif une rduction de dimension qui prserve la topologie locale, lACC est adapte la
reprsentation de varits non linaires. Une varit dans Rp peut tre grosso modo dfinie comme un
ensemble de points dont la dimension locale est infrieure p. Lenveloppe dune sphre dfinie dans
R3 est un exemple : la varit est de dimension 2. De faon plus rigoureuse, une varit de dimension q
dans Rq est un sous-ensemble de Rn obtenu par application dune fonction dfinie de Rq dans Rq. En un
point, le rang de la diffrentielle de lapplication dtermine la dimension locale de la varit.
Par rapport lACP, la mthode permet donc de reprsenter des structures de donnes distribues dune
faon non linaire. Elle se rapproche des mthodes fondes sur les cartes auto-adaptatives de Kohonen,
mais son principe est diffrent. En effet, aucune contrainte nest impose sur les points dans lespace de
projection ; il ny a pas de voisinage dfini a priori entre les points dans lespace de projection. Cela
permet de reprsenter toutes sortes de varits.
( xik x jk )
2
espace dorigine X ij = ;
k=1
( yik y jk )
2
espace rduit Y ij = .
k=1
La transformation des composantes engendre une distorsion sur la varit. En gardant la mme mtrique
(distance euclidienne), une mesure de la distorsion peut tre donne en comparant les distances Xij aux
distances Yij p n 2
distorsion due la rduction ( X ij Y ij ) .
i = 1 j = i+1
Un parallle peut tre fait avec lACP, qui dfinit la projection linaire en minimisant la fonction
X ij Y ij
2 2 2
objectif : = Cette fonction traduit lcart entre la moyenne des distances X ij calcules
i, j i, j
2
dans lespace dorigine et la moyenne des distances Y ij calcules dans lespace rduit. La fonction de
cot retenue par lACC prserve davantage les carts de distance Xij Yij, et permet donc de reprsenter
des varits non linaires avec un minimum de dformation.
Attention
Pour pouvoir dplier des varits, Demartines a introduit, dans la fonction de cot, un terme de pond-
ration F(Yij, ), fonction positive monotone dcroissante de la distance Yij.
Lapprentissage statistique
212
Le terme F(Yij) favorise les petites distances dans lespace de projection. Le paramtre joue le mme
rle que le paramtre rayon, dfini dans les cartes de Kohonen : dans lespace de sortie, les distances sup-
rieures ne seront plus prises en compte. La dcroissance du paramtre au cours de ladaptation
permet de dplier et mme de couper certaines varits non linaires. La projection dune sphre de R3
dans R2 (figure 3-4) montre lexemple dune varit pour laquelle la projection ncessite une coupure. La
fonction permet donc de dplier certaines varits en prservant au maximum la topologie locale.
La fonction objectif , vise par ACC, se prsente Figure 3-6. F(Yij)
alors sous la forme suivante : Fonction de
pondration
p n 2
des distances.
E= ( X ij Y ij ) F ( Y ij, ) . dcroissant
i = 1 j = i+1
Algorithme danalyse en
composantes curvilignes
Yij
Lalgorithme consiste minimiser la fonction de cot
par rapport aux coordonnes de chaque point de la base
dexemples dans lespace rduit. Comme il en va pour effectuer un apprentissage, on peut utiliser
nimporte lequel des algorithmes doptimisation prsents dans le chapitre 2. Nous prsentons ici la mini-
misation de la fonction de cot par lalgorithme du gradient stochastique.
On calcule donc les drives partielles de la fonction de cot par rapport chacun des paramtres ; en
notant yik la k-ime coordonne du point i, il vient :
E E Y
--------- = --------- --------ij-
y ik ji
Y ij y ik
E X Y
--------- = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y ik y jk ) .
y ik ji
Y ij
La modification des paramtres scrit alors, en appelant le pas de gradient :
X Y
y i = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y i y j ) .
ji
Y ij
Une condition doit tre assure afin dassurer la convergence de ladaptation. Il faut en effet que le terme
ij = 2F(Yij) (Xij Yij)F(Yij) soit positif. En effet, si Yij est trop grand par rapport au terme Xij, le point
j doit tre rapproch du point i. Les fonctions F(Yij) doivent tre choisies de faon assurer la condition
ij > 0. Cette condition est difficile remplir : par exemple, pour F(Yij) = e Y ij , la stabilit de ladapta-
tion implique > (Yij Xij)2. Cette condition ne peut pas tre toujours vrifie en raison de la dcrois-
sance du rayon au cours de lapprentissage. Une solution qui permet dassurer la condition, et qui
simplifie la rgle dadaptation, est la fonction chelon translate du rayon et vrifiant (presque partout)
la condition ij = 2 > 0. La rgle dadaptation se simplifie :
X Y
y i = -----ij------------ij- ( y i y j ) si Yij < et 0 sinon.
ji
Y ij
Complments de mthodologie pour la modlisation
213
CHAPITRE 3
( xik x jk ) ( yik y jk )
2 2
X ij = k---------------------------------
=1 - Y ij = k---------------------------------
=1 - .
p q
Le choix du paramtre a une influence importante sur la qualit de la projection. Au cours des premires
itrations, tous les points yi dans lespace de sortie doivent contribuer au critre. La rgle consiste fixer
la valeur initiale du paramtre au maximum des distances Yij :
(0) = Max ij Y ij .
La valeur finale du rayon doit correspondre la plus petite valeur souhaite sur les Yij, cest--dire la plus
petite des valeurs Xij :
Lapprentissage statistique
214
(tmax) = Min ij X ij .
Le paramtre suit une loi dcroissante en fonction du nombre t ditrations de la valeur initiale (0) la
valeur finale (tmax) :
t t max
( t max )
(t) = (0) ---------------- .
(0)
Qualit de la projection
Un des points forts des travaux de Demartines porte sur le critre qui permet le contrle de la projection.
Ce critre est fond sur la comparaison des valeurs Xij et Yij correspondant aux distances entre points,
distances calcules respectivement dans lespace dorigine et dans lespace rduit. Les distances sont
reprsentes dans un plan dx-dy par un point dabscisse dx = Yij et dordonne dy = Xij. Les points proches
de la droite dx = dy correspondent des distances voisines. La dformation due la rduction est donc
proportionnelle la distance moyenne des points la droite dx = dy. La figure 3-8 montre la distribution
moyenne des distances pour lexemple de la demi-sphre et sur celui de la sphre.
Sur des varits non
linaires illustres par ces
exemples, la projection va
ncessairement loigner
certains points. Cest le cas
de la carte du globe terrestre
obtenue par la projection de
Mercator. La projection
occidentale spare les
ctes du dtroit de Bring.
Dans le plan dy dx, le
nuage des points a une
forme en cloche : des points
proches dans lespace Figure 3-8. Distribution des distances dans le plan (dy dx) pour la demi-sphre et la sphre.
dorigine (dx petit) vont se
trouver loigns (dy grand) dans lespace de projection. La forme en cloche apparat nettement dans le cas de
la projection de la sphre, o le dpliage a spar les points situs sur le grand diamtre (figure 3-5). Le contrle
de la projection consiste vrifier que cette forme en cloche prserve au maximum la topologie locale : si deux
points sont proches dans lespace rduit, ils le sont ncessairement dans lespace dorigine.
barycentre des 3 ou 4 points yk correspondant aux points xk les plus proches de x0. Le calcul de la projec-
tion y0 est obtenu par le mme algorithme :
X Y
y 0 = -----i--0------------i----0 ( y 0 y j ) si Yi0 < et 0 sinon.
ji
Yi 0
Cette mthode dinitialisation des composantes du point projet parat trs efficace ; la convergence est
obtenue en quelques itrations (moins dune dizaine) [PILATO 1998].
Application en spectromtrie
Lapplication prsente ci-aprs a t ralise au Centre dtudes de Saclay [PILATO 1998]. Elle porte sur
la mesure de la concentration de matires radioactives. Le contrle dinstallations nuclaires (centrales,
usines de retraitement) exige que lon mesure des concentrations de certaines matires radioactives. Des
mesures de concentration sont effectues sur des solutions issues des circuits deau des installations. Une
des techniques utilises est la fluorescence X, qui permet de raliser des analyses rapides et non destruc-
tives directement partir de cruchons de prlvement ou sur canalisations. La fluorescence X consiste
exciter la matire concerne, puis analyser les spectres des photons issus des dsactivations.
La figure 3-9 montre un exemple de 40000
spectre obtenu par fluorescence X sur un
cruchon contenant de luranium 235 et du 35000
thorium. Les pics caractrisent la prsence
30000
et la concentration de ces deux lments.
Dans notre application, chaque spectre est 25000
quantifi sur 4096 valeurs dnergie.
Chaque valeur en ordonne correspond au 20000
nombre de photons qui sont compts sur
15000
un niveau dnergie donn.
Les mthodes classiques danalyse de spec- 10000
tres reposent sur des modles physiques, qui
5000
tablissent des corrlations entre la propor-
tion dun lment et lintgrale autour des 0
pics correspondant certaines raies de 0 500 1000 1500 2000 2500 3000 3500 4000 4500
llment analyser. La physique ici est Figure 3-9. Exemple de spectre.
relativement complexe : chevauchement des
pics, effets parasites ou bruit de mesures. La mthode est fonde sur une analyse locale des phnomnes. Lesti-
mation des concentrations est effectue partir de calculs effectus sur des donnes du spectre centres autour
des raies.
Lapproche par ACC est diffrente. Elle repose sur une analyse globale de la courbe. Le spectre est consi-
dr en tant qulment dun espace 4096 composantes. Dans cet espace R4096, les surfaces de rparti-
tion des points spectres ont une dimension intrinsque gale 2. En effet, la varit des spectres est
obtenue en ne faisant varier que deux paramtres : la concentration duranium et celle du thorium. Une
rduction de dimension de R4096 R2 sest avre adapte au problme : linformation perdue par
projection nest pas discriminante pour la mesure des concentrations.
La base dexemples comprend 60 spectres. Chaque spectre comprend 4096 composantes. La matrice de
lchantillon des donnes est de dimension 60 4096. La rduction par ACC consiste donc transformer
cet chantillon en une matrice 60 2.
Lapprentissage statistique
216
La figure 3-10 visualise, dans lespace rduit deux dimensions, lensemble des exemples. Nous avons
volontairement maill la reprsentation en visualisant la topologie spatiale de la quantification ralise par
les exprimentateurs sur les valeurs des concentrations duranium et de thorium.
La projection obtenue par ACC a la mme topologie que la quantification exprimentale. Les concentra-
tions duranium et de thorium ont t quantifies sur le produit cartsien [(u1, u2, , u6) (t1, t2, , t10)].
En ralit, on constate, en y regardant de plus prs, quil manque un essai. En effet, la base ne comportait
que 59 spectres. On retrouve figure 3-10 la donne manquante dans la projection ACC.
Lexemple illustre lintrt de lACC : en dpit de
combinaisons non linaires de plusieurs effets sur
les spectres, la rduction permet de faire apparatre
Concentration Thorium
100
la dimension intrinsque des donnes, celle de la
variation par rapport la concentration du thorium
et celle relative luranium. partir des spectres
rduits, lestimation des concentrations en 10
uranium et en thorium nest plus un problme
difficile : une rgression laide dun petit rseau
de neurones, voire une simple interpolation
linaire, suffisent amplement. 1
1 10
Applique des problmes plus complexes, Concentration Uranium
lorsque la dimension intrinsque nest pas aussi 50
vidente, on peut procder dune manire itrative
40
en augmentant, si cest ncessaire, le nombre de
composantes de lespace de projection, tout en 30
contrlant la prservation de la topologie locale 20
sur la bissectrice pour les petites distances.
10
0
Le bootstrap et les rseaux -10
de neurones -20
-30
Cette dernire partie prsente une nouvelle approche -30 -20 -10 0 10 20 30 40
qui permet dautomatiser la construction et lappren-
tissage des rseaux de neurones. Elle sarticule Figure 3-10. Quantification exprimentale
autour de la mthode statistique du bootstrap et de la Reprsentation par ACC.
technique de larrt prmatur ou early stopping
(cette dernire technique est prsente dans le chapitre 2). Lorientation prise est donc celle qui consiste
utiliser des rseaux suffisamment complexes, puis les rgulariser par arrt de lapprentissage. Avec bootstrap,
il est possible dvaluer avec efficacit la variabilit du rseau, et de son erreur par rapport aux donnes. Associ
larrt prmatur, il permet le contrle de lapprentissage en optimisant automatiquement le nombre de cycles
ncessaire, tout en fournissant les caractristiques statistiques de lerreur de gnralisation.
Le bootstrap, propos par [EFRON 1993], est une technique aujourdhui trs tudie dans le cadre de
linfrence statistique, notamment pour les tests dhypothses et lestimation des intervalles de confiance.
Elle ne ncessite aucune hypothse a priori sur les lois de distribution. Appliqu la rgression, le boots-
trap permet destimer les caractristiques statistiques de lcart entre lerreur dapprentissage et celle de
gnralisation. Lapproche est particulirement adapte aux problmes pour lesquels les chantillons
dexemples sont de petite taille. Cest le cas notamment du calcul scientifique et de la simulation de
Complments de mthodologie pour la modlisation
217
CHAPITRE 3
systmes complexes. partir dune base de calculs, des fonctions analytiques sont construites par rgres-
sion ou interpolation, afin dtre utilises en lieu et place de modules plus coteux en temps de calcul.
Dans le chapitre prcdent, nous avons soulign limportance de la validation des modles (estimation de
lerreur de modlisation, dintervalles de confiance, etc.) dans le cadre gnral de la modlisation, notam-
ment non linaire. Dans le type dapplications susmentionnes (remplacement dun code de calcul complexe
par une rgression partir de donnes engendres par ce code), la problmatique est exactement la mme,
ceci prs que les donnes issues de calculs ne sont gnralement pas bruites. On va donc prsenter cette
approche qui peut tre substitue celles qui ont t dveloppes dans le chapitre prcdent.
Principe du bootstrap
Nous allons illustrer le principe du bootstrap sur lexemple du calcul de lintervalle de confiance de
lesprance dune variable alatoire. Lexemple tir de [WONNACOOT 1990] a simplement pour objet de
montrer clairement le principe du bootstrap. En effet, pour cet exemple, lintervalle de confiance de
lesprance dune variable alatoire est parfaitement dtermin partir de la moyenne et de la variance
calcules sur lchantillon (vu au chapitre 2). Ce rsultat dcoule du thorme de la limite centrale, selon
lequel la distribution de la moyenne dun chantillon converge assez rapidement vers une loi normale.
On considre un chantillon de la variable alatoire compos de n = 10 observations : x = (16, 12, 14, 6,
10
x
43, 7, 0, 54, 25, 13). La moyenne de lchantillon est X = ------i
i = 1 10
= 19.0 et son cart-type est
10
( xi 19.0 ) 9
2
S= = 17.09 . Lintervalle de confiance de lesprance 95 % est :
i=1
s 17.09
= X t .025 ------- = 19.0 2.26 ------------ 19 12 7 < < 31
n 10
Lintervalle de confiance peut tre galement calcul par bootstrap. Il est alors obtenu par lalgorithme
suivant.
partir de lchantillon initial, on simule de nouveaux chantillons, appels rpliques , de taille n, par
tirages alatoires avec remise. Prenons par exemple lchantillon initial dfini prcdemment x = (16, 12,
14, 6, 43, 7, 0, 54, 25, 13). Par tirages alatoires avec remise, on obtient ainsi la rplique suivante x* = (54,
0, 16, 7, 43, 54, 0, 25, 25, 6), dans laquelle certaines valeurs de lchantillon initial ne figurent pas, et o
dautres apparaissent plusieurs fois. Plusieurs chantillons sont ainsi simuls. Pour chaque chantillon
simul, une moyenne est calcule. Lintervalle de confiance 95 % est dfini sur cet ensemble de
moyennes. La simulation donne :
9 < < 26
On note que lintervalle obtenu par bootstrap est pratiquement identique lintervalle de confiance 95 %
calcul prcdemment et issu du thorme central limite.
Gnralit du bootstrap
Le bootstrap peut donc tre appliqu tout estimateur autre que la moyenne, tel que la mdiane, le coeffi-
cient de corrlation entre deux variables alatoires ou la valeur propre principale dune matrice de variance-
covariance. Pour ces estimateurs, il nexiste pas de formule mathmatique qui dfinisse lerreur standard ou
lintervalle de confiance. Les seules mthodes applicables sont les mthodes dites de r-chantillonnage qui
procdent par simulation dchantillons comme le bootstrap ou le jackknife [EFRON 1993].
b=1
B
( ( b ) ( . ) ) B 1.
2
B =
2 * *
b=1
Un des thormes dmontrs par Efron porte sur la consistance de lestimateur bootstrap. Lestimation
B converge vers lcart-type F ( ) du paramtre valu sur la distribution de lchantillon :
*
lim B = F
B
Cet algorithme peut sappliquer tout estimateur. Prenons lexemple du calcul de la valeur propre princi-
pale lors dune ACP. Elle correspond la plus grande valeur propre de la matrice de variance-covariance
XTX des observations Xnp. Le bootstrap consiste simuler des rpliques X*np obtenues par n tirages ala-
toires des lignes de la matrice Xnp. Puis la statistique (moyenne et cart-type) pourra tre tablie sans
difficult. On voit ici la puissance de la mthode et sa facilit de mise en uvre. On comprend aussi que
cette mthode nait pas t trs utilise par le pass, en raison du nombre de calculs ncessaires : 50 200
rpliques suffisent estimer une moyenne, mais plusieurs milliers de rpliques sont ncessaires si lon
souhaite dterminer des intervalles de confiance.
La probabilit quun lment napparaisse pas dans la base bootstrape est donc P(0) = (1 1n)n. Pour
n suffisamment grand P(0)n = e 1 0.368. En moyenne, 37 % des exemples ne seront pas utiliss en
apprentissage.
Lcart entre lerreur dapprentissage calcule sur la base bootstrape et lerreur de test value sur la
base initiale est considr comme une variable alatoire reprsentative de lcart entre lerreur
dapprentissage et lerreur de gnralisation.
Une statistique est faite sur lensemble de ces carts (un par base bootstrape) afin destimer la loi de
distribution de lcart entre lapprentissage et lerreur de gnralisation.
Soient B la base initiale des exemples et B*b, b = 1, , N lensemble des rpliques. Dsignons par *b
lerreur dapprentissage du rseau entran sur la rplique k, et par b lerreur du mme rseau calcule sur
la base initiale B. Lcart b = b *b entre les deux erreurs peut alors tre considr comme une variable
alatoire reprsentative du phnomne de surapprentissage. Cet cart peut tre considr comme le biais
qui apparat sur lestimation de lerreur de gnralisation par lerreur dapprentissage. Lesprance et
la variance du biais peuvent alors tre estimes sur lensemble des valeurs b :
B B
1 1
= --- b = ------------ ( b ) .
2 2
b = b b*
B B1
b=1 b=1
La mthode NeMo
Lalgorithme propos prcdemment a t programm dans le logiciel NeMo. Le bootstrap y est associ
larrt prmatur de lapprentissage early stopping) afin dautomatiser le contrle de lapprentissage du
rseau.
Outil NeMo
NeMo est un outil dvelopp au Centre dtudes de Saclay au dpartement de modlisation de systmes et structures partir du simula-
teur SNNS (Stuttgart Neural Network Simulator) disponible sur http://www-ra.informatik.uni-tuebingen.de/SNNS, visant simpli-
er les tches dapprentissage et de test des rseaux de neurones.
Lerreur quadratique moyenne EQMr est calcule sur les variables de sortie (estimes et dsires) centres
et rduites. Lanalyse de lerreur porte donc sur la part de la variance non explique par le modle ou coef-
ficient dindtermination introduit au chapitre sur les pr-traitements des sorties.
Avant de donner le dtail de la mthode, dsignons par j le rang de la rplique et par i litration sur le
nombre de cycles ; les erreurs quadratiques moyennes dapprentissage et de test sont reprsentes par les
deux tableaux suivants :
Lapprentissage statistique
220
erreur dapprentissage erreur de test
Aprs cette phase, NeMo dtermine le nombre de cycles selon une heuristique rappelant la thorie des
jeux. Un premier joueur pessimiste se place, pour chaque valeur du nombre de cycles, dans la pire des
situations sur lerreur de test :
Max b
i = Max b { i } .
Le second joueur dtermine alors le nombre de cycles de faon minimiser la pire des situations obte-
nues, cest--dire celle qui correspond lerreur de test maximale :
optimal b
Nc = Arg i { Min i } .
optimal
Cette stratgie sur le choix de N c peut tre assouplie en ne retenant quune fraction de lensemble
des B apprentissages. Pour la rendre plus robuste, il suffit en effet dexclure les cas extrmes ( outliers ),
cest--dire les situations dapprentissage trs diffrentes de la moyenne. Par dfaut, NeMo dtermine le
nombre de cycles optimal sur le 90e percentile de lerreur de test.
Percentile
Le me percentile correspond lintervalle constitu des valeurs pour lesquelles la fonction de rpar-
tition est infrieure : une fraction (1 ) des valeurs maximales est exclue.
Lestimation du nombre optimal de cycles peut galement tre faite par la mthode du tri mdian, plus
stable mais plus risque car rejetant a priori 25 % des cas : le dernier quartile correspond aux erreurs de
test les plus importantes.
Quartile
Tri mdian
Le tri mdian correspond 0,25 Q1 (1er quartile) + 0,5 Q2 (2e quartile ou mdiane) + 0,25 Q3 (3e quartile).
Aprs avoir dtermin le nombre de cycles optimal selon une des stratgies, NeMo lance un nouvel
apprentissage fond sur la totalit des exemples, avec, pour nombre de cycles, le nombre de cycles opti-
optimal
mis N c dfini ltape prcdente. Pour ce dernier apprentissage, les mmes paramtres dappren-
tissage sont utiliss : la valeur initiale et la loi de dcroissance du pas dadaptation. En notant a lerreur
moyenne calcule sur la base initiale, et la valeur moyenne du biais, lerreur de gnralisation est
estime par :
g = a + .
Complments de mthodologie pour la modlisation
221
CHAPITRE 3
Dune faon plus gnrale, la fonction de rpartition de lerreur de gnralisation est estime par la fonc-
tion empirique de rpartition du biais translate de la valeur a. On remarque lapport du bootstrap associ
au early stopping par rapport la validation croise :
une certaine automatisation dans la construction du rseau en adaptant le nombre de cycle du early stop-
ping,
une plus grande estimation de la variabilt du modle par rapport au jeu de donnes,
estimation des intervalles de confiance (marges, incertitudes),
lutilisation de lensemble des exemples pour construire le rseau.
Notons enfin que NeMo peut contrler ladquation du modle aux donnes : si le nombre de cycle opti-
mis est trop proche du nombre de cycle maximal fix par lutilisateur, lerreur de test ne passe pas par un
minimum ; lutilisateur devra alors accrotre la complexit du rseau (nombre de neurones cachs) ou
augmenter le nombre de cycles dapprentissage.
Lerreur relle est obtenue partir de 106 tirages alatoires en utilisant la mme loi de gnration des
entres (loi uniforme) et en calculant lerreur moyenne quadratique rduite EQMr entre la sortie dsire
et la sortie estime.
Ci-aprs, les figures prsentent la comparaison (en chelle log-log) de lerreur EQMr vraie (en
abscisse) lerreur estime (en ordonne) par NeMo. Les points visualiss correspondent aux diffrents
rseaux lves construits sur lensemble des bases dexemples. Chaque rseau a t entran 15 fois sur
des bases dexemples comprenant respectivement 100, 200, , 1500 exemples.
Lanalyse de lensemble des rsultats illustrs par les figures 3-11 et 3-12 fait apparatre les proprits
essentielles de la mthode NeMo :
Lapprentissage statistique
222
lerreur de gnralisation est estime avec prcision, mme dans les cas complexes (grand nombre
dentres + faible nombre dexemples) ;
le bootstrap permet dautomatiser la rgularisation du rseau aux donnes par contrle de larrt de
lapprentissage.
Les figures 3-11 et 3-12 font en effet apparatre des estimations de lerreur de gnralisation trs proches
des valeurs exactes. Les faibles valeurs de lerreur correspondent aux apprentissages raliss avec les
bases dexemples qui en comportent suffisamment. Pour ces cas, lerreur estime en ordonne est quasi
gale lerreur vraie en abscisse.
Il faut noter une lgre surestimation sur 4 cas parmi 75 entre les valeurs 0,01 et 0,02 pour le cas 8 (figure
3-11) et une moindre prcision sur le cas plus complexe 12 (figure 3-12). Pour ce dernier cas, la rgres-
sion porte sur une relation de R12 R avec un maximum de 1500 points pour reprsenter la relation. Il
apparat une surestimation de lerreur pour les faibles valeurs et une sous-estimation pour les valeurs
suprieures 0,2. Nanmoins, malgr la grande dimension de lespace dentres, la relation de R12 dans
R est correctement modlise partir de quelques centaines dexemples.
1
Figure 3-11. R8_4_1
Gnrateur 8. R8_6_1
R8_8_1
R8_10_1
R8_12_1
0.1
Erreur estime par NeMo
0.01
0.001
0.001 0.01 0.1 1
Erreur fonctionnelle
Complments de mthodologie pour la modlisation
223
CHAPITRE 3
1
R12_10_1
Figure 3-12. R12_14_1
R12_18_1
Gnrateur 12. R12_22_1
R12_26_1
R12_30_1
Erreur estime par NeMo
0.1
0.01
0.01 0.1 1
Erreur fonctionnelle
Conclusions
Plusieurs points peuvent tre tirs de cette tude.
Les rseaux construits automatiquement sont suffisamment bien rgulariss, mme dans les cas les plus
difficiles lorsque le nombre dexemples est faible. La statistique apporte par le bootstrap permet le
contrle automatique de larrt prmatur de lapprentissage et fournit une statistique robuste de lerreur
de gnralisation.
Le deuxime point est li au problme de la dimension de lespace dentre. Mme dans lexemple de
la relation de R12 dans R, quelques centaines de points suffisent la reprsentation de la relation. Dans
de nombreux problmes, des relations non linaires peuvent ainsi tre facilement approches partir
dune densit dexemples faible. noter qu partir dun certain niveau de complexit, les rseaux cons-
truits et rgulariss sur un mme chantillon semblent quivalents. Des rseaux diffrents peuvent tre
adapts pour reprsenter la mme relation.
Dans le cadre de la thorie de lapprentissage statistique, la rgularisation des modles peut tre contrle
et donc optimise par bootstrap. Cette voie est approcher des mthodes plus formelles fondes sur la
thorie propose par [VAPNIK 1995], lenjeu tant ladaptation des capacits calculatoires (dimension VC)
du modle aux donnes. Dans ce cadre, les mthodes statistiques de r-chantillonnage apportent de
relles solutions par leur facilit de mise en uvre et surtout, reconnaissons-le, par les puissances de
calculs aujourdhui disponibles sur nos bureaux.
Lapprentissage statistique
224
Bibliographie
CICHOKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley,
1993.
DEMARTINES P. [1995], Analyse de donnes par rseaux de neurones auto-organises, thse de lInstitut
national polytechnique de Grenoble.
DAVAUD Patrick [1991], Traitement du signal. Concepts et applications, Herms, 1991.
EFRON Bradley, TIBSHIRANI Robert J. [1993], An Introduction to the Bootstrap, Chapman & Hall, 1993.
HRAULT Jeanny, JUTTEN Christian [1993], Rseaux de neurones et traitement du signal, Herms, 1993.
PILATO Vincent [1998], Application des rseaux de neurones aux mthodes de mesure bases sur linte-
raction rayonnement matire, thse Universit Paris-Sud, 4.11.1998.
SAPORTA Gilbert [1990], Probabilits. Analyse des donnes et statistique, ditions Technip, 1990.
VAPNIK Vladimir N. [1995], The Nature of Statistical Learning Theory, Springer, 1995.
VIGNERON Vincent [1997], Mthodes dapprentissage statistiques et problmes inverses Applications
la spectrographie, thse Universit dvry-Val-dEssonne, 5.5.1997.
WONNACOOT Thomas H., WONNACOTT Ronald J. [1990], Statistique conomie-gestion-sciences-mde-
cine, Economica, 4e dition, 1990.
4
Identification neuronale de systmes
dynamiques commands et rseaux
boucls (rcurrents)
Par exemple, dans le modle linaire stationnaire, on reprsente lerreur de modle par un bruit additif
gnralement blanc et gaussien, et lquation dvolution a la forme
x(k + 1) = Ax(k) + Bu(k) + v(k+1)
o les v(k) sont des vecteurs alatoires gaussiens indpendants normaux centrs (esprance 0) de matrice
de variance-covariance G.
Dans ce cas, la trajectoire dtat est alatoire et sappelle un processus stochastique. On va maintenant
donner quelques exemples de systmes dynamiques commands qui nous serviront dillustrations tout au
long de ce chapitre.
o ltat comporte la position du mobile x1 et sa vitesse x2. Pour obtenir une volution temps discret,
nous devons intgrer lquation diffrentielle sur la priode dchantillonnage T. Ici, lquation diffren-
tielle linaire sintgre exactement et la fonction f qui associe ltat au temps t ltat au temps t + T peut
tre crite analytiquement. Comme ce ne sera gnralement pas le cas dans les modles considrs ici ou
dans la plupart des applications, il faudra tendre vers lvolution en utilisant un algorithme approch de
rsolution de lquation diffrentielle (algorithme de Runge-Kutta par exemple [DEMAILLY 1991]).
Pour commander le systme, nous ajoutons une commande scalaire additive de vitesse u.
Par exemple, pour fixer les ides, dans le cas prcdent, on obtient facilement lexpression de la drive
seconde de ltat par :
d2 x1 x1
x = x
dt 2 2 2
cela permet dcrire lapproximation de Taylor au second ordre de lvolution de ltat :
x1 x1 d x1 T 2 d 2 x1 0
x (t + T ) = x (t ) + T (t ) + 2 (t ) +
2 2 dt x 2 2 dt x 2 u(t )
dont les trajectoires approchent lchantillonnage de celles du systme dynamique temps continu.
3 3
2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5
Par exemple, dans le cas de la marche alatoire sur le triangle, la matrice de transition est
0 0, 9 0,1
P = 0,1 0 0, 9
0, 9 0,1 0
On peut vrifier que la distribution stationnaire est invariante par la matrice de transition qui structurelle-
ment possde toujours une valeur propre de plus grand module gale 1 (dans le cas dun espace dtat
fini). Ainsi, dans lexemple prcdent, les valeurs propres de la matrice P sont (approximativement) 1,
0,5 + 0.6928i et 0,5 0,6928i. On vrifie facilement que la loi de probabilit uniforme qui attribue une
gale probabilit chaque tat est invariante :
0 0, 9 0,1
(1 / 3 1 / 3 1 / 3) 0,1 0 0, 9 = (1 / 3 1 / 3 1 / 3)
0, 9 0,1 0
La probabilit invariante est lobjet alatoire correspondant ltat dquilibre de la dynamique dtermi-
niste. Elle porte dailleurs ce nom dtat dquilibre dans la terminologie de la physique statistique
(tat de Gibbs).
Voici un autre exemple de dynamique sur le triangle qui brise la symtrie entre les sommets.
Ici, la dynamique de rfrence est :
f ( a) = a, f (b) = a, f (c) = a
La matrice de transition de la chane de Markov est alors
1 0 0
P = 0, 9 0 0,1
0, 9 0,1 0
ses valeurs propres sont 1 et 0,1 et sa distribution stationnaire est (1, 0, 0). Dans ce cas, ltat dquilibre
est dterministe mme si la dynamique est alatoire.
Identification neuronale
231
CHAPITRE 4
Comme prcdemment, on peut introduire un bruit dtat dans le systme dynamique command. Dans
ce cas, la probabilit de transition de ltat x(k) ltat x(k+1) dpend aussi du contrle u(k) appliqu au
temps k.
Par exemple, dans le cas du labyrinthe prsent au dbut de ce paragraphe, f(13, N) = 13. Si nous intro-
duisons un bruit dtat selon lequel le systme de commande peut se tromper avec la probabilit 0,1,
uniformment rpartie sur les autres commandes admissibles, f(13, N) est une variable alatoire prenant
les valeurs 13, 12 et 14 avec les probabilits respectives 0,9, 0,05, 0,05.
Modles auto-rgressifs
Le fichier du nombre de taches solaires de Wolf est un exemple de donnes astronomiques qui est trs
utilis pour prouver les mthodes didentification et de prdiction ; il est maintenu depuis plus de deux
sicles ; ses variations sont reprsentes sur la figure 4-5.
Lapprentissage statistique
232
le vecteur x(k), p + q dimensions, de composantes [x1(k) = x(k),, xp(k) = x(k p + 1), xp+1(k) = v(k),
xp+q(k) = v(k q + 1)], et lquation dtat est :
x1(k + 1) = f[x1(k),, xp(k), v(k + 1), xp+1(k), ), xp+q(k)]
x2(k + 1) = x1(k)
...
xp(k + 1) = xp-1(k)
xp+1(k + 1) = v(k + 1)
xp+2(k + 1) = xp+1(k)
...
xp+q(k + 1) = xp+q-1(k).
De mme que nous avons envisag, outre les systmes dynamiques autonomes, des systmes dynamiques
commands, de mme, la thorie des sries temporelles envisage des modles auto-rgressifs avec
variables exognes, ou modles ARMAX et NARMAX. Dans ces modles, lquation dvolution prend
en considration des variables exognes au temps courant ou dans le pass, qui sont connues et sont
lquivalent du signal de commande. On obtient ainsi les modles ARMAX (p, q, r)
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + b1v(k)+ bqv(k q + 1) + c1u(k) + + cru(k r + 1)
et NARMAX (p, q ,r)
x(k + 1) = f[x(k), , x(k p + 1), v(k + 1), v(k), v(k q + 1), u(k), , u(k r + 1)].
de N variables scalaires de sortie (y1,, yk,, yN), le vecteur colonne (n, 1) w = (w1 ; ; wn) qui minimise
la fonction de cot des moindres carrs :
N
J = ( yk x k w ) 2
k =1
ou, dune manire quivalente, la moyenne quadratique des rsidus :
1 N
N (w) = ( yk x k w)2.
2 N k =1
On se limite ici au cas classique dune sortie scalaire : le cas des sorties vectorielles napporte aucun chan-
gement dans le principe. Comme il sagit dun problme doptimisation cot quadratique (le cot
minimiser est une fonction du second degr par rapport lensemble fini des variables), on sait que la
solution est unique et dtermine par la formule matricielle
1
w = ( X T X ) X T Y
o la matrice (N, n) X = (x1 ; ; xk ; ; xN) et le vecteur colonne (N,1) Y = (y1 ; ; yk ; ; yN) sont
obtenus par concatnation des donnes dentre et de sortie condition que le problme soit bien pos,
cest--dire que la matrice (XTX) soit inversible.
Cet algorithme sapplique pour identifier les modles auto-rgressifs de la section prcdente. Pour iden-
tifier le modle ARX :
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + c1u(k) + + cr u(k r + 1).
On a donc ici w = [a1, , ap, b0, c1, , cr]T.
Quand une trajectoire de commande [u(1), , u(k), , u(N)] et une trajectoire de sortie [x(1),, x(k), , x(N)]
sont notre disposition, nous pouvons construire les vecteurs dentre (1, p+r) xk = [x(k) ; ; x(k p+1) ;
u(k) ; ; u(k r + 1)] pour k variant de max(p, r)+1 (N 1) et nous prendrons comme sortie correspon-
dante yk = x(k + 1).
De trs bons rsultats peuvent tre obtenus pourvu que le modle sur lequel est construit lestimateur soit
bien reprsentatif des donnes exprimentales traites. Le cas suivant de simulation illustre cette affirma-
tion.
Ces rsultats moins bons sexpliquent par une mauvaise modlisation : la trajectoire de commande tant,
dans cette exprience, un bruit blanc, lestimateur dun modle AR a t utilis pour traiter des donnes
produites, en ralit, par un modle ARMA bruit vectoriel (uk, vk).
Si, au lieu de simuler le modle prcdent, un bruit de mesure est introduit dans la simulation qui perturbe
lobservation de ltat sans entraner de consquences ultrieures sur la dynamique (ce point sera dve-
lopp au dbut de la section consacre au filtrage), les donnes sont produites par simulation du modle
suivant :
x ( k + 1) = a1 x ( k ) + a2 x ( k 1) + c1u( k ) + c2 u( k 1)
.
y( k ) = x ( k ) + b0 w( k )
Dans ce cas, lapplication de la procdure didentification ARX produit de mauvais rsultats malgr la
connaissance de la trajectoire de commande. On obtient :
a 1 = 0,61, a 2 = 0,36, c 1 = 0,49, c 2 = 0,11.
Cette exprience montre limportance dune modlisation correcte des bruits pour lestimation par rgres-
sion linaire. Nous avons dj trait ce problme dans le cadre de la modlisation dynamique par rseaux
de neurones (chapitre 2), et nous le retrouverons plus loin dans ce chapitre. Laddition dun bruit de
mesure ajoute un problme nouveau, celui du filtrage qui sera trait dans ce chapitre.
Justification mathmatique
Lanalyse statistique linaire des sries temporelles est bien connue et sort du cadre de cet ouvrage. Pour
un expos permettant daccder aux mthodes statistiques classiques didentification et de prvision, on
se reportera [CHATFIELD 1994] pour un expos pratique et [GOURIROUX 1995], [AZENCOTT 1984],
pour les justifications mathmatiques. Esquissons la justification de la procdure des moindres carrs dans
le cas le plus simple, celui dun modle auto-rgressif linaire stable, en rgime stationnaire, et dun bruit
gaussien centr. On note en majuscules les inconnues qui sont considres comme des variables ala-
toires.
Considrons le processus gaussien stationnaire du second ordre produit par le modle auto-rgressif
AR(p) :
X(k + 1) = a1X(k) + + apX(k p + 1) + b0V(k + 1)
o le modle est stable (cest--dire o le polynme P( z ) = 1 a1z ... a p z p a ses racines lextrieur
du disque unit) et o le bruit blanc (Vk) est gaussien centr. Dans ce cas, en notant rj = Cov(Xk, Xk-j), on
obtient les relations de Yule-Walker en prenant la covariance des deux membres de lquation prsente
ci-avant avec les variables (Xk-i)i = 0...p1 :
r1 = a1r0 + ... + a p rp
................................. .
r = a r + ... + a r
p 1 p 1 p 0
Les mmes relations relient approximativement (aux erreurs de troncatures prs, tendant vers 0 avec le
p
rapport ---- ) les estimateurs empiriques des moindres carrs de la covariance :
N
1 k=N
ri = x(k ) x(k i)
N p k =i +1
et les estimateurs des moindres carrs des coefficients de la rgression a i . Dautre part, les estimateurs r i
sont consistants, sans biais et asymptotiquement normaux avec une variance de lordre de 1/N. On peut
Lapprentissage statistique
236
alors en dduire que les estimateurs a i sont consistants, asymptotiquement sans biais et asymptotique-
ment normaux avec une variance de lordre de 1/N, ce qui permet de faire des tests dadquation du
modle.
Remarque
Un estimateur est dit consistant si sa variance tend vers zro lorsque le nombre dchantillons tend vers linni.
Notons que, dans le cas des systmes linaires, les mthodes prsentes ici sont tout fait lmentaires et
ont t considrablement amliores tant par les automaticiens que par les statisticiens. Les principales
amliorations portent sur lintroduction du point de vue spectral, cest--dire par lidentification de la
fonction de transfert des filtres sous-jacents aux modles ARMA. On trouvera facilement ces techniques
dans les livres de base, notamment ceux cits en rfrence. Leur expos dpasse le cadre de cet ouvrage,
puisque les rseaux de neurones se situent dans le cadre des modles non linaires.
Dans lexemple de loscillateur de Van der Pol dcrit dans la section prcdente (qui, rappelons-le, est un
oscillateur non linaire), aucun modle linaire doscillateur ne peut prsenter un quilibre instable et un
cycle limite stable. On voit que lalgorithme de rgression linaire a bien captur la frquence de loscilla-
teur. Le comportement non linaire ne peut tre dcrit par un modle linaire.
La fonction RN est ralise par un rseau de neurones non boucl. Lentre du rseau est constitue des
signaux que lon cherche identifier (cest--dire les sorties du processus) du temps k au temps k p + 1
(o p est lordre du modle) et des commandes du temps k au temps k r + 1 (o r est lhorizon sur la
commande). Lestimation des paramtres est ralise partir de lerreur de modlisation, cest--dire la
diffrence entre la sortie du processus x(k + 1) et la prdiction effectue par le modle g(k + 1). Cest donc
exactement le schma destimation des paramtres que nous avons prsent dans le paragraphe sur la
modlisation dynamique avec hypothse bruit dtat et reprsentation entre-sortie, dans le chapitre 2.
Comme nous lavons dj indiqu, une base dapprentissage est forme de lentre qui est un vecteur du
type xk = [x(k) ;; x(k p + 1) ; u(k) ;; u(k r + 1)] et de la sortie qui est la variable gk = x(k + 1). Cette
base dapprentissage peut tre ralise de deux manires.
Si lon utilise un simulateur du procd que lon cherche commander, on constituera la base en faisant
fonctionner le simulateur sur un chantillonnage reprsentatif de lespace des entres (maillage rgulier),
ou sur une distribution privilgiant les points les plus courants, ou au contraire les points limites au voisi-
nage desquels on veut scuriser la performance du rseau. Cette situation est frquente lorsquon cherche
raliser une modlisation semi-physique ou bote grise, comme nous lavons indiqu dans le chapitre 2.
Si, en revanche, la base est construite par utilisation en temps rel dun dispositif exprimental, on na
gnralement pas la possibilit de raliser un tel chantillonnage des entres : la base dapprentissage est
construite partir de lchantillonnage de trajectoires exprimentales des entres et des sorties du systme.
Il importe alors que la ou les trajectoires chantillonnes visitent avec une rgularit suffisante lespace des
entres du rseau (produit de lespace dtat par lespace des commandes). Dans le cas dun systme dyna-
mique command, ce rsultat est gnralement obtenu en excitant le systme par des commandes ala-
toires. La question du choix dune telle trajectoire de commande est une question dlicate, qui dpend
fortement du systme quon cherche identifier. Dans le cas dun systme linaire, les excitations sont, par
exemple, harmoniques, et lon cherche identifier ainsi la fonction de transfert du processus. Dans le cas
du systme non linaire, on choisit ordinairement une trajectoire alatoire. Il peut tre cependant judicieux
de choisir pour trajectoires de commandes des bruits filtrs dans des plages de frquence variable. Le
chapitre 2 fournit quelques lments qui permettent de construire des plans dexprience.
Systme cible
Modle neuronal Systme cible
Comparaison des positions Modle neuronal
3 Comparaison des positions
3
2
2
1
1
0
0
1 1
2 2
3
0 2 4 6 8 10 12 14 16 18 20 3 0 2 4 6 8 10 12 14 16 18 20
Time (sec) Time (sec)
Comparaison des vitesses Comparaison des vitesses
3 6
2 4
1 2
0 0
1
2
2
3 4
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
(a) Time (sec) (b) Time (sec)
Figure 4-9. Comparaison de loscillateur de Van der Pol command et de son identification par rgression non linaire :
(a) Trajectoire de commande nulle (b) Trajectoire de commande alatoire.
Identification neuronale
239
CHAPITRE 4
La figure 4-9 prsente un exemple didentification de loscillateur de Van der Pol, o lapprentissage a t
effectu sur une base de 153 = 3375 exemples, obtenus par lchantillonnage de la trajectoire de loscilla-
teur excit par une commande alatoire. Cette base a dj t utilise pour la rgression linaire dont les
rsultats sont reprsents sur la figure 4-7. Les rsultats sont ici bien meilleurs.
Ces rsultats sont obtenus avec une architecture trois entres, dix neurones cachs et deux neurones de
sortie. Si lon effectue lapprentissage avec une base dapprentissage de mme dimension, obtenue par un
maillage rgulier de lespace dtats et de lensemble des commandes admissibles, lapprentissage ne
peut se faire convenablement dans les mmes conditions (sans pr-traitement particulier de la base
dentre). Limportance du choix de la base dapprentissage est ainsi illustre. Comme nous lavons dj
indiqu dans le chapitre 2, il est important de constituer la base dapprentissage par un chantillonnage
reprsentatif de la densit avec laquelle le systme visite lespace dtats et lespace des commandes. Ce
point sera prcis dans la section suivante sur lapprentissage en ligne. On retiendra en particulier limpor-
tance, pour lapprentissage, dune commande alatoire permettant une visite effective de ce domaine
(politique dexploration), notamment dans le cas o le systme dynamique possde un attracteur stable
(oscillateur de Van der Pol). On reviendra, dans le chapitre suivant, sur limportance de la politique
dexploration dans le cadre de la programmation neuro-dynamique.
Le choix de lordre du systme est important puisquil conditionne le nombre de paramtres de configu-
ration du rseau identifier. Cest un paramtre plus sensible que dans le cas linaire. Le choix de lordre
des modles est une question en thorie mal rsolue en rgression non linaire. Pratiquement, on combine
une approche empirique et ladaptation de critres dinformation mis au point pour les modles linaires
[GOURIEROUX 1995], ou bien lon utilise une approche par test dhypothses [URBANI 1993]. Comme
nous lavons vu dans le chapitre 2, lidentification non adaptative par rseau de neurones partir dune
base dapprentissage reprsentative de tout le domaine des entres ne pose pas de problme particulier au
concepteur de modle neuronal, sous rserve de lutilisation dune mthodologie srieuse et dalgo-
rithmes dapprentissage efficaces.
Ces problmes se posent toujours dans le cas de lidentification adaptative, o lon veut traiter les
donnes obtenues par lobservation du systme dynamique en flux, cest--dire au fur et mesure de leur
production. En revanche, le caractre adaptatif de lalgorithme les situe dans un cadre nouveau que nous
allons aborder dans la section suivante.
Cet estimateur possde toutes les proprits gnrales des estimateurs de rgression linaire nonces
prcdemment : consistant, sans biais, et de variance minimale parmi les estimateurs sans biais. Sa
consistance, cest--dire sa convergence vers a, est appele la loi des grands nombres, exprimant intuiti-
vement que la moyenne arithmtique dune suite de rsultats dexpriences alatoires, indpendantes,
permet dapprocher lesprance mathmatique de la variable alatoire modlisant le rsultat de lexp-
rience.
Une simple rcriture de la formule de dfinition prcdente nous permet dobtenir une formulation
rcursive :
N
( N + 1)a N +1 = x k + x N +1 = Na N + x N +1
k =1
do
1
a N +1 = a N +
N +1
( x k +1 a N ) .
Lintrt de cette formulation rcursive est quelle permet
une estimation adaptative. Une seule observation est Signal
(a) 20
ncessaire pour initialiser lestimation. Par la suite, la mise
jour de lestimation ne demande pas la disposition de 15
lensemble des mesures : il suffit de disposer de lestima- 10
tion prcdente et de la mesure au temps courant. Le coef- 5
ficient + 1=1/(N + 1) sappelle le gain de lalgorithme ou 0
le taux dapprentissage. 5
10
Un autre avantage de lestimateur rcursif de moyenne
15
empirique est quil permet de poursuivre les variations
20
lentes du paramtre quon estime dans le cas dun modle 0 5 10 15
non stationnaire. Pour que lestimateur soit adaptatif, il
(b) Estimation du paramtre : gain constant
faut remplacer le gain en 1/N lentement dcroissant vers 0 8
de la formule prcdente par un petit gain constant. Dans Paramtre source
6 Estimation (gain = 0.007)
ce cas, lestimateur est identique un filtre (ici un filtre du
Estimation (gain = 0.025)
premier ordre). Pour comparer les filtres du premier ordre 4
et les estimateurs rcursifs de la moyenne, on a reprsent,
2
figure 4-10, le comportement dun tel estimateur pour
poursuivre des variations quasi priodiques de la moyenne 0
du signal avec un rapport signal/bruit de 1/5. Le signal
2
trait est reprsent dans le graphique (a). Dans le
graphique (b), on compare le rsultat pour diffrentes 4
0 5 10 15
valeurs du gain : on remarque que, gain bas, le bruit est
plus attnu, mais la capacit de poursuite du filtre plus (c) Estimation du paramtre : gain dcroissant
12
basse. Dans le graphique (c), on compare les perfor- 10
Paramtre source
mances destimateurs rcursifs dont les exposants de Estimation (exposant = 1)
8 Estimation (exposant = 0.55)
dcroissance des gains sont respectivement 1 (moyenne
6
empirique) et 0,55. On remarque que les capacits de
4
poursuite de lestimateur moyenne empirique ne sont pas
2
suffisantes dans cet exemple.
0
Figure 4-10. Comportement de lestimateur de moyenne empirique : 2
(a) Signal utilis, (b) Estimation du paramtre par filtrage IIR gain 4
constant, (c) Estimation du paramtre par filtrage gain dcroissant. 0 5 10 15
Identification neuronale
241
CHAPITRE 4
On peut remarquer que lestimateur de la moyenne empirique est un estimateur fond sur la minimisation
du critre quadratique par une descente de gradient. En effet, dans le cas du modle stationnaire, les
donnes sont un chantillon de la loi de probabilit de la variable alatoire X. On cherche minimiser la
1
[ ]
fonction de cot thorique J(a) = E ( X a) 2 ; notons quil nest pas possible de calculer cette fonction,
2
puisquelle fait intervenir lesprance mathmatique dune variable alatoire dont la loi de probabilit est
inconnue de lutilisateur. Le gradient de J (ici sa drive) est : J(a) = E(X-a). Un algorithme de descente
de gradient est
ak+1 = ak +1J(ak)
o k + 1 est une quantit positive.
Pour obtenir lestimateur moyenne empirique rcursive, on remplace dans lalgorithme J(ak) par
(Xk+1-ak) :
ak+1= ak +1(Xk+1 ak).
On reconnat ici lalgorithme de gradient stochastique, que nous avons mentionn dans le chapitre 2. On
peut remarquer que la grandeur alatoire (Xk+1 ak) a J(ak) pour esprance. Cest pour cette raison que
cet algorithme est dit de gradient stochastique : le vrai gradient de la fonction de cot des moindres carrs
a t remplac par un terme alatoire qui a pour moyenne ce gradient. Tandis que le gradient total J(ak)
dpend de la loi de X que lon ne connat pas, et quil faudrait pralablement estimer, le gradient stochas-
tique est, lui, connu chaque moment.
Ainsi, lalgorithme rcursif aborde directement loptimisation sans passer par ltape didentification du
modle : il effectue en mme temps les tapes destimation et doptimisation. En revanche, lalgorithme
destimation traditionnel commence par une phase destimation o le critre minimiser
[
J(a)= 1 E ( X a) 2
2
] est dabord estim par la fonction de cot empirique des moindres carrs
1 N
( x k a) avant deffectuer loptimisation sur le critre estim. Il se trouve que les deux
2
JN(a) =
2 N k =1
dmarches aboutissent au mme rsultat dans cet exemple, car le modle est linaire par rapport au para-
mtre estimer a. La programmation des deux algorithmes est pourtant diffrente : lalgorithme de
gradient stochastique est rcursif.
[ ]
Considrons le problme de rgression consistant minimiser J(w) = 1 E (Y Xa b) 2 o X est un
2
vecteur alatoire (1, n) du second ordre (cest--dire possdant une esprance et une matrice de cova-
riance), o le vecteur w est la concatnation du vecteur (n,1) des paramtres a et du scalaire b, et o Y est
une variable alatoire relle du second ordre.
On a : J(a, b) = E[(Y Xa b)X,(Y Xa b)] .
Lapprentissage statistique
242
On dispose, pour rsoudre le problme, dchantillons (X1, Y1), , (Xk, Yk) fournis en ligne (cest--
dire pendant lestimation des paramtres), indpendants de la loi du vecteur alatoire des entres-sorties.
On peut alors mettre en uvre un algorithme de gradient stochastique pour estimer ces paramtres.
Lestimateur rcursif du gradient stochastique est donc dfini par lalgorithme
a k +1 = a k + k +1 (Yk +1 X k +1a k bk )X k +1 .
bk +1 = bk + k +1 (Yk +1 X k +1a k bk )
On a le rsultat de convergence suivant :
Sous les conditions suivantes sur le gain de lalgorithme k = , k 2 < , lalgorithme converge
k =1 k =1
(avec quasi-certitude) vers les coefficients de la rgression linaire de Y en X.
Les conditions sur le gain, nonces ci-dessus, sont gnrales ; nous les appellerons dans la suite
conditions de lapproximation stochastique relatives au gain .
Les algorithmes doptimisation du second ordre (rgle de Newton) ont aussi des versions rcursives qui
fournissent des estimateurs consistants. Leur convergence se dmontre dans le cadre de lapproximation
stochastique. Ils sont particulirement employs dans les modles linaires o ils acclrent la conver-
gence. Rappelons (chapitre 2) que la formule de Newton peut scrire
1
w = w * HJ [ w * ] J [ w * ]
o HJ[w*] est la matrice hessienne de la fonction de cot, matrice symtrique forme par les drives
partielles secondes, relativement aux composantes de la variable vectorielle. Cette relation suggre la
relation rcursive suivante :
w (k + 1) = w (k) H[ w (k)]1 [ w (k)]. Dans le cas dune fonction strictement convexe et notam-
ment dun critre quadratique, cette matrice est dfinie positive et donc inversible. Dans lexemple du
modle AR(p), il sagit de la matrice de variance-covariance du vecteur alatoire stationnaire Xk. Lalgo-
rithme rcursif du second ordre enchane donc optimisation du second ordre du critre J et estimation
rcursive R (k)- de la matrice de variance-covariance :
w (k + 1) = w (k) + k+1(k + 1) R (k)-1X(k) R (k + 1) = R (k) + k+1X(k + 1)X(k + 1)t.
Cette mthode appele mthode de lerreur de prdiction rcursive est amplement dveloppe dans
[LJUNG 1983], qui insiste sur les applications lidentification de la mthode dapproximation stochas-
tique. Elle se gnralise au cas non linaire, et peut ainsi sappliquer lapprentissage adaptatif des
rseaux de neurones quand les donnes ncessaires lapprentissage sont fournies en ligne par un
processus ou une simulation.
w
Pour appliquer la mthode du gradient stochastique, on calcule le gradient, par rapport , de la fonction
1 ( x, y, w) 2 . Ce gradient est donc : g (y, x, u, ) J(y, x, u, ).
w w
(
2 w
w
On le notera dans la suite G(y, x, u, ). Nous noterons de mme G(k+1) = G[X(k+1), X(k), u(k), (k)]. w
On considre les algorithmes suivants.
Algorithme du gradient stochastique :
w(k + 1) = w(k) k+1 G(k + 1) = w(k) + k+1 wg [X(k + 1), X(k ), u(k ), w(k)]J(k + 1)
Algorithme de Gauss-Newton stochastique :
R(k+1) = R(k) + k+1 g [X( k + 1), X( k ), u( k ), w( k )] g [X( k + 1), X( k ), u( k ), w( k )]T
w w
w(k + 1) = w(k)-k+1 R(k + 1)-1G(k + 1)
Sous les conditions habituelles de lapproximation stochastique relatives au gain, et si lalgorithme reste born,
ces algorithmes convergent vers une valeur du paramtre qui est un minimum local du critre quadratique.
Lhypothse pour lalgorithme de rester born est impossible assurer a priori dans les cas pratiques.
Aussi, dans [LJUNG 1983], en suivant les thories antrieures de lapproximation stochastique, on impose
de plus lalgorithme une projection non linaire assurant quil reste dans un domaine born. Cette
projection respecte la proprit de convergence.
Comme nous lavons vu en dtail dans le chapitre 2, linversion de la matrice hessienne, ncessaire dans
lalgorithme de Gauss-Newton, peut tre approche par dautres algorithmes classiques du second ordre
(quasi-Newton, Gradient conjugu, Levenberg-Marquardt). Un bon expos empirique de la mthode de
lerreur de prdiction pour lapprentissage des rseaux de neurones pour lidentification est donn dans
[NORGAARD 2000].
Si le gain est constant et petit, les capacits de poursuite de lalgorithme sont analogues celles dune
technique particulire de commande appele rgime glissant [BENVENISTE 1987].
Ltat et la commande au temps courant sont envoys en entre au rseau de neurones dans sa configura-
tion courante.
Notons que ltat est suppos tre entirement mesur. Dans le cas dun modle auto-rgressif, le signal
courant et la commande courante sont utiliss pour reconstruire ltat courant par des lignes retard repr-
sentes dans la figure 4-8. Le rseau calcule sa prdiction de ltat au temps suivant qui est compar
ltat du processus. Lerreur de prdiction calcule par cette comparaison est renvoye au rseau pour
rtropropagation, calcul du gradient et mise en uvre de lalgorithme. Cet apprentissage est dirig (il est
appel en thorie de la commande teacher forcing ) car ltat compltement connu peut tre impos
comme sortie dsire au rseau aprs chaque pas de calcul. Rappelons que cet algorithme a t prsent
dans le cadre de lapprentissage des systmes dynamiques non linaires, au chapitre 2.
On suppose le systme stationnaire pour simplifier les notations. Dans le cas linaire, cette quation prend
la forme particulire :
x(k + 1) = Ax(k) + Bu(k).
On suppose maintenant que ltat nest plus compltement observ. On introduit alors une quation de
mesure (ou quation de sortie, ou quation dobservation) de la forme :
y(k) = h[x(k)]
ou, pour le modle linaire stationnaire :
y(k) = H x(k).
Pour identifier la trajectoire dtat partir des mesures, il faut donc trouver ltat initial x(0) dont la
connaissance dterminera toute la trajectoire dtats. partir des quations :
k 1
y(k) = HAk-1-j Bu(j) + HAkx(0)
j =0
o la squence des commandes u(k) est connue, on obtient le systme linaire dinconnue x(0) suivant
quand k varie de 0 n o n est la dimension de lespace dtat :
k 1
HAkx(0) = y(k) HAk-1-j Bu(j).
j =0
Ce systme linaire dtermine sans ambigut ltat initial x(0) pourvu que le rang de la matrice conca-
tne [H ; ; HAn] soit n . On dit dans ce cas que le couple (H, A) est compltement observable.
Cette notion peut stendre au cas des systmes dynamiques mesurs non linaires ([SONTAG 1990],
[SLOTINE 1991]) en introduisant des concepts de gomtrie diffrentielle (crochets de Lie) qui dpassent
le cadre de cet ouvrage.
Ce critre des moindres carrs ralise un quilibre ajustable entre lincertitude sur le modle, pondre par
le paramtre de pnalisation , et lincertitude sur la mesure, pondre par le paramtre de pnalisation .
On peut alors calculer chaque tape le gain dinnovation en rsolvant le problme doptimisation
quadratique, ce qui donne immdiatement, en annulant le gradient de la fonction de cot :
0 = 2 (I + HTH) vk+1 2HT[ y(k) HAx(k 1) HBu(k-1)].
On dtermine ainsi le gain dinnovation optimal :
Kk+1 = (I + HTH)-1 HT = HT(I + HTH)-1.
Notons que nous aurions pu faire dpendre les pnalisations et du temps k, ou choisir des pnalisations
matricielles. Mais le problme reste davoir une interprtation de ces pnalisations qui nous aide les
choisir dans les problmes pratiques. Par ailleurs, il faut sassurer que le choix du gain laisse stable le
processus destimation rcursive. Ces questions sont rsolues par linterprtation probabiliste de la
thorie du filtrage de Kalman, qui fait lobjet de la suite de cette section.
Filtrage de Kalman
Dfinition du filtre de Kalman dun systme linaire stationnaire
Les algorithmes partir desquels on peut identifier ltat partir des mesures sont appels des filtres.
Cette terminologie est justifie par lide que ces algorithmes permettent la restitution de ltat en limi-
nant les incertitudes et les bruits qui perturbent linformation que nous avons sur cet tat. Les filtres du
type prcdent sont fonds sur des schmas du type prdicteur-correcteur, utilisant linformation dinno-
Lapprentissage statistique
248
vation pour corriger la prdiction de ltat sur la base de lestimation antrieure. Ce fonctionnement est
illustr par la figure 4-12. On les appelle, pour cette raison, des filtres dinnovation.
Le principe du filtrage de Kalman q -1
[ANDERSON 1979], [HAYKIN 1996],
consiste se placer dans une modlisa-
tion probabiliste des incertitudes de
modlisation et des bruits de mesure volution
pour calculer le gain dinnovation. La Mesure
reconstruction de ltat au vu des
mesures est alors un problme destima-
Innovation
Contrleur
tion baysienne : on dtermine la loi de
probabilit de ltat a posteriori au vu des Gain
mesures disponibles, et lon choisit Mesure K dinnovation
quation
lestimateur des moindres carrs ou celui dvolution (Prdicteur)
du maximum de vraisemblance (estima- (prdicteur)
+
teur MAP). Il peut cependant tre trs
difficile rsoudre pratiquement dans le
q -1
cas gnral. Dans le cas du modle
linaire gaussien, il fournit simplement Figure 4-12. Schma dun filtre dinnovation. Le filtre dinnovation
un algorithme de filtrage rcursif qui est du type prdicteur-correcteur : la correction est apporte au filtre
concide avec celui du filtrage optimal du par linformation de mesure en provenance du dispositif rel. Le filtre
paragraphe prcdent. Cela provient de est rcursif et lestimation est rinjecte dans le filtre, ce qui pose le
problme de la stabilit du filtre.
la proprit fondamentale suivante, bien
connue en calcul des probabilits.
Proprit fondamentale
La loi conditionnelle dun vecteur gaussien par une statistique linaire est gaussienne. Donc, lestima-
teur MAP concide avec lestimateur des moindres carrs et avec la rgression linaire.
Pour obtenir cette rgression linaire, nous allons dcomposer le vecteur Y(k + 1) des mesures disponi-
bles au temps k + 1 en la somme de deux vecteurs alatoires dcorrls : le vecteur Y(k) des mesures
disponibles au temps k et le rsidu de la rgression de Y(k + 1) sur ce vecteur. La rgression linaire cher-
che est alors la somme des deux rgressions linaires sur les deux termes de cette somme (thorme de
la projection orthogonale). Calculons donc la rgression de la dernire mesure Y(k + 1) sur le vecteur Y(k)
des mesures prcdentes.
On a :
Y(k + 1) = HX(k + 1) + W(k + 1) = HAX(k) + HBu(k) + HV(k + 1) + W(k + 1).
Comme HAX(k) est le seul terme de la somme qui dpende du pass, la rgression cherche est HA X (k)
+ HBu(k) o lestimateur optimal X (k) est, par dfinition, la rgression linaire de ltat alatoire X(k)
sur le vecteur alatoire des mesures accumules jusqu linstant k : Y(k) =[Y(1) ; Y(k)].
Le rsidu de la rgression de Y(k + 1) sur Y(k) est donc :
Y(k + 1) HA X (k) HBu(k) = HA[X(k) X (k)] + HV(k + 1) + W(k + 1).
On retrouve prcisment lexpression de linnovation apparue au paragraphe prcdent dans la formula-
tion dterministe et variationnelle de la reconstruction de ltat en fonction des mesures. On notera dsor-
mais linnovation au temps k+1 par
J(k + 1) = Y(k+1) HA X (k) HBu(k)
linnovation au temps k + 1 est une variable alatoire indpendante de Y(k).
Lestimateur de ltat au temps k+1 peut donc se dcomposer en la somme de deux termes :
un terme de prdiction qui dpend des mesures disponibles linstant k
A X (k) + Bu(k) ;
un terme de correction qui est le terme (k + 1) dpendant linairement de linnovation au temps k + 1,
que lon peut donc crire
Kk+1(k + 1) = Kk+1 [Y(k + 1) HAX(k) HBu(k)]
o Kk+1 est appel le gain de Kalman du filtre au temps k + 1.La dfinition du filtre est donc rcursive et
scrit
X (k + 1) = A X (k) + Bu(k) + Kk+1(k + 1).
On retrouve la forme prcdente du filtrage optimal par innovation. Le gain de Kalman est le coefficient
matriciel de la rgression linaire de ltat X(k + 1) au temps k + 1 sur linnovation. Ce coefficient est
connu (la rgression linaire est rappele au chapitre 2) et sobtient partir des matrices de covariance et
de variance :
Kk+1 = Cov[X(k + 1), J(k + 1)] Var[J (k + 1)]-1.
Pour calculer le gain de Kalman, il est donc ncessaire de calculer la dynamique des erreurs. Ce calcul est
effectu en complment. On en expose ci-aprs les rsultats :
Si on note Pk la matrice de variance-covariance de lerreur destimation X(k) X (k) et Pk+1 la matrice de
variance-covariance de lerreur de prdiction X(k+1) A X (k) Bu(k), le gain de Kalman est donn par
la formule suivante
Kk+1 = Pk+1HT[HPk+1HT + R]-1
o la dynamique des matrices Pk et Pk+1 est dfinie par les quations suivantes, appeles quations de
propagation de la covariance :
Pk+1 = A Pk AT + Q
Pk+1 = (I - Kk+1H) (APkAT + Q) (I Kk+1H)T + Kk+1RKk+1T.
Lapprentissage statistique
250
Ainsi lvolution des matrices de variance-covariance de lerreur est-elle fixe une fois pour toutes par le
modle et lerreur initiale. Ces matrices peuvent tre prcalcules avant le droulement du processus,
ainsi que la suite des gains de Kalman. Cette proprit est fort intressante dans la pratique et elle est
utilise dans les applications embarques du filtrage de Kalman.
problmes didentification. Dans le paragraphe suivant, nous allons aborder cette application laide
dune mthode dextension dtat.
en ensembles supposs dcorrls (par exemple, les poids affrents un mme neurone). La matrice de
covariance garde alors une structure en blocs qui simplifie sa mise jour et son inversion approche
[PUSKORIUS 1994], [HAYKIN 1999].
La mthode du filtre de Kalman est encore peu utilise en pratique cause de la complexit relative de sa
mise en uvre. Elle ouvre nanmoins des perspectives trs intressantes, dans la mesure o il sagit dune
mthode du second ordre qui est naturellement adaptative, contrairement aux autres mthodes du second
ordre utilises communment pour acclrer lapprentissage. Le caractre qui semble arbitraire des
matrices de covariance, peut permettre dinjecter une forme de connaissance empirique sur les perturba-
tions et les bruits du systme quon cherche modliser, et ainsi de rgler les capacits de poursuite du
processus de modlisation. Cette mthode est applique la commande par rseaux de neurones, que
nous dcrirons plus prcisment la fin du chapitre suivant.
ouverte. Nous allons voir dans le paragraphe suivant quil est galement possible de modliser, par une
combinaison de rseaux de neurones, un systme command en boucle ferme.
Rappel
Pour quun rseau de neurones boucl soit causal, il faut que tout cycle dans le graphe du rseau
possde un retard non nul.
Lapprentissage statistique
256
Nous avons vu galement, dans le chapitre 2, plusieurs exemples de rseaux de neurones boucls, de
structures plus ou moins complexes. Nous prsentons ici deux types de rseaux boucls particuliers,
dintrt plus historique que pratique.
Rseau de Elman
Le rseau de Elman est un rseau de Sorties g (k)
neurones couches, propos lori-
gine, comme beaucoup de structures
particulires de rseaux rcurrents la
fin des annes 1980, pour modliser
des phnomnes de contexte dans les
applications des rseaux de neurones x(k+1)
.....
lanalyse linguistique [ELMAN 1990].
La particularit dun contexte relative- q -1
ment la modlisation dtat dun
systme physique est que ce contexte .....
na aucune raison dtre connu, voire Entres externes u(k)
dtre dtermin par une loi physique
donne (quation diffrentielle, prin- Entres dtat x (k)
cipe variationnel) dont il faut identi- Figure 4-16. Rseau de Elman appliqu la modlisation dun systme
fier les paramtres. Les modles de dynamique.
Markov cachs se rvlaient efficaces
malgr leur complexit dans les
problmes danalyse de la parole. Le modle de rseau de Elman se rattache ces ides : il a comme parti-
cularit de proposer de reprsenter le contexte (ou ltat du systme) dans une couche cache du rseau.
En effet, il est inutile de le prsenter la sortie du rseau puisquon sera dans lincapacit de la comparer
une mesure. La figure 4-16 montre un schma du rseau rcurrent de Elman.
Dfinition
Le rseau de Elman est un rseau une couche de neurones cachs dont la sortie constitue ltat :
lordre du modle est donc gal au nombre de neurones cachs. Les entres dtat (appeles units
de contexte par Elman) sont donc les sorties des neurones cachs linstant prcdent. La sortie du
rseau un instant donn est donc une fonction non linaire de lentre externe et de la sortie des
neurones cachs linstant prcdent.
On distingue bien dans le rseau de Elman les composantes essentielles dun systme dynamique
observ : les entres qui sont associes la commande dun systme, les units de contexte associes
ltat du systme et les units de sortie associes la mesure de ltat. Lassociation effectue entre la
couche dentre et la couche cache correspond lquation dvolution dun systme dynamique
command qui associe ltat et aux entres du systme ltat au temps suivant.
Rseau de Hopfield
Les rseaux de Hopfield ont jou un rle historique important pendant quelques annes, partir de 1982.
Motivs par les progrs de la physique statistique des milieux dsordonns et leur application aux
systmes complexes, Hopfield propose en 1982 [HOPFIELD 1982] un rseau neuronal en rupture dlibre
avec le perceptron (qui est tudi en dtail dans le chapitre 6 de cet ouvrage). Il insiste sur le caractre
Identification neuronale
257
CHAPITRE 4
dynamique des rseaux de neurones naturels provoqu par la rcurrence des connexions. Un rseau
neuronal rcurrent est un systme dynamique ; il a donc des attracteurs qui sont des tats dquilibre.
Un rseau de Hopfield est constitu de neurones binaires, cest--dire de neurones dont la fonction dacti-
vation est un chelon : la sortie y dun neurone est donne par la relation :
y=H w x
j
ij j o H(x) = 1 si w x 0 et H(x) = 0 sinon,
j
ij j
et o les xj sont les entres du neurone i, cest--dire les sorties des autres neurones du rseau. Ainsi,
chaque neurone porte une information binaire, et ltat du rseau, cest--dire le vecteur constitu des
sorties des neurones, constitue un vecteur binaire qui peut tre considr comme le code dune informa-
tion.
Il faut noter tout dabord quun rseau de Hopfield est dpourvu
dentres externes : son comportement est autonome, dict unique-
ment par sa dynamique propre. Pour assurer quun tel rseau est
stable (cest--dire que, quel que soit son tat initial, il volue jusqu
ce quil ait atteint un tat dquilibre, indpendant du temps), et pour
calculer facilement ces tats dquilibre, Hopfield introduit une rgle
qui na rien de biologique : la symtrie des connexions. Les
connexions sont symtriques : le poids wji de la connexion reliant le
neurone i au neurone j est gal au poids wij de la connexion qui relie
le neurone j au neurone i ; de plus, chaque connexion est associ un
retard gal une unit de temps. La figure 4-17 est le schma dun
rseau de Hopfield six neurones binaires, avec des connexions
compltes et symtriques (les symboles q-1 reprsentant le retard unit Figure 4-17. Rseau de Hopfield
de chaque connexion ont t omis). Pour Hopfield, ces tats dqui- compltement connect connexions
libre correspondent des codes dinformation, et le processus dyna- symtriques (pour simplifier la figure,
mique allant dun tat initial un tat dquilibre est interprt comme les retards units associs chaque
le processus de rappel dune mmoire associative : ltat initial peut connexion ont t omis).
tre le code binaire dune information incomplte ou partiellement
errone, et ltat final est le code binaire de linformation exacte.
Lapprentissage du rseau consiste alors calculer les paramtres du rseau de telle manire que les codes
des informations que lon souhaite mmoriser soient des tats stables du rseau. Pour cela, Hopfield
propose que la matrice des connexions soit la matrice de corrlation du codage des mmoires. Plus prci-
sment, supposons que le rseau comporte N neurones. Les informations que lon veut coder sont au
nombre de p, reprsentes par des vecteurs xi = (ij). La matrice des poids est note w = (wjl) avec
1 p j l
wjl = i i si j l et wjj =0. On remarque que la matrice de connexion est bien symtrique. Cette
p i =1
rgle dapprentissage est une version trs simpliste de la rgle de Hebb, propose pour rendre compte de
certains phnomnes dapprentissage dans les systmes biologiques. Dautres rgles dapprentissage,
sans aucune vraisemblance biologique, ont permis de garantir que tout ensemble donn de vecteurs en
nombre infrieur N/2) (ou tout ensemble de squences dtats) peut tre mmoris comme un point fixe
(ou comme un cycle) de la dynamique du rseau.
En conclusion, vingt ans aprs leur invention, on peut faire un bilan actuel des rseaux de Hopfield :
En tant que modle du fonctionnement biologique, le modle de Hopfield a lavantage de mettre en
lumire, aprs dautres modles plus anciens mais moins connus, le rle de la dynamique dans les fonc-
Lapprentissage statistique
258
tions cognitives des rseaux de neurones et le lien tabli par la rgle de Hebb entre apprentissage et
corrlation. Des modles plus biologiquement plausibles lui ont succd, qui intgrent des
proprits nouvelles : codage temporel de linformation par les potentiels daction (spikes), carac-
tre dilu et htrogne des connexions qui excluent toute ide de symtrie des poids synaptiques
malgr la rgle de Hebb. Ces proprits nouvelles excluent tout prolongement direct des mthodes
employes par Hopfield malgr la richesse des innovations conceptuelles quon a cites.
En tant que prototype de mmoires associatives, et malgr le dveloppement, dans les annes 1980, de
nouvelles variantes (rseaux de Hopfield de champ moyen fonctions dactivation continues, rseaux
de Hopfield stochastiques et machines de Boltzmann), et la publication dune littrature considrable,
les performances faibles des rseaux de Hopfield ont entran, juste titre, labandon des recherches
leur sujet, notamment celles qui concernent leur applications potentielles en reconnaissance des formes
et la correction derreurs. Les rseaux de neurones qui font lobjet de lessentiel de ce livre sont beau-
coup plus efficaces, et ont une bien plus grande richesse de comportement, que les rseaux de Hopfield.
On a rapproch assez vite le modle de Hopfield de lalgorithme de recuit simul mis au point la mme
poque par Kirkpatrick, Gelatt et Vecchi [KIRKPATRICK 1983]. Ce rapprochement est lorigine dune
importante branche de recherche, lapplication des rseaux de neurones loptimisation, traite au
chapitre 8 de ce livre.
Rappel
Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle les algorithmes dcrits dans les paragraphes prcdents sappli-
quent directement.
Le paragraphe intitul Mise sous forme canonique des modles dynamiques du chapitre 2, ainsi que les
complments de ce dernier sont consacrs ce problme ; plusieurs exemples illustratifs y sont prsents.
tre infinie. En toute rigueur, pour effectuer le calcul du gradient de la fonction de cot, il faudrait, pour
chaque instance de la base dexemples et pour chaque tape dapprentissage, effectuer le calcul sur tout
lhorizon de prdiction, calculer la correction du rseau et recommencer. Lapprentissage des rseaux
boucls sans modification par rapport aux rseaux classiques serait donc une procdure trs lourde, trs
gourmande en temps de calcul et en espace mmoire ; de plus il serait impossible de la mettre en uvre
dans toutes les applications o le temps rel est requis, et o le retour en arrire et la reproduction de
conditions exprimentales exactes sont impossibles. Ds que les architectures neuronales rcurrentes ont
t appliques lidentification et au contrle de systmes dynamiques, le problme de lapprentissage a
reu plusieurs solutions approches, notamment dans larticle fondamental de [WILLIAMS 1989].
Dans le cas o ltat du systme que lon veut identifier est compltement connu par mesure chaque
instant, il ny a pas en ralit de difficult particulire : on peut mettre en uvre un algorithme dirig
(teacher forcing), dans lequel les entres dtat du rseau reoivent les sorties du processus. Rappelons
que, comme nous lavons indiqu dans le chapitre 2, cette technique ne doit tre mise en uvre que dans
le cas o le systme modliser prsente un bruit dtat ; nous avons montr thoriquement, et dmontr
exprimentalement, quelle peut donner de trs mauvais rsultats pour modliser un processus ayant un
bruit de sortie (ou bruit de mesure).
Dans le cas gnral o la connaissance que lon a de ltat rel du systme un instant donn est incom-
plte ou corrompue par un bruit de mesure, il faut en pratique choisir entre deux approximations :
soit calculer le gradient effectif par rapport aux poids courants mais en tronquant la priode de calcul et
en la limitant une fentre glissante de petite taille (rtro-propagation travers le temps) ;
soit approcher le gradient des tats antrieurs par rapport aux poids courants par la valeur de ces
gradients par rapport aux anciens poids (algorithme RTRL).
Nous allons maintenant exposer ces mthodes plus en dtail.
tat prdit
tat prdit
tat prdit
Entres d'tat
Entres d'tat
Entres d'tat
Entres d'tat
mesures
mesures
mesures
mesures
de la forme canonique
de la forme canonique
de la forme canonique
de la forme canonique
Rseau non boucl
de commande
de commande
de commande
Entre
Entre
Entre
Entre
Dans la mthode dite de lapprentissage dirig (teacher forcing), toutes les entres de la forme canonique
du rseau sont connues pendant lapprentissage, puisque ce sont les quantits (sorties ou variables dtat)
qui sont mesures sur le processus. La mtaphore lorigine de la dnomination de cet algorithme pitto-
resque est que le professeur rectifie le comportement de llve chaque instant au lieu dobserver son
comportement pendant une certaine dure avant de le rectifier . Lingnieur, quant lui, dit simplement
que le modle est cal chaque instant sur les donnes exprimentales. Lapprentissage du rseau se
rsume donc une rgression non linaire de la sortie du rseau sur son entre (NARX) comme on la vu
dans la section Identification de systmes dynamiques commands par rgression de ce chapitre, ainsi
que dans le chapitre 2. Le schma de cet apprentissage est prsent dans la figure 4-18.
Lapprentissage statistique
260
On utilise pour lapprentissage une trajectoire dans lespace des tats (ensemble de N couples entre-tat).
Les tats intermdiaires (temps k) sont utiliss la fois comme sortie pour valuer les performances du
rseau calculant lvolution du temps k 1 au temps k, et comme entre pour calculer lvolution du
temps k au temps k + 1. La pratique de cette mthode simple exige que lentre du rseau chaque tape
de temps soit connue et donc interdit son application directe dans le cas gnral de systme dynamique
mesur command.
Figure 4-19.
Processus Processus
Dpliement Processus Processus
temporel de la Sortie Sortie Sortie Sortie
+ + mesure + mesure
forme cano- mesure mesure +
nique dun - - - -
rseau boucl
prdite
prdite
prdite
prdite
Sortie
Sortie
Sortie
Sortie
de la forme canonirque
de la forme canonirque
de la forme canonirque
de la forme canonirque
sur toute la
Rseau non boucl
longueur de la
squence
commande
commande
commande
commande
Entre de
Entre de
Entre de
Entre de
dapprentissage.
Si les squences dapprentissage sont longues, ou si lon dsire effectuer un apprentissage adaptatif
(cest--dire un apprentissage qui se poursuit continuellement durant le fonctionnement du rseau), on ne
peut pas utiliser lensemble des donnes partir de linstant initial, car le temps de calcul augmenterait
indfiniment. On est alors conduit tronquer les squences dapprentissage, cest--dire ne prendre en
considration, chaque tape de lapprentissage, quun horizon limit dans le pass un nombre fini p
dinstants. Ainsi, linstant n, on ne prend en considration que les instants n p + 1 n. Cela conduit
introduire un changement de notation : nous dsignerons dsormais par k le numro de la copie par
rapport lorigine de lhorizon considr ltape n ; k varie donc dornavant de 1 p. Le schma
dapprentissage est exactement le mme que celui qui est reprsent sur la figure 4-19, avec nanmoins
les diffrences suivantes :
la squence ne stend pas sur n instants, mais sur p instants ;
Identification neuronale
261
CHAPITRE 4
les entres dtat au premier de ces p instants peuvent tre fixes de deux manires diffrentes :
si ltat du processus est mesur, on peut affecter ces entres les valeurs mesures sur le processus :
lalgorithme est alors semi-dirig ;
si ltat du processus nest pas mesur, on doit affecter ces entres la dernire valeur calcule de la
copie correspondante (cest--dire celle qui a t calcule lors des calculs qui ont t effectus
ltape n 1 de lapprentissage) : lalgorithme est alors dit non dirig, puisque ltat mesur du pro-
cessus nest jamais pris en considration durant lapprentissage. Dans ce dernier cas, cette affectation
intgrant rcursivement les informations de tout le pass jusquau temps n p + 1 et ayant t rvise
par p tapes prcdentes peut tre considre comme fiable. Cependant, elle introduit la fois une
cause derreur et un risque dinstabilit. On peut montrer [LION 2000] en introduisant une projection
et en utilisant la thorie de lapproximation stochastique que cette approximation est contrle et
nentrave pas la convergence du systme vers un minimum (local puisquon est dans un cadre non
linaire et non ncessairement convexe).
Il y a donc ici deux indices temporels ne pas confondre, celui de ltape dapprentissage not n et celui
de ltape de temps dans le rseau dpli ltape n, not k avec 1 k p. Une copie du rseau est carac-
trise par les deux fonctions de transfert g et h qui dterminent respectivement ltat et la sortie du rseau
ltape k (voir mise sous forme canonique) en fonction de ltat du rseau, de son entre et de ses para-
mtres de configuration ltape prcdente. On va dtailler les oprations ncessaires pour calculer le
gradient par rtropropagation travers le temps pendant ltape dapprentissage n + 1. Tous les param-
tres de configuration du rseau pris leur valeur courante sont stocks dans le vecteur w.
Pour la n-ime tape dapprentissage, on va utiliser le vecteur des donnes dentre de composantes
k1
u n + 1 = unp+k, pour k variant de 1 p,
et celui des donnes de sortie de composantes
n + 1 = ynp+k+1, pour k variant de 1 p.
k
Si on est dans la situation o ltat du rseau nest pas mesur en apprentissage non dirig, on choisit
comme tat initial du rseau dpli ltape dapprentissage n + 1 lestimation de ltat obtenu ltape
prcdente
0 1
x n + 1 = x n p + 1 = x n .
ltape dapprentissage n + 1, on va effectuer travers le rseau dpli, configur ltape dapprentis-
sage prcdente, les oprations suivantes :
calcul de ltat et de la sortie pour k variant de 1 p,
k k1 k1
x n + 1 = g ( u n + 1, x n + 1, w )
k k1 k1
y n + 1 = h ( u n + 1, x n + 1, w )
comparaison avec les sorties dsires pour k variant de 1 p,
k k k
n + 1 = n + 1 yn + 1
calcul du rseau dpli adjoint obtenu en inversant le sens de propagation des signaux, en remplaant les
nuds par des additionneurs et les fonctions dactivation non linaires par leurs drives, rtropropaga-
tion de lerreur travers le rseau adjoint dpli, pour k variant de 1 p,
k1 k k
n + 1 = g * ( n + 1, n + 1, w )
Lapprentissage statistique
262
Calcul du gradient
Ce rsultat a t dmontr dans le chapitre 2, dans le paragraphe consacr la technique des poids
partags.
Remarque
Le lecteur qui dsirerait programmer lui-mme un des algorithmes sus mentionns trouvera, prsentes de manire synthtique, toutes les
formules ncessaires dans le chapitre 3 de la thse de Yacine Oussar Rseaux dondelettes et rseaux de neurones pour la modlisation
statique et dynamique de processus , pages 64 69 (modles entre-sortie) et 72 81 (modles dtat). Cette thse est disponible en version
pdf lURL http://www.neurones.espci.fr. Une discussion technique trs complte, quil serait trop long de reproduire ici, y est prsente.
n
La question est de dterminer w 1 [w(n)] alors que la valeur w(n) ntait pas disponible aux instants
antrieurs n et que, fonctionnant en temps rel, on ne veut pas revenir dans le pass comme dans la
mthode BPTT. Par exemple, ltape n 1, on a effectu le calcul :
x(n) = g[u(n-1), x(n-1), w(n-1)]
au lieu du calcul :
x(n) = g[u(n-1), x(n-1), w(n)]
et avec une trajectoire dtats diffrente qui est calcule en temps rel avec une trajectoire de poids w(k)
au lieu dtre recalcule avec une configuration constante w(n).
Lide est de mettre jour une approximation note w n1 de n1 [w(n)] par la formule rcursive
w
Cette approximation peut tre justifie mathmatiquement par lapproximation stochastique dans le cadre
de la thorie des chanes de Markov contrles [BENVENISTE 1987] sous des hypothses que nous ne
dtaillerons pas.
Remarque
Sur le plan pratique de lenchanement des calculs, on remarquera que la mthode dapprentissage en temps rel nutilise pas le rseau
adjoint, en effet contrairement la rtropropagation, on ne se contente pas de calculer la sensibilit ou la part dans lerreur attribue
chaque variable, mais on doit calculer effectivement le gradient. Le calcul se fait donc dans le sens du temps et non pas dans le sens rtro-
grade.
apprentissage semi-dirig avec une architecture de complexit comparable, on peut exhiber de nombreux
contre-exemples dans des applications relles : en effet, il est trs frquent, dans un processus bien conu,
que le bruit soit essentiellement du bruit de sortie, ce qui ncessite absolument lutilisation dun algo-
rithme semi-dirig ou non dirig, comme nous lavons montr sur des exemples dans le chapitre 2. De
plus, de nombreux rsultats dapprentissages dirigs mme publis dans la littrature internationale ne
rsistent pas la comparaison avec le prdicteur stupide , comme nous lavons indiqu dans le
chapitre 2.
Pour les rseaux non boucls, les questions qui constituent la mthodologie de conception sont
la slection des entres,
la slection du modle, cest--dire essentiellement la slection du nombre de neurones constituant la
couche cache.
Pour les rseaux boucls, trois questions supplmentaires se posent :
le choix de la reprsentation (reprsentation entre-sortie ou reprsentation dtat),
le choix de lordre du modle,
dans le cas dun apprentissage par rtropropagation tronque : lhorizon de troncature.
Pour le choix de lordre, une identification linaire pralable (o les tests structurels sont mieux matriss)
peut tre trs utile. La recherche de lhorizon de troncature dans la mthode BPTT est aussi un problme
dlicat : en thorie, un dpliement de lordre de lindice rendant observable le modle est suffisant ; en
pratique, les trop grands ordres de dpliement peuvent alourdir la rtropropagation.
Une des difficults dans lapprentissage de rseaux rcurrents est la difficult de capturer des dpendances
temporelles longue porte quand on remonte dans le temps. Cette difficult est tudie dans [BENGIO
1994]. Nanmoins, pour de vraies applications pratiques, on recherche rarement des dpendances tempo-
relles trs longues, car les processus que lon cherche modliser sont eux-mmes rarement stables sur de
trs longues priodes : il existe des drives lentes qui ncessitent de refaire un calage priodique du
modle laide des mthodes adaptatives dveloppes dans ce chapitre. En cas de grande difficult, lutili-
sation de procdures dapprentissage volutives et guides, augmentant progressivement la profondeur
temporelle de lapprentissage, et de mthodes doptimisation robustes, peuvent permettre de surmonter ces
problmes. La solution efficace pour des applications non acadmiques consiste mettre en uvre la tech-
nique de modlisation bote grise que nous avons prsente au chapitre 2, ce qui permet de mettre
profit toutes les connaissances disponibles sur le processus modliser, notamment la forme mathmatique
des quations du modle, son ordre, etc. On rduit ainsi le nombre de degrs de libert dont dispose le
concepteur, qui peut ainsi concentrer son attention sur un nombre rduit de problmes.
Bien entendu, les pr-traitements des donnes, lapprentissage par des mthodes non linaires des rsidus
danalyse par des mthodes linaires, permettent souvent, en dcouplant les difficults, damliorer la
prcision des mthodes non linaires didentification.
Les rseaux de neurones boucls peuvent aussi tre utiliss dans la synthse de contrleurs, comme nous
allons le voir dans le chapitre suivant.
lentre commande du modle interne. Cette rgle est dautant plus importante que, dans ce cas, les
entres sont destines voluer avec le temps.
Remarque
Il faudra dailleurs distinguer dans ce cas la reprsentation du temps (un pas de temps pour la simulation de lensemble du rseau
compos du modle de contrleur et du modle interne) de celle des tapes de mise jour des diffrentes couches du rseau total lint-
rieur dun pas de temps de lalgorithme.
Examinons maintenant les cas (c) et (d) de la figure 4-16. Les schmas reprsentent larchitecture dun
rseau rcurrent. Cette architecture est identique relativement aux caractristiques statiques, et diffrente
par ladjonction dun oprateur retard dans le cas (d). Au temps 2, ltat de lunit 3 est diffrent dans les
cas (c) et (d), dpendant dans le cas (c) des tats initiaux des units 2 et 4, et dans le cas (d) des units 2
et 1. Cette diffrence se propage au temps suivant ltat de lunit 4 puis ltat de lunit 1 et ainsi de
suite, en introduisant chaque cycle des diffrences supplmentaires.
Remarque
Ltat des units des rseaux rcurrents ne se stabilise pas en gnral mme si le rseau est soumis des entres statiques. La
dynamique de cet tat dpend fortement de la distribution des retards et de lordre de mise jour des units du rseau.
Bibliographie
Une bibliographie commune aux chapitres 4 et 5 est donne en fin de chapitre 5 (p. 255).
5
Apprentissage dune commande
en boucle ferme
Le chapitre prcdent tait consacr la modlisation, par apprentissage (notamment par apprentissage
de rseaux de neurones), des systmes dynamiques commands ; le prsent chapitre prolonge cet expos,
en abordant le problme de la synthse, par apprentissage, dun systme de commande en boucle ferme.
La commande non linaire est une discipline en plein essor depuis une vingtaine dannes, sans que lon
puisse dire quil existe un corpus unifi et synthtique des mthodes employes, comparable celui dont
on dispose pour la commande linaire. On compte au contraire plthore de mthodes ; certaines tudes
sont trs thoriques et tablissent des thormes de commandabilit, dexistence dune commande stabi-
lisante, de validit des techniques de linarisation, quil ne peut tre question dvoquer compltement
dans le cadre de cet ouvrage.
Nous rappellerons cependant certains lments de la thorie de la commande, en insistant sur le rapport entre
systme linaire et non linaire, dans la section suivante. En effet, comme cest souvent le cas pour lutilisa-
tion des rseaux de neurones dans les sciences de lingnieur, les techniques de commande neuronale
prolongent les techniques classiques de lautomatique non linaire en les appliquant un modle du systme
prcdemment identifi par apprentissage. Ces techniques sont exposes dans la section Synthse dune
commande neuronale par inversion du modle du processus , o lon aborde successivement linversion
directe simple mais souvent inefficace , la mthode du modle de rfrence la plus couramment
employe, et lutilisation des rseaux rcurrents dune pratique plus dlicate. Les sections suivantes sont
consacres lexpos des problmes de dcision optimale dans le cadre classique de la programmation
dynamique (section Programmation dynamique et commande optimale ), puis sa contrepartie en thorie
de lapprentissage (section Apprentissage par renforcement et programmation neuro-dynamique ). Les
techniques exposes ont t dcouvertes antrieurement lutilisation des rseaux de neurones, dans le cas
des espaces dtats discret, sous le nom dapprentissage par renforcement . Lutilisation de lapprentis-
sage neuronal pour trouver de bonnes approximations a permis dtendre le champ dapplication de ces
mthodes en vitant lexplosion combinatoire qui limite trop souvent lemploi de lapprentissage par renfor-
cement classique. Cet ensemble de techniques plus modernes, sur lexpos duquel sachve ce chapitre, a
reu rcemment le nom de programmation neuro-dynamique .
signal de commande ltat du systme. Cette opration est effectue en construisant un systme de
commande, ou correcteur, ou encore contrleur, cest--dire un dispositif qui, prenant en entre ltat du
processus que lon cherche commander (ou plus gnralement la sortie du processus si ltat de celui-ci
nest pas compltement connu), lui associe la valeur du signal de commande appliquer au systme
linstant suivant. Considrons un systme dynamique command tel quil est dfini dans le chapitre 4 :
x(k + 1)=f[x(k), u(k)]
o x(k) est le vecteur dtat du modle linstant k, et u(k) est le vecteur des signaux de commande linstant
k. Le systme de commande calcule la valeur de la commande partir de ltat selon une fonction :
u(k) = [x(k)].
Cette fonction est appele la loi de commande.
Lobjectif le plus simple assign un systme de commande consiste maintenir le processus dans un tat
dsir en dpit des perturbations (on dit que la commande rejette les perturbations ) : on ralise alors
un asservissement . Un autre objectif possible est que la trajectoire dtat du systme commande soit
asservie une trajectoire dtats dsire : on ralise alors un systme de poursuite (tracking system).
Dans ces cas qui reviennent dans toutes les applications, ltat dsir au temps courant sappelle la
consigne et la forme naturelle de la loi de commande est celle dune fonction de la diffrence entre ltat
courant et la consigne.
Un tel dispositif de commande en boucle ferme est Consigne
schmatis dans la figure 5-1. (objectif dsir)
Commandabilit
La commande du systme ne permet pas toujours datteindre lobjectif souhait. La proprit, pour le
systme command, de pouvoir atteindre lobjectif souhait sappelle la commandabilit. Mme les
modles les plus simples de systmes dynamiques commands, comme les modles linaires, ne
possdent pas ncessairement la proprit de commandabilit quand leur ordre est suprieur 1 (rappe-
lons que lordre est la dimension du vecteur dtat).
Apprentissage dune commande en boucle ferme
271
CHAPITRE 5
Il nest pas commandable : aucune commande ne peut changer la deuxime composante de ltat. En
revanche, il est facile de montrer directement que le systme linaire suivant
x(k + 1) = 1 1 x(k) + 0 u(k)
01 1
est commandable.
Les proprits de commandabilit sont assez faciles crire pour un systme linaire, o, pour pouvoir
atteindre un objectif donn partir de nimporte quel tat, il suffit datteindre lobjectif 0 [KWAKERNAAK
et al. 1972].
Quand ltat nest pas compltement observ, il faut dabord reconstruire ltat par filtrage avant de le
commander. On montre que lobservabilit et la commandabilit du systme compltement observ est une
condition suffisante de commandabilit du systme partiellement observ [KWAKERNAAK et al. 1972]. Les
conditions de commandabilit sont plus difficiles formuler pour un systme non linaire ; elles font appel
des techniques algbriques plus complexes dont lnonc dpasse le cadre de cet ouvrage.
Dans les systmes rels, une commande damplitude arbitraire ne peut tre ralise. Des contraintes sont
formules sur lensemble des commandes effectivement ralisables et dfinissent lensemble des
commandes admissibles. De telles contraintes, imposes par des considrations techniques souvent
incontournables, bornent en gnral lensemble des commandes admissibles, si bien que, en pratique, les
lois de commande tablies par les mthodes linaires ne peuvent sappliquer directement sans
prcaution : des phnomnes de saturation des commandes peuvent apparatre.
Dfinitions
On appelle quilibre de ce systme dynamique un tat x* tel que f(x*) = x*. On dit aussi que x* est un
point fixe de f.
Un quilibre x* est dit stable si "e, $h, x ( 0 ) x * "k, x ( k ) x *
Un quilibre x* est dit asymptotiquement stable, de bassin dattraction , si pour toute condition
initiale dans , la trajectoire dtat issue de cette condition initiale tend vers lquilibre x*.
La stabilit des systmes linaires x(k + 1) = A.x(k) se dduit facilement des proprits spectrales de la
matrice A. Le point 0 est un quilibre du systme linaire. Si les valeurs propres de A sont strictement
incluses dans le disque unit ouvert, lquilibre 0 est stable et asymptotiquement stable. Si une valeur
Lapprentissage statistique
272
propre est de module suprieur 1, lquilibre 0 nest ni stable ni asymptotiquement stable. Le cas
critique des valeurs propres de module 1 ncessite une analyse particulire.
Cette caractrisation simple des systmes dynamiques linaires est la base de la mthodologie de
synthse des lois de commande des systmes dynamiques linaires par placement des ples des fonctions
de transfert [KWAKERNAAK et al. 1972]. Cette mthodologie est, depuis le dbut de lautomatique, la
base de cette discipline dans ses applications les plus courantes. Popularise dabord dans le cadre des
systmes une variable par une utilisation intensive de la transformation de Laplace, elle a t tendue
aux systmes multivariables. Si ces techniques de lautomatique sont bonnes connatre, pour celui qui
veut mettre en uvre des systmes de commande base de rseaux de neurones, elles ne sont pas direc-
tement transposables aux systmes non linaires. Nous ne les mentionnons ici que pour mmoire.
Dans le cas asymptotiquement stable, la stabilit des quilibres des systmes non linaires se dduit de la
stabilit du systme dynamique linaris. Si x* est un quilibre du systme dynamique x(k + 1) = f[x(k)],
on appelle systme dynamique linaris en x* , le systme dynamique, linaire au point fixe x*,
dquation : x(k + 1) = f x * [x(k) x*] + x*, o f x * est la matrice des drives partielles de f en x*. On
a alors le rsultat fondamental suivant :
Thorme de linarisation
Avec la linarisation, les fonctions de transfert du systme linaris deviennent un outil usuel danalyse et
de synthse des lois de commande des systmes non linaires [SLOTINE et al. 1991]. Plus prcisment, un
thorme de linarisation des systmes dynamiques commands permet daffirmer que, dans le cas o le
systme linaris est commandable, la loi de commande du systme linaris, introduite en boucle ferme
dans le systme non linaire, permet de stabiliser localement ce systme [SONTAG 1990].
La mthode de la fonction de Liapounov [SLOTINE et al. 1991], directement inspire de ltude de la stabi-
lit des systmes dissipatifs en physique, offre une mthode gnrale dtude de la stabilit des quilibres
des systmes dynamiques non linaires.
Malgr limportant thorme de linarisation que lon vient dnoncer, les difficults dtude de la stabi-
lit des systmes non linaires restent nombreuses :
il peut exister plusieurs quilibres dont les stabilits sont diffrentes : le thorme de linarisation est un tho-
rme local, qui ne dit rien sur la taille des bassins dattraction des quilibres asymptotiquement stables ;
il peut exister des attracteurs dynamiques, confrant au systme une stabilit globale mme sil nexiste
aucun quilibre stable : lexemple le plus simple de tels attracteurs est le cycle limite stable, tel quil
existe dans loscillateur de Van der Pol dcrit dans le chapitre prcdent.
Lintroduction de bruit dans les quations change la nature de ltude de la stabilit des systmes. On a vu,
dans la section du chapitre prcdent consacre la modlisation de systmes dynamiques, que lquivalent
stochastique dun systme dynamique dterministe mis sous forme dtat est un processus de Markov, et que
lquivalent stochastique dun quilibre est la mesure de probabilit invariante (dfinie dans le chapitre 4) de
ce processus. Dans le cas dun systme linaire stable perturb par un bruit dtat gaussien, cette probabilit
dcrit la statistique des fluctuations de ltat du processus autour de lquilibre 0 du systme non perturb.
Dans le cas dun systme non linaire avec plusieurs quilibres attracteurs, la situation est beaucoup plus
complexe : en effet, il se produit avec quasi-certitude , aux temps longs, des fluctuations qui font passer
ltat dun bassin dattraction dterministe lautre. La thorie dite des grandes dviations permet de
mesurer ces probabilits de passage ([BENVENISTE et al. 1987], [DUFLO 1996]).
Apprentissage dune commande en boucle ferme
273
CHAPITRE 5
Nanmoins, le but gnral des systmes de commande dvelopps dans ce chapitre (et dans la plupart des
applications) tant de ramener ltat sur un quilibre ou de poursuivre une trajectoire de rfrence, ltude
des systmes plusieurs attracteurs ne nous concerne pas directement.
Inversion directe
La mthode la plus simple pour construire un systme de commande neuronal partir dun modle du
systme dynamique command, identifi sous forme dun rseau de neurones en boucle ouverte, est
linversion directe du modle. Le systme de commande est alors simplement linverse du modle du
processus. Si ce modle est non linaire, son inverse lest gnralement : il peut donc tre constitu par un
rseau de neurones, dont lapprentissage et lutilisation sont schmatiss sur la figure 5-2.
tat mesur x
Sortie du
modle +
(a) sortie RN
(optionnelle)
CONTRLEUR Modle du
processus
Consigne RN Figure 5-2. Principe de
Commande u
lapprentissage (a) et de
lutilisation (b) dune
commande neuronale en
Apprentissage boucle ferme par inversion
du modle.
tat mesur x
(b)
CONTRLEUR Sortie du
Processus processus
Consigne RN Commande u
RN
Dans cette figure, on a adjoint au rseau de neurones qui constitue le modle du processus un rseau de
neurones qui calcule la loi de commande. Ce rseau est aussi un rseau non boucl qui a pour entre ltat
et, dune faon optionnelle, la consigne dsire (tat au temps suivant) dans le cas o lon souhaite que
cette consigne soit variable. Sinon, le contrleur admet pour entre unique ltat du systme au temps k.
La sortie du contrleur neuronal est la commande au temps k qui, lors de lapprentissage, est applique
lentre de commande du modle, et qui, lors de lutilisation, est applique lentre du processus.
Lensemble (contrleur + modle) constitue un rseau de neurones non boucl qui admet pour sortie ltat
au temps suivant. Lapprentissage seffectue en minimisant la diffrence entre ltat dsir ou consigne et
la sortie du rseau. Seuls les paramtres du contrleur (poids et biais) sont variables et modifis par le
Lapprentissage statistique
274
processus dapprentissage. Les paramtres du modle restent inchangs par le processus dapprentissage,
ce qui est traduit dans la figure par des hachures de style diffrent.
La fonction de cot est gnralement un cart quadratique entre la sortie dsire et la sortie mesure. Si
des contraintes sont imposes la commande, elles peuvent ltre directement dans le rseau contrleur.
Par exemple, si la commande admissible est borne, on peut exprimer ces contraintes dans les fonctions
dactivation de la couche de sortie du contrleur (sigmode). On peut aussi exprimer ces contraintes en
introduisant une sortie auxiliaire au niveau du contrleur, et en rtropropageant une pnalit qui dpend
de la commande produite.
Cette dmarche directe ne donne de bons rsultats que pour les problmes simples o lobjectif peut
sexprimer instantanment en fonction de ltat. Si lobjectif porte sur ltat final ou lensemble dune
trajectoire dtats, la mthode directe ne peut tre mise en uvre. On pourra utiliser le dpliement
temporel de lensemble contrleur + modle, et lapprentissage du contrleur par rtropropagation
travers le temps. Cette stratgie sera dveloppe dans la suite de cette section. Mme dans le cas o lon
peut construire un objectif portant sur ltat courant, lapprentissage nest pas toujours efficace : pendant
lapprentissage, la rtropropagation travers le modle peut fournir au contrleur un signal derreur trs
affaibli, insuffisant pour permettre datteindre les objectifs assigns au contrleur.
Par ailleurs, cette mthode nest videmment pas robuste par rapport aux erreurs de modlisation : la
commande tant calcule partir du modle, elle ne peut pas tre prcise si le modle lui-mme ne lest
pas. Lutilisation de la commande avec modle interne qui sera dveloppe dans la suite de cette section
peut permettre de surmonter limprcision de la modlisation.
Angle (rad)
vitesse prise dans la fonction de cot est
suprieure celle de lcart dangle. Le 0.2
systme nest stabilis que pour un 0
facteur de bruit de commande infrieur
0,5. Un facteur de bruit suprieur entrane 0.2
0 2 4 6 8 10 12 14 16 18 20
gnralement une sortie du domaine de Temps (sec)
viabilit dans une dure infrieure celle
choisie pour lexprience (20 secondes). Variations de la vitesse commande
0.4
La vitesse est stabilise autour de la
0.2
Angle (rad/s)
Remarque
On utilise toujours implicitement un modle de rfrence : dans la commande simple dcrite dans le
paragraphe prcdent, le modle de rfrence se rduit un simple retard.
CONTRLEUR
Commande u
Consigne RN Figure 5-8.
Sortie du
modle interne + Commande avec
+ RN modle interne.
Modle du
processsus,
appel modle
interne
Sortie
du processus
Processus
Lapprentissage statistique
278
Lapprentissage du contrleur se fait selon le schma de la figure 5-5 ; nanmoins, il faut remarquer que
le contrleur na pas pour entre ltat du processus, mais celui du modle interne. Il faut donc que
lapprentissage soit effectu partir de squences qui soient bien reprsentatives du domaine de variation
des variables dtat de ce modle.
Cette stratgie de commande a permis de nombreuses applications pratiques ; on trouvera une description
dtaille de lutilisation de cette technique pour le pilotage autonome dun vhicule dans [RIVALS 1995].
Apprentissage
Modle de rfrence
Dans ce cas, le rseau total, constitu de la concatnation du contrleur neuronal et du modle interne
admettant comme entre ltat du systme et comme sortie ltat du systme au temps suivant, est rendu
rcurrent par une boucle de retour dtat. On trouvera des applications concrtes de contrle prdictif
utilisant des modles neuronaux dans [GRONDIN 1994], [HENRIQUES et al. 2002], [GIL et al. 2002].
Apprentissage dune commande en boucle ferme
279
CHAPITRE 5
Apprentissage
Modle de rfrence
Le problme est rendu plus difficile par ladjonction dun bruit de commande analogue celui qui a t
dcrit plus haut dans ltude sur la robustesse du contrleur neuronal du pendule invers. Cette technique
Lapprentissage statistique
280
permet de rsoudre le problme de stabilisation du systme de faon satisfaisante dans diverses conditions
exprimentales.
est associe la fonction de cot JN qui vaut, sur les trajectoires prcdentes, dans le cas o lon ne prend
pas en considration un cot terminal :
JN(w1) = 10, JN(w2) = 10, JN (w3) = 10, JN (w4) = 3 7A ...
Dans la modlisation de cet exemple, on peut aussi, plus naturellement, attribuer chaque couple tat-
action le cot unit, et choisir un cot terminal gal A sur ltat-cible 35, et gal A sur tout autre tat.
On obtient alors comme cot total sur les trajectoires prcdentes :
JN(w1) = 10 + , JN(w2) = 10 + , JN(w3) = 10 + , JN(w4) = 10 ...
Hlas, on ne connat gnralement pas lhorizon lissue duquel on peut atteindre son objectif mme si
on le souhaite le plus court possible et, dans ce cas, il nest pas possible de restreindre son horizon. On
est alors conduit considrer des problmes horizon infini. Pour ces problmes, on ne peut pas toujours
dfinir le cot total comme la somme effective des cots des transitions. En effet, la somme de la srie
reprsentant le cot total dune trajectoire peut diverger. On dispose alors de plusieurs solutions pour
dfinir le cot dune trajectoire infinie.
On peut le dfinir comme la limite quand N tend vers linfini quand elle existe du cot moyen sur les N
premires transitions de la trajectoire. Dans notre problme simple, cette solution serait peu efficace. Elle
reviendrait attribuer toute trajectoire dtat-action se terminant sur lquilibre souhait (35) le cot A,
et toute autre trajectoire le cot 1. On ne peut pas discriminer, parmi les trajectoires menant ltat
souhait, celles qui y mnent plus rapidement.
Quand le problme consiste rejoindre un tat spcifi ou tat terminal en un nombre fini de transitions, on
peut prendre comme fonction de cot total la somme du cot des transitions. Cest le cas dans notre exemple.
Dans le cas gnral, on choisit de prendre comme critre, pour les problmes horizon infini, la minimi-
sation du cot actualis J, inspir des calculs financiers o les cots futurs sont escompts dun taux
dactualisation . Ainsi, dans notre exemple, pour un modle horizon infini, nous aurions
1
J(w1) = J(w2) = J(w3) = 1 + + 2 + = ------------
1
A 3
J(w4) = 1 + + 2 A3 A4 = 1 + + 2 ------------
1
ce qui valorise bien les trajectoires qui atteignent la sortie et, parmi elles, les trajectoires les plus rapides.
Le problme consiste donc trouver une politique optimale * telle que le cot total de la trajectoire
dtat-action associe cette politique soit minimal pour chaque tat initial.
1. On rappelle que lesprance mathmatique est la moyenne dune variable alatoire pour sa loi de probabilit. Comme il
sagit dun phnomne dynamique, la probabilit est dfinie sur lespace des trajectoires.
Lapprentissage statistique
282
Dfinition
Une chane de Markov commande est dfinie par la donne dun espace dtats E, dun ensemble
dactions A, dun sous-ensemble A E A des couples dtat-action admissibles, et dune application
p de A dans lensemble des lois de probabilits sur E qui, au couple tat-action admissible (x, u), associe
la probabilit note Pu(x, y) de se trouver dans ltat y quand on effectue laction u dans ltat x.
Apprentissage dune commande en boucle ferme
283
CHAPITRE 5
Remarque
Pu est bien une probabilit et non une densit de probabilit ; il sagit dune probabilit de transition.
Ainsi, partant dun couple initial (x0, a0), la probabilit de la trajectoire lhorizon N
w = ((x0, a0), (x1, a1),, (xN-1, aN-1), (xN))
est dfinie par :
P ( ) = P a0 ( x 0, x 1 )P a1 ( x 1, x 2 )P a N 1 ( x N 1, x N ) .
Dfinition
On appelle politique de la chane de Markov commande une application de E N dans A telle que,
pour tout tat x et pour tout instant k, le couple tat-action (x, (x, k)) soit admissible.
Si la politique ne dpend pas du temps, on dit que cest une politique stationnaire. Pour simplifier les
notations, on notera aussi une politique stationnaire comme fonction de ltat. toute politique station-
naire est associe une chane de Markov de probabilit de transition P dfinie par :
P(x, y) = P(x)(x, y).
Dfinition
On appelle cot lmentaire une application c de A E dans R, et cot terminal une application C de
E dans R.
J 0, N (x) P ( x, 0 ) ( x, x 1 )P ( x1, 1 ) ( x 1, x 2 )P ( x N 1, N 1 ) ( x N 1, x N ) c ( x, ( x, 0 )x 1 )
( x 1, , x n ) E N
N1
+ c ( xk, ( xk, k )xk + 1 ) + C ( x N ) .
k=1
Lapprentissage statistique
284
J k, N (x) P ( x, k ) ( x, x k + 1 )P ( xk + 1, k + 1 ) ( x k + 1, x k + 2 )P ( x N 1, N 1 ) ( x N 1, x N )
( x k + 1, , x n ) E N k
N1
c ( x, ( x, k )x k + 1 ) + c ( x k, ( x k, k )x k + 1 ) + C ( x N ) .
kk = k + 1
Le problme qui consiste rejoindre un tat particulier not x* est appel problme du plus court chemin
stochastique [BERTSEKAS et al. 1996]. Dans ce type de problme, il existe ncessairement un tat unique
appel tat terminal et not x* tel que, pour toute action admissible, la seule transition possible partir de
cet tat terminal soit la transition triviale x* x*. On suppose, par ailleurs, quil existe au moins une poli-
tique stationnaire telle que son application donne une probabilit non nulle de rejoindre, partir de tout
tat, ltat terminal. De telles politiques stationnaires sont appeles des politiques stationnaires propres.
Ainsi, ltat terminal est ltat dquilibre (dterministe) de la chane de Markov dfinie par une politique
stationnaire propre.
En ce qui concerne les problmes horizon infini, les cots lmentaires tant stationnaires et le cot
terminal nexistant pas, il est inutile de rechercher une politique optimale non stationnaire. Pour un tat
donn, laction optimale ne dpend pas du temps.
On convient que le cot lmentaire de la transition triviale partir de ltat terminal est nul, et que le cot
lmentaire de toute autre transition est strictement positif, et donc born infrieurement par une cons-
tante positive puisque lensemble des tats est fini.
que lon peut aussi crire, dune faon plus formelle, en utilisant le formalisme des variables alatoires
J (x) = E P, x c ( x, ( x ), X 1 ) + c ( X k, ( X k ), X k + 1 )
k=1
On en dduit que, pour toute politique stationnaire impropre, il existe au moins un tat initial tel que le
cot moyen total soit infini.
Le problme du plus court chemin stochastique consiste trouver la politique stationnaire propre opti-
male *, minimisant la fonction de cot J.
que lon peut aussi crire, comme dans le cas du problme du plus court chemin stochastique :
J(x) = E P, x c ( x, ( x ), X 1 ) + k c ( X k, ( X k ), X k + 1 ) .
k=1
Le problme de dcision markovienne lhorizon infini pour le taux dactualisation consiste trou-
ver la politique stationnaire optimale * minimisant la fonction de cot J .
Dans la suite, chaque fois que le contexte indiquera clairement la nature du problme, horizon fini ou
infini actualis, nous noterons lhorizon fini N dans le premier cas et le taux dactualisation dans le
second cas, et nous omettrons lindice suprieur de la fonction de cot pour allger les notations.
On peut transformer un problme horizon infini et cot actualis en un problme de plus court chemin
stochastique de la faon suivante. On ramne par translation les cots lmentaires des quantits stric-
tement positives. On ajoute ensuite artificiellement un tat terminal x*, et lon modifie les transitions du
problme de dcision markovienne, quel que soit le couple tat-action admissible, en les faisant prcder
dun tirage alatoire pralable qui peut interrompre le processus avec la probabilit 1 pour lenvoyer
dans ltat terminal ( tat cimetire ). Toutes les politiques stationnaires du problme primitif sont des
politiques stationnaires propres pour le problme de plus court chemin stochastique (au sens du para-
graphe prcdent), et il y a galit entre le cot total moyen du problme transform et le cot total moyen
actualis du problme primitif. Cette transformation est formelle et vise montrer que les mthodes utili-
ses pour les problmes de plus court chemin stochastique se transposent facilement aux problmes
horizon infini et cot actualis.
Rciproquement, tant donn un problme de plus court chemin stochastique, on peut, dans la pratique
des simulations, le transformer en un problme horizon infini et cot moyen actualis, en faisant suivre
latteinte de ltat terminal, non pas de la transition triviale, mais de la rinitialisation dans un tat initial
choisi alatoirement.
Lapprentissage statistique
286
N1
c ( xk, ( xk, k )xk + 1 ) + C ( x N )
k=1
soit
J 0, N (x) =
x1 E
P ( x, 0 ) ( x, x 1 ) [ c ( x, ( x, 0 ), x 1 ) + J 1, N ( x 1 ) ] = E p ( x, 0 ) [ c ( x, ( x, 0 )X 1 ) + J 1, N ( X 1 ) ]
une consquence trs simple de ladditivit du cot dune trajectoire tape par tape.
Cette criture montre que la politique optimale * qui minimise J 0, N minimise aussi les cots J k, N . On
peut donc crire
J 0,* N ( x ) = min u ( x, u ) A E pu ( x ) [ c ( ( x, u ), X 1 ) + J 1,* N ( X 1 ) ] .
1
Cette quation, vrifie par la politique optimale, sappelle le principe doptimalit de Bellman.
Il est commode dintroduire un intermdiaire de calcul : la fonction de valeur Qk, N sur lensemble des
couples tat-action admissibles :
k + 1, N
Qk, N (x, u) = Pu ( x, y ) [ c ( x, u, y ) + J
yE
( y)] .
* ( x, k ) = Arg min u ( x, u ) A { Q k, N ( x, u ) }
k + 1, N
J * ( x ) = Q k , N ( x, * ( x, k ) ) .
Apprentissage dune commande en boucle ferme
287
CHAPITRE 5
qui exprime le principe doptimalit de Bellman horizon infini. Comme dans les problmes horizon
fini, on peut associer une fonction de cot donne J, dfinie sur lespace dtats, une fonction de valeur
Q, dfinie sur lensemble des couples tat-action admissibles par :
Q J ( x, u ) = Pu ( x, y ) [ c ( x, u, y ) + J ( y ) ] .
yE
Cette quation est une quation de point fixe sur la fonction de cot optimale J * . Contrairement au
problme horizon fini, elle ne fournit pas directement un algorithme pour calculer, en un nombre fini
ditrations, la fonction de cot optimale et la politique optimale. En revanche, on peut montrer le tho-
rme de caractrisation suivant [BERTSEKAS et al. 1996].
Thorme
Ce thorme se prouve selon une technique dite de la contraction. Lintrt de cette technique est que,
outre lobtention dun thorme mathmatique dexistence et dunicit, elle permet de fournir les preuves
de convergence dalgorithmes qui aboutissent la solution. Ces algorithmes sont des algorithmes itratifs
que nous allons dcrire dans les paragraphes suivants. Pour allger les notations, nous omettons de
rcrire en indice.
Lintrt de cet algorithme est quil permet dobtenir explicitement une suite de politiques samliorant
dune faon monotone, et dont on peut contrler le cot. Cette itration nous permet dintroduire les
mthodes acteur-critique . On nomme ainsi ces mthodes o une politique est dabord applique
Lapprentissage statistique
288
(calcul de Jn), puis critique (ici par minimisation), pour obtenir une nouvelle politique. videmment,
lapplication de la politique est ici thorique (simulation), et assez lourde puisquelle demande chaque
tape de calculer Jn.
Ce calcul se fait par la rsolution du systme linaire suivant :
"x E, Jn(x) = P ( x ) ( x, y ) [ c ( x, ( x ), y ) + J n ( y ) ] .
yE
n
On montre que cet algorithme converge linairement (cest--dire vitesse gomtrique ) vers la politique
optimale *, autrement dit que lcart entre le cot de la politique courante et celui de la politique optimale tend
vers 0, en tant major en valeur absolue par une progression gomtrique de raison infrieure 1. Dans
certains cas qui relvent de problmes classiques, lalgorithme se termine en un nombre fini ditrations.
On montre que cet algorithme converge linairement (cest--dire vitesse gomtrique) en montrant
que la fonction de valeur Qn converge vitesse gomtrique vers la fonction de valeur Q* associe la
politique optimale. Cette dernire sobtient ensuite par la minimisation classique :
* ( x ) = Arg min u ( x, u ) A Q * ( x, u )
mthode que nous allons prsenter dans le paragraphe suivant essaie dutiliser toute linformation obtenue
par la simulation ou lexprimentation dune trajectoire dtats, associe une politique stationnaire.
Nous allons la prsenter dans le cadre des problmes de dcision markovienne horizon infini et cot actua-
lis, cadre dans lequel les algorithmes de cette mthode sont le plus ncessaires et le plus employs ; nan-
moins, elle sadapte aussi aux problmes horizon fini. Nous prsentons les algorithmes avec un taux dactua-
lisation , qui sappliquent aussi trs bien des rsolutions de problmes du plus court chemin stochastique.
poids dans la mise jour de lestimation J (x) aux diffrences temporelles qui rsultent de la transition
immdiate partir de ltat x et des transitions moins probables qui interviennent dans un horizon plus loin-
tain. Il a donc t propos, dans larticle de base sur lapprentissage par renforcement [BARTO et al. 1983],
descompter, par un taux dactualisation not ]0, 1[, les cots des transitions selon leur loignement
temporel ; on obtient ainsi lalgorithme suivant appel TD() :
"k {1N 1], J + ( x k ) = J ( x k ) + [ d k + d k + 1 + + ( ) N k 1 d N 1 ] .
On notera que, historiquement, lide dactualisation par est dabord intervenue dans des problmes horizon
fini ou infini, o le critre ntait pas actualis par , et o lintroduction dun taux dactualisation apportait plus
de nouveaut quun simple changement de paramtres comme dans le problme qui est envisag ici.
Les algorithmes TD() convergent avec les hypothses habituelles de lapproximation stochastique
[SUTTON 1988]. En particulier, il est indispensable que tous les tats soient visits une infinit de fois ,
cest--dire, en pratique, un rythme suffisant ; cest notamment important pour les tats qui sont intres-
sants pour la politique optimale, ce que lon ne peut gnralement pas prvoir avant lavancement du
calcul. Dans les paragraphes suivants, nous reviendrons sur limportance de la politique dexploration
dans les algorithmes dapprentissage par renforcement. Si lon utilise un simulateur, il est indispensable
dassurer cette hypothse en ne se contentant pas de suivre une trajectoire, mais en relanant priodique-
ment ou alatoirement une trajectoire, par un choix au hasard dun nouvel tat initial. Dans le cas dune
exprience sur le processus rel, il faut veiller une exploration correcte de lespace dtat compatible
avec les contraintes exprimentales. Si ces conditions sont ralises, lalgorithme dapproximation
stochastique converge sans que ce rsultat soit pollu par lexistence de minima locaux sous-optimaux.
Des algorithmes varis ont t engendrs par lapplication de la mthode des diffrences temporelles
divers problmes de jeux, de planification optimale et doptimisation combinatoire. La convergence de
ces algorithmes a pu tre prouve, et lon a montr [BERTSEKAS et al. 1996] quils entrent tous dans le
cadre gnral suivant, dit des traces dligibilit .
Dans cette formulation gnrale, k est un entier qui indexe les tapes de lalgorithme. ltape k, on choisit,
selon une rgle qui dpend de lhistoire passe de lalgorithme et assure globalement une infinit de visites de
chaque tat, un tat initial x 0 , et, par application de la politique que lon cherche valuer, on engendre une
k
k k k k
trajectoire k = ( x 0, x 1, , x m, x N ) et lon observe les cots associs. On calcule alors les diffrences
k
temporelles associes d m .
k
On choisit une suite finie de fonctions dtat positives z m , indexe par la longueur de la trajectoire,
appele trace dligibilit et vrifiant les proprits suivantes :
k k
z 0 ( x ) = x k ( x ) , de plus z m (x) = 1 quand m est le temps de premire atteinte de ltat x pour la trajec-
0
toire wk ,
k k
z m + 1 ( x ) z m ( x ) x k ( x ) .
m+1
Considrons par ailleurs une suite de fonctions dtat (k) dcroissante valeurs dans ]0, 1[, suite des gains
ou taux dapprentissage vrifiant les hypothses classiques de la thorie de lapproximation stochastique :
k k ( x ) = ;
k k ( x )
2
<.
On montre alors que lalgorithme TD gnralis de mise jour de lestimation du cot par la formule :
N1
J k + 1 ( x ) = J k ( x ) + k ( x ) zmk ( x )d mk
m=0
Lapprentissage statistique
292
Qn(x, u) = pu ( x , y )c ( x , u, y ) + J n ( y )
y E
Une ou plusieurs itrations dun algorithme dvaluation par une mthode de diffrences tem-
porelles utilisant les rsultats dune simulation ou dun processus exprimental rel sont
pratiques sur la base de la politique n pour obtenir une nouvelle approximation Jn + 1 de la
fonction de cot optimale.
J n + 1 ( x ) = min u ( x , u ) A Q n ( x , u )
Apprentissage dune commande en boucle ferme
293
CHAPITRE 5
Cet algorithme converge vers la fonction de valeur Q* associe la politique optimale * ds lors que
tous les couples tat-action sont visits une infinit de fois et que la suite des taux dapprentissage qui
leur sont appliqus vrifie, pour chaque couple tat-action, les hypothses de lapproximation stochas-
tique (par exemple, convergence linairement dcroissante par rapport au numro dordre de la visite).
Aprs convergence vers une estimation accepte de la fonction valeur optimale Q*, considre comme
apprise, la politique optimale * est dtermine par minimisation, comme dans lalgorithme ditration de
la fonction valeur :
* ( x ) = Arg min u ( x, u ) A Q * ( x, u ) .
Il ny a aucun lien ncessaire entre la politique dexploration et la politique optimale. Une politique
dexploration aveugle est hlas trs coteuse et, dans la pratique, on essaie de suivre, dans lexploration,
des politiques sous-optimales qui se rapprochent graduellement de la politique optimale ; cest ce que
nous allons voir dans le paragraphe suivant.
dexploration qui permettent dexplorer des couples tat-action nouveaux ou peu frquents, et de satis-
faire ainsi aux exigences du thorme de convergence cit dans le paragraphe prcdent.
Le schma itratif exploration-optimisation rserve dans lalgorithme, alternativement, des squences de k1
itrations pour la politique gloutonne optimiste et de k2 itrations pour la politique aveugle dexploration.
Le schma randomis prvoit, pour chaque itration, un tirage alatoire qui dtermine si la politique
applique est une politique dexploration aveugle (probabilit ) ou une politique gloutonne optimiste
(probabilit 1 ).
Le schma de type recuit simul, inspir de lalgorithme de recuit en optimisation combinatoire
(prsent en dtail dans le chapitre 8), prconise dappliquer une politique alatoire suivant une loi de
Gibbs du type
Q ( x , u)
-----k--------k---------
Tk
e
P ( k ( x k ) = u ) = -----------------------------------------
Q ( x , u)
-
-----k-----------------
k
-
Tk
u ( x, u ) A
e
o la suite des tempratures (Tk) suit une loi de refroidissement rgler selon le problme. Plusieurs lois
de refroidissement sont prsentes dans le chapitre 8.
grand, la visite dun couple donn est rare : en consquence, les mises jour se succdent un rythme
tir qui provoque des difficults de convergence de lalgorithme en un temps raisonnable.
Une solution de substitution consiste utiliser les mthodes dapprentissage supervis pour produire une
approximation de la fonction que lon cherche mettre jour. On peut utiliser une approximation linaire
ou un rseau de neurones qui code en entre ltat (mthode dvaluation-itration de la politique opti-
miste) ou la fonction de valeur (Q-learning), et dlivre en sortie une approximation de la mise jour de la
fonction que lon veut apprendre.
Plus prcisment, il existe nombre dalgorithmes possibles, selon que lon utilise un simulateur qui
permet dexplorer lespace des tats dune faon complte, ou un dispositif exprimental qui commande
de suivre une trajectoire suffisamment longtemps, selon que lon utilise un schma de mise jour compl-
tement adaptatif ou hybride, et encore selon la politique dexploration utilise.
Voici la description de la boucle de calcul dune famille dalgorithmes de Q-learning approch frquem-
ment utiliss :
Un cycle dapprentissage supervis est alors mis en uvre pour modifier la fonction de valeur
approche Qn et lui substitue une nouvelle approximation Qn+1.
Aprs modification de la fonction de valeur et de la politique dexploration courante asso-
cie, on reprend le processus, soit en prenant pour nouvel ensemble dtats En + 1={yk} (conti-
nuant ainsi les trajectoires utilises ltape prcdente), soit en slectionnant
alatoirement un nouvel ensemble dtats En + 1.
Bibliographie
ANDERSON B. D. O., MOORE J. B. [1979], Optimal Filtering, Prentice Hall.
AZENCOTT R., DACUNHA-CASTELLE D. [1984], Sries dobservations irrgulires. Modlisation et prvi-
sion, Masson.
BARTO A. G., SUTTON R. S., ANDERSON C. W. [1983], Neuron-like elements than can solve difficult lear-
ning control problemes, IEEE Trans. On Systems, Man and Cybernetics, 13, p. 835-846.
BENVENISTE A., MTIVIER M., PRIOURET P. [1987], Algorithmes adaptatifs et approximations stochastiques.
Thorie et application lidentification, au traitement du signal et la reconnaissance des formes, Masson.
BENGIO Y., SIMARD P, FRASCONI F. [1994], Learning long term dependencies with gradient descent is
difficult, IEEE Trans. on Neural Networks, 5, p. 157-166.
BERTSEKAS D. P., TSITSIKLIS J. N. [1996], Neuro-dynamic programming, Athena Scientific, Belmont, MA.
CHATFIELD C. [1994], The Analysis of Time series, an Introduction, Chapman&Hall.
DEMAILLY J.-P. [1991], Analyse numrique et quations diffrentielles, Presses universitaires de Grenoble.
DOYA K. [2000], Reinforcement learning in continuous time and space, Neural computation, p. 219-244.
DUFLO M. [1996], Algorithmes stochastiques, Springer.
DUTECH A., SAMUELIDES M. [2003], Un algorithme dapprentissage par renforcement pour les processus
de Markov partiellement observs : apprendre une extension slective du pass, Revue dIntelligence Arti-
ficielle, 17-4, p. 559-589.
DUVAUT P. [1994], Traitement du signal : concepts et applications, Herms.
ELMAN J. L. [1990], Finding structure in time, Cognitive Science, 14, p. 1179-211.
GIL P., DOURADO A., HENRIQUES J.O., CARVALHO P. [2002], Adaptive Neural Model Based Predictive
Control Of A Solar Power Plant, IJCNN, International Joint Conference on Neural Networks,
GOURIROUX C., MONFORT A. [1995], Sries temporelles et modles dynamiques, Economica.
Lapprentissage statistique
298
GRONDIN B. [1994], Les rseaux de neurones pour la modlisation et la conduite des racteurs
chimiques : simulations et exprimentations, thse de doctorat de lUniversit de Bordeaux I.
HAYKIN S. [1996], Adaptive Filter Theory, Prentice Hall.
HAYKIN S. [1999], Neural Networks: a comprehensive foundation, Prentice Hall.
HENRIQUES J.O., GIL P., DOURADO A. [2002], Non-linear Multivariable Predictive Control: Neural versus
First Principle Modelling Approach, IASTED, Control and Applications.
HOPFIELD J. J. [1982], Neural networks and physical systems with emergent collective computational
abilities, Proceedings of the National Academy of Sciences, tats-Unis, 79, p. 2554-2558.
ISERMANN R., LACHMANN K. H., MATKO D. [1992], Adaptive Control Systems, Prentice Hall.
JAZWINSKY A H. [1970], Stochastic Processes and Filtering Theory, Academic Press.
KIRKPATRICK S., GELATT C. D., VECCHI M. P. [1983], Optimization by simulated annealing, Science, 220,
p. 671-680.
KUSHNER K. H. J., CLARK D. S. [1978] Stochastic Approximation Method for constrained and uncons-
trained Systems, Applied Mathematical Sciences, 26, Springer-Verlag.
KWAKERNAAK H., SIVAN R. [1972], Linear Optimal Control Systems, Wiley.
LANDAU I. D., DUGARD L. [1986], Commande adaptative, aspects pratiques et thoriques, Masson.
LANDAU I. D. [1993], Identification et commande des systmes, Herms.
LEE, J. H. [2000], Modeling for Nonlinear Model Predictive Control: Requirements, Current Status and
Future Research Needs, in Nonlinear Model Predictive Control, F. Allgower and A. Zheng (Eds.),
Progress in systems and Control Theory Series, vol. 26 Birkhauser.
LEVIN A. U., NARENDRA K. S. [1993], Control of non linear dynamical systems using neural networks,
IEEE Transactions on neural networks, 4.2, p. 192-207.
LEVIN A. U., NARENDRA K. S. [1997], Identification of non linear dynamical systems using neural
networks in Neural Systems for Control, O. Omivar, D. L. Elliott, d., Academic Press, p. 129-160.
LION M. [2000], Filtrage adaptatif par rseaux neuronaux, application la trajectographie, thse de
doctorat de lcole nationale suprieure de laronautique et de lespace.
LJUNG L., SDERSTROM T. [1983], Theory and Practice of Recursive Identification, MIT Press.
LJUNG L., SJOBERG J., HJALMARSSON H. [1996], On neural network model structures in system identifi-
cation, in Identification, Adaptation, Learning. The science of learning models from data, S. Bittanti, G.
Pici, d., NATO ASI Series, Springer.
MORARI M., LEE J.H. [1999], Model predictive control: Past, present and future. Computers and
Chemical Engineering, 23, p. 667-682.
MUNOS R., BAIRD L.C., MOORE A.W. [1999], Descent Approaches to Neural-Net-Based Solutions of the
Hamilton-Jacobi-Bellman Equation, International Joint Conference on Neural Networks.
MUNOS R. [2000], A study of reinforcement learning in the continuous case by the means of viscosity
solutions, Machine Learning Journal, 40, p. 265-299.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1993], Neural networks and nonlinear
adaptive filtering: unifying concepts and new algorithms, Neural Computation, 5, p. 165-199.
Apprentissage dune commande en boucle ferme
299
CHAPITRE 5
NERRAND O., ROUSSEL-RAGOT P., URBANI D., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks: why and how ? An illustration in dynamical processes modeling, IEEE Transactions on
neural networks, 5.2, p. 178-184.
NORGAARD M., RAVN O., POULSEN N. K., HANSEN L. K. [2000], Neural Networks for Modelling and
Control of Dynamical Systems, Springer.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of non linear dynamical systems with Kalman
filter-trained recurrent networks, IEEE Transactions on Neural Networks, vol. 5, p. 279-297.
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones; application au pilo-
tage dun vhicule autonome, thse de doctorat de lUniversit Pierre et Marie-Curie, Paris VI.
RIVALS I., PERSONNAZ L. [2000], Nonlinear Internal Model Control Using Neural Networks, IEEE Tran-
sactions on Neural Networks, vol. 11, p. 80-90.
SINGH S. P., JAAKKOLA T., JORDAN M. [1995], Learning without state estimation in a partially observable
Markov decision problems, Proceedings of the 11th Machine Learning conference.
SLOTINE J. J. E., LI W. [1991], Applied Non Linear Control, Prentice Hall.
SLOTINE J. J. E., SANNER R. M. [1993], Neural Networks for Adaptive Control and Recursive Identification: A
Theoretical Framework, in Essays on Control, H. L. Trentelman, J. C. Willems, d., Birkhauser, p. 381-435.
SONTAG E. D. [1990], Mathematic Control Theory. Deterministic finite dimensional systems, Springer Verlag.
SONTAG E. D. [1996], Recurrent Neural Networks: Some Systems-Theoretic Aspects, Dept. of Mathema-
tics, Rutgers University, NB, tats-Unis.
SUTTON R. S. [1988], Learning to predict by the method of temporal differences, Machine Learning, 3, p. 9-44.
THRUN S. B. [1992], The role of exploration in learning control, in Handbook of intelligent control, D. A.
White, D. A. Sofge, d., p. 527-559, Van Nostrand.
TONG H. [1995], Non-Linear Time Series, a dynamical system approach, Clarendon Press.
URBANI D., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1993], The selection of non-linear dyna-
mical systems by statistical tests, Neural Netwworks for Signal Processing, 4, p. 229-237.
WATKINS C. J. C. H., DAYAN P. [1992] Q-learning, Machine Learning, 8, p. 279-292.
6
La discrimination
On entend par discrimination la tche qui consiste sparer des donnes en classes distinctes, partir de
leurs caractristiques. Par exemple, le diagnostic mdical, la reconnaissance de caractres manuscrits ou
les tests non destructifs de dfauts, sont des cas particuliers de tches de discrimination.
Dans le chapitre 1, nous avons prsent une introduction gnrale au problme de la discrimination, avons
prconis une mthodologie gnrale de conception de classifieurs statistiques qui fait appel notamment
aux considrations dveloppes dans le prsent chapitre, et avons prsent en dtail quelques applications
relles qui illustrent cette dmarche. Nous avons soulign que lon peut considrer le problme de la clas-
sification automatique sous deux angles complmentaires, en fonction de lapplication considre :
dans certains cas, on dsire estimer les probabilits dappartenance des objets aux classes : on peut
alors, soit ramener le problme de la classification un problme de rgression non linaire, soit mettre
en uvre les techniques que nous exposons dans ce chapitre et appliquer linterprtation probabiliste
dcrite dans la section intitule Interprtation probabiliste des fonctions de cot du perceptron ;
pour dautres applications, on peut se contenter de dterminer directement les frontires entre les classes
ou surfaces discriminantes avec des neurones binaires mettant en oeuvre les techniques exposes dans le
prsent chapitre ; historiquement, cette approche a t tudie ds les annes 1960, et a connu un regain
dintrt partir des annes 1980.
Cest ce dernier point de vue qui est largement dtaill dans le prsent chapitre : il prsente en dtail les
techniques modernes permettant de dterminer des sparations linaires entre classes, et ventuellement
des sparations plus complexes.
Ce chapitre est orient vers des justifications thoriques solides inspires essentiellement, comme en
tmoigne la bibliographie, des travaux de physiciens. Il est nanmoins indispensable de rappeler limpor-
tance des considrations pratiques suivantes :
la dtermination de la reprsentation des formes classer est une question quil faut, dans la conception
dun projet de dveloppement, mettre en plus haute priorit, car la rponse quon lui apporte dtermine, de
manire cruciale, la qualit des rsultats ; cest trs souvent la reprsentation des donnes, et elle seule, qui
fait la diffrence entre un systme qui devient oprationnel et un systme qui reste ltat de projet ;
la dtermination des classes de rejet, qui permet doptimiser le classifieur, est galement cruciale.
Nous allons considrer le cas o les donnes discriminer sont des vecteurs. Leurs composantes sont des
caractristiques que lon suppose pertinentes pour la discrimination : par exemple, des donnes concer-
nant un patient (son ge, sa tension artrielle, etc.) dans le cas du diagnostic mdical, ou la forme recon-
natre (les pixels dune image) dans le cas de la reconnaissance de formes. On peut coder les classes par
des nombres entiers, qui reprsentent soit la maladie du patient, soit le type dimage dont il sagit, etc.,
selon lapplication. Dans ce chapitre, nous aborderons essentiellement les problmes de classification o
les donnes classer ne peuvent appartenir qu deux classes. Si lon se trouve face un problme plus
de deux classes, on peut toujours le rduire un ensemble de problmes deux classes, comme cela sera
dmontr dans la section qui traite des problmes plusieurs classes.
Lapprentissage statistique
302
Le chapitre est divis en cinq parties. Aprs une prsentation gnrale du problme, nous abordons
lapprentissage de classifieurs destins sparer linairement les classes. Ensuite, nous avanons diff-
rentes solutions qui ont t proposes pour lapprentissage de discriminations plus complexes. Nous
prsentons en particulier les machines vecteurs supports. Dans la quatrime partie, nous abordons le cas
o le nombre de classes discriminer est suprieur deux. la fin du chapitre, nous introduisons des
notions thoriques, telles que la dimension de Vapnik-Chervonenkis ou la capacit dun classifieur, qui
peuvent tre utiles dans les applications.
Apprentissage de la discrimination
Le problme pos est le suivant : peut-on apprendre discriminer de nouvelles donnes, partir de
linformation contenue dans un ensemble dexemples classs par un expert ? On retrouve ici la problma-
tique gnrale rencontre dans les chapitres prcdents, dans lesquels on sefforait de prvoir le compor-
tement dun processus dans de nouvelles situations, non contenues dans lensemble des donnes utilises
pour ajuster les paramtres du modle. Comme nous lavons soulign dans le chapitre 1, la recherche
dune rgression, comme la discrimination, entre dans la catgorie des problmes mal poss .
Remarque
Certains auteurs rservent le nom de discrimination la classication de donnes lorsque les classes parmi lesquelles on doit discriminer
sont donnes lavance. Lapprentissage est dit dans ce cas supervis, par opposition lapprentissage non supervis, o lon cherche
organiser les donnes en classes, inconnues au dpart, exclusivement partir dun ensemble dentres non pralablement classes.
Dans ce chapitre, nous considrons lapprentissage supervis de la classication, que nous appellerons indiffremment classication ou
discrimination.
Comme dans dautres problmes o lon a recours un apprentissage, nous cherchons dterminer les
paramtres dun classifieur partir dun ensemble dapprentissage LM de M exemples, chaque exemple
tant un couple form dun vecteur de variables, appel vecteur dentre, et de sa classe :
LM = {( x , y ),( x , y ),...,( x
1 1 2 2 M
, yM )} (1)
o lentre
T
x k = x1k x2k x Nk (2)
est un vecteur de N composantes, qui peuvent prendre des valeurs relles, discrtes, ou binaires, dcrivant
lexemple k (k = 1, 2, ..., M), et o yk {1, +1} reprsente la classe1 de xk.
Remarque
On peut coder les deux classes par z {0, 1}. Les codages {1, +1} et {0, 1} sont formellement quivalents. En effet, la transformation
y = 2z 1 permet de passer de lun lautre. Le codage 1 adopt dans ce chapitre autorise une criture lgante des quations, et
prsente des avantages pour la programmation. En revanche, dans les implantations en lectronique numrique, il peut tre plus convena-
ble dutiliser le codage en {0, 1}.
La sortie du classifieur, rseau de neurones ou autres, dpend de son entre x, et de ses paramtres (que
lon notera w en gnral, mme si le classifieur nest pas neuronal) ; pour rappeler que cette sortie est
binaire, on utilise la notation ( x, w ), de prfrence la notation g ( x, w ) utilise pour la prdiction dun
modle dans le chapitre 1. La sortie du classifieur en rponse lentre xk LM sera note k ( x, w ) , ou
1. Dans le chapitre 1, ltiquette (+1 ou 1) indiquant la classe de lexemple k tait note ykp . Dans ce chapitre, elle est note yk dans
un souci de simplification des formules.
La discrimination
303
CHAPITRE 6
( y ( x, w ))
1
t (w ) = k k (4)
M k =1
o Q (u) est la fonction de Heaviside, qui prend la valeur 1 si son argument u est positif ou nul, et 0 sil
est ngatif :
1 si u 0
(u ) = . (5)
0 si u < 0
Or, lapprentissage na pas forcment pour objet dapprendre bien classer les exemples de LM, mais
plutt de dterminer les paramtres du classifieur qui permettent, avec une forte probabilit, de classer
correctement des entres nouvelles. Si tel est le cas, on dit que le classifieur gnralise correctement. En
gnral, on ne connat pas les donnes que lon sera amen classer aprs lapprentissage. Si lon consi-
dre que le vecteur des entres x est une ralisation dun vecteur alatoire valeurs relles X, et que la
sortie y (qui est le code de la classe) est la ralisation dune variable alatoire discrte Y, on peut faire
lhypothse quil existe une densit de probabilit pX ,Y ( x, y ) pX ( x ) PY ( y x ) que lon ignore, do sont
tires :
les entres et les classes de lensemble dapprentissage ;
les nouvelles entres, dont la classe, ralisation dune variable alatoire discrte de probabilit PY ( y x ),
est inconnue.
Thoriquement, la quantit que lon aimerait minimiser lors de lapprentissage est lerreur de gnralisa-
tion eg(w), dfinie par :
g (w ) = ( y ( x, w ))p ( x, y ) dx
X ,y
(6)
y{1}
o ( x, w ) est la classe attribue lentre x par le classifieur. Lerreur de gnralisation est la probabilit
que le classifieur, de paramtres w, commette une erreur de classification sur une entre x, tire avec la
densit de probabilit pX(x), dont la classe y a la probabilit PY(y|x) (probabilit a posteriori de la classe
dtiquette y pour lobjet dcrit par le vecteur x). Lexpression (6) ne peut pas tre calcule dans les appli-
cations, car pX , y ( x, y ) est inconnue. Dans la pratique, on estime eg par des mthodes statistiques, notam-
ment par validation croise, comme indiqu dans le chapitre 1. Dans la dernire partie de ce chapitre, nous
reviendrons plus en dtail sur cette formulation probabiliste. Elle permet dinterprter les notions
dapprentissage et de gnralisation dans un cadre formel, qui est utilis dans les approches thoriques de
lapprentissage pour borner ou prdire la valeur typique de lerreur de gnralisation. Plus gnralement,
du point de vue fondamental, on se pose les questions suivantes :
Lapprentissage statistique
304
Surfaces discriminantes
Supposons que les entres soient des vecteurs x RN (lhypo-
thse selon laquelle les valeurs prises par les composantes des
entres sont relles nest pas essentielle : les rsultats de ce
chapitre sont valables quelles que soient ces valeurs, relles ou
discrtes). On peut les reprsenter comme des points colors
dans un espace N dimensions, chaque couleur indiquant la x2
classe du point correspondant. La surface qui spare les points
de classes diffrentes sappelle surface discriminante. Comme
on le voit sur la figure 6-1, cette surface nest pas ncessaire- x1
ment unique, et, de plus, elle peut tre constitue de plusieurs
parties. Le but de lapprentissage est de dterminer lquation
Figure 6-2. Exemples en dimension 2,
dune surface discriminante qui soit la plus adquate possible,
en noir ceux de classe +1, en blanc ceux
cest--dire qui permette la meilleure gnralisation. de classe 1. La surface ombre correspond
Comme nous lavons indiqu dans le chapitre 1, on peut consi- la rgression ; la surface discriminante
drer lapprentissage dun classifieur comme un cas particulier (une ligne dans ce cas) est reprsente
en traits pointills.
de rgression. Dans ce cadre, on cherche une surface continue
g(x, w), qui soit proche de la sortie voulue, +1 pour tous les
points xk de la classe code par yk = 1, et proche de 1 pour tous les exemples de la classe code par yk = 1,
comme cela est reprsent sur la figure 6-2. Il suffit alors dutiliser les techniques prsentes dans les chapi-
tres 1 et 2. On appelle surface discriminante le lieu des points o g(x, w) change de signe.
Rappelons (voir chapitre 1) que deux situations peuvent se prsenter dans une application :
si lon cherche raliser un classifieur qui fournit directement la classe dappartenance de lobjet repr-
sent par x, seule la surface discriminante revt un intrt, puisque le classifieur ralise une fonction
binaire de ses entres ; nous verrons plus loin quil est alors possible de dterminer lquation de la
surface discriminante avec des neurones exclusivement binaires, ce que lon ne peut pas faire si lon
transforme le problme en une rgression;
si lon cherche raliser un classifieur qui dtermine la probabilit dappartenance de la donne
inconnue lune des classes, en vue dune prise de dcision ultrieure (qui peut, par exemple, tenir
compte des rsultats de plusieurs classifieurs en fonction de plusieurs types de donnes), la seule
connaissance de la surface discriminante est insuffisante. Dans ce cas, on peut utiliser des neurones
sortie continue, notamment sigmode, ou des neurones binaires, et faire appel linterprtation proba-
biliste (baysienne) prsente plus loin dans ce chapitre.
La discrimination
305
CHAPITRE 6
Dfinition : potentiel
vL = w x i i = wx (7)
i=0
L = sgn ( vL ) (8)
Lapprentissage statistique
306
Gomtrie de la classification
Nous allons analyser quelques aspects gomtriques de la classification. On vient de voir quil y a 2M
faons diffrentes dattribuer des classes aux M vecteurs xk LM , 1 k M. Chacune correspond :
une fonction boolenne (application de {1, +1}N+1 dans {1, +1}) particulire des entres si ces
dernires sont binaires (une fonction est dfinie par les valeurs quelle prend pour chaque point de son
domaine de dfinition) ;
une fonction valeurs binaires (application de RN dans {1, +1}) lorsque les entres sont des rels (ce
qui est le cas dans la trs grande majorit des applications en classification).
Quand on dtermine les valeurs des poids, on slectionne une fonction particulire qui, si lapprentissage
aboutit une solution sans erreurs, prend exactement les valeurs yk pour les M lments de LM. Par
lapprentissage, on slectionne donc une seule fonction, dtermine par les poids du rseau. Mme si lon
se restreint des poids qui discriminent correctement les exemples, les fonctions quils reprsentent
peuvent diffrer sur des points x nappartenant pas LM. En consquence, chacune de ces fonctions
produit des gnralisations diffrentes.
Comme le montre lquation (7), le potentiel (linaire) est le produit scalaire du vecteur des poids w et du
vecteur dentre x.
La discrimination
307
CHAPITRE 6
Remarque
Si les exemples de lensemble dapprentissage sont linairement sparables, il existe un continuum, cest--dire un nombre inni, dhyper-
plans qui classent correctement ces exemples.
Considrons une entre quelconque x. Nous avons vu que si w x > 0, alors le perceptron lui attribue la
classe +1 ; si w x < 0, la classe est 1. Dans les deux cas, le vecteur x se trouve une distance |d| de
lhyperplan, o d est donne par :
wx
d= (10)
w
et o
N
w = w 2
j ww (11)
j =0
Remarque
w x2
H
Il peut tre utile de revenir lespace original, de dimension N. Les points x R qui
N
satisfont
N
H
x1
w j x j = w 0 (12)
j =1
T
se trouvent sur un hyperplan normal au vecteur w = w 1 w 2 L w N , dont la distance lorigine est la valeur absolue de
w0 . (13)
d 0H =
N
w 2
j
j =1
En particulier, sur la gure 6-5, on peut voir la relation entre w et w. Lhyperplan sparateur dans lespace N dimensions est lintersection
de lhyperplan dans lespace largi avec le sous-espace x0 = 1. Il est clair que les distances des exemples lhyperplan sont diffrentes
selon quon les mesure dans lun ou lautre espace.
Pour rsumer, chaque ensemble de poids w dtermine un hyperplan dquation (9) qui spare lespace des
entres en deux rgions. Ces poids attribuent des sorties +1 aux entres x dont la projection sur w est posi-
tive, et des sorties 1 aux autres. Un perceptron fait donc des sparations (ou discriminations) linaires,
car lquation de la surface sparatrice (discriminante) est une fonction linaire (hyperplan) des entres.
Lapprentissage statistique
308
Comme nous le verrons plus loin dans ce chapitre, pour faire des sparations plus complexes avec des
neurones binaires, il faut utiliser soit des potentiels plus complexes, comme cest le cas du perceptron
sphrique ou des machines vecteurs support, soit des rseaux avec des units caches, dcrits dans la
section consacre aux heuristiques constructives.
Considrons un lment xk de LM , de classe yk. Une quantit utile par la suite est son champ align zk par
rapport un perceptron de poids w, dfini par :
z k = yk w x k (14)
Daprs les relations (3) et (8), on voit que la sortie du perceptron de poids w est correcte si
zk > 0 (15)
Les proprits de la sparation linaire ne dpendent pas de la norme du vecteur w, mais seulement de son
orientation. Si lon change la norme des poids sans modifier la direction de w, en multipliant toutes les
composantes wi (y compris w0) par une mme constante positive, la sortie du perceptron sera la mme.
Seule lorientation de lhyperplan, dfinie par le vecteur unitaire w/||w||, est pertinente pour la classifica-
tion. Pour ltude des proprits dapprentissage des neurones binaires, il est utile dintroduire le concept
de stabilit dun exemple, qui est ainsi dfini :
yk w x k zk
k = = (16)
w w
Dfinition de la marge
Parmi tous les hyperplans sparateurs possibles, celui de marge maximale, aussi appel perceptron de
stabilit optimale, a des proprits intressantes : il est le plus robuste par rapport des perturbations
des entres ou une dtrioration des poids. Les machines vecteurs supports , que nous introdui-
rons plus loin, sont fondes sur le concept de marge maximale.
Algorithme du perceptron 1
3
Nous avons vu quun perceptron est capable de raliser nimporte
quelle sparation linaire, condition que ses poids soient ajusts
correctement.
2,4
Remarque
Si les exemples de lensemble dapprentissage sont linairement sparables, un Figure 6-7. Vecteur w aprs 5 itrations
perceptron devrait donc, en principe, pouvoir apprendre les classer sans erreurs. de lalgorithme du perceptron :
les exemples utiliss pour lapprentissage
Lalgorithme du perceptron procde de la manire suivante : (cercles noirs : classe 1, cercles blancs :
Algorithme classe +1) sont numrots dans lordre
dutilisation. w* est un vecteur solution.
initialisation : Le vecteur w(t = 5) permet de sparer
1. t = 0 (compteur des mises jour) ; tous les exemples.
2. w(0) = 0 (initialisation tabula rasa), ou bien chaque
composante de w(0) est tire au hasard.
apprentissage :
1. on choisit un exemple k de lensemble dapprentissage LM, soit en le tirant au hasard, soit en
suivant un ordre pr-tabli ;
2. si z k y k w ( t ) x k 0 , cest--dire si lexemple k est mal class, on modifie les poids selon la
relation wi ( t + 1) = wi ( t ) + y k xik pour tout i (0 i N) ;
3. on incrmente le compteur des mises jour : t = t + 1.
test :
1. si z k y k w ( t ) x k > 0, pour tous les exemples k = 1, 2, ..., M, alors ils sont tous bien appris ;
lalgorithme sarrte ;
2. sinon, on va apprentissage.
Lalgorithme du perceptron itre donc les modifications des poids tant quil reste des exemples dont le
champ align zk est ngatif, cest--dire des exemples qui sont mal classs. La figure 6-7 illustre lappli-
Lapprentissage statistique
310
cation de lalgorithme du perceptron. Il est vident que si lensemble dapprentissage nest pas linaire-
ment sparable, lalgorithme ne sarrte jamais (contrairement lalgorithme de Ho et Kashyap prsent
dans le chapitre 2). Si les exemples sont linairement sparables, lalgorithme du perceptron converge,
comme le dmontre le thorme ci-dessous.
Remarque
On ne peut donc pas utiliser lalgorithme du perceptron pour dterminer si un ensemble dexemples est, ou nest pas, linairement spara-
bles. En effet, on ne peut pas, en un temps de calcul raisonnable , distinguer un algorithme du perceptron qui ne converge pas (parce
que les exemples ne sont pas linairement sparables) et un algorithme du perceptron qui converge trs lentement (bien que les exemples
soient linairement sparables). Comme nous lavons indiqu dans le chapitre 2, il faut utiliser lalgorithme de Ho et Kashyap [HO 1965], qui
fournit la rponse en un nombre ni ditrations : si les exemples sont linairement sparables, il trouve une solution (qui nest pas du tout
optimale) ; si les exemples ne sont pas linairement sparables, lalgorithme lindique aprs un nombre ni ditrations.
Thorme
Pour la dmonstration, on supposera que lon a initialis les poids zro, suivant loption tabula rasa.
Cette hypothse nest pas ncessaire, car on peut tout aussi bien commencer avec des poids quelconques,
mais elle rend la dmonstration plus simple.
Puisque, par hypothse, les exemples de lensemble dapprentissage LM sont linairement sparables, il
existe un vecteur de poids w*, quon appellera perceptron de rfrence, qui classe correctement les exem-
ples. Sans perte de gnralit, nous supposerons que w* est unitaire. Si ce ntait pas le cas, il suffirait de
le diviser par sa norme. Les stabilits des exemples dans LM par rapport lhyperplan de rfrence sont
positives. Puisque w* est unitaire, elles sont gales aux champs aligns correspondants :
*k = y k x k w* = z*k . (17)
15 Pour dmontrer le thorme, on dtermine des bornes, sup-
rieure et infrieure, de la norme du vecteur de poids engendr
inf
par lalgorithme du perceptron. On peut dmontrer (voir nos
Bornes | w (t + 1) |
sup
Complments en fin de ce chapitre) que ces bornes sont
10
des fonctions croissantes du nombre t ditrations, mais elles
augmentent une allure diffrente. En effet, la borne inf-
rieure crot linairement avec le nombre ditrations t, tandis
5 que la borne suprieure le fait plus lentement, comme t
(voir figure 6-8). Ces bornes se croisent, ce qui est absurde,
au-del dun certain nombre ditrations T, donn par
0 2
0 10 T 20 x max
t T = min (18)
Figure 6-8. Comportement des bornes *
suprieure et infrieure au cours
des itrations, pour un cas o *min = 0.5 o x max est la norme de lexemple de LM dont la norme est
et ||xmax|| = 2. maximale, et *min est la plus petite stabilit par rapport
lhyperplan de rfrence parmi celles des exemples de LM.
La discrimination
311
CHAPITRE 6
Lalgorithme du perceptron converge donc ncessairement, car le nombre ditrations ne peut pas
dpasser T. Sil y a des exemples trs proches (avec petit relativement x max ) de lhyperplan de rf-
rence, le temps de convergence peut tre trs long. Cependant, lalgorithme peut converger en un temps
bien plus court que celui qui est donn par la relation (18), pour deux raisons :
dune part, parce que lhyperplan de rfrence w* est arbitraire et que la valeur de *min correspondante
peut tre particulirement petite,
dautre part, parce que le temps de convergence dpend de la squence particulire dexemples qui est
utilise pour les mises jour successives. De ce fait, il est une variable alatoire.
Remarque 1
Le rsultat (18) a une interprtation intuitive simple. La correction des poids lors de chaque itration de lalgorithme est borne, car sa
norme ne peut tre suprieure celle de lexemple appris cette itration-l, ||xk||. En revanche, lapprentissage des exemples successifs
augmente la norme des poids. La correction quun mme exemple produit chaque itration o il est appris perturbe donc de moins en
moins w : les ajustements successifs orientent lhyperplan par des modications relativement dcroissantes. Sil existe des exemples trs
proches de lhyperplan sparateur, il faut que les corrections deviennent sufsamment faibles pour atteindre la prcision ncessaire. Cest
ce qui explique que le temps de convergence soit inversement proportionnel * .
min
Remarque 2
Puisque, par hypothse, les exemples de lensemble dapprentissage sont linairement sparables, au lieu de considrer les entres xk de
classes yk, on peut les remplacer par des entres x k y k x k de classes y k = +1. En effet, si w classe correctement lensemble des xk,
il procde de mme avec les x k , car y k w x k y k w x k > 0.
V ( z ) .
1
C (w ) = k
(19)
M k =1
Elle dpend des poids w par lintermdiaire des champs aligns des exemples. Nous verrons plus loin que
le fait que (19) soit une somme sur les exemples est cohrent avec lhypothse que les exemples sont des
variables alatoires indpendantes.
Remarque
Le facteur 1/M devant la somme dans (19) ne joue aucun rle dans la minimisation du cot. Il permet de dnir le cot moyen unitaire,
cst--dire le cot moyen de chaque exemple, quantit qui peut tre utile si lon veut comparer des rsultats sur des bases dapprentissage
de tailles diffrentes.
La fonction V qui entre dans la dfinition (19) doit satisfaire certaines contraintes pour que la minimisa-
tion du cot permette de trouver des poids adquats. Les poids w qui produisent des champs aligns nga-
tifs sur un grand nombre dexemples doivent avoir un cot plus fort que ceux qui produisent une majorit
de champs aligns positifs. V(z) doit donc tre une fonction non croissante de son argument. Remarquons
que, si les exemples de lensemble dapprentissage LM sont linairement sparables par w*, alors tout
vecteur de la forme aw* avec a > 1 produit la mme sparation que w*, mais avec un cot infrieur. En
consquence, si V est une fonction non croissante du champ align, un algorithme de minimisation peut
ne pas converger, car, quand lensemble LM est linairement sparable, on peut toujours diminuer le cot
en augmentant la norme de w sans modification de lorientation de lhyperplan. Pour viter cela, on peut
Lapprentissage statistique
312
imposer la contrainte ||w|| = cte. Les normalisations ||w|| = 1 et ||w|| = N + 1 dans lespace largi (ou
||w|| = N, si lon travaille dans lespace des entres de dimension N), sont celles qui sont les plus utilises.
Si V(z) est drivable, alors V(z) 0. Dans ce cas, la mthode la plus simple pour procder une minimi-
sation de (19) est la mthode du gradient simple, dcrite au chapitre 2. Rappelons quelle consiste modi-
fier les poids itrativement, suivant
w ( t + 1) = w ( t ) + w ( t ) (20)
avec
C ( w ) 1 N
( ) (t ) y x
V z k
w ( t ) =
w
(t ) =
M
z k
k k
(21)
k =1
M
= ck (t ) yk x k (22)
k =1
o est le pas dapprentissage. Dans (22) on a utilis la relation zk/w = yk xk (cf. (14)) et lon a intro-
duit des coefficients ck(t), dfinis par c k ( t )
V z
k
. Comme
( )
V z k ( )
0, ck(t) 0. Il convient de
M z k z k
normaliser les poids aprs chaque itration (20).
Le rsultat (22) montre que, dune manire gnrale, les poids obtenus avec des algorithmes dapprentis-
sage peuvent scrire comme suit :
M
w = ck yk x k (23)
k =1
o les coefficients ck, qui sont la somme des ck(t) sur toutes les itrations, sont positifs ou nuls. Leurs
valeurs dpendent de lalgorithme dapprentissage. Nous verrons plus bas comment les proprits des
machines vecteurs supports se dduisent de celles des coefficients ck. Lexpression (23) avec ck = c > 0
(o c est une constante quelconque) est connue sous le nom de rgle de Hebb. Elle exprime mathmati-
quement (quoique de faon non rigoureuse) un modle dapprentissage neuronal propos par D. Hebb
pour expliquer la capacit de mmoire du systme nerveux (voir le livre de P. Peretto pour une discussion
plus approfondie de cette rgle). Remarquons tout de suite que la rgle de Hebb a de trs mauvaises
performances pour faire des discriminations de donnes. Mme si, dans le contexte de lapprentissage
automatique, son intrt est plutt historique, on verra que lon peut acclrer la convergence de certains
algorithmes en initialisant les poids avec la rgle de Hebb.
Remarque
Si lon ne normalisait pas les poids aprs chaque itration de lalgorithme pour satisfaire la contrainte ||w|| = cte, on pourrait contrler la
convergence en arrtant les itrations ds que les corrections aux poids deviennent parallles aux poids eux-mmes, cest--dire, si
w ( t + 1 ) w ( t ) = w ( t + 1 ) w ( t ) (dans les limites de la prcision requise par lapplication).
Dans la suite de ce paragraphe, nous prsentons quelques cots partiels V(z) proposs dans la littrature.
La discrimination
313
CHAPITRE 6
0
qui nest autre que la rgle de Hebb. Comme cela a t
discut plus haut, le cot partiel tant monotone dcrois-
2 sant, il faut, pour que lalgorithme sarrte, introduire la
contrainte de normalisation des poids. Une seule itra-
4 tion suffit alors pour trouver le minimum du cot. Dans
la suite de cette section, nous utiliserons ce rsultat pour
6 initialiser lalgorithme Minimerror.
6 4 2 0 2 4 6
z Lalgorithme du perceptron correspond lutilisation du
Figure 6-10. Cot partiel correspondant cot partiel suivant :
la rgle de Hebb
V ( z ) = z ( z ) (27)
reprsent sur la figure 6-11. Les corrections des poids chaque itration lors de la minimisation du cot
correspondant sont :
M
( z ) y x
1
w = k k k
(28)
M k =1
ce qui quivaut une version non adaptative ( batch ) de lalgorithme du perceptron car ici, chaque
itration, les poids sont mis jour avec tous les exemples mal classs (grce la fonction dans (30)),
alors que, dans lalgorithme du perceptron, on ne prend en considration quun seul exemple chaque
mise jour des poids.
Lapprentissage statistique
314
V(z)
Algorithme du perceptron
V(z)= z(z)
4
4 2 0 2 4 6
z
1 2
V (z) = z (z) , (29)
2
reprsent sur la figure 6-12.
30
V(z) Rgle Delta
V(z)=z 2 (z)/ 2
20
10
0
6 4 2 0 2 4 6
z
Les modifications des poids lors des itrations successives sont donnes par :
M
z (z ) y x .
1
w = k k k k (30)
M k =1
Remarque
Si les exemples de lensemble dapprentissage sont linairement sparables les algorithmes que lon vient de prsenter trouveront gn-
ralement une solution w sans erreurs dapprentissage, avec plus ou moins ditrations suivant lalgorithme. Pour cela, rappelons que , le
pas dapprentissage, doit tre sufsamment petit.
La discrimination
315
CHAPITRE 6
Les algorithmes prcdents pnalisent les poids qui donnent des erreurs dapprentissage, car les cots
partiels correspondant des champs aligns ngatifs ont des valeurs positives. Les exemples bien classs
ont un cot nul (sauf pour la rgle de Hebb), o quils se trouvent. Or, lintuition nous dit quon est plus
sr de la classification des exemples trs loigns de lhyperplan que de ceux qui en sont tout prs. On
devrait donc pnaliser les hyperplans qui se placent trop prs des exemples, mme sils les classent bien.
Cest le but des algorithmes qui cherchent lhyperplan de marge , cest--dire, les poids w() tels que,
pour tous les exemples k,
zk
k . (31)
w
Afin de pnaliser les poids qui, mme sils classent bien tous les exemples, prsentent des exemples plus
proches de lhyperplan que la marge , il suffit de modifier les cots (24), (25), (27) et (29) en remplaant
partout le champ align zk par z k w . Dans ce cas, les solutions de cot nul vrifient (31) pour tous les
exemples. La plus grande valeur de pour laquelle il existe une solution de cot nul correspond au
perceptron de marge maximale. Il faut remarquer que, dans la pratique, le procd qui consiste maxi-
miser peut tre assez complexe et coteux en temps de calcul.
Dautres fonctions de cot ont un paramtre ajustable, plus ou moins quivalent , que lon appelle
hyperparamtre. Elles permettent de trouver des solutions qui ont de meilleures proprits de gnralisa-
tion que celles que lon vient de prsenter [3, 4, 5, 6].
En gnral, quand les exemples de lensemble dapprentissage ne sont pas linairement sparables, on
peut reprsenter la surface discriminante laide de neurones cachs. Lhyperplan dfini par chaque
neurone doit sparer correctement les exemples de classes diffrentes, au moins dans un voisinage limit
de lhyperplan. Or, lorsque les exemples ne sont pas sparables, les fonctions de cot prsentes dans ce
paragraphe ont plusieurs minima locaux, et, gnralement, la solution vers laquelle convergent les algo-
rithmes ne possde pas cette proprit de sparation locale. Une fonction qui permet de trouver une telle
solution est le cot partiel suivant (utilis par lalgorithme Minimerror qui est dcrit plus bas), lequel est
fonction de la stabilit , dfinie par (16), et non pas du champ align z :
1
V ( ) = --- [ 1 th ( ) ] (32)
2
o est un hyperparamtre. Le cot partiel (32) est reprsent en fonction de sur la figure 6-13 (
gauche), pour deux valeurs de diffrentes.
Faisant lapprentissage par la mthode du gradient, la contribution de chaque exemple est proportion-
nelle
V ( ) - yx -------- .
w
----------------
- ------------------------------------ (33)
w 2 w cosh ( )
2 w
Elle est le produit de deux termes. Un prfacteur qui dpend de la stabilit de lexemple, et la quantit
yx w w . Le prfacteur cosh2() dans (33), est reprsent sur la figure 6-13 ( droite) en fonction de
, pour deux valeurs de . Lhyperparamtre a une signification intuitive trs simple : rappelons que k
est la distance de lexemple k lhyperplan dfini par les poids w. Si k >> 1 , le prfacteur cosh ( )
2 k
a des valeurs ngligeables, et la contribution de lexemple correspondant w dans (21) est faible. Seuls
les exemples suffisamment proches de lhyperplan, ceux ayant < 1 , contribuent significativement
la modification des poids. Tout se passe comme si lon avait une fentre de largeur proportionnelle 1/
centre sur lhyperplan, et au travers de laquelle on ne verrait que les exemples effectivement utiliss pour
lapprentissage. Plus est grand, plus cette fentre est troite, comme le montre la figure 6-13 ( droite).
Lapprentissage statistique
316
V() cosh-2()
Cot de Minimerror
1.0 1.0 =0.5
=0.5
=5 =5
0.8 0.8 Figure 6-13.
gauche : cot
partiel
0.6 0.6
correspondant
Minimerror ;
0.4 0.4 droite :
prfacteur de la
modification des
0.2 0.2
poids (quation
(35)), pour deux
0.0 0.0 valeurs de
6 4 2 0 2 4 6 6 4 2 0 2 4 6 lhyperparamtre
.
Remarque 1
Par rapport aux algorithmes dont le cot partiel est fonction du champ align, la drive de (32) par rapport aux poids fait apparatre un
terme supplmentaire, w/||w||, qui provient de la norme des poids au dnominateur de la stabilit (dnie par lquation (16)). La quantit
w/||w|| est la composante de lexemple parallle w. Dans le terme entre parenthses de lquation (33), yx w w est la compo-
sante de yx (le terme hebbien qui apparat dans tous les algorithmes dapprentissage) orthogonale w. Seule cette composante contribue
effectivement lapprentissage ; la composante parallle w nest pas utile pour lapprentissage car elle ne peut pas contribuer changer
lorientation de w. Si lon normalise les poids aprs chaque itration de lalgorithme, le terme w/||w|| peut tre nglig.
Remarque 2
Mme les exemples bien classs, avec > 0, contribuent lapprentissage ; ils le font dautant plus quils sont proches de lhyperplan.
Remarque 3
Si est sufsamment petit (k << 1 pour tout k), alors tous les exemples contribuent lapprentissage avec pratiquement le mme prfac-
teur, comme dans la rgle de Hebb discute plus haut. En effet, dans la limite 0, les stabilits de tous les exemples se trouvent dans
la rgion o le cot dcrot linairement (autour de = 0), et le prfacteur dans (33) est le mme pour tous les exemples.
Remarque 4
Pour des valeurs intermdiaires de , les exemples sufsamment loigns de lhyperplan pour satisfaire >> 1, cest--dire ceux dont
les stabilits sont grandes par rapport 1/, contribuent peu lapprentissage, car leur prfacteur dans (35) est exponentiellement faible
1
- < 4 exp ( 2 ) . Par exemple, si > 5, le prfacteur est de lordre de 10-4.
(dans la limite >> 1, on a ----------------------------
2
cosh ( )
Les remarques prcdentes sont la base de lalgorithme Minimerror, qui permet non seulement
dobtenir une sparation linaire de grande marge si elle existe, mais, dans les cas o la sparation linaire
nexiste pas, trouve une surface localement discriminante grce lhyperparamtre , quil ajuste pour
optimiser la solution. Pour cela, on initialise les poids avec la rgle de Hebb (donne par (23) avec
ck = cte). On commence les itrations avec une valeur initiale de , ini, suffisamment petite pour que tous
les exemples figurent lintrieur de la fentre dapprentissage. Si ||xmax|| correspond la plus grande
norme parmi les vecteurs de LM, il suffit de prendre, par exemple, ini = 0,01/||xmax||. Ensuite, chaque pas
dapprentissage, on modifie les poids et lon augmente dune petite quantit . Ce procd est connu
dans la littrature comme tant celui du recuit dterministe ; il est conceptuellement proche du recuit
simul, utilis en particulier pour des problmes doptimisation. En effet, lhyperparamtre peut tre
La discrimination
317
CHAPITRE 6
interprt comme linverse dun bruit, ou dune temprature, T = 1/ [GORDON 1995]. Nous reviendrons
sur cette interprtation. Lexprience a montr que, dans de nombreuses applications, il est convenable
dutiliser deux valeurs de diffrentes, + pour les exemples de stabilit positive (bien appris), et pour
ceux de stabilit ngative. Pour ne pas introduire trop de paramtres, on garde le rapport +/ constant
pendant tout lapprentissage. Lalgorithme Minimerror a donc trois paramtres : le pas dapprentissage ,
le pas de recuit et lasymtrie +/. Il procde comme suit :
Algorithme Minimerror
Choisir :
1. , le pas dapprentissage (valeur conseille : 102),
2. +, lhyperparamtre (valeur conseille + = 102/||xmax||),
3. , le rapport +/ (valeur conseille : 6),
4. +, le pas du recuit (valeur conseille : 102).
Initialisation :
1. compteur de mises jour : t = 0,
2. poids : w(0) (initialisation conseille : appliquer la rgle de Hebb et normaliser les poids
||w|| = N + 1).
Apprentissage :
1. chaque itration, on modifie et lon normalise les poids selon :
w ( t ) + w
w ( t + 1) = avec w = ( w+ + w ) (34)
w ( t ) + w M
et
w = -k k x k
----------------------- (35)
k k cosh
2
Remarque
Lalgorithme Minimerror combine une descente de gradient avec une modication de lhyperparamtre . Il converge vers un minimum
local. On a dmontr [GORDON 1995] que, si les exemples de lensemble dapprentissage sont linairement sparables, la minimisation de
(19), avec V donn par (32), pour des valeurs croissantes de permet de trouver lhyperplan de marge maximale. Si les exemples ne sont
pas linairement sparables, lalgorithme converge vers des poids qui minimisent le nombre derreurs dapprentissage et maximisent la
marge localement (au voisinage de lhyperplan). Ces proprits sont trs utiles pour les algorithmes dapprentissage constructifs, prsen-
ts plus bas dans ce chapitre.
On trouvera plus de dtails, ainsi que des exemples dutilisation de Minimerror, dans [TORRES
MORENO 1997] et [GODIN 2000].
Remarque
Un cot partiel assez intressant est celui des moindres carrs appliqu un rseau sans neurones cachs, et dont le neurone de sortie
a une fonction dactivation sigmodale. Puisque yk = 1, on a :
k 1 k k 2
V ( z ) = --- ( y th ( w x ) )
2
1 k k 2
= --- ( 1 y th ( w x ) ) (36)
2
1 k 2
= --- ( 1 th ( z ) )
2
car th(z) = th(z). Remarquons que largument de V nest pas la stabilit, mais le champ align. La modication des poids par lalgorithme
du gradient simple prend la forme (22), avec :
k
k 1 th ( z )-
c ( t ) ---- ----------------------
M cosh 2 ( z k )
k . (37)
1 th ( w )-
---- -------------------------------
M cosh 2 ( w k )
Lexpression (37) est similaire celle de lalgorithme Minimerror. Ici, ||w|| joue le mme rle que . La diffrence essentielle entre les deux
algorithmes est que est un paramtre contrlable par Minimerror, tandis que ||w|| ne peut pas tre contrl lors de la minimisation de
(36) .
les 104 exemples de test, on en trouve 23 qui sont mal classs par cet hyperplan. droite de la figure 6-
14, on a reprsent les distances des donnes lhyperplan (avec le signe donn par le classifieur) lorsque
lapprentissage est effectu avec lensemble des 208 signaux. La marge dans ce cas est plus petite
( = 0,0028). Nous avons reprsent sur la figure 6-15 lhistogramme des stabilits de toutes les donnes
par rapport ce dernier hyperplan. Nous verrons quen faisant lhypothse que les donnes sont des
mesures bruites de grandeurs physiques, ces distances permettent dattribuer un degr de plausibilit (ou
une densit de probabilit) la classe que le perceptron attribue aux entres.
50 Histogramme de stabilit
SONAR Benchmark
N = 60 M = 208
40
10
0
0.0 0.5 1.0 1.5 2.0 2.5
k
Remarque 1
Le fait que lon ait trouv que les 208 donnes de ce problme sont linairement sparables nest pas tonnant, comme le dmontre le
thorme de Cover (et sa gnralisation par Gardner au cas de donnes corrles [ENGEL et al. 2001]) mentionn au dernier paragraphe
du chapitre, et dont la grande importance a dj t mentionne dans le chapitre 2. Ils ont tabli que la probabilit quun ensemble de
donnes (en position gnrale, cest--dire tel quil ny ait pas N points dans un mme hyperplan) soit linairement sparable ne dpend
que du rapport M/N, o M est le nombre de donnes et N la dimension de lespace des entres. En particulier, si N = 60 et M = 208, et si
les donnes prsentent des corrlations, ce qui est le cas dans ce problme du sonar, cette probabilit nest pas ngligeable.
Lapprentissage statistique
320
Remarque 2
On peut se demander pourquoi on na pas dcouvert plus tt que les donnes taient linairement sparables, alors que lalgorithme de
Ho et Kashyap [HO 1965] fournit le rsultat en quelques minutes. Ceci rsulte du caractre fondamentalement pluridisciplinaire du domaine
des rseaux de neurones, qui amne ignorer, voire redcouvrir, des rsultats importants tablis dans dautres disciplines ; les auteurs
de cet ouvrage esprent que celui-ci contribuera surmonter cette difcult.
V ( z )
k
F k (t ) = (t ) (38)
M w
V ( z )
k
Figure 6-16. Forces sur lhyperplan.
litration t, lexemple k, mal class, = (t ) y k x k
produit une force attractive sur lhyperplan.
M z k
Sa contribution la correction des poids = c k (t ) yk x k
est indique par le vecteur ck(t)ykxk,
qui est ajout w(t) pour donner w(t + 1). qui agit sur lhyperplan. On peut remarquer que cette force est
la drive dun potentiel qui nest autre que le cot partiel V
(cest pourquoi ce dernier est appel potentiel dans la littrature des chercheurs physiciens qui tudient ces
problmes ; pour viter toute confusion avec le potentiel du neurone, nous nutiliserons pas ce terme). Si V(z)
est une fonction non croissante de son argument, alors ck 0. On peut voir, sur la figure 6-16, que si la stabi-
lit de lexemple k est ngative, alors la force attire lhyperplan vers lexemple, lequel voudrait passer de
lautre ct de lhyperplan. Si la stabilit de lexemple k est positive, lexemple repousse lhyperplan.
Puisque lhyperplan passe ncessairement par lorigine de lespace largi, ces forces le font pivoter.
La discrimination
321
CHAPITRE 6
Remarque
Langle de rotation est proportionnel au pas dapprentissage . Sil est grand, leffet de la force peut tre excessif, et risque dintroduire des
oscillations au cours des itrations successives.
Lorientation de lhyperplan se stabilise, et donc lalgorithme converge, quand les forces dues aux exem-
ples des deux cts squilibrent. Si le cot partiel V est nul pour les stabilits positives, seuls les exemples
non appris exercent des forces, qui sont attractives, sur lhyperplan. Si V > 0 pour les stabilits positives,
comme cest le cas de lalgorithme Minimerror, les exemples bien classs exercent aussi des forces (rpul-
sives) sur lhyperplan.
Si lensemble dapprentissage nest pas linairement sparable, les algorithmes dont le cot partiel
diverge pour les stabilits ngatives peuvent avoir des problmes de convergence. En effet, sil y a des
exemples de la mme classe des deux cts de lhyperplan, comme cela arrive dans les cas non sparables,
les exemples mal classs exercent des forces attractives, dautant plus grandes quils sont loigns de
lhyperplan. Lorientation de ce dernier peut alors osciller au cours des itrations successives, sans jamais
se stabiliser. Pour viter ce problme, on diminue le pas dapprentissage au fur et mesure que lappren-
tissage progresse. La mme remarque sapplique lapprentissage adaptatif ( en ligne ) : la solution
que lon trouve dpend non seulement de la vitesse laquelle a t modifi, mais aussi de lordre de
prsentation des exemples.
Perceptron sphrique
On peut produire des surfaces discriminantes hypersphriques partir dune gnralisation trs simple du
perceptron. En effet, au lieu du potentiel linaire (7) on dfinit un potentiel ou activit sphrique
N
(x w i ) w 0
2 2
vS = i (39)
i=1
o la somme sur i est le carr de la distance entre lentre x et le vecteur des poids dans lespace non largi
w = w 1 w 2 L w N . Le vecteur w est le centre dune hypersphre de rayon w0. La sortie du perceptron
sphrique est :
S = sgn ( v S ) . (40)
Lapprentissage statistique
322
zSk = y k vS . (41)
Remarquons que, dans ce cas, il ne faut pas normaliser
les poids, car cela reviendrait imposer que le centre
de lhypersphre se trouve une distance de lorigine
qui serait fixe par la constante de normalisation.
Heuristiques constructives
Comme cela a dj t mentionn, on peut transformer
la classification en un problme de rgression et appli-
( ) quer les techniques dapprentissage et de slection de
modle dcrites aux chapitres 1 et 2. Notons que, dans
ce cadre, tous les neurones du rseau doivent avoir des
fonctions dactivation drivables ; comme nous
Figure 6-17. Deux surfaces discriminantes lavons indiqu au dbut de ce chapitre, des units
sphriques en dimension N = 2. La premire caches binaires peuvent suffire si lon cherche dter-
(en haut) a un rayon w0(1) et son centre se trouve miner directement les surfaces discriminantes. Si la
(1) (2)
au point w . La deuxime, de rayon w0 ,
(2)
est centre sur w . On peut remarquer que surface discriminante nest ni linaire ni sphrique, on
le centre de la surface discriminante peut se trouver peut la dcomposer en morceaux (linaires ou sphri-
lextrieur de la rgion occupe par les exemples. ques) laide de neurones cachs. Alors, les probabi-
lits dappartenance chaque classe se dterminent
partir des stabilits, utilisant les rsultats prsents dans la section Questions Thoriques, plus loin dans
ce chapitre.
Dfinition : reprsentation interne
Ltat des neurones cachs associ un exemple sappelle reprsentation interne de lexemple. Remarquons que plusieurs exemples
peuvent avoir la mme reprsentation. Cela est souhaitable, pourvu quils appartiennent la mme classe, car ainsi on comprime linfor-
mation contenue dans LM.
En gnral, on incorpore les units caches au rseau les unes aprs les autres, suivant des heuristiques
constructives qui utilisent diffrents critres pour associer une reprsentation interne binaire chaque
lment de lensemble dapprentissage. Si ces reprsentations internes sont linairement sparables, un
perceptron de sortie, connect aux units caches, peut apprendre les discriminer.
Remarque
On dit que les reprsentations internes de lensemble dapprentissage sont dles si les exemples de classes diffrentes ont des reprsen-
tations diffrentes. Si deux exemples de classes diffrentes ont la mme reprsentation interne, la reprsentation nest pas dle. Dans ce
cas, comme le neurone de sortie est connect seulement aux neurones cachs, il attribuera la mme classe aux deux exemples, faisant
donc ncessairement une erreur de classication.
La discrimination
323
CHAPITRE 6
Les diffrents algorithmes constructifs ou incrmentaux qui existent dans la littrature permettent
dengendrer les reprsentations internes par des ajouts successifs dunits caches. Ces algorithmes cons-
tituent donc une approche de lapprentissage avec des rseaux de neurones spcialement adapts aux
problmes de discrimination. Ils diffrent les uns des autres par lheuristique qui est propose (ce quil
faut apprendre aux units ajoutes), par larchitecture du rseau obtenu (en arbre, en couches, etc.) et par
lalgorithme dapprentissage qui est utilis pour dterminer les poids de chaque neurone. En particulier,
le nombre dunits caches, qui dtermine la dimension des reprsentations internes, dpend, de faon
cruciale, de lefficacit de lalgorithme dapprentissage utilis.
2
+
+++
++
++ +++
3 Figure 6-18. (a) Surfaces discriminantes
1 dtermines avec lalgorithme NetLS.
(b) Reprsentations internes correspondant
++
+ aux rgions de la figure (a). La surface indique
classe + correspond prcisment la sparation linaire
+ classe des reprsentations internes, qui est effectue
(a) (b) par le neurone de sortie.
Dans la suite, nous dcrivons brivement lalgorithme constructif NetLS, qui permet de raliser des spa-
rations comme celle qui est montre sur la figure 6-18(a). Dans cet exemple, le premier neurone cach
(dont lhyperplan est indiqu par le chiffre 1 sur la figure) fait une sparation linaire des entres. Le
deuxime effectue une sparation sphrique, et le troisime une sparation linaire. Ils dcoupent lespace
des entres en rgions auxquelles ils attribuent des reprsentations internes fidles, reprsentes sur la
figure 6-18(b). Ces derniers sont des vecteurs binaires (de dimension 3 car dans notre exemple il y a 3
neurones cachs). Ils se situent des sommets de lhypercube en dimension 3. Sur la mme figure est
reprsent un hyperplan sparateur : ces reprsentations internes sont linairement sparables. Un percep-
tron de sortie, connect aux units caches, peut faire la discrimination correctement. Remarquons que,
pour obtenir des reprsentations internes binaires, il faut que les neurones cachs soient des perceptrons.
Or, comme leur fonction dactivation nest pas drivable, il est impossible dentraner le rseau avec un
algorithme de gradient. La seule faon dobtenir un rseau dont les neurones cachs sont binaires est de
le construire par ajouts successifs de neurones.
2. On entrane deux perceptrons, linaire et sphrique, avec LM,h, et lon garde celui des deux qui fait le
moins derreurs dapprentissage.
3. On connecte un neurone de sortie aux h neurones cachs, et on lui fait apprendre les cibles originales
yk avec, comme entres, les reprsentations internes apprises, sk = (1k,..., hk). Sil le fait sans
erreurs, lalgorithme sarrte. Autrement, on supprime le neurone de sortie, on augmente le compteur
de neurones cachs, h h + 1, et lon revient 1.
Remarque 2
On construit un rseau avec une seule couche cache parce que lon a dmontr [CYBENKO 1989] quune seule couche cache est suf-
sante pour reprsenter nimporte quelle fonction des entres.
La discrimination
325
CHAPITRE 6
Remarque 3
Un des principaux dfauts que prsentent les algorithmes constructifs tient ce que le rsultat dpend beaucoup de la sparation qui est
faite par le premier neurone cach introduit. Dans certains cas, garder le neurone qui fait le moins derreurs peut ne pas tre la meilleure
stratgie. Puisque les neurones suivants apprennent corriger les reprsentations internes an de les rendre dles, un mauvais choix
pour la premire sparation (cest--dire, du premier neurone) a des consquences importantes sur la qualit du classieur. Pour surmon-
ter cette difcult, il convient donc de raliser plusieurs sparations initiales, et dutiliser des techniques de slection de modles, selon une
dmarche analogue celle que nous avons dcrite dans les chapitres 1 et 2, pour surmonter le problme des minima locaux de la fonction
de cot.
x = ( x1 x2 L x N x1 x1 x2 L x1 x N x2 x2 x3 L x N 1 x N x N )
2 2 2 (42)
est un exemple o le vecteur F a N = N + N(N + 1)/2 composantes : les N composantes de x plus les
N(N + 1)/2 monmes forms par les produits de paires de composantes de x.
Remarque
Comme pour le perceptron, nous travaillerons dans lespace largi, qui inclut une composante constante 0 = x0 pour pouvoir traiter le
seuil w0 comme un poids supplmentaire dans lespace des caractristiques. Cette convention nest pas utilise par tous les auteurs.
Certains explicitent le seuil, gnralement dnot b. Cela oblige ajouter des quations dans la relation (48) (voir plus loin), compliquant
inutilement la formulation du problme.
Un ensemble dapprentissage qui serait sparable par une fonction quadratique dans lespace des entres
x RN devient linairement sparable dans lespace des caractristiques quadratiques RN. Alors, un
simple perceptron dans lespace des vecteurs F peut rsoudre le problme de discrimination. Remarquons
que le perceptron sphrique prsent plus haut dans ce chapitre est une application particulire de la
mme ide : le potentiel sphrique est une fonction quadratique des variables.
Par exemple, supposons que N = 2, et que lon ait choisi lespace des caractristiques quadratiques dfini
par (42). On aura :
( )
T
x = x1 x2 x12 x1 x2 x22 (43)
Lapprentissage statistique
326
qui a N = 5. Si lon tient compte du seuil, les poids dun perceptron dans cet espace aura 6 composantes.
Le potentiel (7) dans cet espace scrit :
o les indices de chaque poids rappellent la forme du monme quil pondre. Lensemble dapprentissage
est bien class par ce perceptron dans lespace F si les poids w satisfont, pour tous les exemples, la condi-
( )
tion (15) quon rcrit ici : y k x k w > 0 .
Un autre exemple simple, qui a lavantage dtre facile
visualiser car les entres sont unidimensionelles, est repr-
sent sur la figure 6-20. Pour sparer ces exemples, il faut
deux hyperplans sparateurs, reprsents sur la figure 6-20
(a). Comme nous lavons vu avec les mthodes construc-
tives, il faudrait un rseau avec au moins deux units
caches pour apprendre cette sparation. Par contre, si lon
reprsente les points dans un espace de caractristiques
( )
quadratiques ( x ) = x x 2 deux dimensions (voir
T
(
y k w0 + w1 x k + w2 x k ( ))
2
> 0 , pour tous les exemples.
classes en dimension 1, avec deux hyperplans
sparateurs. (b) Reprsentation dans lespace
des caractristiques quadratiques
Or, nous avons dj vu que, en gnral, si un problme
( )
( x ) = x0 x x 2 o lensemble
T
est linairement sparable, il existe une infinit dhyper-
plans sparateurs. La solution SVM consiste choisir, est linairement sparable (par souci de clart,
nous avons reprsent la sparation dans le sous-
dans lespace F, lhyperplan de marge maximale. Mais espace x0=1 ; voir aussi la figure 6-5).
au lieu dutiliser un des algorithmes prsents plus haut
dans ce chapitre, on utilise une formulation qui ouvre
dautres possibilits.
Les poids w qui dfinissent lhyperplan sparateur des SVM dans lespace F doivent satisfaire les condi-
tions suivantes, pour tous les exemples :
( )
y k x k w 1 ; 1 k M (44)
Remarque
Les contraintes (44) sont plus fortes que les conditions (15). Ces dernires assurent simplement que tous les exemples sont bien classs.
Si lon divise les deux membres de (44) par la norme des poids, ces conditions scrivent :
yk w x k( ) 1 . (45)
w w
Le membre de gauche nest autre que la stabilit de lexemple k dans lespace F. Comme nous lavons vu
dans la gomtrie de la classification, la valeur absolue de cette quantit est la distance de lexemple
lhyperplan sparateur. Si (44) est vrifie, les exemples qui satisfont lgalit sont une distance 1/||w||
La discrimination
327
CHAPITRE 6
de lhyperplan sparateur, tous les autres se trouvent plus loin. Autrement dit, 1/||w|| est la marge de
lhyperplan dfini par les poids w. Donc, la marge est maximale si ||w|| est le plus petit possible, compa-
tible avec les conditions (44). Remarquons que ces conditions ne sont pas triviales : si ||w|| est trop petit,
certains exemples, mme bien classs, pourraient ne pas les satisfaire.
Ainsi pose, la recherche dune SVM devient un problme de minimisation quadratique sous contraintes.
En effet, il faut minimiser ||w|| (ou, ce qui est quivalent, son carr) :
1
E= w w (46)
2
sous les M contraintes (44). On introduit le facteur 1/2 dans (46) pour des raisons purement pratiques
(quand on drive par rapport w, le 2 au dnominateur se simplifie).
Si lensemble dapprentissage est linairement sparable dans lespace F, alors le domaine de minimisa-
tion est convexe, dfini par les contraintes (44). Dans le cadre de la thorie de la programmation non
linaire, que nous ne prsenterons pas ici mais dont nous utiliserons certains rsultats, on dmontre que,
dans ce cas, le minimum de (46) est unique ; on lappelle SVM marge dure. Par contre, si lensemble
dapprentissage nest pas linairement sparable dans lespace des caractristiques choisi, les contraintes
(44) sont incompatibles. Alors, le problme de minimisation na pas de solution. Dans ce cas, quand on
applique lalgorithme que nous dtaillons par la suite, on reoit des messages derreur. Il y a alors deux
possibilits : soit on change dapplication F, soit on accepte des solutions avec des erreurs dapprentis-
sage. Mais alors, il faut reformuler le problme, comme nous le verrons plus loin.
( { }) = 12 w w + c
M
L w, c k k
( )
1 y k w x k
(47)
k =1
qui est une fonction de N + M +1 variables (les N + 1 poids plus les M coefficients ck).
La thorie de la programmation non linaire tablit que la solution recherche sobtient au point col de
(47) : cest un minimum par rapport aux w, mais un maximum par rapport aux multiplicateurs de
Lagrange.
Remarque
Pour tenir compte du fait que les contraintes (44) sont des ingalits et non pas des galits, il faut modier un peu la mthode des multi-
plicateurs de Lagrange habituelle. En particulier, il faut faire attention aux signes des diffrents termes dans (47). Avec la convention utili-
se, il faut imposer une condition sur les coefcients ck qui nexiste pas dans la mthode des multiplicateurs de Lagrange habituelle : les ck
doivent tre non ngatifs, pour assurer que lextremum de (47) minimise (46).
Lapprentissage statistique
328
La solution recherche doit satisfaire les conditions suivantes, quon appelle de Karush-Kuhn-Tucker :
c 0
k
L
-------k = 1 y w ( x ) 0
k k
c k = 1, K, M
(48)
k L
c -------k = c [ 1 y w ( x ) ] = 0
k k k
c
M
L
-------k = w i c y i ( x ) = 0 i = 0,1, K, N.
k k k
c k=1
La premire ligne de (48) est la condition mentionne dans la remarque. Les autres correspondent
lannulation des drives partielles de L(w, {ck}) par rapport chacune des variables. En particulier la
deuxime ligne nest autre que lensemble des contraintes (44).
La quatrime ligne nous dit que, tout comme dans le cas gnral du perceptron (voir quation (23)), les
poids de la SVM sont une combinaison linaire des exemples (dans lespace F) avec coefficients positifs
ck. La troisime ligne nous indique que certains de ces coefficients sont strictement nuls. Dans lensemble
dapprentissage il y a donc deux types dexemples, ceux pour lesquels ck > 0, et alors ncessairement
( ) ( )
y k w x k = 1, et ceux qui ont ck = 0, qui peuvent avoir y k w x k > 1 . Les exemples qui ont ck > 0
sont essentiels : ce sont les seuls qui contribuent la valeur des poids. On les appelle vecteurs supports.
Pour la suite on dnotera SV lensemble des vecteurs supports, et MSV leur nombre. La relation (45)
montre que tous les vecteurs supports se trouvent une distance 1/||w|| de lhyperplan sparateur : ils sont
exactement sur la marge. Les vecteurs supports sont finalement les seuls exemples importants. Si
lensemble dapprentissage ne contenait que ces exemples, la solution SVM serait la mme. Mais,
videmment, on ne les connat pas a priori.
Remarque 1
Il est tout fait possible dutiliser une minimisation quadratique sous contraintes, comme celle que lon vient de prsenter, pour trouver le
perceptron de marge maximale dans lespace des entres. Cependant, si les exemples de lensemble dapprentissage ne sont pas linai-
rement sparables, lalgorithme ne converge pas, et, par consquent, il ne fournit mme pas une approximation de la solution cherche.
Remarque 2
Lespace des caractristiques ncessaire pour la sparation (et donc, pour que lalgorithme dapprentissage converge) peut tre de trs
grande dimension.
Remarque 3
Si lapprentissage se fait par minimisation dun cot, comme nous lavons prsent au paragraphe correspondant, on dduit que les coef-
cients ck sont non ngatifs. Dans le cadre des SVM, on limpose.
Formulation duale
En pratique, on ne fait pas la minimisation de (47) par rapport aux N + M + 1 variables. Il est bien plus
convenable daller un peu plus loin dans la formulation thorique avant daborder laspect algorithmique.
La discrimination
329
CHAPITRE 6
dans lexpression du lagrangien (47), pour liminer les poids. On obtient alors le lagrangien dual, qui est
une fonction des seuls multiplicateurs de Lagrange :
M
{ }
LD ( c k ) = c k
1
c k D kk ' c k '
2 k ,k '
(50)
k =1
( ) ( )
D kk ' y k y k ' x k x k ' (51)
est llment dindices k et k de la matrice D qui ne dpend que des produits scalaires des paires dexem-
ples. Maintenant il faut maximiser (50) par rapport aux ck, sous les contraintes ck 0. Cette maximisation
sappelle problme dual, le primal tant la minimisation de (46) sous les contraintes (44).
Le problme dual a des caractristiques intressantes. Dabord, comme il ne dpend que des ck, le nombre
dinconnues est M, indpendamment de la dimension de lespace des caractristiques. Ceci est intressant
si N >> M, comme cest souvent le cas. On peut dmontrer que la solution qui maximise (50) est unique
( condition quelle existe !). Et, ce qui est trs important, il y a des algorithmes trs performants pour
maximiser une fonction quadratique sous contraintes. On peut en obtenir quelques-uns lURL
http://www.kernel-machines.org.
Consquences
Une fois obtenus les ck par maximisation de (50), on peut calculer les poids en utilisant (49). Cependant,
il nest pas ncessaire de garder en mmoire les poids (dont le nombre N+1 peut tre trs grand). Il peut
tre avantageux de ne garder que les vecteurs support xk avec leurs classes yk et les MSV multiplicateurs de
Lagrange ck correspondants, dont le nombre est au plus gal M car, dans le pire des cas, tous les exem-
ples sont supports.
La sortie de la SVM, qui est un perceptron dans lespace F, est donne par y = sgn ( w ( x )). En prin-
cipe, pour classer un nouveau vecteur x, il faut le transformer en F(x) utilisant lapplication choisie, et
remplacer les valeurs des wi par leurs expressions (49). On obtient :
k SV
( )
y = signe c k y k x k ( x ) .
(52)
( x ) ( y ) = K ( x, y ) (53)
Lapprentissage statistique
330
o la fonction K(x, y) sappelle fonction noyau (kernel en anglais). Par exemple, il est facile de vrifier
que le noyau correspondant aux transformations quadratiques (42) et (43) scrit :
K ( x, y ) = x y (1 + x y ). (54)
Remarque
En ralit, avec (54) on ne retrouve pas exactement les produits scalaires des caractristiques (42) et (43), mais des expressions qui ont
dautres coefcients. Par exemple, considrons le cas dimension 2. On a ( x ) ( y ) = x 1y 1 + x 2 y 2 + x 12 y 12 + x 1x 2 y 1y 2 + x 22 y 22 tandis
que, si lon utilise lexpression (54), on a K ( x , y ) = x 1y 1 + x 2 y 2 + x 12 y 12 + 2 x 1x 2 y 1y 2 + x 22 y 22, qui correspond en fait lapplication
x1( x2 x 12 2x 1x 2 )
x 22 . La quatrime composante de cette dernire diffre, dun facteur 2 , de lapplication (45).
La proprit (54) permet dexprimer les SVM en termes de fonctions noyaux. Introduisant lexpression
(53) dans (51) et (52), on obtient :
(
D kk ' = y k y k ' K x k , x k ' ) (55)
y = sgn c k y k K x k , x . ( ) (56)
k SV
On peut donc rsoudre le problme dual et classer toute entre nouvelle en ne faisant des calculs que dans
lespace des entres, au moyen du noyau K. Il nest pas ncessaire dexpliciter lapplication F : il suffit
de connatre le noyau correspondant. Mieux encore, tout noyau ayant les proprits dun produit scalaire
peut tre utilis par une SVM, mme si lon ne sait pas expliciter lapplication F correspondante. Cest
pour cela que les SVM sont aussi appeles machines noyaux, ou en anglais, kernel machines.
Les noyaux acceptables, qui possdent les proprits des produits scalaires, sont symtriques et semi-
dfinis positifs. Autrement dit, ils doivent satisfaire les conditions suivantes (thorme de Mercer) :
K ( x, y ) = K ( y, x )
(57)
K ( x, y ) g ( x ) g ( y ) dx dy 0 g ( x ) tel quue g ( x ) dx < .
2
Lapplication correspondante peut tre dtermine partir des vecteurs propres et des valeurs propres du
noyau. Cependant, nous avons vu que cela nest pas ncessaire.
Le noyau gaussien est un des plus utiliss :
x y 2
K ( x, y ) = exp (58)
2
2
qui correspond un espace de caractristiques de dimension infinie. Les classifieurs qui les utilisent sont
appels SVM fonctions de base radiales. Pour comprendre le sens de ce noyau, on peut lintroduire dans
(56), ce qui donne :
x xk 2
y = sgn c y exp k k
. (59)
k SV 2 2
La classe dune nouvelle entre x est donne par une somme pondre de gaussiennes centres sur les
vecteurs supports. Comme les gaussiennes ont une dcroissance rapide, il y a, en gnral, un seul terme
dominant dans la somme : celui du vecteur support le plus proche de x. Les ck tant positifs, la classe sera
La discrimination
331
CHAPITRE 6
celle de ce SV. Bien que cette conclusion ne soit pas rigoureuse, car il peut y avoir des contributions de
plusieurs gaussiennes, elle permet de se faire une ide intuitive sur ces noyaux. La figure 6-21 illustre le
fonctionnement des SVM fonctions de base radiales.
( )
y k w x k 1 k pour 1 k M (60)
k 0. (61)
Rappelons que si lon divise par ||w|| le membre de gauche de (60) on obtient la distance des exemples
lhyperplan sparateur dans lespace . Donc, les exemples qui sont tels que 0 < k < 1 sont une distance
de lhyperplan infrieure 1/||w||, mais sont bien classs. En revanche, ceux pour lesquels k > 1 sont mal
classs. Pour minimiser le nombre dexemples mal classs, il faut les pnaliser. Alors, au lieu de mini-
miser (46), on cherche minimiser
M
(C ) =
1
( )
w w + C k
n
(62)
2 k =1
o C est un hyperparamtre positif (C > 0) quil faudra ajuster, et n est un exposant positif (n 1). La solu-
tion pour laquelle (C) est minimum sappelle SVM marge floue (Soft margin SVM en anglais).
La valeur de C dans (62) permet de contrler le rapport entre le nombre dexemples mal classs et la gran-
deur de la marge. Des tudes thoriques ont montr que sa valeur a une grande influence dans les
Lapprentissage statistique
332
proprits de gnralisation des machines marge floue. Une grande valeur de C donne plus dimportance
aux variables de relaxation qu la norme des poids. Elle induit des solutions ayant plutt peu dexemples
mal classs quitte avoir une marge faible. Inversement, une petite valeur de C induit des solutions ayant
une grande marge, avec ventuellement plus dexemples mal classs. Gnralement, on cherche un
compromis par ttonnements, ce qui impose une exploration coteuse, car il faut rsoudre le problme
plusieurs fois avec des valeurs de C diffrentes.
Lexposant n permet de contrler linfluence des exemples mal classs. Plus il est grand, plus on pnalise
les exemples mal classs, qui ont k > 1, et plus on sapproche alors dune solution qui minimise le
nombre dexemples mal classs. Cependant, pour rester dans le cadre de la minimisation quadratique
sous contraintes, et pouvoir gnraliser ce qui a t dvelopp pour les machines marge dure, on est
limit aux valeurs n = 1 ou n = 2. Dans ces conditions, la solution de marge floue est unique, et on peut la
trouver avec des algorithmes de minimisation quadratique sous contraintes. Elle sexprime, comme (49),
en termes des seuls vecteurs supports, dont maintenant les exemples qui ont des k 0 font partie.
Introduisant les contraintes (60) et (61) dans (62), on dfinit le lagrangien des SVM marge floue :
( { }) = 12 w w + C ( ) + c
M M M
Lsoft w, c k k n k
( )
1 k y k w x k d k k .
(63)
k =1 k =1 k =1
c 0; d 0
k k
d =0
k k
c [1 y w ( x )] = 0
k k k k
L soft
= 0
k
------------
d
k k = 1, K, M
(64)
L soft
( )
k k k
------------ = 1 y w x 0
c
k
L soft
= nC ( ) c d = 0
k n1 k k
------------
k
M
L soft
------------ = w i c y i ( x ) = 0 i = 0,1, K, N.
k k k
w i k=1
Introduisant ces quations dans (63), on obtient, aprs quelques manipulations, le lagrangien dual. Nous
considrons dans la suite les cas n = 1 et n = 2 sparment.
Cas n = 1
Pour n = 1, le lagrangien dual a exactement la mme expression que dans le cas de marge dure (quation
(50)), mais les coefficients ck doivent satisfaire 0 ck C. Comme pour le cas de marge dure, on appelle
vecteurs supports les exemples pour lesquels ck > 0. Mais maintenant, il y a deux sortes de vecteurs
supports :
ceux qui satisfont ck < C : ils sont tels que k = 0, donc ils se trouvent exactement sur la marge, comme
dans le cas des SVM marge dure ;
La discrimination
333
CHAPITRE 6
ceux qui satisfont ck = C : ils sont tels que k > 0. On peut remarquer que, parmi ces derniers, il y a tous
les exemples bien classs qui se trouvent lintrieur de la marge, mais aussi tous les exemples mal
classs (pour lesquels k > 1).
Cas n = 2
Pour n = 2, le lagrangien dual est
({c }) = c
M
1 M k kk ' k ' 1 M k
( )
c
2
LDf k k
c D c (65)
k =1 2 k ,k ' 4 C k =1
qui peut scrire comme (50) si lon redfinit la matrice D comme suit :
1
D kk ' D kk ' + k ,k ' . (66)
2C
On peut dmontrer, partir des quations (64), que les contraintes sur les ck pour n = 2 sont les mmes
que pour les SVM marge dure, ck 0. La constante C nest pas une borne comme pour n = 1. Mais,
prsent, seuls sont vecteurs supports les exemples pour lesquels k > 0. Les exemples qui se trouvent sur
la marge, et pour lesquels k = 0, ne sont pas vecteurs supports.
SVM pratique
Pour rsumer cette introduction aux SVM, nous prsentons la dmarche suivre dans les applications.
Dans la pratique, lapprentissage avec des SVM comporte les tapes suivantes :
1. choisir un noyau K ( x, y ) ;
2. choisir la valeur de C : si C = 0, on cherche une SVM marge dure ; si C > 0, on cherche une SVM
marge floue. Dans ce dernier cas il faut choisir n (n = 1 ou n = 2) ;
3. calculer la matrice Dkk o les indices k, k parcourent toutes les paires dexemples (si C = 0, ou si
C > 0 et n = 1, on utilise la dfinition (55) ; si C > 0 et n = 2, on utilise la dfinition (66) ;
4. minimiser le lagrangien dual pour trouver les coefficients ck, laide dun des algorithmes disponibles
(voir sur le site http://www.kernel-machines.org)
5. garder en mmoire les exemples (entres et classes) qui sont vecteurs supports (pour lesquels ck > 0)
et les coefficients ck correspondants.
Ensuite, pour classer une entre quelconque, on utilise lquation (56), que nous rcrivons ici :
y = sgn c k y k K x k , x . ( )
k SV
Remarque
Les SVM constituent une approche lgante pour lapprentissage de la discrimination. Cependant, leurs proprits de gnralisation ne
sont pas ncessairement suprieures celles que lon peut obtenir avec dautres mthodes et algorithmes, comme par exemple avec des
rseaux de neurones. La popularit des SVM est, en grand partie, due leur simplicit dapplication et au fait satisfaisant que leur solution
est unique. Il faut quand mme garder lesprit quunicit nest pas synonyme de qualit. Dans tous les cas, de bonnes performances ne
sont atteintes que par une application judicieuse et rchie des mthodes.
Nous avons vu dans le chapitre 1, et nous verrons nouveau la fin du prsent chapitre, que lerreur de
gnralisation dun classifieur obtenu par apprentissage est une fonction dcroissante du rapport entre le
nombre dexemples M et le nombre de paramtres du classifieur. Dans le cas dun perceptron, ce nombre
Lapprentissage statistique
334
est la dimension de lespace o il effectue la sparation, lequel, dans le cas des SVM, est lespace des
caractristiques. Si la dimension de ce dernier augmente mais que M reste constant, on peut se demander
si les SVM sont capables de gnralisation [BUHOT et al. 2000]. Une premire rponse cette question
rside dans le fait que lerreur de gnralisation des SVM est borne par la fraction dexemples qui sont
vecteurs supports (cette fraction est donc infrieure 1). Bien quelle soit quantifiable lors des applica-
tions (il suffit de dterminer la fraction de vecteurs supports), cette borne a souvent des valeurs trop
grandes : elle surestime la probabilit de faire des erreurs de classification. Ce problme, ainsi que
dautres proprits des SVM, fait lobjet de nombreuses tudes thoriques (voir par exemple [RISAU-
GUSMAN et al. 2000a], [RISAU-GUSMAN et al. 2000b], [RISAU-GUSMAN et al. 2001], [DIETRICH et al.
1999], [RISAU-GUSMAN et al. 2002]). Le lecteur intress peut consulter la thse de [RISAU-GUSMAN
2001]
Il y a une autre faon daborder le problme des classes multiples : on peut construire des arbres de
rseaux. On choisit une squence de classes dans un ordre quelconque. Par exemple yK, y2, , y1 et lon
apprend sparer la premire des K 1 autres. Dans notre exemple, on prend comme cibles y = 1 pour les
exemples de la premire classe (en loccurrence, yK), et y = 1 pour tous les autres. Ensuite, on restreint
lensemble dapprentissage aux exemples des classes encore non discrimines (y2, ..., y1 dans notre
exemple), et lon spare y2 des autres, et ainsi de suite, jusqu ce quil ne reste que les deux dernires
classes. Lintrt de cette heuristique rside dans le fait que les ensembles dapprentissage des rseaux
successifs sont de taille dcroissante. Le rseau qui en rsulte est un arbre, en ce sens que, pour classer
une entre nouvelle, il faut dabord la classer avec le premier rseau. Sil lui attribue la sortie = +1, la
classe est yK. Mais si la sortie est = 1, cela veut dire que lentre nest pas de la classe yK, et quil faut
alors la faire classer par le deuxime rseau. On sarrte ds quun rseau reconnat lentre.
Puisque la squence des classes choisie est arbitraire, en principe il faudrait comparer les sorties de
plusieurs arbres, chacun correspondant une squence diffrente de classes. Les arbres de rseaux ont t
appliqus au problme des ondes de Breiman dans [TORRES MORENO 1997].
La discrimination
335
CHAPITRE 6
Enfin, comme nous lavons prconis dans le chapitre 2, section Mthodologie de conception dun
classifieur , on peut, si chaque classe nest pas linairement sparable de toutes les autres, sparer les
classes deux deux, ce qui, pour un problme K classes, conduit la construction de K(K1)/2 petits
classifieurs, souvent linaires. Contrairement lapproche par arbres, on ne choisit pas de squence arbi-
trairement, donc il nest pas ncessaire de comparer les rsultats obtenus avec les K! squences possibles ;
de plus, il nest pas ncessaire dutiliser les mmes ensembles de descripteurs pour les diffrentes spara-
tions, ce qui peut simplifier considrablement le problme. Nous avons galement montr, dans le
chapitre 2, quil est trs facile destimer les probabilits dappartenance de lobjet chaque classe, partir
des rsultats obtenus par chacun des classifieurs deux deux . Le lecteur trouvera, dans le chapitre 2,
plusieurs applications relles mettant en uvre cette dmarche, et les rfrences bibliographiques corres-
pondantes.
Questions thoriques
Dans la premire partie de ce chapitre nous avons prsent une liste de questions conceptuelles poses par
lapprentissage automatique. La thorie de lapprentissage tente de rpondre ces questions dans un cadre
statistique, en supposant que lensemble dapprentissage, ainsi que les nouvelles entres quon doit
classer, sont indpendants, tirs au hasard partir dune densit de probabilit inconnue. Cette formula-
tion, que nous prsentons dans le prochain paragraphe, permet dinterprter les hypothses sous-jacentes
aux applications algorithmiques, et constitue un cadre cohrent pour la thorie. Bien que ce chapitre nait
pas pour objet dentrer dans les dtails thoriques, nous dcrivons quelques rsultats intressants qui,
tant donn la nature probabiliste de la thorie, sont des rsultats statistiques. Le premier permet destimer
lesprance derreur de classification dun perceptron binaire. Ensuite nous prsentons : lapproche bay-
sienne de la discrimination ; une borne infrieure de lerreur de gnralisation, qui ne dpend que des
caractristiques du classifieur, du nombre dexemples et de la dimension de lespace des entres ; la capa-
cit du perceptron, qui est lesprance mathmatique du nombre dexemples linairement sparables dans
un espace dentre de grande dimension, quelles que soient leurs classes.
Avertissement
Les sections qui suivent ne peuvent tre abordes avec prot que par les lecteurs qui ont bien assimil les bases des statistiques et proba-
bilits.
( ) ( )
M M
( )
p ( LM ) = p x k , y k = p x k P y k x k . (67)
k =1 k =1
Le deuxime terme de (67) correspond au processus suivant : on tire dabord lentre xk avec la densit de
probabilit p(xk), puis on tire la classe yk, tant donne lentre xk, avec une probabilit conditionnelle
( ) ( )
P y k x k . Un cas particulier de probabilit conditionnelle P y k x k est le cas dterministe.
Lapprentissage statistique
336
Remarque
Le paradigme matre-lve , suggr au chapitre 2 pour tester des programmes, est souvent utilis pour formuler, dans ce cadre proba-
biliste, les questions thoriques. Ainsi, on suppose souvent que chaque composante des entres est tire alatoirement avec une densit
( )
xk 2
( )
( )
qui est soit gaussienne p x ik =
1
2
exp
i
2
, soit uniforme dans un certain intervalle [0, a], avec p x ik = 1/ a . On demande
ensuite au rseau matre , de poids w*, la sortie quil attribue lentre xk. Par exemple, si le matre est un perceptron dterministe de
( ) ( )
poids w*, on a P y k x k = y k w * x k . Le but de lapprentissage est de trouver les poids w dun rseau dit lve. En principe, il doit
classer correctement les exemples de LM , mais surtout des entres nouvelles, tires avec probabilit p(x).
Puisque LM suit une loi probabiliste, suivant la ralisation particulire de LM, les poids appris w seront
diffrents (dans cette section, on notera w les poids appris, quil sagisse dun perceptron ou dun rseau
plus complexe). Donc, w est une variable alatoire, de distribution de probabilit p(w|LM), dont la dter-
mination pose un problme dinfrence statistique. Dans ce paragraphe, nous prsentons la mthode
dinfrence baysienne. Elle part du thorme de Bayes, introduit dans le chapitre 1, que lon peut crire
formellement comme suit :
p ( w LM ) pB ( LM ) = p ( LM w ) p0 ( w ) (68)
o pB(LM) est dfini ci-aprs (quation (70)) ; p0(w) est la probabilit a priori des paramtres du classifieur
(les poids dans le cas dun rseau de neurones) avant de commencer lapprentissage, et p(LM|w), appele
vidence, est la probabilit de lensemble dapprentissage LM prdite par un lve qui aurait des param-
tres w. Pour raliser linfrence, on doit faire des hypothses sur la priori et lvidence, qui apparaissent
dans le membre de droite de lquation (68) de linfrence baysienne. On peut alors dduire la densit de
probabilit a posteriori des poids:
p ( LM w ) p0 ( w )
p ( w LM ) = (69)
pB ( L M )
( ) p(L
p B LM = M ) ( )
w p0 w dw (70)
est la probabilit marginale des exemples dans la classe des lves (des rseaux) correspondant notre a
priori p0. Suivant les hypothses implicites dans la probabilit a priori p0(w) et lvidence p(LM |w), on
obtiendra des rsultats diffrents.
Remarque
La relation (69) est la formule de Bayes applique aux paramtres du classifieur qui sont considrs comme des variables alatoires
dpendant de lensemble dapprentissage. Il faut noter que, dans le chapitre 1, nous avons appliqu la formule de Bayes aux classes que
nous avons considres comme des ralisations de variables alatoires dpendant du vecteur des descripteurs x. Ce sont donc l deux
utilisations entirement diffrentes de la formule de Bayes, applique deux problmes distincts dans le cadre de la classication.
La discrimination
337
CHAPITRE 6
Les a priori les plus usuels, au niveau de chaque neurone du rseau, sont la priori gaussien,
1 w 2
p0 ( w ) = exp (71)
( 2 )N 2
ou la loi uniforme sur une hypersphre dont le rayon est la norme du vecteur des poids. Par exemple,
(
p0 ( w ) = w 1
2
) (72)
impose que la norme soit unitaire. Dans le cas dun lve perceptron qui fait de la discrimination avec des
hyperplans, (72) est un choix judicieux, car nous avons vu que seule lorientation de w est pertinente et
doit tre apprise. Il faut remarquer que les a priori (71) et (72) nintroduisent aucune information. Ils attri-
buent une probabilit non nulle, et uniforme dans le cas (72), tous les poids possibles. Si lon a des infor-
mations supplmentaires sur le problme traiter, par exemple, si lon possde des connaissances sur
lorientation la plus probable de lhyperplan, ou sur un modle des donnes, il faut les inclure dans la
priori par un choix judicieux de p0(w). Lautre terme de (69) quil faut expliciter est lvidence, qui
contient toute linformation sur les performances du classifieur par rapport lensemble dapprentissage
(sil classe correctement ou non les exemples). Si les exemples sont indpendants, on peut crire :
( ) ( )
M
p ( LM w ) = P y k x k , w p x k (73)
k =1
o p(xk) est la densit de probabilit des entres. P(yk|xk, w) est la probabilit que le rseau, muni des poids
w, attribue la classe correcte, yk, lentre xk de LM.
Remarque 1
Tous les choix faits avant lapprentissage, quelle que soit larchitecture du rseau (rseau multicouche, fonction dactivation binaire ou
relle, espace des caractristiques des SVM, etc.), correspondent des a priori diffrents ; ils sont inclus dans p0(w).
Remarque 2
Rappelons que si lvidence est multiplicative, comme on la suppos, lesprance mathmatique de toute fonction additive des exemples
est la somme des esprances. Cette remarque, dveloppe dans le paragraphe suivant, permet de justier le fait que les fonctions de cot
que lon utilise soient des sommes des cots partiels des exemples.
( )
P yk x k , w = z k ( ) (74)
o z k = y k x k w est le champ align (14). Notons que lesprance mathmatique que llve de poids w
fasse une erreur de classification sur lexemple k est :
tk = 0 ( z k ) + 1 ( z k ) . (75)
Lapprentissage statistique
338
xk w w
=
k
est une variable alatoire de moyenne 0,2
w
nulle et de densit de probabilit p(k). Alors, la proba- 0,1
bilit de faire une erreur de classification sur lexemple
k de lensemble dapprentissage scrit : 0,0
6 4 2 0 2 4 6
h
( ) ( )= ( ) d .
k
P + < 0 = P <
k k k k
p k k
(77) Figure 6-22. Comparaison entre une gaussienne
et la distribution de bruit propose dans le texte
Suivant la forme du terme de bruit p(), la probabilit
derreur de classification a des expressions diffrentes. Supposons que p() soit de la forme
p ( ) = ---------------------------
- (78)
2cosh ( )
2
qui est une distribution en forme de cloche, similaire une gaussienne, comme le montre la figure 6-22.
Dans (78), le paramtre joue le mme rle que linverse de la variance de la gaussienne : plus est
grand, plus la distribution (78) est troite. En introduisant (78) dans (77), on obtient lesprance math-
matique de lerreur dapprentissage sur lexemple k en prsence de bruit additif sur les entres :
tk =
1
2
(
1 th k .
) (79)
Remarque 2
2
1
Si lon suppose que le bruit est gaussien, p ( ) = exp 2 , on trouve que lerreur dapprentissage est proportionnelle la fonc-
2 2
tion Erreur. Cette dernire est moins aise traiter numriquement que la tangente hyperbolique, ce qui justie de faire lhypothse (78)
dans les algorithmes dapprentissage.
La discrimination
339
CHAPITRE 6
P ( x, LM ) = P ( x, w ) p ( w LM ) dw (80)
o p(w|LM ) est la probabilit a posteriori (69), qui dpend de lvidence p(LM |w) et de la priori p0(w).
Remarque
Si le classieur lve est dterministe, et si ses poids ont des valeurs wappris, apprises par la minimisation dun cot, comme cest le cas des
( ) ( ) ( )
classieurs considrs dans tout ce chapitre, alors p w LM = w w appris , et P x ,w appris dans (80) est soit 1, soit 0. Pour un lve
( ) ( ) ( ) ( )
perceptron, P x ,w appris = x w appris . Donc, si x w appris > 0 , on a P = +1 x ,w appris = 1 et P = 1 x ,w appris = 0, et symtri-
quement pour x w appris < 0 . La sortie dun perceptron dterministe baysien nest en consquence rien dautre que la sortie du perceptron
simple. Il dpend de lalgorithme dapprentissage par lintermdiaire de lvidence.
Certains classifieurs ne sont pas dterministes. Il en est ainsi si la sortie suit une loi de probabilit P( | x, w)
qui nest pas une fonction Theta, comme nous lavons suppos dans ce chapitre, ou parce quil existe un
ensemble de poids acceptables, dont la distribution p(w|LM) nest pas un pic delta. Ainsi, la sortie dun
perceptron linaire avec lhypothse de bruit additif sur le champ (d des entres bruites) a une
probabilit :
( (
P ( x, LM ) = P x wappris + > 0 ) )
(
= P > x wappris ) (81)
+
= p ( ) d
xwappris
P ( x, L M ) = { wappris ( LM ) }
( )
x wappris dwappris (82)
o lintgrale doit tre calcule sur tous les poids correspondant une erreur dapprentissage nulle.
Comme nous lavons vu dans le chapitre 1 (rgle de dcision de Bayes), le classifieur baysien optimal
classe les entres de faon maximiser la probabilit a posteriori de la classe, P(|x, LM), quation (80).
Dans le cas du perceptron, il attribue chaque nouvel exemple x la classe qui maximise (81), ou (82),
suivant les hypothses faites. Si P(+1|x, LM) > P(1|x, LM), la dcision baysienne optimale est que la
classe de x est = +1, autrement elle est = 1.
Remarque
Dans le cas dun perceptron qui apprend une classication linaire, la dcision baysienne optimale est celle qui classe les nouvelles
entres comme la majorit des vecteurs wappris(LM ).
Lapprentissage statistique
340
( )
lim M t wappris , LM = infw g ( w ) (83)
o wappris est le vecteur des poids du classifieur, par exemple ceux qui minimisent le cot. Si la relation
(83) est vrifie, lerreur dapprentissage est un bon estimateur de lerreur de gnralisation. Dans ce cas,
minimiser la premire est une bonne manire de minimiser la seconde. On peut remarquer que si llve
a une architecture bien adapte la tche, le membre de droite de (83) sannule. Cest en particulier le cas
dun perceptron qui apprend des exemples linairement sparables. Nous avons vu quil y a alors une infi-
nit de poids qui annulent et. On peut dire quil y a un volume fini de solutions wappris dans lespace w.
Dans ce cas, la relation (83) est vrifie par tout algorithme dapprentissage capable de trouver la spara-
tion linaire. Cependant, dans le cas gnral, larchitecture de llve nest pas ncessairement adapte au
problme ; alors infw g(w) 0 et il est difficile dassurer quun algorithme trouvera les poids qui vrifient
(83), surtout sil existe des minima locaux. Puisque lensemble dapprentissage est alatoire, il faut tablir
les conditions gnrales qui assurent la convergence (83) quel que soit LM. Vapnik a tabli que la relation
(83) est vrifie si et seulement si la probabilit du plus grand cart entre les deux membres de (83)
sannule uniformment :
{ }
lim M P sup w, LM g ( w ) t ( w, LM ) > = 0 . (84)
Voici le sens de (84) : supposons que lon dispose de tous les ensembles de M exemples dapprentissage
LM possibles, tirs au hasard avec une probabilit inconnue. Largument entre crochets dans (84) signifie
que lon dtermine, pour chaque LM, la valeur des poids qui correspondent au plus grand cart entre
lerreur t (la fraction dexemples mal classs) et lerreur de gnralisation g. La probabilit P dans (84)
reprsente alors la fraction des ensembles dapprentissage pour lesquels cet cart est suprieur . Il faut
noter que, de cette manire, P est la probabilit du pire cas possible : cest la fraction des ensembles
dapprentissage pour lesquels on peut trouver des poids tels que lerreur dapprentissage soit trs diff-
rente de lerreur de gnralisation. Or, pour avoir confiance dans la qualit de lapprentissage, on veut
sassurer que ces deux quantits soient proches dans tous les cas (cest la raison pour laquelle on consi-
dre le pire des cas). Si la condition (84) de convergence uniforme est vrifie, alors t est une bonne esti-
mation de g quel que soit LM et quel que soit lalgorithme dapprentissage. Elle garantit que lon ne
pourra pas avoir de classifieur pour lequel t est minimum, mais qui, nanmoins, gnralise trs mal, au
moins si le nombre dexemples M est suprieur un certain seuil, car (84) est une loi asymptotique
(valable pour M suffisamment grand). Plus prcisment, Vapnik a tabli lingalit suivante, quel que soit :
La discrimination
341
CHAPITRE 6
{ } ( )
lim M P sup w, LM g ( w ) t ( w, LM ) > 4 exp M 2 G ( 2M ) (85)
o G(2M), appele fonction de croissance (growth function), permet de donner une borne suprieure au
nombre N de dichotomies (sparations en deux sous-ensembles) que le rseau lve peut faire des M
points x1, ..., xM de lensemble dapprentissage. G(2M) est une fonction croissante de son argument, ind-
pendante de la tche raliser ; elle ne dpend que des caractristiques de la machine : le nombre de para-
mtres, le nombre de neurones cachs, etc. Remarquons que, pour que le membre de droite de lquation
(85) soit une borne utile ( 1), il est ncessaire que G(2M)/M < 2. (85) a donc un sens seulement si G
augmente avec M plus lentement quune fonction linaire.
Ainsi, le problme de la convergence uniforme (84), qui garantit gnralisation partir de lapprentissage
de M exemples, est ramen celui qui consiste dterminer la fonction de croissance de la machine,
G(2M). La borne (85) tablit que, si G augmente plus lentement quune fonction linaire du nombre
dexemples M, lerreur de gnralisation est infrieure 1.
La consquence de ces considrations thoriques est quil suffit de connatre la fonction G pour tous les
types de classifieurs. La borne (85) tablit alors le degr de confiance dans la classification de nouvelles
donnes, car comme t et M sont des quantits connues, elle nous permet de borner g.
Dimension de Vapnik-Chervonenkis
tant donn un classifieur, la question qui se pose est celle de savoir comment varie G avec M. Plus prci-
sment, exp G ( M ) est un majorant du nombre de dichotomies N(LM) ralisables par llve. Autrement
dit,
G ( M ) = ln sup LM N ( LM ) . (86)
Il faut donc calculer le nombre de dichotomies de M points que le rseau est capable de faire. Une dicho-
tomie dun ensemble LM de M points est une sparation de LM en deux sous-ensembles. Par exemple, il y
a 2M dichotomies possibles de M points dans lespace des entres. Elles correspondent toutes les
manires possibles dattribuer des classes 1 aux exemples. Si le rseau est capable de les raliser toutes,
alors G(M) = M ln 2 M (o signifie proportionnel), et la borne est compltement inutile. Or, il est
clair que si le nombre de points M est suffisamment petit, mme un perceptron pourra raliser toutes les
dichotomies. Ainsi, comme nous lavons vu dans le chapitre 1, deux exemples dans lespace deux
dimensions sont toujours sparables par un perceptron. Si les exemples sont au nombre de trois, ils sont
sparables, condition quils soient en position gnrale (ce qui signifie quaucun sous-ensemble de plus
de N points ne se trouve sur un mme hyperplan). Au-del de trois points, seule une fraction de toutes les
dichotomies possibles est linairement sparable. Tant que toutes les 2M dichotomies sont ralisables, on
peut dire que le rseau apprend par cur , que G(M) M, et que la borne est inutile.
En gnral, quelle que soit la complexit du rseau lve, il y a un nombre dexemples maximal, MVC,
appel dimension de Vapnik-Chervonenkis, au-del duquel le rseau ne peut raliser quun sous-ensemble
de toutes les dichotomies possibles. Pour M > MVC, G(M) augmente plus lentement avec M, et (85) est
une vraie borne. Voici le comportement de G :
M si M < M VC
G(M ) M . (87)
M VC ln M si M > M VC
VC
Si M < MVC, les donnes de lensemble dapprentissage ne constituent pas une contrainte suffisamment
forte pour apprhender les rgularits de la tche avec le rseau utilis : celui-ci est sur-dimensionn. Il
Lapprentissage statistique
342
est donc trs important de connatre la dimension MVC des rseaux. Pour le perceptron de N entres et un
seuil, on a :
M VC = N + 1 . (88)
En effet, si lon a M exemples apprendre, il faut trouver des poids w qui vrifient les M ingalits
k(w) > 0 (k = 1, ..., M). Or, le nombre maximal dinquations indpendantes compatibles (cest--dire,
qui admettent une solution non triviale) est N + 1. Si lon en compte davantage, le systme dinquations
peut tre incompatible. Donc, pour M > N + 1, on nest pas certain quil y ait une solution quel que soit
lensemble dapprentissage. En fait, il en existe seulement si lensemble dapprentissage est linairement
sparable. Pour des rseaux plus complexes, MVC est en gnral difficile dterminer, et lon nen connat
que des estimations pour certaines architectures de rseaux particulires. Ainsi, pour un rseau une
couche cache de H neurones comportant Nw = (N + 1)H + (H + 1) poids (biais inclus), on a [BAUM
1989]
H
2 N M VC 2 N w log 2 ( eH ) (89)
2
o reprsente la partie entire et e la base du logarithme nprien. Puisquil faut que M << MVC pour
avoir une bonne gnralisation, bien des efforts thoriques ont t consacrs la dtermination de la
dimension de Vapnik-Chervonenkis des rseaux de neurones. Le terme de gauche dans (89) nous dit que,
si lon a M exemples, on doit utiliser un nombre dunits caches H << M/N. Ce rsultat confirme simple-
ment quil faut que le nombre de paramtres du rseau (qui est de lordre de NH) soit trs infrieur au
nombre de donnes.
restreignons dans la suite, ces deux limites concident puisque le nombre de paramtres du rseau est gal
la dimension de lespace des entres.
lordre de 100, le comportement de (91) est dj proche du comportement asymptotique. Cela montre
bien que le calcul des proprits typiques dapprentissage fournit des rsultats utiles dimension N
grande mais finie.
Complments
Bornes du nombre ditrations de lalgorithme du perceptron
Nous allons dtailler le calcul des bornes qui permettent de dmontrer le thorme du perceptron. Pour
tablir une borne infrieure la norme des poids, on tient compte de ce que w* est unitaire, pour crire :
w ( t + 1) = w ( t + 1) w *
(92)
w ( t + 1) w * .
Supposons que lexemple qui a t appris litration t soit k(t). la fin de litration t, le vecteur des
poids w(t + 1) scrit :
k (t) k (t)
w(t + 1) = w(t ) + y x
k (t) k (t) k (t 1) k (t 1)
= w(t 1) + y x +y x
=L (93)
t
y
k (i) k (i)
= x
i=1
o lon a tenu compte de linitialisation w(0) = 0. En prenant le produit scalaire de (93) avec le vecteur
unitaire w*, compte tenu de (92), on dduit la borne infrieure suivante :
t
w ( t + 1) k(i )w *
i =1 (94)
t min ( w *)
o min(w*) est la plus petite stabilit parmi les exemples de LM. Puisque w* est un hyperplan sparateur,
min(w*) > 0.
Par ailleurs, on peut tablir une borne suprieure de ||w(t + 1)||2, partir de lexpression suivante :
(
w ( t + 1) = w ( t ) + y k(t ) x k(t ) w ( t ) + y k(t ) x k(t )
2
)( ) (95)
= w ( t ) + 2 y k(t ) x k(t ) w ( t ) + y k(t ) x k(t ) .
2 2
Le produit crois dans (95) est ngatif. En adoptant la mme dmarche que pour la projection, on a :
w ( t + 1) w ( t ) + x k(t )
2 2 2
L
t (96)
y k(i ) x k(i )
2
i =1
2
t x maax
La discrimination
345
CHAPITRE 6
o lon a utilis le fait que |yk| = 1. ||xmax|| correspond lexemple de LM dont la norme est maximale. La
figure 6-7 illustre la croissance du module du vecteur w au cours de lapprentissage. De (94) et (96) on
dduit
t min ( w *) w ( t + 1) t x max . (97)
D ( m + 1, n ) = D ( m, n ) + D ( m, n 1) . (99)
Compte tenu de (98), on trouve (90).
BUHOT A., TORRES MORENO J. M., GORDON M. B. [1997], Finite size scaling of the Bayesian Perceptron,
Phys. Rev. E 55, p. 7434-7440.
BUHOT A., TORRES MORENO J. M., GORDON M. B. [1997], Numerical simulations of an optimal algorithm
for supervised learning, European Symposium on Artificial Neural Networks, Proceedings, M. Verleysen
d., p. 151-156.
BUHOT A., GORDON M. B. [2000], Storage capacity of a constructive learning algorithm, J. Phys. A 33,
p. 1713-1727.
COVER T. M. [1965], IEEE Trans. Elect. Comp., 14, p. 326-334.
COVER T. M., THOMAS J. A. [1991], Elements of Information Theory, John Wiley.
CYBENKO G. [1989], Approximation by superpositions of a sigmoidal function, Mathematics of Control,
Signals and Sytems 2, p. 303-314.
DIETRICH R., OPPER M., SOMPOLINSKY H. [1999], Statistical Mechanics of Support Vectors Networks,
Phys. Rev. Lett. 82, p. 2975-2978.
DUDA R. O., HART P. E, STORK D. G. [2000], Pattern Classification (Wiley-Interscience)
ENGEL A., BROECK C. [2001], Statistical Mechanics of Learning, Cambridge University Press, ISBN
0521774799, 9780521774796, 329 pages.
GODIN Ch. [2000], Contributions lembarquabilit et la robustesse des rseaux de neurones en envi-
ronnement radiatif, thse de lcole nationale suprieure de laronautique et de lespace.
GORDON M. B., GREMPEL D. [1995], Learning with a temperature dependant algorithm. Europhys. Lett.
29, p. 257-262.
GORMAN, R.P., SEJNOWSKI T.J. [1998], Analysis of hidden units in a layered network trained to clasiffy
sonar targets, Neural Networks 1.
HOPFIELD J. J. [1982], Proc. Natl. Acad. Sci. USA, 79, p. 2554.
KRAUTH W., MZARD M. [1987], Learning algorithms with optimal stability in neural networks, J. Phys.
A 20, L745-L752.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of ideas immanent in nervous activity, Bull. Math.
Biophys 5, p. 115.
MEIR R., FONTANARI J. F. [1992], Learning from examples in weight-constrained neural networks,
J. Phys. A : Math. Gen. 25, p. 1149-1168.
MINSKY M., PAPERT S. [1969], Perceptrons, MIT Press, Cambridge, MA, tats-Unis.
RISAU-GUSMN S., GORDON M. B. [2000a], Understanding stepwise generalization of Support Vector
Machines : a toy model, Advances in Neural Information Processing Systems 12, S. A. Solla, T. K. Leen,
K.-R. Miller (d.), MIT Press, p. 321-327.
RISAU-GUSMN S., GORDON M. B. [2000b], Generalization properties of finite size polynomial Support
Vector Machines, Phys Rev E 62, p. 7092-7099.
RISAU-GUSMN S., GORDON M. B. [2001], Statistical Mechanics of Soft Margin Classifiers, Phys. Rev.
E 64, 031907.
RISAU-GUSMN S. [2001], tude de proprits dapprentissage des machines exemples supports (SVM)
par des mthodes de physique statistique, thse de lUniversit de Grenoble I Joseph-Fourier.
La discrimination
347
CHAPITRE 6
RISAU-GUSMN S., GORDON M. B. [2002], Hierarchical learning in polynomial support vector machines,
paratre dans Machine Learning.
ROSENBLATT F. [1958], The Perceptron : A probabilistic model for information storage and organization
in the brain, Phys. Rev. 65, p. 386.
TORRES MORENO J. M. [1997], Apprentissage et gnralisation par des rseaux de neurones : tude de
nouveaux algorithmes constructifs, thse de lInstitut national polytechnique de Grenoble, disponible sur
le site Web ladresse http://www.professeurs.polymtl.ca/juan-manuel.torres-moreno/homepage/publica-
ciones/doctorado/index.html.
TORRES MORENO J. M., GORDON M. B. [1998], Characterization of the Sonar Signals Benchmark, Neural
Processing Letters 7, p. 1-4.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
7
Cartes auto-organisatrices
et classification automatique
Ce chapitre est consacr la seconde grande famille de rseaux de neurones : les cartes topologiques auto-
organisatrices. Ces dernires font partie de la famille des modles dits apprentissage non supervis ;
par opposition avec les perceptrons multicouches qui ont t prsents prcdemment. Cela signifie que,
dans une premire approche, ces modles seront utiliss dans un but descriptif. Les donnes analyser
sont maintenant constitues dobservations dont on cherche comprendre la structure : il ny a pas de but
prcis atteindre, ni de rponse souhaite.
Les mthodes, dites dapprentissage non supervis , utilises par les modles de cartes topologiques
auto-organisatrices, proviennent des techniques initialement mises au point pour lapprentissage comp-
titif. Parmi les premiers travaux dans le domaine, on peut citer ceux de Didday [DIDDAY 1970] et de von
der Malsburg [VON DER MALSBURG 1973]. Les modles proposs cette poque dfinissent des ensem-
bles de filtres qui effectuent en parallle lanalyse dune mme observation. Pour cette observation, la
rponse produite par chaque filtre est diffrente, et lun des filtres (le gagnant ) produit une rponse
suprieure aux autres. Lapprentissage comptitif favorise alors ce filtre, et cherche le rendre plus
sensible encore lobservation quil vient de gagner . La mme opration est itre pour toutes les
observations de lensemble dapprentissage jusqu stabilisation des valeurs attribues aux diffrents
filtres. Chacun des filtres est, ce stade, rendu sensible un ensemble de caractristiques communes une
partie des observations tudies : il se transforme en dtecteur de caractristiques.
Les cartes topologiques ou cartes auto-organisatrices ont t introduites pour la premire fois par T.
Kohonen en 1981. Les premiers modles cherchaient tout particulirement reprsenter des donnes
multidimensionnelles. Les applications vises devaient pouvoir concerner de trs grands ensembles de
donnes, pour lesquelles les observations traites pouvaient atteindre de grandes dimensions. Afin de
rpondre ces critres, la visualisation par cartes topologiques envisage par Kohonen cherche, par
apprentissage partir des donnes, partitionner lensemble des observations disponibles en groupe-
ments similaires. Les groupements proposs possdent la particularit caractristique davoir une struc-
ture de voisinage qui peut tre matrialise laide dun espace discret que lon appelle carte
topologique . Il sagit le plus souvent dun treillis de faible dimension (grille 1D, 2D ou 3D) sur lequel
les structures de voisinages sont prises en considration par le modle.
La particularit la plus importante des cartes auto-organisatrices est quelles rendent possible la compa-
raison des groupements qui ont t raliss directement partir des donnes. Une observation est affecte
un groupe qui est projet en un nud de la carte. La comparaison des projections lies deux observa-
tions distinctes permet dapprcier la proximit des groupes dont elles sont issues. Les observations
semblables ont la mme projection ; si les projections sont diffrentes, la dissemblance grandit avec
la distance qui existe entre les projections ; cette distance est calcule sur la carte. Ainsi, lespace des
Lapprentissage statistique
350
sous-ensembles sidentifie la carte, et il est possible, dune certaine manire, de regarder simultanment
lespace des sous-ensembles et celui des observations.
Classification automatique et cartes auto-organisatrices sont proches, puisque la plupart des mthodes de
classification automatiques cherchent regrouper les donnes similaires , ce dernier mot signifiant
dans ce cas proche pour le domaine dapplication dont les donnes sont issues et pour la mtrique utilise.
La notion dordre topologique constitue lapport des rseaux de neurones apprentissage non supervis
au domaine de la classification automatique, qui est un des grands thmes abords en analyse des donnes
[DUDA et al. 1973], [JAIN et al. 1988], [SAPORTA 1990].
Toutes les mthodes de classification automatique, si lon considre les systmes de dcision actuels,
permettent daborder aussi des tches de type supervis. Une grande partie des applications qui ont t
dveloppes laide des cartes auto-organisatrices sont des classifieurs, certaines effectuent mme des
tches de rgression. Cela peut sexpliquer de plusieurs manires :
des modifications simples de lalgorithme de base permettent de lutiliser en tant qualgorithme super-
vis [CERKASSKY et al. 1991] ;
les rsultats des algorithmes non superviss peuvent facilement tre intgrs dans des chanes de
traitement concernant les mmes domaines applicatifs que ceux qui sont abords par les perceptrons
multicouches. Les cartes auto-organisatrices sont utilises pour effectuer un prtraitement des donnes.
Les informations extraites par les cartes peuvent alors tre facilement employes par dautres algo-
rithmes (rgression, classification) dune manire spcifique.
La discrimination (ou classification supervise ), prsente au chapitre 6, et la classification non
supervise sont en fait complmentaires. On peut considrer, dans un certain sens, que toutes les appli-
cations que lon cherche rsoudre utilisent une proportion dinformation supervise . Avant dutiliser
un systme, il faut le valider, ce qui sous-entend que lon a recours un expert capable de juger des rsul-
tats. Il existe donc toujours un certain nombre de donnes expertises pour lesquelles la rponse
dsire est connue. Ces donnes peuvent tre utilises pour faire progresser les modles non super-
viss. Si lon possde beaucoup dexpertise on peut lintroduire ds le dbut de lanalyse en recourant aux
formes supervises des cartes auto-organisatrices. En revanche, si lexpertise nest disponible quen petite
quantit, elle ne peut servir qu linterprtation des rsultats. Cette seconde possibilit conduit se servir
du groupement produit par les cartes auto-organisatrices et le faire suivre dune phase dintroduction
dexpertise. Lapproche est alors squentielle : on cherche dabord une partition de lespace des donnes,
la reconnaissance nintervenant que dans une seconde phase.
La suite de ce chapitre prsente les cartes topologiques auto-organisatrices et leurs fondements tho-
riques. Ces algorithmes sont prsents en utilisant un formalisme unifi qui permet de faire le lien avec
les mthodes danalyse des donnes dont elles dcoulent. Les algorithmes de cartes auto-organisatrices
peuvent tre vus comme des extensions dalgorithmes trs connus du domaine de la reconnaissance des
formes et de la classification automatique. Ce formalisme est lgrement diffrent de celui qui est
employ dans les premiers modles proposs par Kohonen. Tous les liens qui permettent de situer les
diffrentes versions de lalgorithme initial seront prsents. Un paragraphe dtaille les mthodologies
possibles dintroduction dexpertise qui font suite lapprentissage non supervis .
Ce chapitre a galement un but pratique : il prsente donc deux tudes dtailles de cas rels. Les domaines
dapplication qui comptent des ralisations fondes en grande partie sur les mthodes de cartes auto-organi-
satrices sont trs nombreux. Plusieurs livres rcents prsentent ces applications [OJA et al. 1999], [KOHONEN
2001]. Un article prsente une bibliographie complte de tous les articles parus entre 1981 et 1997 ([KASKI
et al. 1998] www.icsi.berkeley.edu/ jagota/NCS/). Le site de lUniversit de Helsinki (http://www.cis.hut.fi/research/
som-research/) aborde des thmes trs divers : vision, analyse dimage, compression dimage, imagerie mdi-
cale, reconnaissance de lcriture, reconnaissance de la parole continue, analyse du signal, de la musique,
commande de processus, robotique, recherche sur le Web, etc.
Cartes auto-organisatrices et classification automatique
351
CHAPITRE 7
Notations et dfinitions
Ce paragraphe introduit les notations utilises dans lensemble de ce chapitre. Lensemble reprsente
lespace des observations ; les observations sont supposes relles et de dimension multiple ; on suppose
que lespace des observations est de dimension n et que Rn. Chaque vecteur de correspond un
codage particulier des individus issus dune population donne. On suppose, par la suite, que lon dispose
dobservations correspondant N individus, reprsentes par le sous-ensemble = {zi; i = 1, ..., N} de
. On fait, bien entendu, lhypothse que est reprsentatif de la population en cours dtude, et quil
constituera lensemble dapprentissage permettant destimer les paramtres des diffrents modles.
Lensemble de toutes les mthodes prsentes cherchent, dans un premier temps, rduire linformation
contenue dans ; elles le font :
en la rsumant sous la forme dun ensemble = {wc; c = 1, ..., p} de p vecteurs de ; ces vecteurs de
dimension n seront appels les rfrents dans toute la suite du chapitre ;
en dfinissant une fonction daffectation qui est une application de dans lensemble des indices
{1, ..., p} ; cette fonction permet de raliser une partition P = {P1, ..., Pc, ..., Pp} de en p sous-ensem-
bles, Pc = {z /(z) = c}.
La figure 7-1 montre le principe gnral de la Ensemble
modlisation : une observation z est associe un des indices
indice c choisi parmi p laide de la fonction ; cet
indice permet de dfinir le rfrent wc. On peut donc Observation z 1 2 . . . c . . . p
considrer que le vecteur rfrent wc est un reprsentant Rfrent w (z)= w
c
de lensemble Pc dont il rsume lensemble des obser-
vations. Dans la suite de lexpos, on utilisera selon le
cas wc ou son indice c pour reprsenter le sous-
ensemble des observations de Pc. Les paramtres des Espace des observations
et des rfrents
diffrents modles tant estims partir des observa-
tions de lensemble dapprentissage , on note nc le Figure 7-1. Principe gnral de la modlisation :
une observation z est associe un indice c choisi
nombre dobservations de qui appartiennent Pc. parmi p laide de la fonction ; cet indice permet
La connaissance de lensemble des vecteurs rfrents de dfinir le rfrent wc.
et de la fonction daffectation dtermine ce que
lon appelle une quantification vectorielle. Pour lensemble des mthodes prsentes, la dtermination de
et de se fait par minimisation dune fonction de cot. Celle-ci est diffrente pour chaque mthode :
elle traduit les caractristiques propres de la quantification que lon va obtenir. La quantification vecto-
rielle est utilise pour affecter une observation z son rfrent w(z) ; (z) reprsente lindice du
Lapprentissage statistique
352
rfrent auquel est associe lobservation z. La connaissance de la fonction permet donc, au-del de la
quantification vectorielle, de dfinir la partition P de en p sous-ensembles.
Bien que la fonction de cot change pour chaque mthode, les diffrentes mthodes partagent un certain
nombre de caractristiques communes. Dans la suite de ce chapitre, on utilisera le plus souvent le forma-
lisme des nues dynamiques qui procde par itrations successives. Chaque itration est constitue de
deux tapes : une tape de minimisation qui permet de dterminer les rfrents, une tape daffectation
qui redfinit la fonction daffectation. Dans le cas o les deux tapes rpondent certains critres, ce
formalisme assure que la fonction de cot dcrot et converge vers un minimum local. Celui-ci dpend
fortement des vecteurs rfrents que lon a choisis pour initialiser la procdure de minimisation.
Lalgorithme des k-moyennes est un algorithme de classification automatique trs ancien qui est lorigine
des cartes auto-organisatrices. La section qui suit prsente cet algorithme sous sa forme la plus classique,
ainsi que diffrentes variantes permettant dexpliquer les liens avec les cartes auto-organisatrices.
Pour toutes les mthodes, nous commencerons par dcrire la version la plus classique des algorithmes.
Nous prsenterons ensuite les formes drives les plus connues (stochastiques ou probabilistes).
Prsentation de lalgorithme
La mthode des k-moyennes, qui est la mthode de quantification vectorielle la plus connue, dtermine
lensemble des vecteurs rfrents ; et la fonction daffectation , en minimisant la fonction de cot :
. (1)
Lexpression :
reprsente linertie locale, par rapport au rfrent wc, des observations de lensemble dapprentissage
qui lui sont affectes ; ces observations appartiennent donc au sous-ensemble Pc. Linertie Ic reprsente
lerreur de quantification obtenue quand on dcide de remplacer les observations de Pc par le rfrent wc
qui les reprsente. La quantit I(, ) que lon cherche minimiser reprsente la somme des inerties
locales Ic. Pour procder la minimisation de I(, ), il faut faire apparatre la fonction daffectation ;
la quantit que lon cherche minimiser scrit alors :
. (2)
Lalgorithme prsent procde dune manire itrative, chaque itration comportant deux phases. La
premire phase minimise I(, ) : en supposant les valeurs des rfrents fixes aux valeurs calcules
prcdemment, elle calcule une valeur de la fonction . La seconde phase suppose que la fonction daffec-
tation est fixe la valeur qui vient dtre calcule ; elle minimise alors la fonction I(, ) par rapport
aux paramtres . En procdant ainsi en deux phases, on fait dcrotre la valeur de I(, ) chaque
itration.
Cartes auto-organisatrices et classification automatique
353
CHAPITRE 7
(4)
Il existe pour cet algorithme une preuve de convergence. Si lon applique la fonction daffectation
calcule durant la premire phase, une observation z ne change de sous-ensemble que si sa contribution
linertie totale, calcule en fonction du systme de rfrents , diminue. Cette inertie totale est donc inf-
rieure la valeur courante de I(, ). La seconde phase redfinit lensemble des valeurs des rfrents.
Chaque rfrent wc calcul partir de lquation (4) dfinit le centre de gravit de lensemble des obser-
vations de Pc , ce qui entrane la dcroissance de I(, ) qui reprsente linertie par rapport aux
centres de gravit de la partition P. Lalternance des deux phases fait dcrotre chaque itration la fonc-
tion I(, ). Lexpression (1) montre que I(, ) sexprime en fonction de la trace de la partition P sur
lensemble ; cette trace correspond une partition de . Le nombre de partitions de tant fini, le
processus itratif se stabilise vers un minimum local de la fonction I(, ) par rapport lensemble des
vecteurs rfrents et la fonction daffectation.
Sur le plan algorithmique, lalgorithme des k-moyennes se rsume de la manire suivante :
1. Phase dinitialisation : t = 0, choisir les p rfrents initiaux (en gnral dune manire alatoire),
fixer le nombre maximal ditrations Niter.
2. tape itrative : litration t, lensemble des rfrents t-1 de ltape prcdente sont connus :
Phase daffectation : mise jour de la fonction daffectation t associe t-1 : on affecte chaque
observation z au rfrent dfini partir de lexpression (3).
Phase de minimisation : calcul des nouveaux rfrents t en appliquant lquation (4).
3. Rpter ltape itrative jusqu ce que lon atteigne k > Niter itrations ou une stabilisation de I.
Lapprentissage statistique
354
Lalgorithme des k-moyennes peut tre considr comme tant un algorithme de type nue dynamique
qui est une mthode gnrale permettant dobtenir un minimum local dun critre optimiser. Cette
mthode repose sur lutilisation de deux entits : lensemble des partitions, en p sous-ensembles, de
lespace des donnes, et lespace des reprsentations (qui peut tre diffrent de lespace de donnes).
Ainsi, un sous-ensemble Pk sera reprsent par un lment wk qui sera son reprsentant dans .
Ladquation dune donne x un reprsentant donn wk sera quantifie par une fonction positive d, ainsi
plus d(x, wk) est petite, plus x est en adquation avec le reprsentant wk. Il sagit donc de dfinir une parti-
tion en p sous-ensembles P = {Pk/k = 1...p} de lespace de donnes et un ensemble de p reprsentants
W = {wk/k = 1...p} qui minimisent un critre donn. Ce dernier sera dfini par lintermdiaire dun
ensemble dapprentissage de la manire suivante :
. (5)
Lalgorithme des nues dynamiques minimise cette fonction dune manire itrative en commenant par
un choix des p reprsentants initiaux. Chaque itration est dcompose en deux phases : en premier lieu,
une phase daffectation, qui consiste minimiser par rapport la partition et en supposant que les repr-
sentants courants (dtermins litration prcdente) sont constants ; en second lieu, une phase de mini-
misation, qui consiste minimiser par rapport aux p reprsentants et en supposant que la partition est
fixe celle qui est obtenue litration prcdente. Il est alors facile de voir que cet algorithme dcrot
la valeur de chaque itration et que lalgorithme converge vers un minimum local. Ainsi, dans le cas
des k-moyennes, les rfrents constituent les reprsentants et la distance euclidienne correspond la fonc-
tion d.
Dans cette version de lalgorithme des k-moyennes, la fonction de cot que lon minimise est toujours
donne par la relation (1) ; le calcul des vecteurs rfrents effectu chaque itration (quation 4) est
remplac par :
Cartes auto-organisatrices et classification automatique
355
CHAPITRE 7
(7)
On reconnat ici la minimisation par mthode du gradient simple, prsente au chapitre 2. La fonction
daffectation t qui apparat dans lexpression du gradient est celle qui est dfinie dans la phase daffecta-
tion de litration t, la quantit t reprsente le pas de la correction pour litration t, le rfrent wct - 1 est
celui qui a t calcul litration prcdente. Cette mthode de minimisation nest pas adaptative, car
elle fait intervenir la fonction I(, ), et donc la globalit de la base dapprentissage .
La version adaptative, ou stochastique, de lalgorithme des k-moyennes est une adaptation de la minimi-
sation non adaptative qui vient dtre prsente. La minimisation de I(, ) seffectue maintenant dune
manire stochastique : on envisage sparment les diffrents termes de la somme qui apparaissent dans
lexpression (1). chaque itration, une seule observation zi de la base dexemples est prsente ; elle
entrane la correction du vecteur rfrent w(zi) le plus proche. Cela revient faire dcrotre le seul terme
||zi wt(zi)||2 de la fonction I(, ) par une mthode de gradient ; la sommation disparat de lexpression
de la drive partielle du gradient (7). On utilise maintenant le gradient partiel 2(w(zi)t - zi) et lon modifie
le rfrent de w(zi) en appliquant la rgle :
. (8)
Un bon minimum sobtient en prsentant chacune des observations de un grand nombre de fois (Niter
suffisamment grand). Dans la formule de modification des vecteurs rfrents, le pas de gradient t dcrot
avec les itrations. Au dbut de lalgorithme, la valeur de t est relativement grande et la dcroissance de
la fonction I(, ) nest pas strictement assure. Par la suite, le pas de gradient t devient suffisamment
petit : la modification des rfrents chaque itration est petite. ce stade, il faut un cumul de plusieurs
modifications avant de faire apparatre une modification apprciable de la fonction I : dans ce cas, il ny a
plus de diffrence entre le gradient total et le gradient partiel. Lalgorithme stochastique (8) prsente alors
le mme comportement que la version classique de lalgorithme des k-moyennes. Lalgorithme stochas-
tique montre que la mthode des k-moyennes peut tre prsente comme une mthode comptitive, o
chaque observation de lensemble dapprentissage attire vers lui le rfrent le plus proche. Le fait de
prsenter un grand nombre de fois chacune des observations, joint la dcroissance du pas de gradient t,
permet de trouver une bonne partition P et de placer les vecteurs rfrents aux centres de gravit des sous-
ensembles de cette partition.
Sur le plan algorithmique, lalgorithme stochastique des k-moyennes se rsume de la faon suivante :
1. Phase dinitialisation : t = 0,
choisir les p rfrents initiaux (en gnral, dune manire alatoire),
fixer le nombre de passage de la base dexemples Niter, la valeur initiale et la loi de dcroissance du pas
de correction t.
2. tape itrative t : lensemble des rfrents t-1 de ltape prcdente tant connus, choisir une
observation zi (de manire alatoire ou squentielle), calculer le pas du gradient t.
Phase daffectation : on suppose t-1 connu. On affecte zi au rfrent le plus proche parmi ceux de
t 1, ce qui dfinit la nouvelle fonction daffectation t.
Phase de minimisation : calcul du nouveau rfrent de wt(zi) en appliquant lquation (8).
3. Rpter ltape itrative jusqu atteindre k > Niter N itrations ou une stabilisation de I.
Lapprentissage statistique
356
Le pas du gradient t doit tre une fonction dcroissante du nombre ditration t. Elle peut tre constante
par morceau, gale 1 ( t ) ou prendre dautres formes.
1 (b)
40 itrations
1
0.8
0.8
0.6
0.6
0.4
0.2 0.4
0 0.2
-0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 0
(a)
-0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 -0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
(c) (d)
Figure 7-2. Exemple dapplication de lalgorithme des k-moyennes : sensibilit aux conditions initiales et au nombre de rf-
rents. On a reprsent sur la mme figure les observations et les vecteurs rfrents. (a) Ensemble dapprentissage A, les
donnes sont engendres, dune manire quiprobable, partir de quatre gaussiennes. (b) volution de deux rfrents initia-
liss en bas et droite de la figure. Chaque rfrent capte les observations issues de deux gaussiennes. Les figures (c) et (d)
reprsentent lvolution de quatre rfrents initialiss de deux manires diffrentes. (c)Les rfrents sont initialiss au centre
de la figure ; ils captent chacun les observations issues dune gaussienne. (d) Les quatre rfrents sont initialiss en bas et
droite de la figure ; trois rfrents se partagent les observations lies deux gaussiennes ; le dernier rfrent capte celles qui
sont issues des deux autres gaussiennes.
Les trois expriences qui suivent, et qui sont prsentes sur la figure 7-2, permettent de comprendre
lvolution de lalgorithme des k-moyennes, quil sagisse de lalgorithme classique ou de sa version
stochastique. Elles illustrent en particulier la sensibilit de la solution trouve par rapport aux paramtres
de lalgorithme qui sont le nombre de rfrents et leur initialisation. Pour ces expriences, les observa-
tions ont t engendres partir de distributions gaussiennes, sphriques, dcart-type = 0.1. La
Cartes auto-organisatrices et classification automatique
357
CHAPITRE 7
premire exprience recherche une partition deux classes et montre lvolution des rfrents qui vont
capter les observations issues des quatre distributions gaussiennes. Durant lapprentissage, les deux rf-
rents sont attirs par les deux blocs constitus par les deux gaussiennes de gauche et de droite. Ils se stabi-
lisent au centre des observations qui forment les deux blocs. La deuxime exprience utilise les mmes
observations, et cherche localiser quatre rfrents initialiss de deux manires diffrentes : au centre, la
premire fois, en bas et droite, la seconde. La position, symtrique par rapport au problme, permet de
retrouver les quatre classes formes par les quatre gaussiennes, la seconde initialisation conduisant trois
rfrents recouvrir les deux gaussiennes de droite et le dernier dentre eux regrouper les deux autres.
. (9)
Chaque fonction densit normale fc admet wc comme vecteur moyenne et c comme matrice de variance-
covariance ; elle est donc dfinie par :
. (10)
Le modle de mlange de lois normales est un formalisme gnral qui permet de modliser des lois de
probabilits complexes [DUDA et al. 1973]. Lhypothse du mlange suppose implicitement que chaque
observation est issue de lun des p phnomnes alatoires cachs, reprsents par les densits normales fc
et pouvant se raliser avec la probabilit a priori c. Ce modle suppose donc que les donnes soient
engendres en procdant dabord au tirage de lune des p densits normales suivant les probabilits
discrtes c, et en tirant ensuite lobservation suivant la densit choisie. Ce modle donne une reprsenta-
tion des observations de sous la forme de p sous-ensembles, o le sous-ensemble dindice c contient un
nombre de lordre de cN observations. Les observations sont rparties autour du vecteur moyenne wc et
ont une forme ellipsodale dfinie par les vecteurs propres et les valeurs propres de la matrice de variance-
covariance c. Ce modle de mlange est gnral puisquil permet, en choisissant convenablement le
nombre p et les diffrents paramtres des gaussiennes, dapprocher nimporte quelle fonction densit. En
utilisant cette modlisation, on peut donner une expression analytique de la rpartition gomtrique des
donnes de lensemble .
En plus de ce formalisme, le passage linterprtation probabiliste de lalgorithme des k-moyennes
demande dintroduire des hypothses supplmentaires :
1
Les probabilits a priori c (dfinition 9) sont toutes gales ---
P
Les p fonctions normales fc ont des matrices de variance-covariance identiques, gales 2I, o I repr-
sente la matrice unit et est lcart-type considr constant pour toutes ces lois normales. Dans ce cas,
les densits ont pour expression :
. (11)
Lapprentissage statistique
358
Lensemble est un chantillon dont toutes les observations sont tires de manire indpendante ; elles
proviennent dune variable alatoire de densit p(z).
Lintroduction de ces hypothses restreint le domaine de validit de linterprtation. Elle suppose que les obser-
vations de soient regroupes autour de leurs moyennes en p groupes. Ces groupes sont supposs avoir
chacun une enveloppe sphrique ayant approximativement un mme nombre dlments et une mme rparti-
tion.
La version probabiliste de lalgorithme des k-moyennes cherche estimer les vecteurs moyens wc et
lcart-type commun ces fonctions densits en essayant de rendre la ralisation de lchantillon de
lensemble le plus probable possible. Cette mthode, dite du maximum de vraisemblance, consiste
maximiser la probabilit p(z1, z2, ..., zN ) de ces observations (elle est appele aussi la vraisemblance). Si
lon tient compte de lindpendance des observations, on obtient :
. (12)
Comme dans le paragraphe prcdent, lutilisation dune fonction daffectation note permet daffecter
lobservation zi son gnrateur alatoire (lune des composantes du mlange). La fonction dfinit donc
une partition de lensemble dapprentissage . Si lon dfinit la vraisemblance classifiante par
lexpression :
(13)
. (14)
par rapport . Cette expression est minimale lorsque la drive est nulle, ce qui donne :
On voit donc que lalgorithme des k-moyennes peut sinterprter conjointement la version probabiliste qui
vient dtre prsente. La minimisation de la fonction I(, ), qui correspond lalgorithme des k-moyennes,
contient implicitement la recherche dun modle probabiliste dont les hypothses sont trs restrictives. Linter-
prtation probabiliste de lalgorithme peut tre donne partir des paramtres qui sont dtermins au moment
de la convergence. Comme cela a t soulign plus haut, la densit des donnes est suppose avoir la forme
dun mlange trs particulier de densits normales. Les hypothses probabilistes sous jacentes sont trs contrai-
gnantes puisquelles supposent que les matrices de variance-covariance soient toutes identiques, diagonales et
gales 2I. Dun point de vue gomtrique, cet algorithme donne donc une reprsentation particulire des
observations : il suppose que les donnes sont rparties dune manire quiprobable en p groupes ayant comme
Cartes auto-organisatrices et classification automatique
359
CHAPITRE 7
centre les vecteurs de et quils ont tous une forme sphrique de mme rayon. Cette interprtation ne corres-
pond pas ncessairement la ralit, ce qui constitue une limitation de lalgorithme des k-moyennes.
Figure 7-3. Exemple
(a) (b) dapplication de lalgo-
0.8 0.8 rithme des k-moyennes
sur des observations
0.6 0.6 distribues selon deux
lois normales de
matrice de variance-
0.4 0.4 covariance diffrentes
et non sphriques. Les
0.2 0.2 croix reprsentent la
position des rfrents.
(a) Ensemble dappren-
0 0 tissage . (b) Repr-
sentation des deux
0.2 0.2 rfrents et des deux
sous-ensembles obtenus
aprs convergence de
0.4 0.4 lalgorithme ; ces deux
sous-ensembles sont
0.6 0.6 spars par la droite
oblique. Les deux
classes sous-jacentes
0.8 0.8 nont pas t trouves.
0.6 0.4 0.2 0 0.2 0.4 0.6 0.4 0.2 0 0.2 0.4
gaussienne de gauche appartiennent aux sous-ensembles attachs aux quatre rfrents reprsents sur la
figure 7-4, et le dernier sous-ensemble (et son rfrent) permet de retrouver les observations issues de la
seconde gaussienne. Le problme qui se pose alors est de retrouver les deux classes en regroupant les cinq
sous-ensembles de la partition qui a t propose par lalgorithme des k-moyennes. Cela peut se faire en
utilisant dautres mthodes danalyse des donnes comme la classification hirarchique. Cette mthodologie
sera aborde dans la section Classification et carte topologique consacre lintroduction dexpertise.
Pour retrouver directement les deux distributions, il faut lever la contrainte sur lisotropie des matrices de
variance-covariance, impose par la modlisation prcdente. Cela peut se faire en supposant que les
diffrentes matrices de variance-covariance c des diffrentes gaussiennes fc sont quelconques (sym-
triques dfinies positives). Il faut alors estimer les ( n ( n 1 ) ) 2 coefficients de chaque matrice c ainsi
que les vecteurs moyens wc. Ce modle plus complexe contient bien plus de paramtres ; ces derniers
peuvent tre estims en minimisant la vraisemblance au moyen de lalgorithme EM (Expectation Maxi-
misation), voir [DEMPSTER et al. 1977].
voisinage dordre 1 de c
c1 c4
c c2
c3
c
Figure 7-5. Reprsentation de la topologie discrte dune carte topolo-
gique deux dimensions constitue de 10 10 neurones ; chaque point de
la figure reprsente un neurone c. La distance entre deux neurones est
dfinie sur le maillage. (a) reprsente V c(1),V c(2), V c(3) qui sont les
voisinages du neurone c dordre 1, 2 et 3, (b) prsente quelques distances
entre les neurones : (c, c1) = 4, (c, c2) = 1, (c, c3) = 2, (c, c4) = 3.
Les cartes utilises dans la pratique sont le plus souvent des treillis rguliers dont chaque nud est occup
par un neurone ; la notion de distance entre neurones ou de voisinage dcoule alors directement de cette
structure graphique, et dfinit la topologie discrte de la carte. La figure 7-5 prsente lensemble de ces
notions de distance et de voisinage pour une carte topologique constitue par un treillis deux dimensions.
Pour les cartes auto-organisatrices, comme pour les k-moyennes, on veut associer chaque neurone de
un vecteur rfrent wc de lespace des donnes . Lapprentissage effectu par les cartes auto-organisa-
trices fait en sorte que ces vecteurs rfrents captent au mieux la densit de probabilit sous-jacente aux
observations. Il introduit une contrainte supplmentaire lie la conservation de la topologie de la carte,
et impose que deux neurones c et r, voisins par rapport la topologie discrte de la carte, soient asso-
cis deux vecteurs rfrents wc et wr, proches par rapport la distance euclidienne sur .
On voit dans cette brve description que lalgorithme des cartes auto-organisatrices est une extension de
lalgorithme des k-moyennes : comme lui, il minimise une fonction de cot convenablement choisie.
Cette fonction de cot doit tenir compte, dune part, de linertie interne de la partition dans lespace , et
chercher, dautre part, assurer la conservation de la topologie. Une manire de raliser ce double objectif
consiste gnraliser la fonction dinertie utilise par lalgorithme des k-moyennes en introduisant dans
lexpression de cette fonction des termes spcifiques qui sont dfinies partir de la carte. Cela est ralis
par lintermdiaire de la distance dfinie sur la carte et de la notion de voisinage qui lui est attache.
La notion de voisinage peut tre introduite laide de fonctions noyaux positives et symtriques
K ( lim k ( x ) = 0). Ces fonctions permettent dintroduire des zones dinfluence autour de chaque neurone c.
x
Les distances (c, r) qui lient le neurone c aux autres neurones (r) de la carte permettent de faire varier
linfluence relative des diffrents neurones : cette importance est quantifie par K((c, r)).
Afin de grer la taille du voisinage, on utilise la famille de fonction KT paramtre par T :
. (15)
i
Position de la cellule i (i,j)
La figure 7-6 prsente les fonctions noyaux qui sont le plus utilises dans la pratique :
K() = 1 si < 1 Ainsi KT () = 1 si < T ;
0 sinon 0 sinon
K() = exp( ) do KT () = exp --------- ;
T
Lapprentissage statistique
362
2
K() = exp(2) do KT () = exp ---------2 .
T
La figure 7-7 prsente les courbes associes diffrentes fonctions noyaux K pour diffrentes valeurs du
paramtre T. Il est clairement possible, en choisissant une valeur en dessous de laquelle on considre que
linfluence dun neurone sur un autre est nulle (KT () < ), de dterminer, pour chaque valeur de T, la taille
du voisinage significatif, associ un neurone. Pour un neurone c, cette zone dinfluence est dfinie par V cT
= {r /KT ((c, r)) > }. La figure 7-7 montre que la taille du voisinage dcrot avec la valeur de : plus
le paramtre T est petit, plus le nombre de neurones inclus dans le voisinage VcT est rduit.
1
1 (b)
(a) 0.9
0.9
0.8
0.8
0.7
degr de voisinage
0.7
degr de voisinage
0.6
0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
distance distance
Figure 7-7. Familles de fonctions noyaux utilises pour grer le voisinage de la carte ; laxe des abscisses reprsente la
distance sur la carte (longueur du plus court chemin sur le graphe entre les neurones). Les diffrentes courbes reprsentent
la fonction pour des valeurs diffrentes du paramtre T : du haut vers le bas, T prend les valeurs de 10 1 ; (a) KT ((c1, c2))
= exp(-0.5 * (c1, c2T) (b) KT ((c1, c2)) = exp(-0.5 * 2(c1, c2T2).
Les algorithmes des cartes auto-organisatrices minimisent une fonction de cot dont le minimum fournit
une partition forme de sous-ensembles qui sont suffisamment compacts, mais pour lesquels on est capable de
dfinir un ordre induit partir de la topologie de la carte. Cette fonction, que nous noterons JTsom dans la
suite du chapitre, remplace la fonction I introduite dans le paragraphe prcdent. La fonction JTsom que lon
considre ici est celle qui a t propose pour le modle le plus classique de cartes auto-organisatrices ;
elle a pour expression :
. (16)
Dans cette expression, reprsente une fonction daffectation, et lensemble des p vecteurs rfrents
qui forment la carte. Lexpression (zi) reprsente le neurone particulier de la carte C qui est affect
lobservation zi, et (c, (zi)) reprsente la distance sur la carte C entre un neurone c quelconque et le
neurone (zi) affect lobservation zi. De la mme manire que pour lalgorithme des k-moyennes, on
peut reprsenter dune faon schmatique les liens existant entre la carte et lespace des observations. La
figure 7-8 montre que les principes des deux algorithmes sont trs proches ; la grande diffrence vient de
ce que lensemble des indices prsents la figure 7-1 est remplac par les indices ordonns de la carte.
Lexpression (16) est une extension de la fonction de cot des k-moyennes (1), dans laquelle la distance
euclidienne dune observation zi son rfrent w(zi) est remplace par une distance gnralise, note dT,
qui fait intervenir tous les neurones de la carte :
Cartes auto-organisatrices et classification automatique
363
CHAPITRE 7
. (17)
Cette phase permet de dfinir une fonction daffectation et une partition de lensemble des donnes .
Chaque observation z est affecte au rfrent le plus proche au sens de la distance pondre dT (17).
Phase de minimisation. Il sagit maintenant de minimiser la quantit JTsom par rapport lensemble des rf-
rents . Cette minimisation est effectue en gardant la fonction daffectation fixe et gale la fonction
calcule durant la phase prcdente. La fonction JTsom tant convexe par rapport aux paramtres , la mini-
misation est obtenue pour la valeur qui annule la drive, ce qui dfinit lensemble des nouveaux rfrents :
(19)
o Zr = z
z i A ; (z i) = r i
reprsente la somme de toutes les observations de lensemble dapprentissage
Lapprentissage statistique
364
qui ont t affectes au neurone r. On remarque que chaque rfrent wc ainsi recalcul est le barycentre
des vecteurs moyens Z r n r des sous ensembles Pr et que chaque barycentre est pondr par la
valeur K((c, r))nr.
Sur le plan algorithmique, la version nue dynamique des cartes topologiques pour une valeur de T
fixe se rsume de la manire suivante :
1. Phase dinitialisation : t = 0 Choisir les p rfrents initiaux (en gnral, dune manire alatoire),
la structure et la taille de la carte, le nombre ditrations Niter.
2. tape itrative t. Lensemble des rfrents t-1 de ltape prcdente est connu,
phase daffectation : mise jour de la fonction daffectation t associ Wt-1. On affecte chaque
observation zi au rfrent dfini partir de lexpression (18) ;
tape de minimisation : appliquer lquation (19) afin de dterminer lensemble des nouveaux rfrents t .
3. Rpter ltape itrative jusqu ce que lon atteigne Niter itrations ou une stabilisation de JTsom.
1 1 0 itrations
Figure 7-9.
Ensemble des
observations et
0.8 0.8
ordre initial
alatoire induit
sur la carte entre
0.6 0.6 les rfrents.
0.4 0.4
0.2 0.2
0 0
0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Comme dans le cas de lalgorithme des k-moyennes, ltude du comportement de lalgorithme des cartes
auto-organisatrices sur des exemples simples permet de comprendre les difficults de mise en uvre qui
peuvent survenir. Lexprience qui suit illustre le rle de la valeur du paramtre T dans la minimisation. Les
donnes utilises sont celles de la figure 7-2 prsentes plus haut au paragraphe ddi lalgorithme des k-
moyennes : les observations sont qui-rparties entre quatre distributions normales qui se recouvrent
partiellement deux deux. Dans la figure 7-9, les rsultats (ordre topologique et quantifications) sont
montrs dans lespace des observations, en utilisant les reprsentations introduites par Kohonen. On a
reprsent simultanment sur la mme figure les observations et les rfrents ; on peut voir galement
lordre induit par la carte sur les rfrents : les rfrents qui reprsentent des neurones voisins directs sur le
graphe de la carte sont relis sur la figure. La figure 7-9 prsente lensemble des observations, et lordre
initial induit par la carte. Les rfrents ont t initialiss dune manire alatoire au centre du nuage
dobservations selon une gaussienne dcart-type 0,01 : on ne peut observer aucun ordre entre les rfrents.
Cartes auto-organisatrices et classification automatique
365
CHAPITRE 7
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Figure 7-11. Reprsentation de lordre induit par la carte topologique pour deux dcroissances diffrentes de T, une mme
initialisation alatoire au centre du nuage et un mme intervalle de croissance.
La figure 7-11 met en vidence limportance de la loi de dcroissance sur la carte obtenue. Sur cette
figure, on observe lordre induit sur les rfrents pour un mme ensemble dobservations, une mme
initialisation alatoire au centre du nuage dobservations, et un mme intervalle de dcroissance. On
Cartes auto-organisatrices et classification automatique
367
CHAPITRE 7
observe que si la dcroissance est rapide lordre se forme mal et les relations de voisinage ne reprsentent
pas lordre des sous-ensembles. Lordre topologique est trs sensible lensemble des paramtres qui
interviennent dans lalgorithme ; il nexiste pas de loi permettant de sassurer de cet ordre. Il faut donc,
avant dutiliser les rsultats proposs par cette loi l, tester lordre (voir dans la dernire section de ce
chapitre le paragraphe consacr lapplication qui peut en tre faite en ocanographie) afin de sassurer
que lalgorithme a bien fonctionn.
Sur le plan algorithmique, lalgorithme global des cartes topologiques pour une fonction particulire de
dcroissance de T (utilise dans la pratique) se prsente de la manire suivante :
. (20)
La formule (19) montre que les cartes auto-organisatrices utilisent la fonction voisinage KT () paramtre
par T pour introduire lordre topologique. Pour des grandes valeurs de T, une observation zi permet de
modifier un grand nombre de vecteurs rfrents. loppos, pour des petites valeurs de T, KT ((c, r)) est
ngligeable si c r : une observation intervient uniquement dans le calcul du rfrent wc qui lui est le plus
proche. Les diffrentes valeurs de T utilises pendant le droulement de lalgorithme permettent aux
vecteurs rfrents de la carte de se localiser. Plus prcisment, la formule (19) montre que, pour un para-
mtre T donn, le calcul du rfrent wc dpend des observations de qui appartiennent, dune part, au
sous-ensemble Pc, et, dautre part, aux observations de Pr qui sont dans un voisinage significatif ;
.
Plus T est petit, moins le voisinage VcT contient de neurones, et le nombre dobservations de qui inter-
viennent pour calculer wc diminue. Pour des valeurs de T suffisamment petites, VcT se restreint au seul
neurone c, et JTsom reprsente exactement lexpression (1) ; dans ce cas, il ny a plus aucune diffrence
entre lalgorithme des cartes auto-organisatrices et celui des k-moyennes.
Puisque lapprentissage des cartes auto-organisatrices propos par Kohonen fait dcrotre le paramtre T
dans lintervalle [Tmin, Tmax], la convergence vers la solution peut se dcomposer en deux tapes. La
premire tape correspond aux grandes valeurs de T ; lutilisation rpte de lalgorithme des nues dyna-
miques T fix a tendance assurer la conservation de lordre topologique. La seconde tape a lieu pour
les petites valeurs de T ; lalgorithme commence se rapprocher de lalgorithme des k-moyennes et se
confond avec ce dernier lorsque T devient trs petit et que K((c, r)) 0 pour deux neurones distincts. On
peut donc considrer que la premire tape initialise la seconde (k-moyennes) par des rfrents qui ont
comme proprits de respecter lordre topologique.
Lapprentissage statistique
368
0 0 0
(a)
0.8 0.8
0.6 0.6
0.2 0.2
0 0
0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
5 000 itrations
1
Figure 7-12. volution de lapprentissage doptimisation
globale appliqu lexemple des quatre gaussiennes
0.8 (figures a et b pour deux topologies diffrentes : 1-D avec
50 neurones et 2-D avec 10 10 neurones). Les figures du
0.6
haut montrent le dploiement de la carte 1-D au bout de
20, 200, 1000 itrations. La mme exprience est effectue
pour la carte 2-D ; les figures du bas montrent lvolution
0.4 au bout de 500, 1000 et 5000 itrations. Dans les deux cas,
au moment de la convergence, la carte recouvre la distri-
0.2
bution des observations.
0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Cartes auto-organisatrices et classification automatique
369
CHAPITRE 7
Les expriences qui suivent permettent de comprendre de quelle manire, pendant le droulement de
lalgorithme doptimisation globale, les cartes se dplient et recouvrent la varit engendre par les obser-
vations. La figure 7-12 montre, pour deux topologies diffrentes (1-D, 2-D) et pour lexemple des quatre
gaussiennes (figures 12 [a] et 12 [b]), lvolution de lapprentissage. La carte 1-D contient 50 neurones,
celle 2-D est constitue de 10 10 neurones. Pour les deux cartes, on peut observer le comportement
suivant, les rfrents ayant t initialiss dune manire alatoire au centre de la carte :
Durant la premire phase, quand la valeur de
T est grande, la carte se replie vers le centre 5 000 itrations
1
de gravit et lordre topologique se forme.
Plus la valeur de T diminue, plus la carte se 0.8
dploie et minimise linertie totale (2) de la
partition propose par lalgorithme. la fin
0.6
de lalgorithme, une partie des neurones
(rfrents) se positionnent au milieu des
0.4
observations. Certains neurones, qui ne repr-
sentent aucune observation, indiquent une
zone de faible densit ou de vide. 0.2
Une inspection des partitions trouves peut
permettre dinterprter la disposition cache 0
des observations. La figure 7-13 prsente la
carte, les neurones en noir tant ceux qui 0.2
nont rien captur. On voit que lon peut 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
sparer de cette manire les quatre gaus- Figure 7-13. Visualisation des frontires naturelles qui
siennes en deux groupes distincts, ce qui sparent lensemble des observations en deux sous-
permet de mettre en vidence des frontires ensembles. Les neurones qui nont capt aucune observation
sont marqus par des points noirs.
naturelles.
Lalgorithme de Kohonen
Lalgorithme prsent initialement par Kohonen dcoule de la version nues dynamiques dont on vient de
traiter. Il prsente quelques particularits que nous allons maintenant exposer. Comme pour lalgorithme
des k-moyennes, on peut proposer une version stochastique de lalgorithme des cartes topologiques. Il
suffit de remarquer que, lors de la phase de minimisation, il nest pas obligatoire de trouver le minimum
global de JTsom(, ) pour fixe : il suffit de faire dcrotre sa valeur. Il est donc possible de remplacer
la relation (19) par une mthode de gradient simple. Ainsi, litration t et pour un neurone c, on a :
,
. (21)
Cette mthode non adaptative suppose que lon dispose de toutes les observations de lensemble
dapprentissage . La contribution dune seule observation zi la correction de wc est reprsente par le
terme de la somme 2KT ((c, (zi))(zi wct 1). De mme que pour lalgorithme des k-moyennes, on peut
utiliser la mthode du gradient stochastique, qui recalcule les rfrents chaque fois quune observation zi
est prsente. Cest cette version qui a t initialement prsente par Kohonen : la diffrence avec la
version doptimisation globale de lalgorithme prsente plus haut intervient en ceci que lon utilise une
Lapprentissage statistique
370
seule observation par itration et aussi dans le choix de la fonction daffectation. La fonction est, dans
lalgorithme de Kohonen, celle qui est utilise pour lalgorithme des k-moyennes (relation [3]) :
(zi) = arg min c||zi wc||2.
chaque prsentation dune observation zi les nouveaux rfrents sont alors calculs pour tous les
neurones de la carte C en fonction du neurone slectionn :
. (22)
Lalgorithme de Kohonen se rsume donc de la manire suivante :
Algorithme de Kohonen
1. Phase dinitialisation
choisir la structure et la taille de la carte et les p rfrents initiaux (en gnral, dune manire
alatoire) ;
fixer les valeurs de Tmax, Tmin et le nombre ditrations Niter ; prendre t = 0.
2. tape itrative t : lensemble des rfrents t-1 de ltape prcdente tant connus :
choisir une observation zi (en gnral, dune manire alatoire) ;
calculer la nouvelle valeur de T en appliquant la formule :
. (23)
Discussion
Une analyse fine du comportement de cet algorithme permet de comprendre loriginalit de lalgorithme
propos par Kohonen.
Dans la formule de modification des vecteurs rfrents, le pas de gradient t dcrot avec les itrations.
Au dbut de lalgorithme, la valeur de t est grande et la dcroissance de la fonction JTsom nest pas stric-
tement assure. Par la suite, le pas de gradient t devient suffisamment petit : la modification des rf-
rents chaque itration est petite. Dans ce cas, lalgorithme prsente le mme comportement que la
version nues dynamiques des cartes topologiques.
Si lon suppose que KT () devient ngligeable pour une distance dT , la valeur KT ((c, r)) nest signi-
ficative que pour les neurones r situs dans un voisinage dordre dT du neurone c ; ce voisinage sera not
V c(dT ) par la suite. De cette manire, la prsentation dun exemple particulier zi modifie le rfrent qui
est associ au neurone (zi), ainsi que tous les rfrents des neurones du voisinage V (zi)(dT ).
Du point de vue de la reprsentation neuronale, il est possible dinterprter cela en imaginant des
connexions latrales entre les neurones : chaque neurone c est connect tous les neurones r de son
voisinage V c(dT ), et toute modification de wc entrane des modifications de tous les neurones apparte-
nant V c(dT ) avec une intensit KT ((c, r)) qui dcrot lorsque la distance (c, r) crot.
Cartes auto-organisatrices et classification automatique
371
CHAPITRE 7
Si lon choisit comme fonction KT () une fonction seuil (voir figure 7-6) qui est constante sur linter-
valle [-dT , dT ] et nulle ailleurs, on fait clairement apparatre la diffrence entre lalgorithme de Kohonen
et lalgorithme des k-moyennes : la modification des poids est identique pour les deux algorithmes ; la
diffrence rside dans le fait que lalgorithme de Kohonen modifie le rfrent le plus proche mais
aussi ceux de son voisinage V c(dT ) au sens de la distance euclidienne. Cest ainsi que sintroduit peu
peu lordre topologique, des neurones proches sur la carte reprsentant des observations proches dans
lespace des donnes.
Lorsque le paramtre T est petit, les modifications de la relation (22) ne concernent quun ensemble
rduit de neurones et lon peut remarquer que, lorsque dT < 1, lalgorithme de Kohonen est similaire
la version stochastique de lalgorithme des k-moyennes. En effet, dans ce cas, seul le neurone slec-
tionn par la fonction va modifier ses paramtres.
Lappartenance des cartes auto-organisatrices la famille des mthodes neuronales sexpliquent en ceci
que le formalisme neuronal permet une prsentation claire et compacte des diffrents phnomnes mis en
jeu. Le paragraphe suivant prsente ce formalisme appliqu aux cartes auto-organisatrices.
carte auto-organisatrice. On
peut reprsenter lensemble
constitu par la carte et les
rfrents sous la forme dun
rseau de neurones constitu wc
de deux couches (figure 7-14) :
La couche dentre sert la
prsentation des observa- Vecteur dentre z = ( z , ... ,z ) 1 n
tions classer ; les tats de
tous ses neurones sont forcs Figure 7-14. Carte topologique en 2-D. Le rseau est constitu de deux couches :
aux valeurs des observations. une couche dentre qui sert la prsentation des observations et une couche
Cette couche contient donc dadaptation pour laquelle il faut dfinir un systme de voisinages (distance
entre les neurones et fonction de voisinage). Chaque neurone c reprsente un rf-
exactement n neurones (n rent wc ; il est entirement connect la couche dentre. Le vecteur des
tant la dimension de les- connexions (ou vecteur de poids) du neurone, cest le vecteur rfrent wc.
pace des observations).
La couche dadaptation est forme du treillis des neurones qui forme la carte. La structure du rseau
employ peut soit tre fixe a priori, soit voluer lors de lapprentissage (voir section Architecture et
carte topologique volutive ). Les neurones utiliss ce niveau sont de simples neurones distances ,
chacun dentre eux tant connect tous les lments de la couche dentre. Le vecteur rfrent
wc = (w1, w2, ..., wn) associ un neurone c de la carte nest autre que le vecteur des connexions (ou
vecteur de poids) qui arrive au neurone c. Puisque le rseau est totalement connect la couche dentre,
chaque neurone possde n connexions (poids). En rponse une observation z, un neurone distance c de
C dtermine son tat en calculant z wc 2.
Afin de permettre que le processus dauto-organisation seffectue, les poids qui lient les deux couches du
rseau sont adaptatifs : ils sont modifis laide des diffrentes rgles de modification des rfrents qui ont
t prsentes. Dans ce rseau, les neurones de la carte calculent leur tat (distance), en parallle, partir des
Lapprentissage statistique
372
mmes informations fournies par lobservation qui figure en entre. La principale caractristique du
processus dauto-organisation est de ne permettre une adaptation des paramtres du rseau que sur la rgion
de la carte la plus active . Lalgorithme le plus simple (celui de Kohonen) dtermine ce centre dactivit
comme tant le voisinage de la carte associ au neurone dont ltat (z wc 2) est le plus petit. Cest lutili-
sation de ce voisinage qui introduit les contraintes topologiques dans la reprsentation finale. Comme cela a
t signal dans le paragraphe prcdent, cela modlise de faon simplifie un couplage latral entre un
neurone slectionn et ses voisins dans la structure graphique de la carte. De cette faon, en fin dapprentis-
sage, les poids de chaque neurone convergent vers des valeurs telles quun neurone ne sera plus actif que
pour un sous-ensemble bien dtermin dobservations de la base dapprentissage. Un neurone c qui est
reprsent par son vecteur rfrent wc peut tre considr comme une observation moyenne qui rsume
le sous-ensemble Pc des observations qui lui sont affectes. Lensemble des neurones de la carte reprsente
donc une quantification vectorielle de lensemble , obtenue par lanalyse de lensemble dapprentissage
. La qualit de la quantification dpend donc de celle de lensemble dapprentissage.
Pr = . Llimination de ces neurones se justifie par le fait que les rfrents associs sont placs dans
des rgions de o la densit de probabilit des donnes est nulle. On peut alors appliquer lalgorithme
de Kohonen la carte obtenue afin de radapter la nouvelle carte aux donnes, et itrer cette procdure
autant quil est ncessaire.
Une seconde technique consiste dfinir la carte (nombre de neurones et structure graphique) lors de
lapprentissage, en mme temps que la mise au point des rfrents. Il sagit donc de construire la carte
dune manire volutive, en permettant lajout de certains neurones et la suppression dautres. Plusieurs
mthodes ont t proposes dans la littrature ; on peut globalement les classer en deux catgories :
La premire catgorie fixe a priori la dimension k de la carte, et construit la carte dune manire volu-
tive par adjonction et suppression de neurones. Afin dimplmenter simplement ces deux oprations,
cette mthode propose de manipuler des structures graphiques ayant comme lments de base les hyper-
ttradres (les segments pour k = 1, les triangles pour k = 2 et les ttradres pour k = 3) [OJA et al. 1999].
Une seconde catgorie de mthodes laisse aux donnes elles-mmes le choix de la dimension de la
carte, qui peut varier dune rgion une autre. Lalgorithme neural gas [OJA et al. 1999] construit le
graphe en introduisant les connexions directement dans lespace des donnes. Ainsi, chaque fois quune
observation est prsente, on retient les deux rfrents les plus proches ; sils sont dj relis par une
connexion, alors cette dernire est ractive, sinon elle est cre. Lalgorithme supprime les connexions
qui restent inactives aprs un nombre fix ditrations.
Une dcomposition de cette expression permet de faire apparatre la double fonctionnalit attache la
fonction JTsom : obtenir une quantification vectorielle et assurer la conservation de la topologie.
JTsom = +
(25)
La prsentation de lalgorithme en deux tapes successives, qui dpendent de la valeur de T (voir section
lalgorithme doptimisation non adaptative des cartes topologiques ), se comprend bien mieux grce
la dcomposition qui vient dtre faite de lexpression JTsom. La premire tape correspond aux grandes
valeurs de T ; dans ce cas, le premier terme de la somme, qui dfinit JTsom, est prpondrant, et lalgorithme
a tendance assurer la conservation de lordre topologique. La seconde tape a lieu pour les petites
valeurs de T ; dans ce cas, cest le second terme de JTsom qui devient prpondrant ; lalgorithme minimise
alors la partie de lexpression lie linertie. La valeur de T permet de raliser un compromis entre les
deux termes de JTsom. Lordre topologique ayant t obtenu pendant la premire partie de lalgorithme, la
minimisation semploie par la suite obtenir des sous-ensembles aussi compacts que possible. Il sagit de
la phase k-moyennes de lalgorithme, qui consiste sadapter localement aux diffrentes densits des
donnes. On peut donc rsumer lalgorithme comme le calcul dune solution des k-moyennes sous une
contrainte dordre sur les rfrents.
Lexprience qui suit permet de comprendre la diffrence entre lalgorithme des cartes topologiques et celui
des k-moyennes ; elle reprend lexemple prsent la figure 7-2[d] pour lalgorithme des k-moyennes. On
utilise dans ce cas une carte topologique 1-D de quatre neurones et on estime les paramtres de la carte avec
les observations de lexemple de la figure 7-2 (observations issues de quatre gaussiennes).
Les quatre rfrents ont t initialiss en bas et droite de la figure, comme lors de lexprience relative
lalgorithme des k-moyennes. Les deux solutions obtenues la convergence, pour lalgorithme des k-
moyennes et pour les cartes auto-organisatrices, sont montres sur la figure 7-15. La topologie qui existe au
niveau de la carte permet aux quatre rfrents de se localiser au centre des quatre gaussiennes. Lalgorithme
des cartes topologique a trouv une solution des k-moyennes sous la contrainte dordre topologique (figure
7-15 [b]) ; cette solution est diffrente de celle trouve par lalgorithme des k-moyennes (figure 7-15 [a]).
Lutilisation de la carte permet une reprsentation plus rpartie de lespace des observations.
1 1 000 itrations 1
(a) (b) Figure 7-15.
Comparaison k-
moyennes (a) et
0.8 0.8 SOM (b) pour la
mme initialisa-
tion. Les rf-
0.6 0.6 rents sont
initialiss en bas
et droite.
0.4 0.4
0.2 0.2
0 0
0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Cartes auto-organisatrices et classification automatique
375
CHAPITRE 7
. (28)
La densit de probabilit est entirement dtermine par larchitecture du rseau qui permet de donner
une expression la densit conditionnelle p(c1|c2) en utilisant les relations de voisinages sur la carte et la
densit conditionnelle des observations p(z|c1). Chaque neurone reprsente en effet une loi normale qui
permet dexprimer la densit conditionnelle des observations p(z|c1) = fc1(z, wc1, c1). Si lon fait lhypo-
thse que les relations de voisinage permettent de dfinir :
(29)
les densits de probabilits a posteriori (relation 28) des observations peuvent sexprimer en fonction des
distributions gaussiennes des diffrents neurones.
. (30)
Ainsi, p c2 (z) apparat comme un mlange local de densits gaussiennes qui fait intervenir tous les
neurones de la carte. Lensemble des vecteurs moyens = {wc; c } et les carts-types = {c; c
} sont les paramtres quil faut estimer laide de lensemble dapprentissage pendant la phase
dapprentissage. Grce au formalisme probabiliste, il est maintenant possible, comme pour la version
probabiliste des k-moyennes (voir plus haut la section Interprtation probabiliste des k-moyennes ), de
maximiser la vraisemblance classifiante de lensemble . Si lon fait lhypothse que les observations de
lensemble sont indpendantes, que chaque observation zi est engendre par le gnrateur p(zi) qui est
associ au neurone (zi), et si en plus on suppose que les neurones c2 de 2 ont des probabilits a priori
gales, la vraisemblance classifiante devient alors :
(31)
expression quil sagit de maximiser par rapport aux paramtres du modle , et de la fonction daffec-
tation . Dune manire classique, on ralise cet objectif en minimisant loppos de la vraisemblance
classifiante :
(32)
et en utilisant le formalisme des nues dynamiques. Les deux phases daffectation et de minimisation sont
effectues alternativement jusqu convergence :
Phase daffectation. On suppose que lensemble des paramtres et celui des carts-types sont
constants et quils prennent les valeurs courantes. Il faut minimiser E par rapport la fonction daffec-
tation . Il sagit donc de trouver une nouvelle fonction daffectation, qui affecte prcisment chaque
observation z un neurone de la carte. Cette tape permet dobtenir une nouvelle partition de lensemble
des donnes . Il est facile de voir que la fonction daffectation qui permet de minimiser E est celle qui
consiste affecter chaque observation zi au neurone le plus probable selon la densite p c2 (30) :
; (33)
Phase de minimisation. Au cours de cette phase, on suppose que la fonction daffectation est constante
et gale la fonction daffectation courante. On cherche alors minimiser E(, , ) par rapport
et .
Cartes auto-organisatrices et classification automatique
377
CHAPITRE 7
Les paramtres et sont adapts comme il en va pour la version globale de lalgorithme des cartes
topologiques, en annulant les drives partielles de la fonction E(t, t, t). Pour rsoudre lquation, on
utilise, comme dans [DUDA et al. 1973], une procdure itrative qui suppose que, pour la ime itration, la
valeur initiale des paramtres est assez proche des vraies valeurs. On obtient alors les formules de mise
jour suivantes :
(34)
. (35)
Dans ces deux expressions, les paramtres litration t sexpriment en fonction de ceux de litration
t 1.
La complexit du modle suppose que la minimisation est effectue partir de bonnes conditions initiales.
Le modle PRSOM, qui peut tre considr comme une extension des modles de cartes auto-organisa-
trices SOM, peut utiliser les paramtres estims par ces modles pour linitialisation de lensemble des
rfrents .
Lalgorithme PRSOM se rsume donc de la manire suivante.
Comme il en va pour lalgorithme classique des cartes topologiques, PRSOM utilise un systme de voisi-
nages dont la taille, contrle par T, dcrot durant lapprentissage. la fin de la phase dapprentissage, la
carte donne lordre topologique ; la partition associe la carte est dfinie partir de la dernire fonction
daffectation Niter. De mme que pour les autres algorithmes de cartes auto-organisatrices, lensemble est
divis en M sous-ensembles : chaque neurone c de la carte reprsente un sous-ensemble Pc = {z/Niter(z) = c}.
Cette carte et cette partition ont t dtermines en tenant compte des distributions de probabilits. Voil
pourquoi les rsultats proposs par PRSOM sont diffrents de ceux proposs par lalgorithme classique des
cartes auto-organisatrices qui utilise la distance euclidienne. Lestimation des probabilits permet dobtenir
des informations supplmentaires qui peuvent tre utilises avec profit dans des applications. Ces informa-
Lapprentissage statistique
378
tions sont en effet primordiales si lon cherche traiter des problmes de classifications. Il nexiste pas, pour
lalgorithme PRSOM, de version stochastique : lestimation de la variance demande de prendre en consid-
ration toute la base dexemples avant de modifier les diffrentes valeurs des paramtres.
Lalgorithme PRSOM permet dobtenir un grand nombre dinformations supplmentaires sur lensemble
des observations tudi (recherche des donnes aberrantes, calcul de probabilit...). Cependant, ce modle
ne peut tre utilis que si le nombre dobservations est assez grand pour permettre une estimation suffi-
samment prcise des variances attaches aux gaussiennes. La tldtection, qui peut disposer dun
nombre gigantesque de donnes, est un domaine privilgi pour lutilisation de PRSOM. Un exemple de
mthodologie possible pour la dtection de la couleur de locan est expos dans la prochaine section.
Ltiquetage des neurones de la carte reprsente la premire phase mettre en uvre si lon veut obtenir
un classifieur ; si le nombre de donnes expertises est trs grand, ltiquetage peut se faire laide dun
vote majoritaire (voir ci-aprs figure 7-17) :
Affecter lensemble des donnes experti-
ses aux diffrents neurones de la carte en
utilisant la rgle daffectation de lalgo- Classe 1
rithme dapprentissage considr. Classe 2
Classe 3
Parmi lensemble des donnes affectes au Classe 4
neurone c, choisir ltiquette li qui est Classe 5
Il est possible, dans ce cas, denvisager une autre approche en regroupant au mieux les diffrents sous-
ensembles dobservations. On cherche alors obtenir une partition plus grossire, ltiquetage ninterve-
nant quaprs cette premire phase de regroupement des neurones. Le fait de regrouper plusieurs neurones
permet de fusionner plusieurs sous-ensembles de la partition, et dutiliser un nombre plus grand de
donnes expertes pour ltiquetage du regroupement. Bien entendu, la mme restriction subsiste sur la
qualit de la reprsentation : les ambiguts ne disparaissent que si les groupements sont cohrents avec
la classification recherche, et si le vote majoritaire permet de choisir la bonne classe.
Si lon considre que la carte et la partition obtenues la fin de lauto-organisation sont de bonne qualit,
la prise en considration des proprits des algorithmes de carte auto-organisatrice autorise que lon
mette les deux hypothses suivantes :
La quantification des donnes est de bonne qualit : chaque vecteur rfrent reprsente bien lensemble
des observations qui lui sont affectes.
Lordre topologique est bon, deux sous-ensembles relatifs des neurones proches sur la carte sont cons-
titus dobservations proches dans lespace des observations.
La seconde hypothse suppose en outre quil existe une structure dans les donnes qui est sous-jacente au
problme de classification, et il est possible avec lordre topologique de la carte dexhiber cette structure :
deux sous-ensembles reprsents par des neurones voisins ont donc une forte probabilit de reprsenter
des observations appartenant la mme classe.
Bien entendu, les hypothses que nous venons de considrer sont trs fortes, et sous-entendent de plus que
le bon codage des donnes a t identifi pour effectuer la classification. Cela suppose quune tude pra-
lable a t faite dans le but dobtenir une bonne reprsentation des observations, et donc une slection
adquate des variables et un codage pertinent pour le problme de classification trait. Un exemple de
leffet des diffrents codages sur la classification sera donn dans le paragraphe consacr aux applica-
tions.
La classification ascendante hirarchique [JAIN et al. indice de
1988], qui est une mthode de classification automa- dissimilarit
(11)
tique, permet deffectuer la seconde phase ncessaire
llaboration du classifieur en regroupant au mieux
les neurones (voir figures 7-18 et 7-19).
Figure 7-19. Regroupement des neurones de la carte par classifica-
tion ascendante hirarchique : les feuilles de larborescence
reprsentent les neurones (ici six neurones) ; laxe des ordonnes (10)
donne, pour chaque regroupement ou palier agrgatif, lindice (9)
dagrgation pour la similarit choisie.
(8)
Il sagit dune mthode qui calcule une hirarchie de (7)
partitions, chaque partition permettant de regrouper
dune manire diffrente les neurones de la carte. Les (1) (4) (3) (6) (2) (5)
diffrentes partitions de la hirarchie sont dtermines
dune manire itrative, en commenant par la partition la plus fine qui est compose de lensemble des
singletons (les neurones). La classification hirarchique utilise cette partition initiale et procde des
regroupements successifs en fusionnant chaque itration deux sous-ensembles de neurones. Le choix
des deux sous-ensembles qui vont fusionner une tape donne est effectu laide dune mesure de
similitude, dfinie entre deux sous-ensembles. On choisit, parmi tous les couples de sous-ensembles qui
constituent la partition cette tape, les deux sous-ensembles de neurones les plus semblables, au sens de
la mesure choisie.
Cartes auto-organisatrices et classification automatique
381
CHAPITRE 7
1. Initialisation. Considrer la partition forme par les singletons ; chaque neurone est alors affect
un sous-ensemble distinct. Choisir le nombre K de groupement que lon souhaite former.
2. Pour une partition donne, trouver les deux sous-ensembles les plus proches au sens du critre de
similitude choisi, et les fusionner de manire former un seul sous-ensemble.
3. Si le nombre de groupement de la partition courante est infrieur K, revenir ltape (2), sinon
lalgorithme se termine.
Diffrentes mesures de similitude sont proposes dans la littrature [JAIN et al. 1988]. La mesure de similitude
la plus connue est celle de Ward, qui consiste oprer des regroupements de sorte que la somme des inerties
des groupements obtenus reste la plus petite possible : cela revient favoriser des groupements les plus
compacts possible dans lespace (euclidien) des donnes. En retenant le critre de Ward pour effectuer des
groupements de neurones de la carte, on se place dans lespace des observations ; le regroupement se fait alors
par lintermdiaire des vecteurs poids wc. Mais les neurones appartiennent la carte qui a une structure topolo-
gique discrte dfinie par le graphe : il est alors possible de favoriser des groupements en tenant compte de cette
structure discrte. On sera amen favoriser des groupements de neurones reprsentant des rgions connexes
sur la carte [MURTAGH 1985], [YACOUB et al. 2001]. Le choix de lune de ces reprsentations, ou dune stra-
tgie mixte en combinant les deux, a une influence fondamentale sur les regroupements obtenus.
La classification hirarchique permet dengendrer un nombre variable de sous-ensembles, car le processus de
regroupement peut tre arrt tout moment. Pour une mesure de similarit donne, le nombre dlments de
la partition que lon choisit dpend du nombre S de classes recherches. Ce nombre dpend aussi de la consis-
tance entre la partition (qui est calcule dune manire exclusivement statistique) et les S classes du problme
trait que lon cherche dterminer. Ce nombre peut tre plus grand que S si, statistiquement, une classe nest
pas trs homogne. On considre alors que lexpert a regroup en une mme classe des cas qui, du point de vue
de lespace des observations, sont assez diffrents. Lanalyse de la partition la plus cohrente obtenue laide
de la mthode de classification hirarchique permet de voir sil y a homognit ou pas des classes proposes
par lexpert. Elle peut donc amener proposer une classification plus fine en S classes (S > S).
tiquetage et classification
Une fois que ltiquetage de la carte est effectu, lutilisation de la version probabiliste de lalgorithme des
cartes auto-organisatrices (PRSOM), qui dfinit pour chaque neurone une loi normale, permet de raliser
une classification probabiliste. Une observation z peut tre affecte chaque neurone c avec la probabilit
p(c|z) qui est dfinie par la relation (38). On obtient ainsi une procdure daffectation probabiliste. La carte
tant tiquete par lune des procdures dcrites au paragraphe prcdent, il est alors possible de calculer la
probabilit a posteriori dappartenance la classe li. Lalgorithme PRSOM provient dune modlisation
probabiliste qui fait lhypothse que les observations sont engendres suivant la loi de mlange :
, (36)
o Tc = cKT ((c, r)) et fr est une loi normale de moyenne wr et de matrice de variance-covariance r2I.
Les quantits pc(z) sont calcules partir des neurones de la carte et les quantits p(c) partir de la parti-
Lapprentissage statistique
382
tion propose par PRSOM. Si lon note N le nombre dobservations de la base dapprentissage et nc le
nombre dobservations de affectes au neurone c par la rgle daffectation (z) = ARGMAXc p(z|c), il
est classique destimer la probabilit a priori p(c) du neurone c par n c N . La rgle de Bayes permet de
calculer les probabilits a posteriori du neurone c, connaissant lobservation z :
. (38)
En fin dapprentissage, la carte topologique propose par lalgorithme PRSOM dtermine les paramtres
des lois normales qui caractrisent les diffrents neurones. Pour chaque observation z, il devient possible
de calculer les probabilits a posteriori dappartenance chaque neurone en appliquant la relation (38).
Une classe tant la runion dun ensemble de neurones, la probabilit a posteriori que lobservation z
appartienne la classe li se fait en considrant tous les neurones tiquets par li. Si lon note i lensemble
de tous ces neurones on obtient :
, (39)
o pc(z) est dfinie par la relation (37). On remarque que cette probabilit est conditionne par le systme
dtiquetage de la carte qui reprsente une phase importante pour le calcul des probabilits a posteriori.
Ces probabilits a posteriori dpendent de ltiquetage de la carte, et leur consistance est fonction de la
qualit de cette carte. Les performances du classifieur ainsi dtermin dpendent donc tout la fois du
nombre de donnes expertises, de la prcision avec laquelle la densit des observations est approche, et
de lordre topologique tabli par lauto-organisation.
La connaissance des S probabilits a posteriori dappartenance permet de proposer un classifieur fond sur
lestimation des probabilits. Au moyen de ces formules, il est possible de calculer, pour chaque observation z,
les probabilits dappartenances chaque classe. Laffectation peut se faire en appliquant la rgle de dcision
baysienne et en choisissant la classe pour laquelle la probabilit dappartenance est la plus grande.
Applications
Les cartes auto-organisatrices ont permis lmergence dun grand nombre dapplications ; leur mise en uvre
a demand des dveloppements spcifiques assez longs, mais ces ralisations sont maintenant oprationnelles.
lheure actuelle, le centre de recherche le plus important impliqu dans ce domaine est situ lUniversit de
technologie de Helsinki (UTH). En effet, la plus grande partie des activits menes dans son laboratoire
dinformatique (Laboratory of Computer and Information Science) est guide par le centre de recherche sur les
rseaux de neurones (Neural Network Research Center) cr par T. Kohonen en 1994 et dirig maintenant par
E Oja. Une grande partie des tudes qui y sont dveloppes sont accessibles sur le site Web de NNR (http://
www.cis.hut.fi/research/). Les grands thmes de recherche et les applications en cours aujourdhui sont presque
tous centrs autour des cartes auto-organisatrices. Un grand nombre de ces applications sont maintenant au
stade de lexploitation industrielle ; elles ont donn naissance des recherches originales largement pluri-disci-
plinaires qui ont amen la constitution dquipes de recherche spcialises dans des domaines comme la bio-
informatique, lanalyse et la reconnaissance du langage (crit, parl) et lanalyse dimages.
Dune manire gnrale, utiliser les cartes auto-organisatrices lintrieur de systmes plus vastes fait
intervenir part entire les spcificits des domaines dapplications concerns. Le codage de linforma-
tion, lorganisation des bases de donnes, la prsentation et la visualisation des rsultats, donnent lieu
Cartes auto-organisatrices et classification automatique
383
CHAPITRE 7
des recherches pluridisciplinaires. Ce sont les solutions spcifiques, apportes en rponse aux problmes
poss, qui conditionnent la qualit des rsultats obtenus par les cartes auto-organisatrices.
La suite de ce chapitre est consacre la prsentation de plusieurs applications des cartes auto-organisa-
trices. Deux domaines, particulirement bien adapts ces mthodes ont t choisis : la tldtection et la
recherche documentaire.
La tldtection satellitaire est un domaine en pleine expansion qui pose aux physiciens et aux modlisa-
teurs un grand nombre de problmes qui sont de nature statistique. Le fait que les mesures concernes
soient numriques et disponibles en quantits gigantesques rend ce domaine particulirement adapt la
modlisation neuronale. Cependant, malgr le nombre des donnes acquises par les satellites, les mesures
qui permettraient de faire appel aux mthodes dapprentissage supervis sont en nombre trs limit. Il
sagit en gnral de mesures effectues sur le terrain qui ncessitent un quipement complexe et des
analyses trs longues effectuer. Lenjeu est donc bien danalyser les mesures de tldtection dune
manire non supervise et de reconnatre les groupements effectus laide de toute linformation que
lon peut recueillir par ailleurs. Nous prsentons deux exemples sur le problme de la dtection des aro-
sols partir des mesures satellitaires. Le premier, qui prsente le domaine de la couleur de locan, a un
but pdagogique et permet dillustrer lensemble des notions thoriques prsentes dans le chapitre. Le
second exemple, dtaille les dveloppements mthodologiques ncessaires la rsolution dune applica-
tion oprationnelle : la typologie des arosols et ltablissement de cartes dpaisseur optique. On
montrera cette occasion :
Comment faire cooprer modles thoriques et observations, ce qui permet de prendre en compte une
vritable introduction dexpertise.
Lintrt des cartes probabilistes (PRSOM).
Le second paragraphe dcrit rapidement une des applications les plus connues lheure actuelle, qui a t
ralise lUniversit de technologie de Helsinki (UTH) : le systme WEBSOM. Il sagit dune application
ddie la recherche dinformation sur le Web. Les premires versions remontent lanne 1995. La principale
caractristique de cette application est de traiter dun problme o la dimension des variables prises en compte
est particulirement grande. Les diffrentes recherches menes au centre UTH ont permis de rsoudre les
problmes de dimensionnement de la carte topologique (prise en compte dun nombre trs important de
neurones) et ceux de la mise au point de lalgorithme (temps et prcision de convergence). La ralisation de
WEBSOM a permis galement lemergence de recherches ayant pour but de rduire au mieux la dure de
lapprentissage, et, pendant lexploitation, le temps ncessaire la recherche documentaire.
Les partitions que lon peut obtenir sont utiles aux experts des diffrents domaines dapplication
concerns (physiciens, chimistes) puisquelles peuvent constituer un rsum prcis de lensemble des
phnomnes observables. Ce rsum peut tre dune grande importance au cours de ltude du phno-
mne.
Dans tous les domaines qui relvent des sciences exprimentales, des expriences difficiles mettre en
uvre, longues dvelopper et lourdes financirement, sont menes rgulirement par des experts du
domaine dtude. Par comparaison avec le nombre dobservations satellitaires, le nombre de donnes
expertes est faible, mais linformation quelles contiennent est de la plus grande importance. Les
quelques observations expertises permettent lidentification de sous-ensembles de la partition qui est
obtenue partir de la carte topologique. La mthodologie de classification prsente plus bas la
section Classification et PRSCOM permet cette identification.
De manire faire apparatre les diffrentes possibilits des modles de cartes auto-organisatrices, la
prsentation de lapplication qui va suivre est organise de la faon suivante :
prsentation du domaine dapplication, des diffrents problmes qui se posent et des donnes dispo-
nibles pour les diffrentes expriences ;
prsentation des expriences permettant de comprendre limpact du codage sur les partitions et sur
lordre topologique obtenu ;
prsentation des expriences permettant de juger de limpact de lintroduction dexpertise.
tances marines doit prendre en considration, dune part, les incertitudes dues aux corrections atmosph-
riques, et, dautre part, celles qui sont lies la variabilit des peuplements biologiques et leurs cons-
quences bio-optiques. Une bonne connaissance du milieu travers ou plus prcisment lidentification
des principaux arosols et des diffrentes classes deau qui sont sur le trajet du signal est donc fonda-
mentale. Les expriences qui vont suivre ont pour objet de retrouver diffrentes classes darosols et
deaux, en utilisant directement les spectres enregistrs au sommet de latmosphre par les capteurs.
Les donnes
Longueurs dondes
Bandes k (nanomtres) k
200
1 412
2 443 400
3 490
600
4 510
5 555 800
6 670
7 765 1000
8 865
1200
Tableau 7-1. Bandes spectrales
de SeaWifs.
1400
1600
sage des cartes topologiques, et vu la grande quantit de donnes impliques, les performances obtenues
peuvent tre considres comme reprsentatives de performances en test.
Lexpertise a t introduite en utilisant limage GAC, pour laquelle des
informations supplmentaires existaient. Lexpertise dont on dispose
pour cette image se prsente sous deux formes distinctes :
On trouve diffrentes informations distribues par SeaWifs : masque
de terre, indications de nuage.
Une classification des pixels de limage GAC obtenue partir de
diffrents modles optiques mis au point par les spcialistes de
latmosphre. La figure 7-22 prsente limage GAC expertise ; dans
cette image, lexpert a identifi cinq classes : les arosols dsertiques,
les eaux dites du cas 2 qui sont des eaux trs troubles charges de
matires organiques, les arosols marins, les nuages, la Terre. La
classe attribue la Terre contient tous les pixels pour lesquels
lexpert na pas voulu ou pas pu donner dtiquette.
Les informations fournies par SeaWifs, tout comme les classifica-
tions proposes par lexpert, peuvent prsenter des erreurs qui sont
dues la grande complexit des phnomnes tudis. En particulier,
lexpert a recherch cinq classes : il a pu regrouper sous un mme
nom les diffrents types darosols sil ne possdait pas les modles
physiques appropris.
Figure 7-22. Image GAC expertise ; limage reprsente les cinq zones dtermines
par lexpert : les arosols dsertiques (en noir), les eaux du cas 2 (en gris clair), les
arosols marins (en gris fonc), les nuages (en gris moyen), la Terre (en blanc).
Rle du codage
Diffrentes expriences ont t menes en codant de deux manires
diffrentes les spectres de SeaWifs.
Le premier codage utilise directement les rflectances au sommet de latmosphre. Afin de donner la
mme importance chaque longueur donde, les valeurs des spectres de rflectance ont t rduites par
longueur donde, de sorte quelles appartiennent lintervalle [1, +1]. Si lon note (k) la rflectance
pour la longueur donde k, la normalisation a t calcule sur chaque longueur donde (k = 1 8)
partir de lensemble dapprentissage. Chaque observation (un spectre) est donc reprsente par un vecteur
de dimension 8 : chaque composante de ce vecteur est constitue par une rflectance normalise, ddie
une longueur donde. Comme les valeurs des rflectances sont des rels compris entre 0 et 1, les valeurs
ont t ramenes entre 1 et 1 laide de la formule (2 (k)) 1.
La partie de limage LAC rserve lapprentissage (1 ligne sur 10), et code selon ce procd, sera iden-
tifie sous le nom de Appcod1. Le second codage a permis de faire ressortir la forme des spectres tudis.
Dans ce but, on a introduit les pentes des spectres, calcules en chaque longueur donde. La kime compo-
sante du vecteur est alors dtermine partir des rflectances :
.
On calcule de cette manire sept pentes k = 1 7. Afin de conserver une information sur lintensit du
spectre, une composante du vecteur dobservation a t affecte la norme du spectre (|| ||). Pour ce
codage, les vecteurs de dimension 8 utiliss en entre de la carte sont de la forme :
((1), , (7), || ||).
Cartes auto-organisatrices et classification automatique
387
CHAPITRE 7
On appellera Appcod2 la partie de limage LAC rserve lapprentissage cod selon ce deuxime
procd. De mme que prcdemment, les vecteurs ainsi constitus ont t normaliss entre 1 et +1,
composante par composante, sur la partie de limage LAC rserve lapprentissage. Comme les pentes
des spectres et la norme ne sont pas de mme ordre de grandeur, elles ont t normalises sparment. La
normalisation est effectue partir de la formule suivante : ( 2) 1. Dans cette formule, si x
reprsente une drive ((k) k = 1 7) min (respectivement max) reprsente le minimum (respective-
ment le maximum), sur lensemble de toutes les valeurs rencontres pour les drives dans Appcod2.
Pour tous les tests effectus, les donnes ont t transformes en utilisant les codages dfinis sur
lensemble dapprentissage. Les expriences qui vont suivre vont permettre dillustrer la mthodologie de
classification expose dans la section Classification et PRSOM . Celles-ci utilisent des quantifications
suivies de classifications ; les quantifications sont obtenues partir de cartes probabilistes (algorithme
PRSOM), et les regroupements sont effectus par classification hirarchique. Les diffrentes cartes auto-
organisatrices ont toutes la mme architecture :
La couche dentre est compose de 8 entres.
La carte est en 2D et contient (10 10) neurones ; les voisinages sont dfinis partir de la famille de
fonctions: K() = exp(2).
Quantification par PRSOM 696 863 638 551 685 305 418 408 1 041 495
disperses, et celle en bas et gauche des zones de R8 pour lesquelles les diffrents spectres sont trs sembla-
bles. La physique de la mesure permet dinterprter les diffrentes zones de la carte :
les spectres sont beaucoup plus stables si le ciel est
dgag et si le signal permet danalyser la mer ; 1 2 3 4 5 6 7 8 9 10
les zones de forte variabilit peuvent correspondre la
traverse de latmosphre en prsence darosols, ou
bien la rflexion sur les nuages. 11 12 13 14 15 16 17 18 19 20
Figure 7-24. Variance estime par PRSOM, carte (10 10) (voir
figure prcdente). La surface du disque situ au-dessus du neurone 21 22 23 24 25 26 27 28 29 30
est proportionnelle la variance estime pour la gaussienne du
neurone.
31 32 33 34 35 36 37 38 39 40
1 2 3 4 5 6 7 8 9 10 41 42 43 44 45 46 47 48 49 50
11 12 13 14 15 16 17 18 19 20
51 52 53 54 55 56 57 58 59 60
21 22 23 24 25 26 27 28 29 30
61 62 63 64 65 66 67 68 69 70
31 32 33 34 35 36 37 38 39 40
71 72 73 74 75 76 77 78 79 80
41 42 43 44 45 46 47 48 49 50
81 82 83 84 85 86 87 88 89 90
51 52 53 54 55 56 57 58 59 60
91 92 93 94 95 96 97 98 99 100
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
forte variance (en haut droite) chantillonnent plus grossirement lespace des observations. Le procd
de visualisation permet de choisir certains spectres et de procder une tude de lensemble des rflec-
tances captes par le neurone, ou leur localisation sur limage SeaWifs.
Une premire inspection permet de neurone 17 neurone 17
1 1
procder un contrle de qualit (figure 7-
25) : il est possible didentifier les spectres 0.9 0.9
pour lesquels des erreurs de mesure ont d
se produire. En effet, sur cette carte, les 0.8 0.8
neurones 17, 28, 35, 39 ont des rfrents 0.7 0.7
pour lesquels une longueur donde est
nulle. Si lon recherche toutes les observa- 0.6 0.6
tions captes par ces neurones, on observe
0.5 0.5
quelles prsentent la mme anomalie. Il
est possible den conclure que, dans 0.4 0.4
certains cas, un canal de transmission na
pas fonctionn, et que certains neurones se 0.3 0.3
(a) (b)
sont spcialiss dans la dtection de cette 0.2 0.2
anomalie.
0.1 0.1
La figure 7-26 montre les spectres qui
reprsentent les rfrents des neurones 0 0
c1 c2 c3 c4 c5 c6 c7 c8 c1 c2 c3 c4 c5 c6 c7 c8
17 et 35, ainsi que leurs variances.
neurone 35 neurone 35
Une analyse semblable peut tre faite pour 0.8 0.8
chacun des 100 neurones de la carte. La
figure 7-27 montre, pour un neurone situ 0.7 0.7
dans la zone de forte densit (neurone 51),
le spectre qui est associ au rfrent de ce
0.6
neurone, lensemble des spectres de 0.6
radiance capts par ce neurone, et la zone
gographique correspondante sur limage 0.5 0.5
SeaWifs. Par comparaison avec limage
SeaWifs (voir figure 7-21), on peut remar- 0.4 0.4
quer que le neurone 51 identifie une zone
claire de limage situe sur la mer et sur
0.3
laquelle il ne semble pas y avoir darosol 0.3
dsertique ou de nuages. En examinant (c) (d)
lordre des spectres propos dans la figure 0.2 0.2
7-25, on observe que le codage qui vient
dtre tudi est organis en fonction de 0.1 0.1
c1 c2 c3 c4 c5 c6 c7 c8 c1 c2 c3 c4 c5 c6 c7 c8
lintensit des spectres. Lordre obtenu fait
en priorit ressortir les proprits physiques Figure 7-26. Les figures (a) et (c) reprsentent les spectres lis aux
sous-jacentes cette intensit. Les mmes neurones 17 et 35 ; les barres verticales reprsentent la variance asso-
cie chaque longueur donde. Les figures (b) et (d) reprsentent les
expriences ont t ralises laide dun sous-ensembles de radiance captes respectivement par les neurones
deuxime codage des spectres qui prend en 17 et 35 (carte PRSOM 10 10 entrane partir de Appcod1).
compte la fois lintensit et la forme des
spectres (Appcod2). La figure 7-28 montre le nouvel ordre obtenu sur les rfrents (sur cette figure, les rfrents
des neurones ont t dcods afin de les reprsenter sous la forme de spectres). Les rfrents des neurones sont
maintenant organiss en fonction de lintensit, mais galement selon les diffrentes formes.
Lapprentissage statistique
390
800 800
0.1 0.1
1000 1000
0.08 0.08
1200 1200
0.06 0.06
1400 1400
0.04 0.04
1600 1600
0.02 0.02
1800 1800
0 0
(a) c1 c2 c3 c4 c5 c6 c7 c8 (b) c1 c2 c3 c4 c5 c6 c7 c8
2000 2000
Figure 7-27. Reprsentation du spectre du neurone 51(a) des spectres de
200 400 600 200 400 600
Appcod1 associs au neurone 51 (b) de la zone gographique associe (c) (d)
limage (c) et (d), et de la zone gographique associs au rfrent w51 zone
noire (c) et (d) (carte PRSOM 10 10 entrane partir de Appcod1).
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
Classification et PRSOM
La premire srie dexpriences a permis de juger de la qualit des quantifications vectorielles obtenues
laide de PRSOM. Ces quantifications vont maintenant tre utilises des fins de classification.
Une premire possibilit consiste effectuer, comme cela a t prsent au paragraphe prcdent, ltude
physique de chaque rfrent. Cette tude doit tre mene par un expert qui reconnat chaque rfrent
partir des proprits de son spectre et en dduit le type darosol concern. Si lensemble des neurones est
identifi, la partition propose par la carte permet de lutiliser en tant que classifieur pour tiqueter
limage SeaWifs dans son entier. Par ailleurs, si lensemble dapprentissage est reprsentatif du problme
trait, il peut tre utilis pour tiqueter dautres cartes qui refltent la mme physique.
Figure 7-29. Prsentation sur la carte des deux classes proposes par PRSM + CAH : PRSOM a t dtermin partir de
Appcod1, la CAH utilise lindice de Ward. Le numro qui figure droite du neurone reprsente le numro de la classe obtenue
par classification hirarchique. Lensemble des neurones gris fonc reprsentent les neurones de la classe 1 et ceux en gris
clair sont ceux de la classe 2.
Si la procdure didentification nest pas possible, cest--dire si lexpert ne peut pas avec certitude attri-
buer une tiquette chaque neurone, il est possible de mettre en uvre une approche non supervise de
regroupements des neurones. On procde alors, comme cela a t montr la section Classification et
carte topologique , en regroupant les neurones de la carte, et lon cherche identifier les classes qui ont
t obtenues laide de la classification hirarchique. Afin dillustrer, dans la mesure du possible, la
qualit des performances obtenues par lenchanement des algorithmes PRSOM et CAH (classification
ascendante hirarchique), deux sortes dexpriences dune complexit diffrente sont prsentes :
La premire exprience porte sur la dtermination dun masque qui reconnat les nuages forts et les
distingue de lensemble des autres spectres. On sait que les nuages rflchissent davantage le signal : les
Lapprentissage statistique
392
spectres enregistrs au niveau du satellite prsentent des intensits plus fortes et plus variables que celles
qui sont relatives la mer ou aux arosols. Sparer les nuages forts des autres constituants de latmos-
phre revient dfinir un classifieur deux classes. Puisque, physiquement, le problme prsente deux
sries dobservations trs distinctes, les deux classes recherches doivent tre bien spares.
La seconde exprience cherche reconnatre les cinq classes identifies par lexpert ; ces classes ont t
dtermines par comparaison avec des modles physiques darosols. Le nombre de classes tant plus
grand, et lexpert ayant pu introduire un grand nombre derreurs, ce problme est bien plus complexe.
Les deux quantifications vectorielles obtenues au moyen de PRSOM vont maintenant tre utilises pour
reconnatre les classes proposes par un expert. La dtermination des classes va se faire par classification
ascendante hirarchique en utilisant lindice de Ward dfini plus haut au paragraphe Recherche dune
partition adapte aux classes recherches .
Dans la premire exprience, la classification ascendante PRSOM + CAH
hirarchique est applique sur la carte 10 10 obtenue
Nuages Mer visible
aprs lapprentissage de Appcod1. Comme il sagit de dter-
miner les nuages forts, les regroupements ont t pour- Nuages SeaWiFS 0.91 0.09
suivis jusqu lobtention de deux classes. Les figures 7-29 Tableau 7-2. Matrice de confusion comparant le
et 7-30 montrent la classification obtenue sur la carte topo- produit distribu par SeaWifs et celui propos par
logique et sur limage. La visualisation de la carte permet PRSM + CAH ; PRSOM a t dtermin partir
dobserver les neurones de chaque classe : clairement, les de Appcod1, la CAH utilise lindice de Ward.
deux classes de neurones constituent des zones contigus
de la carte. Afin de montrer que les deux classes obtenues reprsentent les nuages forts de lensemble de
limage, on a compar cette classification celle propose par lexpert en calculant la matrice de confu-
sion. Lexpertise est obtenue ici en utilisant le masque de nuage distribu aux utilisateurs par SeaWifs. La
matrice de confusion est prsente dans le tableau 7-2 ; elle permet de comparer les deux classifications,
celle propose par le satellite et celle propose par PRSOM.
Cartes auto-organisatrices et classification automatique
393
CHAPITRE 7
La division en deux zones gographiques (voir figure 7-30) qui correspondent bien celles observes sur
limage SeaWifs montre que les deux classes ont t trouves par lapplication de lalgorithme PRSOM,
suivie dun regroupement par classification ascendante hirarchique, sans quaucune information experte
nait t introduite dans le classifieur. La bonne cohrence de la classification hirarchique au plus haut
niveau de larbre peut laisser esprer un regroupement physiquement cohrent des observations pour tous
les niveaux de la hirarchie.
La deuxime exprience, qui va confirmer la qualit de la quantification vectorielle, cherche retrouver
une des classes proposes par lexpert : les eaux du cas 2. Dans la figure 7-22, cette zone, aux proprits
optiques particulires, est reprsente en jaune. Linspection des diffrentes zones gographiques atta-
ches aux 100 neurones de la carte propose par PRSOM permet de slectionner trois neurones dont les
sous-ensembles de spectres ont une reprsentation gographique superposable celle propose par
lexpert. La figure 7-31 montre les trois rfrents (w33, w82, w93) et les zones gographiques, attachs
ces neurones.
Figure 7-31.
Reprsentation des
rfrents, des sous-
neurone 33
ensembles
dobservations et des
zones gographiques
associs aux neurones
33, 82 et 93 (carte
PRSOM 10 10
entrane partir de
(d) Appcod2).
Les figures (a), (b), (c)
reprsentent les spec-
tres des neurones 33,
neurone 82 82, 93 ; les figures (d)
et (e) reprsentent les
spectres de Appcod2
associs aux neurones
33 et 82. Les zones
correspondantes aux
neurones 33 et 93 de
(e)
la figure sont repr-
sentes en noir.
Si lon inspecte la hirarchie complte qui a t dfinie partir de CAH, on saperoit que les trois
neurones concerns (33, 82, 93) forment un sous-ensemble qui se situe au niveau 35 de la hirarchie. Il
Lapprentissage statistique
394
est donc possible, partir de ce rsultat, de proposer un classifieur permettant lidentification automatique
des eaux du cas 2. Les neurones (33, 82, 93) vont tre tiquets cas 2, tous les autres neurones prenant une
mme tiquette indiquant leur non-appartenance au cas 2. On voit que lutilisation du regroupement sans
introduction dexpertise peut, ce stade, permettre de retrouver une information qui provient de la
physique de la mesure.
La dernire exprience utilise PRSOM + vote majoritaire
directement lexpertise. Cette
dernire est introduite au Classe1 Classe2 Classe3 Classe4
niveau des neurones en utili- Arosols marins 0.8 0.04 0 0.16
sant la mthode prsente dans nuages 0.03 0.91 0.01 0.05
la section qui traite de classi- Expert Cas 2 0.03 0.22 0.71 0.03
fication et de topologie.
Lensemble de test utilis est Arosols dser-
0.1 0.04 0 0.86
tiques
celui qui est propos par
lexpert (image GAC). Les Tableau 7-3. Matrice de confusion permettant de comparer la classification
observations de cet ensemble propose par lexpert (image GAC) et celle propose par la carte. Sur cette carte,
sont projetes sur la carte. les 100 neurones ont t tiquets par vote majoritaire en utilisant les donnes
expertises.
Chaque neurone capte ainsi un
certain nombre de pixels de
limage GAC qui lui sont
affects. Chaque observation ayant une des tiquettes proposes par lexpert, on effectue, au niveau du
sous-ensemble relatif chaque neurone, un vote majoritaire ; le neurone prend alors le nom de ltiquette
majoritaire. On compare alors, laide dune matrice de confusion, les deux classifications (tableau 7-3).
Clairement, les neurones reproduisent bien lexpertise propose par lexpert.
Lensemble des rsultats obtenus pour cette application montre le bon fonctionnement des algorithmes de
cartes topologiques lorsquelles sont employes pour traiter des donnes numriques. Lapplication
suivante due Kohonen va montrer son bon fonctionnement quand elle est utilise sur des donnes
textuelles.
Les donnes
Les rsultats prsents ci-aprs reprsentent une phase de faisabilit, pour cette raison, la zone gogra-
phique tudie a t limite la mer Mditerrane. Traiter lensemble du globe ncessite simplement
dappliquer aux images SeaWifs, sur locan global, la mme mthodologie que celle qui va tre
prsente. Pour la mme raison le nombre de modles darosols que lon veut reconnatre a t limit ;
on a choisi 5 types darosols. Quatre sont utiliss de manire oprationnelle par la chane oprationnelle
de SeaWifs dont les produits sont distribus par la NASA, la cinquime famille est celle des arosols
dsertiques pour laquelle lalgorithme mis au point pour le dcodage des donnes SeaWifs choue.
Augmenter le nombre de types darosols ne ncessite aucune modification de la mthodologie, seule
importe la qualit des modles thoriques que lon introduit. Plus les spectres thoriques sont proches de
lobservation, meilleure sera llaboration des cartes darosols.
Les donnes utilises pour mettre au point le prototype neuronal qui permettra le dcodage des images
SeaWifs sont de trois sortes en fonction des observations (spectre de rflectance SeaWifs), des modles
darosols (spectres de rflectance thoriques) ou des mesures de terrain utilises pour la validation. Pour
chaque spectre observ on a la connaissance de la gomtrie de vise et pour chaque spectre thorique on
a, en plus de la gomtrie de vise, la connaissance de lpaisseur optique et du type darosol concern.
Lensemble des observations disponibles est constitu par une anne dimages SeaWifs prises sur la
Mditerrane en 1999. De cet ensemble, on a extrait un ensemble dapprentissage, constitu partir de
lensemble des images utilisables (certains jours les capteurs fonctionnent mal) :
en appliquant un masque de terre et de nuages afin de retirer les pixels de terre et ceux contamins par
les nuages ;
en conservant pour chaque image une ligne de pixels sur 10.
Lensemble dapprentissage contient alors 2 346 147 pixels qui vont servir estimer, laide de lalgo-
rithme PRSOM, les paramtres dune carte auto-organisatrice des spectres de rflectance observs
(dimension 8). Si lon se reporte lapplication qui a t prsente en premire partie, on peut constater
que lchantillonnage permet maintenant de reprsenter la variabilit saisonnire et la variabilit lie la
gomtrie de vise.
Les calculs de transfert radiatif permettent, partir des paramtres optiques des diffrents types daro-
sols, de calculer dune manire thorique les spectres de rflectance auxquels ils sont associs [5]. Il sagit
de calculs qui sont longs effectuer, aussi pour conserver la connaissance thorique disponible ncessaire
la reconnaissance des arosols, on gnre de grandes bases de donnes (Look Up Table : LUT). Ces
LUTs permettent de conserver sous forme de fichiers, les paramtres optiques, la gomtrie de vise ainsi
que le spectre de rflectance qui correspond au calcul de transfert radiatif effectu. Le prototype dont les
performances sont prsents ci-aprs ici prend en compte :
Les arosols Ctier, Maritime, Troposphrique, Ocanique utiliss pour les corrections atmosphriques
de SeaWifs [GORDON, WANG 1994].
La famille dsertique provient dun travail effectu sur lAtlantique par Moulin [MOULIN et al. 2001]
qui est une volution du modle de Shettle [SHETTLE 1984].
La LUT disponible pour la mise au point du prototype neuronal est compose de 9.278.362 spectres de
rflectance chantillonns aux longueurs donde de SeaWifs. tant donn que le prototype recherch est
spcialis sur la Mditerrane, les spectres thoriques qui constituent la LUT ont t limits ceux dont
la gomtrie de vise correspond la Mditerrane .
Les donnes de terrain sont issues des bases de donnes du rseau AERONET (AErosol RObotic
NETwork) [http://www.aeronet.gsfc.nasa.gov]. Ce programme a pour but dtablir les proprits optiques des
arosols et de valider les algorithmes de restitutions de ces proprits par les satellites. La mesure de
Lapprentissage statistique
396
lpaisseur optique des arosols seffectue en un point de la terre ou de locan laide de photomtres
solaires CIMEL (http://www.cimel.fr) [HOLBEN et al. 1998]. Ces donnes terrain sont extrmement impor-
tantes, elles reprsentent la seule connaissance observe des quantits physiques que lon veut retrouver.
Dans les expriences prsentes, on utilisera, pour valider lapproche neuronale, les mesures de lpais-
seur optique mesure par le photomtre celle estime par le prototype neuronal. Cependant juger les
rsultats de la comparaison est une opration dlicate, les mesures AERONET sont effectues en un point
alors que les mesures satellitaires accessibles intgrent la mesure sur une grille spatiale. Dautre part, le
CIMEL mesure lpaisseur optique partir du sol, et le satellite partir du ciel ; la couverture nuageuse
peut faire que le phnomne mesur ne soit pas le mme dans les deux cas. On a choisi pour valider le
prototype une station situe en Mditerrane, il sagit de la station de Lampedusa (35.52 N 12.62 E) pour
lanne 2000. tant donn que pour valider la mthodologie, il faut disposer pour chaque point de mesure
des spectres de rflectance correspondant, le nombre de points disponibles pour cette validation dpend
des images disponibles (capteur en fonctionnement et sans nuage) : on a donc pour cette raison unique-
ment 46 points permettant deffectuer la comparaison.
Dmontrer le bien-fond de la mthodologie propose est, comme souvent dans les applications qui utili-
sent lapprentissage non supervis, un exercice dlicat. Le problme principal provient, de ce que la vrit
(ici le type darosol ou son paisseur optique) nest pratiquement jamais observe. On voit donc que pour
juger des performances, il va falloir dcider dun certain nombre de tests qualitatifs et quantitatifs : cest
la cohrence de tous les tests qui va permettre de conclure lefficacit de la mthode propose. Dans la
suite, on validera les performances du prototype qualitativement et quantitativement partir des images
SeaWifs de 1999 pour lesquelles 9/10e des donnes nont pas particip lapprentissage. Pour complter
sa validation, les mesures dpaisseur optique estimes par le prototype seront compares, pour
lanne 2000, aux valeurs mesures pendant des campagnes de mesure AERONET. Pour les mesures de
lanne 2000, les performances qui sont prsentes dmontrent le pouvoir prdictif du prototype
neuronal, puisque aucune observation de lanne 2000 ne participe lapprentissage.
Mthodologie
Lensemble de la mthodologie propose pour mettre au point le prototype neuronal est complexe et
requiert un grand nombre de traitements. Ces traitements vont tre dtaills et justifis dans les paragra-
phes suivants. Afin daider la comprhension du procd, les traitements dtaills dans les paragraphes b
et c ci-aprs sont rsums sous forme dorganigramme la figure 7-36.
a) laboration de la carte PRSOM des rflectances
Comme dans lapplication prcdente, lensemble des vecteurs rfrents (spectres de rflectance synth-
tiques de dimension 8) dune carte auto-organisatrice en 2D de 20 20 neurones sont estims partir
dun ensemble dapprentissage. tant donn le grand nombre de spectres utiliss pour la base dappren-
tissage et le grand nombre de neurones, lensemble des rfrents peut tre considr comme un rsum
trs complet de lensemble des spectres observables par satellite sur la Mditerrane. On dnote par la
suite cette carte : carte PRSOM des rflectances ou PRSOM-R.
Les algorithmes de corrections atmosphriques utiliss par la chane oprationnelle SeaWifs dterminent
lpaisseur optique en calculant les rapports des rflectances mesures 765 nm et 865 nm. Lobjectif
final des corrections atmosphriques est dobtenir des valeurs de rflectance marine qui permettent
dinverser le signal pour calculer la concentration en chlorophylle, les matires dissoutes et les matires
en suspension. Les algorithmes dinversion [A IKEN et al. 1995], [MITCHELL, KAHRU 1998], [FROUIN et
al. 1998] utilisent des rapports de rflectance dans le visible pour retrouver les concentrations en
chlorophylle : par exemple les rapports 490 nm et 555 nm, ceux 510 nm et 555 nm [MITCHELL,
KAHRU 1998]. Il est clair, si lon prend en compte la connaissance quont les physiciens de la mesure des
Cartes auto-organisatrices et classification automatique
397
CHAPITRE 7
spectres de rflectance, que la valeur du rapport de rflectance pour certaines longueurs donde est carac-
tristique des paramtres que lon veut retrouver. Une organisation des rfrents de la carte qui exhibent
une structure en fonction des rapports de rflectance indique que lorganisation des neurones sest bien
effectue en fonction des proprits physiques des paramtres atmosphriques et ocaniques.
Afin de montrer lorganisation obtenue par la carte PRSOM-R , on a calcul (figure 7-32), partir des
spectres des rfrents, les rapports de rflectance de trois longueurs donde la valeur obtenue pour la
longueur donde 555 nm et le rapport de rflectance dans linfrarouge. On voit clairement si lon regarde
les quatre figures obtenues pour les quatre rapports, quune organisation spatiale apparat au niveau de la
carte pour chaque rapport. On en dduit que dcoder linformation physique contenue par lensemble des
rfrents doit permettre destimer les paramtres physiques recherchs.
Figure 7-32. Visualisation des rapports de rflectance 443, 490, 510 nm la valeur obtenue pour la longueur donde
555 nm et le rapport de rflectance dans linfrarouge. Chaque petit carr dune imagette reprsente la valeur du rapport
calcul pour un neurone.
Le problme rsoudre est donc dutiliser la connaissance contenue dans la carte PRSOM-R des rflec-
tances afin de retrouver les paramtres physiques qui caractrisent les arosols. Linversion que lon veut
rsoudre est multivalue, le grand nombre de paramtres qui interviennent pour former un spectre de
Lapprentissage statistique
398
rflectance fait quun mme spectre peut correspondre des configurations de paramtres physiques
diffrentes. Une manire de rsoudre le problme est davoir recours des informations extrieures. Pour
le problme expos ici, cela se fera de deux manires distinctes :
en prenant en compte la gomtrie de vise ;
en introduisant de lexpertise.
Afin de reconnatre le type darosol et son paisseur optique, lalgorithme de la chane oprationnelle de
SeaWifs effectue une recherche dans la LUT et utilise la valeur exacte de 4 angles (la position du soleil :
angle znithal s et angle azimutal o ; les conditions de vise du satellite (v et v) qui constituent la
gomtrie de vise. Un autre angle peut tre calcul partir des angles prcdents, il sagit de langle de
diffusion ( angle entre la direction de la lumire incidente sur un point et sa direction mergente) calcul
laide de la formule = arccos ( cos v cos s + sin v sin s cos )
avec = o v .
Utiliser permet de rduire le systme de coordonnes. Dans la suite, afin de limiter la complexit du
prototype neuronal, seuls deux angles seront pris en compte : langle znithal solaire et langle de diffu-
sion.
Retrouver les cartes de typologie des arosols et dpaisseur optique consiste reprer dans la LUT, le
spectre (ou les spectres) thoriques le plus ressemblant au spectre observ. Lalgorithme utilis par la
chane oprationnelle SeaWifs recherche directement dans la LUT et prend en compte les 4 angles de
vise. La taille de la LUT fait quune recherche exacte est longue et couteuse et des mthodes heuristiques
permettent alors dobtenir une solution sub-optimale. Au contraire, lapproche neuronale permet dorga-
niser la recherche et de prendre en compte laspect statistique de la recherche. Comme leffet de la gom-
trie de vise sur le spectre de rflectance est continu, le prototype neuronal va prendre en compte cette
gomtrie, mais dune manire moins fine en regroupant les gomtries en classes. Une telle approche
permettra dintroduire une marge dincertitude sur les spectres thoriques et de slectionner le spectre
thorique le plus ressemblant dune manire statistique. Pour cela, on va organiser les gomtries de vise
laide dune seconde carte auto-organisatrice : la carte PRSOM-A des angles.
tant donn que lon a limit la prise en compte de la gomtrie aux deux angles s et , lespace des
donnes classer est deux dimensions. Le regroupement des gomtries est effectu par une carte auto-
organisatrice de 10 10 neurones dont lapprentissage est effectu partir de lensemble des gomtries
(2D) qui caractrisent les observations de lensemble dapprentissage (voir les donnes). Comme le proto-
type neuronal est mis au point pour la Mditerrane, lensemble dapprentissage se restreint aux angles de
diffusion compris entre 113,67 et 180, et aux angles solaire s compris entre 7,5 et 74 qui sont ceux
recouvrant la rgion tudie. la fin de lapprentissage, les neurones sont regroups par CAH en utilisant
lindice de Ward). La meilleure partition a t slectionne en appliquant le critre du coude qui indique
10 classes de gomtrie.
La figure 7-33 montre, dans le plan (s,), la partition en 10 classes obtenue aprs classification hirar-
chique. Le dcoupage propos par la carte PRSOM-A est non linaire et prend en compte la distribution
de (s, ). Les critres statistiques utiliss font que les frontires entre deux classes se situent dans les
zones de plus faible densit. Un tel dcoupage permet, au moment du dcodage dune image sur la Mdi-
terrane, davoir un minimum de pixels situs aux frontires des diffrentes classes, et de limiter de cette
manire les effets de bords, invitables si lon prend en compte la gomtrie de vise par classes.
Cartes auto-organisatrices et classification automatique
399
CHAPITRE 7
Figure 7-33. Reprsentation dans le plan des deux angles du dcoupage effectu par la carte PRSOM des angles sur les
gomtrie de vise qui apparaissent au niveau de la mer Mditerrane.
Cette classification va permettre de spcialiser lintroduction dexpertise et donc le dcodage des spectres
de rflectance en fonction de la classe de gomtrie laquelle ils appartiennent. Pour cette raison,
lensemble des spectres observs et lensemble des spectres de la LUT vont tre classs partir de la carte
des gomtries. Chaque spectre, quil soit observ ou thorique, va conserver linformation de la classe
de gomtrie laquelle il appartient. On dcoupe alors la LUT en dix bases de donnes en fonction des
10 classes de gomtrie. On notera LUTi, la base de donne qui contient lensemble des spectres thori-
ques de la gomtrie i.
c) Introduction de lexpertise
Afin de dcoder les informations satellitaires on utilise:
lindication de la gomtrie ;
les informations sur les arosols contenues dans les LUTi, cest--dire le type T et lpaisseur optique
t(865 nm) des spectres thoriques.
Lapprentissage statistique
400
Dans notre cas, les observations sont reprsentes par lensemble des rfrents de la carte PRSOM-R.
Chaque LUTi va permettre par introduction dexpertise, partir de la carte PRSOM-R, de gnrer une
nouvelle carte expertise, elle est appele par la suite carte de rflectance, et celle ddie la classe de
gomtrie i est note PRSOM-Ri. Ce transfert de connaissance de la LUTi vers PRSOM-R va se faire en
faisant concider les spectres thoriques de la LUTi et ceux de la carte PRSOM-R . Cette mise en conci-
dence sopre en projetant les spectres thoriques de LUTi sur la carte de rflectance PRSOM-R. On
obtient alors la carte PRSOM-Ri. Chaque neurone de PRSOM-Ri va de cette manire capter un certain
nombre de spectres thoriques de LUTi dont la forme et la norme vont tre proches du rfrent du neurone
capteur. Les modles thoriques ne peuvent pas reprsenter exactement la multitude des interactions qui
apparaissent durant la traverse de latmosphre et de locan. Lensemble des spectres thoriques capts
par un neurone peut donc avoir une variance forte, indiquant une certaine dissimilarit entre lobservation
et les modles thoriques.
Lalgorithme dapprentissage PRSOM permet destimer, pendant lapprentissage, pour chacun des
neurones les carts-types des neurones. Ces carts-types reprsentent la variabilit de lobservation autour
des rfrents attachs aux neurones. Pour affiner lexpertise, on va restreindre lensemble des spectres
thoriques affects un neurone, ceux dont les proprits physiques sont en accord avec lobservation.
Dans notre cas, les canaux les plus informatifs sur les arosols sont les 3 longueurs donde 510 nm,
670 m, 865 nm ; on dcide donc de naffecter un neurone que les spectres thoriques qui, pour ces
longueurs donde, sont compris dans un intervalle de largeur 2 carts-types autour de la valeur du rfrent.
La figure 7-34 montre, pour une carte de gomtrie PRSOM-Ri, lopration de filtrage des spectres de
LUTi capts par un des neurones de cette carte. Cette opration est rpte pour les 20 20 neurones des
10 cartes de gomtrie PRSOM-Ri, dfinissant 10 cartes de rflectance qui chacune a retenu lexpertise
lie une gomtrie.
Le problme qui reste rsoudre est celui du dcodage de linformation extraite laide des LUT, cette
tape va se faire successivement pour chaque carte PRSOM-Ri. la fin de la phase de labellisation de
lexpertise, diffrents cas peuvent se produire selon les spectres thoriques de la LUTi retenus par le
neurone :
Certains neurones, appels neurones purs nont capt que des spectres thoriques dun mme type,
type que lon a dfini prcdemment selon ses proprits physiques ; on peut dans ce cas infrer le type
du neurone. Un neurone pur prend comme tiquette celle du type darosol commun aux spectres
thoriques capts et comme paisseur optique (865 nm) la moyenne des paisseurs optiques de ces
spectres. Pour le prototype neuronal, on a introduit une marge dincertitude en appliquant la rgle du
neurone pur si le nombre de spectres dun mme type dpasse 95 % du nombre total de LUTi
gagns. De mme font partie des neurones purs tous les neurones dont la moyenne des paisseurs
optiques 865 nm des spectres thoriques capts par un neurone est infrieur 0,1. Lpaisseur optique
tant trs faible, on dcide alors de lui attribuer le type Maritime, et on affecte ces neurones la
moyenne des paisseurs optiques de lensemble des spectres thoriques capts par le neurone tous types
confondus. En effet, dans ce cas, les proprits physiques des arosols ninflueront quasiment pas la
correction atmosphrique.
lissue de cette premire opration, un certain nombre de neurones nont pas dtiquette, ce qui
sexplique par limperfection des modles darosols reproduire lobservation et la prise en compte
partielle de la gomtrie de vise. Deux cas vont se prsenter : un neurone peut avoir capt des spectres
thoriques de plusieurs types ( neurone mixte ) ou, tant vraiment diffrent de tous les spectres de la
LUT, navoir capt aucun spectre thorique ( neurone blanc ).
Pour un neurone mixte , on poursuit la prise en compte de lexpertise en sparant lensemble des
spectres thoriques capts selon leur type. On estime alors pour chaque type un spectre thorique et une
paisseur optique en moyennant les spectres de la LUT qui ont t slectionns. Un neurone mixte
Cartes auto-organisatrices et classification automatique
401
CHAPITRE 7
est maintenant reprsent par son rfrent et lensemble des spectres moyens calculs et lpaisseur
optique moyenne (il peut y avoir jusqu 5 spectres moyens reprsentant les 5 types possibles). La
figure 7-35 montre un neurone mixte auxquel sont associs 4 types darosols (donc 4 spectres
moyens). On effectue cette opration pour chaque neurone mixte et pour chaque carte PRSOM-Ri.
Figure 7-34. Reprsentation dune opration de filtrage des Figure 7-35. Reprsentation dun neurone avec les barres
Luts pour le neurone 62. derreurs deux carts-types calculs au cours de lappren-
tissage par lalgorithme PRSOM ; et spectres thoriques
moyens attachs ce neurone. Ce neurone est un neurone
mixte .
La dtermination du type et de lpaisseur optique dun neurone mixte , ainsi que lpaisseur optique
dun neurone blanc se feront lors de la phase danalyse (et non plus de labellisation) de chaque image.
Cette dtermination pourra donc varier dune image lautre selon ses proprits physiques et va se faire
en prenant en compte lensemble des informations contenues dans limage satellitaire. Mis part les
neurones purs dont le type est fix, un neurone prendra son type et son paisseur optique aprs une
premire phase danalyse de limage SeaWifs tout entire. Cette premire phase permet de pendre en
compte les informations de contexte contenues dans limage et dans la topologie de la carte.
la fin de ltiquetage les neurones mixtes et les neurones purs ont chacun un type et une pais-
seur optique. Les neurones blancs nont en fait capt aucune expertise. Utilisant les proprits de
voisinage des cartes auto-organisatrices ils peuvent dduire leur paisseur optique de ceux des neurones
voisins. Un neurone blanc calcule son paisseur optique en effectuant la moyenne des paisseurs opti-
ques des neurones purs et neurones mixtes de sa classe dtermine par CAH. Dans le prototype
neuronal de la Mditerrane , on a effectu pour chaque carte PRSOM-Ri une CAH en 30 classes (chiffre
optimis laide du critre du coude). Dans ltat actuel du prototype neuronal on ne prend pas de dci-
sion sur le type des neurones blancs .
Dautre part, chaque neurone peut tre considr comme reprsentant les 5 types darosols avec des
probabilits diffrentes. Les cartes auto-organisatrice utilises ici (algorithme PRSOM) sont issues dun
formalisme probabiliste qui permet de calculer pour chaque pixel de limage SeaWifs analyse, en fonc-
tion de lensemble des 20 20 neurones de la carte, les probabilits a posteriori des 5 types possibles.
Ceci va permettre, dans les images prsentes ci-aprs, destimer la confiance que lon a de la typologie
des arosols proposs.
Le deuxime passage de limage consiste simplement projeter chaque pixel de limage SeaWifs sur les
cartes PRSOM-Ri en fonction de sa gomtrie. Le pixel reoit alors le type et lpaisseur optique du
neurone auquel il est affect.
Le processus peut se rsumer dune manire schmatique (voir figure 7-36) et par lalgorithme encadr.
Phase de prise en compte de la gomtrie
LUT
Rsultats
Le paragraphe qui suit prsente le dcodage dimages fournies par le radiomtre SeaWifs pour une
semaine daot 1999 (du 6 au 11 aot). Un intense nuage de poussire dsertique originaire du nord de
lAfrique, samplifiant puis stalant vers le Nord-Est a t observ cette date. Les cartes mtorologi-
ques, prsentes dans la figure 7-37, nous montrent que le sens du vent est du Sud-Ouest vers le Nord-Est
(en raison de leffet de Coriolis, le vent se dirige droite de la ligne allant des hautes pressions vers les
basses pressions). On sattend donc ce que les images fournies par le prototype rvlent bien le passage
de ces poussires allant dans le mme sens que la trajectoire du vent. La figure 7-38 illustre les rsultats
de la typologie et des paisseurs optiques fournies par le prototype pour les journes du 7, 8, 9 aot. En
analysant les images, on constate effectivement llargissement et le dplacement du panache darosols,
douest en est, partir de la cte tunisienne.
Afin dobtenir plus dinformations sur les nuages darosols retrouvs, on calcule en utilisant les formules
du paragraphe tiquetage et probabilit la probabilit a posteriori de chaque type pour chacun des
pixels de limage. La figure 7-39 donne pour le 28 juin 2000 la typologie des arosols propose par le
prototype neuronal et la figure 7-40 prsente pour le type poussire les diffrentes probabilits esti-
mes par le calcul. On remarque la bonne adquation entre la carte des typologies et celle des probabilits.
Les pixels ont des probabilits proches de 1 au centre du nuage et des probabilits faibles sur les bords.
On a compar les paisseurs optiques donnes par le prototype neuronal aux 46 mesures de lanne 2000
obtenues avec lexprience AERONET la station de Lampedusa ; comparaison qui ne doit pas omettre
le nombre important dincertitudes pesant sur les observations (satellitaire ou in situ) :
Pour les paisseurs optiques calcules partir des donnes satellitaires on considre les paisseurs opti-
ques sur un pav de 3 3 pixels autour de la position du photomtre au sol. On effectue alors un test
dhomognit spatiale en ne gardant que les mesures (parmi les 9) qui sont comprises entre +/ un
cart-type autour de leur moyenne. La valeur finale qui sera compare est la valeur moyenne des
mesures rpondant au test.
Les paisseurs optiques du rseau AERONET utilises pour la validation sont les moyennes des
mesures effectues entre 10 h et 13 h. En effet, les mesures SeaWifs au-dessus de la Mditerrane sont
acquises vers 11 h (+/ 1 h) tous les jours.
Lapprentissage statistique
404
Figure 7-39. Typologie des arosols proposs par le prototype neuronal pour la journe du 28 juin 2000.
Figure 7-40. Image du 28 juin 2000. Probabilit a posteriori pour les pixels de limage du 8 aot dappartenir au type
poussire . Les valeurs ngatives sur lchelle de couleur sont imposes par la reprsentation graphique pour introduire
le masque de terre. Sur la mer, les niveaux de gris correspondent bien aux probabilits calcules partir du prototype .
Lapprentissage statistique
406
On utilisera pour la comparaison des paisseurs optiques les performances obtenues sur deux indices :
lerreur quadratique;
lerreur relative moyenne.
Le tableau 7-4 donne les erreurs quadratiques et les erreurs
Prototype SeaWiFS
relatives obtenues en comparant les mesures AERONET
aux estimations du prototype et celles produites par la RMS 0.0364 0.0381
chane oprationnelle de SeaWifs. Seuls 34 points sont Erreur relative 0.3085 0.3282
utiliss dans cette comparaison, la chane oprationnelle Tableau 7-4. Comparaisons des indices de perfor-
de SeaWifs cartant les 12 points restant qui ont t mances obtenues par le prototype neuronal et
limins par le masque de nuage. La figure 7-41 compare lalgorithme de la chane oprationnelle SeaWifs
pour ces mmes mesures les diagrammes de dispersion sur les 34 points de mesure de la station
obtenus pour le prototype neuronal et par la chane opra- AERONET de Lampedusa.
tionnelle de SeaWifs. On constate une amlioration des
performances si lon utilise le prototype neuronal. Dautre Prototype
part, le prototype neuronal donne une estimation de RMS 0.0410
lpaisseur optique pour lensemble des 46 points de Erreur relative 0.2774
mesure disponibles en 2000. Une comparaison entre les
mesures AERONET et les estimations du prototype est Tableau 7-5. Comparaisons des indices de perfor-
donne la figure 7-42 avec les barres derreur attaches mances obtenues par le prototype neuronal sur
les 46 points de mesure de la station AERONET
chaque mesure. Sur la figure, il est facile de voir que les de Lampedusa.
variations temporelles observes par le radiomtre sont
reproduites par les estimations donnes par le prototype, les valeurs tant plutt surestimes. Les deux
indices ont t calculs sur lensemble des 46 points (tableau 7-5) ; o lon observe une amlioration des
performances. Il est clair que le prototype ralis peut dcoder avec succs des situations pour lesquelles
les paisseurs optiques sont fortes, ces situations tant cartes par la chane oprationnelle de SeaWifs.
Figure7-41. Comparaison des deux diagrammes de disper- Figure 7-42. Comparaison des paisseurs optique obtenues par
sion obtenus par le prototype neuronal et la chane opra- le prototype neuronal et des mesures effectus par le radiomtre
tionnelle de SeaWifs pour lanalyse des 34 mesures de CIME. La comparaison est effectue sur les 46 points disponi-
lanne 2000 de lexprience AERONET. bles pour lanne 2000 dans la station de Lampedusa. Chaque
point est reprsent avec lincertitude qui a t calcule.
Cartes auto-organisatrices et classification automatique
407
CHAPITRE 7
Conclusion
Les performances obtenues prouvent la validit du prototype neuronal. Lapproche statistique que lon
vient de dcrire prsente un caractre de gnralit qui permet denvisager le dcodage dautres mesures
satellitales en ayant recours la mme mthodologie. On peut, par classification puis introduction
dexpertise, mettre laccent sur des cartographies spcifiques (sol, culture).
Le codage de linformation
Le prtraitement effectu sur un texte doit permettre den extraire une information significative qui est
directement conditionne par les particularits du domaine dtude. Bien entendu, ce codage doit gale-
ment prendre en considration les particularits attaches au formalisme des cartes topologiques : lalgo-
rithme de Kohonen traite des donnes quantitatives multidimensionnelles ; chaque texte doit, pour cette
raison, tre reprsent par un vecteur de Rn. La dernire version du systme Websom traite dun corpus de
6 840 568 rsums de langue anglaise, dans lequel en moyenne chaque abstract est reprsent par un
ensemble de 132 mots. Pour effectuer le codage de lensemble des chiffres et des symboles spciaux, les
mots apparaissant moins de 50 fois ainsi que 1335 mots trop communs ont t supprims. On considre
finalement, pour le corpus dans son entier, un ensemble de 43 222 mots. Plusieurs versions de Websom
Lapprentissage statistique
408
existent ; la premire codait directement lhistogramme du texte laide dun vecteur dont la dimension
tait gale au nombre de mots. Dans ce codage, chaque composante de ce vecteur correspond la
frquence doccurrence dun mot particulier, affect dun poids qui reprsente limportance du mot pour
la signification du texte. Diffrentes mthodes de compression de linformation pour diminuer cette
dimension prohibitive ont t proposes : rduction par projection (analyse en composantes principales)
ou utilisation dune des mthodes de projections alatoires. Cest la mthode des projections alatoires
qui est actuellement implmente : chaque texte est reprsent par un vecteur de dimension 500 qui
rsume le texte en analysant son vocabulaire dune manire statistique. La complexit du codage est
O(NL) + (n), o N reprsente le nombre de documents. Le nombre moyen de mots diffrents contenu dans
un texte, et n la dimension initiale des histogrammes. Pour comparaison, la mthode la plus simple qui
compresse les histogrammes par projection est en O(NLd). Ces amliorations substantielles ont permis
denvisager une utilisation oprationnelle de Websom sur le corpus tout entier.
lordre topologique pour de trs grandes cartes. De plus, une amlioration de la rapidit de convergence
est obtenue en utilisant une recherche rapide du plus proche voisin, qui se sert explicitement de lordre
topologique trouv par les cartes successives.
la situation familiale (clibataire, veuf, divorc, mari). Les variables ainsi dfinies sont appeles varia-
bles catgorielles ; elles sont classes en deux groupes : les variables catgorielles ordinales, qui se carac-
trisent par lexistence dun ordre implicite entre les modalits (comme la taille), et les variables catgo-
rielles nominales (comme la situation familiale). Si lon utilise un codage adapt, les donnes
catgorielles peuvent devenir des donnes binaires. Les codages utiliss le plus souvent sont :
Le codage binaire additif : sappliquant aux variables ordinales, il permet essentiellement de conserver
lordre implicite entre les modalits dune variable.
Le codage disjonctif complet : ce codage sapplique aux variables nominales.
Le tableau 7-6 prsente ces deux types de codage Modalits Codage additif Codage disjonctif
binaire dune variable catgorielle trois modalits.
1 100 100
La statistique descriptive permet de rsumer un
2 110 010
ensemble dobservations par des grandeurs caractristi-
ques. Dans le cas des donnes numriques, si lon 3 1 1 1 001
utilise la distance euclidienne, il est possible de rsumer Tableau 7-6. Codage des modalits
un ensemble dobservations dans lespace des donnes
par sa moyenne et son cart-type. Si les observations sont en dimensions multiples, on peut utiliser le
centre de gravit et linertie. Des caractristiques quivalentes ont t dfinies pour le traitement des
donnes binaires si lon utilise la distance de Hamming [GOVAERT 1990, CELEUX 1991, GIROLAMI 2001,
PATRIKAINEN 2004, BISHOP 1998, VERBEEK 2005] ; lensemble des donnes est dcrit laide dun centre
mdian, lui-mme binaire. Pour des donnes formes de vecteurs dont les composantes sont catgorielles,
le rsum peut tre effectu par le calcul de tables de probabilits lies chaque modalit de chaque
variable.
Comme indiqu plus haut, les cartes topologiques numriques minimisent une fonction de cot qui
dpend des inerties intra-classe dfinies partir de la distance euclidienne, ou bien maximisent une fonc-
tion de vraisemblance (cas de PRSOM). Pour proposer une classification de la mme manire, les cartes
topologiques binaires et probabilistes minimisent :
une fonction dinertie dfinie partir de la distance de Hamming pour le modle BTM (donnes
binaires) ;
une fonction de vraisemblance pour le modle CTM (donnes catgorielles).
Les deux sections suivantes prsentent les modles BTM et CTM.
la relation suivante :
n
H ( z1 ; z2 ) = z1j z2j . (40)
j =1
Comme pour le modle classique des cartes topologiques, on utilise, pour le modle BTM, un rseau de
neurones avec une couche dentre pour les variables et une carte C possdant une structure de graphe
rgulier [LEBBAH 2000], [LEBBAH 2003]. On dtermine les rfrents en minimisant une fonction de cot
T
J bin ( ;W ) (formule 41) en utilisant la distance de Hamming, semblable J Som T
( ;WT ) (relation 16).
chaque neurone c de C est associe un rfrent wc et W = {wc / c C }. Comme pour J Som , la minimisation
T
de J bin par rapport et W permet de raliser la conservation de la topologie de la carte C, et de fournir une
Cartes auto-organisatrices et classification automatique
411
CHAPITRE 7
T
Lexpression (41) est semblable la fonction de cot J som (relation 16), dans laquelle la distance eucli-
dienne entre lobservation z et un rfrent wr est remplace par la distance de Hamming. Si lon dfinit
T
une distance de Hamming pondre, note dbin , qui fait intervenir lensemble de tous les rfrents
T
dbin ( z; w ( zi ) ) = K T ( ( ( zi ); r )) H ( zi ; wr ) (42)
r C
avec
Ir = K ( ( ( z ); r )) H ( z ; w ).
T
i i r
(45)
zi A
La formule (45) fait apparatre une expression qui correspond linertie relativement la distance de
Hamming des observations de A par rapport au vecteur rfrent wr, chaque observation zi tant pondre
((
par ir = K T ( zi ) ; r . ) )
Pour fix, la minimisation de J bin
T
( ;W ) par rapport W revient minimiser chaque inertie par rapport
au rfrent wr. Le minimum de Ir dans n = {0;1}n nest autre que le centre mdian de A lorsque chaque
(( ))
observation zi est pondre par ir = K T ( zi ); r . Le rfrent trouv est toujours de mme type que
celui des observations zi et possde une interprtation symbolique. La dfinition du centre mdian et la
dmonstration du rsultat sont donnes dans la remarque qui suit.
Lapprentissage statistique
412
Remarque
Si lon considre linertie par rapport w = (w 1 ;w 2 ;...;w n ) n de lensemble A dont les observation zi sont pondres par les coefcients
I :
n
I (w ) = i H ( z i ;w ) = i | z ij w j |
z i A z i A j =1
( )
qui scrit : I (w ) = I w j o I (w j ) = i (1 z ij )w j + i z ij (1 w j ).
j =1 z i A z i A
z i A
(
En posant 0j = i 1 z ij et j =
1
) z , on a I (w
zi A
i i
j j
( )
) = w j 0j + 1 w j 1j
o 0j reprsente la somme des pondrations des observations de A dont la valeur de la j composante j est gale 0, et 1j reprsente la
somme des pondrations des observations de A dont la valeur de la composante j est gale 1. Il est facile de voir que cette expression
0 si 0 1
j j
Le vecteur w qui minimise I(w ) est form par lensemble des mdianes relatives toutes les composantes ; ce vecteur est appel le centre
mdian de A relativement aux pondrations choisies.
Ce rsultat montre que le rfrent r nest autre que le centre mdian des observations de A lorsque celles-ci sont pondres par les
(
ir = K T ( ( z i ) ; r ) .)
Algorithme des cartes topologiques binaires T fix
tape dinitialisation t = 0
Choisir la structure et la taille p de la carte. Choisir les p rfrents initiaux, en gnral dune manire ala-
toire, et le nombre ditrations Niter.
tape itrative t
Lensemble des rfrents Wt-1 de ltape prcdente tant connu :
Phase daffectation : mise jour de la fonction daffectation . On affecte chaque observation zi
t
p( z ) = p ( c ) p ( z ) avec p ( z ) = p ( c c ) p ( z c ).
2 c2 c2 1 2 1
(46)
c2 C2 c1 C1
( ) ( )
lindpendance des composantes de z, on peut alors crire : p ( z c1 ) = p z k c1 , o p z k c1 reprsente
k =1
une table unidimensionnelle de probabilits (de dimension mk ) contenant les probabilits des mk moda-
{
lits de la composante z k . Cette table de probabilits sera note par la suite k ;c1 = kj ;c1 ; j = 1...mk . }
Lensemble des paramtres permettant de dfinir les diffrentes probabilits p ( z c1 ) dun neurone c1 de la
carte est constitu de lunion de toutes les tables de probabilits des variables composantes :
( )
c1 = nk =1 k ;c1 . On note par la suite p z c1 ; c1 lorsquon a fix les valeurs des paramtres 1. On
c
Lapprentissage statistique
414
dsigne lensemble des tables de probabilits par 1 = cp=1 c1, et lensemble des probabilits a priori par
{ }
2 = c2 ; c2 = 1.. p o c2 = p(c2 ).
Le modle CTM ncessite la dfinition de lensemble des coefficients du mlange = 1 2.
Lestimation des paramtres est obtenue en maximisant la vraisemblance des observations :
N
V T ( A; ) = p ( zi ), o T reprsente le paramtre dfinissant les probabilits conditionnelles p ( c1 c2 ).
i =1
p ( z ) = p ( z; ) = p ( z c ) p ( c c ) p ( c ),
1 1 2 2
= ( c1 ;c2 )
car p ( z; c1 , c2 ) = p ( c2 ) p ( c1 c2 ) p ( z c2 ).
Ainsi, chaque donne rellement observe zi correspond une donne catgorielle disjonctive non
observe xi qui appartient C1 C2 ; on dfinit = {i , i = 1..N }. Si lon code la variable i par le codage
binaire disjonctif, on obtient un vecteur binaire y i , de dimension p p, dont les composantes
1 si i = (c1 , c2 )
y(ic1 ;c2 ) sont dfinies par : y(ic1 ;c2 ) = .
0 sinon
Avec cette notation, la vraisemblance des donnes compltes par les variables caches correspondantes
scrit :
( )
y(i c1 ; c2 )
c K T ( c2 ; c1 )
( )
N N
V ( A; ; ) = p ( zi ; i ) = 2
T
p zi c1 ; c1
i =1 i =1 c2 C2 c1 C1
Tc2
(
K T ( c2 ; c1 ) )
ln V T ( A; ; ) = y i
( c1 ;c2 ) ( )
ln c2 + ln (
+ ln p zi / c1 ; c1 ) . (47)
zi A c2 C2 c1 C1 Tc2
Le terme entre crochets est calculable, et dpend des paramtres estimer. En revanche, les y(ic1 ;c2 ) sont
des variables alatoires de Bernoulli ; il est possible de les estimer par leur valeur moyenne. Ainsi, une
itration t, on fixe la valeur des paramtres t, on calcule alors la moyenne :
Cartes auto-organisatrices et classification automatique
415
CHAPITRE 7
p ( c 1, c 2 z i ; ) p ( c 2 ) p ( c 1 c 2 ) p ( z i c 1, )
t t t
E t ( y c1, c2 ) = p ( y c1, c2 = 1 ) = p ( c 1, c 2 z i ; ) = ---------------------------------
i i t t
= -------------------------------------------------------------------
-
p ( zi ) p ( zi )
t t
(48)
t, c t, c
2 p ( c 1 c 2 ) p ( z i c 1, 1 )
= --------------------------------------------------------------.
p ( zi )
t
( )
QT , t = E t ln V T ( A; ; ) A, t =
K T ( c2 ; c1 ) ( ) (49)
E (y t
i
( c1 ;c2 ) ) ( )
ln c2 + ln
Tc2
+ ln p zi / c1 ; 1
c
( ) .
zi A c2 C2 c1 C1
Rsultat
On dmontre alors que si les paramtres t sont xs et si t +1 maximise Q T (q ; q t ) par rapport , alors on a V T ( A; t +1 ) V T ( A; t ).
Autrement dit, t +1 amliore la vraisemblance des observations V T ( A; ) par rapport la vraisemblance calcule en t .
Ce rsultat suggre un algorithme itratif, o chaque itration recalcule des paramtres qui amliorent la
valeur de la fonction de vraisemblance des observations par rapport aux paramtres calculs litration
prcdente. Ainsi, partant des paramtres t calculs litration t, litration t+1 recalcule les paramtres
t +1. Pour cela, on doit dabord estimer QT ( ; t ) par la formule (48) et ensuite estimer t +1 qui maximise
QT ( ; t )par rapport et pour t fix.
Nous ne prsentons pas ici les dtails des calculs des paramtres qui maximisent QT ( ; t ). Ces calculs
donnent les formules suivantes :
= c2
zi A (
p c2 zi , t ) (50)
(
p c2 zi , t
)
zi k , j (
p c1 zi , t )
k ,c1
= (51)
p(c z , )
j t
zi A 1 i
(
avec p c1 zi ; t = ) p(c ; c
c2 C2
1 2 z i ; t .)
{ }
Dans ces formules, k ; j = zi A ; zik = x kj correspond lensemble des individus zi qui ont rpondu par
la modalit j leur composante k.
Il est alors possible de proposer lalgorithme suivant :
Algorithme pour T fix
Initialisation.
Choisir les paramtres initiaux 0 et un nombre ditrations N iter .
Itration de base (t 1).
Lapprentissage statistique
416
Ayant estim les paramtres t litration prcdente, litration en cours estime les nouveaux param-
tres t+1 en appliquant les formules (50) et (51).
Rpter litration de base jusqu t = Niter.
Remarque 2
Le rsultat prcdent, et lalgorithme qui en rsulte, constituent des cas particuliers dun rsultat plus gnral, duquel dcoule lalgorithme
E-M (Expectation-Maximization) [DEMPSTER 1977].
tape itrative (t 1)
Lensemble des paramtres t de ltape prcdente tant connu, calculer la nouvelle valeur de T par la
t
T Niter 1
relation : T = Tmax min .
T max
Pour cette valeur du paramtre T, calculer t +1 laide des relations (50) et (51).
Rpter ltape itrative jusqu t = Niter.
Discussion
On note que lalgorithme dapprentissage CTM dpend de linitialisation des paramtres. Les rsultats
obtenus en dpendent galement. Dans tous les exemples qui vont suivre, les paramtres sont pris gaux
1 et les paramtres 01 sont initialiss laide de la partition trouve par lalgorithme BTM en appli-
p
quant un codage (binaire) adquat aux donnes catgorielles. Les tables de probabilits p ( z c1 ) sont donc
initialises par comptage sur cette partition. On estime la probabilit dapparition de chaque modalit x kj
(modalit j de composante k) par sa frquence relative dans le sous-ensemble des observations affectes
{ }
au neurone c1. Ainsi, si lon dsigne par kc1; j = zi Pc1 ; zik = x kj lensemble des individus zi du sous-
ensemble Pc1 de la partition qui ont rpondu par la modalit j la composante k, les probabilits initiales
card ( kc1; ;j0 )
seront donnes par 0k;;cj 1 = o nc1 est la cardinalit du sous-ensemble Pc1.
nc1
Cartes auto-organisatrices et classification automatique
417
CHAPITRE 7
Exemples dapplication
Le modle BTM
Pour illustrer le comportement du modle BTM, on considre un exemple pris dans [TENENHAUS 1998].
Il sagit dune petite base de donnes symbolique qui reprsente les qualits attribues 27 races de
chiens. Chacune delles est reprsente par 7 variables catgorielles. Pour le modle BTM, chaque obser-
vation z est ici une race de chiens dont les caractristiques sont spcifies laide des variables et des
modalits suivantes : Taille (Petite, Moyenne, Grande), Poids (Petit, Moyen, Grand), Vlocit (Petite,
Moyenne, Grande), Intelligence (Petite, Moyenne, Grande), Affectation (Affectueux, Non Affectueux),
Agressivit (Agressif, Non Agressif), Fonction (Utile, Chasse, Compagnie).
Pour prsenter les diffrents rsultats de lapprentissage et effectuer les analyses nous utiliserons les nota-
tions suivantes :
PT = Petite Taille, MT = Moyenne Taille, GT = Grande Taille.
PP = Petit Poids, MP = Moyen Poids, GP = Grand Poids.
PV = Petite Vlocit, MV = Moyenne Vlocit, GV = Grande Vlocit.
PI = Petite Intelligence, MI = Moyenne Intelligence, GI = Grande intelligence.
AF = Affectueux, NAF = Non Affectueux.
AG = Agressif, NAG = Non Agressif.
U = Utile, CH = Chasse, CM = Compagnie.
La base des races de chiens est donc constitue dun tableau binaire de 27 lignes et 19 colonnes qui repr-
sentent lensemble des modalits des 7 variables catgorielles.
PT MT GT PP MP GP PV MV GV PI MI GI NAF AF NAG AG CM CH U
Beauceron 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0
Berger allemand 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Bulldog 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Bullmastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1
Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0
Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0
Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0
Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
Dogue allemand 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1
pagneul breton 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0
pagneul franais 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0
Foxhound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0
Fox terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Grand bleu de Gascogne 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0
Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0
Lvrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0
Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1
Pkinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0
St Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1
Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0
Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0
Terre-Neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
Tableau 7-7. Les caractristiques canines
Lapprentissage statistique
418
tant donne la petite taille de la base, nous avons utilis une carte de 5 5 neurones, et lensemble des
donnes a t utilis pour lapprentissage. Il sagit ici deffectuer une analyse descriptive. Les classifica-
tions paramtres ont t obtenues avec les valeurs des paramtres suivants : Tmax = 5, Tmin = 1, N iter = 50.
Aprs 50 itrations, on obtient la grille reprsente par la figure 7-43. Cette carte illustre les races de
chiens captes par chaque neurone, ainsi que la caractristique de ce groupement qui est le rfrent repr-
sentant le centre mdian du sous-ensemble. La carte fait apparatre un ordre topologique : on retrouve les
chiens de petite taille, petit poids, petite vlocit, affectueux et de compagnie autour de nuds voisins
dans le coin gauche en haut de la carte. La diffrence rside dans le fait que les chiens capts par le
neurone contenant (Bull-Dog, Cocker, Fox-Terrier) sont agressifs par rapport ceux du neurone voisin
(Caniche, Chihuahua, Pkinois, Teckel) qui ne le sont pas. Dans le coin infrieur gauche de la carte se
trouvent les chiens utiles, non affectueux et de grand poids avec une grande taille. On observe les mmes
caractristiques chez les chiens des neurones voisins (Terre Neuve, Bull Mastiff, Saint Bernard, Mastiff,
Dogue Allemand). On peut faire la mme analyse pour les classes restantes.
PT, PP, PV, AF, PT, PP, PV, MI, AF, MT, MP, MV, MI, AF, MT, MP, MV, MI, AF, MT, MP, MV, GI,AF,
NAG, CM AG, CM NAG, CM NAG, CH NAG, CH
Caniche, Chihuahua, Bull Dog, Cocker, Boxer, Colley, Dalmatien Labrador pagneul Breton
Pkinois, Teckel Fox-Terrier
0 1 2 3 4
GT, MP, PI, NAF, AG, CH
Fox Hound,
Gr bleu de Gascogne
5 6 7 8 9
GT, GP, PV, MI, NAF, GT, MP, GV, GI, AF, PT, PP, PV, PI, NAF,
NAG, U AG, U AG, CH
Terre Neuve Beauceron, Berger Basset
Allemand, Doberman
10 11 12 13 14
GT, GP, PV, NAF, AG, U GT, MP, GV, NAF,
Bull Mastiff, NAG, CH
Saint Bernard Lvrier, Pointer, Setter
15 16 17 18 19
GT, GP, PV, PI, NAF, AG, GT, GP, GV, PI, NAF, GT, MP, MV, MI, NAF,
U AG, U NAG, CH
Mastiff Dogue allemand pagneul franais
20 21 22 23 24
Figure 7-43. Carte topologique engendre par lalgorithme BTM ; dans chaque case se trouve linterprtation du rfrent,
ainsi que les chiens capts par le neurone dont le numro est indiqu (25 neurones). Les cases vides sont celles qui nont
capt aucun chien.
Labrador. Les chiens du quadrant infrieur gauche sont tous des chiens dutilit. Le quadrant suprieur
gauche mlange les chiens de chasse et dutilit restants. Si lon compare ces rsultats avec ceux de la
figure 7-43, on remarque, sur la carte topologique, que les chiens capts par les neurones voisins 0, 1 et 2
correspondent aux chiens de compagnie, et les chiens des neurones 3, 4 et 9 sont des chiens de chasse. Les
chiens du quadrant gauche correspondent aux chiens capts par les neurones voisins 10, 15, 20 et 21.
Finalement, le mlange de chiens qui se trouve sur la carte issue de lACM peut sexpliquer par le lien de
voisinage qui se cre entre les chiens capts par des neurones voisins. On voit donc que le modle BTM
permet une classification plus fine des diffrents groupes. Le fait de travailler directement dans lespace
des donnes permet dviter la projection sur un plan qui peut permettre un mlange de certains groupes.
1,5
pagneul breton
Labrador
Dalmatien
1,0 Boxer
pagneul franais
Chasse
-1,5 Compagnie
-1,5 1,0 -0,5 0,0 0,5 1,0 1,5
Axe 1
Figure 7-44. Prise de [TENENHAUS 1998], page 226, figure 88. Analyse des correspondances multiples.
Le modle CTM
Le deuxime exemple traite un problme rel [SAPORTA 1990], mettant en uvre des donnes provenant
dune compagnie dassurance. Les 1 106 observations prsentes dans la base caractrisent diffrents
conducteurs, classs en deux groupes suivant les accidents quils ont provoqu. Chaque individu est
caractris par 9 variables catgorielles deux ou trois modalits : Utilit (Prive, Professionnelle), Sexe
(Homme, Femme, Vhicule de Socit), Langue (Franais, Autre), ge (Vieux, Moyen, Jeune) Locali-
sation (Capitale, Province), Bonus (Oui, Non), Police (86, Autre), Puissance (Grande, Petite), ge
Vhicule (Ancien, Nouveau). On distingue deux types de conducteurs, ceux qui nont jamais subi dacci-
dents (Classe 1) et ceux qui sont responsables dau moins un accident (Classe 2).
La prsentation qui suit permet dillustrer le comportement de CTM selon plusieurs axes :
introduction de lordre topologique : analyse exploratoire ;
utilisation de variables explicatives : discrimination entre bon conducteur (1) et mauvais conducteur (2)
Lapprentissage statistique
420
Ici encore, on a choisi, pour la clart de lexpos, une carte de petite dimension (5 5 neurones) et lon a
effectu lapprentissage sur lensemble des 1 106 individus. Chacun des 25 neurones est donc reprsent
par un rfrent constitu de 9 tables de probabilits de dimension deux ou trois selon le nombre de compo-
santes de la variable catgorielle.
Chaque observation reprsentant un assur est affecte au neurone c1 ayant la plus forte probabilit a
posteriori p ( c1 z ). La figure 7-45 montre les 25 probabilits a posteriori calcules sur toute la carte 5 5
pour une observation de la base :
z = (Pf, H, Fr, V, Pr, 1, 86, Pt, Nou).
On constate sur la figure 7-45 que la distribution de
probabilits p ( c1 z ) est une rgion connexe autour du
neurone le plus probable (couleur noire).
Afin de montrer les facilits de reprsentation quoffre
la mise en ordre de la partition obtenue aprs appren-
tissage sur la carte CTM, prsentons quelques exem-
ples simples de visualisation. Le tableau 7-8 prsente
la table de probabilits estimes par lalgorithme
dapprentissage CTM pour le premier neurone situ en
haut et gauche de la carte. On remarque que certaines
modalits sont trs probables. Lanalyse de limpor-
tance des probabilits nous permet dinterprter ce
neurone comme reprsentant les individus qui sont
Professionnels avec une probabilit de 0,99, qui vivent Figure 7-45. Reprsentation sur la carte CTM
en Province avec la probabilit de 0,85 et qui ont un des probabilits posteriori p ( c1 z ) ,
pour lobservation z = (Pf, H, Fr, V, Pr, 1, 86. Pt. Nou)
Ancien vhicule avec la probabilit 0,81. On constate
que ces individus ont le bonus avec une probabilit
de 0,98.
Variable k
c1;k
La visualisation sur la carte des probabilits lies tous les neurones permet de vrifier quun ordre est
bien apparu pendant lapprentissage. Comme dans les exemples prcdents, la prise en considration
simultane des cartes associes aux diffrentes variables permet une interprtation des diffrentes direc-
tions, et dune manire plus gnrale, de la carte. La figure 7-46 qui reprsente la distribution de probabi-
Cartes auto-organisatrices et classification automatique
421
CHAPITRE 7
lits des deux modalits (Prive et Professionnelle) de la variable Utilit du vhicule permet dobserver
la cohrence entre lamplitude des 2 modalits et la structure topologique de la carte.
Figure 7-46. Distribution de la probabilit de la variable Utilit du vhicule. Chaque neurone de la carte est reprsent par
un histogramme ; la premire barre indique la modalit Prive ; la deuxime barre indique la modalit Professionnel.
La figure 7-47 montre la distribution des trois modalits (Vieux, Moyen et Jeune) de la variables ge. La
reprsentation simultane des 3 cartes en niveaux de gris, fait apparatre la disposition des diffrents
groupes : gauche, les personnes ges (V), les conducteurs jeunes (J) sont groups avec une forte proba-
bilit dans le coin suprieur droit, et la tranche dge moyen (M) est plutt situe dans le coin infrieur
droit. Certaines zones sont franchement ddies une modalit, alors que les deux premires colonnes de
la carte montrent clairement quune partie des conducteurs se ressemble du point de vue des caractristi-
ques, quel que soit leur ge.
Lapprentissage statistique
422
(V) (J)
(M)
Figure 7-47. Carte topologique reprsentant la distribution des trois modalits de la variable ge
(V : Vieux, M : ge Moyen, J : Jeune)
Si lon poursuit ces visualisations variable par variable, il devient possible de caractriser les diffrents
groupements qui apparaissent. Cependant, rechercher des visualisations plus complexes, qui font inter-
venir plusieurs variables, et utiliser les tables de probabilits pour trier linformation, permettent de faire
une meilleure interprtation des groupements proposs par la classification CTM.
1 1 1 2
1 1 1 2 2
1 2 2
2 2 2
2 2 2 2
Figure 7-48. Distribution de la probabilit des quatre variables ; chaque neurone de la carte est reprsent par 4 histogrammes ;
dans chaque neurone, la ligne du haut prsente la variable Sexe qui correspond au premier histogramme ; sur la mme ligne, on
a la variable ge ; sur la deuxime ligne, on a la variable Puissance, suivie de la variable ge Vhicule. La mention 1 et 2
indique ltiquette obtenue aprs avoir effectu un vote majoritaire dans chaque sous-ensemble de la partition obtenue.
HV -J HJ FJ -J
- |An - |An - |An Pt Nou Gr-
H - -J HJ FJ VS J
-- - |An Gr |An Pt Nou Gr Nou
HV H- VS J VS J VS J
Gr - Gr - Pt Nou Pt Nou Gr Nou
-- H- VS J VS J VS J
Gr - Gr - Pt An Pt |An Gr Nou
HM -M FM FM FM
Gr - -- Pt - Pt Nou Pt Nou
Figure 7-49. Carte 5 5, pour chaque neurone on affiche pour chaque variable la modalit ayant la plus forte probabilit.
H : Homme, F : Femme, J : Jeune, M : ge Moyen, V : Vieux, VS : Vhicule de Service, An : Ancien vhicule, Nou : Nouveau
vhicule. Gr : Grande puissance, Pt : Petite puissance.
Lapprentissage statistique
424
Ces visualisations peuvent maintenant servir caractriser les bons et les mauvais conducteurs ; elles
peuvent galement servir la prdiction.
Dans un but de classification, on utilise prsent la carte 5 5
pour discriminer les bons des mauvais conducteurs. La figure 7-50
montre ltiquetage de la carte, aprs avoir effectu un vote majo-
ritaire dans chaque sous-ensemble de la partition obtenue, partir
des neurones, aprs lapprentissage. On distingue deux rgions sur
la carte, qui sont ddies aux deux types dassurs. Les neurones
en haut gauche de la carte sont ddis aux assurs nayant jamais
eu daccident (tiquets par 1) ; les neurones tiquets par 2 sont
ddis aux assurs ayant eu au moins un accident. Les neurones
sans tiquette prsentent des neurones vides, nayant capt aucune
observation de lensemble dapprentissage.
Il est alors possible, en observant la fois la figure 7-49 et la figure
7-50, de constater que les bons conducteurs (qui nont jamais eu Figure 7-50. Carte tiquete aprs
daccident) sont majoritairement des jeunes (modalit J) avec des application du vote majoritaire ;
vhicules anciens (modalit An). On peut voir aussi que les les neurones sans tiquette reprsentent
mauvais conducteurs ont eu des accidents avec des vhicules puis- des sous-ensembles vides. 1 : bon
conducteur, 2 : mauvais conducteur.
sants (modalit Gr). Les mauvais conducteurs sont constitus
majoritairement par des personnes jeunes et des personnes ayant
un ge moyen (modalit M).
Bibliographie
AIKEN J., MOORE G.F., TREES C.C., HOOKER S.B., CLARK D.K. [1995], The SeaWifs CZCS-pigment algo-
rithm, NASA tech. Memo 104566, vol.29, 34 p.
ANOUAR F., BADRAN F., THIRIA S. [1997], Self Organized Map, A Probabilistic Approach, Proceedings
of the Workshop on Self-Organized Maps, Helsinki University of Technology, Espoo, Finlande, 4-6 juin
1997.
BISHOP C. M., SVENSN M., WILLIAMS C K I. [1998], GTM : The Generative Topographic Mapping,
Neural Computation, 10, p215-234.
BOCK H. H. [1996], Probabilistic Models in Data Analysis, Computational Statistics and Data Analysis,
23, p. 5-28.
BOCK H. H. [1998], Clustering and neural networks, in Rizzi et al. (d.), Advances in data science and
classification, Springer verlag, p. 265-278.
CELEUX G., GOVAERT G. [1991], Clustering criteria for discrete data and latent class Models, Journal of
classification 8, p. 157-176.
CERKASSKY Y., LARMNAJAFIH [1991], Constrained topological mapping for non parametric regression
analysis, Neural Network, vol. 4, p. 27-40.
DEMPSTER A. P., LAIRD N. M., RUBIN D. [1977], Maximum Likelihood from incomplete data via the E.M
algorithm (with discussion), Journal of the Royal Statistical Society, series B 39, p.1-38.
DIDDAY E., SIMON J. C. [1976], Clustering Analysis, in Digital Pattern Recognition, K. S. Fu, Springer
verlag.
Cartes auto-organisatrices et classification automatique
425
CHAPITRE 7
DUDA R. O., HART P. E. [1973], Pattern Classification and Scene Analysis, John Wiley.
FROUIN R., DESCHAMPS P. Y., MITCHELL B. G., KAHRU M. [1998], The normalized difference phyto-
plankton index for satellite ocean color applications, EOS Transactions, vol. 79, no. 1, p. 191.
GAUL W., OPITZ O., SCHADER M. (d.) [2000], Data Analysis Scientific Modeling and Practical Applica-
tion, Springer.
GIROLAMI, M. [2001], The Topographic Organisation and Visualisation of Binary Data using Mutivariate-
Bernoulli Latent Variable Models, IEEE Transactions on Neural Networks 12, p. 1367 - 1374.
GORDON H. R., WANG M. [1994], Retrieval of water-leaving radiances and aerosol optical thickness over
the oceans with SeaWifs: a preliminary algorithm, App. Opt. vol. 33, no. 3, p. 443-453.
GOVAERT G [1990], Classification binaire et modles, Revue de Statistique Applique 38, p. 67-81.
HOLBEN B., ECK T., SLUTSKER I., TANR D., BUIS J. P., SETZER E., VERMOTE E., REAGAN J., KAUFMAN
Y., NAKAJIMA T., LAVENU F., JANKOWIAK, SMIRNOV A. [1998], AERONET - A federate instrument
network and data archive for aerosol characterization, Remote Sens. Environ., 66, p. 1-16.
JAIN A. K., DUBES R. C. [1988], Algorithms for Clustering Data, Prentice Hall.
KASKI S, HONKELA T, LAGUS K, KOHONEN T [1998], WEBSOM-self-organizing maps of document
collections, Neurocomputing, vol. 21, p.101-117.
KASKI S, KANGAS J., KOHONEN T. [1998], Bibliography of self organizing map (SOM) papers 1981-1997,
Neural Computing Survey, vol. 1, p. 102-350. On peut trouver cet article ladresse :
http://www.icsi.berkeley.edu/~JAGOTA/ncs/.
KOHONEN T. [1984], Self organization and associative memory, Springer Series in Information Sciences,
8, Springer Verlag, Berlin (2nd d. 1988).
KOHONEN T, KASKI S, LAGUS K, SALOJRVI J, HONKELA J, PAATERO V, SAARELA A [2000], Self organi-
zation of a massive document collection, IEEE transaction on neural networks, vol. 11, no 3.
KOHONEN T. [2001], Self Organizing Maps, Springer, 3e dition.
LEBBAH M, THIRIA S., BADRAN F. [2000], Topological Map for Binary Data, Proceedings of the Euro-
pean Symposium on Artificial Neural Networks.
LEBBAH M., THIRIA S., BADRAN F. [2004], Visualization and classification with categorical topological
map, Proceedings of the European Symposium on Artificial Neural Networks.
LEBBAH M. [2003], Carte topologique pour donnes catgorielles : application la reconnaissance auto-
matique de la densit du trafic routier. Thse de lUniversit de Versailles Saint-Quentin en Yvelines.
LUTTREL S. P. [1994], A bayesian analysis of self-organizing maps, Neural Comput, 6.
MITCHELL B.G., KAHRU M. [1998], Algorithms for SeaWifs developed with the CalCOFI data set,
CalCOFI, report 39, Calif. Coop. Oceanic Fish. Invest. Rep., Lajolla, Calif., 26 p.
MOULIN C., GORDON H. R., CHOMKO R., BANZO V. F., EVANS R. H. [2001], Atmospheric correction of
ocean color imagery through thick layers of Saharan dust, Geophys. Res. Lett., 28, p. 5-8.
MURTAGH F. [1985], A survey of algorithms for contiguity-constrained clustering and related problems,
The Computer Journal, vol. 28, p. 82-88.
OJA E., KASKI S. [1999], Kohonen Maps, Elsevier.
PATRIKAINEN A., MANNILA H. [2004], Subspace clustering of high-dimensional binary data a probabi-
listic approach, , SIAM International Conference on Data Mining.
Lapprentissage statistique
426
Le lecteur notera que chacune des rfrences est suivie du ou des numros de chapitre pour lesquels elle est
pertinente.
AARTS E., KORST J. [1989], Simulated Annealing and Boltzmann Machines a Stochastic Approach to
Combinatorial Optimization and Neural Computing, Wiley.
Cet ouvrage prsente, de manire dtaille, les principaux rsultats thoriques concernant le recuit simul et les machines de
Boltzmann. Destin des lecteurs avertis, il illustre bien les dmarches permettant dtudier nement la convergence des algorithmes
stochastiques. Chapitre 8.
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
Moins fouill que louvrage de Seber et Wild comment plus loin, cet ouvrage a des qualits didactiques incontestables. Destin cons-
tituer un support de cours de 3me cycle, il est clair mais rigoureux, et peut tre recommand comme ouvrage de rfrence dans le
domaine. Chapitre 2.
BALDI P., BRUNAK S. [1998], Bioinformatics, the Machine Learning Approach, Bradford Books.
Cet ouvrage prsente les fondements de lapplication des techniques dapprentissage automatique, et notamment de rseaux de
neurones, dans le domaine de la bioinformatique. La problmatique de la bioinformatique est prsente de manire trs claire, et la
mise en uvre de lapprentissage dans ce contexte applicatif spcique est clairement dcrite. Chapitre 1.
BISHOP C. M. [1995], Neural Networks for Pattern Recognition, Oxford University Press.
Ce livre est louvrage de rfrence incontournable sur les rseaux de neurones pour la classication automatique, notamment en recon-
naissance des formes ; il contient aussi beaucoup dinformations utiles pour la rgression non linaire, et sur les techniques dappren-
tissage en gnral. Il contient de nombreux petits exemples illustratifs, mais peu dapplications relles. Lecture indispensable pour tout
tudiant dbutant une recherche sur les rseaux de neurones pour la classication, cet ouvrage, en revanche, ignore compltement les
rseaux rcurrents et leurs applications la modlisation dynamique et la commande. Chapitres 2 et 6.
CICHOCKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley.
Ce livre prsente dune manire simple mais trs complte de nombreux problmes doptimisation combinatoire, de programmation
linaire, quadratique, etc. et de traitement du signal, ainsi que la manire dont ils peuvent tre rsolus au moyen de rseaux de neu-
rones. Des architectures lectroniques pour mettre en uvre les rseaux de neurones y sont dcrites. Chapitre 8.
Lapprentissage statistique
428
DEMAILLY J.-P. [1991], Analyse numrique et quations diffrentielles, Presses Universitaires de Grenoble.
Cet ouvrage mathmatique trs accessible (n de premier cycle) est utile qui souhaite comprendre lintrt des algorithmes dordre
suprieur implants dans les logiciels commerciaux, intgrant les trajectoires des systmes dynamiques temps continus. Il prsente
lintrt de ne pas se limiter au seul aspect numrique, mais de lintroduire par les rsultats fondamentaux sur les solutions des
systmes avec condition initiale et des systmes linaires. Lanalyse des diffrents algorithmes qui suit cette introduction permet au
lecteur une utilisation claire des logiciels. Chapitre 4.
DEMARTINES P. [1995], Analyse de donnes par rseaux de neurones auto-organiss, thse de lInstitut
National Polytechnique de Grenoble.
Un mmoire excellent, trs pdagogique, sur lapprentissage non supervis. Aprs avoir prsent et illustr la quantication vectorielle,
les cartes de Kohonen et lalgorithme neural gas , lauteur propose une nouvelle technique, lanalyse en composantes curvilignes
(vector quantization and projection) adapte la rduction de dimension. Les applications portent sur la fusion multicapteur, le contrle
de procd, la fabrication de mtrique et lappariement de graphes. Chapitres 3 et 7.
DUDA R. O., HART P. E., STORCK D. [2001], Pattern Classification and Scene Analysis, Wiley.
La bible de la reconnaissance de formes depuis la parution de la premire dition (1973), qui dcrit notamment les fondements de
la classication automatique classique (algorithme des k-moyennes, quantication vectorielle, classication hirarchique) et de la discri-
mination (sparateurs linaires). Trs mathmatique, il prsente de manire rigoureuse les diffrents algorithmes, et en fournit de
nombreuses illustrations. Chapitres 1, 6, 7.
ENGEL A., VAN DEN BROECK C. P. L. [2001] Statistical Mechanics of Learning, Cambridge University Press.
Ce livre prsente les fondements de ce que lon appelle mcanique statistique de lapprentissage. Il sagit de la thorie qui permet
de dduire les comportements typiques des rseaux de neurones. Les auteurs prsentent le sujet de manire trs pdagogique, avec
beaucoup dexemples et dexercices. Cest une lecture conseille ceux qui dsirent approfondir cette approche thorique de lappren-
tissage. Chapitre 6.
Bibliographie commente
429
GAREY M. R., JOHNSON D. S. [1979], Computers and Intractability. A Guide to the Theory of NP-complete-
ness, W. H. Freeman.
Cet ouvrage recense des problmes doptimisation combinatoire et analyse leur complexit. Il est difcile daccs, mais constitue une
rfrence pour ltude de la complexit des problmes. Chapitre 8.
GOODWIN, G. C., PAYNE R. L. [1977], Dynamic System Identification : Experiment Design and Data
Analysis, Academic Press.
Comme louvrage de L. Ljung comment plus loin, ce livre traite, en profondeur, de lidentication des paramtres de systmes dyna-
miques linaires. Partant des bases des statistiques, il traite de la mthode des moindres carrs classique, puis des estimateurs du
maximum de vraisemblance, et applique ces concepts lestimation des paramtres de modles linaires, de manire rcursive ou non
rcursive. Lauteur traite avec soin le problme important de la conception des expriences. Cest donc un ouvrage fondamental pour la
modlisation linaire. Chapitre 2 et 4.
HERTZ J., KROGH A., PALMER R. G. [1991], Introduction to the Theory of Neural Computation, Addison-
Wesley Publishing Company.
Pendant plusieurs annes, ce livre a t lunique ouvrage de rfrence sur les rseaux de neurones. Il prsente maintenant un intrt
essentiellement historique, notamment pour clairer les motivations qui ont amen les physiciens thoriciens sinvestir dans ce
domaine. Il contient nanmoins une grande quantit dinformations et rexions intressantes et encore actuelles. Chapitres 2, 6, 8.
KOHONEN T. [1984], Self Organization and Associative Memory, Springer Series in Information Sciences.
Premier livre crit par T. Kohonen, il prsente les liens existants entre les algorithmes adaptatifs et la modlisation de phnomnes
biologiques. Notons en particulier que les expriences et les simulations qui y sont prsentes illustrent fort bien les phnomnes
dauto-organisation. Chapitre 7.
LANDAU I. D., DUGARD L. [1986], Commande adaptative, aspects pratiques et thoriques, Masson.
Cet ouvrage, dit par un des spcialistes franais de commande adaptative, est avant tout un ouvrage pratique o sont recenses,
dans des chapitres indpendants, des applications industrielles diffrents domaines. Le chapitre initial est une introduction la
commande adaptative. Dautres chapitres gnraux abordent la mise en uvre, les systmes multivariables et ltude de robustesse.
Louvrage est limit aux modles linaires. Chapitre 5.
LJUNG L. [1987], System Identification, Theory for the User, Prentice Hall.
Ouvrage de rfrence pour la modlisation de systmes dynamiques linaires, ce livre est remarquable de clart et de prcision. On y
trouve lessentiel de la thorie de lestimation des paramtres dun systme linaire dynamique, avec une prsentation rigoureuse mais
nanmoins, comme lindique le titre de louvrage, oriente vers lutilisateur. Cet ouvrage est ndispensable pour tout praticien qui veut
acqurir des bases solides. Chapitre 2 et 4.
Lapprentissage statistique
430
MCQUARRRIE A. D. R., TSAI C. [1998], Regression and Time Series Model Selection, World Scientific.
Malgr un effort de pdagogie limit, cet ouvrage prsente, sous une forme compacte, une multitude de critres de slection de
modles qui peuvent tre utiliss en complment de ceux qui sont dcrits dans le prsent ouvrage. Une lecture utile pour qui a acquis
les bases de la modlisation et dsire approfondir les techniques de slection de modles. Chapitres 2 et 4.
MOOD A. M., GRAYBILL F. A., BOES D. [1974], Introduction to the Theory of Statistics, McGraw Hill.
Cet ouvrage est un bon livre dintroduction aux statistiques, clair, avec des notations cohrentes, et sufsamment pdagogique pour
pouvoir tre utile des dbutants. Il part de la thorie des probabilits et introduit les concepts de base de statistiques partir de cette
thorie. Cest un ouvrage didactique, ni livre de recettes, ni trait de mathmatiques. Chapitre 2.
PERETTO P. [1992], An Introduction to the Modeling of Neural Networks, Cambridge University Press,
Cambridge (Royaume-Uni), collection Ala-Saclay.
Ce livre prsente les rseaux de neurones articiels, en montrant comment ils ont t inspirs par les systmes biologiques. Il est utile
pour ceux qui sintressent la modlisation en neurobiologie. Cest un livre qui sort des chemins baliss. Chapitres 2 et 6.
REINELT G. [1994], The Travelling Salesman. Computational Solutions for TSP Applications, Lecture Notes
in Computer Science, Springer.
Cet ouvrage prsente le problme du voyageur de commerce et ses variantes. De nombreuses heuristiques non neuronales sont
dcrites, ainsi que des problmes typiques. Chapitre 8.
SEBER G. A. F. [1977], Linear Regression Analysis, Wiley.
Complment de louvrage suivant, ce livre prsente une introduction rigoureuse et trs complte la rgression linaire et lanalyse
des rsultats obtenus par cette technique, notamment par rgression linaire multiple, et par rgression polynomiale. Il est plus austre
que louvrage de Draper et Smith comment plus haut. Chapitre 2.
SEBER G. A. F., WILD C. J. [1989], Nonlinear Regression, Wiley.
Ouvrage de rfrence sur la rgression non linaire, ce livre aborde de manire rigoureuse et complte la problmatique de la rgression
non linaire. Partant de la rgression linaire, les auteurs prsentent lestimation des paramtres des modles non linaires et les
problmes associs cette estimation ; linuence de la courbure, qui nest pas aborde dans le prsent ouvrage, y est tudie en dtail.
Ce livre est un complment de lecture indispensable pour qui veut aller trs loin dans loptimisation dun modle non linaire. Chapitre 2.
TAKEFUJI Y. [1992], Neural Network Parallel Computing, Kluwer Academic Publishers, 1992.
Cet ouvrage prsente de nombreux problmes combinatoires formuls comme des problmes de thorie des graphes. Ils sont particu-
lirement intressants pour illustrer la manire de coder certains problmes de grande complexit sous la forme dun rseau de
neurones rcurrent. Chapitre 8.
THIRIA S., LECHEVALIER Y., GASCUEL O., CANU S. [1997], Statistique et mthodes neuronales, Dunod.
Ouvrage crit conjointement par des statisticiens et par des spcialistes de modlisation neuronale, il prsente le point de vue des deux
communauts. Chapitres 2 et 6.
VAPNIK V. N. [1995], The Nature of Statistical Learning Theory, Springer.
Ce livre est la rfrence en thorie de lapprentissage statistique. Dun niveau mathmatique et statistique lev, il sadresse ceux qui
souhaitent approfondir leurs connaissances autour des nouveaux concepts proposs par lauteur sur la dimension de Vapnik-
Cervonenkis, et les machines vecteurs supports dont il est, avec Isabelle Guyon, un des inventeurs. Chapitre 6.
VAPNIK V. N. [1998], Statistical Learning Theory, John Wiley & Sons.
Dans ce livre, qui prsente les fondements de la thorie statistique de lapprentissage, lauteur dveloppe les concepts et donne toutes
les dmonstrations des noncs prsents dans louvrage comment du mme auteur (ci-dessus), dont celui-ci peut tre considr
comme la version longue. Chapitre 6.
WONNACOTT T. H., WONNACOTT R. J. [1990], Statistique conomie-gestion-sciences-mdecine, Economica.
Manuel de statistique par excellence, le livre prsente de faon trs pdagogique la statistique descriptive et lensemble des mthodes
de la statistique inductive : estimation, tests, mthodes baysiennes, analyse de la variance, rgression, etc. Les mthodes y sont
prsentes partir de nombreux exemples. Des exercices avec lments de rponses permettent au lecteur de contrler ses acquisi-
tions. Chapitres 2 et 3.
Outils pour les rseaux de neurones
et contenu du CD-Rom
Depuis le dveloppement thorique des rseaux de neurones la fin des annes 1980-1990, plusieurs outils ont
t mis la disposition des utilisateurs. Les fonctionnalits et les statuts de ces outils sont trs variables. On
consultera avec intrt le site www.aiaccess.net/f_ww.htm, pour un large panorama des produits disponibles.
Dans la catgorie des outils libres, fournis avec une licence de type GNU, ou analogue, on trouve princi-
palement le travail de chercheurs de lUniversit de Stuttgart, SNNS, disponible sous forme de code
compilable sur le site www-ra.informatik.uni-tuebingen.de/SNNS/.
La plupart des autres outils disponibles relvent du monde commercial. Les grands diteurs de logiciels de
statistiques, comme SAS Institute ou SPSS, incluent des modules de rseaux de neurones dans leur offre.
Les diteurs de logiciels de calcul scientifique ou de Data Mining usage gnral proposent, la plupart du
temps, une bote outils Rseaux de neurones. Dans ce cas, lintrt du logiciel rside dans laccumula-
tion des nombreuses possibilits. Mais chacune de ces possibilits prises sparment nest pas optimise.
Les logiciels ddis, tel Neuro One propos ici en version dvaluation, sont spcialiss et offrent des
fonctionnalits beaucoup plus proches des derniers rsultats thoriques. Consultez ce propos le site
www.netral.com/.
Le contenu du CD-Rom de cet ouvrage est le suivant :
une version dvaluation de Neuro One, valide 30 jours ;
cinq exemples de modles, avec donnes et codes source ;
une bibliothque de modlisation non linaire NDK_0 libre ;
un compilateur C pour Windows.
Parmi les logiciels ddis, Neuro One, dit par Netral, est lun des plus anciens, et celui qui a le plus
volu pour rester au fait des derniers dveloppements. Cest aussi, notre connaissance, le seul qui offre
un calcul des intervalles de confiance et des leviers sur les modles dvelopps.
Neuro One fournit un produit annexe, Neuro Code, qui permet de convertir un modle neuronal en code
source C. Avec ce code, il devient possible dutiliser le modle neuronal sous tout systme dexploitation
qui admet un compilateur C. Ce code permet galement lapprentissage dans le nouvel environnement.
Les exemples de codes source prsents dans le CD-Rom ont t raliss avec Neuro Code.
Dans le rpertoire NeuroOne, lancez le fichier SetUp.exe. Vous pouvez galement cliquer sur Installer
Neuro One la page daccueil du CD-Rom. Cliquez ensuite sur Ouvrir.
La bote de dialogue dintroduction suivante apparat alors, elle vous permet de choisir la langue du
programme dinstallation.
Figure A-1
Figure A-2
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
433
Cliquez nouveau sur Suivant et la bote de dialogue du contrat de licence de Neuro One saffiche.
Figure A-3
Lisez attentivement ce contrat. Si vous ntes pas daccord avec les termes de ce contrat, cliquez sur
Annuler. Dans ce cas, vous ne pouvez pas utiliser Neuro One. Si vous tes daccord avec les termes de ce
contrat, cliquez sur Accepter.
Lorsque la bote de dialogue suivante apparat, entrez votre nom, votre organisation, et le chiffre 0 (zro),
puis cliquez sur le bouton Pour une valuation 30 jours.
Figure A-4
Lapprentissage statistique
434
Figure A-5
Choisissez prsent le rpertoire o seront enregistrs tous les fichiers de travail de Neuro One et cliquez
sur Suivant pour accder la prochaine fentre.
Figure A-6
Slectionnez Par dfaut, et cliquez sur Suivant pour passer la fentre qui suit.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
435
Figure A-7
Figure A-8
Cette fentre prsente un rsum de vos demandes. Si vous tes satisfait, cliquez sur Suivant. Sinon,
revenez en arrire en cliquant sur Prcdent, corrigez lerreur, et revenez en cliquant autant que ncessaire
sur Suivant.
Lapprentissage statistique
436
Figure A-9
Exemple 3
Cet exemple modlise la temprature de
liquidus de verres binaires Lithium/Sili-
cium.
Lentre est la fraction molaire de LiO2. La
sortie est la temprature de liquidus.
Les modles prsents comportent 2, 4, 5 et
6 neurones cachs.
Exemple 4
Cet exemple modlise la temprature de Figure A-11
liquidus de verres ternaires Aluminium/
Potassium/Silicium.
Les entres sont les fractions molaires de Al2O3 et K2O. La sortie est la temprature de liquidus.
Les modles prsents comportent 2, 4, 6, 8 et 10 neurones cachs.
Exemple 5
Cet exemple modlise la temprature de liquidus de verres quaternaires Sodium/Calcium/Aluminium/
Silicium.
Les entres sont les fractions molaires de CaO, Na2O, Al2O3. La sortie est la temprature de liquidus.
Les modles prsents comportent 2, 4, 6, 8 et 10 neurones cachs.
mingw32-make f makefileuse
mingw32-make f makefiletrain
Figure A-12
1. Les mentions xxx sont remplaces par le nom du modle Neuro One qui est lorigine du code.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
439
Loption v permet un affichage dtaill. Lanalyse du fichier de description donne deux champs de
donnes : X et Yb. Le nombre total de lignes slve 199 dans le fichier ..\data\static.csv . Il y a
deux apprentissages, chacun contenant 10 poques.
Pour chaque poque, les deux valeurs affiches sont respectivement lcart-type dapprentissage, et
lcart-type de gnralisation obtenu par la mthode du Leave-One Out virtuel. Le dernier chiffre entier
est le nombre de secondes coul depuis le dbut de lapprentissage.
Vous pouvez consulter les fichiers crs dans le rpertoire de rsultat pour obtenir tous les dtails de
lapprentissage :
les fichiers xxxhistoryy.txt 1,2 retracent lhistoire de lapprentissage ;
les fichiers xxxresy.txt 1,2 donnent les cots dapprentissage et de gnralisation, les poids et la
matrice de dispersion ;
le fichier xxxweights.txt 1,2 donne les poids et la matrice de dispersion de lapprentissage qui
prsente le cot dapprentissage le plus faible.
Le lancement du programme dutilisation donne une fentre qui ressemble la fentre suivante.
Figure A-13
Les fichiers de description et de donnes sont analyss. Les champs X et Yb sont trouvs. Le modle est
appliqu toutes les donnes lisibles et compltes du fichier de donnes, et lcart-type obtenu est affich.
Vous pouvez consulter les fichiers crs dans le rpertoire de rsultat :
les fichiers xxxusehisty.txt 1,2 retracent lhistorique de lutilisation ;
les fichiers xxxusey.csv 1,2 donnent, pour chaque ligne du fichier de donnes, le rsultat de lapplica-
tion du modle neuronal aux donnes prsentes.
2. Les mentions y sont remplaces par une valeur entire reprsentant le numro de lapprentissage ou de lutilisation.
Lapprentissage statistique
440
retourner Excel.
La macro xxx1 est alors disponible, sous forme de fonction Excel.
python.exe demo.py
Ce programme cre un modle neuronal une entre, une sortie et deux neurones cachs, charge un jeu
de donnes, lance un apprentissage, et affiche le rsultat.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
441
Figure A-14
Les points rouges reprsentent les exemples prsents, et les deux courbes pleines, la rponse du modle
neuronal avant et aprs apprentissage.
Les compilateurs C
La compilation des exemples fournis ncessite la prsence dun compilateur C. Les utilisateurs de
Windows trouveront ici deux exemples de compilateurs gratuits :
GCC, disponible sous licence GNU, dans le rpertoire gcc ;
Turbo C, mis disposition par Borland, sur le site http://community.borland.com/museum.
Pour linstallation dun compilateur C, il est recommand de disposer des droits dadministrateur. Pour
installer GCC, cliquez sur MinGW-2.0.0-3-gnuwin.exe dans le rpertoire gcc. Vous pouvez galement
cliquer sur Installer GCC dans la page daccueil, puis sur Ouvrir.
Lapprentissage statistique
442
la fin de linstallation du compilateur, assurez-vous que celui-ci peut tre appel depuis tous les rper-
toires de votre machine. Pour cela, il peut tre ncessaire de modifier la variable denvironnement PATH de
votre machine en y incluant le chemin du binaire du compilateur.
Licence
La licence de Neuro One est lisible pendant linstallation du logiciel, et doit tre accepte avant linstal-
lation complte de celui-ci. Les codes source fournis en langage C relvent de la licence suivante.
Les prsents codes source gnrs par le progiciel NEURO CODE sont fournis titre gracieux par
la socit NETRAL. Ces codes sont protgs tant par les dispositions nationales quinternationales
en matire de droits de la proprit intellectuelle, dont les droits sont dtenus, titre exclusif, par la
socit NETRAL.
Lutilisation et la modification de ces codes source sont soumises un contrat de licence dutilisation.
Ces codes sont utiliss sous la responsabilit pleine et entire de lutilisateur. La socit NETRAL ne
saurait en aucun cas tre tenue pour responsable des rsultats de cette utilisation, tant sur les machines qui
les utilisent que sur les donnes incluses dans ces machines.
La modification ou la copie mme partielle de ce code, est strictement interdite, lexception des parties
de commentaire et des fichiers de description. Lutilisateur possesseur du CD-Rom est autoris faire une
unique copie de ce code des fins de compilation. Toute autre copie de ce code est strictement interdite.
Lutilisation de ce code des fins commerciales est strictement interdite. On entend, par fin commerciale,
toute cession titre onreux du code lui-mme, ou toute cession, titre onreux ou titre gratuit, des
rsultats obtenus par lutilisation de ce code une fois compil.
TOUTE EXTENSION DU DROIT DUTILISATION NON PRVUE DANS CE CONTRAT DE
LICENCE EST INTERDITE ET SERA CONSTITUTIVE DUN ACTE DE CONTREFAON.
La contrefaon est un dlit pnal, puni de 2 ans demprisonnement et de 150 000 damende.
Le fait de copier le code en vue de sa compilation ou de le compiler sans le copier signifie que vous avez
donn votre accord sur les termes de cette licence.
Pour les fichiers principaux des programmes fournis, dont le nom se termine par maintrain et
mainuse , avec les extensions .h et .c , et pour ceux-l seulement, la modification des codes
est autorise.
Index
des paramtres 83, 134, 135, 145, 150, 156, machine marge dure 327
174 marge 308
innovation 247 Markov (chane de) 230
interprtation probabiliste des k-moyennes 357 matrice
intervalle de confiance 5, 66, 120, 143, 148, 149, chapeau 54, 58
153, 156, 188 de transition 230
pour la moyenne 66 des observations 46, 49
itration hessienne 133, 192
de la fonction de valeur 288 jacobienne 143, 146, 147, 150, 156
de la politique 287 maximum de vraisemblance 358
optimiste de la politique 292 mesure de similitude 381
mthode
J des k-moyennes 352
jackknife 34 Minimerror 315, 323, 338
jacobienne Voir matrice jacobienne minimisation par mthode du gradient simple 355
MLP Voir Perceptron multicouche
K modle
temps continu 6
Kalman (filtre de) 247
temps discret 6
proprits 250
affine 5, 8, 50
Kullback-Leibler Voir distance de Kullback-
ARMAX 164
Leibler
ARX 164
auto-rgressif 232, 235
L bote grise 175
leave-one-out 34, 47, 56, 91, 102, 107, 143, 145, bote grise Voir modle semi-physique
148 bote noire 85, 88, 172, 179
virtuel 35, 56, 57, 107, 120, 145, 146, 150, 153, complet 45
156, 188 dtat 80, 122, 157, 164, 165, 166, 170, 171,
LeNet 109 173, 174, 176, 182
Levenberg-Marquardt 83, 133, 135, 151, 174, 191, de connaissance 85, 88, 120, 123, 180, 181,
192, 194 182
levier 57, 146, 147, 149, 151, 153, 156, 188, 196 de mlange de lois normales 357
LMS 136 dynamique 6, 75, 80, 81, 87, 121, 124, 131,
loi 157, 166, 167, 175, 180
de 2 46 entre-sortie 158, 159, 161, 164, 165, 167, 168,
de chi2 65 170, 172, 173, 174
de Fisher 46, 66 linaire 5, 48, 73, 77, 80, 89, 90, 91, 143, 145,
de Pearson 65, 67 147, 158
de Student 65, 67, 69 NARMAX 124, 163, 164, 168, 170
gaussienne 7, 62 NARX 159, 164, 174
normale 7, 61, 67 non linaire 6, 73, 74, 80, 82, 89, 90, 91, 127,
136, 146, 147, 158
M polynomial 7, 83, 137
Mac Culloch et Pitts, neurones 190 semi-physique 85, 87, 122, 123, 175, 179, 187
machine vecteurs supports 30, 103, 113, 137, statique 5, 73, 75, 81, 85, 125
190, 325 modration des poids 102, 116, 137, 140
Index
447
Algorithmes
Apprentissage
Apprentissage statistique
statistique G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria
Apprentissage
Grard Dreyfus dirige le Lapprentissage statistique permet la mise au point de modles de donnes Sous la direction de Grard Dreyfus
laboratoire dlectronique de
lcole suprieure de physique et de processus lorsque la formalisation de rgles explicites serait impossible :
et de chimie industrielles reconnaissance de formes ou de signaux, prvision, fouille de donnes,
(ESPCI-ParisTech) o il prise de dcision en environnement complexe et volutif. Ses applications
enseigne notamment les sont multiples dans le monde de la production industrielle (robotique,
mthodes de modlisation par
apprentissage. Il dispense des maintenance prventive, dveloppement de capteurs virtuels, planification
formations continues dexpriences, aide la conception de produits), dans le domaine de la
lusage des ingnieurs dans ce biologie et de la sant (aide au diagnostic, aide la dcouverte de
domaine.
statistique
mdicaments, bio-informatique), en tlcommunications, en marketing et
Manuel Samuelides dirige le finance, et dans bien dautres domaines.
dpartement de
mathmatiques appliques de Sans omettre de rappeler les fondements thoriques de lapprentissage
lENSAE (Suparo) ; statistique, cet ouvrage offre de solides bases mthodologiques tout
il y enseigne les probabilits,
loptimisation et les ingnieur ou chercheur soucieux dexploiter ses donnes. Il en prsente les
techniques probabilistes de algorithmes les plus couramment utiliss rseaux de neurones, cartes
lapprentissage. topologiques, machines vecteurs supports, modles de Markov cachs
Il effectue des recherches au
dpartement de traitement de laide dexemples et dtudes de cas industriels, financiers ou bancaires.
linformation et modlisation Cet ouvrage est la mise jour du livre Rseaux de neurones Mthodologie et
de lONERA.
applications .
Jean-Marc Martinez est
expert senior et enseignant- qui sadresse ce livre ?
chercheur au Commissariat
lnergie Atomique dans le
domaine de lapprentissage
Aux ingnieurs, chercheurs et dcideurs ayant rsoudre des problmes
de modlisation, de reconnaissance, de prvision, de commande, etc.
Rseaux de neurones Cartes topologiques
statistique et de la
modlisation des incertitudes Aux tudiants et lves ingnieurs des disciplines scientifiques et Machines vecteurs supports
en simulation numrique. conomiques, et leurs enseignants. CD-R
Il dveloppe et applique ces Sommaire r le
om
Su
mthodes au CEA et les
enseigne dans diverses Lapprentissage statistique et ses applications Exemples dapplications :
li v r e
offe
universits et coles. Cinq exemples de modles,
reconnaissance de formes, fouille de donnes, prvision, prdiction de proprits chimiques et
r
directrice de recherches au Neuro One 6.10.7*, outil
CNRS, est responsable de de conception de modles : notions de statistiques Modlisation statique et de cration de modles neuronaux
l'quipe Apprentissage :
modles et algorithmes dynamique Modlisation semi-physique Rduction de dimension et rchantillonnage. Compilateur C pour Windows.
(AMA) au sein du laboratoire Bootstrap, ACP, NeMo Simulation et commande de processus : rseaux
TIMC-IMAG (Grenoble). Elle
boucls (rcurrents) Apprentissage par renforcement. Monte-Carlo. Rseaux de Markov. Bibliothque non linaire
effectue des recherches sur la
modlisation des systmes MonaEx70.dll, niveau 0.
complexes adaptatifs, et sur
Discrimination : rseaux classifieurs Machines vecteurs supports Infrence baysienne * Version dvaluation de 6 semaines
la thorie et les algorithmes Classification automatique et visualisation de donnes : cartes de Kohonen pour MS-Windows NT, 2000, 2003, XP
d'apprentissage. Elle enseigne
ces sujets dans diffrentes
Bibliographie commente. Annexe : Contenu du CD-Rom et installation de Neuro One.
coles doctorales. Sur le CD-Rom offert avec ce livre
Fouad Badran, professeur au Cinq exemples de modles avec donnes et codes source. Version dvaluation Prvision
CNAM, y enseigne les rseaux (6 semaines) de Neuro One 6.10.7 pour Windows NT4, 2000, 2003 et XP : un
de neurones. outil ddi convivial pour la cration de modles de rseaux de neurones. Un
compilateur C pour MS-Windows. Bibliothque non linaire MonaEx70.dll,
Data mining
Sylvie Thiria, professeur
luniversit de Versailles
Saint-Quentin-en-Yvelynes,
niveau 0.
Configuration minimale requise :
Bio-ingnierie
effectue des recherches sur la
modlisation neuronale et sur
ses applications, notamment
PC avec processeur Pentium 2 (ou quivalent) MS-Windows 98/NT, 2000 ou XP
Frquence suprieure 100 MHz 25 Mo despace disque disponible 64 Mo de RAM. Reconnaissance de formes
la gophysique, au
laboratoire docanographie Robotique et commande de processus
dynamique et de climatologie
(LODYC).