Professional Documents
Culture Documents
de
Statistique et Probabilit
es
Data mining
II. Mod
elisation Statistique
&
Apprentissage
Philippe BESSE
Avant-propos
Motivations du data mining
Le developpement des moyens informatiques de stockage (bases de donnees) et de
calcul permet le traitement et lanalyse densembles de donnees tr`es volumineux. Plus
recemment, le perfectionnement des interfaces offrent aux utilisateurs, statisticiens ou non,
des possibilites de mise en uvre tr`es simples des outils logiciels. Cette evolution, ainsi
que la popularisation de nouvelles methodes algorithmiques (reseaux de neurones) et outils
graphiques, conduit au developpement et a` la commercialisation de logiciels integrant un
sous-ensemble de methodes statistiques et algorithmiques sous la terminologie de Data Mining : la prospection ou fouille de donnees. Cette approche, issue du marketing specialise
dans la gestion de la relation client (client relation management ou CRM) trouve egalement
des developpements et applications industrielles en controle de qualite ou meme dans certaines disciplines scientifiques d`es lors que les ingenieurs et chercheurs sont confrontes a`
un volume de donnees important. Besse et col. (2001) presente une introduction detaillee
de cette demarche et des relations quelle entretien avec les disciplines traditionnelles Statistique et Informatique. Laccroche publicitaire souvent citee par les editeurs de logiciels
(SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons devaluer et dexperimenter la realite de cette annonce qui sadresse a` un
marche en pleine expansion. Les entreprises sont en effet tr`es motivees pour tirer parti et
amortir, par une aide a` la decision quantifiee, les co
uts de stockage des teras octets que
leur service informatique semploie a` administrer.
Le contexte informationnel de la fouille de donnees est celui des data wharehouses.
Un entrepot de donnees, dont la mise en place est assure par un gestionnaire de donnees
(data manager) est un ensemble de bases relationnelles extraites des donnees brutes de
lentreprise et relatives a` une problematique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prevoir et anticiper
au mieux les tendances du marche,
suivi des fichiers clients dune banque, dune assurance, associes a` des donnees socioeconomiques (INSEE), a` lannuaire, en vue de la constitution dune segmentation
(typologie) pour cibler des operations de marketing ou des attributions de credit.
La gestion de la relation client vise a` une individualisation ou personnalisation de
la production et de la communication afin devacuer la notion de client moyen.
recherche, specification puis ciblage de niches de marche les plus profitables (banque)
ou au contraire les plus risquees (assurance) ;
suivi en ligne des param`etres de production en controle de qualite pour detecter au
3
4
plus vite lorigine dune defaillance ;
prospection textuelle (text mining) et veille technologique ;
web mining et comportement des internautes ;
...
Cet environnement se caracterise par
une informatique heterog`ene faisant intervenir des sites distants (Unix, Dos, NT,
VM. . . ) a` travers le reseau de lentreprise (intranet) ou meme des acc`es exterieurs (internet). Des contraintes defficacite, de fiabilite ou de securite conduisent a` repartir,
stocker linformation a` la source plutot qu`a la dupliquer systematiquement ou a` la
centraliser.
Lincompatibilite logique des informations observees sur des echantillons differents
ne presentant pas les memes strates, les memes codifications.
Des volumes et flux considerables de donnees issues de saisies automatisees et chiffres
en tera-octets.
La necessite de ne pas exclure a priori un traitement exhaustif des donnees afin de ne
pas laisser echapper, a` travers le crible dun sondage, des groupes de faibles effectifs
mais a` fort impact economique.
Strat
egie du data mining
Dans tout ce qui suit, nous disposons dun ensemble dobservations. Les caracteristiques
ou variables X = (X 1 , . . . , X p ) dites explicatives ont ete observees sur un ensemble de
n objets, individus ou unites statistiques. Un premier travail, souvent fastidieux mais
incontournable, consiste a` mener une exploration statistique de ces donnees : allure des
distributions, presence de donnees atypiques, correlations et coherence, transformations
eventuelles des donnees, description multidimensionnelle, classification. Cest lobjet de
la premi`ere partie de ce document. La deuxi`eme partie decrit les outils de modelisation
statistique ou encore dapprentissage utilisables pour la prediction dune variable cible Y
par les variables explicatives X j .
Lenchanement de ces etapes (exploration puis apprentissage) constitue le fondement
de la fouille de donnees.
Pour comprendre la structure et bien apprehender le contenu de ce cours, il est important dintegrer rapidement ce quest la strategie a` mettre en uvre pour aboutir au bon
apprentissage ou encore au bon mod`ele predictif recherche a` partir des donnees observees.
Attention, il faut bien noter que, contrairement a` une demarche statistique traditionnelle dans laquelle lobservation des donnees est integree a` la methodologie (plannification
de lexperience), les donnees sont ici prealables a` lanalyse. Neanmoins il est clair que les
preoccupations liees a` leur analyse et a` son objectif doivent intervenir le plus en amont
possible pour sassurer quelques chances de succ`es.
Les etapes de la fouille de donnees :
i. Extraction des donnees avec ou sans echantillonnage faisant reference a` des techniques de sondage appliquees ou applicables a` des bases de donnees.
ii. Exploration des donnees pour la detection de valeurs aberrantes ou seulement atypiques, dincoherences, pour letude des distributions des structures de correlation,
recherche de typologies, pour des transformations des donnees. . .
5
iii. Partition aleatoire de lechantillon (apprentissage, validation, test) en fonction de sa
taille et des techniques qui seront utilisees pour estimer une erreur de prediction en
vue des choix de mod`ele, choix et certification de methode.
iv. Pour chacune des methodes considerees : mod`ele lineaire general (gaussien,binomial
ou poissonien), discrimination parametrique (lineaire ou quadratique) ou non parametrique, k plus proches voisins, arbre, reseau de neurones (perceptron), support
vecteur machine, combinaison de mod`eles (bagging, boosting).
estimer le mod`ele pour une valeur donnee dun param`etre de complexite : nombre
de variables, de voisins, de feuilles, de neurones, , duree de lapprentissage, largeur
de fenetre. . . ;
optimiser ce param`etre (sauf pour les combinaisons de mod`eles affranchies des
probl`emes de sur-apprentissage) en fonction de la technique destimation de lerreur retenue : echantillon de validation, validation croisee, approximation par
penalisation de lerreur dajustement.
v. Comparaison des mod`eles optimaux obtenus (un par methode) par estimation de
lerreur de prevision sur lechantillon test ou, si la presence dun echantillon test
est impossible, sur le crit`ere de penalisation de lerreur (Akake par exemple) sil en
existe une version pour chacune des methodes considerees.
vi. Iteration eventuelle de la demarche precedente (valisation croisee), si lechantillon
test est trop reduit, depuis (iii). Partitions aleatoires successives de lechantillon pour
moyenner sur plusieurs cas lestimation finale de lerreur de prediction et sassurer
de la robustesse du mod`ele obtenu.
vii. Choix de la methode retenue en fonction de ses capacites de prediction, de sa robustesse mais aussi, eventuellement, de linterpretabillite du mod`ele obtenu.
Objectif
Lobjet de ce cours est dintroduire, sous une forme homog`ene et synthetique, les principales techniques dexploration, de modelisation ou encore dapprentissage utilisees le plus
couramment en fouille de donnees et citees dans la section precedente. Il a fallu faire des
choix dans lensemble des techniques proposees et leurs nombreux avatars. La forme et
le contenu sont guides par les besoins exprimes lors des stages realisees par les etudiants
du DESS de Statistique et Econometrie 1 ou encore par les th`emes des collaborations industrielles du laboratoire de Statistique et Probabilites 2 . Remarquons que les principaux
logiciels commerciaux (SAS, Splus, SPSS) ou gratuits (R), performants et simposant par
des interfaces tr`es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement a` la diffusion, voire la penetration, de methodes tr`es sophistiquees dans
des milieux impermeables a` une conceptualisation mathematique trop abstraite.
Le choix a ete fait de conserver et expliciter, dans la mesure du possible, les concepts
originaux de chaque methode dans son cadre disciplinaire tout en tachant dhomogeneiser
notations et terminologies. Lobjectif principal est de faciliter la comprehension et linterpretation des techniques des principaux logiciels pour en faciliter une utilisation pertinente et reflechie. Un exemple elementaire de recherche dun score dappetance issu du
1
2
http ://www.univ-tlse1.fr/formation/DESS/DESS-StatEconometrie.html
http ://www.lsp.ups-tlse.fr
6
marketing bancaire illustre les differents points abordes. Traite avec les logiciels SAS, Splus
ou R, il sert de fil rouge tout au long du cours.
Chapitre 1
Introduction
1
Objectif
D`es quun phenom`ene, quil soit physique, biologique ou autre, est trop complexe
ou encore trop bruite pour acceder a` une description analytique debouchant sur une
modelisation deterministe, un ensemble dapproches ont ete elaborees afin den decrire
au mieux le comportement a` partir dune serie dobservations. Citons la reconnaissance
de la parole ou de caract`eres manuscrits, limagerie medicale ou satellitaire, la prevision
dune grandeur climatique ou economique, du comportement dun client. . . la plupart des
disciplines scientifiques sont concernees. Historiquement, la Statistique sest beaucoup
developpee autour de ce type de probl`emes et a propose des mod`eles incorporant dune part
des variables explicatives et, dautre part, une composante aleatoire ou bruit. Il sagit alors
destimer les param`etres du mod`ele a` partir des observations. Dans la meme situation, la
communaute informatique parle plutot dapprentissage visant le meme objectif. Apprentissage machine (machine learning) ou reconnaissance de forme (pattern recognition) en
sont les principaux mots-clefs.
2
2.1
Probl
ematique
Supervis
e vs. non-supervis
e
Chapitre 1. Introduction
2.2
Mod
elisation vs. apprentissage
Tout au long de ce document, les termes de modelisation et dapprentissage sont utilisees comme des synonymes ce qui est abusif tant que les objectifs dune etude nont pas
ete clairement explicites. Dans la tradition statistique, la notion de mod`ele est centrale
surtout avec une finalite explicative. Il sagit alors dapprocher la realite, le vrai mod`ele,
eventuellement base sur une theotie physique, economique... sous-jacente. Le choix du
mod`ele (cf. ci-dessous) est alors guide par des crit`eres dajustement et les decisions de validite, de presence deffets, basees sur des tests reposant des des hypoth`eses probabilistes.
Linterpreation du role de chaque variable explicative est preponderante dans la demarche.
En revanche, dans un but predictif il apparat que le meilleur mod`ele nest pas necessairement
le vrai. La theorie de lapprentissage (Vapnik, 1999) montre alors que le cadre theorique est
different et les majorations derreur requierent une autre approche. Les choix sont bases
sur des crit`eres de qualite de prediction visant a` la recherche de mod`eles parcimonieux
dont linterpretatbilite passe au deuxi`eme plan.
2.3
Discrimination vs. r
egression
Le type des variables statistiques considerees diff`erent selon lespace dans lequel elles
prennent leurs valeur. Elles peuvent etre quantitatives a` valeurs reelles 1 ou qualitatives
a` valeurs dans un ensemble de cardinal fini. Certaines methodes dapprentissage ou de
modelisation sadaptent a` tout type de variables explicatives tandis que dautres sont
specialisees. Enfin, si Y a` expliquer est qualitative, on parle de discrimination, classement
ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun
probl`eme de regression. Dans ce cas encore, certaines methodes sont specifiques (regression
lineaire, analyse discriminante) tandis que dautres sadaptent sans modification profonde
remettant en cause leur principe (reseaux de neurones, arbres. . . ).
2.4
Lorsque des hypoth`eses relatives au mod`ele (linearite) et aux distributions sont verifiees
cest-`a-dire, le plus souvent, lorsque lechantillon ou les residus sont supposes suivre des lois
se mettant sous la forme dune famille exponentielle (gaussienne, binomiale, poisson. . . ),
les techniques statistiques de modelisation tirees du mod`ele lineaire general sont optimales
et, surtout dans le cas dechantillons de taille restreinte, il semble difficile de faire mieux.
1
2. Probl
ematique
En revanche, d`es que les hypoth`eses distributionnelles ne sont pas verifiees, d`es que les
relations supposees entre les variables ne sont pas lineaires ou encore d`es que le volume
des donnees est important, dautre methodes viennent concurrencer lapproche statistique
classique.
Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble
{X 1 , . . . , X p } de variables egalement quantitatives :
Y = (X 1 , . . . , X p ) + .
observees sur un echantillon (yi , xi ); i = 1, . . . , n de taille n Si est supposee lineaire et p
petit, de lordre dune dizaine ; le probl`eme est bien connu et largement debattu dans la
litterature. Dans le cas o`
u nest pas franchement lineaire et n grand, il est possible destimer precisement un nombre plus important de param`etres et donc denvisager des mod`eles
plus sophistiques. Si on sen tient au mod`ele gaussien usuel, meme le cas le plus simple
dun mod`ele polynomial devient vite problematique. En effet, lorsque est lineaire, prenons p = 10, la procedure de choix de mod`ele est confrontee a` un ensemble de 2 10 mod`eles
possibles et des algorithmes astucieux permettent encore de sen sortir. En revanche,
considerer pour un simple polynome du deuxi`eme voire troisi`eme degre avec toutes
ses interactions, am`ene a` considerer un nombre considerable de param`etres et donc, par
explosion combinatoire, un nombre astronomique de mod`eles possibles. Dautres methodes
doivent alors etre considerees en prenant en compte necessairement la complexite algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique, dans
cette problematique. Le souci de calculabilite lemporte sur la definition mathematique du
probl`eme qui se ram`ene a` loptimisation dun crit`ere dajustement de sur un ensemble
de solutions plus ou moins riche. Ces methodes ont souvent ete developpees dans un autre
environnement disciplinaire : informatique, intelligence artificielle. . . ; k plus proches voisins, reseaux de neurones, arbres de decisions, support vector machine deviennent des
alternatives credibles d`es lors que le nombre dobservations est suffisant.
2.5
Choix de m
ethode
Avec lav`enement du data mining, de tr`es nombreux articles comparent et opposent les
techniques sur des jeux de donnees publics et proposent des ameliorations incrementales de
certains algorithmes. Apr`es une periode fievreuse o`
u chacun tentait dafficher la suprematie
de sa methode, un consensus sest etabli autour de lidee quil ny a pas de meilleure
methode. Chacune est plus ou moins bien adaptee au probl`eme pose, a` la nature des
donnees ou encore aux proprietes de la fonction a` approcher ou estimer. Sur le plan
methodologique, il est alors important de savoir comparer des methodes afin de choisir la
plus pertinente. Cette comparaison repose sur une estimation derreur (de regression ou
de classement) quil est necessaire de conduire avec soin. Un chapitre (3) est consacre a` ce
point.
2.6
Choix de mod`
ele :
equilibre biais-variance
Tous les auteurs saccordent pour souligner limportance quil y a a` construire des
mod`eles parcimonieux quelque soit la methode utilisee. Toutes les methodes sont concernees :
nombre de variables explicatives, de feuilles dans un arbre ou de neurones dans une
couche cachee. . . . Seuls les algorithmes de combinaison de mod`eles (bagging, boosting)
10
Chapitre 1. Introduction
contournent cette etape au prix dun accroissement sensible du volume des calculs et de
linterpretabilite des resultats obtenus.
Lalternative est claire, plus un mod`ele est complexe et donc plus il int`egre de param`etres et plus il est capable de sajuster aux donnees et donc dengendrer une erreur
faible dajustement. En revanche, un tel mod`ele peut saverer defaillant lorsquil sagira
de prevoir ou generaliser, cest-`a-dire de sappliquer a` des donnees qui nont pas participe a` son estimation. Exemple : discriminer dans IR 2 une fronti`ere quadratique par une
regression lineaire ou par un polynome de debre plus eleve.
Ce probl`eme sillustre aussi facilement en regression classique. Ajouter des variables
explicatives dans un mod`ele ne peut que reduire lerreur dajustement (le R 2 ) et reduit
le biais si le vrai mod`ele est un mod`ele plus complet. Mais, ajouter des variables fait
egalement crote la variance des estimateurs et donc celle des predictions qui se degradent
rapidement avec la multicolinearite des variables explicatives. Un risque pour le mod`ele,
ou erreur quadratique de prediction, sexprimant comme le carre du biais plus la variance,
il est important doptimiser le dosage entre biais et variance en controlant le nombre
de variables dans le mod`ele afin de minimiser le risque. Ces remarques conduisent a` la
definition de crit`eres de choix de mod`ele dont le C p de Mallows fut un precurseur en
regression suivi par dautres propositions : Akake (AIC), Schwartz (BIC). . .
Plus que celui de la methode, le choix du bon mod`ele ou de la bonne complexite de
celui-ci dans une classe de methodes donnees est primordial. En consequence, les probl`emes
doptimisation consideres doivent mettre en uvre un crit`ere qui prend en compte la
complexite du mod`ele, cest-`a-dire la complexite de lespace dans lequel la solution est
recherchee.
2.7
Choix de mod`
ele : s
election vs. r
egularisation
2.8
Contenu
2. Probl
ematique
11
place particuli`ere a` titre pedagogique. Tr`es anterieure aux autres, elle donne lieu a une
bibliographie abondante. Conceptuellement plus simple, elle permet dintroduire plus facilement les problematiques rencontrees comme celle du choix dun mod`ele par ses deux
approches types : la selection de variable ou la regularisation (ridge). Pour une meilleure
comprehension des logiciels qui y font largement reference, une introduction (annexe) au
mod`ele lineaire general fournit le cadre theorique necessaire a` lunification des regressions
lineaire et logistique ; cette derni`ere reste toujours tr`es utilisee en scoring. La presentation
de lanalyse discriminante decisionnelle, parametrique ou non parametrique, les k plus
proches voisins, permet dintroduire egalement des notions de theorie bayesienne de la
decision. Un chapitre incontournable est consacre aux techniques destimation dune erreur de prediction sur lesquelles reposent les choix operationnels decisifs : de mod`ele, de
methode mais aussi levaluation de la precision des resultats escomptes. Les chapitres
suivants sont consacrees aux techniques algorithmiques : arbres binaires de decision (classification and regression trees ou CART) et a` celles plus directement issues de la theorie de
lapprentissage machine (machine learning) : reseau de neurones et perceptron, agregation
de mod`eles (boosting, random forest). Des annexes apportent des complements theoriques :
introduction au mod`ele lineaire general, le bootstrap.
12
Chapitre 1. Introduction
Chapitre 2
R
egression lin
eaire
1
Introduction
Mod`
ele
i = 1, . . . , n.
Lecriture du mod`ele lineaire dans cette situation conduit a` supposer que lesperance de
Y appartient au sous-espace de IRn engendre par {1, X 1 , . . . , X p } o`
u 1 designe le vecteur
13
14
Chapitre 2. R
egression lin
eaire
i = 1, 2, . . . , n
Les donnees sont rangees dans une matrice X(n (p + 1)) de terme general x ji , dont
la premi`ere colonne contient le vecteur 1 (x i0 = 1), et dans un vecteur Y de terme general
yi . En notant les vecteurs = [1 p ]0 et = [0 1 p ]0 , le mod`ele secrit matriciellement :
y = X + .
Estimation
3.1
= y0 y 2 0 X0 y + 0 X0 X.
3. Estimation
15
Nous faisons lhypoth`ese supplementaire que la matrice X 0 X est inversible, cest-`adire que la matrice X est de rang (p + 1) et donc quil nexiste pas de colinearite entre
ses colonnes. En pratique, si cette hypoth`ese nest pas verifiee, il suffit de supprimer des
colonnes de X et donc des variables du mod`ele. Des diagnostics de colinearite et des crit`eres
aident au choix des variables.
Alors, lestimation des param`etres j est donnee par :
b = (X0 X)1 X0 y
et les valeurs ajustees (ou estimees, predites) de y ont pour expression :
b = Xb = X(X0 X)
y
X0 y = Hy
o`
u H = X(X0 X)1 X0 est appelee hat matrix ; elle met un chapeau a` y. Geometriquement,
cest la matrice de projection orthogonale dans IR n sur le sous-espace Vect(X) engendre
par les vecteurs colonnes de X.
On note
b = y Xb = (I H)y
e=yy
3.2
Propri
et
es
Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais : E(b) = , et,
parmi les estimateurs sans biais fonctions lineaires des y i , ils sont de variance minimum
(theor`eme de Gauss-Markov) ; ils sont donc BLUE : best linear unbiaised estimators.
Sous hypoth`ese de normalite, les estimateurs du M.V. sont uniformement meilleurs (efficaces) et concident avec ceux des M.C.
On montre que la matrice de covariance des estimateurs se met sous la forme
E[(b )(b )0 ] = 2 (X0 X)1 ,
celle des predicteurs est
E[(b
y X)(b
y X)0 ] = 2 H
et celle des estimateurs des residus est
E[(e u)((e u))0 ] = 2 (I H)
tandis quun estimateur sans biais de 2 est fourni par :
s2 =
ky Xk2
kek2
SSE
=
=
.
np1
np1
np1
Ainsi, les termes s2 hii sont des estimations des variances des predicteurs ybi .
16
Chapitre 2. R
egression lin
eaire
3.3
SSE est la somme des carres des residus (sum of squared errors),
bk2 = kek2 .
SSE = ky y
On definit egalement la somme totale des carres (total sum of squares) par
SST = ky y1k2 = y0 y n
y2
et la somme des carres de la regression (regression sum of squares) par
b0 y
b n
SSR = kb
y y1k2 = y
y 2 = y0 Hy n
y 2 = b0 X0 y n
y2.
3.4
Coefficient de d
etermination
SSR
SST
qui est donc la part de variation de Y expliquee par le mod`ele de regression. Geometriquement,
cest un rapport de carres de longueur de deux vecteurs. Cest donc le cosinus carre de
b sur Vect(X).
langle entre ces vecteurs : y et sa projection y
Attention, dans le cas extreme o`
u n = (p + 1), cest-`a-dire si le nombre de variables
explicatives est grand comparativement au nombre dobservations, R 2 = 1. Ou encore, il
est geometriquement facile de voir que lajout de variables explicatives ne peut que faire
crotre le coefficient de determination.
Inf
erences dans le cas gaussien
En principe, lhypoth`ese optionnelle (iv) de normalite des erreurs est necessaire pour
cette section. En pratique, des resultats asymptotiques, donc valides pour de grands
echantillons, ainsi que des etudes de simulation, montrent que cette hypoth`ese nest pas
celle dont la violation est la plus penalisante pour la fiabilite des mod`eles.
4.1
Inf
erence sur les coefficients
4. Inf
erences dans le cas gaussien
une hypoth`ese H0
100(1 )% :
17
Attention, cette statistique concerne un coefficient et ne permet pas dinferer conjointement (cf. 3.4) sur dautres coefficients car ils sont correles entre eux ; de plus elle depend
des absences ou presences des autres variables X k dans le mod`ele. Par exemple, dans le
cas particulier de deux variables X 1 et X 2 tr`es correlees, chaque variable, en labsence
de lautre, peut apparatre avec un coefficient significativement different de 0 ; mais, si les
deux sont presentes dans le mod`ele, elles peuvent chacune apparatre avec des coefficients
insignifiants.
De facon plus generale, si c designe un vecteur non nul de (p+1) constantes reelles, il est
possible de tester la valeur dune combinaison lineaire c 0 b des param`etres en considerant
lhypoth`ese nulle H0 : c0 b = a ; a connu. Sous H0 , la statistique
c0 b a
4.2
Inf
erence sur le mod`
ele
4.3
d.d.l.
p
np1
n1
Somme
des
carres
SSR
SSE
SST
Variance
MSR=SSR/p
MSE=SSE/(n p 1)
F
MSR/MSE
Inf
erence sur un mod`
ele r
eduit
Le test precedent am`ene a` rejeter H 0 d`es que lune des variables X j est liee a` Y . Il
est donc dun interet limite. Il est souvent plus utile de tester un mod`ele reduit cesta`-dire dans lequel certains coefficients, a` lexception de la constante, sont nuls contre le
mod`ele complet avec toute les variables. En ayant eventuellement reordonne les variables,
on consid`ere lhypoth`ese nulle H 0 : 1 = 2 = . . . = q = 0, q < p.
Notons respectivement SSRq , SSEq , Rq2 les sommes de carres et le coefficient de determination
du mod`ele reduit a` (p q) variables. Sous H 0 , la statistique
(R2 Rq2 )/q
(SSR SSRq )/q
=
SSE/(n p 1)
(1 R2 )/(n p 1)
18
Chapitre 2. R
egression lin
eaire
4.4
Pr
evision
Connaissant les valeurs des variables X j pour une nouvelle observation : x00 = [x10 , x20 , . . . , xp0 ]
appartenant au domaine dans lequel lhypoth`ese de linearite reste valide, une prevision,
notee yb0 de Y ou E(Y ) est donnee par :
yb0 = b0 + b1 x10 + + bp xp0 .
Les intervalles de confiance des previsions de Y et E(Y ), pour une valeur x 0 IRp et en
posant v0 = (1|bmx00 )0 IRp+1 , sont respectivement
yb0 t/2;(np1) s(1 + v00 (X0 X)1 v0 )1/2 ,
4.5
Exemple
Le mod`ele de regression lineaire nest pas adapte a` lexplication dune variable binaire
comme dans le cas des donnees bancaires. Ceci est aborde dans le chapitre suivant en
utilisant la regression logistique tandis que dautres exemples de donnees sont utilisees
dans ce chapitre. Les premi`eres sont extraites de Jobson (1991) et decrivent les resultats
comptables de 40 entreprises du Royaume Uni.
RETCAP
WCFTDT
LOGSALE
LOGASST
CURRAT
QUIKRAT
NFATAST
FATTOT
PAYOUT
WCFTCL
GEARRAT
CAPINT
INVTAST
Mod`
ele complet
La procedure SAS/REG est utilisee dans le programme suivant. Beaucoup doptions
sont actives afin de fournir la plupart des resultats meme si certains sont redondants ou
peu utiles.
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp1 all;
4. Inf
erences dans le cas gaussien
19
CURRAT
Analysis of Variance
Source
Model
Error
C Total
Root MSE
Dep Mean
C.V.
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
Sum of
Mean
DF
Squares
Square
F Value
(1)
12
0.55868 (2)
0.04656 (5)
8.408 (7)
27
0.14951 (3)
0.00554 (6)
39
0.70820 (4)
0.07441 (9)
R-square
0.7889 (12)
0.14275 (10)
Adj R-sq
0.6951 (13)
52.12940 (11)
0.0001 (8)
Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
...
(1)
(2)
(3)
(4)
(5)
(6)
Prob>F
Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414
T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999
Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778
Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805
Ces resultats soulignent les probl`emes de colinearites. De grands VIF sont associes
a` de grands ecart-types des estimations des param`etres. Dautre part les nombreux tests
de Student non significatifs montrent que trop de variables sont presentes dans le mod`ele.
Cette idee est renforcee par le calcul de lindice de conditionnement (explicite dans la
section suivante : 8.76623/0.00125).
20
Chapitre 2. R
egression lin
eaire
Choix de mod`
ele
5.1
Crit`
eres
5. Choix de mod`
ele
21
sagit de comparer des mod`eles de niveaux differents. Certains crit`eres se ram`enent, dans le
cas gaussien, a` lutilisation dune expression penalisee de la fonction de vraisemblance afin
de favoriser des mod`eles parcimonieux. En pratique, les plus utilises ou ceux generalement
fournis par les logiciels sont les suivants.
Statistique du F de Fisher
Ce crit`ere, justifie dans le cas explicatif car base sur une qualite dajustement est aussi
utilise a` titre indicatif pour comparer des sequences de mod`eles embotes. La statistique
partielle de Fisher est
(R2 Rq2 ) n p 1
(SSR SSRq )/s
=
SSE/(n p 1)
1 R2 )
q
dans laquelle lindice q designe les expressions concernant le mod`ele reduit avec (p q)
variables explicatives. On consid`ere alors que si laccroissement (R 2 Rq2 ) est suffisamment
grand :
q
2
F
,
R 2 RR
>
(n p 1) ;q,(np1)
lajout des q variables au mod`ele est justifie.
R2 et R2 ajust
e
Le coefficient de determination R 2 = 1SSE/SST, directement lie a` la deviance (SSE)
est aussi un indice de qualite mais qui a la propriete detre monotone croissant en fonction
du nombre de variables. Il ne peut donc servir qu`a comparer deux mod`eles de meme
niveau cest-`a-dire avec le meme nombre de variables.
En revanche, le R2 ajuste :
2
R0 = 1
n1
SSE/(n p 1)
(1 R2 ) = 1
.
np1
SST/(n 1)
dans lequel le rapport SSE/SST est remplace par un rapport des estimations sans biais
des quantites 2 et y2 introduit une penalisation liee au nombre de param`etres a` estimer.
Ce coefficient sexprime encore par
(n 1)MSE
SST
ainsi dans la comparaison de deux mod`eles partageant la meme SST, on observe que
R0 2 > R0 2j si et seulement si MSE<MSEj ; MSE et MSEj designant respectivement lerreur
quadratique moyenne du mod`ele complet et celle dun mod`ele a` j variables explicatives.
Maximiser le R2 ajuste revient donc a` minimiser lerreur quadratique moyenne.
1
Cp de Mallow
Cet indicateur est une estimation de lerreur quadratique moyenne de prediction qui
secrit aussi comme la somme dune variance et du carre dun biais. Lerreur quadratique
moyenne de prediction secrit ainsi : :
MSE(b
yi ) = Var(b
yi ) + [Biais(b
yi )]2
22
Chapitre 2. R
egression lin
eaire
i=1
i=1
i=1
En supposant que les estimations du mod`ele complet sont sans biais et en utilisant des estimateurs de V ar(b
yi ) et 2 , lexpression de lerreur quadratique moyenne totale standardisee
(ou reduite) pour un mod`ele a` j variables explicatives secrit :
Cp = (n q 1)
MSEj
[n 2(q + 1)]
MSE
et definit la valeur du Cp de Mallow pour les q variables considerees. Il est alors dusage
de rechercher un mod`ele qui minimise le C p tout en fournissant une valeur inferieure et
proche de (q + 1). Ceci revient a` considerer que le vrai mod`ele complet est moins fiable
quun mod`ele reduit donc biaise mais destimation plus precise.
Akakes Information criterion (AIC)
A completer
PRESS de Allen
Il sagit lintroduction historique de la validation croisee. On designe par yb(i) la prediction
de yi calculee sans tenir compte de la i`eme observation (y i , x1i , . . . , xpi ), la somme des erreurs quadratiques de prediction (PRESS) est definie par
PRESS =
n
X
i=1
(yi yb(i) )2
et permet de comparer les capacites predictives de deux mod`eles. Le chapitre 3 donne plus
de details sur ce type destimation.
5.2
Algorithmes de s
election
Lorsque p est grand, il nest pas raisonnable de penser explorer les 2 p mod`eles possibles afin de selectionner le meilleur au sens de lun des crit`eres ci-dessus. Differentes
strategies sont donc proposees qui doivent etre choisies en fonction de lobjectif recherche
et des moyens de calcul disponibles ! Trois types dalgorithmes sont resumes ci-dessous par
ordre croissant de temps de calcul necessaire cest-`a-dire par nombre croissant de mod`eles
consideres parmi les 2p et donc par capacite croissante doptimalite. On donne pour chaque
algorithme loption selection a` utiliser dans la procedure REG de SAS.
Pas a
` pas
` chaque pas, une variable est ajoutee au mod`ele. Cest celle dont
S
election (forward) A
la valeur p (prob value)associee a` la statistique partielle du test de Fisher qui
compare les deux mod`eles est minimum. La procedure sarrete lorsque toutes les
variables sont introduites ou lorsque p reste plus grande quune valeur seuil fixee par
defaut a` 0, 50.
5. Choix de mod`
ele
23
` chaque
Elimination
(backward) Lalgorithme demarre cette fois du mod`ele complet. A
etape, la variable associee a` la plus grande valeur p est eliminee du mod`ele. La
procedure sarrete lorsque les variables restant dans le mod`ele ont des valeurs p plus
petites quun seuil fixe par defaut a` 0, 10.
Mixte (stepwise) Cet algorithme introduit une etape delimination de variable apr`es
chaque etape de selection afin de retirer du mod`ele deventuels variables qui seraient devenues moins indispensables du fait de la presence de celles nouvellement
introduites.
Global
Lalgorithme de Furnival et Wilson est utilise pour comparer tous les mod`eles possibles
en cherchant a` optimiser lun des crit`eres : R 2 , R2 ajuste, ou Cp de Mallow (rsquare,
adjrsq, cp) choisi par lutilisateur. Par souci deconomie, cet algorithme evite de considerer
des mod`eles de certaines sous-branches de larborescence dont on peut savoir a priori
quils ne sont pas competitifs. En general les logiciels executant cet algorithme affichent le
(best=1) ou les meilleurs mod`eles de chaque niveau.
5.3
Exemple
Parmi les trois types dalgorithmes et les differents crit`eres de choix, une des facons les
plus efficaces consistent a` choisir les options du programme ci-dessous. Tous les mod`eles
(parmi les plus interessants selon lalgorithme de Furnival et Wilson) sont consideres. Seul
le meilleur pour chaque niveau, cest-`a-dire pour chaque valeur p du nombre de variables
explicatives sont donnes. Il est alors facile de choisir celui minimisant lun des crit`eres
globaux (Cp ou BIC ou . . . ).
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;
LOGASST
QUIKRAT
CURRAT
N = 40
Regression Models for Dependent Variable: RETCAP
R-square Adjusted C(p)
BIC
Variables in Model
In
R-square
1 0.1055 0.0819 78.3930 -163.26 WCFTCL
2 0.3406 0.3050 50.3232 -173.72 WCFTDT QUIKRAT
3 0.6154 0.5833 17.1815 -191.14 WCFTCL NFATAST CURRAT
4 0.7207 0.6888 5.7146 -199.20 WCFTDT LOGSALE NFATAST CURRAT
5 0.7317 0.6923 6.3047 -198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT
9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT
10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT
QUIKRAT CURRAT
11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST
PAYOUT QUIKRAT CURRAT
24
12
Chapitre 2. R
egression lin
eaire
0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST PAYOUT QUIKRAT CURRAT
Dans cet example, Cp et BIC se comportent de la meme facon. Avec peu de variables,
le mod`ele est trop biaise. Ils atteignent un minimum pour un mod`ele a` 4 variables explicatives puis croissent de nouveau selon la premi`ere bissectrice. La maximisation du R 2
ajuste conduirait a` une solution beaucoup moins parcimonieuse. On note par ailleurs que
lalgorithme remplace WCFTCL par WCFTDT. Un algorithme par selection ne peut pas
aboutir a` la solution optimale retenue.
5.4
Choix de mod`
ele par r
egularisation
Lautre strategie qui cherche a` conserver lensemble ou tout du moins la plupart des
variables explicatives pose un probl`eme de multicolinearite. Il est resolu par une procedure
de regularisation.
Probl`
eme
Lestimation des param`etres ainsi que celle de leur ecart-type (standard error) necessite
le calcul explicite de la matrice (X 0 X)1 . Dans le cas dit mal conditionne o`
u le determinant
de la matrice X0 X nest que leg`erement different de 0, les resultats conduiront a` des estimateurs de variances importantes et meme, eventuellement, a` des probl`emes de precision
numerique. Il sagit donc de diagnostiquer ces situations critiques puis dy remedier. Dans
les cas descriptif ou predictif on supprime des variables a` laide des procedures de choix de
mod`ele mais, pour un objectif explicatif necessitant toutes les variables, dautres solutions
doivent etre envisagees : algorithme de resolution des equations normales par transformations orthogonales (procedure orthoreg de SAS) sans calcul explicite de linverse pour
limiter les probl`emes numeriques, regression biaisee (ridge), regression sur composantes
principales.
VIF
La plupart des logiciels proposent des diagnostics de colinearite. Le plus classique est
le facteur dinflation de la variance (VIF)
Vj =
1
1 Rj2
o`
u Rj2 designe le coefficient de determination de la regression de la variable X j sur les
autres variables explicatives ; Rj est alors un coefficient de correlation multiple, cest le
cosinus de langle dans IRn entre X j et le sous-espace vectoriel engendre par les variables
{X 1 , . . . , X j1 , X j1 , . . . , X p }. Plus X j est lineairement proche de ces variables et plus
Rj est proche de 1 ; on montre alors que la variance de lestimateur de j est dautant
5. Choix de mod`
ele
25
Conditionnement
De facon classique, les qualites numeriques de linversion dune matrice sont quantifiees
par son indice de conditionnement. On note 1 , . . . , p les valeurs propres de la matrice
des correlations R rangees par ordre decroissant. Le determinant de R est egal au produit
des valeurs propres. Ainsi, des probl`emes numeriques, ou de variances excessives apparaissent d`es que les derni`eres valeurs propres sont relativement trop petites. Lindice de
conditionnement est le rapport
= 1 /p
de la plus grande sur la plus petite valeur propre.
En pratique, si < 100 on consid`ere quil ny a pas de probl`eme. Celui-ci devient sev`ere
pour > 1000. Cet indice de conditionnement donne un apercu global des probl`emes de
colinearite tandis que les VIF, les tolerances ou encore letude des vecteurs propres associes
au plus petites valeurs propres permettent didentifier les variables les plus problematiques.
R
egression ridge
Ayant diagnostique un probl`eme mal conditionne mais desirant conserver toutes les
variables, il est possible dameliorer les proprietes numeriques et la variance des estimations
en considerant un estimateur leg`erement biaise des param`etres. Lestimateur ridge est
donne par
bR = (X0 X + kI)1 X0 y,
qui a pour effet de decaler de la valeur k toutes les valeurs propres de la matrice a` inverser
et, plus particuli`erement, les plus petites qui refl`etent la colinearite. On montre que cela
revient encore a` estimer le mod`ele par les moindres carres sous la contrainte que la norme
du vecteur1 des param`etres ne soit pas trop grande :
n
o
bR = arg min ky Xk2 ; kk2 < c .
Cest encore, en introduisant un multiplicateur de Lagrange dans le probl`eme de minimisation, un probl`eme de moindres carres penalises :
bR = arg min{ky Xk2 + kk2 }.
Cela revient a` penaliser la norme de lestimateur pour empecher les coefficients dexploser
et donc pour limiter la variance. On parle aussi destimateur a` retrecisseur (shrinkage).
Comme dans tout probl`eme de regularisation, il est necessaire de fixer la valeur du param`etre ; la validation croisee peut etre utilisee a` cette fin mais la lecture du graphique
(cf. figure 2.1) montrant levolution des param`etres en fonction du coefficient ridge est
souvent suffisante. La valeur est choisie au point o`
u la decroissance des param`etres devient faible et quasi-lineaire. Une autre version (lasso) de regression biaisee est obtenue en
utilisant la norme en valeur absolue pour definir la contrainte sur les param`etres.
1
En pratique, la contrainte ne sapplique pas au terme constant 0 mais seulement aux coefficients du
mod`ele.
26
Chapitre 2. R
egression lin
eaire
6. Compl
ements
27
m = hz m , yi / hz m , z m i .
b (m) = y
b (m1) + m z m .
y
E
i
hD
(m)
(m1)
(m1)
Orthogonalisation : xj = xj
xj
, z m / hz m , z m i z m ; j = 1, . . . , p.
Fin pour
b (q) apr`es un choix de m = q composantes. Les coefficients sur les
Le resulat est y
P
variables explicatives initiales sont donnes par : jpls = ql=1 lj l .
6
6.1
Compl
ements
Mod`
eles curvilin
eaires
6.2
Influence, r
esidus, validation
Avant toute tentative de modelisation complexe, il est imperatif davoir conduit des
analyses uni et bivariees afin didentifier des probl`emes sur les distributions de chacune
des variables : dissymetrie, valeurs atypiques (outliers) ou sur les liaisons des variables
prises deux par deux : non-linearite. Ces preliminaires acquis, des aides ou diagnostics
associes a` la regression lineaire multiple permettent de detecter des violations dhypoth`eses
(homoscedasticite, linearite) ou des points influents dans ce contexte multidimensionnel
(cf. figure 2.2).
28
Chapitre 2. R
egression lin
eaire
Points influents
Comme toute methode quadratique, lestimation des param`etres est tr`es sensible a`
la presence de points extremes susceptibles de perturber gravement les resultats. Une
observation est influente sur les param`etres dune regression si, a` la fois,
elle est eloignee du barycentre, et ce dans la direction dun vecteur propre associe a`
une petite valeur propre (effet levier),
elle provoque un grand residu.
Lobservation de la diagonale de la matrice H (hat matrix) rev`ele un effet levier potentiel
tandis que lanalyse des residus studentises pointe ceux susceptibles de poser des probl`emes
(valeur absolue plus grande que 2).
Les deux diagnostics precedents sont combines dans des mesures synthetiques proposees par differents auteurs. La plus utilisee est la distance de Cook
hii
1
ri2
0
b(i) ) (b
b(i) ) =
(b
yy
yy
Di = 2
s (p + 1)
1 hii (p + 1)
b et le
qui quantifie linfluence de la i-`eme observation sur lecart entre le predicteur y
b(i) calcule sans cette i`eme observation. On conclut a` une influence de lobserpredicteur y
vation i lorsque la valeur de Di depasse 1.
Tous ces crit`eres sont illustres dans les graphiques de la figure 2.2. Les tableaux cidessous fournis pas SAS illustrent ces quantites sur lexemple des donnees comptables.
Obs
1
2
3
4
5
...
Dep Var
RETCAP
(1)
0.2600
0.5700
0.0900
0.3200
0.1700
Obs
1
2
3
4
5
|
|
|
|
|
Predict
Value
(2)
0.2716
0.3690
0.00897
0.2335
0.1164
-2-1-0 1 2
(11)
|
|
|******|
|**** |
|**
|
|*
|
...
Cooks
D
Rstudent
(12)
(13)
0.004
-0.2194
0.302
3.9515
0.832
2.1955
0.010
1.2228
0.041
0.9175
Upper95
Mean
(5)
0.3808
0.4497
0.1385
0.2768
0.2113
Hat Diag
H
(14)
0.5109
0.2795
0.7192
0.0803
0.3864
Lower95
Predict
(6)
0.0839
0.1962
-0.1912
0.0748
-0.0634
Cov
Ratio
(15)
3.2603
0.0050
0.6375
0.8585
1.7591
Upper95
Std Err Student
Predict Residual Residual Residual
(7)
(8)
(9)
(10)
0.4593 -0.0116
0.052 -0.223
0.5417
0.2010
0.063
3.183
0.2092
0.0810
0.039
2.055
0.3922
0.0865
0.071
1.212
0.2961
0.0536
0.058
0.920
Dffits
(15)
-0.2242
2.4611
3.5134
0.3613
0.7280
INTERCEP
Dfbetas
(15)
0.0299
0.9316
0.5543
-0.0132
-0.0386
WCFTCL
WCFTDT
Dfbetas
Dfbetas
(15)
(15)
0.0632 -0.0911
-0.3621 0.3705
2.1916 -2.0241
-0.0835 0.1207
0.0906 0.0060
6. Compl
ements
29
(1)
(2)
(3)
(4)et (5)
(6) et (7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
variable a
` expliquer yi
valeur ajustee ybi
ecart-type de cette estimationsybi
Intervalle de confiance pour lestimation de E(yi )
Intervalle de confiance pour lestimation de yi
residus calcules ei
ecarts-types de ces estimations
residus standardises (ou studentises internes) ri
reperage graphique des residus standardises : = 0.5.
Distance de Cook
residus studentises (externes) ti
Termes diagonaux de la matrice chapeau H
autres indicateurs dinfluence
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
0
0.1495
1.0190
(SSE)
(PRESS)
R
egression partielle
Un mod`ele de regression multiple est une technique lineaire. Il est raisonnable de sinterroger sur la pertinence du caract`ere lineaire de la contribution dune variable explicative
a` lajustement du mod`ele. Ceci peut etre realise en considerant une regression partielle.
On calcule alors deux regressions :
la regression de Y sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p , dans laquelle la
j`eme variable est omise, soit ry(j) le vecteur des residus obtenus.
La regression de X j sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p . Soit rx(j) le vecteur des residus obtenus.
La comparaison des residus par un graphe (nuage de points r y(j) rx(j) ) permet alors de
representer la nature de la liaison entre X j et Y conditionnellement aux autres variables
explicatives du mod`ele.
30
Chapitre 2. R
egression lin
eaire
Fig. 2.3 Graphe des valeurs observees en fonction des valeurs predites et droite de Henri
des residus (normal qq-plot).
Graphes
Differents graphiques permettent finalement de controler le bien fonde des hypoth`eses
de linearite, dhomoscedasticite, eventuellement de normalite des residus.
Le premier consid`ere le nuage de points des residus studentises croises avec les valeurs
predites. Les points doivent etre uniformement repartis entre les bornes 2 et +2 et
ne pas presenter de formes suspectes (cf. figure 2.2).
Le deuxi`eme croise les valeurs observees de Y avec les valeurs predites. Il illustre
le coefficient de determination R qui est aussi la correlation lineaire simple entre
b et y. Les points doivent saligner autour de la premi`ere bissectrice. Il peut etre
y
complete par lintervalle de confiance des y i ou celui de leurs moyennes. (cf. figure
2.3).
La qualite, en terme de linearite, de lapport de chaque variable est etudiee par
des regressions partielles. Chaque graphe de residus peut etre complete par une
estimation fonctionnelle ou regression non-parametrique (loess, noyau, spline) afin
den facilite la lecture.
Le dernier trace la droite de Henri (Normal QQplot) des residus dont le caract`ere
lineaire de la representation donne une idee de la normalite de la distribution. (cf.
figure 2.3)
7
7.1
Analyse de variance `
a un facteur
Introduction
Les techniques dites danalyse de variance sont des outils entrant dans le cadre general
du mod`ele lineaire et o`
u une variable quantitative est expliquee par une ou plusieurs
variables qualitatives. Lobjectif essentiel est alors de comparer les moyennes empiriques
de la variable quantitative observees pour differentes categories dunites statistiques. Ces
categories sont definies par lobservation des variables qualitatives ou facteurs prenant
differentes modalites ou encore de variables quantitatives decoupees en classes ou niveaux.
7. Analyse de variance a
` un facteur
31
7.2
Mod`
ele
32
Chapitre 2. R
egression lin
eaire
On note respectivement :
y.j =
nj
1 X
yij ,
nj
i=1
nj
s2j
1 X
(yij y.j )2 ,
nj 1
i=1
y.. =
nj J
1 XX
yij ,
n
i=1 j=1
est
s =
PJ
j=1
P nj
i=1 (yij
nJ
y.j )2
1
[(n 1)s21 + + (nJ 1)s2J ]
nJ
qui secrit donc comme une moyenne ponderee des variances empiriques de chaque groupe.
Notons y le vecteur des observations [y ij |i = 1, nj ; j = 1, J]0 mis en colonne, =
[ij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les variables indicatrices des niveaux et
1 la colonne de 1s. Le i`eme element dune variable indicatrice (dummy variable) 1 j prend
la valeur 1 si la i`eme observation y i est associee au j`eme et 0 sinon.
Comme dans le cas de la regression lineaire multiple, le mod`ele consiste a` ecrire que
lesperance de la variable Y appartient au sous-espace lineaire engendre par les variables
explicatives, ici les variables indicatrices :
y = 0 1 + 1 11 + + J 1J + .
La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice
X0 X nest pas inversible et le mod`ele admet une infinite de solutions. Nous disons que
les param`etres j ne sont pas estimables ou identifiables. En revanche, certaines fonctions
(combinaisons lineaires) de ces param`etres sont estimables et appelees contrastes.
Dans le cas du mod`ele danalyse de variance a` un facteur, la solution la plus simple
adoptee consiste a` considerer un sous-ensemble des indicatrices ou de combinaisons des
indicatrices engendrant le meme sous-espace de facon a` aboutir a` une matrice inversible.
Ceci conduit a` considerer differents mod`eles associes a` differentes parametrisation. Attention, les param`etres j ainsi que la matrice X prennent a` chaque fois des significations
differentes.
Un premier mod`ele (cell means model) secrit comme celui dune regression lineaire
multiple sans terme constant avec = [ 1 , . . . , J ]0 le vecteur des param`etres :
y = 1 11 + + J 1J +
y = X + .
7. Analyse de variance a
` un facteur
33
Les calculs se presentent simplement mais les tests decoulant de ce mod`ele conduiraient a`
etudier la nullite des param`etres alors que nous sommes interesses par tester legalite des
moyennes.
Une autre parametrisation, considerant cette fois le vecteur = [ J , 1 J , . . . , J1
J conduit a` ecrire le mod`ele (base cell model) de regression avec terme constant :
]0
y = 0 1 + 1 11 + + J1 1J1 + .
Cest celle de SAS alors que dautres logiciels consid`
PJ erent des param`etres deffet differentiel
j . par rapport a` leffet moyen . = 1/J j=1 j . Ce dernier est encore un mod`ele
(group effect model) de regression lineaire avec terme constant mais dont les variables
explicatives sont des differences dindicatrices et avec = [ . , 1 . , . . . , J1 . ]0 :
y = 0 1 + 1 (11 1J ) + + J1 (1J1 1J ) + .
7.3
Test
nj
J X
X
j=1 i=1
J nj
SSW =
XX
j=1 i=1
SSB =
J
X
j=1
(yij y.. ) =
(yij y.j )2 =
nj (
y.j y.. )2 =
nj
J X
X
j=1 i=1
J nj
XX
j=1 i=1
J
X
j=1
2
yij
n
y..2 ,
2
yij
J
X
2
nj y.j
,
j=1
2
nj y.j
n
y..2 ,
o`
u T signifie totale, W (within) intra ou residuelle, B (between) inter ou expliquee
par la partition. Il est facile de verifier que SST=SSB+SSW.
On consid`ere alors lhypoth`ese
H0 : 1 = = J ,
qui revient a` dire que la moyenne est independante du niveau ou encore que le facteur na
pas deffet, contre lhypoth`ese
H1 : (j, k) tel que j 6= k
qui revient a` reconnatre un effet ou une influence du facteur sur la variable Y .
Dans les mod`eles precedents, letude de cette hypoth`ese revient a` comparer par un
test de Fisher un mod`ele complet (les moyennes sont differentes) avec un mod`ele reduit
supposant la nullite des param`etres j et donc legalite des moyennes a` celle de la derni`ere
cellule ou a` la moyenne generale.
Les resultats necessaires a` la construction du test qui en decoule sont resumes dans la
table danalyse de la variance :
34
Chapitre 2. R
egression lin
eaire
Source
de
variation
Mod`ele (inter)
Erreur (intra)
Total
d.d.l.
J 1
nJ
n1
Somme
des carres
SSB
SSW
SST
Variance
MSB=SSB/(J 1)
MSW=SSW/(n J)
F
MSB/MSW
Analyse de covariance
8.1
Mod`
ele
8. Analyse de covariance
35
idee sur les effets respectifs des variables : parallelisme des droites, etirement, imbrication
des sous-nuages.
On suppose que les moyennes conditionnelles E[Y |T ], cest-`a-dire calculees a` linterieur
de chaque cellule, sont dans le sous-espace vectoriel engendre par les variables explicatives
quantitatives, ici X. Ceci secrit :
yij = 0j + 1j xij + ij ;
j = 1, . . . , J;
i = 1, , nj
o`
u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 ) pour
la construction des tests.
Notons y le vecteur des observations [y ij |i = 1, nj ; j = 1, J]0 mis en colonne, x le
vecteur [xij |i = 1, nj ; j = 1, J]0 , = [ij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les
variables indicatrices des niveaux et 1 la colonne de 1s. On note encore x.1 j le produit
terme a` terme des deux vecteurs, cest-`a-dire le vecteur contenant les observations de X
sur les individus prenant le niveau j de T et des zeros ailleurs.
La resolution simultanee des J mod`eles de regression est alors obtenue en considerant
globalement le mod`ele :
y = X +
dans lequel X est la matrice n2J constituee des blocs [1 j |x.1j ] ; j = 1, . . . , J. Lestimation
de ce mod`ele global conduit, par bloc, a` estimer les mod`eles de regression dans chacune
des cellules.
Comme pour lanalyse de variance, les logiciels op`erent une reparametrisation faisant
apparatre des effets differentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT)
ou par rapport a` un effet moyen (Systat), afin dobtenir directement les bonnes hypoth`eses
dans les tests. Ainsi, dans le premier cas, on consid`ere la matrice de meme rang (sans la
J`eme indicatrice)
X = [1|x|11 | |1J1 |x.11 | |x.1J1 ]
associee aux mod`eles :
yij = 0J + (0j 0J ) + 1J xij + (1j 1J )xij + ij ;
8.2
j = 1, . . . , J 1; i = 1, . . . , nj .
Tests
36
Chapitre 2. R
egression lin
eaire
8.3
Choix de mod`
ele
8.4
Exemple
Les donnees, extraites de Jobson (1991), sont issues dune etude marketing visant a`
etudier limpact de differentes campagnes publicitaires sur les ventes de differents aliments.
Un echantillon ou panel de familles a ete constitue en tenant compte du lieu dhabitation
ainsi que de la constitution de la famille. Chaque semaine, chacune de ces familles ont
rempli un questionnaire decrivant les achats realises. Nous nous limitons ici a` letude de
limpact sur la consommation de lait de quatre campagnes diffusees sur des chanes locales
de television. Quatre villes, une par campagne publicitaire, ont ete choisies dans cinq
differentes regions geographiques. Les consommations en lait par chacune des six familles
par ville alors ete mesurees (en dollars) apr`es deux mois de campagne.
Les donnees se presentent sous la forme dun tableau a` 6 variables : la region geographique,
les 4 consommations pour chacune des villes ou campagnes publicitaires diffusees, la taille
de la famille. Cette situation est celle classique dun mod`ele danalyse de variance. Nous
choisissons ici de conserver quantitative la variable taille de la famille et donc de modeliser
8. Analyse de covariance
37
Les resultats ci-dessous conduiraient a` conclure a` une forte influence de la taille mais
a` labsence dinfluence du type de campagne. Les droites de regression ne semblent pas
significativement differentes.
Source
PUB
TAILLE
TAILLE*PUB
(1)
(2)
(3)
DF
3
1
3
Type III SS
227.1807
40926.0157
309.8451
Mean Square
75.7269
40926.0157
103.2817
F Value
0.57
306.57
0.77
Pr > F
0.6377 (1)
0.0001 (2)
0.5111 (3)
Neanmoins, pris dun doute, le meme calcul est effectue separement pour chaque
region :
proc glm data=sasuser.milk;
by region;
class pub;
model consom=pub taille pub*taille;
run;
R
egion
Source
DF
Type III SS
Mean Square
F Value
Pr > F
PUB
TAILLE
TAILLE*PUB
3
1
3
72.02974
7178.32142
217.37048
24.00991
7178.32142
72.45683
4.62
1380.25
13.93
0.0164
0.0001
0.0001
PUB
TAILLE
TAILLE*PUB
3
1
3
231.73422
8655.25201
50.15069
77.24474
8655.25201
16.71690
30.36
3402.34
6.57
0.0001
0.0001
0.0042
PUB
TAILLE
TAILLE*PUB
3
1
3
79.54688
6993.30160
173.19305
26.51563
6993.30160
57.73102
6.01
1585.35
13.09
0.0061
0.0001
0.0001
PUB
TAILLE
TAILLE*PUB
3
1
3
415.66664
9743.37830
361.39556
138.55555
9743.37830
120.46519
15.23
1071.32
13.25
0.0001
0.0001
0.0001
PUB
TAILLE
TAILLE*PUB
3
1
3
15.35494
8513.28516
52.75119
5.11831
8513.28516
17.58373
0.79
1314.71
2.72
0.5168
0.0001
0.0793
Il apparat alors qu`a linterieur de chaque region (sauf region 5), les campagnes de
publicite ont un effet tant sur la constante que sur la pente.
38
Chapitre 2. R
egression lin
eaire
Ceci incite donc a` se mefier des interactions (leffet region compense leffet publicite)
et encourage a` toujours conserver le facteur bloc (ici la region) dans une analyse de variance. Une approche compl`ete, considerant a priori toutes les variables (3 facteurs), est
ici necessaire (cf. TP).
Completer : choix automatique avec AIC.
9. Introduction
39
Introduction
10
Une variable
Soit Y une variable qualitative a` J modalites. On designe la chance ou lodds 2 de voir
se realiser la j`eme modalite plutot que la k`eme par le rapport
jk =
j
k
o`
u j est la probabilite dapparition de la j`eme modalite. Cette quantite est estimee par
le rapport nj /nk des effectifs observes sur un echantillon. Lorsque la variable est binaire
et suit une loi de Bernouilli de param`etre , lodds est le rapport /(1 ) qui exprime
une cote ou chance de gain.
Table de contingence
On consid`ere maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires X 1 et X 2 . les param`etres de la loi conjointe se mettent dans une matrice :
11 12
21 22
o`
u ij = P [{X 1 = i} et {X 2 = j}] est la probabilite doccurence de chaque combinaison.
Dans la ligne 1, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
1 =
11
.
12
Dans la ligne 2, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
2 =
2
21
.
22
40
Chapitre 2. R
egression lin
eaire
11 22
1
=
.
2
12 21
Ce rapport prend la valeur 1 si les variables sont independantes, il est superieur a` 1 si les
sujets de la ligne 1 ont plus de chances de prendre la premi`ere colonne que les sujets de la
ligne 2 et inferieur a` 1 sinon.
Lodds ratio est egalement defini pour deux lignes (a, b) et deux colonnes (c, d) quelconques dune table de contingence croisant deux variables a` J et K modalites. Lodds
ratio est le rapport
abcd =
11
11.1
a
ac bd
=
b
ad bc
nad nbc
R
egression logistique
Type de donn
ees
ou
1 = P (Z = 0),
ou plutot une transformation de celles-ci, par lobservation conjointe des variables explicatives. Lidee est en effet de faire intervenir une fonction reelle monotone g operant de
[0, 1] dans IR et donc de chercher un mod`ele lineaire de la forme :
g(i ) = x0i .
Il existe de nombreuses fonctions, dont le graphe presente une forme sigmodale et qui
sont candidates pour remplir ce role, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de repartition dune loi normale,
mais son expression nest pas explicite.
log-log avec g definie par
g() = ln[ ln(1 )]
mais cette fonction est dissymetrique.
logit est definie par
g() = logit() = ln
avec
g 1 (x) =
ex
.
1 + ex
Plusieurs raisons, tant theoriques que pratiques, font preferer cette derni`ere solution.
Le rapport /(1 ), qui exprime une cote, est lodds et la regression logistique sinterpr`ete donc comme la recherche dune modelisation lineaire du log odds tandis que
11. R
egression logistique
41
les coefficients de certains mod`eles expriment des odds ratio cest-`a-dire linfluence dun
facteur qualitatif sur le risque (ou la chance) dun echec (dun succ`es) de Z.
Cette section se limite a` la description de lusage elementaire de la regression logistique. Des complements concernant lexplication dune variable qualitative ordinale (plusieurs modalites), lintervention de variables explicatives avec effet aleatoire, lutilisation
de mesures repetees donc dependantes, sont a` rechercher dans la bibliographie.
11.2
Mod`
ele binomial
On consid`ere, pour i = 1, . . . , I, differentes valeurs fixees x 1i , . . . , xqi des variables explicatives X 1 , . . . , X q . Ces derni`eres pouvant etre des variables quantitatives ou encore des
variables qualitatives, cest-`a-dire des facteurs issus dune planification experimentale.
Pour chaque groupe, cest-`a-dire
P pour chacune des combinaisons de valeurs ou facteurs,
on realise ni observations (n = Ii=1 ni ) de la variable Z qui se mettent sous la forme
y1 /n1 , . . . , yI /nI o`
u yi designe le nombre de succ`es observes lors des n i essais. On suppose
que toutes les observations sont independantes et qu`a linterieur dun meme groupe, la
probabilite i de succ`es est constante. Alors, la variable Y i sachant ni et desperance
E(Yi ) = ni i suit une loi binomiale B(ni , i ) dont la fonction de densite secrit :
n i yi
(1 i )(ni yi ) .
P (Y = yi ) =
yi i
On suppose que le vecteur des fonctions logit des probabilites i appartient au sousespace vect{X 1 , . . . , X q } engendre par les variables explicatives :
logit(i ) = x0i
i = 1, . . . , I
e xi
i =
0
1 + e xi
i = 1, . . . , I.
Remarques
bi =
e xi b
0
1 + e xi b
ybi = ni
bi .
42
Chapitre 2. R
egression lin
eaire
i. La matrice X issue de la planification experimentale est construite avec les memes
r`egles que celles utilisees dans le cadre de lanalyse de covariance mixant variables
explicatives quantitatives et qualitatives. Ainsi, les logiciels g`erent avec plus ou moins
de clarte le choix des variables indicatrices et donc des param`etres estimables ou
contrastes associes.
ii. La situation decrite precedemment correspond a` lobservation de donnees groupees.
Dans de nombreuses situations concr`etes et souvent d`es quil y a des variables explicatives quantitatives, les observations x i sont toutes distinctes. Ceci revient donc
a` fixer ni = 1; i = 1, . . . , I dans les expressions precedentes et la loi de Bernouilli
remplace la loi binomiale. Certaines methodes ne sont alors plus applicables et les
comportements asymptotiques des distributions des statistiques de test ne sont plus
valides, le nombre de param`etres tendant vers linfini.
12
12.1
Choix de mod`
ele
Recherche pas `
a pas
13
13.1
Exemples
D
ebitsVolumes
13. Exemples
43
DEBIT
4
3
2
1
0
0
DILAT
2
VOLUME
0
4
1
Fig. 2.4 Nuage des modalites de Y dans les coordonnees des variables explicatives.
proc logistic data=sasuser.debvol;
model dilat=l_debit l_volume;
run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;
The LOGISTIC Procedure
Criterion
AIC
SC
-2 LOG L
Score
Variable
INTERCPT
L_DEBIT
L_VOLUME
DF
1
1
1
Intercept
Only
56.040
57.703
54.040
.
Parameter(2)
Estimate
2.8782
-4.5649
-5.1796
Intercept
and
Covariates
Chi-Square for Covariates
35.216
.
40.206
.
29.216(1)
24.824 with 2 DF (p=0.0001)
.
16.635 with 2 DF (p=0.0002)
Standard
Wald(3)
Pr >
Standardized
Error
Chi-Square Chi-Square Estimate
1.3214
4.7443
0.0294
.
1.8384
6.1653
0.0130
-2.085068
1.8653
7.7105
0.0055
-1.535372
Odds
Ratio
.
0.010
0.006
Cette procedure fournit des crit`eres de choix de mod`ele dont la deviance (1), le vecteur
b des param`etres (2) et les statistiques des tests (3) comparant le mod`ele excluant un terme
par rapport au mod`ele complet tel quil est decrit dans la commande.
The GENMOD Procedure
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
36
29.2156
0.8115 (1)
Scaled Deviance
36
29.2156
0.8115 (2)
Pearson Chi-Square
36
34.2516
0.9514 (3)
Scaled Pearson X2
36
34.2516
0.9514
Log Likelihood
.
-14.6078
.
Analysis Of Parameter Estimates
44
Chapitre 2. R
egression lin
eaire
Parameter
INTERCEPT
L_DEBIT
L_VOLUME
SCALE (6)
(1)
(2)
(3)
(4)
(5)
(6)
13.2
DF
1
1
1
0
Estimate (4)
-2.8782
4.5649
5.1796
1.0000
Std Err
1.3214
1.8384
1.8653
0.0000
Donn
ees bancaires
Plusieurs strategies peuvent etre mises en uvre sur les donnees bancaires. Les premi`eres
consistent a` ne sinteresser quaux variables quantitatives et a` rechercher un meilleur
mod`ele a` laide de la procedure logistic en association avec lun des trois algorithmes
de selection.
proc logistic data=sasuser.vispremt;
class (`
a compl
eter)
model carvpr =ager relat opgnbl--dnbjdl/selection=stepwise;
run;
Ainsi, lalgorithme qui proc`ede par elimination retient finalement 14 des 20 variables.
pour un taux de mal classes de 15,4%. Par selection ou pas a` pas, la meme solution
est proposee avec 12 variables pour un taux de 15,6%. Attention, ces taux, calcules sur
lechantillon ayant servi a` estimer les param`etres, sont necessairement trop optimistes.
` moins dutiliser SAS Enterprise Miner, la prise en compte des variables qualitatives
A
necessitent une procedure de choix de mod`ele manuelle. Le module SAS/INSIGHT est
alors le plus efficace pour realiser une approche descendante avant de reestimer le mod`ele
obtenu a` laide de genmod.
proc genmod data=sasuser.vispremt ;
class sexec PRCSP;
make OBSTATS out=outglm;
model carvpr/poids = SEXEC PRCSP OPGNBL MOYRVL BOPPNL
DNBJDL UEMNB XLGNB YLVNB JNTCA NPTAG / obstats d=bin;
run;
/* Estimation du taux de mal class
es */
data prev ;
set outglm (keep=yvar1 pred);
if pred ge 0.5 then predy=1; else predy=0;
proc freq data=prev;
tables yvar1*predy/ nocol norow;
run;
Les resultats semblent alors bien meilleurs mais il faut rester prudent quant a` la
precision de cette estimation du taux derreur. On pourrait enfin sinterroger sur les qualites dun mod`ele considerant toutes les variables qualitatives.
YVAR1(CARVPR)
PREDY
13. Exemples
45
Frequency|
Percent |
0|
1| Total
---------+--------+--------+
0 |
659 |
53 |
712
| 61.65 |
4.96 | 66.60
---------+--------+--------+
1 |
70 |
287 |
357
|
6.55 | 26.85 | 33.40
---------+--------+--------+
Total
729
340
1069
68.19
31.81
100.00
46
Chapitre 2. R
egression lin
eaire
Chapitre 3
Erreur de pr
ediction
1
Introduction
La performance du mod`ele issu dune methode dapprentissage sevalue par sa capacite de prediction dite encore de generalisation. La mesure de cette performance est tr`es
importante puisque, dune part, elle permet doperer une selection de mod`ele dans une
famille associee a` la methode dapprentissage utilisee et, dautre part, elle guide le choix
de la methode en comparant chacun des mod`eles optimises a` letape precedente. Enfin, elle
fournit, tous choix faits, une mesure de la qualite ou encore de la confiance que lon peut
accorder a` la prevision en vue meme, dans un cadre legal, dune certification.
En dehors dune situation experimentale planifiee classique en Statistique, cest-`a-dire
sans le secours de mod`eles probabilistes, cest le cas, par principe, du data mining, trois
types de strategies sont proposes :
un partage de lechantillon (apprentissage, validation, test) afin de distinguer estimation du mod`ele et estimations de lerreur de prediction,
une penalisation de lerreur dajustement par la complexite du mod`ele,
un usage intensif du calcul (computational statistics) par la mise en uvre de simulations.
. Le choix depend de plusieurs facteurs dont la taille de lechantillon initial, la complexite
du mod`ele envisage, la variance de lerreur, la complexite des algorithmes cest-`a-dire le
volume de calcul admissible. Lestimation de lerreur de prediction est donc un element
central de la mise en place de la strategie du data mining telle quelle est decrite dans
lintroduction (cf. chapitre 1 section ).
2
2.1
Erreur de pr
ediction
D
efinition
48
Chapitre 3. Erreur de pr
ediction
Lerreur de prevision est definie par
o`
u Q est une fonction perte.
b
EP (z, F ) = EF [Q(Y, (X))]
2.2
D
ecomposition
Tr`es generalement, plus un mod`ele (la famille des fonctions admissibles) est complexe,
plus il est flexible et peu sajuster aux donnees observees et donc plus le biais est reduit. En
revanche, la partie variance augmente avec le nombre de param`etres a` estimer et donc avec
cette complexite. Lenjeu, pour minimiser le risque quadratique ainsi defini, est donc de
rechercher un meilleur compromis entre biais et variance : accepter de biaiser lestimation
comme par exemple en regression ridge pour reduire plus favorablement la variance.
2.3
Estimation
1X
b i )).
Ec
Q(yi , (x
P =
n
i=1
1
Plusieurs decompositions concurentes ont ete proposees dans le cas qualitatif mais leur explicitation
est moins claire.
3. Estimation avec p
enalisation
49
Cest simplement le taux de mal classes dans le cas qualitatif. Des crit`eres de risque plus
sophistiques sont envisages dans un contexte bayesien si des probabilites a priori sont
connues sur les classes ou encore des co
uts de mauvais classement (cf. chapitre 4).
La facon la plus simple destimer sans biais lerreur de prediction consiste a` calculer
c
EP sur un echantillon independant nayant pas participe a` lestimation du mod`ele. Ceci
necessite donc declater lechantillon en trois parties respectivement appelees apprentissage, validation et test :
z = zAppr zValid zTest .
i. Ec
ee pour estimer un mod`ele,
P (zAppr ) est minimis
ii. Ec
` la comparaison des mod`eles au sein dune meme famille afin de
P (zValid ) sert a
selectionner celui qui minimise cette erreur,
iii. Ec
ee pour comparer entre eux les meilleurs mod`eles de chacune des
P (zTest ) est utilis
methodes considerees.
Cette solution nest acceptable que si la taille de lechantillon initiale est importante sinon :
la qualite dajustement est degradee car n est plus petit,
la variance de lestimation de lerreur peut etre importante et ne peut etre estimee.
Si la taille de lechantillon est insuffisante, le point ii ci-dessus : la selection de mod`ele
est basee sur un autre type destimation de lerreur de prediction faisant appel soit a` une
penalisation soit a` des simulations.
Estimation avec p
enalisation
Lerreur de prediction se decompose en :
EP = Ec
P (zAppr ) + Optim
qui est lestimation par resubstitution ou taux derreur apparent plus le biais par abus
doptimisme. Il sagit donc destimer cette optimisme pour apporter une correction et
ainsi une meilleure estimation de lerreur recherchee. cette correction peut prendre plusieurs formes. Elle est liee a` lestimation de la variance dans la decomposition en biais et
variance de lerreur ou cest encore une penalisation associee a` la complexite du mod`ele.
Les estimateurs definis ci-dessous sont pour la plupart historiquement issus du mod`ele
classique de regression multiple pour lequel il existe de nombreuses references mais ont ete
generalises ou adaptes a` dautres methodes en etendant la notion de nombre de degres de
libertes a` des situations o`
u le nombre de param`etres du mod`ele nest pas explicite.
3.1
Cp , AIC, BIC
Le Cp de Mallows fut, historiquement, le premier crit`ere visant a` une meilleure estimation de lerreur de prediction que la seule consideration de lerreur dajustement (ou le R 2 )
dans le mod`ele lineaire. Son expression est detaillee dans le cas de la regression lineaire
chapitre 2 sous lhypoth`ese que le mod`ele complet a` p variables est le vrai mod`ele. On
montre (cf. Hastie et col. 2001), a` des fins de comparaison quil peut aussi se mettre sous
une forme equivalente :
d 2
Cp = Ec
P +2 s
n
50
Chapitre 3. Erreur de pr
ediction
o`
u d est le nombre de param`etres du mod`eles, n le nombre dobservations, s 2 une estimation de la variance de lerreur par un mod`ele de faible biais. Le crit`ere dinformation
dAkake (AIC) se presente sous une forme similaire mais plus generale. Base sur un
crit`ere de deviance, il sapplique en effet a` tout mod`ele estime par minimisation dune
log-vraisemblance L. Ainsi, dans le cas de la regression logistique
d
AIC = 2L + 2 .
n
Il suppose que la famille de densites considerees pour modeliser la loi de Y contient la
vraie densite. Dans le cas gaussien en supposant la variance connue, moindres carres et
deviance coincident, AIC est equivalent au C p . Il est facile de choisir le mod`ele presentant
le plus faible AIC parmi ceux consideres ce qui revient globalement a` minimiser un crit`ere
de vraisemblance penalisee. Celui-ci nest verifie quasymtotiquement do`
u la motivation
de proposer des crit`eres modifies (AICC) plus adaptes a` de petits echantillons.
Pour les mod`eles non-lineaires ou plus complexes (non-parametriques), le nombre q de
param`etres doit etre remplace par une mesure de complexite p(). Le crit`ere se met alors
sous une forme plus generale :
p() 2
s .
AIC() = Ec
P (xAppr ) + 2
n
3.2
Dimension de Vapnik-Chernovenkis
(`a completer)
51
4.1
Validation crois
ee
1X
Ed
Q(yi , b( (i)) (xi ))
CV =
n
i=1
o`
u b(k) designe lestimation de sans prendre en compte la ki`eme partie de lechantillon.
Le choix K = 10 est le plus courant, cest souvent celui par defaut des logiciels (Splus).
Historiquement, la validation croisee a ete introduite par Allen avec K = n (delete-one
cross validation). Ce dernier choix nest possible que pour n relativement petit a` cause
du volume des calculs necessaires et lestimation de lerreur presente une variance souvent
importante car chacun des mod`eles estimes est trop similaire au mod`ele estime avec toutes
les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus faible mais le
biais devient un probl`eme dependant de la facon dont la qualite de lestimation se degrade
avec la taille de lechantillon.
Minimiser lerreur estimee par validation croisee est une approche largement utilisee
pour optimiser le choix dun mod`ele au sein dune famille parametree. b est defini par
b = arg min Ed
CV ().
4.2
Bootstrap
Cette section plus technique decrit des outils encore peu presents dans les logiciels
commerciaux, elle peut etre sautee en premi`ere lecture.
Introduction
Lidee, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque
lon ne connat pas la loi de lechantillon ou, plus souvent, lorsque lon ne peut pas supposer
52
Chapitre 3. Erreur de pr
ediction
o`
u z designe lestimation de a` partir de lechantillon bootstrap. Il conduit a` lestimation
bootstrap de lerreur moyenne de prediction E F [EP (z, F )] par
"
#
1X
b
EBoot = EFb [EP (z , F )] = EFb
nQ(yi , z (xi )) .
n
i=1
B
1 X1X
nQ(yi , zb (xi )).
Ed
=
Boot
B
n
b=1
i=1
Lestimation ainsi construite de lerreur de prediction est generalement biaisee par optimisme car, au gre des simulations, les memes observations (x i , yi ) apparaissent a` la fois
dans lestimation du mod`ele et dans celle de lerreur. Dautres approches visent a` corriger
ce biais.
Estimateur out-of-bag
La premi`ere sinspire simplement de la validation croisee. Elle consid`ere dune part les
observations tirees dans lechantillon bootstrap et, dautre part, celles qui sont laissees de
2
53
bKi
o`
u Ki est lensemble des indices b des echantillons bootstrap ne contenant pas la i`eme
observation a` lissue des B simulations et B i = |Ki | le nombre de ces echantillons ; B doit
etre suffisamment grand pour que toute observation nait pas ete tiree au moins une fois
ou bien les termes avec Ki = 0 sont supprimes.
Lestimation Ed
esout le probl`eme dun biais optimiste auquel est confrontee Ed
Boot
oob r
mais nechappe pas au biais introduit pas la reduction tel quil est signale pour lestimation
pas validation croisee Ed
CV . Cest ce qui a conduit Efron et Tibshirani (1997) a proposer
des correctifs.
Estimateur .632-bootstrap
La probabilite quune observation soit tiree dans un echantillon bootstrap est
P [xi xb ] = 1 (1
1
1 n
) 1 0, 632.
n
e
4.3
Remarques
c
d
Ed
.632 = 0, 368 EP + 0, 632 Eoob .
54
Chapitre 3. Erreur de pr
ediction
est adapte en supposant implicitement que le biais induit est identique dun mod`ele a`
lautre.
Chapitre 4
Analyse Discriminante
D
ecisionnelle
1
Introduction
m X
X
`=1 i`
wi (xi g` )(xi g` )0 ,
Se = G DG =
0
X e DX e
m
X
`=1
55
56
R`
egle de d
ecision issue de lAFD
2.1
Cas g
en
eral : m quelconque
D
efinition 4.1. On affectera lindividu x a
` la modalite de Y minimisant :
d2S1 (x, g` ), ` = 1, . . . , m.
r
2.2
Cas particulier : m = 2
Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur propre non
nulle 1 , un seul vecteur discriminant v 1 et un seul axe discriminant 1 . Les 2 barycentres
g1 et g2 sont sur 1 , de sorte que v 1 est colineaire a` g1 g2 .
Lapplication de la r`egle de decision permet daffecter x a` T 1 si :
1 0 1
1 0 1
0 1
g10 S1
r x g1 Sr g1 > g 2 Sr x g2 Sr g2
2
2
cest-`a-dire encore si
0 1
(g1 g2 )0 S1
r x > (g1 g2 ) Sr
g1 + g 2
.
2
Remarque
La r`egle de decision liee a` lAFD est simple mais elle est limitee et insuffisante notamment si les variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de
lechantillonnage pour x : tous les groupes nont pas necessairement la meme probabilite
doccurence.
3
3.1
R`
egle de d
ecision bay
esienne
Introduction
Dans cette optique, on consid`ere que la variable Y , qui indique le groupe dappartenance dun individu, prend ses valeurs dans {T 1 , . . . , Tm } et est munie dune loi de
probabilite 1 , . . . , m . Les probabilites ` = P [T` ] representent les probabilites a priori
des classes ou groupes ` . On suppose que les vecteurs x des observations des variables
explicatives suivent, connaissant leur classe, une loi de densite
f` (x) = P [x | T` ]
3. R`
egle de d
ecision bay
esienne
57
3.2
D
efinition
Une r`egle de decision est une application de dans {T 1 , . . . , Tm } qui, a` tout individu,
lui affecte une classe connaissant x. Sa definition depend du contexte de letude et prend
en compte la
connaissance ou non de co
uts de mauvais classement,
connaissance ou non des lois a priori sur les classes,
nature aleatoire ou non de lechantillon.
On designe par c` | k le co
ut du classement dans T` dun individu de Tk . Le risque de Bayes
dune r`egle de decision exprime alors le co
ut moyen :
Z
m
m
X
X
R =
k
c` | k
fk (x)dx
o`
u
3.3
k=1
{x | (x)=T` } fk (x)dx
`=1
{x | (x)=T` }
Co
uts inconnus
Lestimation des co
uts nest pas du ressort de la Statistique et, sils ne sont pas connus,
on suppose simplement quils sont tous egaux. La minimisation du risque ou r`egle de Bayes
revient alors a` affecter tout x a` la classe la plus probable cest-`a-dire a` celle qui maximise
la probabilite conditionnelle a posteriori : P [T ` | x]. Par le theor`eme de Bayes, on a :
P [T` ].P [x | T` ]
P [T` et x]
=
P [x]
P [x]
Pm
avec le principe des probabilites totales : P [x] = `=1 P [T` ].P [x | T` ].
P [T` | x] =
3.4
D
etermination des a priori
b` = w` =
(si tous les individus ont le meme poids)
n
a` condition quil soit bien un echantillon aleatoire susceptible de fournir des estimations
correctes des frequences. Dans le cas contraire il reste a` considerer tous les ` egaux.
1
La mesure de Lebesgues pour des variables reelles, celle de comptage pour des variables qualitatives
58
3.5
Cas particuliers
Dans le cas o`
u les probabilites a priori sont egales, cest par exemple le cas du
choix de probabilites non informatives, la r`egle de decision bayesienne revient alors
a` maximiser f` (x) qui est la vraisemblance, au sein de T ` , de lobservation x. La r`egle
consiste alors a` choisir la classe pour laquelle cette vraisemblance est maximum.
Dans le cas o`
u m = 2, on affecte x a` T1 si :
f1 (x)
2
>
f2 (x)
1
faisant ainsi apparatre un rapport de vraisemblance. Dautre part, lintroduction de
co
uts de mauvais classement differents selon les classes am`ene a` modifier la valeur
limite 2 /1 .
Finalement, il reste a` estimer les densites conditionnelles f ` (x). Les differentes methodes
destimation considerees conduisent aux methodes classiques de discrimination bayesienne
objets des sections suivantes.
R`
egle bay
esienne avec mod`
ele normal
On suppose dans cette section que, conditionnellement a` T ` , x = (x1 , . . . , xp ) est lobservation dun vecteur aleatoire gaussien N ( ` , ` ) ; ` est un vecteur de IRp et ` une
matrice (p p) symetrique et definie-positive. La densite de la loi, au sein de la classe T ` ,
secrit donc :
1
1
0 1
exp (x ` ) ` (x ` ) .
f` (x) =
2
2(det(` ))1/2
Laffectation de x a` une classe se fait en maximisant ` .f` (x) par rapport a` l soit encore
la quantite :
1
1
ln(` ) ln(det(` )) (x ` )0 1
` (x ` ).
2
2
4.1
H
et
erosc
edasticit
e
1 X
(xi g` )(xi g` )0
n` 1
i`
5. R`
egle bay
esienne avec estimation non param
etrique
4.2
59
Homosc
edasticit
e
On suppose dans ce cas que les lois de chaque classe partagent la meme structure
de covariance ` = . Supprimant les termes independants de l, le crit`ere a` maximiser
devient
1
0 1
ln(` ) 0` 1
` ` + ` ` x
2
qui est cette fois lineaire en x. Les moyennes ` sont estimees comme precedemment tandis
que est estimee par la matrice de covariance intra empirique :
m
SR =
1 XX
(xi g` )(xi g` )0 .
nm
`=1 i`
Si, de plus, les probabilites ` sont egales, apr`es estimation le crit`ere secrit :
1 0 1
x` 0 S1
R x 2 x` SR x` .
On retrouve alors le crit`ere de la section 2 issu de lAFD.
4.3
Commentaire
5
5.1
R`
egle bay
esienne avec estimation non param
etrique
Introduction
Dans le cadre de lanalyse discriminante, ces methodes permettent destimer directement les densites f` (x). On consid`ere ici deux approches : la methode du noyau et celle
des k plus proches voisins.
60
5.2
M
ethode du noyau
Estimation de densit
e
Soit y1 , . . . , yn n observations equiponderees dune v.a.r. continue Y de densite f inconnue. Soit K(y) (le noyau) une densite de probabilite unidimensionnelle (sans rapport
avec f ) et h un reel strictement positif. On appelle estimation de f par la methode du
noyau la fonction
n
X
1
y
y
i
b =
f(y)
.
K
nh
h
i=1
b 0
y IR, f(y)
et
b
f(y)dy
= 1;
h est appele largeur de fenetre ou param`etre de lissage ; plus h est grand, plus lestimation
fb de f est reguli`ere. Le noyau K est choisi centre en 0, unimodal et symetrique. Les
cas les plus usuels sont la densite gaussienne, celle uniforme sur [1, 1] ou triangulaire :
K(x) = [1 |x|]1[1,1] (x). La forme du noyau nest pas tr`es determinante sur la qualite
de lestimation contrairement a` la valeur de h.
Application a
` lanalyse discriminante
La methode du noyau est utilisee pour calculer une estimation non parametrique de
chaque densite f` (x) qui sont alors des fonctions definies dans IR p . Le noyau K dont donc
etre choisi multidimensionnel et
X
x
x
1
i
K
.
fb` (x) =
n` hp
h
i`
Un noyau multidimensionnel peut etre defini a` partir de la densite usuelle de lois : multinormale Np (0, p ) ou uniforme sur la sph`ere unite ou encore par produit de noyaux
unidimensionnels :
p
Y
K(xj ).
K (x) =
j=1
5.3
Cette methode daffectation dun vecteur x consiste a` enchaner les etapes decrites
dans lalgorithme ci-dessous.
Algorithme 4.1 : k-nn
Choix dun entier k : 1 k n.
Calculer les distances dM (x, xi ) , i = 1, . . . , n o`
u M est la metrique de Mahalanobis
cest-`
a-dire la matrice inverse de la matrice de variance (ou de variance intra).
Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances sont les plus
petites.
6. Exemple
61
Exemple
Une premi`ere etape de traitement des donnees bancaires permet tout dabord de
selectionner par elimination un sous-ensemble des variables a` laide de la procedure stepdisc.
La variable qualitative sexe est consideree comme une variable quantitative (0, 1). Ceci
pourrait, abusif mais frequent en pratique, se generaliser a` dautres variables qualitatives
codees numeriquement. Les variables discriminantes nont plus gu`ere de sens mais, si la
discrimination fonctionne. . .
proc stepdisc data=sasuser.vispremt;
class carvp;
var sexer ager relat opgnbl--dnbjdl;
run;
Les variables ainsi selectionnees sont utilisees dans deux algorithmes de discrimination.
Le premier, non-parametrique, utilise les k plus proches voisins tandis que le deuxi`eme fait
implicitement lhypoth`ese de normalite des distributions. dans les deux cas, une pseudo
procedure de validation croisee permet destimer les taux de mauvais classement. Il ne
sagit en effet pas dune procedure de validation croisee explicite car les matrices de variances sont calculees une fois pour toute et donc dependent des individus a` prevoir.
proc discrim data= sasuser.vispremt
method=npar k=11 crossvalidate;
class CARVP;
var MOYRVL SEXER BOPPNL GAGECL OPGNBL QCREDL
FACANL XLGMTL RELAT HAVEFL GAGEML ENDETL LGAGTL
VIEMTL TAVEPL ITAVCL AGER;
run;
Error Count Estimates for CARVP:
Cnon
Coui
Total
Rate
0.2191
0.2801
0.2496
Priors
0.5000
0.5000
proc discrim data= sasuser.vispremt
method=NORMAL crossvalidate;
class CARVP;
var MOYRVL SEXER BOPPNL GAGECL OPGNBL QCREDL
62
La valeur de k pourrait etre sans doute amelioree mais il semble que dans ce cas,
lapproche parametrique fasse un peu mieux. La comparaison entre regression logistique
et analyse discriminante demande un peu dattention et surtout la constitution prealable
dun echantillon test.
Chapitre 5
Arbres binaires
1
Introduction
Ce chapitre sinteresse aux methodes ayant pour objectif la construction darbres binaires, ou dendogrammes, modelisant une discrimination ou une regression. Complementaires
des methodes statistiques plus classiques : analyse discriminante, regression lineaire, les
solutions obtenues sont presentees sous une forme graphique simple a` interpreter, meme
pour des neophytes, et constituent une aide efficace pour laide a` la decision. Elles sont
basees sur un decoupage, par des hyperplans, de lespace engendre par les variables explicatives. Nommees initialement partitionnement recursif ou segmentation, les developpements
importants de Breiman et col. (1984) les ont fait connatre sous lacronyme de CART :
Classification and Regression Tree ou encore de C4.5 (Quinlan, 1993) dans la communaute informatique. Lacronyme correspond a` deux situations bien distinctes selon que
la variable a` expliquer, modeliser ou prevoir est qualitative (discrimination ou en anglais
classification) ou quantitative (regression).
Ces methodes ne sont efficaces que pour des tailles dechantillons importantes et elles
sont tr`es calculatoires. Les deux raisons : mod`ele graphique de decision simple a` interpreter,
puissance de calcul necessaire, suffisent a` expliquer leur popularite recente. De plus, elles
requi`erent plutot moins dhypoth`eses que des methodes statistiques classiques et semblent
particuli`erement adaptees au cas o`
u les variables explicatives sont nombreuses. En effet,
la procedure de selection des variables est integree a` lalgorithme construisant larbre,
dautre part, les interactions sont prises en compte. Neanmoins, cet algorithme suivant
une strategie pas a` pas hierarchisee, il peut, comme dans le cas du choix de mod`ele
en regression, passer a` cote dun optimum global. Ceci souligne encore limportance de
confronter plusieurs approches sur les memes donnees.
2
2.1
Les donnees sont constituees de lobservation de p variables quantitatives ou qualitatives explicatives X j et dune variable a` expliquer Y qualitative a` m modalites {T ` ; ` =
1 . . . , m} ou quantitative reelle, observees sur un echantillon de n individus.
63
64
Sexe=H
Tj
@
@
@
La construction dun arbre de discrimination binaire (cf. figure 2.1) consiste a` determiner
une sequence de nuds.
Un nud est defini par le choix conjoint dune variable parmi les explicatives et
dune division qui induit une partition en deux classes. Implicitement, a` chaque
nud correspond donc un sous-ensemble de lechantillon auquel est appliquee une
dichotomie.
Une division est elle-meme definie par une valeur seuil de la variable quantitative
selectionnee ou un partage en deux groupes des modalites si la variable est qualitative.
` la racine ou nud initial correspond lensemble de lechantillon ; la procedure est
A
ensuite iteree sur chacun des sous-ensembles.
Lalgorithme considere necessite :
i. la definition dun crit`ere permettant de selectionner la meilleure division parmi
toutes celles admissibles pour les differentes variables ;
ii. une r`egle permettant de decider quun nud est terminal : il devient ainsi une feuille ;
iii. laffectation de chaque feuille a` lune des classes ou a` une valeur de la variable a`
expliquer.
Le point (ii) est le plus delicat. Il correspond encore a` la recherche dun mod`ele parcimonieux. Un arbre trop detaille, associe a` une surparametrisation, est instable et donc
probablement plus defaillant pour la prevision dautres observations. La contribution majeure de Breiman et col. (1984) est justement une strategie de recherche darbre optimal.
Elle consiste a`
i. construire larbre maximal Amax ,
ii. ordonner les sous-arbres selon une sequence embotee suivant la decroissance dun
crit`ere penalise de deviance ou de taux de mal-classes,
iii. puis a` selectionner le sous-arbre optimal ; cest la procedure delagage.
Tous ces points sont detailles ci-dessous.
3. Crit`
eres dhomog
en
eit
e
2.2
65
Crit`
ere de division
Une division est dite admissible si aucun des deux nuds descendants qui en decoulent
nest vide. Si la variable explicative est qualitative ordinale avec m modalites, elle fournit
(m1) divisions binaires admissibles. Si elle est seulement nominale le nombre de divisions
passe a` 2(m1) 1. Une variable quantitative se ram`ene au cas ordinal.
La division du nud k cree deux fils, gauche et droit. Pour simplifier, ils sont notes
(k + 1) et (k + 2) mais une re-numerotation est necessaire pour respecter la sequence de
sous-arbres qui sera decrite dans la section suivante.
Parmi toutes les divisions admissibles du nud k, lalgorithme retient celle qui rend
la somme D(k+1) + D(k+2) des desordres des nuds fils minimales. Ceci revient encore a`
resoudre a` chaque etape k de construction de larbre :
max
Dk (D(k+1) + D(k+2) )
2.3
R`
egle darr
et
La croissance de larbre sarrete a` un nud donne, qui devient donc terminal ou feuille,
lorsquil est homog`ene cest-`a-dire lorsquil nexiste plus de partition admissible ou, pour
eviter un decoupage inutilement fin, si le nombre dobservations quil contient est inferieur
a` une valeur seuil a` choisir en general entre 1 et 5.
2.4
Affectation
Dans le cas Y quantitative, a` chaque feuille est associee une valeur : la moyenne des
observations associees a` cette feuille. Dans le cas qualitatif, chaque feuille ou nud terminal
est affecte a` une classe T` de Y en considerant le mode conditionnel :
celle la mieux representee dans le nud et il est ensuite facile de compter le nombre
dobjets mal classes ;
la classe a posteriori la plus probable au sens bayesien si des probabilites a priori
sont connues ;
la classe la moins co
uteuse si des co
uts de mauvais classement sont donnes.
Crit`
eres dhomog
en
eit
e
Deux cas sont a` considerer.
66
3.1
Y quantitative
nj
X
i=1
(ij .j )
avec
.j =
nj
X
ij .
i=1
J
X
Dj =
j=1
nj
J X
X
j=1 i=1
(ij .j )2 ;
nj
J X
X
j=1 i=1
J
X
j=1
(ij .. )2
nj
J X
X
j=1 i=1
(ij .j )2 o`
u .. =
nj
1 XX
ij .
n
j=1 i=1
nj (.. .j )2 ;
cest encore homog`ene a` la variance inter classe ou desordre des barycentres qui vaut
= n1 n2 ((.1 .2 )2 pour J = 2 dans le cas qui nous interesse.
Lobjectif, a` chaque etape, est de maximiser cest-`a-dire de trouver la variable induisant une partition en 2 classes associee a` une inertie (variance) intraclasse minimale ou
encore qui rend linertie (la variance) interclasse la plus grande.
Les quantites sont estimees :
cj
par D
Dj
D
b =
par D
Yij = .j + uij
nj
X
(yij y.j )2
j=1
cj =
D
i=1
J
X
avec
nj
J X
X
j=1 i=1
(1)
(yij y.j )2 .
+ uij N (0, 2 ),
la log-vraisemblance
J nj
1 XX
n
2
(yij .j )2
log L = Cste log( ) 2
2
2
j=1 i=1
(2)
3. Crit`
eres dhomog
en
eit
e
67
j=1 i=1
Pour le mod`ele sature (une classe par individu) : y ij = ij + uij , cet optimum devient :
Ls = sup log L = Cste
n
log( 2 ).
2
Le raffinement de larbre est donc associe a` une decroissance, la plus rapide possible, de la
deviance. Cest loptique retenue dans le logiciel Splus. On peut encore dire que la division
retenue est celle qui rend le test de Fisher (analyse de variance), comparant les moyennes
entre les deux classes, le plus significatif possible.
3.2
Y qualitative
Dans ce cas, la fonction dheterogeneite, ou de desordre dun nud, est definie a` partir
de la notion dentropie, du crit`ere de concentration de Gini ou encore dune statistique
de test du 2 . En pratique, il sav`ere que le choix du crit`ere importe moins que celui du
niveau delagage. Le premier crit`ere (entropie) est souvent prefere (Splus) car il sinterpr`ete
encore comme un terme de deviance mais dun mod`ele multinomial cette fois.
On consid`ere une variable a` expliquer qualitative, Y a` m modalites ou categories T
numerotees ` = 1, . . . , m. Larbre induit une partition pour laquelle n +k designe leffectif
de la k`eme classe ou k`eme nud. Soit
p`k = P [T` | k]
avec
m
X
p`k = 1
`=1
K
X
k=1
Dk = 2
m
K X
X
k=1 `=1
Cette quantite est positive ou nulle, elle est nulle si et seulement si les probabilites p `k ne
prennent que des valeurs 0 sauf une egale a` 1 correspondant a` labsence de melange.
Designons par n`k leffectif observe de la ``eme classe dans le k`eme nud.
Un nud k
P
de larbre represente un sous-ensemble de lechantillon deffectif n +k = m
n
`=1 `k .
68
ck = 2
parD
par
b =
D
K
X
k=1
m
X
n+k
`=1
n`k
n`k
log
n+k
n+k
ck = 2
D
K X
m
X
(3)
n`k log
k=1 `=1
n`k
.
n+k
(4)
log L = Cste +
m
K X
X
n`k log(p`k )
k=1 `=1
K X
m
X
n`k log
k=1 `=1
n`k
.
n+k
Pour le mod`ele sature (une categorie par objet), cet optimum prend la valeur de la
constante et la deviance (par rapport au mod`ele sature) sexprime comme :
D = 2
K X
m
X
k=1 `=1
n`k log
n`k
b
= D.
n+k
Elagage
Dans des situations complexes, la demarche proposee conduit a` des arbres extremement
raffines et donc a` des mod`eles de prevision tr`es instables car fortement dependants des
echantillons qui ont permis leur estimation. On se trouve donc dans une situation de surajustement a` eviter au profit de mod`eles plus parcimonieux donc plus robuste au moment
de la prevision. Cet objectif est obtenu par une procedure delagage (pruning) de larbre.
Le principe de la demarche, introduite par Breiman et col. (1984), consiste a` construire
une suite embotee de sous-arbres de larbre maximum par elagage successif puis a` choisir,
parmi cette suite, larbre optimal au sens dun crit`ere. La solution ainsi obtenue par un
algorithme pas a` pas nest pas necessairement globalement optimale mais lefficacite et la
fiabilite sont preferees a` loptimalite.
4. Elagage
69
Fig. 5.2 Carte Visa : choix du nombre de feuilles par echantillon de validation (SEM,
2001).
Fig. 5.3 Carte Visa : arbre de decision elague suivant lechantillon de validation(SEM,
2001).
70
Cnon
296/869
moyrvq:M0,M1
moyrvq:M2
Cnon
98/581
pcspq:Pcad,Pint
pcspq:Pemp,Pouv,Psan
Cnon
71/199
dmvtpq:D1
dmvtpq:D0,D2
Cnon
27/382
uemnbq:U0,U1
Coui
Cnon
9/19
8/97
rocnbq:R0
rocnbq:R1
Cnon
Cnon
1/10
19/39
moyrvq:M0
moyrvq:M1
Cnon
3/17
Coui
22/203
Cnon
18/116
dmvtpq:D0
dmvtpq:D1,D2
Coui
31/93
relatq:r0
relatq:R2,r1
Coui
11/54
Cnon
17/85
uemnbq:U2
Coui
Cnon
Cnon
59/127
3/72
9/266
sexeq:Sfem
sexeq:Shom
Cnon
6/34
Coui
90/288
dmvtpq:D1
dmvtpq:D0,D2
Coui
0/9
Coui
6/22
Fig. 5.4 Carte Visa : arbre de decision (Splus, 1993) elague par validation croisee.
4. Elagage
4.1
71
Construction de la s
equence darbres
K
X
Dk (A)
k=1
o`
u Dk (A) est le nombre de mal classes ou la deviance ou le co
ut de mauvais classement
de la k`eme feuille de larbre A.
La construction de la sequence darbres embotes repose sur une penalisation de la
complexite de larbre :
C(A) = D(A) + K.
Pour = 0, Amax = AK minimise C(A). En faisant crotre , lune des divisions de
AK , celle pour laquelle lamelioration de D est la plus faible (inferieure a` ), apparat
comme superflue et les deux feuilles obtenues sont regroupees (elaguees) dans le nud
p`ere qui devient terminal ; AK devient AK1 .
Le procede est itere pour la construction de la sequence embotee :
Amax = AK AK1 A1
o`
u A1 , le nud racine, regroupe lensemble de lechantillon.
Un graphe represente la decroissance ou eboulis de la deviance (ou du taux de mal
classes) en fonction du nombre croissant de feuilles dans larbre ou, cest equivalent, en
fonction de la valeur decroissante du coefficient de penalisation .
4.2
Algorithme 5.1 : S
election darbre
72
Chapitre 6
M
ethodes connexionistes
1
Historique
Nous nous interessons ici a` une branche de lInformatique fondamentale qui, sous
lappellation dIntelligence Artificielle, a pour objectif de simuler des comportements du
cerveau humain. Les premi`eres tentatives de modelisation du cerveau sont anciennes et
prec`edent meme l`ere informatique. Cest en 1943 que Mc Culloch (neurophysiologiste)
et Pitts (logicien) ont propose les premi`eres notions de neurone formel. Ce concept fut
ensuite mis en reseau avec une couche dentree et une sortie par Rosenblatt en 1959 pour
simuler le fonctionnement retinien et tacher de reconnatre des formes. Cest lorigine du
perceptron. Cette approche dite connexioniste a atteint ses limites technologiques, compte
tenu de la puissance de calcul de lepoque, mais aussi theoriques au debut des annees 70.
Lapproche connexioniste a` connaissance repartie a alors ete supplantee par lapproche
symbolique ou sequentielle qui promouvait les syst`emes experts a` connaissance localisee.
Lobjectif etait alors dautomatiser le principe de lexpertise humaine en associant trois
concepts :
une base de connaissance dans laquelle etaient regroupees toutes les connaissances
dexperts humains sous forme de propositions logiques elementaires ou plus elaborees
en utilisant des quantificateurs (logique du premier ordre).
une base de faits contenant les observations du cas a` traiter comme, par exemple, des
resultats dexamens, danalyses de sang, de salive pour des applications biomedicales
de choix dun antibiotique,
un moteur dinference charge dappliquer les r`egles expertes sur la base de faits afin
den deduire de nouveaux faits jusqu`a la realisation dun objectif comme lelaboration
du traitement dun infection bacterienne.
Face aux difficultes rencontrees lors de la modelisation des connaissances dun expert
humain, au volume considerable des bases de connaissance qui en decoulait et au caract`ere
exponentiel de la complexite des algorithmes dinference mis en jeu, cette approche sest
eteinte avec les annees 80. En effet, pour les syst`emes les plus compliques a` base de calcul
des predicats du premier ordre, on a pu montrer quils conduisaient a` des probl`emes N P
complets et donc dont la solution pouvait etre atteinte mais pas necessairement en un
temps fini !
Lessor technologique et surtout quelques avancees theoriques :
algorithme destimation par retropropagation de lerreur par Hopkins en 1982,
73
74
Chapitre 6. M
ethodes connexionistes
x1
Q
x2 PQs
Q
Pq
P
xj
..
. 3
xp
| f
-y
R
eseaux de neurones
2.1
Neurone formel
De facon tr`es reductrice, un neurone biologique est une cellule qui se caracterise par
des synapses, les points de connexion avec les autres neurones, fibres nerveuses ou
musculaires ;
des dentrites, les entrees du neurones ;
laxone, la sortie du neurone vers dautres neurones ou fibres musculaires ;
le noyau qui active la sortie en fonction des stimuli en entree.
Par analogie, le neurone formel est un mod`ele qui se caracterise par un etat interne s S,
des signaux dentree x1 , . . . , xp et une fonction de transition detat
p
X
j xj .
s = h(x1 , . . . , xp ) = f 0 +
j=1
La fonction de transition op`ere une transformation dune combinaison affine des signaux
dentree, 0 etant appele le biais du neurone. Cette combinaison affine est determinee par
3. Perceptron multicouche
x1 -
x2 ..
.
xj ..
.
xp -
75
HH
LJ
LJ HH
j
H|f
*
L J
J
L
@
H
J
@
J HL
HJ
@
J
L H
j
H
R
@|f -y
^
J
*
|f
L
J
L
..
J
L
.
HH J
JL
H
j
H
^
JL
H
*
|f
Fig. 6.2 Exemple de perceptron multicouche elementaire avec une couche cachee et une
couche de sortie.
un vecteur de poids [0 , . . . , p ] associe a` chaque neurone et dont les valeurs sont estimees
dans la phase dapprentissage. Ils constituent la memoire ou connaissance repartie du
reseau.
Les differents types de neurones se distinguent par la nature f de leur fonction de
transition. Les principaux types sont :
lineaire f est la fonction identite,
sigmode f (x) = 1/(1 + ex ),
seuil f (x) = 1[0,+[ (x),
stochastiques f (x) = 1 avec la probabilite 1/(1 + e x/H ), 0 sinon (H intervient
comme une temperature dans un algorithme de recuit simule),
...
Les mod`eles lineaires et sigmodaux sont bien adaptes aux algorithmes dapprentissage comme celui de retropropagation du gradient car leur fonction de transition est
differentiable. Ce sont les plus utilises. Le mod`ele a` seuil est sans doute plus conforme
a` la realite biologique mais pose des probl`emes dapprentissage. Enfin le mod`ele stochastique est utilise pour des probl`emes doptimisation globale de fonctions perturbees ou
encore pour les analogies avec les syst`emes de particules. On ne le rencontre pas en data
mining.
3
3.1
Perceptron multicouche
Architecture
76
Chapitre 6. M
ethodes connexionistes
tion nest pas comptablisee. Une ou plusieurs couches cachees participent au transfert. Un
neurone dune couche cachee est connecte en entree a` chacun des neurones de la couche
precedente et en sortie a` chaque neurone de la couche suivante.
Un perceptron multicouche realise donc une transformation
y = F (x1 , . . . , xp ; )
o`
u est le vecteur contenant chacun des param`etres jk` de la j`eme entree du k`eme
neurone de la ``eme couche ; la couche dentree (` = 0) nest pas parametree, elle ne fait
que distribuer les entrees sur tous les neurones de la couche suivante.
Par souci de coherence, nous avons tache de conserver les memes notations a` travers
les differents chapitres. Ainsi, les entrees dun reseau sont encore notees x 1 , . . . , xp comme
les variables explicatives dun mod`ele tandis que les poids des entrees sont des param`etres
a` estimer lors de la procedure dapprentissage et que la sortie est la variable a` expliquer
ou cible du mod`ele.
3.2
Apprentissage
Supposons que lon dispose dune base dapprentissage de taille n dobservations (x 1i , . . . , xpi ; yi )
des variables explicatives X 1 , . . . , X p et de la variable a` prevoir Y . Lapprentissage est lesb des param`etres du mod`ele solutions du probl`eme des moindres carres 1 :
timation
n
avec
Q(b) =
1X
[yi F (x1i , . . . , xpi ; (b))]2 .
n
i=1
Q
+ bjk` (i 1).
bjk`
Equivalent a
` une maximisation de la vraisemblance dans le cas gaussien.
3. Perceptron multicouche
77
3.3
Utilisation
On pourra se reporter a` labondante litterature sur le sujet (Haykin, 1994) pour obtenir des precisions sur les algorithme dapprentissage et leurs nombreuses variantes. Il est
important de rappeler la liste des choix qui sont laisses a` lutilisateur. En effet, meme si
les logiciels proposent des valeurs par defaut, il est frequent que cet algorithme connaisse
quelques soucis de convergence.
Lutilisateur doit donc determiner
i. les variables dentree et la variable de sortie ; leur faire subir comme pour toutes
methodes statistiques, deventuelles transformations.
ii. Larchitecture du reseau : le nombre de couches cachees (en general une ou deux)
qui correspond a` une aptitude a` traiter des probl`emes de non-linearite, le nombre de
neurones par couche cachee. Ces deux choix conditionnent directement le nombre de
param`etres (de poids) a` estimer. Ils participent a` la recherche dun bon compromis
biais/variance cest-`a-dire a` lequilibre entre qualite dapprentissage et qualite de
` la louche, on consid`ere en pratique quil faut un echantillon dapprenprevision. A
tissage au moins dix fois plus grand que le nombre de param`etres a` estimer.
iii. Deux autres param`etres interviennent egalement sur ce compromis : le nombre maximum diterations et lerreur maximum toleree. En renforcant ces crit`eres on ameliore
la qualite de lapprentissage ce qui peut se faire au detriment de celle de la prevision.
iv. Le taux dapprentissage ainsi quune eventuelle strategie devolution de celui-ci.
Le nombre de couches reste restreint. On montre en effet que toute fonction que toute
fonction continue dun compact de IR P dans IRq peut etre approchee avec une precision
arbitraire par un reseau a` une couche cachee en adaptant le nombre de neurones. La
complexite du mod`ele est controlee par le nombre de neurones ou encore par la duree de
78
Chapitre 6. M
ethodes connexionistes
Chapitre 7
Agr
egation de mod`
eles
1
Introduction
Ce chapitre decrit des algorithmes plus recemment apparus dans la litterature. Ils
sont bases sur des strategies adaptatives (boosting) ou aleatoires (bagging) permettant
dameliorer lajustement par une combinaison ou agregation dun grand nombre de mod`eles
tout en evitant un sur-ajustement. Ces algorithmes se sont developpes a` la fronti`ere entre
apprentissage machine (machine learning) et Statistique. De nombreux articles comparatifs
montrent leur efficacite sur des exemples de donnees simulees et surtout pour des probl`emes
reels complexes (voir par exemple Ghattas 2000) tandis que leurs proprietes theoriques
sont un th`eme de recherche actif.
Deux types dalgorithmes sont decrits schematiquement dans ce chapitre. Ceux reposants sur une construction aleatoires dune famille de mod`ele : bagging pour bootstrap
aggregating (Breiman 1996), les forets aleatoires (random forests) de Breiman (2001) qui
propose une amelioration du bagging specifique aux mod`eles definis par des arbres binaires (CART). Ceux bases sur le boosting (Freund et Shapiro,1996), reposent sur une
construction adaptative, deterministe ou aleatoire, dune famille de mod`eles.
Les principes du bagging ou du boosting sappliquent a` toute methode de modelisation
(regression, CART, reseaux de neurones) mais nont dinteret, et reduisent sensiblement
lerreur de prediction, que dans le cas de mod`eles instables, donc plutot non lineaires.
Ainsi, lutilisation de ces algorithmes na gu`ere de sens avec la regression multilineaire
ou lanalyse discriminante. Ils sont surtout mises en uvre en association avec des arbres
binaires comme mod`eles de base.
2
2.1
Famille de mod`
eles al
eatoires
Bagging
Principe et algorithme
Soit Y une variable a` expliquer quantitative ou qualitative, X 1 , . . . , X p les variables
explicatives et (x) un mod`ele fonction de x = {x 1 , . . . , xp } IRp . On note n le nombre
79
80
Chapitre 7. Agr
egation de mod`
eles
dobservations et
z = {(x1 , y1 ), . . . , (xn , yn )}
un echantillon de loi F .
Lesperance (.) = EF (bz ) de lestimateur definie sur lechantillon z, est un estimateur
sans biais de variance nulle. Considerons B echantillons independants notes {z b }b=1,B et
construisons une agregation desPmod`eles dans le cas o`
u la variable a` expliquer Y est :
B b
1
b
quantitative : B (.) = B b=1 zb (.),
n
o
qualitative : bB (.) = arg maxj card b | bz (.) = j .
b
Dans le premier cas, il sagit dune simple moyenne des resultats obtenus pour les mod`eles
associes a` chaque echantillon, dans le deuxi`eme, un comite de mod`eles est constitue pour
voter et elire la reponse la plus probable. Dans ce dernier cas, si le mod`ele retourne des
probabilites associees a` chaque modalite comme en regression logistique ou avec les arbres
de decision, il est aussi simple de calculer des moyennes de ces probabilites.
Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Pour b = 1 a
` B Faire
Tirer un echantillon bootstrap z b .
Estimer bzb (x0 ) sur lechantillon bootstrap.
Fin Pour
P
b
esultat du vote.
Calculer lestimation moyenne bB (x0 ) = B1 B
b=1 zb (x0 ) ou le r
Utilisation
Il est naturel et techniquement facile daccompagner ce calcul par une estimation bootstrap out-of-bag (cf. chapitre 3 section 4.2) de lerreur de prediction. Elle est une mesure de
la qualite de generalisation du mod`ele et permet de prevenir une eventuelle tendance au
surajustement. Cest, pour eviter un biais, la moyenne des erreurs de prediction commises
par chaque estimateur ; chacune des erreurs etant estimee sur les observations qui nont
pas ete selectionnees par lechantillon bootstrap correspondant.
En pratique, CART est souvent utilisee comme methode de base pour construire une
famille de mod`eles cest-`a-dire darbres binaires. Trois strategies delagage sont alors possibles :
i. laisser construire et garder un arbre complet pour chacun des echantillons,
ii. construire un arbre dau plus q feuilles,
iii. construire a` chaque fois larbre complet puis lelaguer par validation croisee.
2. Famille de mod`
eles al
eatoires
81
La premi`ere strategie semble en pratique un bon compromis entre volume des calculs
et qualite de prediction. Chaque arbre est alors affecte dun faible biais et dune grande
variance mais la moyenne des arbres reduit avantageusement celle-ci. En revanche, lelagage
par validation croisee penalise lourdement les calculs sans gain substantiel de qualite.
Cet algorithme a lavantage de la simplicite, il sadapte et se programme facilement
quelque soit la methode de modelisation mise en uvre. Il pose neanmoins quelques
probl`emes :
temps de calcul important pour evaluer un nombre suffisant darbres jusqu`a ce que
lerreur de prediction out-of-bag ou sur un echantillon validation se stabilise et arret
si elle tend a` augmenter ;
necessiter de stocker tous les mod`eles de la combinaison afin de pouvoir utiliser cet
outil de prediction sur dautres donnees,
lamelioration de la qualite de prediction se fait au detriment de linterpretabilite. Le
mod`ele finalement obtenu devient une bote noire comme dans le cas du perceptron.
2.2
For
ets al
eatoires
Algorithme
Dans les cas specifique des mod`eles CART (arbres binaires), Breiman (2001) propose une amelioration du bagging par lajout dune randomisation. Lobjectif est donc
de rendre plus independants les arbres de lagregation en ajoutant du hasard dans le
choix des variables qui interviennent dans les mod`eles. Cette approche semble plus particuli`erement fructueuse dans des situations hautement multidimensionnelles, cest-`a-dire
lorsque le nombre de variables explicatives p est tr`es important. Cest le cas lorsquil sagit,
par exemple, de discriminer des courbes, spectres, signaux, biopuces.
Algorithme 7.2 : For
ets al
eatoires
Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Pour b = 1 a
` B Faire
Tirer un echantillon bootstrap z b
Estimer un arbre sur cet echantillon avec randomisation des variables selon lune
des deux options :
i. Si le nombre de variables explicatives est important, la recherche de chaque
nud optimal est precede dun tirage aleatoire dun sous-ensemble de q predicteurs.
ii. Sinon, tirer au hasard q1 3 variables explicatives puis construire q 2 predicteurs
par combinaisons lineaires avec des coefficients obtenus par tirages aleatoires
uniformes sur [0, 1].
Fin Pour
P
b
esultat du vote.
Calculer lestimation moyenne bB (x0 ) = B1 B
b=1 zb (x0 ) ou le r
Elagage
La strategie delagage peut, dans le cas des forets aleatoires, etre plus elementaire
quavec le bagging en se limitant a` des arbres de taille q relativement reduite voire meme tri-
82
Chapitre 7. Agr
egation de mod`
eles
viale avec q = 2 (stump). En effet, avec le seul bagging, des arbres limites a` une seule fourche
risquent detre tr`es semblables (fortement correles) car impliquant les memes quelques variables apparaissant comme les plus explicatives. La selection aleatoire dun nombre reduit
de predicteurs potentiels a` chaque etape de construction dun arbre, accrot significativement la variabilite en mettant en avant necessairement dautres variables. Chaque mod`ele
de base est evidemment moins performant mais, lunion faisant la force, lagregation
conduit finalement a` de bons resultats. Le nombre de variables tirees aleatoirement nest
pas un param`etre sensible un choix par defaut de q = p est suggere par Breiman (2001).
Comme pour le bagging, levaluation iterative de lerreur out-of-bag previent dun eventuel
surajustement si celle-ci vient a` se degrader.
Linterpretation est ensuite facilitee par le calcul et la representation graphique dun
indice proportionnel a` limportance de chaque variable dans lagregation de mod`eles et
donc de sa participation a` la regression ou a` la discrimination. Cest evidemment dautant plus utile que les variables sont tr`es nombreuses. Plusieurs crit`eres sont proposes par
Breiman (2001) pour evaluer limportance de la j`eme variable. Ils reposent sur une permutation aleatoire des valeurs de cette variable. Lun de ces crit`eres consiste a` calculer la
moyenne sur toutes les observations de la decroissance de leur marge lorsque la variable
est aleatoirement perturbee. La marge est ici la proportion de votes pour la vraie classe
dune observation moins le maximum des proportions des votes pour les autres classes.
Famille de mod`
eles adaptatifs
3.1
Principes du Boosting
Le boosting diff`ere des approches precedentes par ses origines et ses principes. Lidee
initiale, en apprentissage machine, etait dameliorer les competences dun faible classifieur cest-`a-dire celle dun mod`ele de discrimination dont la probabilite de succ`es sur la
prediction dune variable qualitative est leg`erement superieure a` celle dun choix aleatoire.
Lidee originale de Schapire (1990) a ete affinee par Freund et Schapire (1996) qui ont decrit
lalgorithme original AdaBoost (Adaptative boosting) pour la prediction dune variable binaire. De nombreuses etudes ont ensuite ete publiees pour adapter cet algorithme a` dautres
situations : k classes, regression et rendre dompte de ses performances sur differents jeux
de donnees (cf. Schapire, 2002) pour une bibliographie). Ces tests ont montre le reel interet
pratique de ce type dalgorithme pour reduire sensiblement la variance (comme le bagging)
mais aussi le biais de prediction comparativement a` dautres approches. Cet algorithme
est meme considere comme la meilleure methode off-the-shelf cest-`a-dire ne necessitant
pas un long pretraitement des donnees ni un reglage fin de param`etres lors de la procedure
dapprentissage.
Le boosting adopte le meme principe general que le bagging : construction dune famille
de mod`eles qui sont ensuite agreges par une moyenne pondere des estimations ou un vote.
Il diff`ere nettement sur la facon de construire la famille qui est dans ce cas recurrente :
chaque mod`ele est une version adaptative du precedent en donnant plus de poids, lors de
lestimation suivante, aux observations mal ajustees ou mal predites. Intuitivement, cet
algorithme concentre donc ses efforts sur les observations les plus difficiles a` ajuster tandis
que lagregation de lensemble des mod`eles permet dechapper au sur-ajustement.
Les algorithmes de boosting proposes diff`erent par differentes caracteristiques :
3. Famille de mod`
eles adaptatifs
83
3.2
Algorithme de base
Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Initialiser les poids w = {wi = 1/n ; i = 1, . . . , n}.
Pour m = 1 a
` M Faire
Estimer m sur lechantillon pondere par w.
Calculer le taux derreur apparent :
Pn
wi 1{m (xi ) 6= yi }
Ebp = i=1 Pn
i=1 wi
.
Calculer les logit : cm = log((1 Ebp )/Ebp ).
Calculer les nouvelles ponderations : w i wi . exp [cm 1{m (xi ) 6= yi }] ; i = 1, . . . , n.
Fin Pour
hP
i
M
Resultat du vote : bM (x0 ) = signe
m=1 cm m (x0 ) .
Les poids de chaque observations sont initialises a` 1/n pour lestimation du premier
mod`ele puis evoluent a` chaque iteration donc pour chaque nouvelle estimation. Limportance dune observation wi est inchangee si elle est bien classee, elle crot sinon proportionnellement au defaut dajustement du mod`ele. Lagregation finale des previsions :
P
M
eree par les qualites dajustement de chaque
m=1 cm m (x0 ) est une combinaison pond
mod`ele. Sa valeur absolue appelee marge est proportionnelle a` la confiance que lon peut
attribuer a` son signe qui fournit le resultat de la prevision.
Ce type dalgorithme est largement utilise avec un arbre (CART) comme mod`ele de
base. De nombreux applications montrent que si le classifieur faible est un arbre trivial
a` deux feuilles (stump), AdaBoost fait mieux quun arbre sophistique pour un volume de
calcul comparable : autant de feuilles dans larbre que diterations dans AdaBoost. Hastie
84
Chapitre 7. Agr
egation de mod`
eles
3.3
Version al
eatoire
3.4
Pour la r
egression
Soit x0 a
` prevoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un echantillon
Initialiser p par la distribution uniforme p = {p i = 1/n ; i = 1, . . . , n}.
Pour m = 1 a
` M Faire
Tirer avec remise dans z un echantillon z m suivant p.
Estimer bm sur lechantillon zm .
Calculer a
` partir de lechantillon initial z :
lm (i) = Q yi , bm (xi )
i = 1, . . . , n; (Q : fonction perte)
Ec
m =
n
X
pi lm (i);
i=1
wi = g(lm (i))pi .
Pnwi
i=1
wi
b 0 ) moyenne ou mediane des previsions bm (x0 ) ponderees par des coef Calculer (x
ficients log( 1m ).
3. Famille de mod`
eles adaptatifs
85
Precisions :
Dans cet algorithme la fonction perte Q peut etre exponentielle, quadratique ou,
plus robuste, la valeur absolue. Le choix usuel de la fonction quadratique est retenu
par Gey et Poggi (2002).
Notons Lm = supi=1,...,n lm (i) le maximum de lerreur observee par le mod`ele bm
sur lechantillon initial. La fonction g est definie par :
1lm (i)/Lm
g(lm (i)) = m
Ec
m
avec m =
.
Lm Ec
m
(1)
(2)
Selon les auteurs, une condition supplementaire est ajoutee a` lalgorithme. Il est
arrete ou reinitiallise a` des poids uniformes si lerreur se degrade trop : si Ec
m < 0.5Lm .
Lalgorithme gen`ere M predicteurs construits sur des echantillons bootstrap z m dont
le tirage depend de probabilites p mises a` jour a` chaque iteration. Cette mise a` jour est
fonction dun param`etre m qui est un indicateur de la performance, sur lechantillon z, du
mi`eme predicteur estime sur lechantillon z m . La mise a` jour des probabilites depend donc
a` la fois de cet indicateur global m et de la qualite relative lm (i)/Lm de lestimation du
i`eme individu. Lestimation finale est enfin obtenue a` la suite dune moyenne ou mediane
des previsions ponderees par la qualite respective de chacune de ces previsions. Gey et
Poggi (2002) conseille la mediane afin de saffranchir de linfluence de predicteurs tr`es
atypiques.
3.5
Mod`
ele additif pas `
a pas
Hastie et col. (2001) expliquent le bon comportement du boosting dans le cas binaire
en le presentant sous la forme dune approximation de la fonction par un mod`ele additif
construit pas a` pas :
M
X
b
cm (x; m )
(x)
=
m=1
i=1
bm (x) = bm1 (x) + cm (x; m ) est alors une amelioration de lajustement precedent.
Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction perte
utilisee est Q(y, (x)) = exp[y(x)]. il sagit donc de resoudre :
(cm , m ) = arg min
(c,)
= arg min
(c,)
avec
n
X
i=1
n
X
i
h
exp yi bm1 (xi ) + c(xi ; ) ;
wim exp [cyi (xi ; )]
i=1
86
Chapitre 7. Agr
egation de mod`
eles
wi ne dependant ni de c ni de , il joue le role dun poids fonction de la qualite de lajustement precedent. Quelques developpements complementaires montrent que la solution du
probl`eme de minimisation est obtenue en deux etapes : recherche du classifieur optimal
puis optimisation du param`etre .
m = arg min
n
X
i=1
1 Ebp
1
log
2
Ep
cm =
avec Ebp erreur apparente de prediction tandis que les w i sont mis a` jour avec :
(m)
wi
(m1)
= wi
exp[cm ].
On montre ainsi quadaboost approche pas a` pas par un mod`ele additif en utilisant une
fonction perte exponentielle.
Dautres fonctions perte sont envisageables pour, en particulier, un algorithme plus
robuste face a` un echantillon dapprentissage presentant des erreurs de classement dans
le cas de la discrimination ou encore des valeurs atypiques (outliers) dans le cas de la
regression. Hastie et col. (2001) comparent les interets respectifs de plusieurs fonctions
pertes. Celles jugees robustes (entropie en discrimination, valeur absolue en regression)
conduisent a` des algorithmes plus compliques a` mettre en uvre.
3.6
R
egression et boosting
Dans le meme esprit dapproximation adaptative, Friedman (2002) propose sous lacronyme MART (multiple additive regression trees) un algorithme base sur des arbres de
regression pour traite le cas quantitatif en supposant la fonction perte seulement differentiable.
Le principe de base est le meme que pour Adaboost, construire une sequence de mod`eles
de sorte que chaque etape, chaque mod`ele ajoute a` la combinaison, apparaisse comme un
pas vers une meilleure solution. Ce pas est franchi dans la direction du gradient, approche
par un arbre de regression, de la fonction perte.
Algorithme 7.5 : MART (Multiple additive regression trees)
Soit x0 a
` prevoir
P
Initialiser b0 = arg min ni=1 Q(yi , )
Pour m = 1 a
` M Faire
i
h
i ,(xi ))
,
Calculer ri m = Q(y
(xi )
=m1
3. Famille de mod`
eles adaptatifs
87
Lalgorithme est initialise par un terme constant cest-`a-dire encore un arbre a` une
feuille. Les expressions du gradient reviennent simplement a` calculer les residus r mj du
mod`ele a` letape precedente. Les termes correctifs jm sont ensuite optimises pour chacune
des regions Rjm definies par larbre de regression ajustant les residus. Un algorithme de
discrimination est similaire calculant autant de probabilites que de classes a` prevoir.
3.7
Compl
ements
De nombreuses adaptations ont ete proposees a` partir de lalgorithme initial. Elles font
intervenir differentes fonctions pertes offrant des proprietes de robustesse ou adaptees a`
une variable cible Y quantitative ou qualitative a` plusieurs classes : Adaboost M1, M2, MH
ou encore MR. Schapire (2002) liste une bibliographie detaillee.
Sur-ajustement
Dans le dernier algorithme, le nombre diterations peut etre controle par un echantillon
de validation. Comme pour dautres methodes (perceptron), il suffit darreter la procedure
lorsque lerreur estimee sur cet echantillon arrive a` se degrader. Une autre possibilite
consiste a` ajouter un coefficient de retrecissement (shrinkage comme en regression ridge).
Compris entre 0 et 1, celui-ci penalise lajout dun nouveau mod`ele dans lagregation. Il
joue le role dun taux dapprentissage du percepton) et, si sa valeur est petite (< 0, 1)
cela conduit a` accrotre le nombre darbres mais entrane des ameliorations sensibles de la
qualite de prediction.
Interpr
etation
Linterpretabilite des arbres de decision sont une des raisons de leur succ`es. Leur
lecture ne necessite pas de competences particuli`eres en statistique. Cette propriete est
evidemment perdue par lagregation darbres ou de tout autre mod`ele. Neanmoins, surtout si le nombre de variables est tr`es grand, il est important davoir une indication de
limportance relative des variables entrant dans la modelisation.
Un crit`ere est calcule pour chaque variable j a` partir des valeurs D j2 (l, m), calculees
pour chaque nud l de chaque arbre m. Cette quantite est la decroissance optimale de
deviance produite par la segmentation associee a` ce nud par le choix de la variable j. Ces
valeurs sont sommees par arbre sur lensemble des nuds puis moyennees sur lensemble
des arbres. Une normalisation fixe a` 100 la plus grande valeur correspondant a` la variable
la plus influente.
Instabilit
e
Tous les auteurs ont remarque la grande instabilite des mod`eles construits a` base
darbres : une leg`ere modification des donnees est susceptible dengendrer de grandes
modifications dans les param`etres (les seuils et feuilles) du mod`ele. Cest justement cette
propriete qui rend cette technique tr`es appropriee a` une amelioration par agregation.
Breiman (1998), pour les arbres de classification, puis Gey et Poggi (2002), pour les arbres
88
Chapitre 7. Agr
egation de mod`
eles
Fraction of training observations used
0.3
0.1
14
12
0.0
100
200
Iterations
300
400
200
0.0
0.04
0.02
0.2
0.06
16
Risk
Fraction
0.08
18
0.10
20
0.4
0.12
22
0.5
0.14
400
100
600
200
800
1000
300
400
Iterations
Propri
et
es
Les justifications theoriques des bons resultats du boosting et principalement la resistance
au sur-ajustement sont encore lobjet de travaux intenses suivant differentes pistes. La difficulte vient de ce que lapplication de ce type dalgorithme sur une methode donnee, fait
generalement mieux que lasymptotique (en faisant crotre la taille de lechantillon) pour
cette meme methode. Les approches usuelles de la statistique asymptotique sont mises en
defaut et les bornes obtenues pour majorer les erreurs destimations ou de prediction sont
trop grossi`eres pour rendre compte de lefficacite effective de la methode. On montre ainsi,
empiriquement, que lerreur de prediction ou de generalisation peut continuer a` decrotre
longtemps apr`es que lerreur dajustement se soit annulee. Parmi les pistes explorees,
une approche stochastique consid`ere que, meme deterministe, lalgorithme simule une
dynamique markovienne (Blanchard, 2001). Une deuxi`eme, rappelee ci-dessus, presente le
boosting comme une procedure doptimisation globale par une methode de gradient (Friedman, 2001). Dautres enfin (par exemple Lugosi et Vayatis, 2001), plus probantes, utilisent
des inegalites de Vapnik pour montrer que, sous des hypoth`eses raisonnables et verifiees
dans les cas usuels : convexite et regularite de la fonction perte (exponentielle), arbres
binaires, la probabilite derreur du boosting converge avec la taille n de lechantillon vers
celle du classifieur bayesien cest-`a-dire celui, optimal, obtenu en supposant connue la loi
conjointe de X et Y .
4. Application
89
tauxmc
18
17
16
15
14
13
12
11
10
9
8
7
6
5
Aboos
Arbre
Logit
ResNe
Rfor
Methode
Fig. 7.2 Diagrammes botes des taux derreurs observes sur 30 echantillons tests et pour
chaque methode.
4
4.1
Application
Logiciels
4.2
R
esultats comparatifs
Ces programmes ont ete utilises pour constituer des comites darbres de decision
prevoyant la possession de la carte Visa Premier. Trente echantillons tests ont successivement ete tires afin dobserver les distributions des taux de mauvais classement, distributions qui ont ete comparees a` celles obtenues par les methodes classiques (arbre de
decision, regression logistique et reseaux de neurones).
La figure 7.1 montre les evolutions du taux de mal classes sur lechantillon dapprentissage en fonction du nombre darbres estimes pour un exemple de tirage. Malgre la
complexite des combinaisons de mod`eles finalement obtenues, le taux atteint une limite, il
ny a pas sur-apprentissage. Ces algorithmes fournissent des resultats qui, en moyenne, se
90
Chapitre 7. Agr
egation de mod`
eles
Tab. 7.1 Moyennes des taux derreurs de classement calcules sur 30 echantillons test
pour chaque mod`ele de prediction
Methode
Moyenne
Ecart-type
Adaboost
9.7
2.0
Arbre
11.8
2.3
Regression
12.5
2.0
Perceptron
13.4
2.3
Foret
10.6
2.2
montrent sensiblement plus performants (cf. figure 7.2 et tableau 7.1) sur un echantillon
test. Les ecarts-types dependant de la taille de lechantillon test y sont relativement stables.
Les moyennes montrent, sur cet exemple, que le boosting predit un peu mieux que les forets
aleatoires. Cela est coherent avec les nombreuses etudes publiees.
Bien s
ur, ce qui est gagne en predictibilite est perdu en interpretabilite par rapport a` un
mod`ele classique. Neanmoins le gain realise est souvent etonnant. Lune des avancees encore en gestation concernant ces algorithmes, et plus particuli`erement les forets aleatoires,
est la prise en compte des probl`emes poses par les donnees hautement multidimensionnelles
tels quils se posent par exemple avec lanalyse des biopuces en genomique.
Bibliography
Agresti, A. (1990). Categorical data analysis. Wiley.
Antoniadis, A., J. Berruyer, and R. Carmona (1992). Regression non lineaire et applications. Economica.
Baccini, A. and P. Besse (2000). Data mining : 1. exploration statistique. www.upstlse.fr/Besse/enseignement.html.
Besse, P. and H. Cardot (2003). Modelisation statistique de donnees fonctionnelles. In
G. Govaert (Ed.), Analyse des donnees, pp. a` paratre. Hermes.
Besse, P., C. Le Gall, N. Raimbault, and S. Sarpy (2001). Statistique et data mining.
Journal de la Societe Francaise de Statistique 142, 536.
Blanchard, G. (2001). Generalization error bounds for aggregate classifiers. In Proceedings
of the MSRI international conference on nonparametric estimation and classification,
pp. .
Breiman, L. (1996). Bagging predictors. Machine Learning 26 (2), 123140.
Breiman, L. (1998). Arcing classifiers. Annals of Statistics 26, 801849.
Breiman, L. (2001). Random forests random features. Machine Learning a
` paratre, .
Breiman, L., J. Friedman, R. Olshen, and C. Stone (1984). Classification and regression
trees. Wadsworth & Brooks.
Drucker, H. (1997). Improving regressors using boosting techniques. In M. Kaufmann
(Ed.), Proceedings of th 14th International Conference on Machine Learning, pp. 107
115.
Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Methods. SIAM.
Efron, B. and R. Tibshirani (1993). An introduction to the bootstrap. Chapman and Hall.
Freund, Y. and R. Schapire (1996). Experiments with a new boosting algorithm. In
Machine Learning : proceedings of the Thirteenth International Conference, pp. 148
156. Morgan Kaufman. San Francisco.
Freund, Y. and R. Schapire (1997). Experiments with a new boosting algorithm. Journal
of Computer and System Sciences 55, 119139.
Friedman, J. H. (2001). Greedy function approximation : a gradient boosting machine.
Annals of Statistics 29, 11891232.
Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statisrics and Data
Analysis 38, .
Friedman, J. H., H. Hastie, and R. Tibshirani (2000). Additive logistic regression : a
statistical view of boosting. The Annals of Statistics 28, 337407.
91
92
BIBLIOGRAPHY
Gey, S. and J.-M. Poggi (2002). Boosting and instabillity for regression trees. Technical
Report 36, Universite de Paris Sud, Mathematiques.
Ghattas, B. (2000). Agregation darbres de classification.
pliquee 48 (2), 8598.
Hastie, T., R. Tibshirani, and J. Friedman (2001). The elements of statistical learning :
data mining, inference, and prediction. Springer.
Haykin, T. (1994). Neural network, a comprehensive foundation. Prentice-Hall.
Jobson, J. (1991). Applied Multivariate Data Analysis, Volume I : Regression and experimental design. Springer-Verlag.
Lugosi, G. and N. Vayatis (2001). On the bayes-risk consistency of boosting methods.
Preprint , .
McCullagh, P. and J. Nelder (1983). Generalized Linear Models. Chapman & Hall.
Quinlan, J. (1993). C4.5 Programs for machine learning. Morgan Kaufmann.
Ripley, B. (1996). Pattern recognition and neural networks. Cambridge University Press.
SAS (1989). SAS/STAT Users Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6.
SAS (1995). SAS/INSIGHT Users Guide (Third ed.). Sas Institute Inc. version 6.
Schapire, R. (1990). The strength of weak learnability. Machine Learning 5, 197227.
Schapire, R. (2002). The boosting approach to machine learning. an overview. In MSRI
workshop on non linear estimation and classification, pp. .
SEM (2001). SAS/ Enterprise Miner Users Guide. Sas Institute Inc. version 8.
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997). Statistique et methodes neuronales. Dunod.
Vapnik, V. (1999). Statistical learning theory. Wiley Inter science.
Annexes
93
94
BIBLIOGRAPHY
Annexe A
Introduction au mod`
ele lin
eaire
g
en
eral
Lobjet de ce chapitre est dintroduire le cadre theorique global permettant de regrouper tous les mod`eles (lineaire gaussien, logit, log-lineaire) qui visent a` exprimer lesperance
dune variable reponse Y en fonction dune combinaison lineaire des variables explicatives.
Le mod`ele lineaire general developpe initialement en 1972 par Nelder et Wedderburn et
dont on trouvera des exposes detailles dans Nelder et Mc Cullagh (1983), Agresti (1990)
ou Antoniadis et col. (1992), nest ici quesquisse afin de definir les concepts communs
a` ces mod`eles : famille exponentielle, estimation par maximum de vraisemblance, tests,
diagnostics, residus. Il est mis en uvre dans plusieurs logiciels dont GLIM, glm de Splus,
genmod et insight de SAS.
Les mod`eles catalogues dans la classe des mod`eles lineaires generalises sont caracterises
par trois composantes.
1.1
Distribution
La composante aleatoire identifie la distribution de probabilites de la variable a` expliquer. On suppose que lechantillon statistique est constitue de n variables aleatoires
{Yi ; i = 1, . . . , n} independantes admettant des distributions issues dune structure exponentielle. Cela signifie que les lois de ces variables sont dominees par une meme mesure
dite de reference et que la famille de leurs densites par rapport a` cette mesure se met sous
la forme :
yi i v(i )
+ w(yi , ) .
(1)
f (yi ; i , ) = exp
u()
Cette formulation inclut la plupart des lois usuelles comportant un ou deux param`etres :
gaussienne, gaussienne inverse, gamma, Poisson, binomiale. . . . Le param`etre i est appele
param`etre naturel de la famille exponentielle.
Attention, la mesure de reference change dune structure exponentielle a` lautre, la
mesure de Lebesgues pour une loi continue, une mesure discr`ete combinaison de masses
95
96
de Dirac pour une loi discr`ete. Consulter Antoniadis et col. (1992) pour une presentation
generale des structures exponentielles et des proprietes asymptotiques des estimateurs de
leurs param`etres.
Pour certaines lois, la fonction u est de la forme :
u() =
o`
u les poids i sont les poids connus des observations, fixes ici a` 1 pour simplifier ;
est appele alors param`etre de dispersion, cest un param`etre de nuisance intervenant, par
exemple lorsque les variances des lois gaussiennes sont inconnues, mais egal a` 1 pour les
lois a` un param`etre (Poisson, binomiale). Lexpression de la structure exponentielle (1) se
met alors sous la forme canonique en posant :
Q() =
v()
,
a() = exp
on obtient
f (yi , i ) = a(i )b(yi ) exp {yi Q(i )} .
1.2
(2)
Pr
edicteur lin
eaire
Les observations planifiees des variables explicatives sont organisees dans la matrice
X de planification dexperience (design matrix). Soit un vecteur de p param`etres, le
predicteur lineaire, composante deterministe du mod`ele, est le vecteur a` n composantes :
= X.
1.3
Lien
i = 1, . . . , n
o`
u g, appelee fonction lien, est supposee monotone et differentiable. Ceci revient donc
a` ecrire un mod`ele dans lequel une fonction de la moyenne appartient au sous-espace
engendre par les variables explicatives :
g(i ) = x0i
i = 1, . . . , n.
La fonction lien qui associe la moyenne i au param`etre naturel est appelee fonction lien
canonique. Dans ce cas,
g(i ) = i = x0i .
1.4
97
Exemples
Loi gaussienne
Dans le cas dun echantillon gaussien, les densites dune famille de lois N ( i , 2 ) secrit :
1
(yi i )2
f (yi , i ) =
exp
2 2
2 2
n o
1 2i
1 yi2
1
i
2
= exp 2 exp 2 ln(2 ) exp yi 2
2
2
2
En posant
i
i
= 2
1 2i
a(i ) = exp 2
2
1 yi2
1
2
b(yi ) = exp 2 ln(2 ) .
2
2
Q(i ) =
la famille gaussienne se met sous la forme canonique (2) qui en fait une famille exponentielle
de param`etre de dispersion = 2 et de param`etre naturel
i = E(Yi ) = i
et donc de fonction lien canonique, la fonction identite.
Loi de Bernouilli
Considerons n variables aleatoires binaires independantes Z i de probabilite de succ`es
i et donc desperance E(Zi ) = i . Les fonctions de densite de ces variables sont elements
de la famille :
i
zi
1zi
= (1 i ) exp zi ln
f (zi , i ) = i (1 i )
,
1 i
qui est la forme canonique dune structure exponentielle de param`etre naturel
i = ln
i
.
1 i
Cette relation definit la fonction logit pour fonction lien canonique associee a` ce mod`ele.
La loi binomiale conduit a` des resultats identiques en considerant les sommes de n i (ni
connus) variables de Bernouilli.
Loi de Poisson
On consid`ere n variables independantes Y i de loi de Poisson de param`etre i = E(Yi ).
Les Yi sont par exemple les effectifs dune table de contingence. Ces variables admettent
pour densites :
yi ei
1
= exp {i }
exp {yi ln i }
f (yi , i ) = i
yi !
yi !
98
qui sont issues dune structure exponentielle et, mises sous la forme canonique, de param`etre naturel
i = ln i
definissant comme fonction lien canonique le logarithme pour ce mod`ele.
Estimation
2.1
= [yi v 0 (i )]/u()
= v 00 (i )/u().
Pour des lois issues de structures exponentielles, les conditions de regularite verifiees permettent decrire :
2
2
`
`
`
=E
.
= 0 et E
E
2
Alors,
E(Yi ) = i = v 0 (i )
et comme
E{v 00 (i )/u()} = E{[Yi v 0 (i )]/u()}2 = Var(Yi )/u2 ()
il vient donc :
Var(Yi ) = v 00 (i )u() ;
justifiant ainsi lappellation de param`etre de dispersion pour lorsque u est la fonction
identite.
2.2
Equations
de vraisemblance
Considerons p variables explicatives dont les observations sont rangees dans la matrice de plan dexperience X, un vecteur de p param`etres et le predicteur lineaire a` n
composantes
= X.
La fonction lien g est supposee monotone differentiable telle que :
cest la fonction lien canonique si :
g( i ) = i .
i = g(i ) ;
2. Estimation
99
n
X
ln f (yi ; i , ) =
i=1
Calculons
n
X
`(i , ; yi ).
i=1
`i i i i
`i
=
.
j
i i i j
Comme
`i
i
i
i
i
j
i
i
v 00 (i ) = Var(Yi )/u(),
xij
car
i = x0i ,
i = g(i ),
j = 1, . . . , p.
i=1
[=]jk
X xij xik
2 L()
=E
=
j k
Var(Yi )
i=1
i
i
2
et o`
u W est la matrice diagonale de ponderation :
1
[W]ii =
Var(Yi )
2.3
i
i
2
100
Ainsi,
`i
(yi i ) 00
(yi i )
=
v (i )xij =
xij .
j
Var(Yi )
u()
2
L()
ne dependent plus de yi , on montre que le Hessien est
De plus, comme les termes
j k
egal a` la matrice dinformation et donc les methodes de resolution du score de Fisher et
de Newton-Raphson concident.
Si, de plus, u() est constante pour les observations, les equations de vraisemblance
deviennent :
X0 y = X0 .
Ainsi, dans le cas gaussien, le mod`ele secrivant = X avec la fonction de lien canonique
identite, on retrouve la solution :
b = (X0 X)
X0 y
qui concide avec celle obtenue par minimisation des moindres carres.
Qualit
e dajustement
Il sagit devaluer la qualite dajustement du mod`ele sur la base des differences entre
observations et estimations. Plusieurs crit`eres sont proposes.
3.1
D
eviance
Le mod`ele estime est compare avec le mod`ele dit sature, cest-`a-dire le mod`ele possedant
autant de param`etres que dobservations et estimant donc exactement les donnees. Cette
comparaison est basee sur lexpression de la deviance D des log-vraisemblances L et L sat :
D = 2(L Lsat )
qui est le logarithme du carre du rapport des vraisemblances. Ce rapport remplace ou
generalise lusage des sommes de carres propres au cas gaussien et donc a` lestimation
par moindres carres.
On montre quasymptotiquement, D suit une loi du 2 a` n p degres de liberte ce qui
permet de construire un test de rejet ou dacceptation du mod`ele selon que la deviance
est jugee significativement ou non importante.
Attention, lapproximation de la loi du 2 peut etre douteuse. De plus, dans le cas de
donnees non groupees (mod`ele binomial), le cadre asymptotique nest plus adapte car le
nombre de param`etres estimes tend egalement vers linfini avec n et il ne faut plus se fier
a` ce test.
3.2
Test de Pearson
Un test du 2 est egalement utilise pour comparer les valeurs observees y i a` leur
prevision par le mod`ele. La statistique du test est definie par
X2 =
I
X
(yi
i )2
i=1
d i )
Var(
4. Tests
101
(i est remplace par ni i dans le cas binomial) et on montre quelle admet asymptotiquement la meme loi que la deviance.
En pratique ces deux approches conduisent a` des resultats peu differents et, dans le cas
contraire, cest une indication de mauvaise approximation de la loi asymptotique. Sachant
que lesperance dune loi du 2 est son nombre de degres de liberte et, connaissant les
aspects approximatifs des tests construits, lusage est souvent de comparer les statistiques
avec le nombre de degres de liberte. le mod`ele peut etre juge satisfaisant pour un rapport
D/ddl plus petit que 1.
Tests
Deux crit`eres sont habituellement proposes pour aider au choix de mod`ele.
4.1
Rapport de vraisemblance
suit approximativement une loi du 2 a` (q2 q1 ) degres de liberte pour les lois a` 1 param`etre
(binomial, Poisson) et une loi de Fisher pour les lois a` deux param`etres (gaussienne). Ceci
permet donc de tester la significativite de la diminution de la deviance par lajout de
variables explicatives ou la prise en compte dinteractions.
4.2
Test de Wald
Ce test est base sur la forme quadratique faisant intervenir la matrice de covariance
des param`etres, linverse de la matrice dinformation observee (X 0 WX)1 . Cette matrice
est calculee a` partir du Hessien approche par lalgorithme de maximisation. Elle generalise
la matrice (X0 X)1 utilisee dans le cas du mod`ele lineaire gaussien en faisant intervenir
une matrice W de ponderation. Ainsi, test de Wald et test de Fisher sont equivalents dans
le cas particulier du mod`ele gaussien.
Si la matrice K, dite contraste, definit lensemble H 0 des hypoth`eses a` tester sur les
param`etres :
K0 = 0,
on montre que la statistique
(K0 b)0 (K0 (X0 WX)
K)1 K0 b
102
Diagnostics
5.1
Effet levier
X0 )W1/2 ,
relative au produit scalaire de matrice W, sur le sous-espace engendre par les variables
explicatives. Les termes diagonaux de cette matrice superieurs a` (3p/n) indiquent des
valeurs potentiellement influentes. Le graphe representant les points dordonnees h ii et
dabscisses le numero de lobservation les visualise.
5.2
R
esidus
Avec des erreurs centrees, additives, cest-`a-dire dans le cas du mod`ele gaussien utilisant
la fonction lien identite, il est naturel de definir des residus par :
i = yi E(yi ) = yi i .
comme dans le cas du mod`ele lineaire. Ce cadre est ici inadapte au cas general et differents
substituts sont proposes. Chacun poss`ede par ailleurs une version standardisee et une
version studentisee.
Pearson
Les residus obtenus en comparant valeurs observees y i et valeurs predites yi sont
ponderes par leur precision estimee par lecart-type : s i de yi . Ceci definit les residus
de Pearson :
yi yi
rP i =
si
dont la somme des carres conduit a` la statistique du meme nom. Ces residus mesurent
donc la contribution de chaque observation a` la significativite du test decoulant de cette
statistique. Par analogie au mod`ele lineaire, on verifie que ce sont egalement les residus
de la projection par la matrice H.
Ces residus ne sont pas de variance unite et sont donc difficiles a` interpreter. Une
estimation de leurs ecarts-types conduit a` la definition des residus de Pearson standardises :
rP si =
yi yi
si hii
6. Compl
ements
103
yi yi
.
s(i) hii
D
eviance
Ces residus mesurent la contribution de chaque observation a` la deviance du mod`ele
par rapport au mod`ele sature. Des versions standardisees et studentisees en sont definies
comme pour ceux de Pearson.
Anscombe
Les lois des residus precedents sont inconnues et meme dissymetriques. Anscombe a
donc propose de faire operer une transformation prealable afin de construire des residus
suivant une loi normale :
t(yi ) t(
yi )
rAi =
.
t0 (yi )si
Lexplicitation de la fonction t dans le cadre du mod`ele lineaire generalise est relativement
complexe mais le calcul en est fourni par les logiciels. Comme precedemment, des versions
standardisees et studentisees sont egalement calculees.
Un graphe utilisant ces residus en ordonnees et les numeros dobservation en abscisses
permet didentifier les observations les moins bien ajustees par le mod`ele.
5.3
Mesure dinfluence
De nombreux indicateurs sont proposes afin devaluer linfluence dune observation sur
lestimation dun param`etre, sur les predictions ou encore sur la variance des estimateurs.
Le plus utilise, la distance de Cook, mesure globalement linfluence sur lensemble des
param`etres. Cest la distance, au sens de la metrique definie par linverse de la covariance
des param`etres, entre le vecteur des param`etres b estime avec toutes les observations et
celui estime lorsque la i`eme observation est supprimee.
1
Di = (b b(i) )0 (X0 WX)1 (b b(i) ).
2
Cet indicateur prend simultanement en compte leffet levier et limportance du residu de
chaque observation. Le graphe de ces valeurs est donc plus synthetique et interpretable en
tenant compte du graphe des residus et de celui des termes diagonaux de H.
6
6.1
Compl
ements
Sur-dispersion
104
mod`ele, est plus importante, multipliee par un facteur dechelle (scale parameter) 2 . Si
ce param`etre est plus grand que 1, on dit quil y a sur-dispersion. Une methode basee sur
une maximisation de la formule de quasi-vraisemblance est alors utilisee pour estimer a` la
fois et .
6.2
Variable offset
Lorsque la variable a` expliquer dans le cas dun mod`ele lineaire generalise depend
egalement lineairement dune autre variable, cette derni`ere est declaree offset et sert ainsi
a` tarer le mod`ele. Exemple : pour modeliser le nombre de sinistres declares par categorie
de conducteurs, la variable nombre de contrats est declaree offset.
Annexe B
Introduction au bootstrap
1
Introduction
1.1
Principe du plug-in
Soit x = {x1 , . . . , xn } un echantillon de taille n issue dune loi inconnue F sur (, A).
On appelle loi empirique Fb la loi discr`ete des singletons (x 1 , . . . , xn ) affectes des poids
1/n :
Fb =
n
X
xi .
i=1
105
106
n
X
xi (A) =
i=1
1
Cardxi A.
n
De mani`ere plus generale, soit un param`etre dont on suppose que cest une fonction de
la loi F . on ecrit donc = t(F ). Par exemple, = E(F ) est un param`etre de F suivant
ce mod`ele. Une statistique est une fonction (mesurable) de lechantillon. Avec le meme
exemple :
n
1X
xi
b=x=
n
i=1
et x est la statistique qui estime . On dit que cest un estimateur plug-in et, plus
generalement,
D
efinition B.1. On appelle estimateur plug-in dun param`etre de F , lestimateur
obtenu en remplacant la loi F par la loi empirique :
b = t(Fb).
1.2
Estimation de l
ecart-type de la moyenne
et
Ce qui secrit :
X (F , F2 ).
P
Soit (X1 , . . . , Xn ) n variables aleatoires i.i.d. suivant aussi la loi F . Posons X = n1 ni=1 Xi .
Cette variable aleatoire a pour esperance F et pour variance F2 /n. On dit aussi que la
statistique
X (F , F2 /n).
Remarquons quen moyennant plusieurs valeurs ou observations, on reduit la variance
inherente a` une observation. De plus, sous certaines conditions sur la loi F et comme
resultat du theor`eme de la limite centrale, X converge en loi vers la loi normale.
Lestimateur plug-in de F est defini par :
2
2
b2 = c
F = Fb = VarFb (X)
1X
= EFb [(X EFb (X)) ] =
(Xi X)2 .
n
2
i=1
Lestimateur plug-in de F est (leg`erement) different de celui du maximum de vraisemblance. Lestimateur plug-in est en general biaise mais il a lavantage detre simple et de
pouvoir sappliquer a` tout param`etre meme lorsque lon ne peut pas calculer la vraisemblance du mod`ele.
107
2.1
Echantillon
bootstrap
D
efinition B.2. On appelle echantillon bootstrap de x un echantillon de taille n
note
x = {x1 , . . . , xn }
suivant la loi Fb ; x est un re-echantillon de x avec remise.
2.2
Estimation dun
ecart-type
b de ,
b son
D
efinition B.3. On appelle estimation bootstrap de lecart-type cF ()
b
estimation plug-in : Fb ().
avec
bB
b (.) =
1 X b
( (b) b (.))2
B1
b=1
1
B
B
X
b=1
(b (b).
108
2.3
Estimation du biais
et
b = s(x),
b = EF [s(x)] t(F ).
BF ()
Compl
ements
En resume, on peut dire que le bootstrap repose sur une hypoth`ese tr`es elementaire : b
se comporte par rapport a` b comme b par rapport a` . La connaissance de b (distribution,
b
variance, biais. . . ) renseigne alors sur celle de .
3. Compl
ements
109
le cas de la regression il est en principe plus justifie de repliquer le tirage sur les residus
plutot que sur les observations. Ce sont les residus qui sont en effet supposes i.i.d. et qui
verifient donc les hypoth`eses necessaires mais cette approche devient tr`es sensible a` lhypoth`ese sur la validite du mod`ele. Il est finalement dusage de considerer un echantillon
bootstrap issu des donnees initiales (Efron et Tibshirani) :
b
b b
zb = {(xb
1 , y1 ), . . . , (xn , yn )};
110
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 Introduction
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Problematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5
Choix de methode . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6
2.7
2.8
Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 R
egression lin
eaire
13
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Estimation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1
3.2
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3
3.4
Coefficient de determination . . . . . . . . . . . . . . . . . . . . . . . 16
4.2
4.3
4.4
Prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
111
112
`
TABLE DES MATIERES
Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.1
Crit`eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2
Algorithmes de selection . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.4
Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.1
Mod`eles curvilineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2
. . . . . . . . . . . . . . . . . . . . . . 27
Introduction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
7.2
Mod`ele
7.3
Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
8.1
Mod`ele
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
8.2
Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.3
Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
8.4
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
10
11
Regression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12
11.1
Type de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
11.2
Mod`ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
12.1
13
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
13.1
DebitsVolumes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
13.2
Donnees bancaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Erreur de pr
ediction
47
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Erreur de prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2
Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3
Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
. . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1
Cp , AIC, BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2
Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . 50
`
TABLE DES MATIERES
4
113
Validation croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2
Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3
Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Analyse Discriminante D
ecisionnelle
55
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1
2.2
Cas particulier : m = 2
. . . . . . . . . . . . . . . . . . . . . . . . . 56
Introduction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3
Co
uts inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4
3.5
Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2
Homoscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3
Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Introduction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2
Methode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Arbres binaires
63
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.1
Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.2
Crit`ere de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.3
R`egle darret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4
Affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Crit`eres dhomogeneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1
Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2
Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1
`
TABLE DES MATIERES
114
4.2
6 M
ethodes connexionistes
73
Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Reseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.1
Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1
Architecture
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.2
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3
Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7 Agr
egation de mod`
eles
79
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.1
Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.2
Forets aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Principes du Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.2
Algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.3
Version aleatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4
Pour la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.5
3.6
Regression et boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.7
Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1
Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2
Resultats comparatifs . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A Introduction au mod`
ele lin
eaire g
en
eral
1
95
Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.2
Predicteur lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
1.3
Lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
1.4
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Estimation
2.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.2
Equations
de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 98
2.3
`
TABLE DES MATIERES
3
Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.2
Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.1
4.2
Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1
5.2
Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.3
Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.1
Sur-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2
B Introduction au bootstrap
1
115
105
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
1.1
1.2
2.1
Echantillon
bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2
2.3
Estimation du biais
. . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108