You are on page 1of 11

Introduction : du data mining lapprentissage statistique

Introduction : du data mining lapprentissage statistique


Rsum
Lobjet de ce cours est dintroduire, sous une forme homogne et synthtique, les techniques de modlisation statistique ou dapprentissage supervis utilises le plus couramment en fouille de donnes volumineuses ou de grande dimension (data mining, big data) pour laide la dcision dans des champs dapplications trs divers : industriels, marketing, ou encore en relation avec des thmatiques de recherche en Biologie, pidmiologie... Lobjectif principal est la modlisation pour la prvision et donc la recherche de modles optimaux (parcimonieux) pour diffrentes mthodes de modlisation statistique classique (modles gaussiens et binomiaux, analyse discriminante), moins classiques (ridge, pls, lasso, arbres binaires de dcision) ou encore dites dapprentissage (rseaux de neurones, agrgation de modles, machines vecteurs supports) issues du machine learning. Introduction Erreur de prvision et risque Slection de variables et rgularisation en rgression multiple Rgression PLS, ACP et PLS parcimonieuses Rgression logistique Modles non paramtriques Analyse discriminante dcisionnelle Arbres binaires de dcision Rseaux neuronaux Agrgation de modles Machines vecteurs supports En guise de conclusion Annexes Dontologie scientique et Statistique Introduction au bootstrap

Introduction

Le data mining ou fouille de donnes est la recherche dinformations pertinentes (des ppites dinformation) pour laide la dcision et la prvision. Elle met en vre des techniques statistiques et dapprentissage machine en tenant compte de la spcicit de grandes trs grandes dimensions (big data) des donnes. La section 2 suivante introduit la fouille de donnes tandis que la section 3 reprend ces objectifs dans le cadre gnral de la modlisation an den largir les champs dapplication. La section 4 dcrit la stratgie trs gnralement mise en place pour optimiser choix de mthodes et choix de modles ; la section 5 dcrit brivement quelques exemples dapplication et notamment ceux utiliss pour illustrer ce cours. Enn, la section 6 liste rapidement les mthodes qui sont abordes et les raisons qui ont conduit ce choix.

2
2.1

Motivations du data mining


Origine

Le dveloppement des moyens informatiques et de calcul permet le stockage (bases de donnes), le traitement et lanalyse densembles de donnes trs volumineux. Plus rcemment, le perfectionnement des logiciels et de leurs interfaces offrent aux utilisateurs, statisticiens ou non, des possibilits de mise en uvre trs simples de ces mthodes. Cette volution, ainsi que la popularisation de nouvelles techniques algorithmiques (rseaux de neurones, support vector machine...) et outils graphiques, conduit au dveloppement et la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) intgrant un sous-ensemble de mthodes statistiques et algorithmiques utilises sous la terminologie de Data Mining gnralement traduit par fouille de donnes (voir Tuffry 2007 [3] pour un expos plus complet et dtaill). Cette approche, dont la prsentation est principalement issue du marketing spcialis dans la gestion de la relation client (GRC) (client relation management ou CRM), trouve galement des dveloppements et applications industrielles en contrle de qualit ou mme dans certaines disciplines scientiques ds lors que les ingnieurs et chercheurs sont confronts un volume de donnes important. Laccroche publicitaire souvent cite par les diteurs de logiciels

Introduction : du data mining lapprentissage statistique

(SAS) est : Comment trouver un diamant dans un tas de charbon sans se salir les mains. Nous proposons dvaluer et dexprimenter la ralit de cette annonce qui sadresse un march en pleine expansion. Les entreprises sont en effet trs motives pour tirer parti et amortir, par une aide la dcision quantie, les cots de stockage des teras octets que leur service informatique semploie administrer.

diffrents ne prsentant pas les mmes strates, les mmes codications. Des volumes et ux considrables de donnes issues de saisies automatises et chiffrs en tra-octets. Contrairement une dmarche statistique traditionnelle (planication de lexprience), les donnes analyses sont stockes dautres ns (comptabilit, contrle de qualit...) et sont donc pralables lanalyse. La ncessit de ne pas exclure a priori un traitement exhaustif des donnes an de ne pas laisser chapper, travers le crible dun sondage, des groupes de faibles effectifs mais fort impact conomique.

2.2

Environnement

Le contexte informationnel de la fouille de donnes est celui des data wharehouses. Un entrept de donnes, dont la mise en place est assur par un gestionnaire de donnes (data manager) est un ensemble de bases relationnelles extraites des donnes brutes de lentreprise et relatives une problmatique : gestion des stocks (ux tendu), des ventes dun groupe an de prvoir et anticiper au mieux les tendances du march, suivi des chiers clients dune banque, dune assurance, associs des donnes socio-conomiques (INSEE), lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des oprations de marketing ou des attributions de crdit. La gestion de la relation client (GRC ou CRM) vise une individualisation ou personnalisation de la production et de la communication an dvacuer la notion de client moyen. recherche, spcication puis ciblage de niches de march les plus protables (banque) ou au contraire les plus risques (assurance) ; suivi en ligne des paramtres de production (traabilit) en contrle de qualit pour dtecter au plus vite lorigine dune dfaillance ; prospection textuelle (text mining) et veille technologique ; web mining et comportement des internautes ; ... Cet environnement se caractrise par une informatique htrogne faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) travers le rseau de lentreprise (intranet) ou mme des accs extrieurs (internet). Des contraintes defcacit, de abilit ou de scurit conduisent rpartir, stocker linformation la source plutt qu la dupliquer systmatiquement ou la centraliser. Lincompatibilit logique des informations observes sur des chantillons

Apprentissage statistique

Un peu de recul permet dinscrire la dmarche de la fouille de donnes dans un contexte plus large et donc potentiellement plus propice dautres domaines dapplication.

3.1

Objectif gnral

Ds quun phnomne, quil soit physique, biologique ou autre, est trop complexe ou encore trop bruit pour accder une description analytique dbouchant sur une modlisation dterministe, un ensemble dapproches ont t labores an den dcrire au mieux le comportement partir dune srie dobservations. Voici quelques exemples de problmes dapprentissage : identier les facteurs de risque dun certain type de cancer, en fonction de variables cliniques et dmographiques, rechercher des gnes potentiellement impliqus dans une maladie partir de donnes de biopuces ou plus gnralement des biamarqueurs pour un diagnostic prcoce, identier des chiffres manuscrits sur un code postal partir dune image digitalise, prvoir le prix dun stock dans 6 mois partir de mesures de performance de lentreprise et de donnes conomiques, prvoir un taux de pollution atmosphrique en fonction de conditions mtorologiques , prvoir une courbe de consommation lectrique pour un client EDF en fonction de variables climatiques et de caractristiques spciques ce client,

Introduction : du data mining lapprentissage statistique

Gestion de la relation client (GRC ou CRM) et scoring en marketing quantitatif, web mining et comportement des internautes, veille technologique, construire un modle de substitution un code numrique complexe qui permet de prdire une carte de concentration dun polluant dans un sol un an aprs un rejet accidentel en fonction de la carte initiale et des caractristiques du sol (porosit, permabilit...). Lobjectif est de raliser une analyse de sensibilit. Historiquement, la Statistique sest beaucoup dveloppe autour de ce type de problmes et a propos des modles incorporant dune part des variables explicatives ou prdictives et, dautre part, une composante alatoire ou bruit. Il sagit alors destimer les paramtres du modle partir des observations en contrlant au mieux les proprits et donc le comportement de de la partie alatoire. Dans la mme situation, la communaut informatique parle plutt dapprentissage visant le mme objectif ; apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les principaux mots-clefs.

Enn, les stratgies de choix de modle parmi un ensemble plus ou moins complexe, de choix de mthode, sont au cur de la problmatique de ce cours. Ltude de la fouille de donnes se focalise donc sur les pratiques ou mthodes linterface de lapprentissage machine et de la Statistique. Les dveloppements mthodologiques cette interface ont pris depuis le dbut du sicle la dnomination dapprentissage statistique ; Hastie et al. (2009)[1] en proposent un tour dhorizon assez exhaustif.

3.2

Problmatiques

Supervis vs. non-supervis

Distinguons deux types de problmes : la prsence ou non dune variable expliquer Y ou dune forme reconnatre qui a t, conjointement avec X , observe sur les mmes objets. Dans le premier cas il sagit bien dun problme de modlisation ou apprentissage supervis : trouver une fonction f susceptible, au mieux selon un critre dnir, de reproduire Y ayant observ X. Y = f (X ) + Lobjectif gnral est donc un objectif de modlisation qui peut se prciser en sous-objectifs dnir clairement pralablement une tude car ceux-ci conditionnent en grande part les mthodes qui pourront tre mises en oeuvre : o symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive. En cas derreur multiplicative, une transformation Modliser pour logarithmique ramne au problme prcdent. explorer ou vrier, reprsenter, dcrire, les variables, leurs liaisons et posiDans le cas contraire, en labsence dune variable expliquer, il sagit alors tionner les observations de lchantillon, dapprentissage dit non-supervis. Lobjectif gnralement poursuivi est la reexpliquer ou tester linuence dune variable ou facteur dans un modle sup- cherche dune typologie ou taxinomie des observations : comment regrouper pos connu a priori, celles-ci en classes homognes mais les plus dissemblables entre elles. Cest prvoir & slectionner un meilleur ensemble de prdicteurs comme par un problme de classication (clustering). exemple dans la recherche de biomarqueurs, Attention, langlais classication se traduit plutt en franais par discriminaprvoir par une ventuelle meilleure bote noire sans besoin dinterprta- tion ou classement (apprentissage supervis) tandis que la recherche de classes (clustering) (apprentissage non-supervis) fait appel des mthodes de clastion explicite. sication ascendante hirarchique, des algorithmes de rallocation dynamique Des paramtres importants du problme sont les dimensions : n nombre ( k -means) ou encore des cartes auto-organisatrices (Kohonen). dobservations ou taille de lchantillon et p nombre de variables observes sur cet chantillon. Lorsque les mthodes statistiques traditionnelles se trouvent Dans ce cours, nous allons nous intresser essentiellement lapprentissage mises en dfaut pour de grandes valeurs de p, ventuellement plus grande que supervis, pour lequel on dispose dun ensemble dapprentissage constitu de n, les mthodes rcentes dapprentissage sont des recours pertinents car ef- donnes dobservations de type entre-sortie : dn 1 = {(x1 , y1 ), . . . , (xn , yn )} avec xi X quelconque (souvent gal Rp ), yi Y pour i = 1 . . . n caces.

Introduction : du data mining lapprentissage statistique

Lobjectif est de construire, partir de cet chantillon dapprentissage, un modle, qui va nous permettre de prvoir la sortie y associe une nouvelle entre (ou prdicteur) x. La sortie y peut tre quantitative (prix dun stock, courbe de consommation lectrique, carte de pollution ..) ou qualitative (survenue dun cancer, reconnaissance de chiffres...). sorties quantitatives sorties qualitatives Y Rp Y ni rgression discrimination, classement, reconnaissance de forme Nous parlerons de rgression relle lorsque Y R et de la discrimination binaire lorsque Y = {1, 1}. Estimation vs. apprentissage Tout au long de ce document, les termes de estimation et dapprentissage sont utiliss comme des synonymes ce qui est abusif tant que les objectifs dune tude nont pas t clairement explicits. Dans la tradition statistique, la notion de modle est centrale surtout avec une nalit explicative. Il sagit alors dapprocher la ralit, le vrai modle, suppos exister, ventuellement bas sur une thorie physique, conomique, biologique... sous-jacente et la forme du modle est guide par des indications thoriques et des critres dajustement ; les dcisions de validit, de prsence deffets sont bases sur des tests reposant elles-mmes sur des hypothses probabilistes. Linterprtation du rle de chaque variable explicative est prpondrante dans la dmarche. F IGURE 1 Deuxime devise Shadok

Discrimination vs. rgression Le type des variables statistiques considres diffrent selon lespace dans lequel elles prennent leurs valeur. Elles peuvent tre qualitatives valeurs dans un ensemble de cardinal ni ou quantitatives valeurs relles voire fonctionnelles. Certaines mthodes dapprentissage ou de modlisation sadaptent tout type de variables explicatives tandis que dautres sont spcialises. Enn, si Y expliquer est qualitative, on parle de discrimination, classement ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun problme de rgression. Dans ce cas encore, certaines mthodes sont spciques (rgression linaire, analyse discriminante) tandis que dautres sadaptent sans modication profonde remettant en cause leur principe (rseaux de neurones, arbres de dcision. . . ).

En revanche, si lobjectif est essentiellement la prvision, il apparat que le meilleur modle nest pas ncessairement celui qui ajusterait le mieux le vrai modle. La thorie de lapprentissage (Vapnik, 1999) montre alors que le cadre thorique est diffrent et les majorations derreur requirent une autre approche. Les choix sont bass sur des critres de qualit de prvision visant la recherche de modles parcimonieux, cest--dire de complexit (nombre de paramtres ou exibilit limite) dont linterprtabilit passe au deuxime Statistique, informatique et taille des donnes plan. La deuxime devise (cf. gure 1) des Shadoks nest pas une rfrence Lorsque les dimensions du problmes (n, p) sont raisonnables et que des suivre en apprentissage statistique ! hypothses relatives au modle (linarit) et aux distributions sont vries cest--dire, le plus souvent, lorsque lchantillon ou les rsidus sont supposs suivre des lois se mettant sous la forme dune famille exponentielle (gaus-

Introduction : du data mining lapprentissage statistique

sienne, binomiale, poisson. . . ), les techniques statistiques de modlisation ti- important. res du modle linaire gnral sont optimales (maximum de vraisemblance) et, surtout dans le cas dchantillons de taille restreinte, il semble difcile de 3.3 Stratgies de choix faire beaucoup mieux. Choix de mthode En revanche, ds que les hypothses distributionnelles ne sont pas vries, Avec le dveloppement du data mining, de trs nombreux articles comparent ds que les relations supposes entre les variables ou la variable modliser et opposent les techniques sur des jeux de donnes publics et proposent des ne sont pas linaires ou encore ds que le volume des donnes (big data) est amliorations incrmentales de certains algorithmes. Aprs une priode important, dautre mthodes viennent concurrencer lapproche statistique clasvreuse o chacun tentait dafcher la suprmatie de sa mthode, un consensus sique. sest tabli autour de lide quil ny a pas de meilleure mthode. Chacune Prenons un exemple simple : expliquer une variable quantitative Y par un est plus ou moins bien adapte au problme pos, la nature des donnes ou ensemble {X 1 , . . . , X p } de variables galement quantitatives : encore aux proprits de la fonction f approcher ou estimer. Sur le plan mthodologique, il est alors important de savoir comparer des mthodes an de Y = f (X 1 , . . . , X p ) + . choisir la plus pertinente. Cette comparaison repose sur une estimation derreur observes sur un chantillon (yi , xi ); i = 1, . . . , n de taille n. Si la fonction f (de rgression ou de classement) quil est ncessaire de conduire avec soin. est suppose linaire et p petit, de lordre dune dizaine ; le problme est bien connu et largement dbattu dans la littrature. Dans le cas o la fonction f Choix de modle : quilibre biais-variance nest pas franchement linaire et n grand, il est possible destimer prcisment Tous les auteurs saccordent pour souligner limportance quil y a un nombre plus important de paramtres et donc denvisager des modles plus construire des modles parcimonieux quelque soit la mthode utilise. Toutes sophistiqus. Si on sen tient au modle gaussien usuel, mme le cas le plus les mthodes sont concernes : nombre de variables explicatives, de feuilles simple dun modle polynmial devient vite problmatique. En effet, lorsque dans un arbre ou de neurones dans une couche cache. . . . Seuls les algorithmes la fonction f est linaire, prenons p = 10, la procdure de choix de modle de combinaison de modles (bagging, boosting) contournent cette tape au prix est confronte un ensemble de 210 modles possibles et des algorithmes as- dun accroissement sensible du volume des calculs et surtout de linterprtabitucieux permettent encore de sen sortir. En revanche, considrer, pour esti- lit des rsultats obtenus. mer f , un simple polynme du deuxime voire troisime degr avec toutes Lalternative est claire, plus un modle est complexe et donc plus il intgre ses interactions, amne considrer un nombre considrable de paramtres et de paramtres et plus il est exible donc capable de sajuster aux donnes donc, par explosion combinatoire, un nombre astronomique de modles posengendrant ainsi une erreur faible dajustement. En revanche, un tel modle sibles. Dautres mthodes doivent alors tre considres en prenant en compte peut savrer dfaillant lorsquil sagira de prvoir ou gnraliser, cest--dire ncessairement la complexit algorithmique des calculs. Ceci explique limde sappliquer des donnes qui nont pas particip son estimation. plication dune autre discipline, linformatique, dans cette problmatique. Le Lexemple lmentaire de la gure 2 illustre ce point fondamental dans le souci de calculabilit lemporte sur la dnition mathmatique du problme qui se ramne loptimisation dun critre dajustement de la fonction f sur cas dun problme de discrimination dans R2 . Une frontire dont le modle un ensemble de solutions plus ou moins riche. Ces mthodes ont souvent t "vrai" est quadratique est, cause d"erreurs de mesure" sous-ajuste par une dveloppes dans un autre environnement disciplinaire : informatique, intel- rgression linaire mais surajuste par un polynme de degr plus lev ou ligence articielle. . . ; k plus proches voisins, rseaux de neurones, arbres de lalgorithme local des k plus proches voisins. dcisions, support vector machine deviennent des alternatives crdibles ds Ce problme sillustre aussi facilement en rgression classique. Ajouter des lors que le nombre dobservations est sufsant ou le nombre de variables trs

Introduction : du data mining lapprentissage statistique

Choix de modle : slection vs. rgularisation Selon la mthode considre, la complexit du modle sexprime de diffrentes faons. Simple lors dune slection de variable en rgression linaire, la complexit est directement lie la dimension de lespace engendr et donc au nombre de variables. Les choses se compliquent pour les modles nonlinaires lorsque, dimension xe, cest la plus ou moins grande exibilit des solutions qui doit tre pnalise. Cest typiquement le cas en rgression non-paramtrique ou fonctionnelle. Une pnalisation faisant intervenir la norme carre de la drive seconde contrle la exibilit dun lissage spline. La largeur de fentre du noyau contrle galement la rgularit de la solution. En rgression linaire, si le nombre et les variables sont dtermins, la version ridge de la rgression pnalise la norme carre du vecteur des paramtres et restreint ainsi, par rgularisation, lespace des solutions pour limiter leffet de la multicolinarit. Enn, pour aborder en toute gnralit les situations les plus compliques, Vapnik (1999) a formalis la thorie de lapprentissage en introduisant une notion particulire de dimension pour toute famille de modles.

F IGURE 2 Sous-ajustement linaire et sur-ajustement local (proches voisins) dun modle quadratique.

Dans la majorit des problmes rencontrs, des caractristiques ou variables X = (X 1 , . . . , X p ) dites explicatives ou prdictives ont t observes sur un ensemble de n objets, individus ou units statistiques. Un premier travail, souvent fastidieux mais incontournable, consiste mener une exploration statistique de ces donnes : allure des distributions, prsence de donnes atypiques, corrlations et cohrence, transformations ventuelles des donnes, description multidimensionnelle, rduction de dimension, classication. Cest lobjet dun cours distinct dexploration statistique tandis que ce cours dcrit les outils de Parfois plus que celui de la mthode, le choix du bon modle dans une classe modlisation statistique ou encore dapprentissage utilisables pour la modlidune variable cible Y par les variables explicatives ou ensemble de modles pour une mthode donne est primordial. En cons- sation n de prvision j ou prdictives X . quence, les problmes doptimisation considrs doivent mettre en uvre un critre qui prend en compte la complexit du modle, cest--dire la complexit Lenchanement, ventuellement itratif, de ces tapes (exploration puis apde lespace ou de la classe dans lequel la solution est recherche. prentissage) constitue le fondement de la fouille de donnes.

variables explicatives dans un modle ne peut que rduire lerreur dajustement (le R2 ) et rduit le biais si le vrai modle est un modle plus complet. Mais, ajouter des variables fait rdhibitoirement crotre la variance des estimateurs et donc celle des prvisions qui se dgradent, voire explosent, avec la multicolinarit des variables explicatives. Un risque pour le modle, ou erreur quadratique de prvision, sexprimant comme le carr du biais plus la variance, il est important doptimiser le dosage entre biais et variance en contrlant le nombre de variables dans le modle (sa complexit) an de minimiser le risque. Ces remarques conduisent la dnition de critres de choix de modle dont le Cp de Mallows fut un prcurseur en rgression suivi par dautres propositions : Akake (AIC), Schwartz (BIC). . .

4
4.1

Stratgie de lapprentissage statistique


Les donnes

Introduction : du data mining lapprentissage statistique

Pour comprendre la structure et bien apprhender le contenu de ce cours, il est important dintgrer rapidement ce quest la stratgie mettre en uvre pour aboutir au bon apprentissage ou encore au bon modle prdictif recherch partir des donnes observes. Attention, contrairement une dmarche statistique traditionnelle dans laquelle lobservation des donnes est intgre la mthodologie (planication de lexprience), les donnes sont gnralement pralables lanalyse. Nanmoins il est clair que les proccupations lies leur analyse et son objectif doivent intervenir le plus en amont possible pour sassurer quelques chances de succs.

croise, approximation par pnalisation de lerreur dajustement (critres Cp , AIC). 5. Comparaison des modles optimaux obtenus (un par mthode) par estimation de lerreur de prvision sur lchantillon test ou, si la prsence dun chantillon test est impossible, sur le critre de pnalisation de lerreur (AIC dAkake par exemple) sil en existe une version pour chacune des mthodes considres. 6. Itration ventuelle de la dmarche prcdente (validation croise), si lchantillon test est trop rduit, depuis (iii). Partitions alatoires successives de lchantillon pour moyenner sur plusieurs cas lestimation nale de lerreur de prvision et sassurer de la robustesse du modle obtenu. 7. Choix de la mthode retenue en fonction de ses capacits de prvision, de sa robustesse mais aussi, ventuellement, de linterprtabillit du modle obtenu. 8. R-estimation du modle avec la mthode, le modles et sa complexite optimiss ltape prcdente sur lensemble des donnes. 9. Exploitation du modle sur la base complte et de nouvelles donnes.

4.2

Les tapes de lapprentissage

Les traitements senchanent de faon assez systmatique selon le schma suivant et quelque soit le domaine dapplication : 1. Extraction des donnes avec ou sans chantillonnage faisant rfrence des techniques de sondage appliques ou applicables des bases de donnes. 2. Exploration des donnes pour la dtection de valeurs aberrantes ou seulement atypiques, dincohrences, pour ltude des distributions des structures de corrlation, recherche de typologies, pour des transformations des donnes. . . 3. Partition alatoire de lchantillon (apprentissage, validation, test) en fonction de sa taille et des techniques qui seront utilises pour estimer une erreur de prvision en vue des tapes de choix de modle, puis de choix et certication de mthode.

Exemples

En plus des exemples pdagogiques illustrant simplement les diffrentes mthodes tudies, dautres exemples en vraie grandeur permettent den valuer rellement lefcacit mais aussi toute la complexit de mise en uvre. Dautres exemples sont encore plus concrtement proposs en travaux dirigs ou sous formes de scnarios avec leur traitement informatique explicite.

4. Pour chacune des mthodes considres : modle linaire gnral (gaus- 5.1 Banque, nance, assurance : Marketing sien, binomial ou poissonien), discrimination paramtrique (linaire ou Lobjectif est une communication personnalise et adapte au mieux quadratique) ou non paramtrique, k plus proches voisins, arbre, rseau de neurones (perceptron), support vecteur machine, combinaison de mo- chaque client. Lapplication la plus courante est la recherche dun score estim sur un chantillon de clientle pour lapprentissage puis extrapol lensemble dles (bagging, boosting)... estimer le modle pour une valeur donne dun paramtre (ou plu- en vue dun objectif commercial : Apptence pour un nouveau produit nancier : modlisation de la probasieurs) de complexit : nombre de variables, de voisins, de feuilles, de bilit de possder un bien (contrat dassurance...) puis application lenneurones, dure de lapprentissage, largeur de fentre. . . ; semble de la base. Les clients, pour lesquels le modle prdit la possession optimiser ce paramtre (ou ces paramtres) en fonction de la technique de ce bien alors que ce nest pas le cas, sont dmarchs (tl marketing, destimation de lerreur retenue : chantillon de validation, validation

Introduction : du data mining lapprentissage statistique

publipostage ou mailing, phoning,...) prioritairement. Attrition ; mme chose pour valuer les risques de dpart (churn) des clients par exemple chez un oprateur de tlphonie. Les clients pour lesquels le risque prdit est le plus important reoivent des incitations rester. Risque pour lattribution dun crdit bancaire ou louverture de certains contrats dassurance ; risque et taux de couverture des banques (Ble 2 et 3). ... Lexemple trait suit un schma classique danalyse de donnes bancaires. Aprs la phase exploratoire, il sagit de construire un score dapptence de la carte Visa Premier dans lide de dliser les meilleurs clients. La variable prvoir est binaire : possession ou non de cette carte en fonction des avoirs et comportements bancaires dcrits par p = 32 variables sur n = 825 clients.

5.3

Sant : aide au diagnostic

Les outils statistiques sont largement utiliss dans le domaine de la sant. Ils le sont systmatiquement lors des essais cliniques dans un cadre lgislatif stricte mais aussi lors dtudes pidmiologiques pour la recherche de facteurs de risques dans des grandes bases de donnes ou encore pour laide au diagnostic. Lexemple tudi illustre ce dernier point : il sagit de prvoir un diagnostic partir de tests biologiques et dexamens lmentaires. Bien entendu, la variable prdire, dont lvaluation ncessite souvent une analyse trs coteuse voire une intervention chirurgicale, est connue sur lchantillon ncessaire lestimation des modles. Dans lexemple tudi (breast cancer), il sagit de prvoir le type de la tumeur (bnigne, maligne) lors dun cancer du sein laide de p = 9 variables explicatives biologiques observes sur n = 700 patientes.

5.2

Environnement : pic dozone

5.4

Biologie : slection de gnes

Lobjectif est de prvoir pour le lendemain les risques de dpassement de seuils de concentration dozone dans les agglomrations partir de donnes observes : concentrations en 03, NO3, NO2... du jour, et dautres prdites par Mto-France : temprature, vent... Encore une fois, le modle apprend sur les dpassements observs an de prvoir ceux venir. Il sagit dun problme de rgression : la variable prvoir est une concentration mais elle peut aussi tre considre comme binaire : dpassement ou non dun seuil. Il y a 8 variables explicatives dont une est dj une prvision de concentration dozone mais obtenue par un modle dterministe de mcanique des uides (quation de Navier et Stockes). Lapproche statistique vient amliorer cette prvision en modlisant les erreurs et en tenant compte dobservations de concentration doxyde et dioxyde dazote, de vapeur deau, de la prvision de la temprature ainsi que de la force du vent. Cette tude est propose en exemple ou en travaux dirigs mais pas sous la forme dun scnario car les donnees proprits de MtoFrance ne sont pas publiques.

Les techniques de microbiologie permettent de mesurer simultanment lexpression (la quantit dARN messager produite) de milliers de gnes dans des situations exprimentales diffrentes, par exemple entre des tissus sains et dautres cancreux. Lobjectif est donc de dterminer quels gnes sont les plus susceptibles de participer aux rseaux de rgulation mis en cause dans la pathologie ou autre phnomne tudi. Le problme snonce simplement mais rvle un redoutable niveau de complexit et pose de nouveaux ds au statisticien. En effet, contrairement aux cas prcdents pour lesquels des centaines voire des milliers dindividus peuvent tre observs et participer lapprentissage, dans le cas des biopuces, seuls quelques dizaines de tissus son analyss cause essentiellement du prix et de la complexit dune telle exprience. Compte tenu du nombre de gnes ou variables, le problme de discrimination est svrement indtermin. Dautres approches, dautres techniques sont ncessaires pour pallier linsufsance des mthodes classiques de discrimination. Lexemple concerne les expressions de gnes dans une exprience croisant deux facteurs le rgime alimentaire (5 niveaux) chez n = 40 souris de 2 gnotypes. Il sagit de mettre en vidence limpact des facteurs sur les expressions de p = 120 gnes puis dexpliquer un ensemble de q = 21 variables phnotypiques (concentrations dacides gras) par ces mmes expressions.

Introduction : du data mining lapprentissage statistique

5.5

Exemples industriels

Donnes spectromtriques depuis de trs nombreuses annes, lindustrie agroalimentaire est confronte des problmes de grande dimension pour lanalyse de donnes spectromtriques comme par exemple dans le proche infra-rouge (NIR). Sous lappellation de Chimiomtrie de trs nombreuses mthodes et stratgies ont t dveloppes ou enrichies (i.e. la rgression PLS) an de prendre en compte la spcicit des problmes rencontrs par la discrtisation de spectres conduisant trs gnralement un nombre de variables p > n. Dans un premier exemples, il sagit de modliser, la teneur en sucre dune pte gteau (cookies o n = 72, p = 700)) partir des spectres (cf. gure 3) tandis que dans un deuxime (Tecator ou n = 215, p = 100), cest la teneur en matire grasse qui est recherche. Ces questions sont considres comme des problmes de calibration dun appareil de mesure (le spectromtre) pour arriver la quantication dune mesure chimique dont lvaluation classique est beaucoup plus coteuse ou encore destructive. Criblage virtuel de molcules Une stratgie classique de lindustrie pharmaceutique consiste tester in silico un nombre considrable de molcules avant de ne synthtiser que celles juges intressantes pour passer aux tapes de recherche clinique in vitro puis in vivo. Une proprit thrapeutique dun ensemble de molcules dapprentissage (permabilit de la paroie intestinale ou la barrire sanguine du cerveau, adquation une cible donne...) tant connue, un grand ensemble de caractristiques physico-chimiques sont values, calcules par un logiciel spcique : ce sont des donnes dites QSAR Quantitative structure-activity relationship. F IGURE 3 Cookies : Spectres proche infrarouge (NIR) dchantillons de Sil est possible de raisonnablement prvoir la proprit thrapeutique partir ptes gteaux. La couleur dpend du taux de sucre. des caractristiques physico-chimiques, ce modle est systmatiquement appliqu un grand ensemble de molcules virtuelles ; cest le criblage ou sreening virtuel de molcule. Deux jeux de donnes sont tudis lun illustrant un problme de rgression (blood brain barrier data) avec n = 208, p = 134 tandis que lautre est un problme de discrimination deux classes (multidrig resistance reversal) avec n = 528, p = 342. Dautres exemples sont cits titre illustratif mais leur complexit, inhrente beaucoup de problmes industriels, ne permet pas de les dtailler des ns

Introduction : du data mining lapprentissage statistique

pdagogiques. Motorola : Dtection de dfaillance Un procd de fabrication de microprocesseurs comporte des centaines dtapes (photogravures, dpts, cuissons, polissages, lavages...) dont tous les paramtres, quipement et mesures physiques (tempratures, pressions...), sont enregistrs dans une grande base de donnes permettant la traabilit des produits manufacturs. Le test lectrique de chaque microprocesseur ne peut se faire quen n de fabrication lorsque ceux-ci sont achevs. Il est videment important de pouvoir dterminer, lors de lapparition dune baisse du rendement et en utilisant les donnes de la base, lquipement ou la fourniture responsable de la dfaillance an dy remdier le plus rapidement possible. Airbus : Aide au pilotage Les graphes de la gure 4 tracent les enregistrements des commandes et positions dun avion en vol. Ceux-ci mettent en vidence un phnomne de rsonance entre lappareil et le comportement du pilote qui est trs dangereux pour la scurit. Lobjectif est de construire un modle susceptible, en temps rel, de dtecter une telle situation an dy remdier par exemple en durcissant les commandes de vol lectriques. Le problme est trs spcique car les donnes, ou signaux, sont mesures en temps rel et constituent des discrtisations de courbes.

qm 10 0

0 8 6 4 2 10 0 0 2

10

12

10

12

14

0 1

Neural 6 PIO detector

10

12

0.5

Contenu

10

12

Il a fallu faire des choix dans lensemble des techniques proposes et leurs nombreux avatars. La forme et le contenu sont guids par les besoins exprims lors des stages ralises par les tudiants du dpartement Gnie Mathmatique de lINSA ou par les thmes des collaborations industrielles et scien- F IGURE 4 Airbus : Pompage pilot rvl par lobservation des paramtres tiques de lquipe Statistique et Probabilits de lInstitut de Mathmatiques en temps rel. De (haut en bas) : manche, assiette, gouverne comparer avec la de Toulouse. Le lecteur peut se faire une ide du nombre trs important de m- prvision quen fait un rseau de neurones. thodes et variantes concernes par lapprentissage supervise en consultant une aide en ligne de la librairie caret (Kuhn, 2008)[2] du logiciel R. Remarquons que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab, KXEN, SPAD, Statsoft. . . ) ou gratuits (R, Weka, Tanagra), performants et simposant par des interfaces trs conviviales (Enterprise Miner, Insightfull Miner, Cle-

10

Introduction : du data mining lapprentissage statistique

la slection des mthodes comparer, mentine, Statistica Data Miner), contribuent largement la diffusion, voire la loptimisation des mchoix de modles, pntration, de mthodes trs sophistiques dans des milieux qui seraient imet ceci en fonction des mthodes considres, de la structure des donnes, des permables une conceptualisation mathmatique trop abstraite. Chaque mthode ou famille de mthodes de modlisation et dapprentissage proprits des variables notamment celle modliser. parmi les plus rpandues, est prsente de faon plus ou moins succincte dans un chapitre distinct avec un objectif de prvision. Une premire vignette incon- Rfrences tournable est consacre aux techniques destimation dune erreur de prvision ou dun risque sur lesquelles reposent les choix oprationnels dcisifs : de mo- [1] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning : data mining, inference, and prediction, Springer, 2009, Second edition. dle, de mthode mais aussi lvaluation de la prcision des rsultats escompts. La rgression linaire classique en statistique prend une place particulire [2] Max Kuhn, Building Predictive Models in R Using the caret Package, Jour titre pdagogique. Trs antrieure aux autres, elle donne lieu a une bibliogranal of Statistical Software 28 (2008), no 5. phie abondante. Conceptuellement plus simple, elle permet dintroduire plus [3] S. Tuffry, Data Mining et Statistique dcisionnelle : lintelligence des facilement les problmatiques rencontres comme celle du choix dun modle donnes, Technip, 2007. par ses deux approches types : la slection de variable ou la rgularisation (ridge, Lasso). Le modle linaire gnral fournit le cadre thorique ncessaire lunication des rgressions linaire, loglinaire et logistique ; cette dernire reste toujours trs utilise en scoring. La prsentation de lanalyse discriminante dcisionnelle, paramtrique ou non paramtrique (dont les k plus proches voisins), permet dintroduire galement des notions de thorie baysienne de la dcision. Les vignettes suivantes sont consacres aux techniques algorithmiques : arbres binaires de dcision (classication and regression trees ou CART) et celles plus directement issues de la thorie de lapprentissage machine (machine learning) : rseau de neurones et perceptron, agrgation de modles (boosting, random forest), support vector machine (SVM). Enn une vignette de conclusion tche de synthtiser le panorama et propose une comparaison systmatique des mthodes sur les diffrents jeux de donnes. Le choix a t fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de chaque mthode dans son cadre disciplinaire tout en tchant dhomogniser notations et terminologies. Lobjectif principal est de faciliter la comprhension et linterprtation des techniques des principaux logiciels pour en faciliter une utilisation pertinente et rchie. Ce cours ne peut tre dissoci de sances de travaux dirigs sur ordinateur laide de logiciels (SAS, R...) pour traiter des donnes en vraie grandeur dans toute leur complexit. La principale difcult pratique est darriver dterminer o faire porter leffort ou les efforts : la saisie, la gestion, la slection des donnes et variables,

11

You might also like