Professional Documents
Culture Documents
12 septembre 2013
Introduction au Data-Mining
1 / 28
Traduction : Fouille de donnes. Terme rcent (1995) reprsentant un mlange dides et doutils provenant de la Statistique, lIntelligence Articielle et lInformatique. La dnition exacte reste peu claire et les terminologies associes au Data-Mining sont encore oues.
Introduction au Data-Mining
2 / 28
Autres dnitions :
Le data-mining est un processus dextractions automatique dinformations predictives partir de grandes bases de donnes.
Introduction au Data-Mining
3 / 28
Introduction au Data-Mining
4 / 28
Exemples dapplications
Entreprise et Relation Clients : systme de cration de prols clients, ciblage de clients potentiels et nouveaux marchs Finances : minimisation de risques nanciers Bioinformatique : Analyse du gnome, mise au point de mdicaments, ... Internet : spam, e-commerce, dtection dintrusion, recherche dinformations etc... Scurit
Introduction au Data-Mining
5 / 28
Amazon
Opportunit : la liste des achats des clients est stocke en mmoire ; les clients notent les produits ! Comment tirer prot de ces donnes pour proposer des produits un autre client ? Solutions : technique dit de ltrage collaboratif permettant de regrouper des clients ayant les mmes gots.
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 6 / 28
Prt Bancaire
Objectif des banques : rduire le risque des prts bancaires. Crer un modle partir de caractrisques des clients pour discriminer les clients risque des autres.
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 7 / 28
Introduction au Data-Mining
8 / 28
Types dapprentissage
Apprentissage supervis Apprentissage non-supervis Apprentissage semi-supervis
Introduction au Data-Mining
10 / 28
Introduction au Data-Mining
13 / 28
Ensemble de donnes
Dans un problme de Data-Mining, les informations caractrisant une tude (un client pour un problme de e-commerce ou un dclaration dans le cas dun dtection de fraudes) sont prsentes sous la forme dattributs et dexemples.
Attributs
Un attribut est un descripteur dune entit. On lappele galement variable, champs, caratristiques ou observations
Exemple
Un exemple est une entit caractrisant un objet et est donc constitu dattributs. synonymes : point, vecteur (souvent les exemples sont dans Rd )
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 14 / 28
Type de donnes
Types
numrique continue : la valeur de la variable peut prendre une valeur dans R (par exemple : le montant du compte en banques de B. Spears). numrique discrte : la valeur de la variable appartient Z ou N (par exemple : lage du capitaine) catgorie : avec ou sans relation dordre (exemple : {rouge, vert, bleu}). binaire Chanes de caractres (par exemple : un texte) Arbre : (par exemple Page XML) Donnes structures : graphe, enregistrement
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 15 / 28
Donnes et Mtriques
Les algorithmes ncessitent une notion de similarit dans lespace X des donnes. La similarit est traduite par la notion de distance. distance euclidienne : x , x Rd , on a d (x , x ) = x x 2 =
d i =1 (xi
Euclidien Manhattan Mahalanobis
xi )2 =
(x x )t (x x ) distance de manhattan d (x , x ) = x x 1 =
d i =1
(xi xi )
distance de mahalanobis d (x , x ) = (x x )t 1 (x x )
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 16 / 28
On cherche une fonction f : X Y qui a X associe f (X ) qui permet destimer la valeur y associe x . f appartient un espace H appel espace dhypothses.
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 17 / 28
Introduction au Data-Mining
18 / 28
= =
L(Y , f (X )) R (f )
Introduction au Data-Mining
19 / 28
Rgression
On parle de rgression quand Y est un sous-espace de Rd .
0.5
y 0.5 1 1.5 0
0.5
1.5
2.5 x
3.5
4.5
Introduction au Data-Mining
20 / 28
Discrimination
si Y est un ensemble discret non-ordonn, (par exemple {1, 1}), on parle de discrimination.
0
1
1 0
0
1
1
0
1 0
3 3 2 1 0 1
Introduction au Data-Mining
1
1
21 / 28
L(yi , f (xi ))
i =1
Le risque empirique ne permet pas dvaluer la pertinence dun modle car il est possible de choisir f de sorte que le risque empirique soit nul mais que lerreur en gnralisation soit leve. On parle alors de sur-apprentissage
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 22 / 28
Illustration du sur-apprentissage
Erreur de prediction
Ensemble de Test
Introduction au Data-Mining
23 / 28
Slection de modles
Problmatique
On cherche une fonction f qui minimise un risque empirique donn. On suppose que f appartient une classe de fonctions paramtres par . Comment choisir pour que f minimise le risque empirique et gnralise bien ? Exemple : On cherche un polynme de degr qui minimise 2 un risque Remp (f ) = N i =1 (yi f (xi )) . Objectifs :
1. proposer une mthode destimation dun modle an de choisir (approximativement) le meilleur modle appartenant lespace hypothses. 2. une fois le modle choisi, calculer son erreur de gnralisation.
Introduction au Data-Mining
24 / 28
Slection de modles
Cas idal
On est dans un cas o les donnes abondent. Dans ce cas, on spare les donnes en 3 ensembles : donnes dapprentissage, donnes de validation et donnes de test. Le premier sert construire un modle, le deuxime estimer lerreur de ce modle. Le troisime ne sert quune fois : estimer lerreur en gnralisation du modle nal.
Cas usuel :
On est pauvre en donnes. Utilisation de mthodes analytiques (AIC, BIC, etc ...) ou de rchantillonage pour remplacer ltape de validation.
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 25 / 28
Introduction au Data-Mining
26 / 28
Dtails : CV =
k
1 K
K k =1
1 Nk
Nk
L(yik , f k (xik ))
i =1
o f est le modle f appris sur lensemble des donnes sauf la k -ime partie. Proprits : Si K = N , CV est approximativement un estimateur sans biais de lerreur en gnralisation. Linconvnient est quil faut apprendre N 1 modles. typiquement, on choisit K = 5 ou K = 10 pour un bon compromis entre le biais et la variance de lestimateur.
Introduction au Data-Mining
27 / 28
Conclusions
Pour bien mener un projet de DM
Identier et noncer clairement les besoins. Crer ou obtenir des donnes reprsentatives du problme Identier le contexte de lapprentissage Analyser et rduire la dimension des donnes Choisir un algorithme et/ou un espace dhypothses. Choisir un modle en appliquant lalgorithme aux donnes prtraites. Valider les performances de la mthode.
Introduction au Data-Mining
28 / 28