Introd M Beamer

Introduction au Data-Mining
Gilles Gasso-Alain Rakotomamonjy

INSA Rouen -Dpartement ASI Laboratoire PSI
12 septembre 2013
1 / 28
Data-Mining : Quest-ce donc ?
Traduction : Fouille de donnes. Terme rcent (1995) reprsentant un mlange dides et doutils provenant de la Statistique, lIntelligence Articielle et lInformatique. La dnition exacte reste peu claire et les terminologies associes au Data-Mining sont encore oues.
2 / 28
Data-Mining : Quest-ce donc ?
Une dnition suivant un critre gocentr :

Le data-mining est un processus de dcouverte de rgle, relations, corrlations et/ou dpendances travers une grande quantit de donnes, grce des mthodes statistiques, mathmatiques et de reconnaissances de formes.
Autres dnitions :
Le data-mining est un processus dextractions automatique dinformations predictives partir de grandes bases de donnes.
3 / 28
Data-Mining : les raisons du dveloppement
Essor de la fouille de donnes

Intert conomique : du produit aux clients. Technologie de linformation : faible cot de stockage de donnes, saisie automatique de transaction (code bar, click, donnes de localisation GPS, internet) Augmentation de la puissance de calculs des ordinateurs (loi de Moore) Extraire de la connaissance partir de grandes bases de donnes devient possible
4 / 28
Exemples dapplications
Entreprise et Relation Clients : systme de cration de prols clients, ciblage de clients potentiels et nouveaux marchs Finances : minimisation de risques nanciers Bioinformatique : Analyse du gnome, mise au point de mdicaments, ... Internet : spam, e-commerce, dtection dintrusion, recherche dinformations etc... Scurit
5 / 28
Exemples dapplications : E-commerce

Dell
Problme : 50% des clients de Dell achtent leurs machines travers le site Web. Mais seulement 0.5% des visiteurs du site deviennent clients. Solution : Stocker les squences de clicks des visiteurs, analyser les caractristiques des acheteurs et lors de la visite dun client potentiel, adapter le contenu du site pour maximiser la probabilit dun achat. e
Amazon
Opportunit : la liste des achats des clients est stocke en mmoire ; les clients notent les produits ! Comment tirer prot de ces donnes pour proposer des produits un autre client ? Solutions : technique dit de ltrage collaboratif permettant de regrouper des clients ayant les mmes gots.
Gilles Gasso-Alain Rakotomamonjy Introduction au Data-Mining 6 / 28
Exemples dapplications : Analyse des risques

Dtection de fraudes pour les assurances
Analyse des dclarations des assurs par un expert an didentier les cas de fraudes. Extraction de caractristiques partir de ces dclarations (type daccident, de blessures, etc...) Applications de mthodes statistiques pour identier les caractristiques des dclarations fortement corrles la fraude.
Prt Bancaire
Objectif des banques : rduire le risque des prts bancaires. Crer un modle partir de caractrisques des clients pour discriminer les clients risque des autres.
Exemples dapplications : Commerce

Organisation de rayonnage
Objectifs : Identier les produits que les gens sont susceptibles dacheter conjointement an dorganiser les rayonnages Donnes : Code-Barre des produits. Mthodes : Extractions de rgles Exemples :
rsultats logiques : les boissons alcoolises et les biscuits apritifs sont souvent proches. resultats tranges : dans une tude amricaine, la vente de bire est plus importante si le rayon des couches nest pas trop loin, et si sur le chemin il y a des chips, cela permet daugmenter la vente des 3 produits.
8 / 28
Mise en oeuvre dun projet dun projet de DM

1. Comprendre et analyser les objectifs de lapplication 2. Crer une base de donnes pour la mise au point de lapplication. 3. Prtraitement et nettoyage des donnes 4. Analyse statistique des donnes (rduction de la dimension, projection, etc...) 5. Identier le type de problmes ( discrimination, clustering, etc...) et choisir un algorithme. 6. Evaluer les performances de lalgorithme. 7. Ritrer les tapes prcdentes si necessaire. 8. Dployer lapplication. Objectifs du cours : Etude des mthodes pour les tapes 4 6
Caractrisation des mthodes de Data-Mining
Types dapprentissage
Apprentissage supervis Apprentissage non-supervis Apprentissage semi-supervis
10 / 28

Apprentissage supervis
Objectifs : partir dun ensemble dobservations {x1 , , xN } telles que xi X et de mesures {y1 , , yN } avec yi Y , on cherche estimer les dpendances entre lensemble X et Y . Exemple : on cherche estimer les liens entre les habitudes alimentaires et le risque dinfarctus. xi est un patient dcrit par d caractristiques concernant son rgime et yi une catgorie (risque, pas risque). On parle dapprentissage supervis car les yi permettent de guider le processus destimation. Exemples de mthodes : Mthode du plus proche voisin, rseaux de neurones, Sparateurs Vastes Marges, CART etc..

Apprentissage non-supervis
Objectifs : seules les observations {x1 , , xN } sont disponibles. On cherche dcrire comment les donnes sont organises et en extraire des sous-ensemble homognes. Exemple : On cherche tudier le panier de la mnagre dans une certaine zone dmographique en fonction de certains critres sociaux. xi reprsente un individu travers ses caractristiques sociales et ses habitudes lors des courses Exemples de mthodes : Classication hierarchique, Carte de Kohonen, K-means, extractions de rgles... Exemples dapplications : identication de segments de marchs, identication de document similaires,

Apprentissage semi-supervis
Objectifs : parmi les observations {x1 , , xn } X N , seulement un petit nombre dentre elles ont un label {y1 , n, n < N }. Lobjectif est le mme que pour lapprentissage supervis mais on aimerait tirer prot des observations non labelises. Exemple : pour la discrimination de pages Web, le nombre dexemples peut tre trs grand mais leur associer un label est coteux. Exemples de mthodes : mthodes bayesiennes, Sparateur Vastes Marges, etc...
13 / 28
Ensemble de donnes
Dans un problme de Data-Mining, les informations caractrisant une tude (un client pour un problme de e-commerce ou un dclaration dans le cas dun dtection de fraudes) sont prsentes sous la forme dattributs et dexemples.
Attributs
Un attribut est un descripteur dune entit. On lappele galement variable, champs, caratristiques ou observations
Exemple
Un exemple est une entit caractrisant un objet et est donc constitu dattributs. synonymes : point, vecteur (souvent les exemples sont dans Rd )
Type de donnes
Types
numrique continue : la valeur de la variable peut prendre une valeur dans R (par exemple : le montant du compte en banques de B. Spears). numrique discrte : la valeur de la variable appartient Z ou N (par exemple : lage du capitaine) catgorie : avec ou sans relation dordre (exemple : {rouge, vert, bleu}). binaire Chanes de caractres (par exemple : un texte) Arbre : (par exemple Page XML) Donnes structures : graphe, enregistrement
Donnes et Mtriques
Les algorithmes ncessitent une notion de similarit dans lespace X des donnes. La similarit est traduite par la notion de distance. distance euclidienne : x , x Rd , on a d (x , x ) = x x 2 =
d i =1 (xi
Euclidien Manhattan Mahalanobis
xi )2 =
(x x )t (x x ) distance de manhattan d (x , x ) = x x 1 =
d i =1
(xi xi )
distance de mahalanobis d (x , x ) = (x x )t 1 (x x )
Apprentissage supervis : les concepts

Supposons que lon a deux ensembles X et Y munis dune loi de probabilit jointe p (X , Y ).
On cherche une fonction f : X Y qui a X associe f (X ) qui permet destimer la valeur y associe x . f appartient un espace H appel espace dhypothses.

On introduit une notion de cot L(Y , f (X )) qui permet dvaluer la pertinence de la prdiction de f , et de pnaliser les erreurs. Lobjectif est donc de choisir la fonction f qui minimise R (f ) = EX ,Y [L(Y , f (X ))] o R est appel le risque moyen ou erreur de gnralisation. Il est galement not EPE (f ) pour expected prediction error
18 / 28
Exemples de fonction cot et de risque moyen associ.

Cot quadratique (moindres carrs) L(Y , f (X )) R (f ) Cot
1
= =
(Y f (X ))2 E [(Y f (X ))2 ] = (y f (x ))2 p (x , y )dxdy
(moindres valeurs absolues) = |Y f (X )| = E [|Y f (X ))|] = |y f (x )|p (x , y )dxdy
L(Y , f (X )) R (f )
19 / 28
Rgression
On parle de rgression quand Y est un sous-espace de Rd .
Support Vector Machine Regression 1
0.5
y 0.5 1 1.5 0
0.5
1.5
2.5 x
3.5
4.5
Les fonctions de cot typiques sont (y f (x ))2 et |y f (x )|
20 / 28
Discrimination
si Y est un ensemble discret non-ordonn, (par exemple {1, 1}), on parle de discrimination.
0
1
1 0
0
1
1
0
1 0
3 3 2 1 0 1
La fonction de cot la plus usite est : (yf (x )) o est la fonction chelon.
1
1
21 / 28

En pratique, on a un ensemble de donnes {(xi , yi ) X Y}N i =1 appel ensemble dapprentissage obtenu par chantillonage indpendant de p (X , Y ) que lon ne connat pas. On cherche une fonction f , appartenant H qui minimise le risque empirique : Remp (f ) = 1 N
N
L(yi , f (xi ))
i =1
Le risque empirique ne permet pas dvaluer la pertinence dun modle car il est possible de choisir f de sorte que le risque empirique soit nul mais que lerreur en gnralisation soit leve. On parle alors de sur-apprentissage
Illustration du sur-apprentissage
Erreur de prediction
Ensemble de Test
Ensemble dapprentissage Faible Complexit du modle Elev
23 / 28
Slection de modles
Problmatique
On cherche une fonction f qui minimise un risque empirique donn. On suppose que f appartient une classe de fonctions paramtres par . Comment choisir pour que f minimise le risque empirique et gnralise bien ? Exemple : On cherche un polynme de degr qui minimise 2 un risque Remp (f ) = N i =1 (yi f (xi )) . Objectifs :
1. proposer une mthode destimation dun modle an de choisir (approximativement) le meilleur modle appartenant lespace hypothses. 2. une fois le modle choisi, calculer son erreur de gnralisation.
24 / 28
Slection de modles
Cas idal
On est dans un cas o les donnes abondent. Dans ce cas, on spare les donnes en 3 ensembles : donnes dapprentissage, donnes de validation et donnes de test. Le premier sert construire un modle, le deuxime estimer lerreur de ce modle. Le troisime ne sert quune fois : estimer lerreur en gnralisation du modle nal.
Cas usuel :
On est pauvre en donnes. Utilisation de mthodes analytiques (AIC, BIC, etc ...) ou de rchantillonage pour remplacer ltape de validation.
Slection de modles : Validation Croise
Mthode destimation de lerreur en gnralisation dune fonction f par rchantillonage. Principe

1. Sparer les N donnes en K ensembles de part gales. 2. Pour chaque K , apprendre un modle en utilisant les K 1 autres ensemble de donnes et valuer le modle sur la K -ime partie. 3. Moyenner les K estimations de lerreur obtenues pour avoir lerreur de validation croise.
K=1 APP K=2 APP K=3 TEST K=4 APP K=5 APP
26 / 28
Slection de modles : Validation Croise (2)
Dtails : CV =
k
1 K
K k =1
1 Nk
Nk
L(yik , f k (xik ))
i =1
o f est le modle f appris sur lensemble des donnes sauf la k -ime partie. Proprits : Si K = N , CV est approximativement un estimateur sans biais de lerreur en gnralisation. Linconvnient est quil faut apprendre N 1 modles. typiquement, on choisit K = 5 ou K = 10 pour un bon compromis entre le biais et la variance de lestimateur.
27 / 28
Conclusions
Pour bien mener un projet de DM
Identier et noncer clairement les besoins. Crer ou obtenir des donnes reprsentatives du problme Identier le contexte de lapprentissage Analyser et rduire la dimension des donnes Choisir un algorithme et/ou un espace dhypothses. Choisir un modle en appliquant lalgorithme aux donnes prtraites. Valider les performances de la mthode.
28 / 28

Introd M Beamer

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introd M Beamer

Uploaded by

Copyright:

Available Formats

Introduction au Data-Mining

Gilles Gasso-Alain Rakotomamonjy

Gilles Gasso-Alain Rakotomamonjy

Data-Mining : Quest-ce donc ?

Gilles Gasso-Alain Rakotomamonjy

Data-Mining : Quest-ce donc ?

Une dnition suivant un critre gocentr :

Gilles Gasso-Alain Rakotomamonjy

Data-Mining : les raisons du dveloppement

Essor de la fouille de donnes

Gilles Gasso-Alain Rakotomamonjy

Gilles Gasso-Alain Rakotomamonjy

Exemples dapplications : E-commerce

Exemples dapplications : Analyse des risques

Exemples dapplications : Commerce

Gilles Gasso-Alain Rakotomamonjy

Mise en oeuvre dun projet dun projet de DM

Caractrisation des mthodes de Data-Mining

Gilles Gasso-Alain Rakotomamonjy

Caractrisation des mthodes de Data-Mining

Caractrisation des mthodes de Data-Mining

Caractrisation des mthodes de Data-Mining

Gilles Gasso-Alain Rakotomamonjy

Apprentissage supervis : les concepts

Apprentissage supervis : les concepts

Gilles Gasso-Alain Rakotomamonjy

Apprentissage supervis : les concepts

Exemples de fonction cot et de risque moyen associ.

(Y f (X ))2 E [(Y f (X ))2 ] = (y f (x ))2 p (x , y )dxdy

(moindres valeurs absolues) = |Y f (X )| = E [|Y f (X ))|] = |y f (x )|p (x , y )dxdy

Gilles Gasso-Alain Rakotomamonjy

Apprentissage supervis : les concepts

Support Vector Machine Regression 1

Les fonctions de cot typiques sont (y f (x ))2 et |y f (x )|

Gilles Gasso-Alain Rakotomamonjy

Apprentissage supervis : les concepts

La fonction de cot la plus usite est : (yf (x )) o est la fonction chelon.

Gilles Gasso-Alain Rakotomamonjy

Apprentissage supervis : les concepts

Ensemble dapprentissage Faible Complexit du modle Elev

Gilles Gasso-Alain Rakotomamonjy

Gilles Gasso-Alain Rakotomamonjy

Slection de modles : Validation Croise

Mthode destimation de lerreur en gnralisation dune fonction f par rchantillonage. Principe

Gilles Gasso-Alain Rakotomamonjy

Slection de modles : Validation Croise (2)

Gilles Gasso-Alain Rakotomamonjy

Gilles Gasso-Alain Rakotomamonjy

You might also like