Professional Documents
Culture Documents
1. Emergence du domaine
Workshops
Data Mining and Knowledge Discovery Journal (1997) Special Interest Group Knowledge Discovery in Databases (1999) de lAssociation for Computing Machinery (ACM)
2
Mtaphore
Par analogie la recherche des ppites d or dans un gisement, la fouille de donnes vise :
extraire des informations caches par analyse globale dcouvrir des modles (patterns) difficiles percevoir car:
le volume de donnes est trs grand le nombre de variables considrer est important ces patterns sont imprvisibles (mme titre d hypothse vrifier)
3
Dfinition
Data mining
ensemble de techniques d'exploration de donnes afin d'en tirer des connaissances (la signification profonde) sous forme de modles prsents l utilisateur averti pour examen Donnes entrept Data mining
Dcouverte de modles
Connaissances
Comprhension Prdiction
4
Dcouverte de modles
x1 Entres x2 x3
MODELE
c Confiance y Sortie
x1 1 2
x2 10 20
x3 100 200
y alpha beta
5
Dcouverte et Exploitation
Training Data Mining Model Data to Predict
Connaissances
Knowledge Discovery in Databases (KDD)
Processus complet dExtraction de Connaissance des Donnes (ECD) Comprend plusieurs phases dont le data mining analyses (distribution du trafic en fonction de l heure) scores (fidlit d un client), classes (mauvais payeurs) rgles (si facture > 10000 et mcontent > 0.5 alors dpart 70%)
7
Exemples
Le processus de KDD
Etapes du processus
1. Comprhension du domaine dapplication 2. Cration du fichier cible (target data set) 3. Traitement des donnes brutes (data cleaning and preprocessing) 4. Rduction des donnes (data reduction and projection) 5. Dfinition des tches de fouille de donnes 6. Choix des algorithmes appropris de fouille de donnes 7. Fouille de donnes (data mining) 8. Interprtation des formes extraites (mined patterns) 9. Validation des connaissances extraites (source : Fayyat et al., 1996, p. 1-34)
Mcanismes de base
Dduction : base des systmes experts
schma logique permettant de dduire un thorme partir d'axiomes le rsultat est sr, mais la mthode ncessite la connaissance de rgles mthode permettant de tirer des conclusions partir d'une srie de faits gnralisation un peu abusive indicateurs de confiance permettant la pondration
10
2. Domaines d'application
De plus en plus de domaines
explosion des donnes historises puissance des machines support nombreux datawarehouses OLAP limit ncessit de mieux comprendre rapports sophistiqus, prdictions aide efficace aux managers
11
Exemples
Targeted ads
What banner should I display to this visitor? What other products is this customer likely to buy? Is this insurance claim a fraud? Who are those customers likely to churn? Should I approve the loan to this customer?
13
Cross sells
Fraud detection
Churn analysis
Risk Management
Churn Analysis
Application de tlcom Bases de donnes des clients et des appels Fichiers des rclamations Qui sont les clients le plus susceptibles de partir ? Application de techniques de DM Fichiers de 1000 clients les plus risqus 600 ont quitts dans les 3 mois
14
Trading Advisor
Application boursire
Donnes de base
Analyse du risque Analyse technique du signal Conseils d'achat vente Mise disposition sur portail Web
15
3. Mthodologie -1
1. Identifier le problme
cerner les objectifs trouver les sources dfinir les cibles vrifier les besoins
prciser les sources collecter les donnes nettoyer les donnes transformer les donnes intgrer les donnes
16
Mthodologie - 2
3. Explorer des modles
choisir une technique chantillonner sur un groupe valider sur le reste (5% 1/3) calculer le d erreurs observer la ralit recommander des actions
5. Suivre le modle
4. Utiliser le modle
17
tirer un chantillon significatif pour extraire les modles devenir familier avec les donnes (patterns) ajouter des informations, coder, grouper des attributs construire des modles (statistiques, rseaux de neuronnes, arbres de dcisions, rgles associatives, ) comprendre, valider, expliquer, rpondre aux questions
18
Exploration = Explorer
Manipulation = Manipuler
Modelling = Modliser
Assessment = Valider
Validit du modle
19
Dfinition de Mesures
prcision
Rapport du nombre de documents pertinents trouvs au nombre total de documents slectionns. En anglais precision. Rapport du nombre de documents pertinents trouvs au nombre total de documents pertinents. En anglais recall. S l'ensemble des objets qu'un processus considre comme ayant une proprit recherche, V l'ensemble des objets qui possdent effectivement cette proprit, P et R respectivement la prcision et le rappel du systme :
rappel
Soient
P=|S R=|S
V|/|S| V|/|V|
20
Mesures
Prcision (Precision)
= NbTrouvsCorrects/(1+NbTotal)
Bruit (Noise)
= NbTrouvsIncorrects/(1+NbTotal) = 1- Prcision
Rappel (Recall)
= NbTrouvsCorrects/(1+NbValide)
F-mesure
= 2*(prcision*rappel)/(prcision+rappel)
21
Principales Techniques
Drives
des statistiques (e.g., rseaux baysiens) de l'analyse de donnes (e.g., analyse en composantes) de l'intelligence artificielle (e.g., arbres de dcision, rseaux de neurones) des bases de donnes (e.g., rgles associatives)
passage l'chelle et performance fonctionnement avec chantillon > qq milliers prsentation et validation des rsultats
22
4. Quelques produits
Intelligent Miner d'IBM
modlisation prdictive (stat.), groupage, segmentation, analyse d'associations, dtection de dviation, analyse de texte libre Statistiques, groupage, arbres de dcision, rseaux de neurones, associations, ... statistiques, classification, rseaux de neurones
SAS de SAS
SPSS de SPSS
23
SAS
24
INPUT
Choix des variables
25
SAMPLING
Choix du type d'chantillon
26
INSIGHT
Analyse des donnes en 4D
27
TRANSFORM
Transformation pour prparer
28
PARTITION
Cration de partition d'exploration parallle
29
REGRESSION
Slection de la mthode de rgression
30
DECISION TREE
Construction d'un arbre par G2
31
NEURONES
Spcification d'un rseau de neurones
32
ASSESSMENT
Validation des rsultats
33
Approches
De multiples approches:
34
Mthodes d'analyse
1 ... 1 . . Table = i able . . n J ... p
1 ... 1 . . Table = i . . n
...
p 1 . . Table = i . . n
1 ...
...
Points dans Rp
Points dans Rn
35
Familles de mthodes
Nuage de points
36
5. Mthodes statistiques
Quelques techniques de base A la limite du DM Calculs d'information sophistiqus
37
Fonctions Statistiques
Esprance
permet de calculer la moyenne pondre d'une colonne pi = 1/N par dfaut traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Permet d'liminer le facteur dimension
38
Variance
Diagrammes en btons
Catgorie d'employ
400
Comptage de frquence
300
COUNT
Frquence
200
100
Catgorie d'employ
39
Cadr
R s o sabl
otal
40
Corrlation
Covariance
La covariance peut tre vue comme le moment centr conjoint d'ordre 1 de deux v.a. Si les deux v.a. sont indpendantes, alors leur covariance est nulle (mais la rciproque n'est pas vraie en gnral). Elimine le facteur dimension mesure la qualit de la relation linaire entre deux variables alatoires
41
Coefficient de corrlation
Droite de rgression
$160,000
Rgression linaire
$120,000
Y=aX+b
120 70
# # ## # # # # # # # ## # # # ## # # # # # # # # # ## # # # ## ## # # # # # # # # # # # ### # ## # ## # # # ## # # # ## # # # # # # # ## # # # # # ## # ## # # # ## # # # # # ## # ## # ## # # # # ## # # ## # # #### # ## ### ### # ## # # # ## # ## # # # # ### # # # ## # # # ##### # # # # ######## # # # ## # ## ##### # #### # ## ## # #### # #### ### # ### # #### # # #### # ##### ### ### # ### ## ## ## # # ### ## # # ## # ## ## # # # # # #
Salaire actuel
$80,000
$40,000
$20,000
$40,000
$60,000
$80,000
Salaire d'embauche
42
Test du G2
Dtermine l'existence d'une dpendance entre deux variables
Compare la distribution des variables par rapport une courbe thorique supposant l'indpendance
43
De nombreuses fonctions
Test t sur moyenne ANOVA Analyses de variance sophistiques Corrlation partielle Rgresion logistique Sries chronologiques
44
Calculs en SQL
Introduction de fonctions d'agrgats
AVG = moyenne MAVG = moyenne mobile STDDEV = cart type VARIANCE = variance COVARIANCE = covariance SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB) FROM EMPLOYEE WHERE GRADE = "ingnieur" GROUP BY SEXE
45
Exemple
Statistiques: Conclusion
Calculs statistiques sur variables
Mono ou bi-varies Rsum des donnes Observation de dpendances Peu de modles prdictifs ... Extensions cube et rollup Extensions avec fonctions d'agrgats
46
6. Conclusion
Le data mining vise dcouvrir des modles partir de grandes bases de faits connus (datawarehouse) Le processus de construction de modles est complexe
Questions ?
prparer les donnes modliser 1/3 de la base valider sur 2/3 exprimenter plusieurs modles
47
DM, Stat., IA
DM
R ech erch e d e rg les d e classem en t R g ressio n C lassificatio n au to m atiq u e D escrip tio n sy n th tiq u e R ech erch e d e d p en d an ces D tectio n d e d v iatio n s
S ta t.
T ab leau in d iv id u -v ariab le C alcu ls n u m riq u es M th o d es d e d iscrim in atio n R seau x d e n eu ro n n es S eg m en tatio n M th o d es d e rg ressio n R seau x d e n eu ro n n es C lassif au to m atiq u e h irarch iq u e P artitio n n em en t R seau x d e n eu ro n n es S tat. lm en taire (h isto g ram m e, m o y , cart-ty p e) O u tils d 'in terp rt d e classes M th o d es facto rielles (A C P ) C o rrlatio n s A n aly se facto rielles d es co rr. (A F C ) R sea u x b ay sien s T est stat su r les carts
IA
F o rm alism e d e la lo g iq u e In d u ctio n /d d u ctio n A p p ren tissag e su p erv is/ex . -G n r d e rg les -C o n str d 'arb re d e d cisio n -R aiso n n em en t b ase d e cas
_
A p p ren tissag e n o n su p erv is -C lassif co n cep tu elle A p p ren tissag e n o n su p erv is -G n ralisatio n A p p ren tissag e n o n su p erv is -G n ralisatio n -R ech erch e d 'asso ciatio n s
_
48