You are on page 1of 46

Le Data Mining: Méthodologie

Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement

1
1. Emergence du domaine

 Workshops
 1991, 1993, 1994
 International Conf. on KDD and DM
 1995, 1996, 1997, 1998, 1999
 Data Mining and Knowledge Discovery Journal
(1997)
 Special Interest Group Knowledge Discovery in
Databases (1999) de l’Association for Computing
Machinery (ACM)
2
Métaphore

 Par analogie à la recherche des pépites d ’or


dans un gisement, la fouille de données vise :
 à extraire des informations cachées par analyse
globale
 à découvrir des modèles (“patterns”) difficiles à
percevoir car:
 le volume de données est très grand
 le nombre de variables à considérer est important

 ces “patterns” sont imprévisibles (même à titre


d ’hypothèse à vérifier)
3
Définition

 Data mining
 ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen

Données Data
entrepôt mining Connaissances
Découverte de Compréhension
modèles Prédiction
4
Découverte de modèles

x1 c Confiance
Entrées x2
x3 y
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
5
Découverte et Exploitation
Training Data Data to Predict
Mining Model

DM DM
Engine Engine

Mining Model Mining Model Predicted Data

6
Connaissances

 Knowledge Discovery in Databases (KDD)


 Processus complet d’Extraction de Connaissance des
Données (ECD)
 Comprend plusieurs phases dont le data mining
 Exemples
 analyses (distribution du trafic en fonction de l ’heure)
 scores (fidélité d ’un client), classes (mauvais payeurs)
 règles (si facture > 10000 et mécontent > 0.5 alors
départ à 70%)

7
Le processus de KDD

8
Etapes du processus

 1. Compréhension du domaine d’application


 2. Création du fichier cible (target data set)
 3. Traitement des données brutes (data cleaning and preprocessing)
 4. Réduction des données (data reduction and projection)
 5. Définition des tâches de fouille de données
 6. Choix des algorithmes appropriés de fouille de données
 7. Fouille de données (data mining)
 8. Interprétation des formes extraites (mined patterns)
 9. Validation des connaissances extraites
 (source : Fayyat et al., 1996, p. 1-34)

9
Mécanismes de base

 Déduction : base des systèmes experts


 schéma logique permettant de déduire un théorème à
partir d'axiomes
 le résultat est sûr, mais la méthode nécessite la
connaissance de règles
 Induction : base du data mining
 méthode permettant de tirer des conclusions à partir
d'une série de faits
 généralisation un peu abusive
 indicateurs de confiance permettant la pondération

10
2. Domaines d'application

 De plus en plus de domaines


 explosion des données historisées
 puissance des machines support
 nombreux datawarehouses
 OLAP limité
 nécessité de mieux comprendre
 rapports sophistiqués, prédictions
 aide efficace aux managers
11
Quelques domaines réputés

 Analyse de risque (Assurance)


 Marketing
 Grande distribution
 Médecine, Pharmacie
 Analyse financière
 Gestion de stocks
 Maintenance
 Contrôle de qualité
12
Exemples

 Targeted ads
 “What banner should I display to this visitor?”
 Cross sells
 “What other products is this customer likely to buy?
 Fraud detection
 “Is this insurance claim a fraud?”
 Churn analysis
 “Who are those customers likely to churn?”
 Risk Management
 “Should I approve the loan to this customer?”
13
Churn Analysis

 Application de télécom
 Bases de données des clients et des appels
 Fichiers des réclamations
 Qui sont les clients le plus susceptibles de
partir ?
 Application de techniques de DM
 Fichiers de 1000 clients les plus risqués
 600 ont quittés dans les 3 mois
14
Trading Advisor

 Application boursière
 conseil en achat / vente d'actions
 Données de base
 historique des cours
 portefeuille client
 Analyse du risque
 Analyse technique du signal
 Conseils d'achat – vente
 Mise à disposition sur portail Web
15
3. Méthodologie -1

 1. Identifier le  2. Préparer les données


problème  préciser les sources
 cerner les objectifs  collecter les données
 trouver les sources  nettoyer les données
 définir les cibles  transformer les données
 vérifier les besoins  intégrer les données

16
Méthodologie - 2

 3. Explorer des modèles  5. Suivre le modèle


 choisir une technique  bâtir des estimateurs
 échantillonner sur un groupe  corriger et affiner le
 valider sur le reste (5% à
1/3) modèle
 calculer le % d ’erreurs
 4. Utiliser le modèle
 observer la réalité
 recommander des actions

17
Explorer des modèles :
SEMMA
 Sampling = Échantillonner
 tirer un échantillon significatif pour extraire les modèles
 Exploration = Explorer
 devenir familier avec les données (patterns)
 Manipulation = Manipuler
 ajouter des informations, coder, grouper des attributs
 Modelling = Modéliser
 construire des modèles (statistiques, réseaux de neuronnes, arbres
de décisions, règles associatives, …)
 Assessment = Valider
 comprendre, valider, expliquer, répondre aux questions

18
Validation d’un modèle

 Matrice de confusion
 comparaison des cas observés par rapport aux prédictions
 exemple : prédiction de factures impayées
Prédit Observé
Payé Retardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
 Validité du modèle
 nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
19
Principales Techniques

 Dérivées
 des statistiques (e.g., réseaux bayésiens)
 de l'analyse de données (e.g., analyse en composantes)
 de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
 des bases de données (e.g., règles associatives)
 Appliquées aux grandes bases de données
 Difficultés :
 passage à l'échelle et performance
 fonctionnement avec échantillon > qq milliers
 présentation et validation des résultats 20
4. Quelques produits

 Intelligent Miner d'IBM  Oracle 10g ODM


 modélisation prédictive
(stat.), groupage,
segmentation, analyse
d'associations, détection de  SQL Server DM
déviation, analyse de texte
libre
 SAS de SAS  DB2 V8
 Statistiques, groupage,
arbres de décision, réseaux
de neurones, associations, ...
 SPSS de SPSS
 statistiques, classification,
réseaux de neurones
21
SAS

22
INPUT

 Choix des variables

23
SAMPLING

 Choix du type d'échantillon

24
INSIGHT

 Analyse des données en 4D

25
TRANSFORM

 Transformation pour préparer

26
PARTITION

 Création de partition d'exploration parallèle

27
REGRESSION

 Sélection de la méthode de régression

28
DECISION TREE

 Construction d'un arbre par χ2

29
NEURONES

 Spécification d'un réseau de neurones

30
ASSESSMENT

 Validation des résultats

31
Approches

 De multiples approches:
 Statistiques
 Classification
 Clustering
 Règles associatives
 …

32
Méthodes d'analyse
1 ... J ... p
1
.
.
Table
Table = i
.
.
n

1 ... J ... p 1 ... J ... p


1 1
. .
. .
Table = i Table = i
. .
. .
n n

Points dans Rp Points dans Rn


33
Familles de méthodes

Nuage de points

Visualisation dans Regroupement


Le meilleur espace réduit dans tout l'espace

METHODES STATISTIQUES METHODES DE CLASSIFICATION,


ET FACTORIELLES SUPERVISEE OU NON …
34
5. Méthodes statistiques

 Quelques techniques de base

 A la limite du DM

 Calculs d'information sophistiqués

35
Fonctions Statistiques

 Espérance
 permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
 Variance
 traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
 Variable centrée réduite
 Permet d'éliminer le facteur dimension
36
Diagrammes en bâtons
Catégorie d'employé
400

 Comptage de fréquence 300

 COUNT 200

 Extension aux calculs

Fréquence
100

d'agrégats 0
Secrétariat Cadre Responsable

Catégorie d'employé
 AVG, MIN, MAX, …
 Possibilité d'étendre au
100

3D 80
60
North
East
West
40
West North
 Apporte une vision 20
0
1st 2nd 3rd 4th
East

synthétique Qtr Qtr Qtr Qtr

37
Tableaux croisés
(Vision 2D du Datacube)
Table au croisé Caté gorie d'e mployé * Se xe de l'e mployé * Classe minoritaire ?

Classe minoritaire ?: Non


Effectif Effectif théorique
Catégorie Secrétariat Sexe de l'employé Masculin 110 144,7
d'employé Féminin 166 131,3
Total 276 276,0
Cadre Sexe de l'employé Masculin 14 7,3
Féminin 0 6,7
Total 14 14,0
Responsable Sexe de l'employé Masculin 70 41,9
Féminin 10 38,1
Total 80 80,0
Total Sexe de l'employé Masculin 194 194,0
Féminin 176 176,0
Total 370 370,0

Effectif théorique = calculé par une loi de distribution


(uniforme)
38
Corrélation

 Covariance
 La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
 Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
 Coefficient de corrélation
 Elimine le facteur dimension
 mesure la qualité de la relation linéaire entre deux
variables aléatoires

39
Droite de régression

$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
Régression linéaire
R-Deux = 0,77
199

$120,000
Y=aX+b
120

70
Salaire actuel

 


 

 
 
$80,000 
   
 
   
  
    
    
     

   
    
   

   
  

  
$40,000  


 




 



  
 
 





 
 













  









 
 




















 






















$20,000 $40,000 $60,000 $80,000

Salaire d'embauche

40
Test du χ2

 Détermine l'existence d'une dépendance entre


deux variables
 Exemple : salaire d'embauche, niveau d'étude
 Compare la distribution des variables par
rapport à une courbe théorique supposant
l'indépendance

41
De nombreuses fonctions

 Test t sur moyenne


 ANOVA
 Analyses de variance sophistiquées
 Corrélation partielle
 Régresion logistique
 Séries chronologiques
 Lissage exponentiel, Moyenne mobile, …
 Comparaison
…
42
Calculs en SQL

 Introduction de fonctions d'agrégats


 AVG = moyenne
 MAVG = moyenne mobile
 STDDEV = écart type
 VARIANCE = variance
 COVARIANCE = covariance
 …
 Exemple
 SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
 FROM EMPLOYEE
 WHERE GRADE = "ingénieur"
 GROUP BY SEXE
43
Statistiques: Conclusion

 Calculs statistiques sur variables


 Mono ou bi-variées
 Résumé des données
 Observation de dépendances
 Peu de modèles prédictifs ...
 La plupart sont faisables avec SQL OLAP
 Extensions cube et rollup
 Extensions avec fonctions d'agrégats
44
6. Conclusion

 Le data mining vise à  Questions ?


découvrir des modèles à
partir de grandes bases de
 Quoi de nouveau par
faits connus rapport à l'IA et aux
(datawarehouse) statistiques ?
 Le processus de
construction de modèles
est complexe
 préparer les données
 modéliser 1/3 de la base
 valider sur 2/3
 expérimenter plusieurs
modèles
45
DM, Stat., IA
DM Stat. IA
Tableau individu -variable Formalisme de la logique
Calculs numériques Induction/déduction
Recherche de règles Méthodes de discrimination Apprentissage supervisé/ex.
de classement Réseaux de neuronnes -Génèr° de règles
Segmentation -Constr° d'arbre de décision
-Raisonnement à base de cas
Régression Méthodes de régression
Réseaux de neuronnes _
Classification Classif° automatique hiérarchique Apprentissage non supervisé
automatique Partitionnement -Classif° conceptuelle
Réseaux de neuronnes
Description Stat. Élémentaire (histogramme, Apprentissage non supervisé
synthétique moy, écart-type) -Généralisation
Outils d'interprét° de classes
Méthodes factorielles (ACP)
Recherche de Corrélations Apprentissage non supervisé
dépendances Analyse factorielles des corr. -Généralisation
(AFC) -Recherche d'associations
Réseaux bayésiens
Détection de Test stat sur les écarts
déviations
_
46