You are on page 1of 51

Systmes dinformation dcisionnels

Extraction de connaissances
Business Intelligence

Ce cours est consacr aux :


Techniques de data warehouse, et de data mining,
Mise en uvre dans les systmes dcisionnels.

Ce cours sera rparti en trois chapitres:


Chapitre 1
Systmes dinformation dcisionnels
Une srie TD
Un TP (devoir)

Chapitre 2
Conception de bases de donnes dcisionnelles : Data warehouse
Une srie TD
Un TP (devoir)

Chapitre 3
Fouille de donnes : techniques de data mining
Une srie TD
Un TP (devoir)

Etude de cas
Socit : Orion Star

Fouille de donnes : Techniques de


Data Dining

Introduction
Data Mining
Techniques dextraction
Rgles dassociation
Arbre de dcision
Rseau de neurones
Conclusion

Le Data Mining est un nouveau champ situ au


croisement de la statistique et des technologies
de linformation (bases de donnes, intelligence
artificielle, apprentissage etc.) dont le but est de
dcouvrir des structures dans de vastes
ensembles de donnes.
ECD (Extraction de Connaissances partir de
Donnes/Knowledge extraction) : ensemble du
processus de dcouvertes et dinterprtation de
rgularits dans des donnes.
Autres appellations :
Knowledge Discovery in Databases (KDD)
Data/pattern analysis
6

Ncessit conomique pour la prise de


dcision:
E-commerce
Gestion de la concurrence
Fidlisation de la clientle, marketing cibl.

Disponibilit croissante de quantit norme


de donnes :
La technologie est disponible :
pour aider collecter les donnes.
pour aider stocker : base de donnes, data
warehouses.

U.M.Fayyad: Data Mining is the nontrivial process of


identifying valid, novel, potentially useful, and ultimately
understandable patterns in data
D.J.Hand:I shall define Data Mining as the discovery of
interesting, unexpected, or valuable structures in large
data sets
Extraction dinformations originales (non triviales)
implicites, inconnues auparavant et potentiellement utiles
partir de grandes bases de donnes (big data) :

Non triviale : sinon la connaissance nest pas utile


Implicite : la connaissance cache est difficile observer
Inconnue jusqualors : vident !
Potentiellement utile : utilisable, comprhensible

Recherches en Intelligence artificielle, apprentissage,


extraction de connaissances;
Lvolution des SGBD vers linformatique
dcisionnelle avec les entrepts de donnes (Data
Warehouse);
La constitution de giga bases de donnes :
transactions de cartes de crdit, appels
tlphoniques, factures de supermarchs: terabytes;
Dveloppement de la Gestion de la Relation Client
(CRM) :
Marketing client au lieu de marketing produit;
Attrition, satisfaction, etc.

10

Le Data Mining cherche des structures de


deux types:
Identification de patterns,
Construction de modles,

11

Patterns : une structure caractristique


possde par un petit nombre
dobservations: niche de clients forte
valeur, ou au contraire des clients haut
risque.
Outils: classification, visualisation par
rduction de dimension (ACP, AFC etc.),
rgles dassociation,

12

Modles : Un modle est un rsum global


des relations entre variables, permettant de
comprendre des phnomnes, et dmettre
des prvisions. Construire des modles a
toujours t une activit des statisticiens.
Outils : la dcouverte de modles se fait
laide dun processus de recherche
algorithmique dexploration de modles:
rseaux de neurones, arbres de dcision,
rgression logistique, rseaux bayesiens.

13

14

Diffrentes approches :
Estimation : crer un modle qui dcrit au mieux une
variable de prvision lie des donnes relles
Classification : crer une fonction qui classifie une
lmentaire parmi plusieurs classes prdfinies
existantes,
Regroupement (clustering) : rechercher identifier un
ensemble fini de catgories ou groupes en vue de
dcrire les donnes,
Modlisation des dpendances : trouver un modle qui
dcrit des dpendances significatives entre les variables
Autre distinction: prdictif (supervis) ou
exploratoire(non supervis)

15

Le Data Mining est une tape dans le processus


dextraction des connaissances, qui consiste
appliquer des algorithmes danalyse des
donnes:
1. Poser le problme
2. Recherche des donnes
3. Nettoyage des donnes
4. Codage des donnes, actions sur les variables
5. Recherche dun modle, de connaissances,
6. Validation et interprtation du rsultat, avec
retour possible sur les tapes prcdentes
7. Intgration des connaissances apprises

16

17

18

Une mthode non supervise:


Rgles dassociation

Une mthodes supervises


Arbres de dcision

19

20

Dcouverte dassociations et de corrlations


entre les variables des observations. Exemple:
les articles achets par les clients en
analysant le panier de la mnagre:
les clients achtent souvent en mme temps des
packs de bire et des couches.
Y-a-t-il des liens de causalit entre lachat dun
produit P et dun autre produit P ?

21

Intrt pour suggrer

Disposition des produits dans le magasin


Quels produits mettre en promotion,
gestion de stock,

Approche applicable dans dautres domaines

Cartes de crdit,
e-commerce,
Services des compagnies de tlcommunication
Services bancaires
Traitements mdicaux,

22

Format de reprsentation de rgle


d'association : A B o AB=

23

SUPPORT : Un indicateur de fiabilit de la


rgle.
CONFIANCE : Un indicateur de prcision
de la rgle.

24

25

26

27

Recherche des rgles pour les Itemsets de card = 2

28

Recherche des rgles pour les itemsets de card = 3 et plus

29

Slection des "meilleures" rgles.


Pour faire valider les rgles par un expert du
terrain, il faut slectionner les "meilleures" rgles
On peut les classer par ordre dcroissant de leur
intrt statistique.
Il existe plusieurs indices pour valuer la pertinence
des rgles
Un des plus connus et utiliss : le LIFT (Brin et al.,
1997)

30

31

32

Arbre = Reprsentation graphique dune


procdure de classification.

33

Arbre de dcision : Classer les objets en


sous-classes par divisions hirarchiques
Peut tre vu comme une prsentation
hirarchique dune table relationnelle ...
Il sagit de slectionner parmi les variables
explicatives celle qui est la plus lie la
variable expliquer.
Objectif : Rsolution des problmes de
discrimination et de rgression en divisant
successivement lchantillon en sous-groupes.

34

35

36

37

Choix de la variable de segmentation


On choisit la variable X telle quelle est la plus lie
(corrle) avec Y (matrice de corrlation)
Fonction de Gini et Gain (entropie)
Heuristique
on utilise le tableau de contingence (croisement
de Y avec X) pour quantifier cette liaison
nik l'effectif conjoint de ci et dk : c'est le nombre
d'individus pour lesquels x prend la valeur ci et y la
valeur dk,

38

Traitement des variables continues


Comment est ralis le choix du point de coupure
(ex: d o vient la valeur 48.5 de dcoupage de l
ge dans l arbre exemple)

Point de coupure : borne de discrtisation


il doit toujours tre situ entre deux points
conscutifs sur l axe de la variable quantitative
il permet de dfinir un tableau de contingence

39

Lide est surtout de contrler la profondeur de


larbre !
Quand dcider quun sommet devient une feuille?
Homognit des groupes : critre de prcision
(confiance)
Puret dun sommet
Seuil de spcialisation (ex. si une classe est reprsente
98% -> stop)

Effectif des groupes : critre de support


Taille minimale pour segmenter (ex. en dessous de 10 obs,
on ne segmente plus)
Effectif dadmissibilit (ex. si un des sommets produit couvre
moins de 2 obs. -> refus)

40

Lintrt des arbres binaires est de pouvoir


regrouper les modalits qui ne se distinguent
pas vis vis la variable prdire;
En prsence dun prdicateur qualitatif, on
pourrait utiliser des arbres non binaires en
dcoupant en m sous ensembles: cette ide
nest en gnral pas bonne car elle conduit
des subdivisions avec trop peu
dobservations et souvent non pertinentes.

41

42

43

44

45

46

47

48

une rgle est gnre pour chaque chemin de


larbre (de la racine une feuille)
Les paires attribut-valeur dun chemin
forment une conjonction
Le nud terminal reprsente la classe prdite
Les rgles sont gnralement plus faciles
comprendre que les arbres

49

50

51

You might also like