Professional Documents
Culture Documents
1. Introduction
lextraction dinformations originales, auparavant inconnues, potentiellement utiles partir de donnes (Frawley et Piateski-Shapiro) la dcouverte de nouvelles corrlations, tendances et modles par le tamisage dun large volume de donnes (John Page)
On parle galement de KDD (Knowledge Discovery in Databases, d extraction de connaissances partir de donnes).
N.PRAT - ESSEC 2
1. Introduction
Intensification de la concurrence, attention toujours plus grande au client. Lien avec les systmes dinformation dcisionnels. La technologie actuelle permet de stocker et traiter de gros volumes dinformations. Les techniques et algorithmes sont, pour la plupart, connus depuis longtemps.
N.PRAT - ESSEC 3
1. Introduction
Le data mining utilise de techniques de statistiques et d intelligence artificielle (apprentissage automatique). Lapprentissage automatique (machine learning) est ltude de mthodes de calcul visant amliorer les performances en automatisant lacquisition de connaissances par lexprience (Langley). Le processus dapprentissage consiste transformer en connaissances des donnes fournies en entre, au moyen de mcanismes dinfrence.
N.PRAT - ESSEC 4
1. Introduction
3 mcanismes dinfrence:
La dduction, partir de donnes gnrales, produit des donnes spcifiques. Linduction produit des donnes gnrales partir de donnes spcifiques (gnralisation ou abstraction). Lanalogie produit des donnes de mme nature que les donnes en entre (gnrales ou spcifiques).
1. Introduction
Data warehouse = une condition souhaitable mais pas un prrequis indispensable pour le data mining.
Donnes lmentaires Data Mining Prdiction Requte Reporting
Pass
Futur
EIS
Olap Donnes agrges Positionnement du data mining par rapport aux autres outils de business intelligence
N.PRAT - ESSEC 6
2. Domaines dapplication
Domaines dapplication
Le data mining a vocation sappliquer partout o il existe de nombreuses donnes. Nombreuses applications en gestion, en particulier commercial et marketing. Essor du web mining: application du data mining aux donnes collectes lors des transactions sur le Web.
N.PRAT - ESSEC
2. Domaines dapplication
Banque:
recherche des formes dutilisation de cartes caractristiques dune fraude prvision des dparts de clients
Assurance:
analyse des sinistres prvision dappels sur les plate-formes dassurance directe.
N.PRAT - ESSEC 8
3. Processus
Processus interactif, itratif et non trivial . Cycle du data mining compos des phases de:
slection des donnes pr-traitements transformations data mining proprement dit interprtation, visualisation et valuation de la connaissance extraite.
N.PRAT - ESSEC
4. Techniques
Distinction entre Donnes stockes les techniques qui travaillent sur des donnes stockes (modle Data Mining construit a priori), et celles qui analysent les donnes pour construire un modle. Donnes analyses
Modle dquations
Techniques de rgression Rgles Analyses logique
Arbres de dcision
Analyses factorielles Analyses de typologie
10
Techniques de projection
N.PRAT - ESSEC
4. Techniques
Knowbot (condens de Knowledge et Robot): agent intelligent. Raisonnement base de cas: Consiste rsoudre un nouveau problme en rutilisant un problme similaire dj connu. Rseau de neurones: Processus opaque qui permet, partir de variables en entre, de dcouvrir la valeur dune ou plusieurs autres variables. Un rseau de neurones est capable de mettre profit son exprience pour ajuster le modle trouv en fonction, par exemple, de larrive de nouveaux lments.
N.PRAT - ESSEC 11
4. Techniques
Rgression: consiste expliquer les variations dune variable dpendante par des variables indpendantes. Arbre de dcision: Technique permettant de diviser des donnes en groupes bass sur les valeurs des variables. Plus une variable est discriminante (significative), plus elle est proche de la racine. Analyse factorielle: technique statistique qui combine des attributs en facteurs en fonction dindice dassociation (Chi 2 ou corrlation).
12
N.PRAT - ESSEC
4. Techniques
Comptences
Gnralises
Prdiction
Arbres de dcision
Faible
Faible
leve
13
4. Techniques
Arbres de dcision
But: dterminer la valeur dune variable explique (ou dpendante) partir de la valeur de variables explicatives (variables indpendantes). A chaque niveau, la discrimination seffectue sur les valeurs dune variable indpendante. Plus une variable est discriminante, plus elle est place haut dans larbre de dcision.
N.PRAT - ESSEC
14
4. Techniques
Individus = des entreprises prospectes Variables explicatives : V1 V4 Variables explique : V5 Arbre de dcision :
Rponses
Questions E1 Oui Oui Oui Non Oui E2 Oui Non Non Oui Oui E3 Non Non Oui Oui Oui E4 Oui Non Non Non Non E5 Non Non Oui Non Non E6 Non Non Oui Non Non
V1 V2 V3 V4
V5
Entreprise
A eu un stagiaire = oui Verse la taxe = non A eu un stagiaire = non
Rendez-vous accept = non 15 Rendez-vous accept = oui
4. Techniques
N.PRAT - ESSEC
16
5. Outils
Angoss Software KnowledgeStudio & Mining Manager Computer Associates Cleverpath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining Quadstone System SAS Enterprise Miner SPSS Clementine.
N.PRAT - ESSEC
17
5. Outils
N.PRAT - ESSEC
18
Arbres de dcision:
Ouverture/import du fichier de donnes Traitement des attributs (suppression, discrtisation) Visualisation des statistiques et histogrammes Gnration de larbre de dcision (test des diffrentes options) Visualisation/interprtation de larbre de dcision Utilisation pour la simulation.