Chap 1

Chapitre 1 : Data Mining : Concepts et Techniques
Introduction
Depuis quelques années un volume croissant de données est généré de toute part par des
organismes médicaux, industriels, commerciaux, etc... Cet écoulement continu et croissant
d’informations peut maintenant être stocké et préparé à l’étude grâce aux nouvelles
techniques tel que d’Entrepôt de Données (Data Wharehouse) mais vu que aujourd'hui toutes
les entreprises collectent et stockent de grandes quantités de données. Ces mégabases de
données, qui ne cessent d'augmenter jour après jour, sont peu exploitées par technique Data
Wharehouse, alors qu'elles cachent de connaissances décisives face au marché et à la
concurrence. Pour combler ce besoin, une nouvelle industrie est naître : le Data Mining (qu'on
appellerait en français la fouille de données).
Si on analyse évolution des Bases de Données on constate que le besoin crée l’invention
1960’s: Collecte des données, création des BD’s, IMS et le modèle réseau
1970’s: Modèle et SGBD’s relationnels, SQL, transactions, OLTP
1980’s: Modèles de données et SGBD'S avancés (relationnel étendu, OO, déductifs, etc.) et
SGBD'S dédiés (spatial, génomique, etc.)
1990’s - 2000’s: Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB, etc
1. Définitions
La fouille de données (data mining) dans sa conception actuelle, à la fois comme champ
scienti que et industriel, est apparue au début des années 90. On peut estimer une fouille de
données comme une nécessité imposée par le besoin des entreprises de valoriser les données
qu’elles accumulent dans leurs bases. En e et, le développement des capacités de
transmission et de stockage ont conduit les services concernés à accumuler de plus en plus de
données. Plusieurs définitions à été proposées :
Def1 : Extraction d’informations (non triviales, implicites, préalablement inconnues et

potentiellement utiles) à partir de grandes bases de données.
Def2 : Transformer des données en connaissance.
Def3 : Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de
données valides, nouveaux, utiles et compréhensibles.
Itératif: nécessite plusieurs passes

Interactif: l’utilisateur est dans la boucle du processus
Valides: valables dans le futur
Nouveaux: non prévisibles
Utiles: permettent à l’utilisateur de prendre des décisions
Betouati .F Page
Compréhensibles: présentation simple
Il existe d’autres appellations pour FDD tel que :
ECD (Extraction de Connaissances à partir de Données)

KDD (Knowledge Discovery from Databases)
Analyse de données/patterns, business intelligence, fouille de données, etc.
Types de données : on peut appliquer FDD sur des :
BD’s relationnelles (une base de données brute collectée du système d’information)
Data warehouses qui contient des données déjà préparées pour l’extraction
BD’s transactionnelles (achat, vente, banque…)
Les données peuvent être stockées dans des entrepôts, dans des bases de données
distribuées ou sur Internet : web mining. La fouille de donnée ne se limite pas au
traitement des données structurées sous forme de tables numériques ; elle o re des
moyens pour aborder les corpus en langage naturel (text mining domaine de recherche
d’information), les images (image mining), le son (sound mining) ou la vidéo et dans
ce cas, on parle alors plus généralement de "multimedia mining".
2. Data Mining: Confluence de plusieurs Disciplines
Le data mining s'est développée à partir de la contribution de plusieurs disciplines, y compris la

statistique, les bases de données, l'intelligence artificielle, et autres
3. Les tâches de DataMining
Beaucoup de problèmes intellectuels, économiques ou même commerciaux peuvent être

exprimés en termes des tâches suivantes :
L’association :
La recherche de règles d'association est la tâche la plus intéressante du data mining. C’est
également celle qui est la plus répandue dans le monde des affaires, notamment en marketing
Betouati .F Page
pour l'analyse du panier de consommation. La recherche de règles d’association cherche à
découvrir les règles de quantification ou de relation entre deux ou plusieurs attributs. Les
règles d'association sont de la forme «Si antécédent, puis conséquente », avec une mesure
confiance associée à la règle. La recherche de règles d’associations dans une grande base de
données permet de découvrir des règles cachées utiles pour la prise de décision.
Exemple de règle célèbre : lorsqu’un homme achète des couches pour bébés, il achète de lait
dans 65% des cas. Il serait alors intéressant pour le gestionnaire d’adapter ses promotions à
ces nouvelles règles.
La description :
Parfois, les chercheurs et les analystes essaient simplement de trouver des façons de décrire
des tendances cachées dans les données. Les descriptions des modèles et des tendances
servent à expliquer ou vérifier un fait. Par exemple : « ceux qui ont le plus de diplômes sont
les plus susceptibles d’avoir un poste à responsabilité. ».
L’estimation :
L'estimation est similaire à la classification, sauf que la variable cible est numérique plutôt
que catégorique. Les modèles sont construits en utilisant des données, qui fournissent la
valeur de la variable cible, ainsi que les « prédicteurs ». Par exemple : « l'estimation de la
pression artérielle d'un patient d'hôpital, basée sur son âge, son sexe, son indice de masse
corporelle, et le taux de sodium. La relation entre la pression artérielle et le prédicateur
variable de l'ensemble de formation nous donnerait un modèle d'estimation. Nous pouvons
alors appliquer ce modèle à de nouveaux cas.
La prédiction:
La prédiction est semblable à la classification et l'estimation, sauf que pour la prévision, les
résultats se situent dans l'avenir. Exemples de tâches de prévision appliquée au marketing : «
Prédire le prix d'un stock de trois mois dans le futur »
La classification :
Supposons qu'un décideur veuille classer ses employés par tranches de revenu, ou n'importe
quelle autre caractéristique associée à cette personne, comme l'âge, le sexe et la profession.
Cette tâche est une tâche de classification.
Le clustering :
Le Clustering désigne le regroupement des données, des observations ou des cas dans des
classes d’objets similaires. Un cluster maximise la similarité des objets de du même cluster et
minimise la similarité des objets de cluster différents. En effet, il n'y a pas de variable cible
pour le clustering. La tâche de clustering ne cherche pas à classer, estimer, ou prédire la
valeur d'une variable cible. Mais plutôt à segmenter l'ensemble des données en sous-groupes
relativement homogènes à l’aide de mesures de distances.
Plusieurs techniques peuvent être inscrites dans le contexte du Data Mining, on en cite :
L’extraction des règles d’association (chapitre 3).

Le raisonnement basé sur la mémoire.
La détection automatique des clusters (chapitre 4).
L’analyse de liens.
Betouati .F Page
Les arbres de décision (chapitre4).
Les réseaux de neurones.
Les algorithmes génétiques
4. Type d’apprentissage
Dans FDD on trouve deux types d’apprentissage
Apprentissage supervisé: c’est le processus dans lequel l’apprenant reçoit des exemples
d’apprentissage comprenant à la fois des données d’entrées et de sorties (classification,
prédiction)
Apprentissage non supervisé: c’est le processus dans lequel l’apprenant reçoit des exemples
d’apprentissage ne comprenant que des données entrées des données (association, clustering)
Suivant le type d’apprentissage on aura 2 types de modèle
Modèles prédictifs: Utilisent les données avec des résultats connus pour développer des
modèles permettant de prédire les valeurs d’autres données ex Classification, prédiction
Modèles descriptifs: Proposent des descriptions des données pour aider à la prise de décision
ex association, segmentation.
5. Domaine d’application de FDD
Gestion et analyse des marchés: organisation des rayonnages dans les supermarchés en
regroupant les produits qui sont généralement achetés ensemble (pour que les clients
n’oublient pas bêtement ’acheter un produit parce qu’il est situé à l’autre bout du magasin).
Par exemple, on extraira une règle du genre : "les clients qui achètent le produit X en fin de
semaine, pendant l’été, achètent généralement le produit Y «panier de la ménagère»
Médecine et pharmacie : Diagnostic, découvrir d’après les symptômes du patient sa maladie.

Choix du médicament le plus approprié pour guérir une maladie donné donc construire un
support pour la recherche
La génétique humaine : Il permet de répondre à l'objectif important de comprendre la relation de

correspondance en entre l’ADN et les maladies
Il vise à savoir comment les changements dans la séquence d'ADN d'un individu affectent les risques
de développer des maladies courantes telles que le cancer.
Analyse de données financières
Prédire l’évolution des actions financières par exemple l’organisme de crédit décide d’accorder ou
non un crédit en fonction du profil du demandeur de crédit, de sa demande, et des expériences passées
de prêts ; Etablir des profils de clients
Détection de fraudes
Dans assurances médicales, services de cartes de crédit, télécommunications, etc.
Betouati .F Page
Exemple : Vous êtes à l’étranger et quelqu’un a volé votre carte de crédit ou votre mobile …
compagnies bancaires utiliser les données historiques pour construire un modèle de

comportement frauduleux et utiliser le data mining pour identifier des instances
similaires.
Comme data mining utilisé dans assurances auto détecte les personnes qui collectionnent les accidents
et les remboursements
Blanchiment d’argent : Détecter les transactions suspectes
Web
Réorganiser du site WEB pour faciliter la navigation les logs des accés Web sont
analysés pour découvrir les préférences des utilisateurs
Commerce électronique
6. Data Mining: Un processus dans l’ECD ou KDD (KDD : Knowledge Discovery in

Databases)
L’ECB est un processus semi-automatique exploratoire et itératif, constitué de la succession

de plusieurs étapes :
Évaluation
Exploration
Transformation
Connaissances
Préparation
Patrons
Données
Sélection Données
transformées
traitées
Données
cibles
Données
Fig. 1 Etapes du processus ECB
Comprendre le domaine d’application (sélection)
1ère Phase : Identification des objectifs
Pour pouvoir sélectionner les données utiles à l’extraction des connaissances, on doit préciser les
objectifs de l’étude, on demandera par exemple à un commercial d'atteindre un certain volume de
Betouati .F Page
vente ou de chiffre d'affaires mais plus rarement de répondre à des questions comme "quelle est la
durée de vie active des clients ?" ou "quelle est la dépense globale des clients au cours de leur
relation avec l'entreprise et comment évolue-t-elle ?", etc...
L’identification des objectifs a une forte influence sur le choix des méthodes. En effet,
toutes les méthodes n’offrent pas le même degré de lisibilité et de compréhensibilité des
résultats. De cette bonne formalisation du problème, dépend la réussite de l’application.
2ème Phase : Sélection des données
On constitue la base de travail sur laquelle va s’appliquer le projet. Il s’agit d’une collecte de données
à priori utiles pour atteindre l’objectif fixé mais aussi toutes les données ayant un rapport de près ou
de loin avec le sujet.
Nettoyage et pré-traitement des données (60% de l’effort)
Les données brutes de multiples sources hétérogènes internes et externes (souvent réalisée à
l'aide des requêtes SQL) sont rarement directement exploitables pour une opération de
datamining.
Il s'agit à ce stade d'appliquer des filtres prédéfinis sur les données afin d'attribuer des valeurs
cohérentes aux variables mal ou non renseignées ou encore d'harmoniser les formats (date :
jj/mm/aaaa). On peut également avoir à convertir les données d'un format EBCDIC vers
ASCII.
Choix de(s) l’algorithme(s) d’extraction : C’est l’étape la plus intéressante où des

modèles et des outils intelligents sont employés afin de construire des modèles
informatiques (Classification, consolidation, régression, association, clustering) exemple
Recherche des motifs (patterns) intéressants.
Evaluation des résultats :

C'est la dernière étape, il s'agit d'appliquer le modèle informatique aux données réelles pour voir
comment les hypothèses se vérifient. Elle consiste à estimer la fiabilité du modèle. Un modèle
qui a été bien entraîné doit normalement avoir un taux d’erreurs assez faible lors du traitement
de nouvelles données.
Betouati .F Page
Système de Datamining :
Intelligent miner
Produit d’IBM
Couplé avec le SGBD DB2
Fonctions
Classification,Association,Régression,Analyse de
séquences,Regroupement
Entreprise miner de SAS
Multiples outils d’analyse statistique, classification, …
Mine set de Silicon graphics
Classification, association et divers outils statistiques
Très puissant en terme de visualisation
Clémentine de SPSS
Fonctionnalités classiques + Propres algorithmes de l’utilisateur
DBMiner
Outil de DBMiner technologie
Incorpore les fonctionnalités d’OLAP
Le projet Weka (librairie de classes Java)
http://www.cs.waikato.ac.nz/ml/weka
Betouati .F Page
Betouati .F Page

Chap 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chap 1

Uploaded by

Copyright:

Available Formats

Chapitre 1 : Data Mining : Concepts et Techniques

1970’s: Modèle et SGBD’s relationnels, SQL, transactions, OLTP

Def1 : Extraction d’informations (non triviales, implicites, préalablement inconnues et

Def2 : Transformer des données en connaissance.

Itératif: nécessite plusieurs passes

Il existe d’autres appellations pour FDD tel que :

ECD (Extraction de Connaissances à partir de Données)

Types de données : on peut appliquer FDD sur des :

BD’s relationnelles (une base de données brute collectée du système d’information)

BD’s transactionnelles (achat, vente, banque…)

2. Data Mining: Confluence de plusieurs Disciplines

Le data mining s'est développée à partir de la contribution de plusieurs disciplines, y compris la

3. Les tâches de DataMining

Beaucoup de problèmes intellectuels, économiques ou même commerciaux peuvent être

L’extraction des règles d’association (chapitre 3).

Suivant le type d’apprentissage on aura 2 types de modèle

5. Domaine d’application de FDD

Médecine et pharmacie : Diagnostic, découvrir d’après les symptômes du patient sa maladie.

La génétique humaine : Il permet de répondre à l'objectif important de comprendre la relation de

Analyse de données financières

Dans assurances médicales, services de cartes de crédit, télécommunications, etc.

compagnies bancaires utiliser les données historiques pour construire un modèle de

Blanchiment d’argent : Détecter les transactions suspectes

6. Data Mining: Un processus dans l’ECD ou KDD (KDD : Knowledge Discovery in

L’ECB est un processus semi-automatique exploratoire et itératif, constitué de la succession

Comprendre le domaine d’application (sélection)

1ère Phase : Identification des objectifs

2ème Phase : Sélection des données

Nettoyage et pré-traitement des données (60% de l’effort)

Choix de(s) l’algorithme(s) d’extraction : C’est l’étape la plus intéressante où des

Evaluation des résultats :

Couplé avec le SGBD DB2

Entreprise miner de SAS

Multiples outils d’analyse statistique, classification, …

Mine set de Silicon graphics

Classification, association et divers outils statistiques

Très puissant en terme de visualisation

Fonctionnalités classiques + Propres algorithmes de l’utilisateur

Outil de DBMiner technologie

Incorpore les fonctionnalités d’OLAP

Le projet Weka (librairie de classes Java)

You might also like