Datamining2015 2016 PDF

DATA MINING
Introduction Générale
Pr. Aziz LAZRAQ
Ecole Nationale
Supérieure des Mines
Rabat
A.LAZRAQ 1
INFORMATIQUE
Opérationnelle Décisionnelle
(De production) (Stratégique)
A.LAZRAQ 2
Aziz LAZRAQ 1
Informatique opérationnelle (de production):
Automatisation des tâches répétitives:
paie,
gestion de stock,
comptabilité,
gestion de commandes, etc.
Informatique décisionnelle (stratégique):

Extraction de connaissances à partir des BD,
visualisation de données multidimensionnelles,
modélisation,
prédiction, etc.
A.LAZRAQ 3
Data Warehouse
(entrepôt de données)
Ensemble de données historisées et orientées sujet
Data
Warehouse
Extraction de
connaissances (data
Mining
A.LAZRAQ 4
Aziz LAZRAQ 2
Data warehouse : définition
Entrepôt de données
Ensemble de données historisées avec leur variation
dans le temps, organisé par sujets, consolidé dans
une base de données unique, géré dans un
environnement de stockage particulier, aidant à la
prise de décision dans l’entreprise.
Trois fonctions essentielles :
collecte de données de bases existantes et
chargement
gestion des données dans l’entrepôt
analyse de données pour la prise de décision
A.LAZRAQ 5
Architecture type
A.LAZRAQ 6
Aziz LAZRAQ 3
1. OLTP et OLAP
Rapports
&
Appli. Analyses
Appli.
Appli.
OLAP
DW
ETL
OLTP
DM Aides à
la décision
A.LAZRAQ 7
LE DATA MINING
Au confluent de la statistique et de
l’informatique décisionnelle.
Présenté par le Massachusetts
Institute of Technology (MIT/USA)
comme l’une des dix technologies
émergentes qui changeront le monde
au 21° siècle (Le futur en dix
technologies(2003)).
A.LAZRAQ 8
Aziz LAZRAQ 4
Définition :Le DATA MINING
C’est l’application des
technologies d’analyse des
données et d’intelligence
artificielle à l’exploration et à
l’analyse de grandes bases de
données, en vue d’en extraire
des informations pertinentes
pour l’entreprise et de les utiliser
en particulier dans les systèmes
d’aide à la décision
A.LAZRAQ 9
Data Mining
Autres appellations et définitions
KDDB:Knowledge Discovery in Database:
Découvertes de connaissances dans les bases
de données.
L’extraction d’informations,auparavant
inconnues, potentiellement utiles à partir de
données.
La découverte de nouvelles corrélations,
tendances et modèles par le tamisage d’un
large volume de données.
Torturer l’information disponible jusqu’ à ce
qu’elle avoue.
A.LAZRAQ 10
Aziz LAZRAQ 5
Plusieurs sources de données
Types
-Structuré
-Non structuré
Texte
Image
Vidéo
Audio …
A.LAZRAQ 11
Data Mining et Big Data
Les big data, « données massives», désignent des

ensembles de données qui deviennent tellement
volumineux qu'ils en deviennent difficiles à travailler
avec des outils classiques de gestion de base de
données ou de gestion. de l'information.
Idée maitresse :
Distribuer les données et paralléliser les
traitements sur plusieurs processeurs
A.LAZRAQ 12
Aziz LAZRAQ 6
Caractéristiques du Big Data
3V
Volume – Variété – Vélocité
Il y a de nouvelles sources de données, de

nouveau contenu ; Y compris les sources
externes à l’entreprise.
A.LAZRAQ 13
Nouvelle formation
Data Science: Profil
Data science – A la croisée de 3 profils :
STATISTICIEN DATA MINER

Connaître et comprendre les techniques de modélisation, d’analyse de
données, d’inférence… savoir exploiter les régularités « cachées » dans
les données, pourvoyeuses de connaissances.
INFORMATICIEN
Maîtriser les outils pour manipuler les données, concevoir de nouveaux
algorithmes, développer des stratégies nouvelles pour gérer la
profusion de l’information (outils:Hadoop, MapReduce,…)
CONNAISSANCES METIER
Toute analyse s’inscrit dans un domaine… qu’il faut connaître pour
savoir se posser les bonnes questions , décoder et exploiter les
résultats
A.LAZRAQ 14
Aziz LAZRAQ 7
Le data Scientist, la perle rare
Le data scientist est quelqu’un qui
sait mieux développer qu’un statisticien
et qui connaît mieux les statistiques
qu’un développeur
Michael O’Connell, Chief Data Scientist chez

TIBCO Jaspersoft
A.LAZRAQ 15
Facteurs d’émergence du DM
Production massive des données.
Grande capacité de stockage.
Processeurs plus puissants.
Contexte très concurrentiel.
Disponibilité de logiciels de DM.
A.LAZRAQ 16
Aziz LAZRAQ 8
Positionnement du DW et du
DM
Data Warehouse
Données Méthodes du DM
Observer
Et comparer
Résultats
Prédire et agir
A.LAZRAQ 17
Systèmes décisionnels
Les moteurs des bases de données (Oracle,
Informix , SqlServer, Ingres,…)
pour le stockage et la structuration des
données
Les outils de requêtes (pour l’interrogation
des données et le reporting
Les outils OLAP (SAS MDDB,SPSS,Cognos…)
Les outils de data mining pour l’extraction de
connaissances cachées dans les données
A.LAZRAQ 18
Aziz LAZRAQ 9
Systèmes décisionnels :suite
A.LAZRAQ 19
DATA MINING
Deux familles de méthodes
méthodes::
– Méthodes d’apprentissage supervisé (classement/prévision),
caractérisées par l’existence d’une variable privilégiée à
prédire: Réseaux de neurones , arbres de décisions, régression
logistique, régression linéaire, analyse discriminante.
– Méthodes d’apprentissage non supervisé (ou descriptives)

où il n’existe pas de variable privilégiée à prédire comme:
ACP, AFC, AFCM, classification automatique.
Deux phases pour les méthodes d’apprentissage supervisé :
– Phase d’apprentissage: permettant de développer les règles
d’identification de la variable privilégiée à partir d’un
échantillon d’apprentissage,
– Phase prédictive : utiliser ces règles pour identifier cette
variable pour de nouveaux exemples (retrouver les classes des
exemples inconnus). A.LAZRAQ 20
Aziz LAZRAQ 10
Utilisation des données dans les méthodes
d’apprentissage supervisé
A.LAZRAQ 21
Quelques applications du Data

Mining
Gestion de la relation client (CRM:Customer
Relationship Management)
Analyse du panier de la ménagère dans la
distribution(produits achetés ensembles)
Le scoring dans les banques et les sociétés de
crédit (attribuer un score à chaque client pour
identifier les clients à risque),
Segmentation de la clientèles en plusieurs
segments homogènes pour un ciblage mailing.
A.LAZRAQ 22
Aziz LAZRAQ 11
Applications du Data Mining
Visualisation de données
multidimensionnelle
Banque, industrie, médecine, enseignement,
etc.
Aide au diagnostic :
Étude de Maladie: identifier les causes
Étude de pannes: identifier les causes
Détection des fraudes : cartes de crédit
A.LAZRAQ 23
Related Fields
Machine Visualization
Learning
Data Mining and
Knowledge Discovery
Statistics Databases
A.LAZRAQ 24
Aziz LAZRAQ 12
Exemple
Description Clientèle En
Télécoms
Durée Nb
Client
C1
com/mois
35
Appel/mois Nb Appelés/mois Courrier Vocal Nb Contact
55 41 Non 16
in
C2 9 170 25 NON 14 di
C3
C4
7
12
210
215
45
5
OUI
NON
3
17
vi
C5 31 477 38 NON 28 du
C6
C7
42
11
314
110
37
10
OUI
OUI
37
20
s
Attributs ou variables
A.LAZRAQ 25
Objectifs
Constituer des groupes de clients (segments)
de profils de consommation similaires
-Classification( Clustering), Analyse factorielle
Extraire les attributs caractérisant au mieux
ces groupes
-Analyse des corrélations, analyse
factorielle, choix de variables
Analyser les liens entre les variables
-Analyse des corrélations , analyse
d’associations
A.LAZRAQ 26
Aziz LAZRAQ 13
Objectifs… Suite
Identifier le groupe d’appartenance d’un
client
-Classement, affectation
Extraire des règles de décision portant sur
le bon ou mauvais potentiel d’un client
-Segmentation, Arbre de décision
Prédire le comportement d’un client
-Réseaux neuronaux, régression,…
A.LAZRAQ 27
Analyse factorielle
Méthodes de visualisation
Les méthodes d’analyse factorielle opèrent sur des

nuages de points multidimensionnels dont on
cherche à trouver des directions d ’allongement
maximal « axes factoriels » pour pouvoir les
visualiser en un espace de dimension plus petite (2
en général)
A.LAZRAQ 28
Aziz LAZRAQ 14
Classification hiérarchique directe
Classification automatique:typologie
CA5
EM5
CA4
CA3
CA2
MA5
EM4
MA4
EM2
EM3
MA3
MA2
Les méthodes de classification automatique opèrent sur

des ensembles d’individus qu’on cherche à regrouper
en plusieurs catégories jugées homogènes vis-à-vis d’un
certain critère fixé à l’avance.
A.LAZRAQ 29
Méthodes Factorielles
Pour visualiser des données
multidimensionnelles
Analyse en composantes
principales (ACP)
Analyse des correspondances
Analyse factorielle discriminante
etc.
A.LAZRAQ 30
Aziz LAZRAQ 15
Analyse en composantes
principales(ACP)
Type de données
Variables X1 (.) … Xj(.) … Xp(.)

Individus
1 X1 ( 1 ) … Xj( 1 ) … Xp( 1 )
… … … … … …
i X1 ( i ) … Xj( i ) … Xp( i )
… … … … …
n X1 ( n ) … Xj( n ) … Xp( n )
Xj(i) est une variable quantitative mesurée sur l’individu i.

Chaque individu peut être représenté par un point de l’espace Rp.
A.LAZRAQ 31
Exemple d’un tableau de l’ACP

Individus X1(.):Taille(cm) X2(.):Poids(Kg) X3(.):capPulm(l)
1 177,35 72,35 2,69
2 152 68 3,9
3 164 80 3,4
4 176 50 2,6
(.)
5 188 62 2,1
6 164 59 3,25
7 176 71 2,75
8 170 65 3
9 162,65 57,65 3,31
A.LAZRAQ 32
Aziz LAZRAQ 16
Étude séparée des caractères
6 7
2 9 3 8 4 1 5
150 154 158 162 166 170 174 178 182 186
Taille
4 9 6 5 8 2 7 1 3
50 54 58 62 66 70 74 78 82
Poids
1 9
5 4 7 8 6 3 2
20 22 24 26 28 30 32 34 36 38 40
Cap Pulmonaire
A.LAZRAQ 33
Centrage et réduction de
données(s’affranchir des unités de mesure)
X j (.)  X j
Z j (.) 
s( X j )
X j ( wi )
Xj  i
N
 (X j ( wi )  X j ) 2
s2 ( X j )  i
Z j  0 et s 2 ( Z j )  1
A.LAZRAQ 34
Aziz LAZRAQ 17
Données centrées réduites
LIBELLE ZTAILLE ZPOIDS ZCAPPUL
w1 0,69 0,82 -0,58
w2 -1,70 0,33 1,69
w3 -0,57 1,67 0,75
w4 0,57 -1,67 -0,75
w5 1,70 -0,33 -1,69
w6 -0,57 -0,67 0,47
w7 0,57 0,67 -0,47
w8 0,00 0,00 0,00
w9 -0,69 -0,82 0,58
A.LAZRAQ 35
A.LAZRAQ 36
Aziz LAZRAQ 18
A.LAZRAQ 37
A.LAZRAQ 38
Aziz LAZRAQ 19
2 w3
w1
1 w7
w2
w8
Zscore: POIDS 0 w5
w6
w9
-1
w4
2 2
1 1
0 0
-1 -1
Zscore: TAILLE Zscore: CAPP
A.LAZRAQ 39
*Un nuage de points où chaque point est caractérisé

par deux caractères(X,Y)
Y F2
F1
X
Le but de l’ACP est de prendre la meilleure photo plane du nuage
de points multidimensionnels c’est à dire, d’effectuer une projection
des individus sur un plan où les distances qui les séparent seraient
les moins déformées possibles
A.LAZRAQ 40
Aziz LAZRAQ 20
A.LAZRAQ 41
Exemple1
A.LAZRAQ 42
Aziz LAZRAQ 21
Matrice des corrélations
Taille Poids cappulm
Taille 1,00
Poids -0,12 1,00
cappulm -0,99 0,26 1,00
A.LAZRAQ 43
Matrice des valeurs-tests

Taille Poids cappulm
Taille 99,99
Poids -0,37 99,99
cappulm -7,80 0,79 99,99
A.LAZRAQ 44
Aziz LAZRAQ 22
Pourcentage d’information expliquée par chaque axe
Tableau des valeurs propres

Trace de la matrice: 3.00000
Valeur Pourcentage
Numéro Pourcentage
propre cumulé
1 2,0580 68,60 68,60
2 0,9403 31,35 99,94
3 0,0017 0,06 100,00
A.LAZRAQ 45
Exemple2
Ident Pain Legume Fruit Viande Volaille Lait Vin CSP
MA2 332,00 428,00 354,00 1437,00 526,00 247,00 427,00 MA
EM2 293,00 559,00 388,00 1527,00 567,00 239,00 258,00 EM
CA2 372,00 767,00 562,00 1948,00 927,00 235,00 433,00 CA
MA3 406,00 563,00 341,00 1507,00 544,00 324,00 407,00 MA
EM3 386,00 608,00 396,00 1501,00 558,00 319,00 363,00 EM
CA3 438,00 843,00 689,00 2345,00 1148,00 243,00 341,00 CA
MA4 534,00 660,00 367,00 1620,00 638,00 414,00 407,00 MA
EM4 460,00 699,00 484,00 1856,00 762,00 400,00 416,00 EM
CA4 385,00 789,00 621,00 2366,00 1149,00 304,00 282,00 CA
MA5 655,00 776,00 423,00 1848,00 759,00 495,00 486,00 MA
EM5 584,00 995,00 548,00 2056,00 893,00 518,00 319,00 EM
CA5 515,00 1097,00 887,00 2630,00 1167,00 561,00 284,00 CA
12 individus (lignes) et 8 caractères (colonnes)
A.LAZRAQ 46
Aziz LAZRAQ 23
Statistiques sommaires des variables continues
Libellé de la variable Moyenne Ecart-type Minimum Maximum
Pain 446,67 102,59 293,00 655,00
Légumes 732,00 181,13 428,00 1097,00
Fruits 505,00 158,06 341,00 887,00
Viande 1886,75 378,90 1437,00 2630,00
Volailles 803,17 238,94 526,00 1167,00
Lait 358,25 112,14 235,00 561,00
Vin 368,58 68,73 258,00 486,00

Valeur Pourcentage
Numéro Pourcentage
propre cumulé
1 4,3332 61,90 61,90
2 1,8303 26,15 88,05
3 0,6308 9,01 97,06
4 0,1283 1,83 98,90
5 0,0576 0,82 99,72
6 0,0188 0,27 99,99
7 0,0009 A.LAZRAQ0,01 100,00 47
Matrice des corrélations

Pain Légumes Fruits Viande Volailles Lait Vin
Pain 1,00
Légumes 0,59 1,00
Fruits 0,20 0,86 1,00
Viande 0,32 0,88 0,96 1,00
Volailles 0,25 0,83 0,93 0,98 1,00
Lait 0,86 0,66 0,33 0,37 0,23 1,00
Vin 0,30 -0,36 -0,49 -0,44 -0,40 0,01 1,00
A.LAZRAQ 48
Aziz LAZRAQ 24
Matrice des valeurs-tests
Pain Légumes Fruits Viande Volailles Lait Vin
Pain 99,99
Légumes 2,36 99,99
Fruits 0,69 4,43 99,99
Viande 1,15 4,78 6,72 99,99
Volailles 0,88 4,08 5,63 8,12 99,99
Lait 4,42 2,76 1,20 1,36 0,82 99,99
Vin 1,09 -1,29 -1,84 -1,62 -1,47 0,02 99,99
A.LAZRAQ 49
Projection sur le premier plan factoriel
A.LAZRAQ 50
Aziz LAZRAQ 25
Règles d’interprétation
Projection sur le premier plan factoriel avec
superposition des deux nuages d’individus et
variables. Toutes les variables sont à
l’intérieur d’un cercle de rayon 1 appelé cercle
des corrélations
La proximité entre 2 individus s’interprète
comme ressemblance des 2 individus
La proximité entre 2 variables s’interprète
comme corrélation entre les 2 variables
La proximité entre une variable et un individu
a un sens s’ils sont éloignés du centre de
gravité du nuage et, on dit dans ce cas que
l’individu est caractérisé par la variable
A.LAZRAQ 51
Analyse Factorielle Des

Correspondances
AFC
Cette méthode opère sur un tableau
particulier appelé tableau de
contingence.
Un tableau de contingence est un
tableau de nombres positifs qui met en
correspondance des modalités de deux
caractères qualitatifs.
A.LAZRAQ 52
Aziz LAZRAQ 26
Exemple 1
Un échantillon de 212 vaches que l’on
ventile selon les deux caractères:
Le caractère Race avec 3 modalités
Race1, Race2, Race3
Le caractère production laitière ayant 4
modalités:
<20 litres, entre 10 et 20, entre 20 et 30, >30
A.LAZRAQ 53
Un Tableau de contingence
Race 1 Race 2 Race 3 Total
<10 15 10 17 42
<=10 et <20 22 19 25 66
<=20 et <30 18 15 21 54
>=30 20 14 16 50
Total 75 58 79 212
Comme en ACP, on cherche à projeter simultanément les 4 modalités du

caractère 1 et les 3 modalités du caractère 2 sur un plan afin de pouvoir
chercher les proximités ainsi que les affinités entre les 2 caractères
A.LAZRAQ 54
Aziz LAZRAQ 27
Notion de profil d’une
modalité ligne ou colonne
Profil de la modalité colonne race1:
15 22 18 20
race1  ( , , , )
75 75 75 75
Profil de la modalité ligne (>=30):
20 14 1 6
(   30)  ( , , )
50 5 0 50
A.LAZRAQ 55
Règles de positionnement des

modalités
Les points lignes sont positionnés dans
l’espace par les coordonnées de leur profil.
Les points colonnes sont positionnés dans
L’espace par les coordonnées de leur profil.
Deux points lignes ou deux points colonnes
sont donc proches s’ils ont des profils voisins.
Un point ligne est proche d’un point colonne
s’il y a attirance entre ces deux points (dans
l’extrémité du graphique).
A.LAZRAQ 56
Aziz LAZRAQ 28
Exemple 2:
Répartition d’une population par
âge et par loisir préféré
<15 ans 15 à 24 ans 25 à 39 ans 40 à 60 ans > 60 ans
TV 322 114 72 135 130
Théatre 1 17 85 92 14
Cinéma 90 220 192 87 7
Lecture 23 38 57 73 80
Restaurant 7 53 158 49 13
Night_club 0 87 109 21 0
A.LAZRAQ 57
A.LAZRAQ 58
Aziz LAZRAQ 29
« Un bon dessin vaut mieux qu’un long discours. » se dit en Data Mining
« Un bon graphique vaut mieux qu’une montagne de chiffres »
Numéro Valeur propre Pourcentage Pourcentage cumulé
1 0,2900 66,41 66,41
2 0,1054 24,14 90,55
3 0,0273 6,25 96,80
4 0,0140 3,20 100,00
A.LAZRAQ 59
Exemple 3:
Couleur des yeux et des cheveux
CBrun CChatains CRoux CBlonds CChinois CSuedois
YMarron 68.000 119.000 26.000 7.000 75.000 5.000
YNoisette 15.000 54.000 14.000 10.000 20.000 10.000
YVert 5.000 29.000 14.000 16.000 5.000 20.000
YBleu 20.000 84.000 17.000 94.000 0.000 65.000
A.LAZRAQ 60
Aziz LAZRAQ 30
A.LAZRAQ 61
Règles d’interprétations
AFC
Si deux points lignes ou deux points
colonnes ont des profils identiques ou
voisins, ils seront confondus ou
proches.
L’origine des axes correspond aux
profils moyens.
Les points occupants des positions
périphériques auront donc les profils les
plus différents du profil moyen
A.LAZRAQ 62
Aziz LAZRAQ 31
Tableau des valeurs propres :pourcentage
d’information expliquée par chaque axe
Numéro Valeur propre Pourcentage Pourcentage cumulé
1 0,3290 93,80 93,80
2 0,0189 5,40 99,20
3 0,0028 0,80 100,00
4 0,0000 0,00 100,00
A.LAZRAQ 63
Analyse Factorielle Discriminante

(AFD) Visualisation et prévision
(i) Sur 8 individus de 3° âge , on a relevé 2
variables quantitatives :
X1=Age (en années) ,X2=Poids(en Kg)
(ii) On définit :
Y1= X1 centré , Y2=X2 centré
Des spécialistes d’un service de gériatrie ont
affecté les 4 premiers individus à un groupe
G1(Malades peu dépendants) et, les 4
derniers à un groupe G2 (malades fortement
dépendants)
A.LAZRAQ 64
Aziz LAZRAQ 32
Individus X1(.):Années X2(.):Poids(Kg) Y1(.) Y2(.)
1 66 52
-4 -8
2 70 56
0 -4
3 74 60
4 0
4 78 64
8 4
5 62 56
-8 -4
6 66 60
-4 0
7 70 64
0 4
8 74 68
4 8
moyenne 70 60
Peut-on prévoir (discriminer) le groupe d’affectation en se basant

uniquement sur les variables quantitatives Y1 et Y2 ?
A.LAZRAQ 65
NON mais, si l’on fabrique la

variable quantitative U=Y1-Y2
•U= +4 pour tous les éléments de
groupe G1
•U=-4 pour tous les éléments du
groupe G2
On peut donc conclure que les caractères âge et poids
permettent , lorsqu’ils sont considérés « ensemble » de
parfaitement différencier (discriminer) G1 et G2
A.LAZRAQ 66
Aziz LAZRAQ 33
A.LAZRAQ 67
Principe général de l’AFD à 2

groupes
X1… Xp U
N observations X
(échantillon d’apprentissage)
N’ observations
(supplémentaires) ?
Comment peut-on prévoir le diagnostic U à partir

des symptômes quantitatifs X relevés sur les N’
individus supplémentaires ?
A.LAZRAQ 68
Aziz LAZRAQ 34
Règles d’affectations
Soient IG1 et IG2 les points moyens de chacun des deux groupes G1
et G2 ,calculés sur l’échantillon d’apprentissage et , x+ un individu
faisant partie des observations supplémentaires
SI distance(x+,IG1) < distance(x+,IG2)

affecter x+ au groupe G1
sinon au groupe G2
Affecter x+ au groupe le plus proche

A.LAZRAQ 69
Exemple d’Analyse Factorielle Discriminante

Individus (axes F1 et F2 : 100 %)
3,5
2,5
2
Cadre
1,5
Employé
1
Manuel
0,5
-0,5
-1
-1,5
-8 -6 -4 -2 0 2
- - a xe F 1 ( 9 8 %) - - >
A.LAZRAQ 70
Aziz LAZRAQ 35
La classification automatique
 Le but des méthodes de classification est
de construire
1. une partition (Classification par centre
mobile)
2. une suite de partitions emboîtées
(Classification hiérarchique)
d’un ensemble d’objets dont on connaît les
distances deux à deux .
 Les classes formées doivent être le plus
homogène possible
A.LAZRAQ 71
Classification ascendante
hiérarchiques
 On suppose au départ que l’ensemble des objets à
classer est muni d’une distance
 On connaît donc au préalable la distance entre chaque
paire d’objets
 Si h={x,y} , on peut définir:
d(h,z)=Min(d(x,z),d(y,z)) (saut min)
d(h,z)=Max(d(x,z),d(y,z)) (saut max)
d(h,z)=(d(x,z)+d(y,z))/2 (distance moyenne)
A.LAZRAQ 72
Aziz LAZRAQ 36
Algorithme de classification
hiérarchique
 i) A l’étape 0, il y a n éléments à classer
 ii)On cherche les deux éléments les plus
proches , que l’on agrège en un nouvel élément
 iii)On calcule les distances entre le nouvel
élément et les éléments restants (On se trouve
dans les mêmes conditions qu’à l’étape0 mais,
avec seulement n- n-1 éléments à classer)
 iv) Aller à l’étape ii)
A.LAZRAQ 73
Exemple Classification Hiérarchique
2
1 2
4
3 4
5
3
5
1
1 2
3 4
5
A.LAZRAQ 74
Aziz LAZRAQ 37
la méthode hiérarchique ascendante
4 a
b
3
e
2
1
d
c
a b c d e
A.LAZRAQ 75

Exemple consommation
CA5
EM5
CA4
CA3
CA2
MA5
EM4
MA4
EM2
EM3
MA3
MA2
A.LAZRAQ 76
Aziz LAZRAQ 38
Classification hiérarchique directe Exemple loisirs
Cinéma
Concert
Night_club
Restaurant
Théatre
Lecture
TV
A.LAZRAQ 77
Classification par Centres Mobiles

Objectif :
Construire une partition de k classes (k fixé au
départ)
Algorithme:
1) Choisir le nombre de classes k
2)Choisir k objets comme centres des k classes
3) Affecter chaque objet au centre le plus proche
4) Recalculer les centres des classes constituées
5) Répéter les étapes 3) et 4) jusqu’à stabilisation
A.LAZRAQ 78
Aziz LAZRAQ 39
K-means example, step 1
k1
Y
Pick 3 k2
initial
cluster
centers
(randomly)
k3
X
A.LAZRAQ 79
k1
Y
k2
Assign
each point
to the closest
cluster
center k3
X
A.LAZRAQ 80
Aziz LAZRAQ 40
k1 k1
Y
Move k2
each cluster
center k3
k2
to the mean
of each cluster k3
X
A.LAZRAQ 81
Reassign k1
points Y
closest to a
different new
cluster center
k3
Q: Which k2
points are
reassigned?
X
A.LAZRAQ 82
Aziz LAZRAQ 41
K-means example, step 4 …
k1
Y
A: three
points with
animation k3
k2
X
A.LAZRAQ 83
K-means example, step 4b
k1
Y
re-compute
cluster
means k3
k2
X
A.LAZRAQ 84
Aziz LAZRAQ 42
k1
Y
k2
move cluster
centers to k3
cluster means
X
A.LAZRAQ 85
La recherche d’associations
(Analyse du panier de la ménagère)
Where should detergents be placed in the
Store to maximize their sales?
Are window cleaning products purchased

when detergents and orange juice are
bought together?
Is soda typically purchased with bananas?

Does the brand of soda make a difference?
How are the demographics of the

neighborhood affecting what customers
are buying?
A.LAZRAQ 86
Aziz LAZRAQ 43
Panier de la ménagère
Exemple de règle:
lorsque un client achète du pain et du beurre, il achète du lait,à 85%
A.LAZRAQ 87
La recherche d’associations
(Analyse du panier de la ménagère)
Principe :
Rechercher les règles de type :
« Si pour un individu, la variable A=xA ,
la variable B=xB, etc., alors, dans 80%
des cas, la variable Z=xZ.,
cette configuration se rencontrant pour
20% des individus »
La valeur de 80 % est appelée indice de confiance.

La valeur de 20 % est appelée indice de support.
A.LAZRAQ 88
Aziz LAZRAQ 44
Analyse du panier de la
ménagère
Pour une règle :Si condition alors Résultat
Exemple :Si couches et samedi, alors bière (Wall Mart)
Indice de support=
proba(condition et résultat)
Indice de confiance=
proba(condition)
A.LAZRAQ 89
Analyse du panier de la ménagère

(Exemple :tickets de caisse)
T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D
-La règle C  B a :
pour support : P(C et B)=2/5=40%
Pour indice de confiance: P(C et B)/P(C)=(2/5)/(3/5)=2/3=67%
-la probabilité d’avoir: P(B)=4/5=80% .

conclusion ( C  B non intéressante)
A.LAZRAQ 90
Aziz LAZRAQ 45
Analyse du panier de la ménagère
(Exemple :tickets de caisse)
T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D
-Gain(règle)=gain(condition  résulat) =
amélioration apportée par une règle par rapport au hasard.
Gain (règle)=indice_de_confiance (règle)/proba( résultat)=

proba(condition)*proba(résultat)
Gain(C   B)  (2 / 5) /[(3 / 5) *(4 / 5)]  10 /12  5 / 6  1
A.LAZRAQ 91
Panier ménagère (suite)

T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D
Gain (B  E)=P(B et E)/(P(B)*P(E))=3/5/(4/5*3/5)=5/4>1
règle plus intéressante
A.LAZRAQ 92
Aziz LAZRAQ 46
Panier ménagère (suite)
Si une règle est: condition  résultat
-et règle inverse est : condition  non résultat
En utilisant :P(non résultat)=1-P(résultat) on obtient :
indice_de_confiance(règle inverse)=1-indice_de_confiance(règle)
Si Une règle est peu utile alors règle inverse très utile
A.LAZRAQ 93
Arbres de décision :Exemple1

Splitting Attributes
Tid Refund Marital Taxable
Status Income Cheat
1 Yes Single 125K No

2 No Married 100K No Refund
Yes No
3 No Single 70K No
4 Yes Married 120K No NO MarSt
5 No Divorced 95K Yes Single, Divorced Married
6 No Married 60K No
7 Yes Divorced 220K No TaxInc NO
8 No Single 85K Yes < 80K > 80K
9 No Married 75K No
NO YES
10 No Single 90K Yes
10
Training Data Model: Decision Tree
A.LAZRAQ 94
Aziz LAZRAQ 47
Un autre arbre
MarSt Single,
Married Divorced
Tid Refund Marital Taxable
Status Income Cheat
NO Refund
1 Yes Single 125K No
Yes No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No On peut avoir plus d’un arbre qui modélise
10 No Single 90K Yes les mêmes données
10
A.LAZRAQ 95
Méthode d’affectation
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn
8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes
10
Apply
Model
Decision
Tree
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10
A.LAZRAQ 96
Aziz LAZRAQ 48
Appliquer le modèle sur une nouvelle
donnée
Test Data
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
A.LAZRAQ 97
Mesure de l’impurité d’un nœud:

GINI
Indice de Gini d’un nœud t :
GINI (t )  1   [ p ( j | t )]2
j
Où p( j | t) est la fréquence relative de la classe j dans le nœud t

Maximal (1 - 1/nc) lorsque les enregistrements sont distribués
uniformément parmi les classes (cas non intéressant)
Minimal (0) lorsque tous les enregistrements appartiennent à
la même classe (cas plus intéressant)
C1 0 C1 1 C1 2 C1 3
C2 6 C2 5 C2 4 C2 3
Gini=0.000 Gini=0.278 Gini=0.444 Gini=0.500
A.LAZRAQ 98
Aziz LAZRAQ 49
Arbres de décision
Algorithme
a)Pour chaque attribut explicatif, on partitionne
l’ensemble des individus puis on calcule le degré
d’impureté associé à cette partition
b) On choisit comme premier attribut de
partitionnement celui donnant le degré d’impureté
le moins élevé.
c) Pour segmenter chacune des parties obtenues, on
réitère a) et b) pour chaque attribut explicatif.
d) On s’arrête quand la partie contient peu d’
individus ou qu’on a atteint le degré d’impureté 0.
A.LAZRAQ 99
Evaluation d’un arbre de decision

CLASSE PREDITE
Classe=Oui Classe=Non
CLASSE
Classe=Oui a b
REELLE (VP) (FN)
Classe=Non c d
(FP) (VN)
a  d VP  VN
P ré cisio n  
a b c d TP  VN  FP  FN
A.LAZRAQ 100
Aziz LAZRAQ 50
Exemple2:Arbres de décision
variables explicatives continues
Variable explicative y
?
y2
y1
x1 Variable explicative x
A.LAZRAQ 101
Arbres de décision
SI X  x1 alors
Sinon SI Y  y1 alors
X
Sinon SI Y  y2 alors
X  x1 X  x1 Sinon
Y
Y  y1 Y  y2
y1  Y  y2
Nœud de décision
A.LAZRAQ Feuille 102
Aziz LAZRAQ 51
Exemple3 :Arbre de décision (segmentation)
Fru <=377.50
3(100%)
Pain <=619.50
Fru <=555.00 0( 0%)
0( 0%) 0( 0%)
4( 50%) 4(100%)
4( 50%) Fru > 377.50 0( 0%)
0( 0%)
1( 20%)
4( 33%) Pain > 619.50
4( 80%)
4( 33%) 1(100%)
Fru > 555.00 0( 0%)
4( 33%) 0( 0%)
0( 0%) 0( 0%)
0( 0%)
4(100%)
A.LAZRAQ 103
5. Réseaux de neurones
Tentative de reproduction des structures du
cerveau et du raisonnement
Ensemble d'unités (neurones) connectées
transformant des entrées en sorties où
chaque connexion à un poids associé
La phase d'apprentissage permet d'ajuster les
poids pour produire la bonne sortie (la classe
en classification)
A.LAZRAQ 104
Aziz LAZRAQ 52
Analogie avec le cerveau
Le cerveau humain contient environ 100 milliards de
neurones, et chacun est connecté à environ 10.000
autres
Un neurone reçoit des impulsions électriques de ses
voisins via les dendrites. Si la somme des signaux
dépasse un certain seuil, il se produit une décharge
électrique de type tout ou rien appelée potentiel
d’action. Le potentiel d’action se propage le long de
l’axone, qui se ramifie en une multitude de
dendrites.
La terminaison d’une dendrite est une petite usine
de production chimique. Elle diffuse des
neurotransmetteurs chimiques dans un espace
appelé synapse, qui rejoint un autre neurone.
A.LAZRAQ 105
Modélisation du neurone
Signaux
Signal transmis
provenant des +
+ Somme Seuil si le seuil est
autres + franchi
neurones
A.LAZRAQ 106
Aziz LAZRAQ 53
Plus précisément …
On calcule une valeur
de sortie à partir d'un
ensemble de valeurs en
entrée
Les liens sont pondérés
par des poids Entrée En
wn
Réalise une combinaison
linéaire des entrées Entrée Ei wi wi Ei +b f
suivie d’une fonction de
Sortie
transfert (fonction à w1
seuil) Entrée E1
Fonction Sigma (wi Ei)

Biais optionnel b
Fonction Sigmoïde
f() = 1/(1+e- )
A.LAZRAQ 107
Combinaison/Activation
Entrée 1
0,5
0,1 0,75
Entrée 2 Combinaison Activation
Entrée 3 0,9
Phase de combinaison : combine les entrées et

produit une valeur en sortie
Phase d’activation : prend en entrée la sortie
de la fonction de combinaison et déduit la
valeur de sortie en appliquant la fonction
d’activation
A.LAZRAQ 108
Aziz LAZRAQ 54
Type de fonction f d’activation
utilisée
(a) : seuil (fonction de Heavyside)

Heavyside)
(b) : linéaire par morceaux
(c) : sigmoïde f(x) =1/ [1 + expexp(( – βx) ]
(d) : gaussienne
A.LAZRAQ 109
Organisation en réseau
Réseau multi-couches totalement connecté
E1
S1
E2
S2
E3
S3
E4
Entrées, Calculs (cachés), Sorties
A.LAZRAQ 110
Aziz LAZRAQ 55
Topologie
Choix du nombre de couches
entrées, 1 ou 2 couches cachées, sorties
Choix du nombre de neurones par couche
dépend des entrées et sorties
couches cachées intermédiaires
Normalisation des variables d'entrées
Variable continue centrée réduite [-1,+1]
Variable discrète codée ou valeurs attribuées aux
entrées
Sorties booléenne codant les classes
A.LAZRAQ 111
Perceptron multicouche
Entrées Couches cachées Sorties
A.LAZRAQ 112
Aziz LAZRAQ 56
Apprentissage
Découverte de modèles complexes avec
affinage progressif
Le réseau s'adapte lors de la phase
d ’apprentissage
Plusieurs algorithmes possibles
le plus utilisé = rétropropagation
modification des poids wi par
rétropropagation
A.LAZRAQ 113
Principe
Off-Line ou Batch : après tous les
exemples
On-Line ou Stochastique : après chaque
exemple
Jusqu’à condition d’arrêt
Calcul des erreurs de

Initialisation de la Pour chaque exemple
sortie et application de
matrice des poids calculer la sortie avec les
l’algorithme de mise à
au hasard poids actuels du réseau
Jour des poids
A.LAZRAQ 114
Aziz LAZRAQ 57
Forces et Faiblesses
Permet d'approcher toute sorte de fonction
Coûteux en apprentissage:
calculs complexes
possibilité d'élaguer le réseau en connexions
peu applicable sur de larges BD
Effet boite noire
comportement difficile à expliquer
Autres applications possibles
prédiction, décodage, reconnaissance de formes,
etc.
A.LAZRAQ 115
Exemple fichier consommation
A.LAZRAQ 116
Aziz LAZRAQ 58
Prévision Avec le réseau
trouvé
A.LAZRAQ 117
Processus du Data Mining

Poser le problème;
Rechercher les données;
Sélectionner les données pertinentes;
Nettoyer» les données;
Changer les variables;
Rechercher un modèle;
Évaluer le résultat;
Intégrer les connaissances.
A.LAZRAQ 118
Aziz LAZRAQ 59
Knowledge Discovery Process
flow, according to CRISP-DM
see
Monitoring www.crisp-dm.org
for more
information
CRISP-DM,
signifie :
Cross-Industry
Standard Process
for Data Mining
A.LAZRAQ 119
Les différentes techniques de DATA

MINING
 Les méthodes de description et de visualisation
(Non supervisées)
 Analyse en composantes principales
 Analyse factorielle des correspondances
 Analyse factorielle des correspondances multiples
 Classification automatique
 Recherche d’associations (Panier de la ménagère)
 Les méthodes de prévision (Supervisées)

 Analyse discriminante
 Régression linéaire et logistique
 Techniques de scoring
 Techniques de segmentation par arbre de décision
 Réseaux de neurones et applications
 Compléments
 Le texte mining A.LAZRAQ 120
 Le web mining
Aziz LAZRAQ 60
LOGICIELS de DATA MINING
NOM DU PRODUIT SOCIETE
SPAD SPAD
SQL Server Miner MS SQL Server
MODELER (CLEMENTINE) IBM(SPSS)
INTELLIGENT MINER IBM
ENTREPRISE MINER SAS
STATISTICA DATA MINER STATSOFT
STATBOX (Sous EXCEL) GRIMMERSOFT

XLMINER (Sous EXCEL) RESAMPLING STATS, Inc.
A.LAZRAQ 121
Quelques logiciels libres de

DATA MINING
Logiciel Site
Knime http://www.knime.org/
Rapidminer http://rapid-i.com/
Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/
Orange http://www.ailab.si/orange
Weka http://www.cs.waikato.ac.nz/~ml/
R http://www.r-project.org/
A.LAZRAQ 122
Aziz LAZRAQ 61

Datamining2015 2016 PDF

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Datamining2015 2016 PDF

Uploaded by

Copyright:

Available Formats

DATA MINING

Informatique décisionnelle (stratégique):

Data Mining et Big Data

Les big data, « données massives», désignent des

Il y a de nouvelles sources de données, de

STATISTICIEN DATA MINER

Michael O’Connell, Chief Data Scientist chez

– Méthodes d’apprentissage non supervisé (ou descriptives)

Quelques applications du Data

Les méthodes d’analyse factorielle opèrent sur des

Les méthodes de classification automatique opèrent sur

Variables X1 (.) … Xj(.) … Xp(.)

Xj(i) est une variable quantitative mesurée sur l’individu i.

Exemple d’un tableau de l’ACP

9 162,65 57,65 3,31

LIBELLE ZTAILLE ZPOIDS ZCAPPUL

w1 0,69 0,82 -0,58

w2 -1,70 0,33 1,69

w3 -0,57 1,67 0,75

w4 0,57 -1,67 -0,75

w5 1,70 -0,33 -1,69

w6 -0,57 -0,67 0,47

w7 0,57 0,67 -0,47

w8 0,00 0,00 0,00

w9 -0,69 -0,82 0,58

*Un nuage de points où chaque point est caractérisé

Matrice des valeurs-tests

Tableau des valeurs propres

Tableau des valeurs propres

Matrice des corrélations

Projection sur le premier plan factoriel

Analyse Factorielle Des

Race 1 Race 2 Race 3 Total

Comme en ACP, on cherche à projeter simultanément les 4 modalités du

Règles de positionnement des

TV 322 114 72 135 130

Cinéma 90 220 192 87 7

Tableau des valeurs propres

Trace de la matrice: 0.43673

Numéro Valeur propre Pourcentage Pourcentage cumulé

1 0,2900 66,41 66,41

2 0,1054 24,14 90,55

3 0,0273 6,25 96,80

4 0,0140 3,20 100,00

CBrun CChatains CRoux CBlonds CChinois CSuedois

YMarron 68.000 119.000 26.000 7.000 75.000 5.000

YNoisette 15.000 54.000 14.000 10.000 20.000 10.000

YVert 5.000 29.000 14.000 16.000 5.000 20.000

YBleu 20.000 84.000 17.000 94.000 0.000 65.000

Trace de la matrice: 0.35076

Numéro Valeur propre Pourcentage Pourcentage cumulé

1 0,3290 93,80 93,80

2 0,0189 5,40 99,20

3 0,0028 0,80 100,00

4 0,0000 0,00 100,00

Analyse Factorielle Discriminante

Peut-on prévoir (discriminer) le groupe d’affectation en se basant

NON mais, si l’on fabrique la

Principe général de l’AFD à 2

Comment peut-on prévoir le diagnostic U à partir

SI distance(x+,IG1) < distance(x+,IG2)

Affecter x+ au groupe le plus proche

Exemple d’Analyse Factorielle Discriminante

Exemple Classification Hiérarchique

Gain (B  E)=P(B et E)/(P(B)P(E))=3/5/(4/53/5)=5/4>1