Professional Documents
Culture Documents
Introduction Générale
Pr. Aziz LAZRAQ
Ecole Nationale
Supérieure des Mines
Rabat
A.LAZRAQ 1
INFORMATIQUE
Opérationnelle Décisionnelle
(De production) (Stratégique)
A.LAZRAQ 2
Aziz LAZRAQ 1
Informatique opérationnelle (de production):
Automatisation des tâches répétitives:
paie,
gestion de stock,
comptabilité,
gestion de commandes, etc.
A.LAZRAQ 3
Data Warehouse
(entrepôt de données)
Ensemble de données historisées et orientées sujet
Data
Warehouse
Extraction de
connaissances (data
Mining
A.LAZRAQ 4
Aziz LAZRAQ 2
Data warehouse : définition
Entrepôt de données
Ensemble de données historisées avec leur variation
dans le temps, organisé par sujets, consolidé dans
une base de données unique, géré dans un
environnement de stockage particulier, aidant à la
prise de décision dans l’entreprise.
Trois fonctions essentielles :
collecte de données de bases existantes et
chargement
gestion des données dans l’entrepôt
analyse de données pour la prise de décision
A.LAZRAQ 5
Architecture type
A.LAZRAQ 6
Aziz LAZRAQ 3
1. OLTP et OLAP
Rapports
&
Appli. Analyses
Appli.
Appli.
OLAP
DW
ETL
OLTP
DM Aides à
la décision
A.LAZRAQ 7
LE DATA MINING
Au confluent de la statistique et de
l’informatique décisionnelle.
Présenté par le Massachusetts
Institute of Technology (MIT/USA)
comme l’une des dix technologies
émergentes qui changeront le monde
au 21° siècle (Le futur en dix
technologies(2003)).
A.LAZRAQ 8
Aziz LAZRAQ 4
Définition :Le DATA MINING
C’est l’application des
technologies d’analyse des
données et d’intelligence
artificielle à l’exploration et à
l’analyse de grandes bases de
données, en vue d’en extraire
des informations pertinentes
pour l’entreprise et de les utiliser
en particulier dans les systèmes
d’aide à la décision
A.LAZRAQ 9
Data Mining
Autres appellations et définitions
KDDB:Knowledge Discovery in Database:
Découvertes de connaissances dans les bases
de données.
L’extraction d’informations,auparavant
inconnues, potentiellement utiles à partir de
données.
La découverte de nouvelles corrélations,
tendances et modèles par le tamisage d’un
large volume de données.
Torturer l’information disponible jusqu’ à ce
qu’elle avoue.
A.LAZRAQ 10
Aziz LAZRAQ 5
Plusieurs sources de données
Types
-Structuré
-Non structuré
Texte
Image
Vidéo
Audio …
A.LAZRAQ 11
Idée maitresse :
Distribuer les données et paralléliser les
traitements sur plusieurs processeurs
A.LAZRAQ 12
Aziz LAZRAQ 6
Caractéristiques du Big Data
3V
Volume – Variété – Vélocité
A.LAZRAQ 13
Nouvelle formation
Data Science: Profil
Data science – A la croisée de 3 profils :
INFORMATICIEN
Maîtriser les outils pour manipuler les données, concevoir de nouveaux
algorithmes, développer des stratégies nouvelles pour gérer la
profusion de l’information (outils:Hadoop, MapReduce,…)
CONNAISSANCES METIER
Toute analyse s’inscrit dans un domaine… qu’il faut connaître pour
savoir se posser les bonnes questions , décoder et exploiter les
résultats
A.LAZRAQ 14
Aziz LAZRAQ 7
Le data Scientist, la perle rare
Le data scientist est quelqu’un qui
sait mieux développer qu’un statisticien
et qui connaît mieux les statistiques
qu’un développeur
A.LAZRAQ 15
Facteurs d’émergence du DM
Production massive des données.
Grande capacité de stockage.
Processeurs plus puissants.
Contexte très concurrentiel.
Disponibilité de logiciels de DM.
A.LAZRAQ 16
Aziz LAZRAQ 8
Positionnement du DW et du
DM
Data Warehouse
Données Méthodes du DM
Observer
Et comparer
Résultats
Prédire et agir
A.LAZRAQ 17
Systèmes décisionnels
Les moteurs des bases de données (Oracle,
Informix , SqlServer, Ingres,…)
pour le stockage et la structuration des
données
Les outils de requêtes (pour l’interrogation
des données et le reporting
Les outils OLAP (SAS MDDB,SPSS,Cognos…)
Les outils de data mining pour l’extraction de
connaissances cachées dans les données
A.LAZRAQ 18
Aziz LAZRAQ 9
Systèmes décisionnels :suite
A.LAZRAQ 19
DATA MINING
Deux familles de méthodes
méthodes::
– Méthodes d’apprentissage supervisé (classement/prévision),
caractérisées par l’existence d’une variable privilégiée à
prédire: Réseaux de neurones , arbres de décisions, régression
logistique, régression linéaire, analyse discriminante.
Aziz LAZRAQ 10
Utilisation des données dans les méthodes
d’apprentissage supervisé
A.LAZRAQ 21
Aziz LAZRAQ 11
Applications du Data Mining
Visualisation de données
multidimensionnelle
Banque, industrie, médecine, enseignement,
etc.
Aide au diagnostic :
Étude de Maladie: identifier les causes
Étude de pannes: identifier les causes
Détection des fraudes : cartes de crédit
A.LAZRAQ 23
Related Fields
Machine Visualization
Learning
Data Mining and
Knowledge Discovery
Statistics Databases
A.LAZRAQ 24
Aziz LAZRAQ 12
Exemple
Description Clientèle En
Télécoms
Durée Nb
Client
C1
com/mois
35
Appel/mois Nb Appelés/mois Courrier Vocal Nb Contact
55 41 Non 16
in
C2 9 170 25 NON 14 di
C3
C4
7
12
210
215
45
5
OUI
NON
3
17
vi
C5 31 477 38 NON 28 du
C6
C7
42
11
314
110
37
10
OUI
OUI
37
20
s
Attributs ou variables
A.LAZRAQ 25
Objectifs
Constituer des groupes de clients (segments)
de profils de consommation similaires
-Classification( Clustering), Analyse factorielle
Extraire les attributs caractérisant au mieux
ces groupes
-Analyse des corrélations, analyse
factorielle, choix de variables
Analyser les liens entre les variables
-Analyse des corrélations , analyse
d’associations
A.LAZRAQ 26
Aziz LAZRAQ 13
Objectifs… Suite
Identifier le groupe d’appartenance d’un
client
-Classement, affectation
Extraire des règles de décision portant sur
le bon ou mauvais potentiel d’un client
-Segmentation, Arbre de décision
Prédire le comportement d’un client
-Réseaux neuronaux, régression,…
A.LAZRAQ 27
Analyse factorielle
Méthodes de visualisation
Aziz LAZRAQ 14
Classification hiérarchique directe
Classification automatique:typologie
CA5
EM5
CA4
CA3
CA2
MA5
EM4
MA4
EM2
EM3
MA3
MA2
A.LAZRAQ 29
Méthodes Factorielles
Pour visualiser des données
multidimensionnelles
Analyse en composantes
principales (ACP)
Analyse des correspondances
Analyse factorielle discriminante
etc.
A.LAZRAQ 30
Aziz LAZRAQ 15
Analyse en composantes
principales(ACP)
Type de données
2 152 68 3,9
3 164 80 3,4
4 176 50 2,6
(.)
5 188 62 2,1
6 164 59 3,25
7 176 71 2,75
8 170 65 3
A.LAZRAQ 32
Aziz LAZRAQ 16
Étude séparée des caractères
6 7
2 9 3 8 4 1 5
150 154 158 162 166 170 174 178 182 186
Taille
4 9 6 5 8 2 7 1 3
50 54 58 62 66 70 74 78 82
Poids
1 9
5 4 7 8 6 3 2
20 22 24 26 28 30 32 34 36 38 40
Cap Pulmonaire
A.LAZRAQ 33
Centrage et réduction de
données(s’affranchir des unités de mesure)
X j (.) X j
Z j (.)
s( X j )
X j ( wi )
Xj i
N
(X j ( wi ) X j ) 2
s2 ( X j ) i
Z j 0 et s 2 ( Z j ) 1
A.LAZRAQ 34
Aziz LAZRAQ 17
Données centrées réduites
A.LAZRAQ 35
A.LAZRAQ 36
Aziz LAZRAQ 18
A.LAZRAQ 37
A.LAZRAQ 38
Aziz LAZRAQ 19
2 w3
w1
1 w7
w2
w8
Zscore: POIDS 0 w5
w6
w9
-1
w4
2 2
1 1
0 0
-1 -1
Zscore: TAILLE Zscore: CAPP
A.LAZRAQ 39
Y F2
F1
X
Le but de l’ACP est de prendre la meilleure photo plane du nuage
de points multidimensionnels c’est à dire, d’effectuer une projection
des individus sur un plan où les distances qui les séparent seraient
les moins déformées possibles
A.LAZRAQ 40
Aziz LAZRAQ 20
A.LAZRAQ 41
Exemple1
A.LAZRAQ 42
Aziz LAZRAQ 21
Matrice des corrélations
Taille Poids cappulm
Taille 1,00
Poids -0,12 1,00
cappulm -0,99 0,26 1,00
A.LAZRAQ 43
A.LAZRAQ 44
Aziz LAZRAQ 22
Pourcentage d’information expliquée par chaque axe
A.LAZRAQ 45
Exemple2
Ident Pain Legume Fruit Viande Volaille Lait Vin CSP
MA2 332,00 428,00 354,00 1437,00 526,00 247,00 427,00 MA
EM2 293,00 559,00 388,00 1527,00 567,00 239,00 258,00 EM
CA2 372,00 767,00 562,00 1948,00 927,00 235,00 433,00 CA
MA3 406,00 563,00 341,00 1507,00 544,00 324,00 407,00 MA
EM3 386,00 608,00 396,00 1501,00 558,00 319,00 363,00 EM
CA3 438,00 843,00 689,00 2345,00 1148,00 243,00 341,00 CA
MA4 534,00 660,00 367,00 1620,00 638,00 414,00 407,00 MA
EM4 460,00 699,00 484,00 1856,00 762,00 400,00 416,00 EM
CA4 385,00 789,00 621,00 2366,00 1149,00 304,00 282,00 CA
MA5 655,00 776,00 423,00 1848,00 759,00 495,00 486,00 MA
EM5 584,00 995,00 548,00 2056,00 893,00 518,00 319,00 EM
CA5 515,00 1097,00 887,00 2630,00 1167,00 561,00 284,00 CA
12 individus (lignes) et 8 caractères (colonnes)
A.LAZRAQ 46
Aziz LAZRAQ 23
Statistiques sommaires des variables continues
Libellé de la variable Moyenne Ecart-type Minimum Maximum
Pain 446,67 102,59 293,00 655,00
Légumes 732,00 181,13 428,00 1097,00
Fruits 505,00 158,06 341,00 887,00
Viande 1886,75 378,90 1437,00 2630,00
Volailles 803,17 238,94 526,00 1167,00
Lait 358,25 112,14 235,00 561,00
Vin 368,58 68,73 258,00 486,00
A.LAZRAQ 48
Aziz LAZRAQ 24
Matrice des valeurs-tests
Pain Légumes Fruits Viande Volailles Lait Vin
Pain 99,99
Légumes 2,36 99,99
Fruits 0,69 4,43 99,99
Viande 1,15 4,78 6,72 99,99
Volailles 0,88 4,08 5,63 8,12 99,99
Lait 4,42 2,76 1,20 1,36 0,82 99,99
Vin 1,09 -1,29 -1,84 -1,62 -1,47 0,02 99,99
A.LAZRAQ 49
A.LAZRAQ 50
Aziz LAZRAQ 25
Règles d’interprétation
Projection sur le premier plan factoriel avec
superposition des deux nuages d’individus et
variables. Toutes les variables sont à
l’intérieur d’un cercle de rayon 1 appelé cercle
des corrélations
La proximité entre 2 individus s’interprète
comme ressemblance des 2 individus
La proximité entre 2 variables s’interprète
comme corrélation entre les 2 variables
La proximité entre une variable et un individu
a un sens s’ils sont éloignés du centre de
gravité du nuage et, on dit dans ce cas que
l’individu est caractérisé par la variable
A.LAZRAQ 51
A.LAZRAQ 52
Aziz LAZRAQ 26
Exemple 1
Un échantillon de 212 vaches que l’on
ventile selon les deux caractères:
Le caractère Race avec 3 modalités
Race1, Race2, Race3
Le caractère production laitière ayant 4
modalités:
<20 litres, entre 10 et 20, entre 20 et 30, >30
A.LAZRAQ 53
Un Tableau de contingence
<10 15 10 17 42
<=10 et <20 22 19 25 66
<=20 et <30 18 15 21 54
>=30 20 14 16 50
Total 75 58 79 212
A.LAZRAQ 54
Aziz LAZRAQ 27
Notion de profil d’une
modalité ligne ou colonne
Profil de la modalité colonne race1:
15 22 18 20
race1 ( , , , )
75 75 75 75
Profil de la modalité ligne (>=30):
20 14 1 6
( 30) ( , , )
50 5 0 50
A.LAZRAQ 55
A.LAZRAQ 56
Aziz LAZRAQ 28
Exemple 2:
Répartition d’une population par
âge et par loisir préféré
<15 ans 15 à 24 ans 25 à 39 ans 40 à 60 ans > 60 ans
Théatre 1 17 85 92 14
Lecture 23 38 57 73 80
Restaurant 7 53 158 49 13
Night_club 0 87 109 21 0
A.LAZRAQ 57
A.LAZRAQ 58
Aziz LAZRAQ 29
« Un bon dessin vaut mieux qu’un long discours. » se dit en Data Mining
« Un bon graphique vaut mieux qu’une montagne de chiffres »
A.LAZRAQ 59
Exemple 3:
Couleur des yeux et des cheveux
A.LAZRAQ 60
Aziz LAZRAQ 30
A.LAZRAQ 61
Règles d’interprétations
AFC
Si deux points lignes ou deux points
colonnes ont des profils identiques ou
voisins, ils seront confondus ou
proches.
L’origine des axes correspond aux
profils moyens.
Les points occupants des positions
périphériques auront donc les profils les
plus différents du profil moyen
A.LAZRAQ 62
Aziz LAZRAQ 31
Tableau des valeurs propres :pourcentage
d’information expliquée par chaque axe
A.LAZRAQ 63
Aziz LAZRAQ 32
Individus X1(.):Années X2(.):Poids(Kg) Y1(.) Y2(.)
1 66 52
-4 -8
2 70 56
0 -4
3 74 60
4 0
4 78 64
8 4
5 62 56
-8 -4
6 66 60
-4 0
7 70 64
0 4
8 74 68
4 8
moyenne 70 60
A.LAZRAQ 65
A.LAZRAQ 66
Aziz LAZRAQ 33
A.LAZRAQ 67
N observations X
(échantillon d’apprentissage)
N’ observations
(supplémentaires) ?
Aziz LAZRAQ 34
Règles d’affectations
Soient IG1 et IG2 les points moyens de chacun des deux groupes G1
et G2 ,calculés sur l’échantillon d’apprentissage et , x+ un individu
faisant partie des observations supplémentaires
3,5
2,5
2
Cadre
1,5
Employé
1
Manuel
0,5
-0,5
-1
-1,5
-8 -6 -4 -2 0 2
- - a xe F 1 ( 9 8 %) - - >
A.LAZRAQ 70
Aziz LAZRAQ 35
La classification automatique
Le but des méthodes de classification est
de construire
1. une partition (Classification par centre
mobile)
2. une suite de partitions emboîtées
(Classification hiérarchique)
d’un ensemble d’objets dont on connaît les
distances deux à deux .
Les classes formées doivent être le plus
homogène possible
A.LAZRAQ 71
Classification ascendante
hiérarchiques
On suppose au départ que l’ensemble des objets à
classer est muni d’une distance
On connaît donc au préalable la distance entre chaque
paire d’objets
Si h={x,y} , on peut définir:
d(h,z)=Min(d(x,z),d(y,z)) (saut min)
d(h,z)=Max(d(x,z),d(y,z)) (saut max)
d(h,z)=(d(x,z)+d(y,z))/2 (distance moyenne)
A.LAZRAQ 72
Aziz LAZRAQ 36
Algorithme de classification
hiérarchique
i) A l’étape 0, il y a n éléments à classer
ii)On cherche les deux éléments les plus
proches , que l’on agrège en un nouvel élément
iii)On calcule les distances entre le nouvel
élément et les éléments restants (On se trouve
dans les mêmes conditions qu’à l’étape0 mais,
avec seulement n- n-1 éléments à classer)
iv) Aller à l’étape ii)
A.LAZRAQ 73
2
1 2
4
3 4
5
3
5
1
1 2
3 4
5
A.LAZRAQ 74
Aziz LAZRAQ 37
la méthode hiérarchique ascendante
4 a
b
3
e
2
1
d
c
a b c d e
A.LAZRAQ 75
CA5
EM5
CA4
CA3
CA2
MA5
EM4
MA4
EM2
EM3
MA3
MA2
A.LAZRAQ 76
Aziz LAZRAQ 38
Classification hiérarchique directe Exemple loisirs
Cinéma
Concert
Night_club
Restaurant
Théatre
Lecture
TV
A.LAZRAQ 77
A.LAZRAQ 78
Aziz LAZRAQ 39
K-means example, step 1
k1
Y
Pick 3 k2
initial
cluster
centers
(randomly)
k3
X
A.LAZRAQ 79
k1
Y
k2
Assign
each point
to the closest
cluster
center k3
X
A.LAZRAQ 80
Aziz LAZRAQ 40
K-means example, step 3
k1 k1
Y
Move k2
each cluster
center k3
k2
to the mean
of each cluster k3
X
A.LAZRAQ 81
Reassign k1
points Y
closest to a
different new
cluster center
k3
Q: Which k2
points are
reassigned?
X
A.LAZRAQ 82
Aziz LAZRAQ 41
K-means example, step 4 …
k1
Y
A: three
points with
animation k3
k2
X
A.LAZRAQ 83
k1
Y
re-compute
cluster
means k3
k2
X
A.LAZRAQ 84
Aziz LAZRAQ 42
K-means example, step 5
k1
Y
k2
move cluster
centers to k3
cluster means
X
A.LAZRAQ 85
La recherche d’associations
(Analyse du panier de la ménagère)
Where should detergents be placed in the
Store to maximize their sales?
A.LAZRAQ 86
Aziz LAZRAQ 43
Panier de la ménagère
Exemple de règle:
lorsque un client achète du pain et du beurre, il achète du lait,à 85%
A.LAZRAQ 87
La recherche d’associations
(Analyse du panier de la ménagère)
Principe :
Rechercher les règles de type :
« Si pour un individu, la variable A=xA ,
la variable B=xB, etc., alors, dans 80%
des cas, la variable Z=xZ.,
cette configuration se rencontrant pour
20% des individus »
A.LAZRAQ 88
Aziz LAZRAQ 44
Analyse du panier de la
ménagère
Pour une règle :Si condition alors Résultat
Exemple :Si couches et samedi, alors bière (Wall Mart)
Indice de support=
proba(condition et résultat)
Indice de confiance=
proba(condition et résultat)
proba(condition)
A.LAZRAQ 89
A.LAZRAQ 90
Aziz LAZRAQ 45
Analyse du panier de la ménagère
(Exemple :tickets de caisse)
T1 A B C D E
T2 B C E F
T3 B E
T4 A B D
T5 C D
-Gain(règle)=gain(condition résulat) =
amélioration apportée par une règle par rapport au hasard.
Gain (règle)=indice_de_confiance (règle)/proba( résultat)=
proba(condition et résultat)
proba(condition)*proba(résultat)
Gain(C B) (2 / 5) /[(3 / 5) *(4 / 5)] 10 /12 5 / 6 1
A.LAZRAQ 91
A.LAZRAQ 92
Aziz LAZRAQ 46
Panier ménagère (suite)
Si une règle est: condition résultat
indice_de_confiance(règle inverse)=1-indice_de_confiance(règle)
Si Une règle est peu utile alors règle inverse très utile
A.LAZRAQ 93
A.LAZRAQ 94
Aziz LAZRAQ 47
Un autre arbre
MarSt Single,
Married Divorced
Tid Refund Marital Taxable
Status Income Cheat
NO Refund
1 Yes Single 125K No
Yes No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No On peut avoir plus d’un arbre qui modélise
10 No Single 90K Yes les mêmes données
10
A.LAZRAQ 95
Méthode d’affectation
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn
8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes
10
Apply
Model
Decision
Tree
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10
A.LAZRAQ 96
Aziz LAZRAQ 48
Appliquer le modèle sur une nouvelle
donnée
Test Data
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
A.LAZRAQ 97
GINI (t ) 1 [ p ( j | t )]2
j
C1 0 C1 1 C1 2 C1 3
C2 6 C2 5 C2 4 C2 3
Gini=0.000 Gini=0.278 Gini=0.444 Gini=0.500
A.LAZRAQ 98
Aziz LAZRAQ 49
Arbres de décision
Algorithme
a)Pour chaque attribut explicatif, on partitionne
l’ensemble des individus puis on calcule le degré
d’impureté associé à cette partition
b) On choisit comme premier attribut de
partitionnement celui donnant le degré d’impureté
le moins élevé.
c) Pour segmenter chacune des parties obtenues, on
réitère a) et b) pour chaque attribut explicatif.
d) On s’arrête quand la partie contient peu d’
individus ou qu’on a atteint le degré d’impureté 0.
A.LAZRAQ 99
Classe=Oui Classe=Non
CLASSE
Classe=Oui a b
REELLE (VP) (FN)
Classe=Non c d
(FP) (VN)
a d VP VN
P ré cisio n
a b c d TP VN FP FN
A.LAZRAQ 100
Aziz LAZRAQ 50
Exemple2:Arbres de décision
variables explicatives continues
Variable explicative y
?
y2
y1
x1 Variable explicative x
A.LAZRAQ 101
Arbres de décision
SI X x1 alors
Sinon SI Y y1 alors
X
Sinon SI Y y2 alors
X x1 X x1 Sinon
Y
Y y1 Y y2
y1 Y y2
Nœud de décision
Aziz LAZRAQ 51
Exemple3 :Arbre de décision (segmentation)
Fru <=377.50
3(100%)
Pain <=619.50
Fru <=555.00 0( 0%)
0( 0%) 0( 0%)
4( 50%) 4(100%)
4( 50%) Fru > 377.50 0( 0%)
0( 0%)
1( 20%)
4( 33%) Pain > 619.50
4( 80%)
4( 33%) 1(100%)
Fru > 555.00 0( 0%)
4( 33%) 0( 0%)
0( 0%) 0( 0%)
0( 0%)
4(100%)
A.LAZRAQ 103
5. Réseaux de neurones
Tentative de reproduction des structures du
cerveau et du raisonnement
Ensemble d'unités (neurones) connectées
transformant des entrées en sorties où
chaque connexion à un poids associé
La phase d'apprentissage permet d'ajuster les
poids pour produire la bonne sortie (la classe
en classification)
A.LAZRAQ 104
Aziz LAZRAQ 52
Analogie avec le cerveau
Le cerveau humain contient environ 100 milliards de
neurones, et chacun est connecté à environ 10.000
autres
Un neurone reçoit des impulsions électriques de ses
voisins via les dendrites. Si la somme des signaux
dépasse un certain seuil, il se produit une décharge
électrique de type tout ou rien appelée potentiel
d’action. Le potentiel d’action se propage le long de
l’axone, qui se ramifie en une multitude de
dendrites.
La terminaison d’une dendrite est une petite usine
de production chimique. Elle diffuse des
neurotransmetteurs chimiques dans un espace
appelé synapse, qui rejoint un autre neurone.
A.LAZRAQ 105
Modélisation du neurone
Signaux
Signal transmis
provenant des +
+ Somme Seuil si le seuil est
autres + franchi
neurones
A.LAZRAQ 106
Aziz LAZRAQ 53
Plus précisément …
On calcule une valeur
de sortie à partir d'un
ensemble de valeurs en
entrée
Les liens sont pondérés
par des poids Entrée En
wn
Réalise une combinaison
linéaire des entrées Entrée Ei wi wi Ei +b f
suivie d’une fonction de
Sortie
transfert (fonction à w1
seuil) Entrée E1
A.LAZRAQ 107
Combinaison/Activation
Entrée 1
0,5
0,1 0,75
Entrée 2 Combinaison Activation
Entrée 3 0,9
Aziz LAZRAQ 54
Type de fonction f d’activation
utilisée
A.LAZRAQ 109
Organisation en réseau
Réseau multi-couches totalement connecté
E1
S1
E2
S2
E3
S3
E4
A.LAZRAQ 110
Aziz LAZRAQ 55
Topologie
Choix du nombre de couches
entrées, 1 ou 2 couches cachées, sorties
Choix du nombre de neurones par couche
dépend des entrées et sorties
couches cachées intermédiaires
Normalisation des variables d'entrées
Variable continue centrée réduite [-1,+1]
Variable discrète codée ou valeurs attribuées aux
entrées
Sorties booléenne codant les classes
A.LAZRAQ 111
Perceptron multicouche
A.LAZRAQ 112
Aziz LAZRAQ 56
Apprentissage
Découverte de modèles complexes avec
affinage progressif
Le réseau s'adapte lors de la phase
d ’apprentissage
Plusieurs algorithmes possibles
le plus utilisé = rétropropagation
modification des poids wi par
rétropropagation
A.LAZRAQ 113
Principe
Off-Line ou Batch : après tous les
exemples
On-Line ou Stochastique : après chaque
exemple
Jusqu’à condition d’arrêt
A.LAZRAQ 114
Aziz LAZRAQ 57
Forces et Faiblesses
Permet d'approcher toute sorte de fonction
Coûteux en apprentissage:
calculs complexes
possibilité d'élaguer le réseau en connexions
peu applicable sur de larges BD
Effet boite noire
comportement difficile à expliquer
Autres applications possibles
prédiction, décodage, reconnaissance de formes,
etc.
A.LAZRAQ 115
A.LAZRAQ 116
Aziz LAZRAQ 58
Prévision Avec le réseau
trouvé
A.LAZRAQ 117
A.LAZRAQ 118
Aziz LAZRAQ 59
Knowledge Discovery Process
flow, according to CRISP-DM
see
Monitoring www.crisp-dm.org
for more
information
CRISP-DM,
signifie :
Cross-Industry
Standard Process
for Data Mining
A.LAZRAQ 119
Compléments
Le texte mining A.LAZRAQ 120
Le web mining
Aziz LAZRAQ 60
LOGICIELS de DATA MINING
NOM DU PRODUIT SOCIETE
SPAD SPAD
A.LAZRAQ 121
Logiciel Site
Knime http://www.knime.org/
Rapidminer http://rapid-i.com/
Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/
Orange http://www.ailab.si/orange
Weka http://www.cs.waikato.ac.nz/~ml/
R http://www.r-project.org/
A.LAZRAQ 122
Aziz LAZRAQ 61