Professional Documents
Culture Documents
donnes
NEGRE Elsa
Universit Paris-Dauphine
2014-2015
Contexte et problmatique
Lentrept de donnes
Dfinition
Diffrence avec un SGBD
Caractristiques
Modlisation multidimensionnelle
Niveau conceptuel
Niveau logique
Niveau physique
Reprsentation et manipulation
Le cube OLAP
Solutions existantes
Contexte (1)
Besoin :
Qui :
Comment :
Contexte (2)
Problmatique (1)
Nous avons donc :
traiter
Distribues
Htrognes
Trs dtailles
Synthtiser / rsumer
Visualiser
Analyser
Problmatique (2)
Problmatique (3)
7
Sources : Th. Ester, HEC Lausanne
8
Sources : Lydie Soler, AgroTechParis
9
Sources : Lydie Soler, AgroTechParis
Lentrept : Dfinition
transactionnels (OLTP)
Permettre dinsrer, modifier, interroger
rapidement, efficacement et en scurit les
donnes de la base
Slectionner, ajouter, mettre jour, supprimer
des tuples
Rpondre de nombreux utilisateurs
simultanment
11
Fonctions dun DW :
Systmes
(OLAP)
Regrouper, organiser des informations
provenant de sources diverses
Intgrer et stocker les donnes pour une vue
oriente mtier
Retrouver et analyser linformation
rapidement et facilement
12
DW
Nombreux
Employs
Peu
Analystes
Donnes
Alphanumriques
Dtailles / atomiques
Orientes application
Dynamiques
Numriques
Rsumes / agrges
Orientes sujet
Statiques
Requtes
Prdfinies
one-use
Peu de donnes
(courantes)
Beaucoup dinformations
(historises)
Dpend de lapplication
Prise de dcision
Court
Long
Trs souvent
Priodiquement
Utilisateurs
Accs
But
Temps dexcution
Mises jour
13
14
Sources : Lydie Soler, AgroTechParis
mtiers
Ne tiens pas compte de lorganisation
fonctionnelle des donnes
15
Sources : Lydie Soler, AgroTechParis
Donnes intgres
Normalisation
des donnes
Dfinition dun rfrentiel unique
16
Sources : Lydie Soler, AgroTechParis
prises
Copie des donnes de production
17
Sources : Lydie Soler, AgroTechParis
18
Sources : Lydie Soler, AgroTechParis
19
Le datamart
20
Sources : Lydie Soler, AgroTechParis
21
Sources : C. Chrisment, IRIT
Plus en dtails
22
Modlisation multidimensionnelle
Niveau conceptuel
Niveau logique
Niveau physique
23
Niveau conceptuel
Les concepts:
Dimensions
et hirarchies
Faits et mesures
24
Dimension (1)
Remarque importante :
Dimension (2)
Cl de substitution
Attributs de la
dimension
Dimension produit
Cl produit (CP)
Code produit
Description du produit
Famille du produits
Marque
Emballage
Poids
26
Hirarchie (1)
Hirarchie (2)
Anne
Dpartement
Semestre
Rgion de ventes
Semaine
Ville
Mois
Jour
Secteur de ventes
Client
28
Granularit (1)
Choix de la granularit
29
Granularit (2)
30
Fait
Sujet analys
un ensemble d'attributs appels mesures (informations oprationnelles)
Exemple : 250 000 euros est un fait qui exprime la valeur de la mesure Cot
des travaux pour le membre 2002 du niveau Anne de la dimension Temps
et le membre Versailles du niveau Ville de la dimension Dcoupage
administratif.
La table de fait contient les valeurs des mesures et les cls vers les tables
de dimensions
31
Mesure
32
Cls
Tables de dimension
Cl
primaire
Tables de fait
Cl
compose
33
Modlisation
34
Avantages :
Facilit de navigation
Nombre de jointures limit
Inconvnients :
Redondance
36
Sources : Lydie Soler, AgroTechParis
Constellation (1)
Srie dtoiles
Fusion
37
Constellation
(2)
38
Sources : http://gankahhwee.com
Niveau logique
(Relational-OLAP)
MOLAP (Multidimensional-OLAP)
HOLAP (Hybrid-OLAP)
39
ROLAP (1)
Avantages :
Inconvnients :
ROLAP (2)
41
Sources : EPFL, Lausanne
MOLAP (1)
Avantages :
Inconvnients :
Rapidit
42
MOLAP (2)
43
Sources : EPFL, Lausanne
HOLAP (1)
Avantages / inconvnients :
Bon
HOLAP (2)
45
Sources : EPFL, Lausanne
Modlisation
46
Avantages :
Inconvnients :
48
Sources : Lydie Soler, AgroTechParis
Cube (1)
gographique,
Cube (2)
50
Niveau physique
Optimisation : indexes,
51
Ralisation dun DW
3 techniques :
Top-down [Inmon]
Bottom-up [Kimball]
Middle-out
52
Top-Down
Il faut donc connatre lavance toutes les dimensions et tous les faits.
Avantages :
Inconvnients :
Mthode lourde
Mthode contraignante
Ncessite du temps
53
Crer les datamarts un par un puis les regrouper par des niveaux
intermdiaires jusqu' obtention d'un vritable entrept.
Avantages :
Simple raliser,
Rsultats rapides
Efficace court terme
Inconvnients :
54
Avantages :
Prendre le meilleur des 2 approches
Dveloppement dun modle de donnes dentreprise de
manire itrative
Dveloppement dune infrastructure lourde quen cas de
ncessit
Inconvnients :
implique, parfois, des compromis de dcoupage (dupliquer
des dimensions identiques pour des besoins pratiques).
55
56
Conception
Acquisition des donnes
Dfinition des aspects techniques de la
ralisation
Dfinition des modes de restitution
Stratgies dadministration, volution,
maintenance
57
1 - Conception
Dfinir la finalit du DW :
Quelle activit de lentreprise faut-il piloter?
Quel est le processus de lentreprise modliser?
Qui sont les dcideurs?
Quels sont les faits numriques?
Quest ce qui va tre mesurer?
Quelles sont les dimensions ?
Comment les gestionnaires dcrivent-ils des donnes qui
rsultent du processus concern?
en toile / flocon ?
et/ou Cube?
et/ou Vues matrialises?
58
jour rgulire
ETL :
Outil :
Offrant
un environnement de dveloppement
Offrant des outils de gestion des oprations et de
maintenance
Permettant de dcouvrir, analyser, et extraire les
donnes partir de sources htrognes
Permettant de nettoyer et standardiser les donnes
Permettant de charger les donnes dans un entrept
60
Extraction :
Depuis
Priodique
Difficult
et rpte
sources
Trier, Nettoyer
63
Si
pas de MAJ :
insertion de nouvelles donnes
Archivage des donnes anciennes
Sinon
Attention
ETL ELT
Lapproche
65
3 Aspects techniques
Contraintes
logicielles,
matrielles,
humaines,
66
4 - Restitution
= But du processus dentreposage,
= Conditionne souvent le choix de
larchitecture et de la construction du DW
Toutes les analyses ncessaires doivent
tre ralisables !
et outils danalyse
Outils de data mining
67
5 Administration, maintenance
68
69
La table multidimensionnelle
Prsente
correspond
70
Exemple :
71
(Forage)
Slection / projection sur les donnes du cube
Restructuration / rorientation du cube
72
Drill-down
Inverse du roll-up
Reprsente les donnes un niveau de granularit
infrieur
73
Roll-Up
Drill-down
74
Slection
Tranche du cube obtenue par prdicats selon une
dimension
Dice
Projeter(Rgion, Produit)
75
76
77
78
Pivot
(Temps.Anne, Gographie.Dpartement
-> Temps.Anne, Vhicules.Couleur)
79
80
Push (Vhicules.Couleur)
81
82
83
Rfrences
Exercice
On considre un entrept de donnes permettant dobserver les ventes
de produits dune entreprise. Le schma des tables est le suivant :
CLIENT (id-client, rgion, ville, pays, dpartement)
PRODUIT (id-prod, catgorie, cot-unitaire, fournisseur, prixunitaire, nom-prod)
TEMPS (id-tps, mois, nom-mois, trimestre, anne)
VENTE (id-prod, id-tps, id-client, date-expdition, prix-de-vente,
frais-de-livraison)
Questions
1. Indiquer quelles sont la (les) table(s) de fait et les tables de
dimension de cet entrept.
2. Donner pour chaque dimension, sa (multi-) hirarchie.
3. Donner la reprsentation du schma en toile de lentrept selon la
notation de Golfarelli.
4. On veut transformer ce schma en schma en flocon. Donner la
nouvelle reprsentation de la table TEMPS (ajouter des paramtres
/ attributs, si ncessaire)
85