Professional Documents
Culture Documents
El Mostafa YASSINE
Sommaire
Historique
Dfinitions
Pr requis
Modlisation
2
Data Warehouse: Historique
Annes 1960 :
Genral Mills et lUniversit Dartmouth, dans un projet conjoint, crent les termes "faits" et "dimensions".
1983 :
Teradata introduit dans sa base de donnes managriale un systme exclusivement destin la prise de dcision
1988 :
Barry Devlin et Paul Murphy publient l'article "Une architecture pour les systmes d'information financiers" ("An architecture
for a business and information systems") o ils utilisent pour la premire fois le terme "Datawarehouse".
1990 :
Red Brick Systems cre Red Brick Warehouse, un systme spcifiquement ddi la construction de l'Entrept de donnes.
1991 :
Bill Inmon publie Building the Data Warehouse (Construire l'Entrept de Donnes).
1995 :
Le Data Warehousing Institute, une organisation but lucratif destine promouvoir le datawarehousing, est fond.
1996 :
Ralph Kimball publie The Data Warehouse Toolkit (La bote outils de l'Entrept de donnes).
3
Data warehouse : Dfinition
W.B.Inmon :
Le DataWarehouse est une collection de donnes orientes sujet, intgres, non volatiles et
historises, organises pour le support dun processus daide la dcision.
4
Data warehouse :Objectifs
On veut faciliter la vie des analystes, en leur permettant daccder directement aux donnes
Deux personnes dans diffrents dpartements me montre la mme mesures avec des valeurs
diffrentes
On veut que nos managers prennent des dcisions semi structures bases sur nos donnes
oprationnelles
5
L'objectif de la Business Intelligence est d'optimiser les processus dcisionnels en transformant les
donnes de l'entreprise en informations pertinentes
Action
Pour les entreprises, l'enjeu est important car une prise de dcision plus rapide permet une meilleure ractivit aux
volutions de leur cosystme
6
Laide la dcision rpond des besoins diffrents dans lentreprise
Explorateurs de donnes
Jean - Je souhaite raliser
Synthse de Besoins frquents et rguliers des requtes et analyser
ces informations pour
Cration de leur propres rapports
donnes comprendre les volutions
de mon chiffre d'affaire
Utilisent des outils statistiques
Besoins irrguliers
Donnes synthtiques
Anne - Je cre souvent des
Formats prdfinis rapports et analyses et les met
disposition de mes Luc -J'ai besoin de
collaborateurs raliser des prvisions
Arthur- Je rafrachis
et analyse mes avec mon client pour
requtes et tableaux comprendre les impacts
de bords d'ventuelles campagnes
marketing
Visualisateur de donnes
Franois - J'analyse mes Besoins frquents et rguliers
indicateurs prdfins de Rafrachissement de rapports prdfinis
vente
Demandes aux autres acteurs de raliser de
nouveaux rapports et des analyses
sophistiques
7
Les applications dcisionnelles couvrent toutes les activits de lentreprise
Les clients
Profitabilit client Satisfaction Analyse comportement,
Life time value client segmentation, ciblage
Gestion ressour-ces
Performance de Formation
Analyse des cots &
Optimisation
la production et de recrutement
des achats
marges
La logistique
Fidlisation des
humaines
Optimisation Optimisation des salaris
des dlais Processus oprationnels
Gestion des affectations
Mainframe Mtadonnes
Garde la trace des donnes, de leur origine
et de l'exploitation faite
OLAP
ERP
ODS
Datamart 1 Consultation/Interrogation
Tableaux de bord - EIS
Tableur
Spcifique Requteurs
Data
Warehouse
Simulation/Prdiction
Datamart n Statistiques
Fichiers Plats Datamining
Retour infos de pilotage Outil d'alimentation - ETL
9
Dfinitions et domaines dapplication - 1
Data Warehouse
En Franais : Entrept de donnes
Collection de donnes intgres, contenant lhistorique de lentreprise,
Modle organis pour le support dun processus daide la dcision
Gestion des erreurs
10
Dfinitions et domaines dapplication - 2
Data Mart
Collection de donnes organises pour rpondre une problmatique dfinie daide la dcision
Formats de stockage les plus utiliss : toile / flocon (ROLAP) ou MOLAP / HOLAP
OLAP
Base de donnes proposant un format de stockage multidimensionnel (ROLAP, MOLAP, HOLAP)
Avantages :
Performances daccs,
Rgles dagrgation (mme complexes) inclues dans la dfinition du cube,
Gestion de la scurit,
Vision mtier simplifie lors de la conception,
Outil danalyse spcifique
Inconvnients :
Temps de gnration du cube ou de re-calcul lors de lajout de nouvelles donnes,
Non-matrise lespace de stockage et de swap ncessaire,
Utilisation avec un outil danalyse non-propritaire souvent problmatique ou limite
11
OLAP Dfinition suite
- Quelles est le volume de cahiers vendus aux magasins carrefour durant les 6 derniers mois ? -
Les cubes multidimensionnels Les cubes multidimensionnels
permettent de rpondre des questions stockent chaque information lmentaire
suivants des axes et des indicateurs l'intersection de tous les axes d'analyse
dfinis lavance (plan dtaill)
Quoi? Dimension
Dimension
Temps
Produit Produit
O?
Magasin
Combien?
Chaque case
Qui? stocke une valeur
Quel montant?
lmentaire :
Client Volume vendu de
cahiers Clairefontaine,
Carrefour Montreuil,
le 16 mai 2006
Dimension
Comment? Quand?
Magasin
Commande Temp L'outil de restitution peut fournir
lensemble des ventes de
s cahiers clairefontaine,
Carrefour Montreuil,
durant les 6 derniers mois glissants
12
Dfinitions et domaines dapplication - 3
Mtadonnes
Dfinition des donnes
Description du process dalimentation
Permettent des analyses dimpact trs pousses (de la source au rapport final impact)
Peuvent englober la partie gestion des erreurs pour suivre les causes de rejet et lhistorique des flux dalimentation
(nb de lignes insres, mises jours, rejetes, date de chargement, )
13
4 rservoirs de donnes pour 4 types de besoins
Donnes modlises spcifiquement pour l'aide la dcision rpondant des objectifs fonctionnels ou
organisationnels cibls mtier (datawarehouse dpartemental)
Datamart Usage tous publics (y compris externe, e.g. extranet)
14
Data Warehouse: Concept
DATA WAREHOUSE
15
Data Warehouse: Concept
Client
Police
16
Data Warehouse: Concept
Donnes intgres :
Normalisation des donnes
Dfinition dun rfrentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD
17
Data Warehouse: Concept
Ajout
Suppression
Accs
Modification Chargement
18
Data Warehouse: Concept
Donnes historises:
Les donnes persistent dans le temps
Mise en place dun rfrentiel temps
20
Data Warehouse: aspect technique
21
Donnes oprationnelles vs Donnes dcisionnelles
22
Data Warehouse: Pr requis
Besoins fonctionnels
Expectations sur les donnes, sources de donnes, entretiens avec les
utilisateurs finaux, limites et complexits
Pr requis de conformit
Copies archives, donnes stockes, flux de donnes, algorithmes pour
lajustement de donnes, scurit en ligne et copies des donnes hors ligne.
Data Profiling
qualit, primtre, contexte des sources de donnes, donnes manquantes ou
nulles, intervention humaine, suppression des donnes, planification de
dveloppement pragmatiques.
23
Data Warehouse: Pr requis
Pr requis de scurit
un paradoxe:
Entrept de donnes: publier largement les donnes
Scurit: restriction des donnes pour ceux qui en auront besoin
Pour les applications finales, une scurit bas sur les rles (pas de grant
ou revoke au niveau du SGBD)
24
Data Warehouse: Pr requis
Donnes Intgres
Les 360 degrs de la vue du mtier
25
Data Warehouse: Pr requis
26
Data Warehouse: Pr requis
Architecture
Outil ETL vs. dveloppement spcifiques
Automatiser lordonnancement
Qualit des donnes/Nettoyage des donnes
Mtadonnes
scurit
staging
27
Data Warehouse: Pr requis
28
Data Warehouse: Modlisation
29
Data Warehouse: Modlisation
30
Data Warehouse: Les types de modle
Modle en toile
PRODUIT
Id Produit Facts table FOURNISSEUR
31
Data Warehouse: Les types de modle
Modle en toile
32
Data Warehouse: Les types de modle
RESP PRODUIT
Id Responsable
Nom
Prnom TYPE FOURNISSEUR
Id Type Fournisseur
Lib Type Fournisseur
GAMME
Id Gamme
Gamme PRODUIT
Id Produit FOURNISSEUR
Id Responsable Id Fournisseur
Id Gamme Id Type Fournisseur
COULEUR
Id Couleur Raison Sociale Four
Id Couleur
Lib Produit
Couleur
Code EAN
Prix HT VENTES
Id Fournisseur
Id Client
SEMAINE Date
Id Produit CLIENT
Id Semaine
TEMPS CA
Semaine Id Dpartement
Date Quantit Id Client
Id Semaine Marge Nom
Id Mois Num Tl DEPARTEMENT
MOIS Jour semaine Age Id Dpartement
Id Mois Jour ouvr
Id Rgion
Id Trimestre
Dpartement
Mois REGION
TRIMESTRE
Id Rgion
Id Trimestre
Id Pays
Id Anne PAYS
Rgion
Trimestre
ANNEE Id Pays
Id Anne Pays
Anne
Modle en flocon
33
Data Warehouse: Les types de modle
Modle en flocon
Une table de fait et des dimensions dcomposes en sous hirarchies.
On a un seul niveau hirarchique dans une table de dimension.
La table de dimension de niveau hirarchique le plus bas est relie la table de fait.
On dit quelle a la granularit la plus fine.
Avantages
Normalisation des dimensions
conomie despace disque
Inconvnients
Modle plus complexe (jointure)
Requtes moins performantes
34
Data Warehouse: Les types de modle
Date Date
Id_magasin Id_produit Mois
Nom_magasin Id_magasin Trimestre
Enseigne Quantit Anne
Ville Montant
Date
Id_produit Id_produit
Id_fournisseur libell
Nom_fournisseur Id_fournisseur
Quantit taille
Adresse_fournisseur catgorie
Cot
Id_entrept Id_produit
Nom_entrept Id_entrept
Adresse_entrept Quantit
Dimensions partages
35
Data Warehouse: Les types de modle
Gamme Anne
Mois
Rgion
Id_mois
Code rgion Ventes mensuelles Mois
Rgion
par rgion Anne
The tables Ventes mensuelles par rgion , ventes journalires par gamme ,
Gamme , Rgion et Mois are aggregates tables
36