Professional Documents
Culture Documents
Plan
• Introduction
• Eléments de la théorie des systèmes
d'informations
• Les entrepôts de données (Datawarehouse)
• Les datamart
• Architecture
• Modélisation
2
Présentation
• Besoin: prise de décisions stratégiques et tactiques
• Quoi: productivité de l'entreprise, réactivité des hommes, clients
• Qui: le système de pilotage de l'entreprise (Décideurs)
3
Eléments de la théorie des SI
• Référentiel des complexités croissantes
• L'entreprise système.
4
Référentiel des complexités
croissantes
Objectif: fournir une échelle pour mesurer la complexité
d'un système
• Niveau 1 : objet passif (une pierre)
• Niveau 2 : actif (ampoule électrique)
• Niveau 3 : actif et régulé, (l’objet refuse certains
comportements)
L’objet est doté d’un autre processeur chargé de
cette régulation (la cocotte‐minute).
• Niveau 4 : l’objet s’informe
Le processeur de régulation s’informe sur l’activité du
processeur actif. Ce modèle représente le schéma de base
de la cybernétique
5
Référentiel des complexités
croissantes
6
Référentiel des complexités
croissantes
• Niveau 5: L’objet décide de son activité
On passe d’un comportement programmé à un comportement imprévisible
•Information Décision
. •Processeur
•décisionnel
•Information représentation
•Processeur
•actif
7
Référentiel des complexités
croissantes
• Niveau 6: L’objet à une mémoire
Le processeur décisionnel fait appel aux
informations non seulement de l’état actuel,
mais aussi aux informations des états passés.
•Processeur
•Décisionnel
•Mémorisation
•Mémoire
•Processeur
•actif
8
Référentiel des complexités
croissantes
• Niveau 7: L’objet se coordonne
Le processeur actif devient une fédération
de processeurs coordonnés (système opérant).
9
Référentiel des complexités
croissantes
• Niveau 8: L’objet imagine et s’auto organise :
• Elaborer des plans d’actions
• Imaginer l’organisation de ses sous systèmes
10
Référentiel des complexités
croissantes
Niveau 9 : l’objet est capable de définir ses objectifs.
•Objectifs :
•SD
11
L'entreprise système
• Définition: Le SI est une représentation de
l’activité du SO et/ou du SP, et de ses
échanges avec l’environnement
12
Typologie des systèmes d'information
• SIP: Systèmes d’information de production:
Dans ces SI l’information est gérée par le
SP
SO de l’entreprise.
SD SIC SF
• SIO (systèmes d'information
opérationnels):Information de
SIO représentation et de coordination de
SO
l’activité du SO destiné au sous système de
régulation dans le SP.
• SID (Systèmes d’information décisionnels).
• SIS : SI à portée stratégique
• SSI: SI d’aide à la stratégie
• Autre notation :(Tardieu : Le triangle stratégique, structure et
technologie de l’information)
• Systèmes d’information‐stratégiques SI‐S
• Systèmes‐d’informations stratégiques S‐IS
13
Informatisation d'un SI
SIO • SIO: Système d'informatisation
organisationnel, résultat de l’activité de
SII l’entreprise (Informations, tâches
humaines/Informatisées)
• SII: Système d'information informatisé.
• Sciences de la gestion SIO (naturel)
• Disciplines du génie logiciel SII (artificiel)
• L’état actuel des connaissances ne nous permet pas d’avoir une
méthode de complexité 8 ou 9 (SI auto adaptatif ‐ SI auto exécutif)
donc les méthodes de conception actuelles modélisent l’entreprise
uniquement au niveau 7 de complexité. (À organisation stabilisée).
14
Les données pertinentes
• Sources de données
– Sources internes
• Bases de données de production
• Bases créées par les utilisateurs (bases relationnelles, fichiers plats).
– Sources externes
• Internet.
• Organismes
• Caractéristiques de ces données:
– Dispersées et hétérogènes
– Détaillées
– Peu/pas adaptées à l’analyse
– Volatiles: pas d’historisation systématique
• Données pertinents
– informations dont la variation permet de dévoiler des dysfonctionnements ou même
prévoir des problèmes futurs
– Types d'indicateurs
• Indicateurs internes: produits, services, fonctionnement, Personnel
• Indicateurs entrants/sortants: relations clients/fournisseurs
• Indicateurs externes: pouvoir d'achat des consommateurs, Réglementation,
conjoncture du marché, concurrence, tendance technologique…
15
Le processus de prise de décision
16
Définition d’un DW
• Le Data warehouse (entrepôt de données) est Une
collection de données orientées sujet, intégrées, non
volatiles et qui varie dans le temps, organisées pour le
support d’un processus d’aide à la décision (Définition:
[W. H. Inmon] )
– Sujet
• Les données sont structurées par sujet ou par thème (clients,
produits, personnel…)
– Données intégrées
• Les données sont issues du SIO de l'entreprise et éventuellement de
sources externes à l'entreprise.
• Les différents données provenant de sources différentes (BDR, XML,
fichiers plats,…) et hétérogènes sont intégrés et homogénéisées dans
une structure unique.
17
Définition d’un DW
• Homogénéisation:
– Synonymie :Par exemple deux attributs nom_salarié et nom_employe dans
deux sources différentes désignent la même entité.
– Homonomie: deux noms identiques qui désignent des entités différentes.
– Une même information peut être exprimée dans deux sources avec des
types ou des unités différentes.
• Les données sont non volatiles et historisées: la portée
temporelle des données dans un DW et plus longue que
celle des BDO.
• BDO: valeur courante des données . Les autres données sont soit
détruites soit archivées.
• DW: les données sont historisées
• En général , dans un DW chaque donnée fait référence au temps.
18
Domaines d'applications
• Déterminer et contrôler la performance de l’entreprise
• Mesurer et gérer les risques financiers.
• Planifier la stratégie Achat.
• Banque
– Risques d’un prêt, prime plus précise
• Assurance
– Risque lié à un contrat d’assurance (voiture)
• Santé
– Épidémiologie
– Risque alimentaire
• Marketing
– Améliorer la connaissance client
– Ciblage de clientèle
– Déterminer des promotions
• Logistique
– Adéquation demande/production
19
Data Marts ou magasins de données
• C'est un DW spécialisé dans un sujet ou un métier particulier (Finance,
Marketing,…).
• Intérêt d'un DataMart
– Moins de données à gérer
– Amélioration des temps de réponse
– Plus simple à mettre en œuvre qu'un DW
20
Modèles de données
• Le modèle
Poste1 Poste2 Poste 3 d'intégration unifie
les données
• Le modèle de
Modèle de diffusion modélise
présentation la structure de
l'entrepôt de
Modèle de
données (Serveur
diffusion OLAP).
• Le modèle de
Modèle présentation définit
d'intégration la manière dont les
données seront
présentées à
l'utilisateur.
22
Les 12 règles OLAP
• Un système OLAP doit respecter les 12 règles suivantes (Edgar Frank Codd en
1993).
– Transparence: l'utilisateur doit accéder à la base par des outils standards
– Accessibilité: les sources qui servent à alimenter le système, doivent être
facilement accessible à travers la structure logique de l'entrepôt
– Vue Dimensionnelle: les données sont structurées en dimensions métiers
– Dimension générique: Toutes les dimensions doivent avoir la même structure
– Architecture client serveur
– Gestion des matrices creuses
– Multi‐utilisateurs
– Simplicité d'utilisation
– Rapports de sortie ergonomiques
– Temps de réponse stable: le nombre de dimensions et la taille de la base peuvent
augmenter sans influencer les performances du système.
– Nombre illimité de dimension et de niveaux d'agrégation:
– Croisement des dimensions: le système doit être capable de gérer les calculs
associés entre les dimensions sans faire appel à l'utilisateur
23
Les outils OLAP
• Les outils relationnels OLAP (ROLAP)
– Les données sont stockées dans une base de données
relationnelle, moteur OLAP permet de simuler le comportement
d’un SGBD multidimensionnel
– .
• Les outils MOLAP
– Utilisent un système multidimensionnel « pur » qui gère les
structures multidimensionnelles natives (les cubes)
– Accès direct aux données dans le cube
• Les outils HOLAP (Hybrid OLAP)
– tables de faits et tables de dimensions stockées dans SGBD
relationnel (données de base)
– données agrégées stockées dans des cubes
24
Le cube
• Modélisation multidimensionnelle des données facilitant
l’analyse d’une quantité selon différentes dimensions:
– Temps
– Localisation géographique
– Produits
– Fournisseurs
– Clients
– …
• Les calculs sont réalisés lors du chargement ou de la mise à
jour du cube
• Un cube permet de visualiser les données selon plusieurs
dimensions
• Un cuboïde est un cube de dimension n
25
treillis des cuboïdes
26
Exemple de cube
27
Treillis correspondant
28
Opérations typiques de l’OLAP
• Roll up : consolider (résumer) les données :
Passer à un niveau supérieur dans la hiérarchie
d’une dimension
• Drill down : l’inverse du Roll‐up : descendre dans
la hiérarchie d’une dimension
• Slice et Dice (tranche et extraction): Projection et
sélection du modèle relationnel
• Pivot (rotate): Réoriente le cube pour
visualisation
29
Modélisation d'un DW
• Inconvénients du modèle Entité/Relation
– Schéma très/trop complet pour l'analyse des données
– Inapproprié pour l’analyse
• Le modèle multidimensionnelle
– Concepts
• Les faits: mesurent l'activité ( exemple: quantité vendue)
• Dimensions: Axes d'analyse
• Attributs des dimensions
– Opérations sur les données
• Drill Down: une donnée agrégée est visualisée à un niveau de détail plus fin
• Consolidation: les données sont visualisées à un niveau plus agrégé
• Slicing and Dicing : visualisation des données selon différentes perspectives.
– Principe
• Ne pas trop normaliser les tables
30
Table de faits
• Table principale du modèle dimensionnel
• Contient les données observables (les faits) sur le sujet étudié
selon divers axes d’analyse (les dimensions)
Table de faits des ventes
Clés étrangères Clé Vendeur
vers les Clé produit
dimensions Clé Mois
Clé zone
Quantité vendue
Faits
Montant des ventes
31
Types des faits
• Fait additif: additionnable suivant toutes les dimensions (ex:
chiffre d’affaire)
• Fait semi additif: additionnable seulement suivant certaines
dimensions
– Exemple : nombre de clients, dimension produit (un même client peut
acheter plusieurs produits) .
• Fait non additif: non additionnable quelque soit la dimension
(comptage des faits ou affichage 1 par 1, ex: prix unitaire d'un
produit)
32
Granularité ou finesse la table de faits
• La granularité définit le niveau de détails de la
table de faits
– mois, jour, heure du jour
– région ,magasin , rayonnage
33
Table de dimension
• Axe d’analyse selon lequel vont être étudiées les faits
• Contient le détail sur les faits
• Dimension = axe d’analyse
– Client, produit, temps…
• Granularité d’une dimension : nombre de niveaux hiérarchiques (ex:
continent, pays, région, ville)
Dimension produit
Clé primaire Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
Poids
34
Hiérarchie des dimensions
Hiérarchie multiple Hiérarchie simple
Continent
Année
Pays
Semestre Saison Semaine
Région
Trimestre
Ville
Mois Date
Quartier
Rue
35
La dimension Date
Dimension Date
• Commune à l’ensemble du ID Date (CP)
DW
Jour de la semaine
• Reliée à toute table de faits
Jour du mois
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
36
Exemple de modèle en étoile
Dimension Temps
ID temps
année
mois
Dimension produit
Di i d it
jour
Dimension Magasin ID produit
…
ID magasin nom
description code
Table de faits Achat
bl d f i h
ville prix
ID client
surface poids
ID temps
… groupe
ID magasin
famille
ID région
…
ID produit
Dimension Region Quantité achetée Dimension Client
ID région Montant des achats ID client
pays nom
description prénom
district vente adresse
…. …
37
Le modèle en flocon
• Dérivé du modèle en étoile
• Les tables de dimension sont normalisées et le
redondances sont éliminées.
• Comparaison étoile/flocon
– Flocon
• Le modèle en flocon permet de montrer les hiérarchies entre
dimensions
• La normalisation dans le modèle en flocon permet de réduire la taille
des tables.
– Etoile
• La dé‐normalisation du modèle permet d'améliorer les performances
d'exécution des requêtes.
• Le modèle est plus facile à comprendre par l'utilisateur non
informaticien
• Nombre de jointures limité.
38
Modèle en flocon
• Une table de fait et des dimensions décomposées en sous
hiérarchies
• On a un seul niveau hiérarchique dans une table de dimension
• La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait. On dit qu’elle a la granularité la plus fine
• Avantages:
– Normalisation des dimensions
– Économie d’espace disque
• Inconvénients:
– Modèle plus complexe (jointure)
– Requêtes moins performantes
39
Modèle en flocon
Dimension produit
i i d i
ID produit
Dimension Temps ID groupe
ID temps nom
annee code
mois prix
Dimension Magasin jour Dimension groupe
poids
ID magasin … ID groupe
…
description ID famille
Table de faits Achat
bl d f i h
ville nom
ID client
surface …
ID temps
…
ID magasin
Dimension Region
ID région Dimension Famille
ID région
ID produit ID famille
ID division vente
Quantité achetée nom
pays
Montant des achats …
description
…. Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
adresse 40
Continent
…
Etapes de modélisation d'un DW
• Choisir les processus métiers à modéliser :
– Exemple : le processus "vente" .
• Définir la granularité de chaque processus:
– Définir ce que représente chaque enregistrement dans la
table des faits (exemple : une ligne de ticket de caisse).
• Choisir les dimensions
– Exemple: date, produit, magasin, promotion
• Identifier les faits numériques:
– Les faits ayant des granularités différentes doivent
appartenir à des tables de fais différentes.
41
Exemple
Produit
Magasin ID produit
ID magasin nom
description Ventes code
ville ID Date prix
surface ID magasin poids
… ID Promotion groupe
ID produit famille
ID transaction POS …
Promotion Quantité Date
ID région Montant ID client
pays Coût nom
description Bénéfice brut prénom
district vente adresse
…. …
42
Exemple
Produit
ID produit
nom
Catégorie
Marque
Magasin Département
ID magasin Ventes groupe
description ID Date famille
ville ID temps …
surface ID magasin
… ID Promotion Date
ID produit ID Date
ID transaction POS Date
Promotion Quantité Date complète
ID région Montant jour de la semaine
pays Coût Mois
description Bénéfice brut Année
district vente Mois fiscal
…. Férié
Week End 43
Types de dimension
• Dimension dégénérée
• Dimension à évolution lente
• Dimension à évolution rapide
44
Dimension dégénérée (Degenerate
dimension)
• La dimension dégénérée est une clé de
dimension dans la ‘’table’’ des faits et qui
n'est pas associée à une table dimension
(exemples: numéro de POS, numéro de
commande).
45
Dimensions à évolution lente
• Les attributs d'une dimension peuvent subir des
changements.
– Un client peut changer d’adresse, avoir des enfants,
...
– Un produit peut changer de noms, de composition;
3 solutions possibles:
– Écrasement de l’ancienne valeur
– Versionnement
– Valeur d’origine / valeur courante.
46
Dimensions à évolution lente
Solution 1: Écrasement de l’ancienne valeur
– Avantage:
• Facile à mettre en œuvre
– Inconvénients:
• Perte de la trace des valeurs antérieures des attributs
Solution 2: Ajout d’un nouvel enregistrement.
– Avantages:
• Permet de suivre l’évolution des attributs
• Permet de segmenter la table de faits en fonction de l’historique
– Inconvénient:
• Accroit le volume de la table
Solution 3: Ajout d’un nouvel attribut
– Avantages:
• Avoir deux visions simultanées des données :
– Inconvénient:
• Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires
47
Dimension à évolution rapide
• Subit des changements très fréquents (tous les mois) dont on veut préserver
l’historique
• Solution: isoler les attributs qui changent rapidement et créer une mini‐dimension
Dim client Mini Dimension
Clé_client Clé
Nom Revenus
Prénom Nb_enfants
Adresse
…
Revenus
Nb_enfants
48
Dictionnaire de données
• C'est un référentiel de métadonnées destiné
aux utilisateurs et à l'administrateur du DW
– Une métadonnée permet de qualifier une
données: sémantique, règle de calcul,
provenance, qualité…
Alimentation d'un DW
• Opérations sur les données
– Extraction
• Cette étape consiste à extraire d'une manière sélective
les données appropriées.
– Transformation
• Filtrer, trier, homogénéiser, nettoyer
• Une même donnée peut avoir une structure ou une
valeur différente selon la source (production,
utilisateurs, externe).
• Une même entité peut apparaître plusieurs fois avec
différents attributs selon les sources consultées.
50
Alimentation d'un DW
– Chargement dans l'entrepôt
• Opérations de calcul et d'agrégation.
• Définir la fréquence de chargement ( en général
quotidiennement en début ou en fin de journée)
• ETL
Outil permettant d’automatiser les chargements
dans l’entrepôt
51