You are on page 1of 65

Evry - M2 MIAGE Entrepts de Donnes

Modlisation dcisionnelle

D. Ploix - M2 MIAGE - Conception EDD

Plan
Construction de lentrept :
les faits et les dimensions

Prparation de lanalyse :
Les agrgats les rapports et les cubes

Optimisation Exemple danalyse


Transport

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Faits et dimensions


Une mthode de modlisation faits/dimensions part du processus mtier analys vers lanalyse :
1. 2. 3. 4. Identification du processus mtier analys tablissement du niveau de granularit de lanalyse tablissement des dimensions qui sappliquent chaque ligne de fait Identification des caractristiques numriques qui sappliquent chaque ligne de fait

Cette mthode demande une vision complte et dcrite du processus mtier et de son implmentation. Elle permet de construire le tableau qui croise les processus mtier (et les diffrentes tapes des processus mtier) et les dimensions :
Processus\ Dimension Vente au dtail Stock entrept Commande Date Entrept X X X
D. Ploix - M2 MIAGE - Conception EDD

Produit X X X

Magasin X

Promotion X X
3

Modlisation dcisionnelle Faits et dimensions


Deux type dinformations caractrisent les faits :
Des mesures numriques propre chaque instance de faits (quantit, prix, ) Des dimensions caractristiques plus ou moins complexes (fournisseur, produit, )

Les mesures numriques propres chaque fait sont lobjet de calculs danalyse (montant global, moyenne globale, ) et les dimensions constituent des facteurs de slection des faits tudis (produits de telle ou telle marque, ).
D. Ploix - M2 MIAGE - Conception EDD 4

Modlisation dcisionnelle Faits et dimensions


partir de lentrept de donnes intgrant lensemble des faits et dimensions constitutif des processus mtier, une analyse doit tre ralise pour identifier les lments ncessaires aux analystes (pour construire les datamarts, agrgats et autres cubes). Mthode didentification du modle dcisionnel partir de lanalyse cible :
Que voulez vous analyser ? Faits Quels sont vos critres d'analyse ? Dimensions Jusqu' quel niveau de dtail voulez vous aller ?
Mesures dans les faits Attributs des dimensions

La modlisation sera ralise laide dun tableau par fait :


Chaque colonne dsigne une dimension Chaque lments de chaque colonne dsigne les caractristiques des dimensions Dans la premire colonne sont places les caractristiques intgres la table de faits (mesures, facteurs). Dimension 1 Dimension 2 Dimension 3

Attribut1 Dim 1
Attribut 2 Dim 1

Attribut 1 Dim 2
Attribut 2 Dim 2

Attribut 1 Dim 3
Attribut 2 Dim 3

FaitX : Attribut1, Attribut2,

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Faits et dimensions


Exemple :
Le dpartement en charge des approvisionnement des magasins souhaite faire une tude sur la fidlit des clients en priode de vacances pour les produits forte valeur ajoute. Les analystes souhaiteraient en particulier identifier les dplacements de population dune rgion vers une autre pour pouvoir mieux approvisionner les magasin des produits consomms par les clients pendant leurs vacances.
Date Date Libelle mois Client Id client Magasin Id magasin Nom Produit Dsignation Localisation du client Code postal Ville Localisation du magasin Code postal Ville

Libelle anne

Taille

Rgion
Pays

Rgion
Pays

Fait de vente : quantit, prix unitaire

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Schma en toile

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle les faits


Quelques rgles [conseils] sur les faits [Kimball]
Une ligne [un enregistrement] dans une table de faits correspond une mesure. Une mesure est une ligne [un enregistrement] dans une table de faits. Les caractristiques les plus utiles dune table de faits sont numriques et additives. Toutes les caractristiques dans une table de faits doivent tre de mme granularit. Dans les modles dimensionnels, les tables de faits expriment des relations de plusieurs plusieurs entre les dimensions.
D. Ploix - M2 MIAGE - Conception EDD 8

Modlisation dcisionnelle ce qui est fait des faits


Les calculs raliss dans les EDD sont des calculs dagrgation : pour un ensemble de faits partageant des caractristiques communes, on va raliser des oprations dagrgation sur des caractristiques numriques des faits ( ce qui est analys ). Exemple de fonctions dagrgations sur les caractristiques numriques :
Somme : par exemple, la quantit totale vendue, Min, max : plus petite / grande quantit Moyenne : quantit moyenne Numration : Nombre de ventes effectues par catgorie de produit Nombre de valeurs diffrentes : nombre de prix pour la vente dun produit

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle caractristiques des faits


Exemple de tables de faits pour les ventes :
Le positionnement de caractristiques numriques unitaires dans la table de fait est essentielle pour la performance des calcul raliss au cours des analyses : cela vite les jointures sur les lments la base du calcul ralis. Les questions induites sont alors :
Quelles mesures unitaires intgrer ? Quel niveau de normalisation doit-on appliquer ?
D. Ploix - M2 MIAGE - Conception EDD 10

Modlisation dcisionnelle caractristiques des faits


Mesures intgrer :
Toutes les mesures qui seront ncessaires aux analyses (agrgations) ralises.

Niveau de normalisation :
La question se pose lorsque des mesures caractrisant un fait sont de nature fonctionnelle proche (diffrents types de quantits, de prix, ) sont prsents dans la table de fait. Cette normalisation ne doit, gnralement, pas tre mise en uvre car elle aura comme effet :
La multiplication du nombre de fait, La ralisation de jointure lors des calculs

Attention bien distinguer lusage dune caractristiques comme lment danalyse ( ce qui est analys ) par rapport un usage comme critre de slection dune partie des faits ( critre danalyse ), dans le premier cas, il sagit dune caractristique numrique (non normalise), et dans le second dune dimension.
D. Ploix - M2 MIAGE - Conception EDD 11

Modlisation dcisionnelle caractristiques des faits


Exemple de fait complexes : instantan rcapitulatif du pipeline de traitement des commande. Lensemble des points de vue sur la commande traite seront prsents par autant de quantits de type diffrents. Des facteurs faisant correspondre une unit de quantification dun dpartement lautre permettent den grer la diversit (par exemple : la distribution et livraison sont raliss par casiers lorsque la production travaille de manire unitaire, ). Le placement des facteurs de conversion dans la table de faits garanti leur utilisation correcte. La prsentation des donnes aux diffrents types dutilisateurs sera ralise par la cration dautant de vues qui intgreront les quantits qui les concernent dans leur unit de mesure (avec application du facteur).
D. Ploix - M2 MIAGE - Conception EDD 12

Modlisation dcisionnelle caractristiques des faits


La majeur partie des mesures sont additives sur toutes les dimensions. Par exemple : montant dune vente, quantit vendue, cots du produit vendu,
Certain types de mesures numrique reprsentent des valeurs qui ne peuvent tre additionnes selon toutes les dimensions danalyse. Par exemple, niveau de stock est additif (agrgation via somme) sur une dimension magasins mais ne le sera pas sur la dimension temps. Dautres oprations dagrgations restent utilisables (moyenne, min, max, ). Dautres mesures ne sont additive sur aucune dimension. Par exemple : le prix unitaire du produit ou le ratio bnfice brut / chiffre daffaire (= marge brute).

D. Ploix - M2 MIAGE - Conception EDD

13

Modlisation dcisionnelle caractristiques des faits


Pour le cas de mesures non additives comme la marge brute (calcule en divisant le bnfice brut par le chiffre daffaire) et dont mesures utilises pour son calcul peuvent ltre pour un ensemble dlments (groupe de produits, de magasin, ), on va intgrer tous les composants utiles au calcul dans la base de faits et raliser le calcul de la mesure dynamiquement par rapport lensemble de faits considrs.
De mme pour les fonctions dagrgation, les rsultats de certaines sont additive (somme des valeurs), dautres semi additives (min / max), dautres non additives (nombre de faits) On dfinira donc, pour chacune des caractristique numrique (agrge ou non) de la table de faits et pour chaque fonction dagrgation, les dimensions sur lesquelles elles sont additives (utilisables) et celles pour lesquelles elles ne le sont pas.
D. Ploix - M2 MIAGE - Conception EDD 14

Modlisation dcisionnelle la granularit des faits


Les faits de granularit diffrentes ne peuvent tre fusionns mme sils semblent sappliquer un mme objet. Exemple typique : entte dune commande (frais dexpdition, ) et lignes de la commande (produit, quantit, ). Solution :
Soit deux tables de faits sont construites : une pour les faits de haut niveau (entte de commande) et une pour les faits de niveau plus fin (lignes de commande). Soit les faits de plus haut niveau (frais dexpditions) sont rpartis un niveau plus dtaill (entre les lignes de la commande) en suivant un facteur dallocation (en fonction du poids unitaire et de la quantit, ),
D. Ploix - M2 MIAGE - Conception EDD 15

Modlisation dcisionnelle la granularit des faits


On distingue alors trois grandes familles de granularit :
Granularit de transaction : mesure unitaire dune action mtier. Granularit de linstantan priodique : mesure des actions mtier dans un intervalle fixe (semaine, mois, ). Granularit de linstantan rcapitulatif : mesure des actions mtier sur une priode non prdtermine (instantan des productions)

Les faits transactionnels constituent la base de lentrept de donnes dentreprise. Les faits priodiques et rcapitulatifs sont gnralement utiliss dans les datamarts. Ils seront construits par lagrgation des faits transactionnels (constitution dagrgas).
D. Ploix - M2 MIAGE - Conception EDD 16

Modlisation dcisionnelle la granularit des faits


Pour reprendre lexemple des ventes :
Les faits transactionnels identifient chacun des tickets de caisse, Les faits dinstantans priodiques identifient les ventes journalires, hebdomadaires, mensuelles, Les faits dinstantans rcapitulatifs identifient les ventes sur un mois glissant, depuis le dbut du mois,
D. Ploix - M2 MIAGE - Conception EDD 17

Modlisation dcisionnelle la granularit des faits


Caractristique Priode dans le temps reprsent Grain Chargement des tables de faits Mise jours des lignes de faits Dimension date Faits Transaction Point dans le temps Une ligne par vnement Insertion Pas de mise jour Date de la transaction Activit de la transaction Instantan priodique Intervalles rguliers prvisibles Une ligne par priode Insertion Pas de mise jour Date de la fin de la priode Performance dans un intervalle prdfini Instantan rcapitulatif Dure indtermine gnralement courte Une ligne pour la vie de lentit Insertion et mise jours Mise jour pour chaque activit Dates multiples pour des tapes standard Performance sur une dure de vie limite

D. Ploix - M2 MIAGE - Conception EDD

18

Modlisation dcisionnelle ce qui est fait des dimensions


Les dimensions sont les critres danalyse permettant de fixer le champs smantique des faits analyss.
Les clients, les produits, les dates, les adresses de livraisons, les adresses de clients,

Dans une dmarche durbanisation, les dimensions les plus utiles sont issues des donnes de rfrence [cf MDM] (ou transverses lentreprise ou conformes [Kimball]) car les caractristiques en sont partages au niveau smantique et syntaxique par toute lentreprise. Ces dimensions auront la mme signification pour toutes les tables de faits qui y font rfrence
D. Ploix - M2 MIAGE - Conception EDD 19

Modlisation dcisionnelle Construire les dimensions


Attribut des dimensions : il est important de considrer la fonction des attributs des dimensions. Ils vont tre utiliser par les utilisateurs comme critre de slection des faits. Ainsi, il est prfrable de placer des attributs supplmentaires aux dimensions pour en faciliter lusage. La liste des attributs sera donc construite en fonction du contexte du processus mtier et des analyses.
Exemple typique : la dimension date se verra complter dattributs qualifiant la date : jour fri, numro de jour dans la semaine, dans le mois, dans lanne, numro de semaine dans le mois, dans lanne, trimestre calendrier,

Il est important de noter quil est infiniment plus simple de nafficher quune partie des caractristiques dune dimension lutilisateur par rapport au travail demand pour en rajouter une postriori dans lentrept de donnes.

D. Ploix - M2 MIAGE - Conception EDD

20

Dimensions dgnres en ligne de fait : Dans certain cas de figure, les dimensions peuvent se rduire un numro unique (numro de commande, de lettre, de facture, ). Dimension qui ne sapplique pas tous les faits : certain cas de dimension (promotion par exemple) ne sont pas intrinsquement lis aux faits. Il est alors ncessaire dajouter une ligne lment null dans la dimension pour viter des cls trangres nulle dans la table de faits. Pour la table de promotion, on ajoutera ainsi un fait pas de promotion . Dimension jeu de rle : la dimension date peut jouer diffrents rles pour, par exemple, un fait qui traite les clients dhtels : date darrive, date de dpart, date de rservation, On dit alors quelle joue plusieurs rle. Elle nest cre quune fois et la cl entre la table de faits et la dimension en prcise le rle.
D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Construire les dimensions

21

Modlisation dcisionnelle Construire les dimensions


Grand nombre de dimension : Lorsque la modlisation fait apparatre un grand nombre de dimensions (> 15), un travail de rationalisation (regroupement) des dimensions doit tre ralis pour en rduire le nombre quitte raliser des dimensions avec beaucoup dattributs. Une solution ce problme peut tre la mise en place de dimension fourre-tout (junk dimension) qui intgrera les sries dindicateurs faible cardinalit ou de drapeaux (valeurs oui/non) comme autant dattributs.
ID dimension indicateurs de commande 1 Type de rglement Groupe type de rglement Cash Cash Indicateur commande UE / hors UE Union Europ. Indicateur de commission Commissionnable Indicateur type de commande Normal

2 3 4 5 6

Cash Cash Cash MasterCard VisaCard

Cash Cash Cash Crdit Crdit

Union Europ. Union Europ. Hors UE Union Europ. Union Europ.

Hors Commission Hors Commission Commissionnable Commissionnable Commissionnable

Prsentation Normal Prsentation Normal Prsentation


22

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Dimension volution lente (SCD)


Les valeurs des enregistrement des dimensions peuvent tre amens voluer. Par exemple, un produit va changer de nom, de rayon, de numro de version (par ex. logiciels) Trois mthodes sont possible pour grer ces volutions : 1. crasement de la valeur par la nouvelle

Solution la plus simple : ni la table de faits ni la table de dimension ne change dans leur structure ou leur organisation. Dsavantage : il y a perte de lhistorique.

2.

Ajout dune ligne de dimension pour y intgrer la modification (mme si elle ne concerne quune sous partie des attributs).

La nouvelle ligne aura un nouvel ID unique et il est donc important de prvoir une cl primaire diffrente de la cl primaire naturelle, Elle permet de segmenter la table de faits en fonction de lhistorique.
Permet dassocier lancienne valeur de lattribut directement avec la nouvelle

3.

Ajout dune colonne de dimension

Dans le cas de caractristique de dimension volution rapide, il est prfrable de les isoler dans une dimension spcifique (ex. dimension client).
D. Ploix - M2 MIAGE - Conception EDD 23

Modlisation dcisionnelle Dimension volution lente (SCD)


Exemple de traitement dune dimension volution lente : le rayon de vente dun produite High Tech Cl produit Description Rayon EAN Valeur 12345 IntelliKids ducation 2311225588112 dorigine Rayon EAN Ecrasement Cl produit Description
12345 IntelliKids Description IntelliKids IntelliKids Description Rayon IntelliKids Stratgie Stratgie Rayon ducation Stratgie 2311225588112 EAN 2311225588112 2311225588112

Ajout ligne

Cl produit 12345 29030

Ajout colonne

Cl produit 12345

Rayon antrieur EAN ducation 2311225588112


24

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Normalisation des dimensions


La question de la conservation dune forme dnormalise vs une forme normalise se pose. Deux coles coexistent :
Les pro normalisation :
conomie despace : les informations sont stockes une seule fois dans les dimensions, Facilit de mise jours en cas de changement de valeur.

Les anti normalisation :


Lconomie despace est trs relative compare la table de faits, Complexification de la navigation dans les dimensions : la simplicit est un des principaux objectifs du modle dcisionnel, lajout de tables de dimension complexifie (dans notre exemple, passage de 5 9 dimensions). Loptimisation SGBD est moins performante (index bitmap), parcours de hirarchie,

Conclusion de Kimball (trs anti mais une rfrence) :


Les tables de dimension doivent rester des tables physiques plates

Les outils de restitution (la suite microsoft par exemple) savent restituer une hirarchie fonctionnelle issue de tables physiques plates.
D. Ploix - M2 MIAGE - Conception EDD 25

Modlisation dcisionnelle Dimensions hirarchiques


Les moteurs de bases de donnes (transactionnel comme dcisionnel) traitent mal les structures hirarchiques. Par exemple : comment reprsenter la hirarchie suivante :

D. Ploix - M2 MIAGE - Conception EDD

26

Modlisation dcisionnelle Dimensions hirarchiques


La reprsentation naturelle sera sous la forme de tables rcursive : Ce qui rend complexe lintgration dans une dimension et, mme dans une modlisation transactionnelle, rend le code SQL permettant didentifier la position hirarchique et les anctres complexe.
D. Ploix - M2 MIAGE - Conception EDD
ID Famille 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ID Pre Description 0 Nourriture 1 Produits frais 1 Produits sec 2 Lgumes 2 Poissons 2 Viande 3 Conserves 3 Ptes 4 Tomates 4 Salades 5 Truites 6 Buf 6 Mouton 7 Sauces 8 Spagetti

27

Modlisation dcisionnelle Dimensions hirarchiques


Une solution est lutilisation dattributs pour la position hirarchique (speed table)
ID Racine 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ID Famille 0 2 3 2 2 2 3 3 2 2 2 2 2 3 3 ID Sous Famille ID Catgorie 0 0 0 0 0 0 4 0 5 0 6 0 7 0 8 0 4 9 4 10 5 11 6 12 6 13 7 14 8 15 Description Nourriture Produits frais Produits sec Lgumes Poissons Viande Conserves Ptes Tomates Salades Truites Buf Mouton Sauces Spagetti
28

D. Ploix - M2 MIAGE - Conception EDD

Modlisation dcisionnelle Dimensions hirarchiques


Tables passerelles : elles indiquent la distance la racine (position dans la hirarchie) et le fait dtre une feuille ou une racine. Par exemple, la table passerelle pour la partie droite (produits sec) de la structure exemple. Lusage conseill est de construire une vue table de faits + table de hirarchie cl unique (profondeur la racine fix, ) vitant les valeurs multiples et donnant une flexibilit sans multiplier les dimensions jeu de rle.
Cl parent Cl famille 1 1 1 1 1 1 3 3 3 3 3 7 7 14 8 8 15 1 3 7 8 14 15 3 7 8 14 15 7 14 14 8 15 15 Niveau depuis Drapeau inf Drapeau sup parent 0 1 2 2 3 3 0 1 1 2 2 0 1 0 0 1 0 N N N N O O N N N O O N O O N O O O N N N N N N N N N N N N N N N N

D. Ploix - M2 MIAGE - Conception EDD

29

Modlisation dcisionnelle Dimensions hirarchiques


Chaque mthode ses avantages :
Speed table : plus simple maintenir et intgrer aux dimensions, Table passerelle : plus simple utiliser (tous les lments de niveau 2,

Et ses inconvnients :
Speed table : trs complexe dajouter un niveau de profondeur dans la hirarchie, Table passerelle : la jointure entre la table de faits et la dimension passe par la table passerelle. Il faut faire attention ne pas compter plusieurs fois le mme fait.

Pour les deux : attention aux modifications de structure hirarchique


D. Ploix - M2 MIAGE - Conception EDD 30

Modlisation dcisionnelle Schma normalis : en flocon


Les dimensions Date et Localisation ne sont pas normalises car des attributs sont fortement redondants : libelle mois, libelle anne, rgion, pays, Leur normalisation permet la construction dun schma en flocon :

D. Ploix - M2 MIAGE - Conception EDD

31

Plan
Construction de lentrept :
les faits et les dimensions

Prparation de lanalyse :
Les agrgats, les rapports et les cubes

Optimisation Exemple danalyse


Transport

D. Ploix - M2 MIAGE - Conception EDD

32

Modlisation dcisionnelle Les agrgats, les rapports et les cubes


Une fois lentrept de donnes, les faits, les dimensions, voir les agrgats construits, on passe loutillage de la navigation dans les donnes. Solutions :
Publication dun rapport visualisant le rsultat de recherches/analyses rgulires sur lentrept, Construction danalyse spcifique visant chercher une partie de faits (ou des oprations de sommes sur les faits) sans ides priori des dimensions parcourues. Construction de tables dagrgats Construction de cubes
D. Ploix - M2 MIAGE - Conception EDD 33

Modlisation dcisionnelle Les agrgats


Lagrgation est le moyen de passer dune granularit fine une granularit plus importante. Par exemple, la table des faits des tickets de caisses contient lensemble des tickets. Si les analyses sont uniquement bases sur une priode journalire (voir hebdomadaire ou mensuelle), chaque interrogation de lentrept va demander de recalculer les mmes sommes. Des tables de faits agrgs (tables dagrgats) vont alors tre construites sur le niveau requis pour les analyses.

D. Ploix - M2 MIAGE - Conception EDD

34

Modlisation dcisionnelle Les agrgats


Avantage : gain significatif du temps de calcul des analyses Inconvnient : lespace ncessaire au stockage de lentrept croit de manire importante (mme si les tables dagrgats sont, pas nature, de taille moindre aux tables de faits initiales). Usage : gnralement utilis pour passer de lentrept de donnes dentreprise vers les datamarts conu de manire prcise pour des champs danalyse.
D. Ploix - M2 MIAGE - Conception EDD 35

Modlisation dcisionnelle Les agrgats


La gestion de la granularit dans la modlisation dcisionnelle suit alors le schma suivant
Analyse du processus mtier
Faits de type Transaction de granularit la plus fine

Construction des faits orients analyse


Agrgation stable pour des priodicit (pas que temporelles) fixes : cration dinstantans priodiques Agrgation dynamique pour des priodicits (pas que temporelles) de taille variables : cration dinstantans rcapitulatifs

Mise en place des calculs dagrgats en mode batch en parallle du processus dalimentation des donnes. Les mthodes utilises pour lagrgation des faits sont lies au niveau dadditivit des mesures prsentes dans les faits transactionnels.
D. Ploix - M2 MIAGE - Conception EDD 36

Modlisation dcisionnelle Les rapports


La diffrence entre un rapport danalyse et la navigation dans un cube et que le rapport est statique et prsente une vue unique sur les donnes. La construction de rapports reviendra alors :
Identifier les informations mtier ncessaires une activit de pilotage : nombre de produit vendu par XXX sur la priode YYY dans la rgion ZZZ, Les donnes de lentrept la source des informations et les calculs composant le rapport : Fait X, Dimension Y, agrgation, fonction sur les donnes, La forme la plus approprie pour la lecture des informations : table de valeur, lment graphique (camembert, ),

Le risque le plus courant est la ralisation dun nombre trop important de rapports par rapport au besoin mtier.
Le point dattention rside dans lidentification du besoin de navigation dans le cube par un nombre rduit dutilisateur par rapport la consultation dun nombre dinformation limit pour le pilotage courant de lactivit mtier.
D. Ploix - M2 MIAGE - Conception EDD 37

Modlisation dcisionnelle Les cubes


Les cubes sont un moyens de naviguer dans les donnes de lentrept afin den dcouvrir des proprits sous diffrents points de vues. Par exemple, nous voulons pouvoir analyser les ventes dun produit ou dune gamme de produits selon une priode donnes dans toutes les rgions puis, pour affiner notre analyse, souhaiter voir quelles sont les ventes pour une rgion particulire mais sur une priode de temps diffrente, Ce type de navigation est facilit via lutilisation de cube.
D. Ploix - M2 MIAGE - Conception EDD 38

Modlisation dcisionnelle Les cubes


Voici un exemple dentrept :

D. Ploix - M2 MIAGE - Conception EDD

39

Modlisation dcisionnelle Les cubes


Chaque ligne du cube correspond un produit, chaque colonne une rgion et chaque profondeur une anne. Chaque point du cube correspond un fait correspondant aux diffrentes donnes des dimensions (vente de Modems en Asie en 2000). Si on prend la tranche (slice) Asie, on obtient toutes les ventes des diffrents produits en Asie de 2000 2003. La tranche 2000 permet davoir la table des donnes correspondant aux ventes des diffrents produits dans le monde. La tranche Modems permet davoir la table des donnes de ventes des Modems dans le monde de 2000 2003.
D. Ploix - M2 MIAGE - Conception EDD 40

Modlisation dcisionnelle Les cubes


One peut galement choisir une ligne ou une sous partie du cube. Ces oprations (de slection dune partie des donnes du cube), sappelle Drill Down lorsquon rduit la partie des donnes du cube slectionnes et Drill Up lorsquon llargie.
D. Ploix - M2 MIAGE - Conception EDD 41

Modlisation dcisionnelle Les cubes


Il est galement possible de varier le grain dagrgation des donnes dans les cubes. Cette opration de concentration (agrgation) est appele Roll-Up. Linverse sera Roll-Down

D. Ploix - M2 MIAGE - Conception EDD

42

Modlisation dcisionnelle Les cubes


Enfin, il est galement possible de changer lorientation du cube (et de changer les points de vue) en le faisant pivoter :

D. Ploix - M2 MIAGE - Conception EDD

43

Modlisation dcisionnelle Les cubes


La construction dun cube danalyse reviendra slectionner un ensemble de mesures dun fait (ou un ensemble de mesures dune agrgation issues dun fait) et les dimensions qui seront parcourues. Exemple :
Pour la mesure quantit du fait Vente, Les niveaux hebdomadaire, mensuels et annuels de la dimension date, Lensemble des caractristiques de la dimension produit, Lensemble des caractristiques des clients.

Il pourra alors tre gnr au sein du systme dentrept de donnes, les diffrents croisements possibles entre les mesures et dimensions choisies (lments du cube) permettant de raliser les diffrentes rotations et agrgations (drill-up et down).
D. Ploix - M2 MIAGE - Conception EDD 44

Plan
Construction de lentrept :
les faits et les dimensions

Prparation de lanalyse :
Les agrgats les rapports et les cubes

Optimisation Exemple dentrept


Transport (inspir de [Kimball2002])

D. Ploix - M2 MIAGE - Conception EDD

45

Optimisation
Loptimisation dun dataware est trs li au type dusage :
Lutilisation des cubes entrane la gnration de requtes dynamiques pour lesquelles des indexes doivent tre pralablement poss Les rapports tant constitues de requtes particulires, leur optimisation consiste dans loptimisation de leur plan dexcution

D. Ploix - M2 MIAGE - Conception EDD

46

Indexation dun DW
Les SGBD fournissent diffrents types dindexes :
Indexes bases sur Btree :
Cluster : les enregistrements sont ordonns selon lindex, les feuilles de larbre B sont les pages de donnes. La taille de lindex peut tre estime 5% du stockage de lintgralit des cls dindexes (dans larbre) + un identificateur unique (interne, ajout par le systme) pour chaque enregistrement (les feuilles de larbre ne sont pas stockes dans lindex). Non cluster : les enregistrements ne sont pas ordonns selon lindex : les feuilles de larbre sont stockes dans lindexe et contiennent les valeurs de cls ainsi que les numros denregistrements (ou de blocs en Oracle). La taille de lindex gnr dpendra du nombre de valeurs

Indexes de type bitmap :


Utilisables pour des valeurs 0/1. Stockage trs efficace (1 bit par enregistrement) et convient aux sollicitations de type dcisionnelle. Lclatement de liste de valeur (classe dun billet) en drapeau est mme conseill par certain concepteur de DW afin de permettre lutilisation de ce type dindexe.

Les autres types dindexes comme Hashcode ou bass sur une fonction utilisateur ne sont pas prsents dans tous les SGBD mais doivent, si prsents, tre utiliss si appropris.

D. Ploix - M2 MIAGE - Conception EDD

47

Indexation dun DW
Tables de faits :
Les indexes de type B cluster seront utiliss pour les cls primaires de la table de faits.
Attention toutefois aux effets de bords sur lajout de donnes qui peut donner lieu une restructuration de la table si des valeurs viennent sintgrer entre des valeurs existantes et modifier la structure cluster de la table,

Les indexes de type B non cluster pour les cls trangres vers les dimensions trs sollicits (date, ..),

La table de faits sera partitionne selon la dimension danalyse la plus sollicit (souvent la date), Tables de dimensions
Index cluster pour la cl primaire, Indexes de type bitmap ou B pour les valeurs des dimensions trs sollicites
Les indexes de type bitmap sont particulirement appropris aux problmatiques DW : accs unique, stockage optimis. Il peut ainsi tre intressant de construire des ensembles dattributs drapeau (valus 0/1) la place dun attribut avec liste de valeur pour en permettre une indexation de type bitmap.

Une indexation plus systmatique que la table de faits est possible du fait de la taille moindre de ces tables par rapport la table de faits.
D. Ploix - M2 MIAGE - Conception EDD 48

D. Ploix - M2 MIAGE - Conception EDD

49

Optimisation, points dattention


Les optimisations sont fortement lies au SGBD sous jacent et larchitecture de dploiement choisie. La source principales des problmes rside dans le mode de paralllisation des traitements : Pour SQL Serveur, des verrous sur les tables partitionnes au niveau de la table ou des partitions peuvent empcher la construction de lots de donnes appropris. Il est galement noter que la parralllisation des traitements a t amlior entre 2005 et 2008. Pour Oracle, la rpartition de requtes DW sur plusieurs nuds dun RAC nest pas conseille dans le cas de jointure sur les rsultats car cela entrane une trs forte communication dinter-connect. Il est galement important de bien comprendre le mode de fonctionnement des SGBD et des actualisations qui sont ncessaires leur bon fonctionnement (statistiques, r-indexation, gestion des segments, ). Oprations qui peuvent, dans le cas de tables de grande taille, devenir trs lourdes pour les systmes oprationnels. Les DW tant les types de calculs mettant en chalenge la capacit des SGBD, leur surveillance et administration correcte en est particulirement cruciale.
D. Ploix - M2 MIAGE - Conception EDD 50

Plan
Construction de lentrept :
les faits et les dimensions

Prparation de lanalyse :
Les agrgats les rapports et les cubes

Optimisation Exemple dentrept


Transport (inspir de [Kimball2002])

D. Ploix - M2 MIAGE - Conception EDD

51

Sujet de lentrept
Le service marketing dune compagnie arienne veut analyser les vols de chaque participant de son programme passagers rguliers. Il sintresse aux vols que prennent les passagers, aux avions quils utilisent, aux tarifs de base quils paient, la frquence laquelle ils passent une classe suprieure, la faon dont ils obtiennent et font usage de leur bonus kilomtrique de passagers rguliers, il veut savoir sils ragissent sur certains vols, connatre la dure de leur sjours, ainsi que la promotion de ceux qui sont dans la catgorie premire classe, affaire et conomique. Le processus dentreprise mis en jeu par cette tude est lactivit de vol proprement dite. Nous ne nous intressons pas la rservation ni lmission de billets qui ne concerne pas un passager rgulier.

D. Ploix - M2 MIAGE - Conception EDD

52

Identification des faits


La problmatique principale dans ltablissement des faits provient de la granularit de la notion de voyage :
Trajet par un avion entre deux aroports, Trajet dun voyage assur par un mme avion mais avec une escale (qui sera alors un segment et qui correspond une ligne sur un billet davion), Trajet dun aroport de dpart un aroport darrive avec changement davion (qui sera alors un vol et qui correspond la demande du client), Voyage complet comprenant le vol aller et le vol retour.

Lquipe danalyse dcide de se baser sur le niveau segment qui est le plus fin ayant un sens pour le service marketing. Si une extension de lentrept un usage par lquipe de programmation des vols, lensemble des trajets devront alors tre intgrs.
D. Ploix - M2 MIAGE - Conception EDD 53

Identification des dimensions


Les dimensions danalyse du segment sont
Caractristiques du segment Les aroports de dpart et darrive, Les dates et heures de dpart prvu, darrive prvu, de dpart rel, darrive relle du segment, Les caractristiques des passagers rguliers Les caractristiques du vol (avion, classe, ), Les caractristiques du tarif appliqu.
D. Ploix - M2 MIAGE - Conception EDD 54

Caractristique du segment
Ces caractristiques (i.e. les critres danalyse) sont pour le segment (mesures dans la table de faits) :
Non additif :
Numro de voyage (Identifiant unique du voyage, correspondant une dimension dgrade), Numro de billet (DD), Numro dordre du segment (DD),

Additifs :
Chiffre daffaire brut du segment, Distance du segment en KM, Miles gagns au niveau du segment, Dure du vol du segment, Nombre de minutes de retard au dpart, Nombre de minutes de retard larrive, Nombre total de minutes de retard
D. Ploix - M2 MIAGE - Conception EDD 55

Caractristique des aroports


Les caractristiques retenues lors de lanalyse sont :
Nom, Trigramme, Rgion, Ville, Code postal, Pays, Fuseau horaire, Nombre de terminaux, Capacit maximum, Salon prmium,
D. Ploix - M2 MIAGE - Conception EDD 56

Caractristiques des dimensions date/heure


Granularit de la date/heure :
Si on construit une seule dimension qui regroupe la date et lheure, il y aura une explosion du nombre de lignes dans la dimension pour un degr de finesse de la granularit au niveau des minutes (voir des secondes). Dans ce type de configuration, il est prfrable de construire une dimension date et une dimension heure.

D. Ploix - M2 MIAGE - Conception EDD

57

Caractristiques des dimensions date


Caractristiques gnrales des dates :
Date, Jour de la semaine, Numro de jour anne calendaire, Numro de jour mois calendaire, Numro de jour anne comptable, Numro de jour mois comptable, Indicateur de dernier jour de semaine, Indicateur de dernier jour de mois, Numro de semaine calendaire dans lanne, Numro de mois calendaire dans lanne, Anne-mois calendrier (AAAA-MM) Trimestre calendaire, Semestre calendaire, Anne calendaire, Trimestre comptable, Semestre comptable, Anne comptable,

Que lon peut complter avec des informations spcifiques par pays :
Nom du pays, Drapeau jour fri civil, Nom jour fri civil, Drapeau jour fri religieux, Nom jour fri religieux, Indicateur jour de travail, Nom de saison

D. Ploix - M2 MIAGE - Conception EDD

58

Caractristiques des passagers


Les caractristiques retenues sont :
Nom, Prnom, Date de naissance, Statu marital, Nombre denfants, Ville client, Rgion client Code postal client, Date inscription, Drapeau voyages professionnels, Drapeau voyages touristiques,

Lanalyse des caractristiques fait apparaitre des donnes de catgorisation qui peuvent changer en cours danne, elles apparatront donc comme une dimension part entire dans le modle cible.
Nom de la catgorie, Nombre de KM parcourus minimum, Nombre de KM parcourus maximum, Rduction tarifaire

D. Ploix - M2 MIAGE - Conception EDD

59

Caractristiques du vol
Les caractristiques retenues lors de lanalyse sont :
Avion utilis, Classe du sige (conomique, premire, business, ), Drapeau place hublot

D. Ploix - M2 MIAGE - Conception EDD

60

Caractristiques du tarif
Le tarif indique lensemble des lments relatifs au calcul du prix du segment :
Promotion lie au mdia de vente Promotion lie une opration spcifique Rduction promotionnelle applique Rduction achat lavance, Pnalit de rsiliation, Pnalit de modification,
D. Ploix - M2 MIAGE - Conception EDD 61

Rcapitulatif des dimensions


Segment Aroport dpart Aroport arrive Date dpart prvue Date arrive prvue Date dpart relle Date arrive relle Passager Type Passager Vol Tarif

Nom Trigramme Rgion Ville Code postal Pays Fuseau horaire Nombre de terminaux Capacit maximum Salon prmium

Date Jour de la semaine Numro de anne calendaire, Numro de anne comptable, Indicateur de dernier jour de Numro de calendaire dans lanne calendaire comptable Pays.Nom du pays Pays.Drapeau jour fri civil Pays.Nom jour fri civil Pays.

Nom Prnom Date naissance Statu marital Enfants Ville Rgion Code postal Date inscription Professionnel Tourisme

Nom catgorie Nb KM min Nb KM max Rduction tarifaire

Avion Classe Drapeau hublot

Promotion mdia Promotion spcifique Rduction applique Rduction achat lavance Pnalit rsiliation Pnalit modification Utilisation milles Nombre de milles utilis

Numro de voyage Numro de billet Numro dordre du segment Chiffre daffaire brut du segment Distance du segment en KM Miles gagns au niveau du segment Dure du vol du segment Nombre de minutes de retard au dpart Nombre de minutes de retard larrive Nombre total de minutes de retard

D. Ploix - M2 MIAGE - Conception EDD

62

Prparation des rapports


Quels sont les rapports attendus :
Il sintresse aux vols que prennent les passagers, aux avions quils utilisent, [], la frquence laquelle ils passent une classe suprieure Le primtre tant trs large, il faut distinguer le besoin de rapport du besoin de navigation dans un cube :
Un rapport mensuel sur le nombre de milles et le chiffre daffaire cumul par catgorie de passagers et par mois, Un rapport quotidien sur le nombre de milles et le chiffre daffaire cumul par catgorie de passagers et par jour du mois en cours.
D. Ploix - M2 MIAGE - Conception EDD 63

Prparation des cubes


Pour raliser les navigations danalyses dcrites dans lnonc, le cube prendra lensemble des mesures du fait. Lensemble des dimensions analyses seront parcourues. Les caractristiques utiles seront :
Date : mois, annes calendaires et comptables Vol : classe, avion Aroport : rgion, ville, code postal, pays Passager : rgion, ville, code postal, pays, Type de passager : nom catgorie Tarif : promotion mdia et spcifique

D. Ploix - M2 MIAGE - Conception EDD

64

Exercice Caractristiques numriques


Le sujet portera sur la tlphonie mobile.
Le service marketing de FreeMobile souhaite tudier lvolution de lutilisation des diffrents types dabonnements par les consommateurs en fonction du temps et de la localisation gographique.

Sujet :
Identifiez diffrentes caractristiques numriques Proposez deux niveaux de granularit pour chaque caractristiques Indiquez ladditivit de chaque caractristique
D. Ploix - M2 MIAGE - Conception EDD 65

You might also like