Professional Documents
Culture Documents
Modlisation dcisionnelle
Plan
Construction de lentrept :
les faits et les dimensions
Prparation de lanalyse :
Les agrgats les rapports et les cubes
Cette mthode demande une vision complte et dcrite du processus mtier et de son implmentation. Elle permet de construire le tableau qui croise les processus mtier (et les diffrentes tapes des processus mtier) et les dimensions :
Processus\ Dimension Vente au dtail Stock entrept Commande Date Entrept X X X
D. Ploix - M2 MIAGE - Conception EDD
Produit X X X
Magasin X
Promotion X X
3
Les mesures numriques propres chaque fait sont lobjet de calculs danalyse (montant global, moyenne globale, ) et les dimensions constituent des facteurs de slection des faits tudis (produits de telle ou telle marque, ).
D. Ploix - M2 MIAGE - Conception EDD 4
Attribut1 Dim 1
Attribut 2 Dim 1
Attribut 1 Dim 2
Attribut 2 Dim 2
Attribut 1 Dim 3
Attribut 2 Dim 3
Libelle anne
Taille
Rgion
Pays
Rgion
Pays
Niveau de normalisation :
La question se pose lorsque des mesures caractrisant un fait sont de nature fonctionnelle proche (diffrents types de quantits, de prix, ) sont prsents dans la table de fait. Cette normalisation ne doit, gnralement, pas tre mise en uvre car elle aura comme effet :
La multiplication du nombre de fait, La ralisation de jointure lors des calculs
Attention bien distinguer lusage dune caractristiques comme lment danalyse ( ce qui est analys ) par rapport un usage comme critre de slection dune partie des faits ( critre danalyse ), dans le premier cas, il sagit dune caractristique numrique (non normalise), et dans le second dune dimension.
D. Ploix - M2 MIAGE - Conception EDD 11
13
Les faits transactionnels constituent la base de lentrept de donnes dentreprise. Les faits priodiques et rcapitulatifs sont gnralement utiliss dans les datamarts. Ils seront construits par lagrgation des faits transactionnels (constitution dagrgas).
D. Ploix - M2 MIAGE - Conception EDD 16
18
Dans une dmarche durbanisation, les dimensions les plus utiles sont issues des donnes de rfrence [cf MDM] (ou transverses lentreprise ou conformes [Kimball]) car les caractristiques en sont partages au niveau smantique et syntaxique par toute lentreprise. Ces dimensions auront la mme signification pour toutes les tables de faits qui y font rfrence
D. Ploix - M2 MIAGE - Conception EDD 19
Il est important de noter quil est infiniment plus simple de nafficher quune partie des caractristiques dune dimension lutilisateur par rapport au travail demand pour en rajouter une postriori dans lentrept de donnes.
20
Dimensions dgnres en ligne de fait : Dans certain cas de figure, les dimensions peuvent se rduire un numro unique (numro de commande, de lettre, de facture, ). Dimension qui ne sapplique pas tous les faits : certain cas de dimension (promotion par exemple) ne sont pas intrinsquement lis aux faits. Il est alors ncessaire dajouter une ligne lment null dans la dimension pour viter des cls trangres nulle dans la table de faits. Pour la table de promotion, on ajoutera ainsi un fait pas de promotion . Dimension jeu de rle : la dimension date peut jouer diffrents rles pour, par exemple, un fait qui traite les clients dhtels : date darrive, date de dpart, date de rservation, On dit alors quelle joue plusieurs rle. Elle nest cre quune fois et la cl entre la table de faits et la dimension en prcise le rle.
D. Ploix - M2 MIAGE - Conception EDD
21
2 3 4 5 6
Solution la plus simple : ni la table de faits ni la table de dimension ne change dans leur structure ou leur organisation. Dsavantage : il y a perte de lhistorique.
2.
Ajout dune ligne de dimension pour y intgrer la modification (mme si elle ne concerne quune sous partie des attributs).
La nouvelle ligne aura un nouvel ID unique et il est donc important de prvoir une cl primaire diffrente de la cl primaire naturelle, Elle permet de segmenter la table de faits en fonction de lhistorique.
Permet dassocier lancienne valeur de lattribut directement avec la nouvelle
3.
Dans le cas de caractristique de dimension volution rapide, il est prfrable de les isoler dans une dimension spcifique (ex. dimension client).
D. Ploix - M2 MIAGE - Conception EDD 23
Ajout ligne
Ajout colonne
Cl produit 12345
Les outils de restitution (la suite microsoft par exemple) savent restituer une hirarchie fonctionnelle issue de tables physiques plates.
D. Ploix - M2 MIAGE - Conception EDD 25
26
27
29
Et ses inconvnients :
Speed table : trs complexe dajouter un niveau de profondeur dans la hirarchie, Table passerelle : la jointure entre la table de faits et la dimension passe par la table passerelle. Il faut faire attention ne pas compter plusieurs fois le mme fait.
31
Plan
Construction de lentrept :
les faits et les dimensions
Prparation de lanalyse :
Les agrgats, les rapports et les cubes
32
34
Mise en place des calculs dagrgats en mode batch en parallle du processus dalimentation des donnes. Les mthodes utilises pour lagrgation des faits sont lies au niveau dadditivit des mesures prsentes dans les faits transactionnels.
D. Ploix - M2 MIAGE - Conception EDD 36
Le risque le plus courant est la ralisation dun nombre trop important de rapports par rapport au besoin mtier.
Le point dattention rside dans lidentification du besoin de navigation dans le cube par un nombre rduit dutilisateur par rapport la consultation dun nombre dinformation limit pour le pilotage courant de lactivit mtier.
D. Ploix - M2 MIAGE - Conception EDD 37
39
42
43
Il pourra alors tre gnr au sein du systme dentrept de donnes, les diffrents croisements possibles entre les mesures et dimensions choisies (lments du cube) permettant de raliser les diffrentes rotations et agrgations (drill-up et down).
D. Ploix - M2 MIAGE - Conception EDD 44
Plan
Construction de lentrept :
les faits et les dimensions
Prparation de lanalyse :
Les agrgats les rapports et les cubes
45
Optimisation
Loptimisation dun dataware est trs li au type dusage :
Lutilisation des cubes entrane la gnration de requtes dynamiques pour lesquelles des indexes doivent tre pralablement poss Les rapports tant constitues de requtes particulires, leur optimisation consiste dans loptimisation de leur plan dexcution
46
Indexation dun DW
Les SGBD fournissent diffrents types dindexes :
Indexes bases sur Btree :
Cluster : les enregistrements sont ordonns selon lindex, les feuilles de larbre B sont les pages de donnes. La taille de lindex peut tre estime 5% du stockage de lintgralit des cls dindexes (dans larbre) + un identificateur unique (interne, ajout par le systme) pour chaque enregistrement (les feuilles de larbre ne sont pas stockes dans lindex). Non cluster : les enregistrements ne sont pas ordonns selon lindex : les feuilles de larbre sont stockes dans lindexe et contiennent les valeurs de cls ainsi que les numros denregistrements (ou de blocs en Oracle). La taille de lindex gnr dpendra du nombre de valeurs
Les autres types dindexes comme Hashcode ou bass sur une fonction utilisateur ne sont pas prsents dans tous les SGBD mais doivent, si prsents, tre utiliss si appropris.
47
Indexation dun DW
Tables de faits :
Les indexes de type B cluster seront utiliss pour les cls primaires de la table de faits.
Attention toutefois aux effets de bords sur lajout de donnes qui peut donner lieu une restructuration de la table si des valeurs viennent sintgrer entre des valeurs existantes et modifier la structure cluster de la table,
Les indexes de type B non cluster pour les cls trangres vers les dimensions trs sollicits (date, ..),
La table de faits sera partitionne selon la dimension danalyse la plus sollicit (souvent la date), Tables de dimensions
Index cluster pour la cl primaire, Indexes de type bitmap ou B pour les valeurs des dimensions trs sollicites
Les indexes de type bitmap sont particulirement appropris aux problmatiques DW : accs unique, stockage optimis. Il peut ainsi tre intressant de construire des ensembles dattributs drapeau (valus 0/1) la place dun attribut avec liste de valeur pour en permettre une indexation de type bitmap.
Une indexation plus systmatique que la table de faits est possible du fait de la taille moindre de ces tables par rapport la table de faits.
D. Ploix - M2 MIAGE - Conception EDD 48
49
Plan
Construction de lentrept :
les faits et les dimensions
Prparation de lanalyse :
Les agrgats les rapports et les cubes
51
Sujet de lentrept
Le service marketing dune compagnie arienne veut analyser les vols de chaque participant de son programme passagers rguliers. Il sintresse aux vols que prennent les passagers, aux avions quils utilisent, aux tarifs de base quils paient, la frquence laquelle ils passent une classe suprieure, la faon dont ils obtiennent et font usage de leur bonus kilomtrique de passagers rguliers, il veut savoir sils ragissent sur certains vols, connatre la dure de leur sjours, ainsi que la promotion de ceux qui sont dans la catgorie premire classe, affaire et conomique. Le processus dentreprise mis en jeu par cette tude est lactivit de vol proprement dite. Nous ne nous intressons pas la rservation ni lmission de billets qui ne concerne pas un passager rgulier.
52
Lquipe danalyse dcide de se baser sur le niveau segment qui est le plus fin ayant un sens pour le service marketing. Si une extension de lentrept un usage par lquipe de programmation des vols, lensemble des trajets devront alors tre intgrs.
D. Ploix - M2 MIAGE - Conception EDD 53
Caractristique du segment
Ces caractristiques (i.e. les critres danalyse) sont pour le segment (mesures dans la table de faits) :
Non additif :
Numro de voyage (Identifiant unique du voyage, correspondant une dimension dgrade), Numro de billet (DD), Numro dordre du segment (DD),
Additifs :
Chiffre daffaire brut du segment, Distance du segment en KM, Miles gagns au niveau du segment, Dure du vol du segment, Nombre de minutes de retard au dpart, Nombre de minutes de retard larrive, Nombre total de minutes de retard
D. Ploix - M2 MIAGE - Conception EDD 55
57
Que lon peut complter avec des informations spcifiques par pays :
Nom du pays, Drapeau jour fri civil, Nom jour fri civil, Drapeau jour fri religieux, Nom jour fri religieux, Indicateur jour de travail, Nom de saison
58
Lanalyse des caractristiques fait apparaitre des donnes de catgorisation qui peuvent changer en cours danne, elles apparatront donc comme une dimension part entire dans le modle cible.
Nom de la catgorie, Nombre de KM parcourus minimum, Nombre de KM parcourus maximum, Rduction tarifaire
59
Caractristiques du vol
Les caractristiques retenues lors de lanalyse sont :
Avion utilis, Classe du sige (conomique, premire, business, ), Drapeau place hublot
60
Caractristiques du tarif
Le tarif indique lensemble des lments relatifs au calcul du prix du segment :
Promotion lie au mdia de vente Promotion lie une opration spcifique Rduction promotionnelle applique Rduction achat lavance, Pnalit de rsiliation, Pnalit de modification,
D. Ploix - M2 MIAGE - Conception EDD 61
Nom Trigramme Rgion Ville Code postal Pays Fuseau horaire Nombre de terminaux Capacit maximum Salon prmium
Date Jour de la semaine Numro de anne calendaire, Numro de anne comptable, Indicateur de dernier jour de Numro de calendaire dans lanne calendaire comptable Pays.Nom du pays Pays.Drapeau jour fri civil Pays.Nom jour fri civil Pays.
Nom Prnom Date naissance Statu marital Enfants Ville Rgion Code postal Date inscription Professionnel Tourisme
Promotion mdia Promotion spcifique Rduction applique Rduction achat lavance Pnalit rsiliation Pnalit modification Utilisation milles Nombre de milles utilis
Numro de voyage Numro de billet Numro dordre du segment Chiffre daffaire brut du segment Distance du segment en KM Miles gagns au niveau du segment Dure du vol du segment Nombre de minutes de retard au dpart Nombre de minutes de retard larrive Nombre total de minutes de retard
62
64
Sujet :
Identifiez diffrentes caractristiques numriques Proposez deux niveaux de granularit pour chaque caractristiques Indiquez ladditivit de chaque caractristique
D. Ploix - M2 MIAGE - Conception EDD 65