You are on page 1of 45

Rpublique Tunisienne Ministre de lEnseignement Suprieur Institut Suprieur des Etudes Technologique de Kef

Support de Cours

Entrepts de Donnes
Mention Parcours Semestre : : : Technologies de lInformatique (TI) Dveloppement des Systmes dInformation (DSI) S5

Volume horaire : 22.5 h /semestre ( raison de 1.5h /semaine) Coefficient : 1.5

Enseignante: Amira SEDIKI

Anne Universitaire 2011-2012

Prsentation du cours
Ce cours est conu comme une introduction linformatique dcisionnelle. Il prsente les notions de base des entrepts de donnes ainsi que ceux de la fouille de donnes : ETL,Cube de donnes, table de fait, table de dimension, datamarts, mta-donnes, ECD, apprentissage supervis et non supervis. Les concepts seront illustrs par une application de la fouille de donnes avec les arbres de dcisions. Niveaux cibles : tudiants de la troisime anne, Semestre 5, option DSI Pr-requis : Base de donnes, Mthodologies de Conception, Atelier Systme d'information Formule pdagogique : Expos informel Moyens pdagogiques : Tableau Support de cours Mthodologie : Cours intgr Travaux dirigs (ralisation et correction dexercices) Volume Horaire : 22.5 heures de cours intgr Objectifs Gnraux Dvelopper des habilets de construction d'un entrept de donnes Dvelopper les habilits d'analyse de donnes

Objectifs Spcifiques - Comprendre l'importance de l'information dans les mtiers, - analyser les limites des systmes de production existants pour les besoins en traitement de l'information, notamment dans les applications dcisionnelles - introduire le concept d'entrept de donnes comme une solution alternative et en dcrire les proprits.

- Distinguer les diffrents niveaux de stockage de donnes qui composent une architecture base d'entrept et comprendre les tapes de la construction de ces niveaux de stockage. - Comprendre les concepts du modle de donnes multidimensionnel et introduire les oprateurs sur des cubes multidimensionnels ; - Comprendre les modles de donnes ROLAP et les difficults de cette modlisation - Comprendre la notion d'information cache dans les donnes et les diffrents types d'algorithmes pour fouiller les donnes et trouver de l'information. Elments de Contenu I- Objectifs des entrepts de donnes. II- Architecture des systmes base d'entrepts de donnes et Technologies OLAP, ROLAP, MOLAP III- Modlisation multidimensionnelle et Mthodes de conception des entrepts. IV- Objectifs de la fouille de donnes : application larbre de dcision valuation : 1 test, 1 DS et un examen final crits

Bibliographie : Cours de ESPINASSE B., Universit Aix-Marseille. Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan Kaufmann Publishers, 2004. Cours de PREUX Ph., Universit de Lille 3.

Table des matires


Chapitre 1 Introduction aux Entrepts de donnes ..................................................................5 1.1 Importance de linformation dans les mtiers ................................................................5 1.2 Informatique dcisionnel vs Informatique de production ...............................................6 1.2.1. Informatique de Production ...................................................................................6 1.2.2 Informatique Dcisionnel .......................................................................................7 1.3 Dfinition de data warehouse ........................................................................................8 Chapitre 2 Architecture des systmes base dentrept de donnes ......................................11 2.1. Les niveaux fonctionnels de larchitecture..................................................................11 2.2. Structure gnrale des donnes dun ED ....................................................................12 2.2.1 Axe historique et axe synthtique .........................................................................12 2.2.2 Les mta donnes .................................................................................................13 2.3. Architectures des serveurs OLAP...............................................................................16 2.3.1 Systmes MOLAP (Multidimensionnel OLAP)....................................................16 2 .3.2 Systmes ROLAP (Relationnal OLAP) ...............................................................16 2.3.3 Systmes HOLAP (Hybrid OLAP).......................................................................16 2.4. Alimentation dun Entrept de donnes......................................................................17 2.4.1. Slection des donnes sources .............................................................................17 2.4.2. Extraction des donnes........................................................................................17 2.4.3. Nettoyage et Transformation ...............................................................................18 2.4.4. Chargement.........................................................................................................19 2.5. Utilisation, exploitation..............................................................................................20 2.5.2 Agrgats et navigation..........................................................................................20 2.5.3 Visualisation ........................................................................................................21 Chapitre 3 Modlisation multidimensionnelle.......................................................................22 3.1. Concept de base de la modlisation multidimensionnelle ...........................................22 3.1.1 La notion de dimension ........................................................................................22 3.1.2. La notion de fait ..................................................................................................23 3.1.3 La notion de cubode ............................................................................................23 3.1.4 Notion de Cube de donnes ..................................................................................23 3.1.5 Notion de dimensions multi-niveaux ....................................................................24 3.1.6 Hirarchies de concepts dune dimension .............................................................25 3.2. Oprations sur le data cube ........................................................................................25 3.2.1 Opration Slice ....................................................................................................26 3.2.2 Lopration Dice ..................................................................................................26 3.2.3 Lopration Pivot .................................................................................................27 3.2.5 Lopration Drill-down ........................................................................................28 3.3. Conception dun entrept de donnes.........................................................................29 3.3.1 Approches de Conception.....................................................................................29 3.3.2 Schma Conceptuel dun entrept de donnes ......................................................30 3.3.2.2 Schma en flocon ..........................................................................................32 3.3.2.3 Schma en constellation ................................................................................33 Chapitre 4 Introduction la fouille de donnes .....................................................................35 4.1 Dfinition de la fouille de donnes ? ...........................................................................35 4.2 Le processus ECD.......................................................................................................36 4.3 Mthodes de fouille de donnes ..................................................................................37 4.3.1 Apprentissage supervis et non supervis .............................................................37 4.3.2 Les arbres de dcision ..........................................................................................38 3

4.3.2.1 Problmes fondamentaux pour construire un arbre.........................................38 4.3.2.2 Lalgorithme ID3...........................................................................................40 4.3.2.3 Calcul de lentropie .......................................................................................40 4.3.2.4 Exemple de mise en oeuvre ...........................................................................41

Chapitre 1 Introduction aux Entrepts de donnes


Objectifs spcifiques Introduire limportance de linformation dans les mtiers Introduction des limites des systmes de production existants Introduire le concept dentrept de donnes Elments de contenu I. Importance de linformation dans les mtiers II. Informatique dcisionnel vs Informatique de production III. Dfinition de datawarehouse Volume Horaire : Cours : 1,5 heures TD : 0 heure

1.1 Importance de linformation dans les mtiers


Les socits de tlphone gardent au moins un an les positions gographiques et les consommations de leurs abonns mobiles. Les grands magasins et les entreprises de vente par correspondance (VPC) conservent les achats de leurs clients (tickets de caisse en grande distribution, commandes en VPC), collectent des informations sur leurs clients grce des systmes de cartes de fidlit ou de crdit, et achtent des bases de donnes gographiques et dmographiques. Les sites web conservent des traces de connexions sur leurs sites marchands. En rsum, les entreprises en secteur trs concurrentiel conservent les donnes de leur activit et achtent mme des donnes.

Les motifs qui ont prsid la conservation de ces donnes taient : des obligations lgales pour pouvoir justifier les facturations, des raisons de scurit pour pouvoir dtecter les fraudes, des motifs commerciaux pour suivre l'volution des clients et des marchs. Quelle que soit la raison initiale, les entreprises se sont rendues compte que ces donnes pouvaient tre une source d'informations leur service. Ce constat, valable pour les socits du secteur marchand, peut tre

tendu de nombreux domaines comme la mdecine, la pharmacologie. Il faut donc dfinir des environnements permettant de mmoriser de grands jeux de donnes et d'en extraire de l'information.

Les structures qui accueillent ce flot important de donnes sont des entrepts de donnes ou data warehouse. Ils sont construits sur une nouvelle architecture bien diffrente de celle prvue pour l'informatique de production, base elle sur des systmes de gestion de bases de donnes relationnelles et des serveurs transactionnels.

Un entrept de donnes est construit en l'alimentant via les serveurs transactionnels de faon bien choisie et rflchie pour permettre aux procdures d'extraction de connaissances de bien fonctionner. L'organisation logique des donnes est particulirement conue pour autoriser des recherches complexes.

1.2 Informatique dcisionnel vs Informatique de production


1.2.1. Informatique de Production Une des principales caractristiques des systmes de production est une activit constante constitue de modifications et d'interrogations frquentes des donnes par de nombreux utilisateurs. Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnes d'un client, ... Conserver la cohrence (interdire la modification simultane d'une mme donne par deux utilisateurs diffrents) de la base de donnes, est donc l'objectif et la difficult principale pour l'informatique de production. Il s'agit donc de privilgier un enregistrement rapide et sr des donnes. Les systmes transactionnels (temps rel) OLTP (On-Line Transaction Processing) qui est la tche principale des SGBD, garantissent l'intgrit des donnes. Les utilisateurs accdent des lments de la base par de trs courtes transactions indcomposables, isoles. L'isolation permet de garantir que la transaction ne sera pas perturbe ni interrompue. La brivet garantit que les temps de rponse seront acceptables

La dernire caractristique de ces bases de donnes est qu'elles conservent l'tat instantan du systme. Dans la plupart des cas, l'volution n'est pas conserve. On conserve simplement des versions instantanes pour la reprise en cas de panne et pour des raisons lgales. 1.2.2 Informatique Dcisionnel l'inverse de linformatique de production, les utilisateurs des systmes d'information de dcision n'ont aucun besoin de modification ou d'enregistrement de nouvelles donnes. Ils vont interroger le systme d'information et les questions poses seront par exemple de la forme Exemple : Quelles sont les ventes du produit X pendant le trimestre A de l'anne B dans la rgion C. Comment se comporte le produit X par rapport au produit Y ? Et par rapport l'anne dernire ? Quel type de client peut bien acheter mon produit Z ?

Une telle interrogation peut ncessiter des temps de calcul importants. Or, l'activit d'un serveur transactionnel ne peut tre interrompue. Il faut donc prvoir une nouvelle organisation qui permette de mmoriser de grands jeux de donnes et qui facilite la recherche d'informations ; cest le systme OLAP (On-line Analytical Processing). L'existence d'un entrept simplifiera donc la tche d'extraction de connaissances partir de donnes et permettra donc d'optimiser le temps de dveloppement d'un projet de fouille de donnes. Il sera souvent ncessaire de filtrer, d'agrger, de compter, sommer et de raliser quelques statistiques lmentaires (moyenne, cart-type,...). La structure logique doit tre prvue pour rendre aussi efficace que possible toutes ces requtes. Pour y parvenir, on est amen introduire de la redondance dans les informations stockes en mmorisant des calculs intermdiaires (dans l'exemple, on peut tre amen stocker toutes les sommes de ventes par produit ou par anne). On rompt donc avec le principe de non redondance des bases de production. Si le critre de cohrence semble assur avec les techniques du transactionnel, cette cohrence est toute relative. Elle se contrle au niveau de la transaction lmentaire mais pas au niveau global et des activits de l'organisation. Pour les entrepts, on requiert une cohrence interprtable par l'utilisateur. Par exemple, si les livraisons n'ont pas t toutes saisies dans le systme, comment garantir la cohrence de l'tat du stock ? Autre, exemple, pour tablir un profil client ou tudier les performances d'un magasin, toutes les donnes utiles le concernant doivent tre prsentes dans le systme, ce que n'assure pas le serveur transactionnel mais que doit assurer le serveur

dcisionnel. Les entrepts de donnes assureront donc plutt une cohrence globale des donnes. Une dernire caractristique importante des entrepts, qui est aussi une diffrence fondamentale avec les bases de production, est qu'aucune information n'y est jamais modifie. En effet, on mmorise toutes les donnes sur une priode donne et termine, il n'y aura donc jamais remettre en cause ces donnes car toutes les vrifications utiles auront t faites lors de l'alimentation. L'utilisation se rsume donc un chargement priodique, puis des interrogations non rgulires, non prvisibles, parfois longues excuter.

En rsum, on peut justifier la construction d'un entrept de donnes par l'affirmation suivante : Il est beaucoup plus simple de trouver une information pertinente dans une structure organise pour la recherche de connaissance.

1.3 Dfinition de datawarehouse


Le data warehousing dsigne les processus de construction et dutilisation des entrepts de Donnes. -Definition : Un data warehouse est une collection de donnes orientes sujet, intgres, historises et persistantes, utilise pour le support dun processus daide la dcision. - W. H. Inmon

Orientes sujets

Organises autours de sujets principaux (produits, clients, ventes, etc.) Pour la modlisation et lanalyse des donnes pour laide la dcision traitement quotidien des transactions ou oprations Fournit une vue simple et concise autour dun sujet particulier en excluant les donnes inutiles pour le processus daide la dcision Intgres

Requiert une intgration de donnes sres, consistantes et compltes Intgration de sources multiples et htrognes BD relationnelles, transactionnelles, orientes objets, flat files, applications ddies... Diverses sources (Ex : diverses services, agences, dpartements, etc.) Techniques de nettoyage et intgration des donnes : Consistance entre les diverses sources des noms, des units de mesure, etc. Historises

Point de vue de lentrept de donnes est plus tendu que celui de la BD oprationnelle BD oprationnelle : valeur actuelle de la donne Entrept de donnes : valeurs dune perspective historique (ex : derniers 5 ans) Toutes les structures de cls dun entrept de donnes contiennent une rfrence la date, explicitement ou implicitement Persistantes

Stockage spar en mmoire secondaire des donnes transformes de la BD oprationnelle Pas de mise jour en ligne dans un entrept de donnes Pas besoin de mcanismes de traitement des transactions, rcupration et contrle daccs concurrents Oprations daccs : chargement initial des donnes, rafrachissement des donnes et accs aux donnes

10

Chapitre 2 Architecture des systmes base dentrept de donnes


Objectifs spcifiques Introduire Larchitecture des systmes base dentrept de donnes Introduction des niveaux de stockage de donnes Introduire les technologies des serveurs OLAP Elments de contenu I. Niveaux fonctionnels de larchitecture II. Structure gnrale des donnes dun ED III. Architecture des serveurs OLAP Volume Horaire : Cours : 6 heures TD : 0 heure

2.1. Les niveaux fonctionnels de larchitecture

Les diffrents composants de larchitecture fonctionnelle dun systme base dentrept de donnes sorganisent en 3 niveaux : a. Niveau extraction de donnes : 11

Lopration dextraction de donnes concernent les bases de donnes oprationnelles (SGBD traditionnel en OLTP) et les donnes externes. Cette opration se droule selon deux approches possibles. approche push : dtection instantane des mises jour sur les BD oprationnelles pour intgration dans lentrept de donnes approche pull : dtection priodique des mises jour des BD oprationnelles pour intgration dans lED b. Niveau fusion de donnes Les composants de ce niveau permettent de raliser essentiellement les trois tches suivantes intgration des donnes provenant des diffrentes sources chargement et stockage des donnes dans la BD entrept organise par sujets rafrachissement au fur et mesure des mises jour

c. Niveau exploitation de donnes Cest le niveau qui permet de prsenter les donnes directement exploitables par lutilisateur final, il offre au preneur de dcisions les oprations suivantes analyse et lexploration des donnes entreposes formulation de requtes complexes afin de trouver des faits tudier, lanalyse de tendance (courbes dvolution), extrapolation, dcouverte de connaissance (rgles,contraintes, ) prsentations graphiques varies

2.2. Structure gnrale des donnes dun ED


2.2.1 Axe historique et axe synthtique

12

Les donnes dun ED se structurent selon 2 axes ; synthtique et historique : Axe synthtique : tablit une hirarchie dagrgation comprenant : les donnes dtailles reprsentant les vnements les plus rcents au bas de la hirarchie les donnes agrges synthtisant les donnes dtailles les donnes fortement agrges synthtisant un niveau suprieur les donnes agrges Axe historique : comprenant les donnes dtailles historises reprsentant les vnements passs

La description de toutes ces donnes (provenance, structure, mthode utilises pour lagrgation, ) constitue les mta-donnes de lentrept.

2.2.2 Les mta donnes Un annuaire spcialis conserve toutes les informations (les mtadonnes) au sujet du systme d'information qui rgit l'entrept. Sans rfrentiel qui qualifie de faon prcise ce que signifie chaque valeur dans la base, il n'est pas possible de conduire une analyse et interprter les rsultats. C'est ce rle que joue l'annuaire des mtadonnes. Cet annuaire contient : Description de la structure du DW Schma, dimensions, hirarchies, dfinitions des donnes, et localisation et contenu des data marts

13

Mta-donnes dadministration Historique de construction et transformation des donnes, statistiques dutilisation et

rapports derreurs Algorithmes de gnralisation Calculs des mesures, agrgations, partition, requtes et rapports prdfinis Mta-donnes dintgration BDs sources et leurs contenus, description des passerelles, rgles dextraction, nettoyage et transformation des donnes, rgles de rafrachissement et scurit Donnes lies aux performances Index, vues, algorithmes de compression et accs aux donnes, rgles de planification des mises--jour

2.3. Composants logiciel dun Entrept de donnes

Sources de donnes:

- donnes sources gnralement modifies quotidiennement, -issues de bases de donnes, fichiers plats, documents HTML, bases de connaissances, -donnes en gnral htrognes Serveur DW : - Les entrepts de donnes (Data Warehouse): 14

Contient des donnes concernant lensemble des composantes de lorganisation Plusieurs BDs oprationnels et sources extrieures ; plusieurs thmes ncessitent de puissantes machines pour grer de trs grandes bases de donnes contenant des donnes de dtail historises est le lieu de stockage centralis d'un extrait des bases de production. lorganisation des donnes est faite selon un modle facilitant la gestion efficace des donnes et leur historisation. - Les magasins de donnes (Data Marts) : Un sous-ensemble de lentrept global concernant un groupe spcifique dutilisateurs Ex : data mart du service commercial, data mart concernant le transport sont de petits entrepts ncessitant une infrastructure plus lgre et sont mis en oeuvre plus rapidement (6 mois environs) conus pour laide la dcision partir de donnes extraites dun ED plus consquent ou de BD sources existantes les donnes extraites sont adaptes pour laide la dcision (pour classe de dcideurs, usage particulier, recherche de corrlation, logiciel de statistiques,...) lorganisation des donnes est faite selon un modle facilitant les traitements Dcisionnels Mta donnes (Meta Data) : donnes qui dfinissent lentrept de donnes Moteur danalyse en ligne (OLAP engine)

requtes interactives complexes sur ces volumes catgorie de traitements ddis laide la dcision donnes organises selon plusieurs axes danalyse et niveaux de dtail les traitements permettent de changer interactivement de points de vue, changer de niveau de dtail, effectuer les oprations OLTP classiques

GUI (Interface utilisateur) : Outils daide la dcision (analyse, requtes, rapports, fouille de donnes, )

15

2.3. Architectures des serveurs OLAP


Trois types de systmes OLAP : MOLAP, ROLAP et HOLAP : 2.3.1 Systmes MOLAP (Multidimensionnel OLAP) -utilisent pour stocker et grer les donnes de lED un SGBD Multidimensionnel ddis aux calculs de cubes de donnes les cubes de donnes implants comme des matrices plusieurs dimensions -ont des temps de rponse faibles du fait quils effectuent la pr-agrgation et le pr-calcul des donnes sur tous les niveaux des hirarchies du modle de lentrept Techniques de compression pour les matrices creuses -gnrent de trs grands volumes dinformation -les techniques incrmentales de rafrachissement associes sont encore limites, conduisant reconstruire priodiquement lED -sont adapts de petits ED (quelques Go) et lorsque le modle multidimensionnel ne change pas beaucoup Avantage : efficacit de traitement des requtes -produits : Essbase dArbo Software, Pilot de pilot Software, TM1 dApplix, 2 .3.2 Systmes ROLAP (Relationnal OLAP) - utilisent pour stocker les donnes de lED un SGBD Relationnel le moteur OLAP est un lment supplmentaire fournissant une vision multidimensionnelle de lED (organis en toile ou flocon) - il ralise des calculs de donnes drivs et agrgations diffrents niveaux - il gnre des requtes mieux adapte au schma relationnel de lED et qui tire profit des vues matrialises existantes (facteur principal de performance) Avantages : souplesse, volutions faciles Architecture de loin la plus populaire -produits : DSS Agents de MicroStrategy, Metacube dInformix, 2.3.3 Systmes HOLAP (Hybrid OLAP) - utilisent pour stocker, grer les donnes dtailles un SGBD Relationnel et pour stocker, grer les donnes agrges un SGBD Multidimensionnel

16

- permettent de grer de trs grande quantit de donnes et davoir des temps de rponses acceptables en analyse OLAP Avantages : quilibre entre la facilit dvolution et la rapidit de traitement des requtes - produits : Express dOracle, Microsoft SQL Server 7.0 OLAP services, Media/MR de Speedware, Holos de Seagate Technology,

2.4. Alimentation dun Entrept de donnes


L'alimentation est la procdure qui permet de transfrer des donnes du systme oprationnel vers l'entrept de donnes en les adaptant. Comment alimenter, donc, lEntrept de Donne ? Cest la problmatique de lETL (Extracting Transforming and Loading) quon peut rsumer

l'extraction des donnes, en accdant aux diffrentes bases et sources de donnes de l'entreprise,

la transformation, en dveloppant les codifications, rsolvant les liens, changeant et uniformisant les diffrents formats de fichiers d'origine dans un format unique compatible avec le datawarehouse,

le chargement, pour alimenter datawarehouses et datamarts, en contrlant la cohrence des donnes.

En fait lalimentation de lED se droule en 4 tapes : 2.4.1. Slection des donnes sources Quelles donnes de production faut-il slectionner pour alimenter lED? Toutes les donnes sources ne sont forcment pas utiles Ex : Doit-on prendre ladresse complte ou sparer le code postal ? Les donnes slectionnes seront rorganises pour devenir des informations. La synthse de ces donnes sources a pour but de les enrichir. La dnormalisation des donnes cre des liens entre les donnes et permet des accs diffrents

2.4.2. Extraction des donnes Un extracteur (wrapper) est associ chaque source de donnes : Il slectionne et extrait les donnes. En fait, la prparation des donnes consiste dans un premier temps obtenir des donnes en accord avec les objectifs que l'on s'impose. Ces donnes

17

proviennent le plus souvent de bases de production ou d'entrepts. Les donnes sont structures en champs typs (dans un domaine de dfinition). Par la suite lextracteur, formate les donnes dans un format cible commun qui est en gnral le modle Relationnel. Les interfaces comme ODB, OCI, JDBC sont souvent utilises durant ce processus. 2.4.3. Nettoyage et Transformation Objectifs du nettoyage : rsoudre le problme de consistance des donnes au sein de chaque source Objectifs de la transformation : Suppression des incohrences smantiques entre les sources pouvant survenir lors de lintgration des schmas et des donnes L'tude des besoins a dtermin le contenu de l'entrept en partant des desiderata des utilisateurs. Nanmoins, la forme, le contenu des donnes de production ne convient pas toujours immdiatement au format choisi pour les donnes de l'entrept. Par consquent, des transformations sont souvent ncessaires. Format Le format physique des donnes provenant de la production peut ne pas tre adquat avec le systme hte de l'entrept. Des transformations de type sont parfois ncessaires (Systme IBM vers systme Unix...). Les donnes pouvant provenir de serveurs diffrents dans des services diffrents, il est ncessaire d'uniformiser les noms et les formats des donnes manipules au niveau de l'entrept. Consolidation Selon les choix des units pour les dimensions, des oprations de consolidation devront accompagner le chargement des donnes (par exemple sommer les ventes pour obtenir et enregistrer un total par jour et non pas toutes les transactions). Uniformisation d'chelle Pour viter de trop grandes dispersions dans les valeurs numriques, une homognisation des chelles de valeurs est utile. Ne pas la raliser peut pnaliser les outils d'analyse et de visualisation et peut-tre simplement remplir inutilement les disques. Autres

18

Des transformations qui permettent de mieux analyser les donnes sont aussi ralises pendant la phase de chargement. Par exemple, la transformation de la date de naissance en ge, assure une plus grande lisibilit des donnes et permet de pallier les problmes apparus avec l'introduction de la dimension temps. Malgr les efforts raliss pour assurer l'intgrit des donnes de production, des erreurs peuvent survenir, en particulier, lorsque les donnes proviennent de sources diffrentes (par exemple, il est frquent qu'un mme client soit mmoris plusieurs fois sur diffrents serveurs). Parmi les points vrifier, on peut citer: Erreurs de saisie Des doublons sont prsents mais sont invisibles ; cause des fautes de frappe: (Marcel dupont; 3,rue verte; Lille) et (Marcel dupond; 3,rue verte; Lille) sont certainement un seul et mme client ; plusieurs membres d'un mme foyer peuvent tre prsents ; ... Intgrit de domaine Un contrle sur les domaines des valeurs permet de retrouver des valeurs aberrantes. De faon plus gnrale, des valeurs douteuses peuvent se rencontrer, comme par exemple des dates au 11 novembre 1911 (11/11/11) ou 1 janvier 1901 (01/01/01). Informations manquantes Des champs importants pour lesquels aucune valeur n'a t saisie peuvent pnaliser le processus de dcouverte d'information, ou bien encore avoir une signification particulire (ex: dtection de fraudes). Il est parfois important d'insrer des valeurs par dfaut significatives (comme NULL) plutt que de laisser ces donnes vides. Il convient de noter que les sources des donnes alimentant un entrept peuvent tre htrognes. Les bases de production peuvent tre nombreuses, diffrentes et dlocalises gographiquement. Des fichiers peuvent tre achetes auprs d'entreprises qui se sont spcialises dans la constitution et la revente de fichiers qui vont aussi entrer dans le processus d'alimentation de l'entrept. Les suites logicielles d'accompagnement d'entrepts de donnes contiennent des outils susceptibles d'aider dvelopper des procdures d'alimentation qui prennent en compte ces problmes de vrification et de normalisation. 2.4.4. Chargement Objectif : charger les donnes nettoyes et prpares dans lED Cest une opration qui risque dtre assez longue plutt mcanique et la moins complexe.

19

Il est ncessaire de dfinir et mettre en place : des stratgies pour assurer de bonnes conditions sa ralisation une politique de rafrachissement.

2.5. Utilisation, exploitation


L'alimentation des entrepts s'accompagne, aprs validation, de l'dition automatique des tableaux de bord les plus courants. Ils sont prdfinis, raliss par le service informatique, et sont le reflet d'un besoin explicitement demand au moment de la conception. Souvent, ils sont insuffisants lorsqu'une anomalie est dtecte ou lorsqu'un nouveau besoin s'exprime. L'utilisateur final doit alors pouvoir interroger les donnes en ligne l'aide d'outils simples et conviviaux. Ces outils commencent se gnraliser. Les diteurs les nomment (ou les classent) : reporting tools, managed queries, Executive Information Systems (EIS), OLAP tools (Online analytical Processing), ...bien que les diffrences entre tous ces systmes ne soient pas toujours trs nettes. 2.5.1 Requtes Nous prsentons ici les outils destins l'utilisateur final qui permettent d'extraire des donnes de l'entrept. Les outils de cration de rapport (reporting tools) extraient les donnes et proposent une mise en forme destine la diffusion : par impression ou par des services internet ou intranet. Ils sont trs utiliss pour gnrer des tableaux de bord conventionnels, qui sont souvent composs et diffuss automatiquement et priodiquement sans demande spcifique des utilisateurs. Lorsque leur intgration dans le systme d'information est russie, ils mettent en vidence la structure multidimensionnelle et prsentent les agrgats, supportent la navigation. Ils sont accessibles aux utilisateurs finals pour crer de nouveaux tableaux de bord. Les progiciels (ex : SAS) dans ce domaine ont ralis une perce importante. Ils sont souvent qualifis de EIS tools et ajoutent des analyses classiques et paramtrables pour les ventes, les achats ou la finance par exemple. Les outils les plus adapts sont certainement les outils OLAP. 2.5.2 Agrgats et navigation L'opration de navigation (ou forage) permet d'obtenir des dtails sur la signification d'un rsultat en affinant une dimension ou en ajoutant une dimension. Elle apparat dans de nombreux outils et doit (parce qu'elle est souvent coteuse) tre intgre dans le systme. Pour illustrer le forage, supposons qu'un utilisateur final demande les chiffres d'affaires par produit, et s'tonne d'un rsultat pour un produit donn. Il aura srement l'envie d'en analyser les raisons. Une solution

20

consisterait ajouter la dimension temps, dans l'unit de temps trimestrielle pour trouver une variation saisonnire, dans l'unit hebdomadaire pour envisager l'effet week-end, ou encore la dimension magasin pour mettre en vidence un effet gographique. Pour des raisons de performance, il est utile de prcalculer et prenregistrer dans l'entrept des agrgations de donnes. On peut toutefois noter que des machines sont parfois ddies leur excution et leur diffusion : ce sont des serveurs d'agrgats. Pour expliquer un rsultat, il est parfois ncessaire de le comparer avec d'autres faits. Par exemple, la baisse des ventes pour le mois de janvier peut s'expliquer par une baisse des achats ou une rupture de stock. Si l'entrept est conu pour suivre les ventes et les achats ou le stock, et si les dimensions selon lesquelles ces trois faits sont suivis sont identiques, on doit pouvoir raliser un rapport unique. On parle alors de forage transversal ou drill across. C'est une opration qu'il faut raliser avec beaucoup de soins car mettre en oeuvre une requte sur plusieurs tables de faits peut se rvler irralisable. Engage sans prcautions, la requte va gnrer une table intermdiaire norme qui sera le produit cartsien entre les deux tables de faits. 2.5.3 Visualisation Les outils de visualisation sont trs importants dans le processus de dcision et peuvent intervenir plusieurs niveaux. Ils sont utiles pour dcouvrir de nouvelles informations, parce qu'une reprsentation permet de reprer plus simplement des singularits, des anomalies ; prsenter des rsultats, dans l'optique d'une large diffusion, parce qu'un graphique est plus accessible qu'un tableau de chiffres ; reprsenter un modle issu d'une opration de fouille de donnes (reprsenter un arbre de dcision, un ensemble des rgles, un rseau de neurones...). Dans le premier cas, ils sont intgrs dans les outils d'analyse et doivent supporter des oprations comme comparer, modifier les chelles, retrouver les donnes correspondant un point ou un objet trac, zoomer sur des rgions ou des sous-ensembles et enfin permettre la navigation (drillup, drill down).

21

Chapitre 3 Modlisation multidimensionnelle


Objectifs spcifiques Comprendre les concepts du modle de donnes multidimensionnel Introduire les oprateurs sur des cubes multidimensionnels Introduire les schmas de Conception logique Elments de contenu I. Concepts de base de la Modlisation Multidimensionnelle II. Opration sur les data cube III. Schma de conception dun ED Volume Horaire : Cours : 5 heures TD : 3 heure

3.1. Concept de base de la modlisation multidimensionnelle


La modlisation multidimensionnelle consiste considrer un sujet analys comme un point dans un espace plusieurs dimensions. Les donnes sont organises de manire mettre en vidence le sujet analys et les diffrentes perspectives de l'analyse. Cette conception est bas sur un modle multi-dimensionnel des donnes qui voit les donnes sous la forme dun data cube (cube de donnes) 3.1.1 La notion de dimension Un Data cube : permet de modliser et visualiser les donnes selon diffrentes dimensions ; les dimensions constituent donc les points de vues depuis lesquels les donnes peuvent tre observes Chaque dimension est reprsente par une table

Ex : Localisation (ville, dpartement, pays, rgion), Produit (article, type,catgorie),

22

Date (jour, semaine, mois, trimestre, anne) 3.1.2. La notion de fait Le Thme central est reprsent par une table de faits.Cette Table de faits contient les valeurs des mesures et des cls vers les tables de dimensions - La valeur dune mesure est le rsultat dune opration dagrgation des donnes Ex : montant_ventes, quantit_vendue Les cls des tables de dimension sont en gnral construites automatiquement

3.1.3 La notion de cubode Lensemble des valeurs dune mesure pour une combinaison de valeur des dimensions constitue un cubode Exemple: entrept de donnes des ventes lectroniques dune socit. Montants des ventes sur lanne par type darticle, par ville et par mois Une valeur est associe chaque combinaison type ville mois Dimensions : Produit (type), Localisation (ville) et Date (mois)

3.1.4 Notion de Cube de donnes Un Cube est un treillis de cubodes.

23

Exemple :

3.1.5 Notion de dimensions multi-niveaux Pour chaque dimension, on dfinit diffrents niveaux dabstraction / spcialisation Lors du processus OLAP, les donnes sont gnralement analyses en partant d'un faible niveau de dtail vers des donnes plus dtailles pour "forer vers le bas". Pour dfinir ces diffrents niveaux de dtail, chaque dimension est munie d'une (ou plusieurs) hirarchie(s) de paramtres. La hirarchie reprsent par les tables de dimensions : -sert lors des analyses pour restreindre ou accrotre les niveaux de dtail de l'analyse organise les paramtres d'une dimension conformment leur niveau de dtail. Ces paramtres seront donc ordonns par une relation hirarchique "est_plus_fin" On dfinit donc la granularit dune dimension comme tant le nombre de niveaux dabstraction

Exemple :

24

3.1.6 Hirarchies de concepts dune dimension Un Concept est une valeur correspondant un niveau dabstraction Exemple : dimension Localisation

3.2. Oprations sur le data cube


Considrons lexemple cubode suivant ; nous pouvons y effectuer plusieurs Oprations de manipulation interactive des cubodes

25

3.2.1 Opration Slice Elle consiste en une slection sur une dimension du cube Ex : 3me trimestre sur la dimension Date pour visualiser les ventes par Localisation et Produit durant ce trimestre

3.2.2 Lopration Dice Elle consiste en la dfinition dun sous-cube par slection sur deux (ou plus)dimensions

26

Ex : critre (Localisation = Paris v Rome) et (Date = 1er trimestre v 2metrimestre) et (Produit = Informatique v Tlphonie)

3.2.3 Lopration Pivot Elle permet une prsentation alternative du cube Transformation en une srie de plans 2D Renversement du cube sur un ou plus axes pour une vision alternative Ex : renversement sur laxe Date

3.2.4 Lopration Roll-up

27

Elle permet une gnralisation du cube ; elle consiste : Supprimer une dimension ou Remonter dans une hirarchie de concepts dune dimension Ex : remonter du niveau Trimestre au niveau Semestre pour Date

3.2.5 Lopration Drill-down Elle a pour rle la spcialisation du cube. Elle consiste Ajouter une dimension Ex : dimension TypeClient ou Descendre dans une hirarchie de concepts

28

Ex : descendre du niveau Catgorie au niveau Type pour Produit

3.3. Conception dun entrept de donnes


3.3.1 Approches de Conception Il existe trois types dapproches : Approche haut-bas, bas-haut ou une combinaison des deux : Haut-bas : dbuter par le planning et la conception du modle (mature) Bas-haut : dbuter par des essais et des prototypes (rapide) Du point de vue de lingnierie du logiciel ceci consiste appliquer les modles de cycle de vie suivants : Cascade : analyse structure et systmatique lors de chaque tape avant de passer la suivante Spirale : gnration rapide de systmes fonctionnels croissants; modifications rapides et adaptation du modle facile Le Processus de conception dun entrept de donnes inclut les tapes suivantes

29

Choix du processus modliser, ex : commandes, ventes, livraison Choix du grain (niveau de dtail des donnes) pour le processus Choix des dimensions pour chaque table de faits - Choix des mesures stockes dans les tables de faits 3.3.2 Schma Conceptuel dun entrept de donnes La conception dun entrept de donnes un modle au niveau logique qui soit concis et orient sujet diffrent donc du modle entits-relations. Trois types de schma existent : 3.3.2.1 Schma en toile Caractristiques du schma en toile : structure simple utilisant le modle entit-relation une entit centrale : la table des faits : objets de l'analyse taille trs importante nombreux champs des entits priphriques : les tables de dimensions : dimensions de l'analyse taille peu importante peu de champs

Exemple 1 : Ventes de mdicaments dans des pharmacies

30

Schma en toile modlisant les analyses des quantits et des montants des mdicaments dans les pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique Table de faits : Vente Tables de dimension : Temps, Catgorie, Gographie

Exemple 2 : Ventes d"articles dans un supermarch

Associ lexemple 2 : un fait il a t achet 3 exemplaires 1 euro du produit pid3 par le client cid1 la date did3 dans le magasin mid2 dans le chariot cid8 correspondant la promotion prid1

31

un lment de la dimension location : store id mid2 store name rondpoint city blois region centre country France

3.3.2.2 Schma en flocon Un modle en flocon est une volution du schma en toile avec : une dcomposition des dimensions du modle en toile en sous hirarchies. le fait est conserv et les dimensions sont clates conformment sa hirarchie des paramtres cela conduit une normalisation des tables de dimensions : structure hirarchique des dimensions et un niveau infrieur identifie un niveau suprieur Les avantages de cette modlisation sont: formaliser une hirarchie au sein d'une dimension. maintenance des tables de dimensions simplifie rduction de la redondance

Les inconvnient de cette modlisation : induit une dnormalisation des dimensions gnrant une plus grande complexit en termes de lisibilit et de gestion. navigation coteuse

Exemple : Ventes de mdicament dans des pharmacies

32

Chaque dimension du schma en toile prcdent est dnormalise, formant ainsi une sorte de flocon 3.3.2.3 Schma en constellation Peut-tre vu comme une collection dtoiles (schma en galaxie ou constellation de faits) Un modle en constellation : fusionne plusieurs modles en toile qui utilisent des dimensions communes. comprend en consquence plusieurs faits et des dimensions communes ou non

Exemple : Ventes de mdicament dans des pharmacies

33

une constellation est constitue de 2 schmas en toile :

l'un correspond aux ventes effectues dans les pharmacies et l'autre analyse les prescriptions des mdecins les dimensions Temps et Geographie sont partages par les faits Prescriptions et Vente.

34

Chapitre 4 Introduction la fouille de donnes


.
Objectifs spcifiques Introduire les objectifs de la fouille de donnes Introduire la mthode des arbres de dcision Elments de contenu I. Dfinition de la fouille de donnes II. Le processus ECD III. Mthodes de fouille de donnes Volume Horaire : Cours : 5,5 heures TD : 1,5 heure

4.1 Dfinition de la fouille de donnes


La fouille de donnes consiste rechercher et extraire de l'information (utile et inconnue) de gros volumes de donnes stockes dans des bases ou des entrepts de donnes. Le dveloppement rcent de la fouille de donnes (depuis le dbut des annes1990) est li plusieurs facteurs : une puissance de calcul importante est disponible sur les ordinateurs de bureau ou mme domicile ; le volume des bases de donnes augmente normment ; l'accs aux rseaux de taille mondiale, ces rseaux ayant un dbit sans cesse croissant, qui rendent le calcul distribu et la distribution d'information sur un rseau d'chelle mondiale viable ; la prise de conscience de l'intrt commercial pour l'optimisation des processus de fabrication, vente, gestion, logistique, ... La fouille de donnes a aujourd'hui une grande importance conomique du fait qu'elle permet d'optimiser la gestion des ressources (humaines et matrielles). Elle est utilise par exemple: organisme de crdit : pour dcider d'accorder ou non un crdit en fonction du profil du demandeur de crdit, de sa demande, et des expriences passes de prts Dfinition La Fouille de donnes (Data Mining) est: Un ensemble de techniques d'exploration de donnes permettant d'extraire d'une base de donnes des connaissances sous la forme de modles de description afin de : dcrire le comportement actuel des donnes et/ou prdire le comportement futur des donnes 35

4.2 Le processus ECD


Le processus dextraction de connaissances partir de donnes est reprsent par le schma ci dessous

En fait, Le data mining est lun des maillons de la chane de traitement pour la dcouverte des connaissances partir des donnes. Sous forme image, nous pourrions dire que lECD est un vhicule dont le data mining est le moteur. LECD est un processus complexe qui se droule suivant une suite doprations. Des tapes de prtraitement ont lieu avant le data mining proprement dit. Le prtraitement porte sur laccs aux donnes en vue de construire des datamarts , des corpus de donnes spcifiques. Le prtraitement concerne la mise en forme des donnes entres selon leur type (numrique, symbolique, image, texte, son), ainsi que le nettoyage des donnes, le traitement des donnes manquantes, la slection dattributs ou la slection dinstances. Cette premire phase est cruciale car du choix des descripteurs et de la connaissance prcise de la population va dpendre la mise au point des modles de prdiction. Linformation ncessaire la construction dun bon modle de prvision peut tre disponible dans les donnes mais un choix inappropri de variables ou dchantillons dapprentissage peut faire chouer lopration.

36

4.3 Mthodes de fouille de donnes


4.3.1 Apprentissage supervis et non supervis Lune des classifications possibles des mthodes de fouille de donnes est la classification selon le type dapprentissage Types d'apprentissage utiliss dans les mthodes de fouille : Apprentissage supervis - Fouille supervise :

processus dans lequel l'apprenant reoit des exemples d'apprentissage comprenant la fois des donnes d'entre et de sortie

les exemples dapprentissage sont fournis avec leur classe (valeur de sortie prdite) But : classer correctement un nouvel exemple (gnralisation) utilises principalement en classification et prdiction Apprentissage non supervis - Fouille non supervise :

processus dans lequel l'apprenant reoit des exemples d'apprentissage ne comprenant que des donnes d'entre

pas de notion de classe But : regrouper les exemples en paquets (clusters) dexemples similaires (on peut ensuite donner un nom chaque paquet)

utilis principalement en association et segmentation

Quelques mthodes de fouille de donnes classifies selon le type dapprentissage et selon lobjectif

37

4.3.2 Les arbres de dcision - Objectif gnral : A partir dun ensemble de valeurs d'attributs (variables prdictives ou variable endognes) il sagit de prdire la valeur d'un autre attribut (variable cible ou variable exogne)

une des mthodes supervise (apprentissage) les plus connues de classification et de prdiction

un arbre est quivalent un ensemble de rgles de dcision : grande explicabilit du modle un arbre est compos : de noeuds = classes d'individus de plus en plus fine depuis la racine darcs = prdicats de partitionnement de la classe source

algorithmes dapprentissage darbre : ID3 [Quilan 79], CART [Brieman et al.84],

4.3.2.1 Problmes fondamentaux pour construire un arbre a) Critre de choix de lattribut - Si y est l'attribut dont la valeur prdire partir des valeurs des attributs prdictifs xi : choisir l'attribut dont la valeur a le plus d'influence sur celle de y - Plusieurs techniques provenant de la thorie de l'information de Shannon : Ratio du Gain ou de lEntropie (algo ID3, C5, )

38

indice de Gini (algo CART) X2 Ratio du gain / entropie - On parle de gain d'information ou d'entropie (concepts inverses) - On va chercher choisir l'attribut qui va induire le gain d'information le plus lev (ou dont l'entropie est la plus basse) - Intuitivement, l'entropie mesure le degr de dsordre qui restera si on dcoupe selon cet attribut -> entropie la plus basse est la meilleure -Donc pour chaque attribut candidat, on va calculer son entropie et on choisit celui qui a l'entropie la plus basse. b) Affectation d'un label une feuille : On affecte la modalit la plus frquente. c) Arrt de la segmentation : Diffrentes techniques: pre-pruning: On arrte l'expansion de l'arbre selon certains critres: profondeur maximale effectif de chaque sous-groupe: on fixe un seuil (souvent empiriquement) on calcule des mesures comme pour le choix de l'attribut de segmentation (gain d'information, X2,...) auquel on associe un seuil en dessous duquel la segmentation sera refuse post-pruning: On laisse l'arbre se construire jusqu'au bout On lague larbre en retirant des sous-arbres : l'aide d'heuristiques ou grce l'intervention d'un expert, l'arbre est lagu tant que l'erreur de l'arbre lagu reste infrieure celle de l'arbre non lagu. le noeud duquel on a retir un sous-arbre devient une feuille et porte le label de la valeur la plus frquente du sous-arbre

39

d) Choix des bornes de discrtisation : - On fixe les valeurs candidates comme les valeurs au milieu de 2 valeurs conscutives : ex: 35, 45, 52... -> 40, 48.5 - Puis on calcule ventuellement la meilleure valeur parmi celles l grce des mesures telles que : le gain, ... 4.3.2.2 Lalgorithme ID3 Soit : Classe C : valeur d'attribut prdire (ex: C1: risque = lev, C2: risque = faible) tuples : ensemble des tuples de l'chantillon, liste_attributs: ensemble des attributs Procdure Gnrer_arbre_dcision Crer un noeud N si tuples est vide alors retourner une feuille portant le label "Failure" si tuples sont dans la mme classe C alors retourner N avec comme label C si liste_attributs = vide alors retourner N avec comme label le nom de la classe la plus frquente dans l'chantillon Choisir lattribut a le plus discriminant parmi liste_attributs Affecter le label a au noeud N Pour chaque valeur ai de a : crer une branche issue du noeud N avec condition a s= ai Soit ti l'ensemble des lments tuples vrifiant cette condition Attacher le noeud retourn par Gnrer_arbre_dcision(ti, liste_attributs a) 4.3.2.3 Calcul de lentropie Entropie = Quantit d'information ncessaire pour classifier l'exemple Soit S un ensemble de s tuples

40

Soit C comprenant m valeurs diffrentes, dfinissant Ci classes (i = 1,...,m) Soit si le nombre de tuples de S appartenant Ci : I(s1,...sm) = quantit d'information ncessaire pour classifier l'ensemble des tuples I(s1,...sm) = - (i=1..m) pi log2(pi) pi: probabilit qu'un tuple appartienne Ci pi=si/s

Entropie de l'attribut A = E(A) : Soit A un attribut candidat possdant v valeurs {a1 ,..., av}. A permet de partionner l'ensemble S en v sous-ensembles {S1,..., Sv} Si comprend les tuples ayant la valeur ai pour A Soit sij le nombre de tuples du sous-ensemble Sj appartenant Ci

4.3.2.4 Exemple de mise en oeuvre

Entropie de l'attribut Couleur? C1: carr ; C2: triangle E(A) (S1 j...Sij ). I (S1j ,...,Sij ) ( j1..v) Pour couleur = rouge (i= carr ou triangle?, j=rouge) :

41

s11= scarr/rouge= 3 ; s21= striangle/rouge= 2 I(s11,s21) = I(3,2) = -3/5 log23/5 - 2/5 log22/5 = 0,971 Pour couleur = vert : s12= scarr/vert= 2 ; s22= striangle/vert= 3 I(s12, s22) = I(2,3) = -2/5 log22/5 - 3/5 log23/5 = 0,971 Pour couleur = jaune : s13= scarr/jaune=4 s23= striangle/jaune=0 I(s13,s23)=I(4,0)= -4/4 log24/4 - 0/4 log20/4 = 0 E (couleur) = 5/14 I(s11,s21) + 5/14 I(s12, s22) + 4/14 I(s13,s23) = 0,694 Gain (couleur) = 0,940 0,694 = 0,246

Etape suivante

Etape suivante

42

Etape suivante

Etape finale

43

44