Professional Documents
Culture Documents
Architecture et technique de ces composants de l'informatique dcisionnelle. Impact sur l'architecture du systme d'information (alimentation, restitution, serveur). Les volutions pour le datawarehouse distribu.
DATAWAREHOUSE et DATAMINING
EXAMEN PROBATOIRE
page: 1/ 33
Datawarehouse et datamining
Par David Maisons
EXAMEN PROBATOIRE
page: 2/ 33
Datawarehouse et datamining
Par David Maisons
1. 2.
INTRODUCTION .................................................................................................................................... 5 QUELQUES DEFINITIONS .................................................................................................................. 7 2.1 2.2 2.3 2.4 2.5 DATAWAREHOUSE ............................................................................................................................. 7 DATAMART ........................................................................................................................................ 7 ETL (EXTRACT, TRANSFORM, LOAD)................................................................................................ 7 DATAMINING ..................................................................................................................................... 7 CUBE ET HYPERCUBE ......................................................................................................................... 7
3.
SYSTEME D'INFORMATION DECISIONNEL ................................................................................. 8 3.1 LA PROBLEMATIQUE DE LENTREPRISE .............................................................................................. 8 3.1.1 Une entreprise.............................................................................................................................. 8 3.1.2 Le rle de dcideur....................................................................................................................... 8 3.1.3 Le besoin ...................................................................................................................................... 8 3.2 INFORMATIQUE DECISIONNELLE ........................................................................................................ 9 3.3 FONCTIONS ET ARCHITECTURE .......................................................................................................... 9 3.3.1 Collecte ...................................................................................................................................... 10 3.3.2 Intgration.................................................................................................................................. 10 3.3.3 Diffusion..................................................................................................................................... 10 3.3.4 Prsentation ............................................................................................................................... 10 3.3.5 Administration............................................................................................................................ 10
4.
PROBLEMATIQUES D'ALIMENTATION....................................................................................... 11 4.1 4.2 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.5 LE ROLE DU DATAWAREHOUSE ........................................................................................................ 11 APPREHENDER LES BESOINS ............................................................................................................ 12 EXTRACT-TRANSFORM-LOAD ......................................................................................................... 13 Dfinition ................................................................................................................................... 13 Extract........................................................................................................................................ 14 Transform................................................................................................................................... 14 Load ........................................................................................................................................... 15 EXEMPLE DE DONNEES .................................................................................................................... 16 QUESTIONS A SE POSER .................................................................................................................... 17 CONCEPT DU DATAWAREHOUSE ...................................................................................................... 18 Orient sujet............................................................................................................................... 18 Intgres..................................................................................................................................... 19 Historiss ................................................................................................................................... 19 Non-volatiles .............................................................................................................................. 20 Les mta-donnes ....................................................................................................................... 21 LES DIFFERENTES ZONES ................................................................................................................. 21 DATAMARTS ET ARCHITECTURE ...................................................................................................... 21 Les datamarts............................................................................................................................. 21 Datamarts Indpendants ............................................................................................................ 22 Datamarts dpendants ODS....................................................................................................... 23 Hybride ...................................................................................................................................... 23 OLAP.............................................................................................................................................. 24
5.
ARCHITECTURE D'UN DATAWAREHOUSE ................................................................................ 18 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.2 5.3 5.3.1 5.3.2 5.3.3 5.3.4 5.4
6.
LE DATAMINING................................................................................................................................. 26 6.1 DEFINITION ...................................................................................................................................... 26 6.2 DATAMINING, UN TRIPLE OBJECTIF .................................................................................................. 27 6.2.1 Expliquer.................................................................................................................................... 27 6.2.2 Confirmer ................................................................................................................................... 27 6.2.3 Explorer ..................................................................................................................................... 27
EXAMEN PROBATOIRE
page: 3/ 33
Datawarehouse et datamining
Par David Maisons 6.3 PRINCIPALES METHODES DU DATAMINING ...................................................................................... 28 6.3.1 Analyse descriptive (par Classification) .................................................................................... 28 6.3.2 Analyse prdictive (Par rseaux de neurones)........................................................................... 28 6.4 LES TECHNIQUES ............................................................................................................................. 29 6.4.1 Dcouverte de rgles.................................................................................................................. 29 6.4.2 Arbres de dcision...................................................................................................................... 29 6.4.3 Signal Processing....................................................................................................................... 29 6.4.4 Fractales .................................................................................................................................... 29 6.4.5 Rseaux neuronaux .................................................................................................................... 29 6.5 LE CERCLE VERTUEUX ..................................................................................................................... 30 7. 8. L'EVOLUTION DU DATAWAREHOUSE ET DU DATAMINING................................................ 31 7.1 LE DISTRIBUE .................................................................................................................................. 31 CONCLUSION....................................................................................................................................... 32
BIBLIOGRAPHIE........................................................................................................................................... 33
EXAMEN PROBATOIRE
page: 4/ 33
Datawarehouse et datamining
Par David Maisons
1. Introduction
Ne vous tes-vous jamais demand comment est choisi lemplacement des produits dans une grande surface ? Si cest par pur feeling du responsable ou bien par une stratgie marketing bien plus labore Ou bien encore par quel moyen, la publicit nominative (postal ou par mail) est bien souvent en relation directe avec vos habitudes de consommations ? La rponse tient en un mot : le datawarehouse ! Il ne faut pas tre paranoaque, mais Big Brother nest plus loin...nous sommes tous fich dans ces immenses entrepts de donnes. Ds que nous achetons un produit, mettons un appel tlphonique, en quelques mots : toutes actions lies lactivit dune entreprise est stocks dans un datawarehouse pour en tre analyse, via des outils de datamining afin de nous tudier. Ceci dans un but bien prcis : celui de nous connatre afin de mieux identifier nos besoins.
EXAMEN PROBATOIRE
page: 5/ 33
Datawarehouse et datamining
Par David Maisons
EXAMEN PROBATOIRE
page: 6/ 33
Datawarehouse et datamining
Par David Maisons
2. Quelques dfinitions
2.1 Datawarehouse
Dfinition de Bill Inmon (1996): Le datawarehouse est orient sujets, cela signifie que les donnes collectes doivent tre orientes mtier et donc tries par thme; Le datawarehouse est compos de donnes intgres, c' est--dire qu' nettoyage un pralable des donnes est ncessaire dans un souci de rationalisation et de normalisation; Les donnes du datawarehouse sont non volatiles ce qui signifie qu' donne entre dans une l' entrept l' pour de bon et n' pas vocation tre supprime ; est a Les donnes du datawarehouse doivent tre historises, donc dates. L' organisation des donnes est conue pour que les personnes intresses aient accs rapidement et sous forme synthtique l' information stratgique dont elles ont besoin pour la prise de dcision. Source : www.commentcamarche.net
2.2 Datamart
Sous ensemble d' entrept de donnes, contenant des informations se rapportant un un secteur d' activit particulier de l' entreprise ou un mtier qui y est exerc (commercial, marketing, comptabilit, etc.). Source : www.journaldunet.com
Outil informatique destin extraire des donnes de diverses sources (bases de donnes de production, fichiers, Internet, etc.), les transformer et les charger dans un entrept de donnes. Source : www.journaldunet.com
2.4 Datamining
Recherche de corrlations/liens schmatiques dans une base d' informations volumineuse ou complexe dans le but de les transformer en connaissance. Source : www.journaldunet.com
Reprsentation abstraite d' informations multidimensionnelles exclusivement numriques utilise par l' approche OLAP (acronyme de On-line Analytical Processing). Cette structure est prvue des fins d' analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni statisticiens) du mtier que ces donnes sont censes reprsenter Source : www.wikipedia.org
EXAMEN PROBATOIRE
page: 7/ 33
Datawarehouse et datamining
Par David Maisons
La Problmatique de lEntreprise , ce titre amne naturellement dfinir la position de lentreprise par rapport au sujet le Datawarehouse, le Datamining . Une entreprise se doit en permanence de pouvoir se situer par rapport a la concurrence, mais galement par rapport a la demande et a ce quelle peut offrir. Cest sur ces points quun systme dcisionnel intervient. 3.1.1 Une entreprise Une entreprise est une organisation dote dune mission et dun objectif mtier. Elle doit grer sa raison dtre et/ou sa prennit au travers de diffrents objectifs (scurit, dveloppement, rentabilit). Par voie de consquence, cette organisation humaine est dote dun centre de dcision. 3.1.2 Le rle de dcideur Le dcideur peut-tre le responsable de lentreprise, le responsable dune fonction ou dun secteur. Il est donc celui qui engage la prennit ou la raison dtre de lentreprise. Pour ces raisons, il doit sentourer de diffrents moyens lui permettant une prise de dcision la plus pertinente. Parmi ces moyens, les datawarehouses ont une place primordiale. En effet, ils contiennent les donnes de toute lactivit de lentreprise. Le principal problme rside dans lexploitation de ces informations. Pour cela, il est primordial de bien penser le datamining. 3.1.3 Le besoin Pour faire face la concurrence quengendre la mondialisation, les entreprises doivent tre de plus en plus performantes et rapides dans leurs prises de dcisions. Dautre part, les volumes de donnes suivent un accroissement continu pouvant atteindre plusieurs Traoctets pour une socit. Bien entendu, ces informations ne se trouvent pas sur un systme unique. Prenons lexemple dune entreprise quelconque. Elle possde un systme de gestion de ses employs bas sur une application dveloppe en interne, un autre systme grant ses achats bass sur un ERP, un systme de facturation, etc. Chaque systme dinformation gre un domaine diffrent de lentreprise (un mtier diffrent) et possde sa propre structure de donne ainsi que sa propre politique daccs aux donnes. Cela provoque un manque de cohrence et des difficults daccs linformation allongeant dautant plus le temps de prise de dcision.
EXAMEN PROBATOIRE
page: 8/ 33
Datawarehouse et datamining
Par David Maisons
Ceci pose la problmatique suivante : Comment prendre des dcisions sur la base dinformations issues de systmes htrognes naillant pas de moyens pour communiquer facilement entre eux. Le datawarehouse rpond en partie cette problmatique. En effet, cette base de donnes regroupe lensemble des informations de lentreprise de faon cohrente dans le but de faciliter lanalyse et la prise de dcision.
Linformatique dcisionnelle (en anglais : DSS pour Decision Support System) trouve sa place dans larchitecture plus large dun systme d' information. Linformatique dcisionnelle reprsente un ensemble de moyens, doutils et de mthodes permettant de collecter, consolider, modliser et de restituer les donnes de lentreprise dans le but dapporter une aide la prise de dcision. Un autre atout de linformatique dcisionnelle est de permettre aux responsables de la stratgie d' entreprise davoir une vue densemble de une lactivit traite. La maturit des dcisionnels peut tre illustre en cinq tapes :
Tout systme dinformation dcisionnelle, telle que le sont les datawarehouse mettent en uvre cinq fonctions fondamentales : la collecte, lintgration, la diffusion, la prsentation et ladministration des donnes.
EXAMEN PROBATOIRE
page: 9/ 33
Datawarehouse et datamining
Par David Maisons
3.3.1 Collecte la collecte des donnes brutes dans leurs environnements d' origine, ce qui implique des activits plus ou moins labores de dtection et de filtrage, car un excdent de donnes, un dfaut de fiabilit ou un trop mauvais rapport signal/bruit sont pires que l' absence de donnes 3.3.2 Intgration Lintgration des donnes, c' est--dire leur regroupement en un ensemble technique, logique et smantique homogne appropri aux besoins de l' organisation 3.3.3 Diffusion La diffusion, ou la distribution d' informations labores partir des donnes dans des contextes appropris aux besoins des individus ou des groupes de travail utilisateurs 3.3.4 Prsentation La prsentation, c' est--dire les conditions de mise disposition de l' information (contrle d' accs, personnalisation, ergonomie...) 3.3.5 Administration Ladministration, qui gre le dictionnaire de donnes et le processus d' alimentation de bout en bout, car le systme dinformation dcisionnelle doit-tre lui-mme pilot. En pratique, les fonctions de collecte et d' intgration sont troitement lies entre elles, et sont gnralement associes au datawarehouse. De mme, diffusion et prsentation sont des fonctions fortement "orientes sujet", tournes vers l' utilisateur et son mtier, manipulant des contenus forte valeur ajoute informationnelle et non des donnes brutes; elles sont donc fortement imbriques logiquement et techniquement.
Dans notre monde actuel, fait de communications, une entreprise pour survivre doit pouvoir se situer face la concurrence, connatre son rapport offre / demande. Pour cela, il faut se connatre, et linformatique dcisionnelle, au travers dun datawarehouse apporte tous les lments de rponse.
EXAMEN PROBATOIRE
page: 10/ 33
Datawarehouse et datamining
Par David Maisons
4. Problmatiques d'alimentation
Les donnes contenues dans un datawarehouse sont issues des diffrentes bases de donnes de lentreprise. Ces bases de production, systmes oprants de lentreprise, correspondent lensemble des applications informatiques utilises au quotidien dans lentreprise pour son activit (gestion de production, gestion bancaire, gestion commerciale,...). Les informations qui y sont stockes, propres chaque application, peuvent parfois tre utilises par dautres programmes, par lintermdiaire de transferts de donnes, couramment appels interfaces. Nous allons donc voir dans ce chapitre les outils et les mthodes permettant dalimenter un datawarehouse tout en minimisant limpact sur les systmes de productions.
La chane dcisionnelle est compose de trois parties : Alimentation du DataWarehouse Modlisation Restitution des donnes : Analyse et prise des dcisions
Le rle primordial dun datawarehouse apparat ainsi vident dans une stratgie descensionnelle. Lalimentation du datawarehouse en est la phase la plus critique. En effet, importer des donnes inutiles apportera de nombreux problmes. Cela consommera des ressources systme et du temps. De plus, cela rendra les services danalyses plus lents. Autre point prendre en compte et la priodicit dextraction des donnes. Effectivement, le plus souvent, les oprations de collecte de donnes sont coteuses en ressource pour la base
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 11/ 33
Datawarehouse et datamining
Par David Maisons
accde. Il faut donc trouver un quilibre entre le dlai acceptable entre deux mises a jours des tables du datawarehouse et les ressources consommes. Comme nous lavons indiqu, le Datawarehouse est le centre de chane dcisionnelle, les utilisateurs nauront accs quaux outils de requtage, et danalyse Toutes parties de lalimentation et celles de restitution des donnes sont gres par une quipe informatique interne ou externe lentreprise spcialise en gestion de base de donnes et en dcisionnel.
De part sa nature, un datawarehouse est aliment via les informations de lentreprise. Or ces informatique sont stock sous les formes les plus heterogene. On peut retrouver ainsi plusieurs type de base de donnes (acces, DB2, MySQL,), des tableurs, des fichiers a plats Il existe une quasi infinit de format de source. En gnrale, on retrouve trois types de contraintes la mise en uvre dun datawarehouse : Alimentation des donnes de production aux normes des donnes du rfrentiel. Organisation du stockage des informations. Sur le plan fonctionnel, garantir lintgrit des donnes par des dfinitions uniques et rutilisables par tous les utilisateurs. Avant de se lance dans la mise sa place, il est impratif de matrises les principes et les contraintes de fonctionnement du datawarehouse. La mise en place dune base multidimensionnelle correspond donc un certain nombre de critres : Lutilit des donnes : Inutile de sencombrer avec donnes superflues. Le choix des donnes a transfert dans le cube danalyse doit tre dict par la direction de lanalyse elle-mme. Ainsi dans un datamart de type commercial, contenant lensemble des factures clients mises, il sera inutile de transfrer les numros de factures vers le cube danalyse. Cet indicateur, non significatif, ne peut tre rattach aucune dimension. Il faut donc lcarter du transfert. Sa prsence dans le cube napporterait rien lanalyse mais ralentirait les temps de rponse. Le rfrencement : A linverse, toutes les donnes utiles seront inscrites dans les tables via un rfrencement strict. Cette nomenclature sera dfinie pour les besoins danalyses. Ainsi les dates de factures seront rattaches des priodes, les comptes clients vont tre rattachs des groupes de clients. La pertinence : toujours garder a lesprit le rsultat attendu. Avant de se lancer dans la constitution dun cube, il faut vrifier que les informations qui y seront produites auront un sens. Dans une socit o les clients sont de passage et nacquirent le plus souvent quun seul produit, le couple, cest dire le croisement de la dimension clients et de la dimension produits, naura aucun intrt et napportera donc pas dinformation, tout en gnrant un cube trs encombrant en espace mmoire. Il est donc impratif de penser lorganisation des dimensions du cube danalyse en fonction de lactivit de lentreprise. Il nexiste pas de modle standard de donnes multidimensionnelles. Le modle de donnes et sa structure restent en effet uniques pour chaque entreprise.
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 12/ 33
Datawarehouse et datamining
Par David Maisons
4.3 Extract-Transform-Load
Loutil dalimentation permet de paramtrer des rgles de gestion, propres lentreprise et son secteur dactivit. Ces rgles visent elles aussi assurer la cohrence entre les donnes et ne stocker dans lentrept de donnes que des informations pralablement mises en relation les unes avec les autres. 4.3.1 Dfinition Extract-Transform-Load est connu sous lacronyme ETL (ou parfois : datapumping). Il s' agit d' une technologie informatique middleware permettant d' effectuer des synchronisations massives d' information d' banque de donnes vers une autre. Selon le une contexte, on traduira par alimentation , extraction , transformation , constitution ou conversion , souvent combins. Cette technologie est base sur trois outils : des connecteurs servant exporter ou importer les donnes dans les applications (Ex : connecteur Oracle ou SAP...) des transformateurs qui manipulent les donnes (agrgations, filtres, conversions...) des mises en correspondance (mappages).
Actuellement il existe trois catgories doutils ETL : Engine-based : les transformations sont excutes sur un serveur ETL, disposant en gnral dun rfrentiel. Ce genre doutil dispose dun moteur de transformation ; Database-embedded : les transformations sont intgres dans la base de donnes. Cette fonctionnalit est trs consommatrice de ressource sur la base de donnes. Code-generators : les transformations sont conues et un code est gnr. Ce code est dployable indpendamment de la base de donnes.
EXAMEN PROBATOIRE
page: 13/ 33
Datawarehouse et datamining
Par David Maisons
Pourquoi tout cet intrt ? Historiquement, les entreprises ont dpenses leurs ressources dans ce qui tait visible des utilisateurs, laspect prsentation et sur le datawarehouse. Seulement, les entreprises gnrant de faon exponentielle des donnes traiter, elles ont dues se recentrer sur la modlisation dimensionnelle afin doptimiser lespace et les temps de traitement. De nos jours laccent est plutt mis sur les systmes ETL. Contrairement aux ides reues, un ETL nest pas un simple programme dextraction, transformation et de chargement et ne doit pas tre trait de la sorte. Il sagit bien au contraire dun systme complexe. Celons une tude de Kimball (2004) sur les ETL, il en ressort quun systme ETL peut tre dcoup en 38 sous-systmes. Cette mme tude a statu que 70% dun projet dentrept de donnes est ddi aux systmes ETL. La mise en place d' systme ETL demande une un expertise spciale et fait appel plusieurs types de ressources humaines. 4.3.2 Extract L'extraction des donnes est la premire des tapes des systmes ETL. Le but de cette tape, est comme son nom lindique : la lecture et lextraction des donnes du systme source. On imagine facilement que cette tape savre tre critique. En effet, dans le cas ou le systme source doit fonctionner en permanence (24h/24 et 7jours sur 7), il faut que lextraction, opration couteuse en ressources, doit tre fait le plus rapidement possible et souvent durant un laps de temps prcis (souvent nomm extract window ), dcid en collaboration des quipes chargs de la gestion et/ou de lexploitation de ce systme source. La complexit de l' extraction n' pas dans le processus de lecture, mais surtout dans le est respect de l' extract window. Cette contrainte est la principale raison de la sparation extraction / transformation. D' autre part, on essaye au maximum d' extraire seulement les donnes utiles (Mise jour ou ajoute aprs la dernire extraction) et pour ce faire on pourrait s' entendre avec le responsable du systme source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de cration de l' enregistrement dans la table et la date de mise jour (En gnral la plupart des systmes sources disposent de ces deux dates). Par ailleurs pour ne pas perdre des donnes suites des problmes d' extraction, il est important de s' assurer que le systme source ne purge pas les donnes avant que l' entrept ne les ait extraits. 4.3.3 Transform La transformation est la tche la plus complexe et qui demande beaucoup de rflexion. Voici les grandes fonctionnalits de transformation : Nettoyage des donnes Standardisation des donnes. Conformit des donnes. gestion des tables de fait gestion des dimensions affectations des cls de substitution (surrogate key) gestion de l' volution lente (Slowly changing dimension)
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 14/ 33
Datawarehouse et datamining
Par David Maisons
gestion des faits arrivants en retard ( Late arriving fact) gestion des lookups ... 4.3.4 Load Le chargement permet de transfrer les donnes vers leur destination finale. 3 cas de figures se prsentent, celons larchitecture mise en place. 1) de charger les donnes dans l'entrept de donnes. Si la politique retenue a t de construire un entrept de donnes avec une base de donnes, alors les donnes seront charges dans l' entrept. Cette approche est proche celle de Bill Inmon. Il sera ds lors possible dutiliser des fonctionnalits analytiques comme Oracle le permet. 2) de les charger dans des cubes de donnes. La deuxime possibilit est de charger les donnes directement dans des cubes de donnes sans les stocker dans un DW. Cette approche est certainement la plus proche celle de Ralph Kimball. Un bon exemple est l' utilisation directe des cubes de donnes. 3) le mode hybride. La troisime possibilit est celle offre le plus davantages mais demande par contre plus d' effort. Le chargement des donnes seffectue la fois sur le datawarehouse et les datamarts : Un premier chargement des donnes dans un entrept de donnes. Un deuxime chargement dans des cubes de donnes. Par contre cette approche ajoute une charge de travail trs considrable pour l' quipe de dveloppement (Aucun impact sur les utilisateurs) : Une base de donnes crer et maintenir. Un exercice de rflexion sur le modle de donnes du datawarehouse. Un autre exercice de rflexion sur le modle des mta-donnes.
EXAMEN PROBATOIRE
page: 15/ 33
Datawarehouse et datamining
Par David Maisons
On utilise le data warehouse pour compiler et analyser des mois, voire des annes de donnes collectes aux caisses dans des centaines ou des milliers de magasins. Cette information est ensuite utilise pour grer les achats, dterminer des prix, optimiser le stockage, les inventaires et pour prendre des dcisions concernant la configuration des magasins. Par exemple, chez Wall Mart on sest aperu grce aux data warehouses que l' vendait on frquemment en mme temps des couches culottes et de la bire, parce que Monsieur est souvent charg daller chercher les couches du nouveau n; d' peut-tre l' o ide de rapprocher les deux rayons.
EXAMEN PROBATOIRE
page: 16/ 33
Datawarehouse et datamining
Par David Maisons
Lalimentation dun datawarehouse est la phase la plus critique. Il faut choisir avoir attention les donnes a importer, peu de donnes ne refltera pas la ralit, et trop de donnes pnaliseront les systmes de production. Des outils spcialiss existent afin de raliser moindre cot (finance et en ressources systme) les opration dextraction, de traitement et de chargement des donnes des bases oprationnelles vers le datawarehouse.
EXAMEN PROBATOIRE
page: 17/ 33
Datawarehouse et datamining
Par David Maisons
Un datawarehouse est caractris par quatre concepts : Orients sujet Intgrs Historiss Non-volatiles Au travers de lexplication de ces quatre caractristiques, nous allons voir les diffrences quil existe entre une base de donnes oprationnelles (systmes sources) et les datawarehouses. 5.1.1 Orient sujet On dit dun datawarehouse quil est orient sujet car il regroupe en son sein des informations des diffrents mtiers (fabrication, achats, qualit) de lentreprise. Gnralement chaque mtier possde des informations de familles communes, mais relatives un sujet diffrent (clients, produits, contrats). Cet tat de fait peut tre matrialis par le schma suivant :
EXAMEN PROBATOIRE
page: 18/ 33
Datawarehouse et datamining
Par David Maisons
Le fait quun datawarehouse soit Orient sujet permet une analyse plus pertinente des donnes critique car on synthtise toutes les facettes du sujet que lon tudie. 5.1.2 Intgres Souvent chaque mtier dune entreprise stocke ses informations dans des bases de diffrents types (excel, oracle, etc.) pour faire face a ce problme un datawarehouse est intgr, il regroupe ainsi lintgralit des donnes de lentreprise. Cela a comme avantage direct de simplifier la politique daccs aux donnes aux utilisateurs tout en facilitant laccs pour la prise de dcision. Le fait de dfinir une hirarchie des donnes uniques indpendamment du mtier offre une plus grande souplesse dvolution. Les systmes oprationnels propre a chaque mtier peuvent voluer dans le temps, le datawarehouse est stable. Il permet davoir un rfrentiel commun toute lentreprise.
Comme nous lavons vus prcdemment, se sont les outils dalimentation, les ETL, qui permettent davoir un datawarehouse intgr. 5.1.3 Historiss La diffrence la plus visible avec un systme oprationnel classique et un datawarehouse est que ce dernier est historis. C' est--dire que les donnes contenues dans un entrept de donnes reste figes dans le temps. A contrario, celles prsentes dans un systme oprationnel voluent dans le temps. Elles peuvent tre modifies, voir supprimes. Si les donnes taient conserves plus longtemps, un problme de temps de rponse de la base de donnes apparatra. Le datawarehouse garde une structure cohrente et oprationnelle avec des donnes figes dans le temps.
EXAMEN PROBATOIRE
page: 19/ 33
Datawarehouse et datamining
Par David Maisons
De part son rle, un datawarehouse conserve trois, quatre, cinq ans dhistorique. Le problme de temps de rponse qui peut subvenir sur une base de donnes classique ne se pose pas car la modlisation mme du datawarehouse est prvue pour cela. 5.1.4 Non-volatiles Une base de donnes mtier est vivante, les donnes sont en perptuelle volution. Le meilleur exemple est la base de donnes servant a grer un stock. Il est donc logique de pouvoir agir sur les donnes en les modifiant et/ou en les supprimant Dans le datawarehouse, une seule opration vis--vis du traitement des donnes est raliser : le chargement Une fois que la donnes est dans lentrepot de donnes, celle-ci nvolue plus. Les donnes sont non-volatiles. Cela permet de figer les informations au moment de lalimentation du datawarehouse.
EXAMEN PROBATOIRE
page: 20/ 33
Datawarehouse et datamining
Par David Maisons
5.1.5 Les mta-donnes Un datawarehouse permet dagrger et de consolider les donnes afin de les exploiter. Mais lintrt du datawarehouse est de conserver la trace des donnes produites aprs lapplication des rgles de gestion. Cela est rendu possible grce aux mta-donnes, cest dire les donnes sur les donnes . Ces mta-donnes permettent de stocker des informations telles que le nom de la base de production dont la donne est extraite, la date et lheure de la dernire extraction, la frquence de mise jour de cette information, ... Il est ainsi possible partir une donne agrge de remonter la base de source, et lensemble des donnes qui ont servi la produire. Sans rfrentiel qui qualifie de faon prcise ce que signifie chaque valeur dans la base, il n' pas possible de conduire une analyse et interprter les rsultats. C' ce rle que joue est est l' annuaire des mta-donnes.
Le staging area est une zone temporaire qui permet le stockage des donnes extraites des systmes sources. C' dans le staging area que vont seffetuer les diffrentes est transformations : Le nettoyage des donnes, le merge, la standardisation, le dduplication... des donnes. Les donnes dans le staging area sont dtruites une fois le chargement ralis.
5.2.1.2 Le Datawarehouse
Les donnes du staging area sont transfres vers le datawarehouse. Il est important de noter que le mtadata(fichier contenant les mta-donnes) est aussi stock dans le datawarehouse. Le Datawarehouse est centrale et devrait tre contenir toutes les donnes de l' entreprise.
5.2.1.3 La zone prsentation
La zone de prsentation est linterface visible du datawarehouse par les utilisateurs. Cest ici quils pourront excuter leurs requtes afin daccder aux donnes, analyser et visualiser les informations produites du datawarehouse.
EXAMEN PROBATOIRE
page: 21/ 33
Datawarehouse et datamining
Par David Maisons
Il existe plusieurs approches pour mettre en place un Datawarehouse. Par contre seulement trois approches sont communes. Il s' de : agit l' approche "Bottom-up", ou Datamarts indpendant de Kimball l' approche "Top-Down" ou Datamarts dpendant prne par B.Inmon l' approche "Hybride" qui drive des deux premires approches. Il serait utopique de croire quil existe une approche idale. Il faut rechercher lapproche la plus adapte son contexte. 5.3.2 Datamarts Indpendants Selon Kimball la premire tape est la conception du modle dimensionnel pour les datamarts, c' est--dire ayant une vue mtier. Celui-ci placera les datamarts au centre de larchitecture. Le reste sera compos dun staging area temporaire. Dans cette approche, on dit que les datamarts sont centraux car ils peuvent contenir la fois des donnes atomique et agrges, et quils offre la possibilit de fournir une vue entreprise et une vue mtier. Il est a not que limplantation des datamarts se fait dune faon incrmentale et intgre. Pour finir, les utilisateurs ne peuvent effectuer des requtes sur le staging area. Le staging area : comme dit prcdemment, le staging area est temporaire. Il nas pour fonction que le stockage des donnes extraites des systmes sources et les diffrentes opration de transformations savoir : Le nettoyage des donnes, le merge, la standardisation, le dduplication... des donnes. Le staging area est dit temporaire car les donnes sont dtruites une fois le chargement des datamarts termin. Les datamarts indpendants : Les donnes sont donc transfres du staging area vers le datamart concern. Il est important de noter que le mtadata est aussi stock dans le datamart. Les datamarts sont dit indpendants ce qui veut dire qu' n' il existe aucune intgration ou communication entre ces derniers.
EXAMEN PROBATOIRE
page: 22/ 33
Datawarehouse et datamining
Par David Maisons
La zone prsentation : lorsque les datamarts sont chargs, les utilisateurs peuvent, via la zone de prsentation, excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l' information en provenance des datamarts. 5.3.3 Datamarts dpendants ODS Selon B.Inmon, cest le datawarehouse qui est au centre de larchitecture. La premire tape est donc de concevoir un modle de datawarehouse mais au niveau entreprise cette fois-ci et non plus mtier. Cette architecture sera de type multi-tier compose du staging area, du datawarehouse et des datamarts. Le staging area sera permanent et les datamarts seront interdpendants. Cest dire quils communiqueront entre eux. La principale caractristique de cette approche rside dans le fait que cest le datawarehouse qui contient les donnes atomiques. Il utilise un modle normalis de toute lentreprise. Il est donc orient entreprise, a loppos des datamarts qui eux orients mtier. Ces derniers utilisent des modles dimensionnels orients mtier. Les donnes y sont stockes sous formes agrges. Pour finir, les utilisateurs peuvent effectuer des requtes sur le datawarehouse et sur les datamarts. Operational Data Store (ODS): sont rle est double : il rempli la fonction de stagin area avec toutes les oprations habituelles : stockage des donnes extraites des systmes sources, les diffrentes transformations (nettoyage des donnes, le merge, la standardisation, le dduplication...). Par contre les donnes dans l' ODS ne sont dtruites qu' aprs la dure de vie des donnes dans l' ODS, facteur dfinit par l' organisation et dpend de plusieurs critres. Le deuxime rle d' ODS et c' surtout sa raison d' c' d' un est tre est intgrer les donnes sources dans le but de prsenter toute l' information ncessaire prendre des dcisions tactiques. Le datawarehouse : Les donnes de l' ODS sont transfres vers le datawarehouse. Le Data warehouse est centrale, et d' ailleurs B.Inmon le nome Entreprise DataWarehouse (EDW). Il doit contenir toutes les donnes de l' entreprise. Les datamarts dpendants : Deux possibilits pour alimenter les datamarts : soit depuis lODS soit depuis le datawarehouse. Ces datamarts sont dpendants. La zone prsentation : lorsque les datamarts sont chargs, les utilisateurs peuvent, via la zone de prsentation, excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l' information. 5.3.4 Hybride Cette approche, comme son nom lindique, est un mix des deux premires approches. On commence par concevoir un modle de donnes de l' entreprise en mme temps que les modles spcifiques. Puis on cre un modle normalis d' entreprise de haut niveau ; gnre les modles des premiers datamarts qui seront chargs avec les donnes atomiques en utilisant un staging area temporaire. Un outil ETL sera utilis pour charger les datamarts et pour changer le mtadata avec ces derniers. Les avantages sont nombreux : possibilit de recharger les cubes. Les donnes sont stockes dans une base de donnes de l' entrept de donnes. possibilit de garder les faits et les dimensions dans leur dtail de grain le plus fin.
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 23/ 33
Datawarehouse et datamining
Par David Maisons
la possibilit de crer des agrgats... une plus grande flexibilit retraiter les donnes, les corriger. ne pas avoir charger le dtail dans les cubes. Ils restent utiliss pour les analyses de plus haut niveau. Si il le besoin daccder aux dtails plus fin se prsente, une lecture est effectue sur lentrept de donnes. En contre partie, cette approche entrane une plus grande charge de travail aux quipes dadministration et dexploitation.
5.4 OLAP
nline Analytical Processing (OLAP), dsigne les bases de donnes multidimensionnelles ou cubes destines l' analyse. Ce terme s' oppose OLTP qui dsigne les systmes transactionnels. OLAP a t dfini par Ted Codd en 1993 au travers de 12 rgles que doit respecter une base de donnes si elle veut adhrer au concept OLAP. Nigel Pendse rcapitule la dfinition de l' OLAP en cinq mot : Fast Analysis of Shared Multidimensional Information (FASMI) traduit en franais comme suit : Analyse Rapide d' Information Multidimensionnelle Partage . OLAP est un mode de stockage prvu pour lanalyse statistique des donnes. Une base de donnes OLAP peut se reprsenter comme un cube N dimensions o toutes les intersections sont pr-calcules. Lexemple suivant ne possde que trois dimensions pour que lon puisse le reprsenter visuellement mais ce nest en aucun cas une limite. Il sagit dun cube reprsentant les ventes de fruits dune entreprise. Les trois axes reprsents sont : Le pays de vente Le type de fruit La priode
EXAMEN PROBATOIRE
page: 24/ 33
Datawarehouse et datamining
Par David Maisons
La force de OLAP tient dans le fait que comme toutes les intersections du cube sont calcules. Laccs accder linformation voulue est une opration trs rapide, quasiment instantane. En effet, le rsultat voulu se trouve aux croisements des diffrentes dimensions.
Un datawarehouse a pour vocation laide la prise de dcision en prsentant une vue synthtise des donnes de toute lentreprise. Cest dans cette optique que son architecture est pense. Il est orient sujet, intgr, historis et nonvolatiles. Trois grands courant de penser se confronte quant son architecture. Les datamarts dpendant ou indpendant. Le troisime mixant les deux. Alimenter le datawarehouse est la difficult technique majeure et la plus coteuse.
EXAMEN PROBATOIRE
page: 25/ 33
Datawarehouse et datamining
Par David Maisons
6. Le datamining
Les donnes ne naissent pas pertinentes, elles le deviennent... . Telle pourrait tre ladage du datamining. Possder toutes les donnes de son entreprise dans un entrept une chose, mais reste le plus important : savoir en extraire une connaissance utile. Le datamining serait donc la solution a la problmatique de toute entreprise, savoir quil permet de mettre en vidence les informations capitales toutes prises de dcisions. Le datamining se veut de pouvoir grce des outils et mthode de pouvoir extraire des informations a partir des gigantesques quantits de donnes. Nous allons donc tudier ces mthodes et outils du datamining.
6.1 Dfinition
Le terme de datamining signifie littralement exploitation des donnes. Comme dans toute exploitation, le but recherch est de pouvoir extraire de la richesse. Ici, la richesse est la connaissance de lentreprise. Fort du constat quil existe au sein des bases de donnes de chaque entreprise une ressource de donnes caches et surtout inexploite, le datamining permet de faire les apparatre, et cela grce un certain nombre de techniques spcifiques. Nous appellerons datamining l' ensemble des techniques qui permettent de transformer les donnes en connaissances. Le primtre dexploitation du datamining ne se limite pas lexploitation des datawarehouses. Il veut dtre capable dexploiter toutes bases de donnes contenant de grandes quantits de donnes telles que des bases relationnelles, des entrepts de donnes mais galement des sources plus ou moins structures comme internet. Dans ces cas, il faut nanmoins construire une base de donnes ou un entrept de donnes qui sera ddi lanalyse.
EXAMEN PROBATOIRE
page: 26/ 33
Datawarehouse et datamining
Par David Maisons
Comme le montre la figure prcdente, le datamining est un processus itratif qui met en uvre un ensemble de techniques htroclites tel que des bases de donnes (datawarehouse), de la statistique, de lintelligence artificielle, de lanalyse des donnes, des interfaces de communication homme-machine. Le rsultat du datamining peut se prsenter sous diffrent format : texte plat, tableau, graphique Le datamining est un ensemble doutils danalyse dentrept de donnes et de cube apportant au dcisionnaire des lments supplmentaire de prise de dcisions qui ne sont pas forcement visible aux premiers abords.
EXAMEN PROBATOIRE
page: 27/ 33
Datawarehouse et datamining
Par David Maisons
Pour arriver exploiter ces quantits importantes de donnes, le datamining utilise des mthodes dapprentissages automatiques. Une amalgame est faite tord entre toutes ces mthodes. Ces methodes sont de deux types : les techniques descriptives et les techniques prdictives, selon qu' existe ou non une variable "cible" que l' cherche expliquer. il on 6.3.1 Analyse descriptive (par Classification) Le principe de ces mthodes est de pouvoir mettre en vidence les informations prsentes dans le datawarehouse mais qui sont masques par la masse de donne. Parmi les techniques et algorithmes utiliss dans l' analyse descriptive, on cite : Analyse factorielle (ACP et ACM) Mthode des centres mobiles Classification hirarchique Classification neuronale (rseau de Kohonen) Recherche d' association . 6.3.2 Analyse prdictive (Par rseaux de neurones) Contrairement a lanalyse descriptive, cette technique fait appels a de lintelligence artificielle. Lanalyse prdictive, est comme son nom lindique une technique qui va essayer de prvoir une volution des vnements en se basant sur lexploitation ce ceux stocks dans le datawarehouse. En effet, lobservation et lhistorisation des vnements peuvent permettre de prdire une suite logique. Le meilleur exemple est celui des prvisions mtorologiques qui se base sur des tudes des volutions mtorologiques passes. En marketing, l' objectif est par exemple de dterminer les profils d' individus prsentant une probabilit importante d' achat ou encore de prvoir partir de quel moment un client deviendra infidle. Parmi les techniques et algorithmes utiliss dans l' analyse prdictive, on cite : Arbre de dcision Rseaux de neurones Rgression linaire Analyse discriminante de Fisher Analyse probabiliste ...
EXAMEN PROBATOIRE
page: 28/ 33
Datawarehouse et datamining
Par David Maisons
Derrire ces analyses se positionnent des outils bass sur des techniques diffrentes. Je vous propose une prsentation des plus importante de ces techniques. Dcouverte de rgles Arbres de dcision Signal Processing Fractales Rseaux neuronaux Hybride
6.4.1 Dcouverte de rgles Le but tant de construire une rgle logique et empirique applicable dans un contexte prcis. Le principe de cette technique est double. On peut dune part demande au systme de valider une rgle en la justifiant ou linvalidant grce a ses donnes, ou bien dautre part demander au systme dtablir une rgle en fonction des donnes quil possde. 6.4.2 Arbres de dcision Le but de cette technique est de crer un arbre de dcision procdant a une analyse critre par critre. La dtermination de ces critres significatifs est faite selon les poids statistiques des valeurs. Loutil de datamining va parcourir les diffrents critres possibles, dont la finalit sera de trouver des liens entre les chemins qui ont une signification par rapport la problmatique donne. 6.4.3 Signal Processing Mise en vidence dun comportement de donnes en les filtrant. Cette technique consiste e appliquer un filtre travers une hypothse afin de faire apparatre un lien entre ces donnes. 6.4.4 Fractales Technique se basant sur des algorithmes mathmatique. Composer des segmentations partir de modles mathmatiques bass sur des regroupements irrguliers de donnes. 6.4.5 Rseaux neuronaux Utiliser des technologies dintelligence artificielle afin de dcouvrir par lapprentissage du moteur des liens non procduraux. Ces deux dernires techniques sappuient sur des algorithmes mathmatiques et tentent travers des mthodes dapprentissage de constituer des logiques non procdurales.
EXAMEN PROBATOIRE
page: 29/ 33
Datawarehouse et datamining
Par David Maisons
Le cercle vertueux du datamining est ce qui lui permettre de garder une cohrence dans le temp. Celui-ci est compos de quatre tapes : Identifier le domaine d' tude Prparer les donnes Agir sur la base de donnes Evaluer les actions
1. On commence en premier lieu identifier le domaine d' tude. Le principe est de rpondre aux questions : de quoi parlons nous et que voulons nous faire ? Lobjectif gnral est dfini dans cette tape. 2. La deuxime tape est de recenser les donnes relative au domaine prcdemment dfini, puis les prparer, c' est--dire les regrouper afin den facilit lexploration. 3. La troisime tape consiste mettre en uvre une ou plusieurs techniques de datamining pour une premire analyse. Aprs valuation et tude des rsultats, des actions sont mises en uvre. 4. La dernire tape consistera valuer ces actions, et par-l mme la performance du datamining, voire le retour sur investissements. L' achvement du premier cycle dbouche souvent sur l' expression de nouveaux objectifs affins, ce qui nous ramne la premire tape
Le datamining permet de fournir au dcideur toutes les informations ncessaires la prise de dcision. Le datamining sappuis sur des outils statiques/mathmatique ou dintelligence artificielle pour recherche des schmas logique.
EXAMEN PROBATOIRE
page: 30/ 33
Datawarehouse et datamining
Par David Maisons
En automatisant la fonction de "grid computing" dans de multiples applications, le datamining vois ainsi sa flexibilit, son volutivit et sa fiabilit fortement optimise. On peut esprer voir rduire considrablement le temps de traitement des donnes, et les entreprise pourront intgrer et donc analyser une quantit encore plus accrue de donnes. A ce stade, lintgration des donnes dune entreprise devient rellement critique. Les systmes des entreprises sont de plus en plus souvent dit systme temps rel , o les bases de donnes doivent tre oprationnelle et disponible 24H/24, 7jours/7. La fentre de temps durant la quelle la collecte de donnes est permise se vois devenir de plus en plus courte pour un volume toujours de donnes toujours plus important. Fort de ce constat, ce ne sont pas seulement le datawarehouse, mais galement des outils dextraction de donne qui sont ports sur une grille.
EXAMEN PROBATOIRE
page: 31/ 33
Datawarehouse et datamining
Par David Maisons
8. Conclusion
Cest un fait ! Nous sommes tous donc bien fichs dans les immenses entrepts de donnes que possdent les entreprises. Nos faits, dplacements, achats,, ce sont toutes les donnes relatives notre consommation qui sont des informations vitales aux entreprises. En fusionnant cette richesse avec leurs propres donnes de production, les entreprises crent un vritable systme informatique dcisionnel. Cest ce systme, qui leurs permettrons davoir une vue densemble dun problme sous la forme d' indicateurs de pilotage quantitatifs ou qualitatifs. Mais galement de pouvoir crer des schmas de dhabitude consommation, de pouvoir profiler le consommateur. Mais avant dobtenir cette corne dabondance , il a fallu rsoudre plusieurs problmes. Devant le volume de donne, le datawarehouse est apparut naturellement comme lment dcisif dun systme informatique dcisionnel russi. Tout projet informatique, et particulirement celui de la mise en place dun datawarehouse, ce doit dtre intgralement pens avant son dploiement. Car mme si un entrept de donnes utilise le principe des bases de donnes relationnelles, il s' distingue par de en nombreux points. Ils servent notamment croiser les informations contenues dans les bases de production qui ne sont a priori non lies directement. Il faut galement statuer sur le choix entre lutilisation dun entrept ou des datamarts pour pouvoir aborder sereinement la partie bien plus dlicate de lalimentation. Cette dernire ne devant pas tre fait au dpends des ressources systme des bases de production, tout en tant le plus large possible. De nombreux outils dExtraction, de Traitement, et de Chargement existent (ETL). Quils soient achets ou dvelopps en interne, ils permettent une meilleure intgration des donnes, tout en dchargeant les systmes de production du traitement et de la mise en forme. Aujourdhui il existe de nombreuses socits qui se sont spcialises dans ce domaine. Ainsi, un datawarehouse correctement aliment permet au dcideur, personne en charge des dcisions majeures dune entreprise, d' tablir des statistiques d' volution ou de construire des plans. Cela est rendu possible par le fait quun datawarehouse regroupent lensemble des donnes de lentreprise. Celles-ci sont historises et non modifiable. Mais extraire une synthse partir dun tel volume de donne (souvent de lordre de plusieurs traoctets) nai pas chose aise. Il faut une architecture du systme adquate. Les donnes peuvent tre spares par vue mtier au sein de mini datawarehouse nomm datamarts et coupl avec un mode de stockage en cube OLAP. Chaque dimension dun cube OLAP contenant une famille de donne. Mais cela ne suffit pas, des outils de recherche spcialiss dans recherche et llaboration de schma logique (corrlation sur les volutions des donnes afin de dterminer des scnarii) doivent tre utiliss. Cest le datamining. Apparut dans les 1970, le datamining normment voluer. Lensemble des ses techniques sont bases sur les mathmatiques tels que les statistique et/ou probabilit, cest lanalyse multidimensionnelle, ou sur de lintelligence artificielle pour lanalyse prdictive. Aujourdhui, la mode du grid computing , technique de plus en plus couramment utilise dans le monde du calcul, intresse fortement le monde du datawarehouse. Certaines difficults subsistent comme la confidentialit et la scurit des donnes. Mais comme bien souvent, cest laspect culturel qui pose le plus de barrire.
EXAMEN PROBATOIRE
page: 32/ 33
Datawarehouse et datamining
Par David Maisons
Bibliographie
http://www.datawarehouse.com Portail ddi au datawarehouse http://www.journaldunet.com Portail de nouvelles informatiques. http://www.wikipedia.org Encyclopdie libre http://www.commentcamarche.net Encyclopdie informatique http://jean.marie.gouarne.online.fr Pages personnel dun consultant informatique http://www.guideinformatique.com Linformation professionnelle des decideurs http://www.systemeetl.com Site indpendant consacr aux systmes ETL, la modlisation dimensionnelle et le data warehousing. http://www.dwfacile.com Site de formation et d'information concernant l'analyse stratgique, le scorecarding et la businnes intelligence, le data warehousing, la modlisation dimensionnelle et les systmes ETL. http://www.decisionnel.net Site consacr linformation dcisionnelle de l'entreprise. http://www.web-datamining.net Site d'information et d'changes continus sur les volutions du DataMining
EXAMEN PROBATOIRE
page: 33/ 33