You are on page 1of 12

Auteur : Marie Fesneau, Fabien Ducher (Stagiaires lEISTI) Date : Avril 2002

I. I.1 I.2 I.2.1 I.2.2 7

CHAINE DECISIONNELLE 4 Schma Complet de la chane 4 Phase de MODELISATION : 6 Schma 6 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs Avant linterview : 7 Pendant linterview 7 Aprs linterview 8 2me tape : Modlisation du DataWareHouse Types dobjets : 9 3me tape : Constitution des Data Mart 10 Avantages des DataWareHouses 10 Les Outils : 11 Phase dALIMENTATION 12 Schma 12 Sources de donnes : 13 Alimentation ETL : 13 Problmes rencontrs : 14 Les outils : 14 Phase de RESTITUTION et de PILOTAGE 16 Schma 16 Moyens de restitution 17 Moyens de pilotage 20

I.2.3 I.2.4 I.2.5 I.2.6 I.3 I.3.1 I.3.2 I.3.3 I.3.4 I.3.5 I.4 I.4.1 I.4.2 I.4.3

I.4.4

I.5 I.5.1 I.5.2 I.5.3 I.5.4

I.5.5

I.5.6 I.5.7 I. I.1

Les Outils 22 Requteur : 22 Pilotage : 22 Pilotage : 23 Phase dANALYSE : 24 Schma 24 Principe gnral du Data Mining : 25 A quoi sert le Data Mining ? 26 Les tches du datamining 26 La classification 26 Lestimation 27 La prdiction 27 Le groupement par similitude 27 Lanalyse des clusters 28 La description 28 Mthodes du datamining 28 Infrences statistiques : 28 Analyse de donnes : 28 Panier de la mnagre : 29 Raisonnement bas sur la mmoire RBM : 29 Dtection de clusters : 29 Arbre de Dcision : 30 Rseau de Neurones : 30 Tableau des appariements des techniques aux tches Les outils 31 CHAINE DECISIONNELLE Schma Complet de la chane

31

Sources de Donnes

La chane dcisionnelle est compose de plusieurs parties : Alimentation du DataWareHouse, DataWareHouse, Restitution des donnes : Pilotage ou Requtage, Analyse des Donnes. Le DataWareHouse est le centre de la chane dcisionnelle. Les utilisateurs nauront a ccs quaux outils de requtage, de pilotage et/ou danalyse. Toute la partie alimentati on et celle de restitution des donnes sont gres par une quipe informatique, interne ou externe lentreprise, spcialise en gestion de base de donnes et en dcisionnel.

Gestion de Projet : Il ny a pas deux projets dcisionnels identiques car les entreprises ont des besoin s, des demandes, des structures informatiques diffrents. Pour chaque projet dcisio nnel, on ne doit pas ncessairement mettre en place toutes les parties de la chane. On pourra avoir mettre en place simplement un outil de requtage ou de pilotage, sans concevoir un DataWareHouse ( car les sources de lentreprise sont bien struct ures), ou restructurer les sources en crant un DataWareHouse. Les sujets sont mul tiples et distincts. Si on a toute la chane concevoir, on commencera par la phase de modlisation du Dat aWareHouse. Par la suite, on peut raliser lAlimentation ou les phases de Restituti on et dAnalyse de Donnes. Mais il faut imprativement entamer son projet par la phas e de Modlisation qui entraine la agencement des deux autres. I.2 I.2.1 Phase de MODELISATION : Schma

Dfinition : Un DataWareHouse est une collection de donnes thmatiques, intgres ( au ni veau qui intresse les utilisateurs), non volatiles (on ne peut pas les modifier) et histories (on garde un historique des donnes) pour la prise de dcision. Le DataWareHouse est lentrept de donnes qui va permettre la mise en place dun systme de Reporting et dAnalyse. Il ne contient donc que les donnes tudier. Il faut procder par tape pour mettre en place correctement le DataWareHouse. I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs Le DataWareHouse est au centre de la chane dcisionnelle, il faut donc le concevoir avec prcaution. Une phase pralable dinterviews auprs des utilisateurs est ncessaire, mme si un cahier des charges a t rdig, afin de mettre en vidence les donnes qui leur ont vraiment utiles. On rencontre 3 types dutilisateurs : ceux qui ne veulent pas un systme trop compliqu : il faut les conseiller donc conn atre leur langage mtier ceux qui veulent un systme trop compliqu : il faut les freiner ceux qui connaissent le domaine du dcisionnel avec qui il est facile de communiqu er. Dans tous les cas, comprendre le langage mtier de son interlocuteur est essentiel . Avant linterview : Lors dune interview utilisateur, il faut arriver : avec les tableaux de bords prdfinis dans le cahier des charges

en connaissant le mtier et le quotidien de lutilisateur avec de nouveaux tableaux de bord susceptibles dintresser lutilisateur ou qui perm ttront de lancer dautres ides ( regrouper tel et tel tableau, ). Pendant linterview Pendant lentretien, il faut poser des questions ouvertes pour laisser lutilisateur parler le plus possible et rcolter un maximum dinformations. De plus, pour tout i ndicateur, il faut expliciter le calcul car parfois un mme nom dindicateur peut co rrespondre plusieurs formules ( par exemple, diffrents Chiffres dAffaires selon le s services ). On peut tre amener auditer dans diffrents services, on doit alors grer les demandes contradictoires, les donnes qui se recoupent pour structurer au mieux le DataWar eHouse. Aprs linterview Une fois les divers entretiens achevs, on doit rassembler les besoins et les anal yser afin de conserver les donnes utiles au systme dcisionnel mettre en place. I.2.3 2me tape : Modlisation du DataWareHouse Aprs, les interviews auprs des utilisateurs, les donnes ncessaires sont connues. Il faut les organiser de manire obtenir des modles, de type toile ou double toile ( cf. PARTIE III ) afin de pouvoir y accder facilement. On dfinit les objets que lutilis ateur va pourvoir utiliser pour crer ses requtes et ses tableaux. BusinessObjects : On dfinit les diffrentes classes qui composent un univers. Souvent on retrouve une classe gographique, une temporelle, une ou plusieurs concernant certains postes particuliers de lentreprise. Il y a quasiment tout le temps une classe contenant les indicateurs. On trouve environ une bonne dizaine de classes dans un univers . Par ncessit de clart et de fonctionnalit, on trouve rarement plus de 30 classes da ns un univers. De plus, on met en place les cubes, systmes de modlisation des donnes multidimensio nnel pour pouvoir grer les agrgats. On dfinit les axes danalyse qui peuvent tre, entr e autre, laxe temporel (anne, trimestre, mois, semaine), laxe gographique (continent , pays, rgion, dpartement, ville), et les indicateurs. Lanalyse multidimensionnelle permet d tudier les indicateurs, comme le chiffre daffaire ou la marge, en foncti on des diffrents axes. Lavantage de ce systme est quon peut passer dun niveau un niv eau plus dtaill : du chiffre daffaire par pays au chiffre daffaire par rgion. Remarque : souvent le DataWareHouse se compose comme suit : une ou plusieurs tab les de faits ( table qui contient les indicateurs) au centre do partent les diffren ts axes danalyse.

Pour plus de dtails et dexemples sur les DataWareHouse et les cubes, voir la PARTI E III. Types dobjets : Objet dimension : Ils reprsente le plus souvent une entit de la base de donne ou un objet date . Objet information : Ce sont des dtails sur les objets dimension auxquels ils sont rattachs. Objet indicateur : ils restituent des donnes numriques, ce sont des oprations de co mptage ou de moyenne sur des donnes de la base. I.2.4 3me tape : Constitution des Data Mart

Une fois le DataWareHouse cr, on peut mettre en place un systme de Reporting et dAna lyse pour diffrents services : un pour le service Financier, un pour le service M arketing, un pour le service Client, On va construire alors par service un mini DataWareHouse qui contiendra uniquement les donnes utilises au sein du service ( o n ne garde que les tables ncessaires ). Ce mini DataWareHouse est appel DataMart q ui donne une vision dpartementale ou mtier des donnes. On le construit de la mme fao n quon met en place un DataWareHouse, cest--dire quun DataMart se compose de plusieu rs tables organises le plus simplement possible. On retrouvera une ou plusieurs tables de faits au centre do partent diffrents axes danalyse. I.2.5 Avantages des DataWareHouses Les DataWareHouse permettent une vision mtier transversale. Lavantage majeur est quils sont volutifs, cest dire quon peut inclure de nouvelles so urces de donnes, ajouter de nouveaux indicateurs, modifier la volumtrie tout en co nservant une visibilit claire et prcise. De plus, ils nous permettent davoir une vi sion historise dans le temps. La conception dun DataWareHouse dbouche naturellement vers une approche multidimen sionnelle, donc sur la mise en place de cube qui va plus loin, encore, dans lanal yse des donnes. Pour finir, cela permet que les donnes restitues soient : normalises de meilleure qualit homognes. I.2.6 Les Outils : BusinessObjects le Module Designer permet la cration dun univers ( dun modle ) manue llement ou partir de tables de diffrentes bases de donnes. Cognos Module PowerPlay Transformer est un outil de modlisation qui sert construi re des modles multidimensionnels partir de sources de donnes. Cognos Module PowerCube

Informatica Module PowerCenter permet la cration dun modle manuellement ou part de diffrentes tables : on cre et alimente les diffrentes tables qui composent le Dat aWareHouse. SAS Module DataWareHouse Administrator permet la cration dun modle manuellement o u partir de diffrentes tables: on cre et alimente les diffrentes tables qui composen t le DataWareHouse.

I.3 I.3.1

Phase dALIMENTATION Schma

Cette partie de la chane dcisionnelle concerne lalimentation du DataWareHouse cr dans la phase de MODELISATION. I.3.2 Sources de donnes : Le DataWareHouse est compos de diffrentes tables quil va falloir remplir. Dans une entreprise, les informations peuvent tre stockes sous diffrentes formes : dans une base de donnes, dans un fichier, dans un tableau, etc. Ils existent plus de 90 so urces diffrentes possibles pour alimenter un DataWareHouse. I.3.3 Alimentation ETL : Pour alimenter le DataWareHouse, on utilise un ETL ( Extract, Transform and Load ), outil bas sur le principe de mtabases. Il dcrit les donnes, leur provenance et l es transformations effectues. Il permet dagrger, de classifier, de normaliser, de q

ualifier, de nettoyer et de consolider les donnes extraites. De plus, les concept eurs doivent mettre en place une stratgie de mise jour pour lhistorisation et prvoi r la volumtrie. Lalimentation peut tre en batch ou file de leau. Les ETL peuvent tre intgrs aux outils de modlisations ou de restitution. Les ETL peuvent se concevoir de 2 manires : manuellement : en lanant des scripts ( PL/SQL, ) avec des logiciels ( qui sont chers : ~100kF ) cf. paragraphe suivant. Le chargement des donnes correspond 60-70 % du projet : analyser dcrire expliquer exposer Identifier les sources O ? Mainframe, fichiers, SGBDR, ERP, Internet, Comment ? Rseau local, WAN, transferts des fichiers. Quand ? Cohrence, normalisation. Construire le rfrentiel Dfinir la frquence des chargements Dcrire le niveau dhistorisation Expliquer la volumtrie Analyser la qualit des donnes Exposer la complexit des transformations Considrer la reprise des donnes Grer les rejets Mettre en place les sauvegardes/restaurations I.3.4

Problmes rencontrs : Souvent peu dentreprises ont des logiciels qui permettent la cration dETL, car ce ont des outils coteux. Il faut souvent raliser lalimentation la main. La frquence de mise jour du DataWareHouse ( quotidiennement, hebdomadairement, me nsuellement, ) peut influencer sa structure. De plus, une volumtrie des flux trop importante peut entraner un problme dexploitation. En concevant le modle du DataWareHouse, il faut penser la volumtrie des sources de donnes et la frquence de mise jour. Faire attention aux environnements trop mouvants, cest dire aux mises jour trop rquentes : il faut le prvoir dans lETL. Synchroniser lalimentation des diffrents Data Mart qui composent son outil dcision el sinon on peut obtenir des rapports dans la phase de RESTITUTION fausss. Sassurer que les diffrentes mta bases soient cohrentes. I.3.5 Les outils : Eti * Extract : pour de grandes bases de donnes ( grande distribution ) INFORMATICA Module PowerCenter permet la cration dun modle quon alimente en dcrivant les diffrents flux partir de diffrentes sources de donnes. SAGENT Module Sagent HUMMINGBIND Module Gnio : plutt dans le domaine pharmaceutique. INFORMIX Module DataStage

Informatica PowerCenter Designer Mapping Designer Interface avec laquelle on cr les flux et les transformations appliqus aux donnes I.4 Phase de RESTITUTION et de PILOTAGE I.4.1 Schma Les outils de restitution ou de pilotage sont la finalit de la chane dcisionnelle,

ils sont utiliss par les utilisateurs qui ne connaissent pas forcment linformatique dcisionnelle. Ce sont donc des outils de Reporting assez facile prendre en main et manipuler. I.4.2 Moyens de restitution Les outils de Requtage sont des gnrateurs de code SQL : Analyse then Query . Il y a deux types dutilisateurs : o Les utilisateurs qui crent les rapports : ils peuvent, ou pas, connatre li nformatique dcisionnelle. Ils ont accs aux univers et aux cubes. Ils manipulent, p artir de linterface du requteur, les objets contenus dans les classes pour crer div ers tableaux. Ils composent des rapports quils peuvent diffuser, par la suite, au x personnes concernes. o Les utilisateurs, qui rafrachissent priodiquement les rapports, nont alors pas accs lunivers et ne manipulent aucune donne. Ils analysent les informations que leur prsentent les rapports. Souvent ces utilisateurs ne connaissent pas linform atique dcisionnelle.

Il est possible de lire des rapports via le Net avec des outils adapts ( comme We bby pour BusinessObjects). Avec ces outils, on ne peut que lire des rapports mai s pas en crer. Les rapports sont composs dun ou plusieurs lments : de tableaux, de diagrammes (courbes, camembert, ) en 2D ou 3D, de zones de texte, dimages. Module Reporter Interface de lEditeur de requtes Univers qui concerne une entreprise de la mode. Exemple de rapport cr par un outil de requtage : Module Reporter Tableau plusieurs entres sur lactivit de la Socit ASTEK S.A.

I.4.3 Moyens de pilotage Les outils de Pilotage sont du type : Query then Analyse , cest dire que lutilisat eur va pourvoir zoomer par axes pour comprendre les donnes du tableau. Il pourra ainsi analyser lactivit de lentreprise. On retrouve pour ces moyens les mmes types dutilisateurs que pour les moyens de re stitution.

Si lutilisateur dispose dun outil multidimensionnel (et que le rapport le permet), il peut dtailler les donnes quil visualise, est dire avoir diffrents niveaux de dta .

A ETTOFFER !!!!!!

Exemple de rapport cr par un outil de pilotage : Module PowerPlay for Windows Diagramme en 3D sur lactivit de la Socit Vacances et Aventures

I.4.4

Les Outils Requteur : BusinessObjects Module REPORTER : lutilisateur dispose dun univers composes de c ses contenant des objets. Il peut alors crer des rapports en gnrant les requtes voul ues en croisant diffrents objets et en crant des conditions. Cognos Module IMPROMPTU BrioTech Module Brio Pilotage : R OLAP : Relational On line Analytical Processing BusinessObjects Module REPORTER, EXPLORER ? Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : luti lisateur peut avoir directement accs aux donnes du Cube, il peut facilement analys er, examiner les indicateurs de performance de son organisation en crant des rapp orts . Avantages : plus rapide mettre en place, moins cher. Inconvnient : temps de rponse plus long M OLAP : Multidimensional On Line Analytical Processing ORACLE Module EXPRESS HYPERION Module ESSBASE Avantages : performant Inconvnients : plus cher, assez dur mettre en place. Pilotage : R OLAP : Relational On line Analytical Processing BusinessObjects Module REPORTER, EXPLORER ? Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : luti lisateur peut avoir directement accs aux donnes du Cube, il peut facilement analys er, examiner les indicateurs de performance de son organisation en crant des rapp orts . Avantages : plus rapide mettre en place, moins cher. Inconvnient : temps de rponse plus long M OLAP : Multidimensional On Line Analytical Processing ORACLE Module EXPRESS HYPERION Module ESSBASE

Avantages : performant Inconvnients : plus cher, assez dur mettre en place.

I.5 I.5.1 I.5.2

Phase dANALYSE : Schma Principe gnral du Data Mining :

Les entreprises stockent une quantit importante de donnes mais on peut constater q ue celles-ci ne constituent pas pour autant un connaissance sur lactivit de lentrep rise. Les outils du Data Mining permettent dextraire des informations forte valeu r ajoute partir des donnes.

I.5.3 A quoi sert le Data Mining ? Lobjectif principal du Data Mining est dexploit les donnes de son systme afin den tire r des informations susceptibles de nous donner un avantage face la concurrence. Le Data Mining permet de : Fidliser et satisfaire les clients Mieux cibler les efforts commerciaux Amliorer la qualit des perstations Dtecter des comportements frauduleux Analyser les donnes techniques. Le Data Mining est un processus automatis, il permet le passage de la donne brute une information daide la prise de dcision. A chaque tape, on a une plus value infor

mationnelle. I.5.4 Les tches du datamining La classification La mthode de Classification dfinit, priori, une partition dun ensemble clairement i dentifi. Elle permet laffectation dun nouvel objet lune des classes de la partition. Principes : Dfinir prcisment les classes Apprentissage avec une base dexemples pr classs Mise au point dun modle pour classer les nouvelles donnes Exemples : Affectation de mots cls aux articles qui arrivent dans une rdaction de journal Classification de demandeurs de crdit dans des classes de risque bas, de risque m oyen et de risque haut Lestimation La mthode dEstimation se rfre des valeurs continues alors celle de Classification de s vnements discrets. Principe : Estimer une valeur continue qui dcrit un objet revient classer cet objet dans un ensemble partitionn en un nombre infini de classes. Exemples : La dure de vie dun client La probabilit de rponse un mailing La prdiction Principe : La Prdiction est assimilable au classement ou lestimation mais les objets sont cla sss en fonction dun comportement futur prdit. On ne peut vrifier la prcision de la Classification ou de lEstimation quaprs coup. Exemples : Prdiction des clients qui vont disparatre dans 6 mois Prdiction dun volume de vente dun produit dans les mois venir Le groupement par similitude Principe : La mthode du groupement par similitude est de regrouper des objets qui vont natur ellement ensemble pour dfinir des rgles dassociation. Exemples : Dans un supermarch, dterminer les produits qui se retrouvent dans le mme caddie Dans une base de donnes de cinphiles, trouver les associations entre les films Lanalyse des clusters Principe : LAnalyse des Clusters permet de dcouper posteriori une population htrogne en classes homognes. Exemples : En fonction de critres dachats dune voiture, faire une segmentation des acheteurs En fonction des notes obtenues dans diffrentes matires, faire une segmentation de s tudiants

La description Principe : Il sagit de dcrire les donnes pour essayer de dcouvrir et de comprendre le processus qui est lorigine de ces donnes. Il sagit souvent du dmarrage dune tude, o on a peu connaissances sur le phnomne tudi. Cette description permet denchaner sur une ou plusieurs des tches prcdemment dcrites. I.5.5 Mthodes du datamining Infrences statistiques : Estimations de paramtres Thories des tests Analyse Analyse Analyse Analyse de donnes : en composantes principales des correspondances discriminante

Panier de la mnagre : Principe : On liste toutes les transactions (ensemble dobjets pris par un individu) On dresse un tableau de co-occurrences des objets On dtermine des rgles de la forme Si condition alors rsultats avec des taux de iances et damlioration P1 = P(condition) P2 = P(rsultat) P3 = P(condition et rsultat) Confiance = P3 / P1 Amlioration = P3 / ( P1 * P2 ) Raisonnement bas sur la mmoire RBM : Principe : Le principe du RBM est de trouver les voisins dun nouvel enregistrement dans une base denregistrements connus (<=> la mmoire) des fins de Classement ou de Prdictio n. Deux fonctions : La fonction de distance entre deux enregistrements La fonction de combinaison pour donner la rponse partir des rsultats obtenus sur es voisins : faire voter les k voisins les plus proches avec le poids 1/k, k impair affecter un poids chaque voisin de faon inverse proportionnellement la dis tance avec le nouvel enregistrement et faire voter ces voisins avec ce poids utiliser des techniques de rgression Dtection de clusters : Cette mthode sert uniquement trouver, posteriori, des classes homognes. On peut utiliser diffrentes mthodes : la mthode des K-moyennes la mthode des nues dynamique de M. E. Diday Classification par agglomration (classification ascendante)

Arbre de Dcision : Cest un outil de Prdiction et de Classification bas sur des rgles identifies grce une base pr classe.

Principe : Construction dune arborescence qui, chaque niveau, maximise lexpression Diversit (avant division) ( diversit (fils gauche) + diversit ( fils droit) ) Chaque feuille de larbre est affecte une classe avec un taux derreur Rseau de Neurones : Cest une mthode pour Prdire ou Classer sans avoir besoin de comprendre le pourquoi de la Prdiction ou du Classement. Principe : Le rseau est construit par apprentissage sur une base pr prdite ou pr classe Cette mthode permet une meilleure approche des problmes non linaires. Un neurone = des entres couples avec des poids + fonction de combinaison C + fonct ion de transfert F S = F( Cp1,,pk (e1,,ek) ) I.5.6 Tableau des appariements des techniques aux tches On peut utiliser plusieurs techniques pour une mme tche. A nous de la choisir selo n nos donnes de dpart et le rsultat attendu. Tches Techniques Similitudes Clusters Statistiques Normales Panier de la Mnagre RBM Dtection des Clusters Arbres de Dcision Rseau de Neurones

Classification Estimation Analyse des Description

Prdiction

Groupe par

I.5.7 Les outils SAS Diffrents modules de SAS qui vont des statistiques gnrales aux tudes plus approf ondies, telles que les diverses analyses ou les rseaux de neurones.

You might also like