You are on page 1of 23

Entrepôts de données (data warehousing)

et technologies pour la fouille de données


(data mining)

Marius Fieschi
Faculté de Médecine de Marseille

M. Fieschi Data mining Master EISIS Février 2006


Entrepôts de données (data warehousing)
et technologies pour la fouille de données
(data mining)

Ce cours est très proche du cours diffusé sur le net par


Jiawei Han et Micheline Kamber
Intelligent Database Systems Research Lab School of Computing Science
Simon Fraser University, Canada
http://www.cs.sfu.ca
Qu’ils en soient remerciés

M. Fieschi Data mining Master EISIS Février 2006


Rappel: qu’est-ce que le Data Warehouse?

• Une base de données d’aide à la décision qui est entretenue de


manière séparée de la base de données opérationnelle de
l’organisation
• Aide au traitement de l’information en fournissant une
plateforme de données historiques consolidées pour l’analyse.
• Data warehousing: Le processus de construction et d’utilisation
du data warehouse

M. Fieschi Data mining Master EISIS Février 2006


L’approche “Subject-Oriented” de l’entrepôt

• Organisé autour des sujets majeurs, tels que personne, client,…


• Sujet = Faits + Dimensions
• Centré sur la modélisation et l’analyse de données pour les décideurs, non
pour des opérations quotidiennes
• Fournit une vue simple, concise sur des sujets particuliers en excluant des
données inutiles dans le processus d’aide à la décision
• Construit par intégration de sources de données multiples et hétérogènes

M. Fieschi Data mining Master EISIS Février 2006


Le schéma en étoile

• Une table de faits encadrées par N tables de dimensions


• Exemple
Produits
IDprod
Périodes Table de faits “ventes” description
couleur
IDper taille
année période
fournisseur
trimestre produit
mois Magasins
magasin
jour
IDmag
unités_vendues nom
montant_ventes ville
département
taxes_ventes pays

M. Fieschi Data mining Master EISIS Février 2006


Entrepôt de données

• La consolidation des données


Application de techniques de « data cleaning » et de «data intégration »
• La cohérence des données doit être assurée
Nommer les règles de codage, les mesures, les attributs,… pour les
différentes sources de données
• La conversion des données intégrées au data warehouse
• L’importance du « temps » pour le data warehouse
Toutes les structures « clés » dans le data warehouse contiennent un
élément de temps, explicitement ou implicitement

M. Fieschi Data mining Master EISIS Février 2006


Entrepôt de données

• La mise à jour de données opérationnelles n’est pas réalisée dans


l’entrepôt
• Ne demande pas de transactionnel et mécanismes de contrôle d’accès
concurrentiels
• Demande uniquement deux opérations en accès aux données:
Chargement initial de données et accès aux données.
• Intégration traditionnelle de bases de données (bdd)
hétérogènes:
• Construction de wrappers/médiateurs au dessus des bdd hétérogènes

M. Fieschi Data mining Master EISIS Février 2006


Pourquoi séparer le Data Warehouse?

Haute performance pour les deux systèmes


• DBMS: performance pour OLTP
méthodes d’accès, index, accès concurrentiels, restauration
• Warehouse: performance pour OLAP
requêtes complexes, vue multidimensionnelle, consolidation
Différente fonctions et différentes données
• Données manquantes: Aide à la décision (AAD) demande des données
historiques. Les Bdd opérationnelles ne les gèrent pas toujours
• Consolidation de données: l’AAD demande la consolidation
(agrégation, résumé) de données issues de sources hétérogènes
• Qualité des données: habituellement différentes sources utilisent des
représentations de données non cohérentes, des codes et des formats à
«réconcilier»

M. Fieschi Data mining Master EISIS Février 2006


Les cubes de données

• Un data warehouse est basé sur un modèle de données


multidimensionnel qui « voit » les données sous forme de
«data cube »
• Un « data cube », comme par exemple les ventes, permet de
modéliser et de voir les données relatives aux ventes en de
multiples dimensions

M. Fieschi Data mining Master EISIS Février 2006


Cube: Un treillis de structures cuboïdes

Tous
0-D(apex) cuboid

temps item lieu agent


1-D cuboids

temps,item temps,lieu item,lieu lieu,agent

temps,agent
2-D cuboids
item,agent

temps,lieu,agent
temps,item,lieu 3-D cuboids
temps,item,agent item,lieu,agent

4-D(base) cuboid
temps, item, lieu, agent

M. Fieschi Data mining Master EISIS Février 2006


Les primitives du langage de requêtes du Data Mining
(DMQL)

• Cube Definition (Fact Table)


define cube <cube_name> [<dimension_list>]: <measure_list>
• Dimension Definition ( Dimension Table )
define dimension <dimension_name> as (<attribute_or_subdimension_list>)
• Special Case (Shared Dimension Tables)
• First time as “cube definition”

• define dimension <dimension_name> as <dimension_name_first_time> in


cube <cube_name_first_time>

M. Fieschi Data mining Master EISIS Février 2006


Catégories de mesures

Distributive:
 Si le résultat obtenu est identique
• que l’on applique la fonction à n valeurs agrégées
• que l’on applique la fonction sur toutes les données (sans partitionnement).
Ex: count(), somme(), min(), max().
Algébrique:
 Si le résultat peut être calculé par une fonction algébrique à M
arguments, chacun pouvant être obtenu en appliquant une fonction
distributive.
Ex: moyenne(), standard_déviation().

M. Fieschi Data mining Master EISIS Février 2006


Une hiérarchie de concepts: Dimension (lieu)

Tous Tous

hôpital Timone ... Nord

service neurochirurgie ... cardiologie cardiologie ... obstétrique

UF consultation ... hospitalisation ... HdJ

M. Fieschi Data mining Master EISIS Février 2006


Données multidimensionnelles

Volume des factures, une fonction de l’activité, mois, et de l’hôpital

Dimensions: Activité, Lieu, Temps


Synthèses hiérarchiques
l
p it a

MCO Hôpital Année


Chir. Service Trimestre


Activité

Actes UF Mois Semaine

Jour

Mois
M. Fieschi Data mining Master EISIS Février 2006
Un exemple de cube de données

Total annuel activité


Date de chir. à Timone
1trim 2trim 3trim 4trim somme
ité

Chir.
tiv

Méd. Timone
Ac

Etablissement
Obst.
somme
Conception

Nord

somme

M. Fieschi Data mining Master EISIS Février 2006


Quelques opérations OLAP

• Roll up (drill-up): synthèse de données


• En remontant la hiérarchie ou en réduisant la dimension
• Drill down (roll down): reverse of roll-up
• Du niveau le plus haut au niveau inférieur, vers des données plus
détaillées ou en introduisant de nouvelles dimensions
• Slice and dice:
• Projection et sélection
• Pivot (rotate):
• Réorientation du cube, visualisation, 3D à des séries de plans 2D.

M. Fieschi Data mining Master EISIS Février 2006


Design d’un Data Warehouse: Un plan d’analyse

Quatre vues pour le design d’un data warehouse (DW)


• Vue top-down
• Permet la sélection des informations pertinentes nécessaires au data
warehouse
• Vue source de données
• Donne les informations qui peuvent être saisies, stockées, et gérées
par les systèmes opérationnels
• Vue data warehouse
• Il s’agit de tables de faits et de tables de dimensions
• Vue « requête métier »
• Voir les données du DW dans la perspective de l’utilisateur final

M. Fieschi Data mining Master EISIS Février 2006


Processus de conception d’un Data Warehouse

• Approches Top-down, bottom-up ou une combinaison des deux


• Top-down: Démarre avec une vue d’ensemble (maturité)
• Bottom-up: Démarre par des expérimentations et des prototypes (rapide)
• D’un point de vue génie logiciel
• La « chute d’eau »: analyse structurée et systématique à chaque pas
avant de passer au suivant
• La spirale: prototypage rapide, amélioration des fonctions, aller/retour
rapide
• Processus de conception
• Choisir un processus métier à modéliser, ex: facturation, etc.

Choisir le grain (niveau de donnée atomique) du processus métier
• Choisir les dimensions qui seront appliquées à chaque fait dans la table
• Choisir la mesure pour chaque fait enregistré
M. Fieschi Data mining Master EISIS Février 2006
Architecture

Integrateur Serveur OLAP


Metadonnées
autres
source
s
Extraction Analyse
Bdd Transform. Data Service Requêtes
opérationnelles Chargement Rapports
Rafraich.
Warehouse
Data mining

Data Marts

Données sources Stock. de données Moteur OLAP Outil interface


M. Fieschi Data mining Master EISIS Février 2006
Trois modèles de Data Warehouse

• Warehouse d’entreprise
• Collecte toutes les informations sur tous les sujets pour l’entreprise
• Data Mart
• Un sous ensemble de données intéressant un groupe d’utilisateurs
particulier. Son objectif est confiné à des groupes sélectionnés spécifiques
• Warehouse virtuel
• Un ensemble de vues sur des bases de données opérationnelles
• Seules certaines vues sont possibles

M. Fieschi Data mining Master EISIS Février 2006


Développement d’un Data Warehouse

Data Warehouse
Data Marts
distribués

Data Mart Data Mart

Raffinement du modèle Raffinement du modèle

Définir un modèle de données de l’entreprise de haut niveau


M. Fieschi Data mining Master EISIS Février 2006
Base de métadonnées

• Les meta données définissent les objets du warehouse. Il s’agit:


• De la description de la structure du warehouse

Schéma, vue, dimensions, hiérarchies, définition des données


“dérivées”, contenu du data mart
• Meta-data opérationnelles
Histoire des données migrées et des transformations, statut des données
(actives, archivées), rapports d’erreurs,…
• Les algorithmes utilisés pour résumer les données
• Le mapping des bases opérationnelles au data warehouse
• Données “métier”
Termes et définitions du métier, propriété des données, …

M. Fieschi Data mining Master EISIS Février 2006


Outils pour le Warehouse

• Extraction des données:


Prendre des données dans des sources externes multiples et hétérogènes
• Data cleaning:
Détection des erreurs et rectification quand c’est possible
• Transformation des données:
Convertir les données au format warehouse
Trier, résumer, consolider, calculer les vues, vérifier l’intégrité, réaliser les
indices et les partitions
• Rafraîchissement des données
Propager les mises à jour depuis les sources de données vers le warehouse

M. Fieschi Data mining Master EISIS Février 2006

You might also like