Professional Documents
Culture Documents
Grgoire de Lassence
SAS en France
280 collaborateurs
Divers
Newsletter Internationale Student Ambassador Competition / Papiers SFF Recherche & Chaires Evnements & Sponsoring
Copyright 2010, SAS Institute Inc. All rights reserved.
Plateforme dcisionnelle
Descriptif
Business Intelligence ?
Copyright 2010, SAS Institute Inc. All rights reserved.
Prdictif
Analytique
9
Copyright 2010, SAS Institute Inc. All rights reserved.
10
SGBD/R
Agrger Transposer
Pilotage
Rapports
Data Warehouse
SGBD/R
OLAP
12
13
14
Secteurs dactivit
Systme dinformation
Copyright 2010, SAS Institute Inc. All rights reserved.
Mtiers
15
16
Client Tier
SAS Data Integration Studio SAS Management Console SAS Information Map Studio
HTTP Server
Middle Tier
webDAV Server
Metadata Server
Server Tier
OLAP Server
SAS/CONNECT Server
17
Foundation
Copyright 2010, SAS Institute Inc. All rights reserved.
Power Users
Business Analyst (Jacques)
No DBMS or programming Strong Excel Ad hoc queries OLAP Create reports Publish reports Custom reports Understands business metrics
Information Consumers
C-level Execs
Annotation E-mail
Operational Consumers
Sales Marketing Customer Service Finance Technical Support
18
Le Cas Orion
La socit : Orion
Cette socit fictive, prsente au niveau mondial, est spcialise dans la commercialisation darticles de sport et dextrieur
Le sige sociale aux tats-Unis, gre des filiales en Belgique, Pays Bas, Allemagne, Royaumes Unis, Danemark, France, Italie, Espagne et Australie. Les produits sont vendu en magasin, par catalogue et par Internet. Il y a 5 ans de transaction, depuis le 1er janvier 2003. Nous somme aujourdhui le 1er janvier 2008.
20
21
Loffre
La socit Orion propose environ 5500 rfrences. Certains ne sont pas vendus dans tous les pays, dautres, de part les volumes commercialiss, refltent certaines particularits rgionales, certains sports nationaux. Tous les noms sont fictifs. Les produits sont organiss selon 4 niveaux:
Ligne de produit Catgorie de produit Groupe de produit Produit
Chaque produit a un cot et un prix de vente. Le systme informatique gre tous les prix en dollars. En utilisant les dates de dbut et de fin, ces prix varient en fonction du temps. Cet historique est sauvegard. Le systme gre aussi les remises pour certains produits, certaines priodes. Les prix sont gnralement uniques de part le monde.
Copyright 2010, SAS Institute Inc. All rights reserved.
22
Les clients
Les clients dOrion Star sont repartis travers le monde, notamment dans les pays o se trouvent des filiales, mais pas uniquement. Les noms et adresses sont fictifs, mme si les villes, rgions/comts et pays, sont rels. La base de donnes enregistre environ 90 000 clients, pas tous actifs. Ladresse des clients comprend tout ou partie des informations:
Rue Code postal Ville Rgion / dpartement / cont Etat Pays Continent
La gestion des adresses est contrle par des pointeurs (identifiant de colonnes), ce qui facilite le changement dadresse. Les clients sont classs dans des groupes en fonction de leur activit dachat.
Copyright 2010, SAS Institute Inc. All rights reserved.
23
Les commandes
La plupart des commandes de cette tude de cas sont pour des clients dtenteurs de la carte de fidlit Orion Star, clients pour lesquels les informations sont enregistres. Chaque commande pointe vers le commercial qui a enregistr la vente. Environ 980 000 commandes sont enregistres dans cette tude de cas, commandes qui refltent notamment les saisonnalits.
Chaque commande comprend une ou plusieurs lignes, une ligne par produit.
24
Copyright 2010, SAS Institute Inc. All rights reserved.
25
26
Remise
Est-ce que les remises font augmenter les ventes ? Est-ce que les remises font augmenter la marge ?
Clients
Quels groupes de clients sont identifis ? Quel client achte par quel canal ? Quels sont les clients les plus rentables ?
Fournisseur
Quel fournisseur me propose des produits rentables?
27
Mission :
Lobjectif de cette tude de cas est de prsenter un POC au comit de direction de la socit Orion, rpondant au cahier des charges et prsentant lintrt de lintgration dun systme dcisionnel dans cette socit.
28
Index Partition
Copyright 2010, SAS Institute Inc. All rights reserved.
30
Orion DW, DM ?
ETL
ODS
ETL
Star
ETL
Gold
ETL
Cube
IMS
DM
DW DM DM
IMS
Administration
31
32
OLAP
Structure multidimensionnelle
Base n-dimensions
Donnes Relationnelles
Produit Ecrous Ecrous Ecrous Vis Vis Vis Boulons Boulons Boulons Joints Joints Joints Ecrous Ecrous Ecrous Vis Vis Vis Boulons Boulons Boulons Joints Joints Joints Region Nord Sud Centre Nord Sud Centre Nord Sud Central Nord Sud Central Nord Sud Centre Nord Sud Centre Nord Sud Centre Nord Sud Centre Temps T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 Ventes 100 70 50 80 70 40 50 40 10 40 40 30 90 70 40 90 60 35 45 45 20 30 35 30
Responsable Produits
Responsable Ventes
Responsable Financier 34
Structure multidimensionnelle
Quest-ce que la consolidation??
Le seul moyen dobtenir des temps de rponse performants consiste pr-calculer tous les totaux logiques
35
Structure multidimensionnelle
On Line Analytical Processing
Rolap
: Relational olap
olap
Multidimensional Hybrid
olap
36
Structure multidimensionnelle
Rolap
Requtes SQL
37
Structure multidimensionnelle
Molap
Indicateur
accs direct
38
MOLAP
ROLAP
HOLAP
Espace disque
Temps de rponse
Complexit
Complexit
39
Le march de la BI
41
42
43
44
45
BI Platforms
Operational Risk Managmt Software for Financial Services : Leaders' Quadrant Enterprise Marketing Management : Visionaries Quadrant Data Quality Tools : Leaders' Quadrant CRM Multichannel Campaign Management : Leaders Quadrant Energy Trading and Risk Management Platforms : Visionaries Quadrant Marketing Resource Management : Visionaries' Quadrant Business Intelligence Platforms : Leaders' Quadrant Data Integration Tools : Visionaries' Quadrant
Copyright 2010, SAS Institute Inc. All rights reserved.
46
47
Manpower costs are by far more important and this is the focus of this presentation
48
TCO in
6 000 000 5 000 000 4 000 000 3 000 000 2 000 000 1 000 000 0
1 - 49 50 - 149 Ranges of users BO Cognos SAP BW SAS 150 - 499 Over 500
49
Dfinition
Les 2 familles de techniques de DM
Les techniques descriptives : segmentation ( clustering ) Recherche dassociations (squences) Algorithmes gntiques (SAS OR) Les techniques prdictives : rgression logistique arbres de dcision rseaux de neurones Raisonnement base de cas SVM Autres choses
51
Segmentation RFM
Nombre de commandes Rcence T1 4 3 2 1
1111
T2
T3
1000
0100
0010 0001
T-4
53
54
http://www.meilleursprenoms.com
55
Multidisciplinary
Statistics Pattern Neurocomputing Recognition Machine Data Mining Learning
AI
Databases KDD
56
Required Expertise
57
Predictive Modeling
Inputs
... ... ... ... ... ... ... ... ... ... Target
Cases . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . .
58
...
Overfitting
Training Set Test Set
19 e = 90 %
49 e = 75 %
Copyright 2010, SAS Institute Inc. All rights reserved.
59
Better Fitting
Training Set Test Set
34 e = 83%
43 e =78%
Copyright 2010, SAS Institute Inc. All rights reserved.
60
Model Complexity
Too flexible
61
Arbre de dcision
10 000
Condition A (Condition sparant au mieux Les individus de chaque classe)
4 000
Condition B
6 000
Condition C
3 000
1 000
1 000
5 000
Si A et B
Si A et non B
Si non A et C
Si non A et non C
63
Pruning
64
65
Measurement:
unary - one value for example, a variable with a particular value that was used to create a data subset binary - two values for example, the variable MARITAL that contains No or Yes nominal - more than two non-numeric values, but no implied order for example, STATECOD that contains AK, AL, AR, AZ, etc. ordinal - more than two but not more than ten numeric values, with implied order for example, NUMCARS that contains values from 0 to 3
interval - more than ten numeric values for example, AMOUNT that contains many different dollar values
66
? ?
67
Copyright 2010, SAS Institute Inc. All rights reserved.
Rseau Neuronaux
Hidden Unit
69
Multilayer Perceptron
Hidden Layers
Input Layer Output Layer
Hidden Unit
70
INPUT
HIDDEN
OUTPUT
AGE
COMBINATION
1+ 2AGE+ 3INC
INCOME
COMBINATION 4+ 5AGE+ 6INC ACTIVATION tanh(4+ 5AGE+ 6INC) =B COMBINATION 10+11A+ 12B+13C
Activation Function
Input Layer
72
Universal Approximator
6+A-2B+3C
B
C
73
Association Rules
A B C
A CD B CD ADE
B C E
Rule AD CA AC B&CD