Professional Documents
Culture Documents
PROJET ITUNES
B. Le datamining : 3
CONCEPTION 4
A. Modélisation : 4
B. Mapping : 6
CONSTRUTION DE LA BASE 9
A. Base Talend 9
B. Base MySQL 10
ANALYSE 11
A. TOP10MUSIQUE : 11
B. TOP5ArtisteSingle : 11
C. STORE : 12
E. TOPARTISTESINGLE : 13
F. DM_CLIENT : Segmentez les achats par tranche d’âge et par région des clients 14
CONCLUSION 15
iTunes est... bon, pas la peine, vous savez tous ce qu’est iTunes.
Afin d’étudier les goûts plus que discutables des consommateurs de musique sur le
marché français, vous aurez pour tâche de réaliser un datawarehouse et un datamart
mettant à disposition les indicateurs suivants :
- A partir des données de ventes fournies, établissez le Top 50 français pour la
semaine 40 de l’année 2015
- Déterminez les 5 plus gros vendeurs de singles pour l’année en cours (marché
français, artistes internationaux)
- Calculez le pourcentage d’achats réalisés via iOS et ceux réalisés sur
iTunes(Windows) et iTunes(MacOS)
- Donnez les 3 artistes générant le plus de ventes dans les 24h suivant la sortie de
leur album
- Donnez les 3 artistes générant le plus de ventes dans les 24h suivant la sortie de
leur single
- Dans le datamart, segmentez les achats par tranche d’âge et par région des
clients
- Déterminez quel segment client génère le plus de revenus
- Analysez l’évolution du chiffre d’affaire sur l’année 2015. Expliquez ce que vous
constatez.
Source : CPI3, sujets.pdf
B. Le datamining :
1. Définition :
❖ Le Datamining est en fait un terme générique englobant toute une famille d'outils
facilitant l'exploration et l'analyse des données contenues au sein d'une base
décisionnelle de type Data Warehouse ou DataMart. Les techniques mises en action
lors de l'utilisation de cet instrument d'analyse et de prospection sont
particulièrement efficaces pour extraire des informations significatives depuis de
grandes quantités de données.
❖ En peu de mots, l'outil de prospection Data Mining est à même de trouver des
structures originales et des corrélations informelles entre les données. Il permet de
mieux comprendre les liens entre des phénomènes en apparence distincts et
d'anticiper des tendances encore peu discernables.
3. Utilisation :
Source : http://www.piloter.org/business-intelligence/datamining.htm
CONCEPTION
A. Modélisation :
artiste3 region
DM : Top10Musique
pays_artiste3 code_postal
titre_musique
nom_album pays
date
numero_piste date_debut
numeroSemaine
single date_fin
année
genre1 courant
nombre_vente
genre2 email
date_sortie artiste
prix_musique date
date_debut single
DM : DM_Client
date_fin date_achat
nom
courant nombre_vente
prénom
DM : TopArtisteAlbum
nomArtiste
date
album
date_achat
B. Mapping :
Le mapping est un méthode qui permet de savoir comment récupérer les données
dans les différents fichiers .csv et les intégrer dans notre modélisation.
Pour ce faire, nous avons créer plusieurs tableaux (ci-dessous) qui pour chaque
attribut de chacune des tables, indique comment l’alimenter.
Procédure :
- Dans les sources de données, nous allons rechercher les fichiers .csv .
- Dans la colonne source, l’attribut.
- Dans la table cible, la table de l’attribut.
- Dans la colonne cible, nous avons pris un par un tous les attributs d’une table.
- Dans la règle d’alimentation, s’il y a eu une modification, nous allons le spécifier.
Musique date_debut
Musique date_fin
Musique courant
Client date_debut
Client date_fin
Client courant
Les fichiers « has_XXX » servent pour joindre les données dans les bases de ce fait,
ce sont les noyaux des fonctions. C’est donc par ceux ci que les données sont ajoutés
aux tables de la base. Le fichier « has_artist » manquait j’ai donc du le créer, de plus
certains ID n’étaient en correspondance avec aucune autres informations j’ai donc
modifier le contenu de certains fichiers afin d’avoir un retour sur ma base MySQL.
Voici le résultat des données récupérées dans ma base de donnée MySQL exécuté
sur un Mamp.
La table achat
La table client
La table musique
2. Requête TOP10MUSIQUE :
SELECT *
FROM Top10Musique WHERE numero_semaine = 34
ORDER BY nombre_vente ASC
LIMIT 10 ;
B. TOP5ArtisteSingle :
1. Requete TOP5ArtisteSingle :
LIMIT 5;
1. Datamart STORE :
2. Requete STORE :
1. Insertion TOPARTISTEALBUM :
NULL
E. TOPARTISTESINGLE :
1. Insertion TOPARTISTESINGLE :
NULL
1. Datamart DM_CLIENT :