Professional Documents
Culture Documents
chergui oussama
gr02
introduction:
Data Mining est la découverte d'informations cachées dans les bases de données et peut
être consulté comme une étape dans le processus de découverte des connaissances .
Techniques de Data Mining inclure clustring, la classification, la prédiction et l'analyse de
associations.
Un des plus les Techniques importantes de Data Mining sont celles des règles
d'association, d'abord introduit en 1993 [Agrawal 1993], sont utilisés pour identifier les
relations entre un ensemble d'éléments dans un base de données. Ces relations ne sont
pas basées sur les propriétés inhérentes des données elles-mêmes avec des
dépendances fonctionnelles), mais plutôt sur la co-occurrence des éléments de données.
1. Définition de la technique
Definition:
La règle d'association est une méthode permettant de découvrir des relations
intéressantes entre des variables dans de grandes bases de données. Il est destiné à
identifier les règles fortes découvertes dans les bases de données en utilisant quelques
mesures d'intérêt.
Elle peut contenir les caractéristiques suivantes :
● des informations statistiques sur la fréquence d'apparition
● la fiabilité
● l'importance de cette relation
Soit un ensemble de n attributs appelés items et
l'ensemble des Obsertvations (transactions). Chaque transaction
dans D a un ID de transaction unique, et il consiste en un sous-ensemble de jeux
d'éléments dans I.
Une règle peut être définie comme une implication où et sont des
sous-ensembles de , et ils n'ont aucun élément en commun, à savoir
. et sont les antécédent et le conséquent de la règle, respectivement.
soit l’example suivant. cet fichier comporte 6 observation(transactions) et 5 items:
transactions S1 S2 S3 S4 S5
t1 1 1 1 0 0
t2 0 1 1 1 0
t3 0 0 0 1 1
t4 1 1 0 1 0
t5 1 1 1 0 1
t6 1 1 1 1 1
Item :
Un item correspond à un produit. Nous avons 5 items (S1, S2, S3, S4 et S5 ).
Itemset :
Un itemset est un ensemble d’items (ex. {S1,S2,S3} est un itemset de cardinal CARD({S1, S2} = 3)
SUPPORT :
Le support d'un itemset X, supp (X) est la proportion de transaction dans la base de données dans
laquelle l'item X apparaît. Cela signifie la popularité d'un ensemble d'éléments.
Dans l'exemple ci-dessus: supp(S1)=4/6=0.666.
Itemset fréquent :
n itemset est dit fréquent si son support est supérieur à un seuil défini à l’avance, paramètre de
U
l’algorithme de recherche.
exemple: conf({S1,S2}=>{S3})=supp({S1,S2,S3})/supp({S1,S2})=3/6*6/4=0.75=75%.
Lift :
Le lift d'une règle est défini comme:
La valeur lift d'une règle d'association est le facteur par lequel la confiance dépasse la confiance
prévue. Elle est déterminée en divisant la confiance de la règle par le support de la conclusion de
la règle.
Dans l'exemple ci-dessus:
lift({S1,S2}=>{S3})=supp({S1,S2,S3})/(supp({S1,S2})*supp({S3}))=3/6*6/4*6/4=1.125.
Conviction :
La conviction d'une règle peut être définie comme:
pour {S1,S2}=>{S3}:conv({S1,S2}=>{S3})=(1-supp({S3}))/(1-conf({S1,S2}=>{S3}))=1.32.
La valeur de conviction de 1.32 signifie que la règle {S1, S2} => {S3} serait incorrecte 32% plus
souvent si l'association entre X et Y était une chance accidentelle.
étapes de la règles d’association:
une stratégie adoptée par la plupart des algorithmes de recherche de règles d'association consiste
à décomposer le problème en deux étapes:
1. génération des ensembles d'items fréquents,trouver tous les itemsets qui se produisent
au moins aussi souvent que le nombre minimum de supports prédéfinis(minsup)
2. génération des règles,La deuxième étape consiste à générer des règles d'association
fortes à partir des itemsets fréquents. Et la règle d'association est considérée comme
forte si elle satisfait à la fois un support minimum et un minimum de confiance
Algorithme APriori:
L’algorithme A-priori est un algorithme d’exploration de données conçu en 1994, par
Rakesh Agrawal et Ramakrishnan Sikrant, Il sert à reconnaître des propriétés qui
reviennent fréquemment dans un ensemble de données et d’en déduire une
catégorisation.
Principe de l’algorithme a priori:
● Generation d’ensemble d’items
● Calcul des frequence des ensembles d’items
● On garde des ensembles d’items avec un supmin:les ensembles d’items frequents.
Exemple Avec minsup=2:
2. Application
Règles d'association avec TANAGRA:
1 .Importer le DATASET:
nous créons un nouveau diagramme et importons le dataset avec le menu FILE / NEW. nous
sélectionnez dataset mushroom.txt.
2 . Définir les attributs:
Nous ajoutons un composant DEFINE STATUS dans le diagramme; et définir tous les attributs
comme IN
3 .A PRIORI algorithme:
4 .Calculer les règles d’association: Nous sélectionnons VIEW pour voir les règles.