Professional Documents
Culture Documents
Structured Data
HomeLoan (
Loanee: Frank Rizzo
Lender: MWF
Agency: Lake View
Amount: $200,000
Term: 15 years
)
Multimedia
Loans($200K,[map],...)
Free Text
Frank Rizzo bought
his home from Lake
View Real Estate in
1992.
He paid $200,000
under a15-year loan
from MW Financial.
Hypertext
<a href>Frank Rizzo
</a> Bought
<a hef>this home</a>
from <a href>Lake
View Real Estate</a>
In <b>1992</b>.
<p>...
Enqutes dopinion
Baromtres de satisfaction clientle
Lettres de rclamation
Transcriptions des entretiens tlphoniques
Messageries lectroniques
Comptes-rendus dentretiens commerciaux
Revues de presse - Dpches AFP, Reuters...
Documentation - Rapports dexperts
Veille technologique (exemple : brevets dposes)
Veille stratgique et conomique
Internet - Bases de donnes en ligne
CV
Analystes financiers
conomistes
Professionnels du marketing
Services de satisfaction clientle
Recruteurs
Dcideurs
Analyse rapide
rapports sur limage de lentreprise, ltat de la concurrence
gnration automatique de baromtres de satisfaction
indexation automatique de documents
Dcouverte dinformations caches ( techniques
descriptives )
nouveaux domaines de recherche (brevets dposs)
ajout des informations aux bases de donnes marketing
adaptation du discours marketing chaque type de client
Prise de dcision ( techniques prdictives )
routage automatique de courriers, dinformation
filtrage de courriels : spams non spams
filtrage de news
1) Analyses globales
Statistique descriptive
70 % des internautes ont consult 3 pages ou moins
40 % des internautes accdent au site sans passer par
la page daccueil
Dtection des rgles dassociations
20 % des internautes visitant la page A visitent la page
B dans la mme session
tablir la matrice de transition entre les pages du site
on tient compte de lordre des items ( tickets de caisse)
Typologies dinternautes
selon les sites de provenance, les pages dentre, le
nombre de pages consultes, le temps pass sur les
pages, les fichiers tlchargs, les pages de sortie, etc.
Le fichier log
2) Analyses individuelles
Pour passer des analyses globales aux analyses 1:1
Ex : 35 % des internautes qui consultent la fiche dun roman
de Boileau-Narcejac consultent la fiche dun film de
Hitchcock dans les 2 mois
Utilisation des cookies :
fichiers textes crs sur le disque dur de linternaute lors de
la connexion sur le site Web
contiennent un identifiant propre lordinateur connect, le
nb de pages consultes, les pages dentre, de sortie, les sites
de provenance, les fichiers tlchargs, des informations
nominatives demandes par le site
en temps rel ou la prochaine connexion : transmission du
cookie au site Web qui peut proposer des pages personnalises
linternaute en fonction de ses centres dintrts
Avantages
mise jour automatique
mise jour instantane
Inconvnients
refus ou suppression possible du cookie par
linternaute
blocage possible par un pare-feu
identification dun ordinateur et non dune
personne
3) Analyses nominatives
Linternaute est un client connu de lentreprise
Le site web requiert une identification personnelle
ex : sites bancaires en ligne
indexation non possible par les moteurs de recherche
Intgration possible dans les bases de donnes
marketing des informations sur la navigation du client
Possibilit de construire une typologie des clients
Les pages consultes et les demandes de simulation
effectues fournissent des indices probants sur lintrt
du client pour tel ou tel produit
un
indice de frquentation
Clustering et catgorisation
en text mining,
Le Clustering - introduction
Cest une des mthodes statistiques d'analyse des donnes.
Elle vise diviser un ensemble de donnes en diffrents
paquets homognes, en ce sens que les donnes de
chaque sous-ensemble partagent des caractristiques
communes, qui
En clair, le clustering cherche faire des classes telle que
les diffrences intra-classe soient minimales pour obtenir
des clusters
les diffrences inter-classe soient maximales afin d'obtenir
des sous-ensembles bien diffrencis.
Dans le cas d'un corpus textuel, en gnral les
donnes sont un ensemble de documents, pour
lesquels on utilise un ensemble de termes pour les
classer.
Le Clustering - introduction
Distance du cosinus
Distance du cosinus
Cosine gnralise
On peut gnraliser la mesure du cosinus en
introduisant une fonction de "damping" qui
aura pour effet de rendre plus clair les
diffrences (parfois minimes) entre les
documents. Par exemple, souvent on
remplace ik et jk par le logarithme ou la racine
carre de la frquence d'apparition du terme
k. C'est--dire, si dnote nk le nombre totale
d'occurrences du terme k dans l'ensemble du
corpus, on remplace ik dans la formule par
ou par
(et de mme pour j k).
Exemple de distance
Distance du cosinus
Limitations de la distance du
cosinus
Clustering-Principe gnral
Regroupement Hirarchique
Rsultats-Dendogramme
axe de coordonnes
les documents analyss
sur l'autre le degr de similarit
mthodes de regroupement
hirarchique
mthodes de regroupement
hirarchique
mthodes de regroupement
hirarchique
Exemple dapplication
Exemple dapplication
Les rsultats sont souvent prsents sous forme de nuage de points comprenant
souvent le trac des lignes "limites" de dmarcation entre les clusters.
Notons que les lignes noires dfinissent les zones d'attribution chaque cluster
et permettent ainsi la classification immdiate d'un document inconnu (il suffit
de regarder dans quelle zone il "tombe")
k-medoid
La mthode k-medoid utilise comme point de dpart, pour crer les
clusters, un ensemble de documents issus du corpus (appels medoids
ou ancres) et construit les groupes autour. Dans la phase
d'initialisation, chaque document est assign au medoid qui lui est le
plus proche (la plus similaire). Il s'ensuit alors un processus itratif o la
distance moyenne entre les document et le medoid de leur cluster est
minimise, conduisant ainsi un meilleur regroupement des
documents entre eux.
Une itration se dcompose en trois tapes:
1. On choisit un medoid au hasard et on le remplace par un document
choisi au hasard dans le corpus;
2. On recalcule les clusters avec le nouveau medoid et on compare la
nouvelle distance moyenne avec l'ancienne distance moyenne;
3. si la nouvelle distance moyenne est meilleure (i.e. plus petite) on
conserve le nouveau medoid.
Le processus est alors itr jusqu' ce qu'aucune nouvelle substitution
n'amliore la classification.
k-medoid
k-mean
k-mean
k-mean
Autres mthodes
6.1 Mthodes hybrides: Eclater et regrouper (Scatter-Gather)
D'autres mthodes existent dont la mise en oeuvre peut tre plus complexe
comme
- le Buckshot qui cherche amliorer les algorithmes de type k-means en
slectionnant
graines au lieu de k puis les fusionnent en k graines;
- la Fractionalisation qui rpartit le corpus en sous-corpus de tailles rduites,
ralise une agglomration des corpus pour en rduire le nombre puis classifie le
corpus rduit.
Autres mthodes
Sports
Categorisation
System
Business
Education
Sports
Business
Education
Science
Prparation du corpus
Catgorisation linaire
Rocchio
Catgorisation linaire
Rocchio
2 Algorithme de la mthode
On commence par construire des vecteurs "de base" des catgories
considres. En clair il s'agit pour chaque catgorie d'avoir un vecteur
pondr associant chaque mot cl son poids dans la catgorie (ex: si on a
comme catgorie "animaux" et "lieu", alors "chien" aura un poids fort dans
"animaux" et faible dans "lieux", "Paris" aura un poids fort dans "lieux", alors
que "chenil" pourra avoir un poids moyen dans les deux). Le vecteur de base
de la catgorie k se calcule comme suit:
Pour chaque mot cl on tire de la matrice terme-document pondre
l'ensemble de ces poids dans les documents de la catgorie k.
On calcule le poids du mot dans la catgorie k en faisant la diffrence entre
la moyenne des poids du mot dans les documents appartenant la
catgorie k et la moyenne du poids du mot dans les documents
n'appartenant pas la catgorie k.
On obtient ainsi un ensemble de vecteurs de poids pour chaque catgorie
(vecteurs de barycentres).
Pour chaque doc classer, il suffit de calculer la distance avec chacun des
vecteurs "de base" et d'associer le doc la catgorie dont il est le + proche.
Exemple
Exemple
Choix de K
Pour viter les problmes d'galit, pour les
tches de classification en deux catgories, on
utilise uniquement des valeurs de K impaires.
De plus, une valeur trop petite va donner trop
d'importance aux petites variations "alatoires" ou "bruit"
des documents. Une valeur trop grande va tre d'une
part lourde en calcul et d'autre part risque de crer des
catgories trop petites (avec pas assez de documents
dedans).
En gnral
- on teste plusieurs valeurs de K
- on vrifie les rsultats par de la Cross-validation
Un bonne valeur de dpart est en gnral
o n
est le nombre de documents
WordNet
An extensive lexical network for the English language
Contains over 138,838 words.
Several graphs, one for each part-of-speech.
Synsets (synonym sets), each defining a semantic sense.
Relationship information (antonym, hyponym, meronym )
Downloadable for free (UNIX, Windows)
Expanding to other languages (Global WordNet Association)
Funded >$3 million, mainly government (translation interest)
Founder George Miller, National Medal of Science, 1991.
moist
watery
parched
wet
dry
damp
anhydrous
arid
synonym
antonym
Part-of-Speech Tagging
Training data (Annotated text)
This
Det
sentence
N
serves
V1
as
P
an example
Det
N
POS Tagger
of
P
annotated
V2
text
N
This is a new
Det Aux Det Adj
sentence.
N
p ( w1 ,..., wk , t1 ,..., tk )
p( wi | ti ) p (ti | ti 1 )
p (t1 | w1 )... p (tk | wk ) p (iw11 )... p ( wk )
Independent assignment
Most common tag
p(w | t ) p(t | t
i 1
i 1
Partial dependency
(HMM)
Parsing
Choose most likely parse tree
Grammar
Lexicon
NP
Probabilistic CFG
S NP VP
NP Det BNP
NP BNP
NP NP PP
BNP N
VP V
VP Aux V NP
VP VP PP
PP P NP
1.0
0.3
0.4
0.3
Det
BNP
...
PP
V
NP
is chasing
NP
on
a boy
the playground
1.0
V chasing
0.01
Aux is
N dog
0.003
N boy
N playground
Det the
Det a
P on
VP
Aux
dog
VP
NP
Det
A
VP
BNP
N
dog
Aux
is
NP
V
chasing NP
a boy
PP
P
NP
on
the playground
Summary
Information
Retrieval
Typical IR systems
Relevant
Relevant &
Retrieved
Retrieved
All Documents
| {Relevant} {Retrieved } |
precision
| {Retrieved } |
Recall
| {Relevant} {Retrieved} |
| {Relevant} |
Basic Concepts
A document can be described by a set of
representative keywords called index terms.
Different index terms have varying relevance
when used to describe document contents.
This effect is captured through the assignment
of numerical weights to each index term of a
document. (e.g.: frequency, tf-idf)
DBMS Analogy
Index Terms Attributes
Weights Attribute Values
Boolean Model
Keyword-Based Retrieval
Word stem
Several words are small syntactic variants of each
other since they share a common word stem
E.g., drug, drugs, drugged
A term frequency table
Each entry frequent_table(i, j) = # of
occurrences of the word ti in document di
Usually, the ratio instead of the absolute number
of occurrences is used
Similarity metrics: measure the closeness of a
document to a query (a set of keywords)
Relative term occurrences
v1 v2
Cosine distance:
sim(v1 , v2 )
| v1 || v2 |
Indexing Techniques
Inverted index
Maintains two hash- or B+-tree indexed tables:
Keyword-Based Association
Analysis
Motivation
Text Classification
Motivation
Automatic classification for the large number of on-line text
documents (Web pages, e-mails, corporate intranets, etc.)
Classification Process
Data preprocessing
Definition of training set and test sets
Creation of the classification model using the selected
classification algorithm
Classification model validation
Classification of new/unknown text documents
Text document classification differs from the classification of
relational data
Document databases are not structured according to
attribute-value pairs
Text Classification(2)
Classification Algorithms:
Support Vector Machines
K-Nearest Neighbors
Nave Bayes
Neural Networks
Decision Trees
Association rule-based
Boosting
Document Clustering
Motivation
Automatically group related documents based on
their contents
No predetermined training sets or taxonomies
Generate a taxonomy at runtime
Clustering Process
Data preprocessing: remove stop words, stem,
feature extraction, lexical analysis, etc.
Hierarchical clustering: compute similarities
applying clustering algorithms.
Model-Based clustering (Neural Network Approach):
clusters are represented by exemplars. (e.g.:
SOM)
Text Categorization
Categorization
System
Business
Education
Sports
Business
Education
Science
Applications
Categorization Methods
Prototype-based (Rocchio)
K-nearest neighbor (KNN)
Decision-tree (learn rules)
Neural Networks (learn non-linear classifier)
Support Vector Machines (SVM)
VS Model: Illustration
Starbucks
C2
Category 2
Category 3
C3
new doc
Microsoft
Java
C1 Category 1
TF Weighting
Weighting:
Normalization:
Similarity definition
dot product
Illustrative Example
doc1
text
mining
search
engine
text
travel
text
doc2
Sim(newdoc,doc1)=4.8*2.4+4.5*4.5
Sim(newdoc,doc2)=2.4*2.4
Sim(newdoc,doc3)=0
map
travel
text
IDF(faked) 2.4
doc3
To whom is newdoc
more similar?
government
president
congress
mining travel
4.5
2.8
doc1
doc2
doc3
2(4.8) 1(4.5)
1(2.4 )
newdoc
1(2.4) 1(4.5)
1(5.4)
2 (5.6) 1(3.3)
1 (2.2) 1(3.2)
1(4.3)