You are on page 1of 5

TEXT MINING - K THUT TRCH XUT THNG TIN T VN BN

L Hong Thanh, MSc

Tm tt
Khai thc vn bn (text mining) l mt nhnh ca data mining nhm tm kim v trch
xut thng tin nm trong vn bn [2]. Hin nay, vi s tng trng nhanh chng ca d
liu vn bn, text mining ngy cng c nhiu ng dng trong thc t, nh lc th rc, i
chiu l lch c nhn, phn tch cm ngh, phn loi ti liuBo co ny nhm gii thiu
v text mining cng nh cc l thuyt c bn trong trch xut thng tin t vn bn.

1. GII THIU
Hin nay, c s d liu vn bn (text
database) ang pht trin nhanh chng v
thu ht s quan tm nghin cu bi s
gia tng nhanh chng s lng thng tin
dng s, v d nh cc loi ti liu in t,
email, th in t, cc trang webC th
thy hu ht thng tin ca cc chnh ph,
cc ngnh cng nghip, kinh doanh,
trng hcu c s ha v lu tr
di dng c s d liu ny. D liu lu
tr trong c s d liu vn bn l d liu
bn cu trc (semistructrured data), tc
l chng khng hon ton phi cu trc
(unstructured) nhng cng khng hon
ton c cu trc [1]. V d, mt ti liu c
th cha mt vi trng c cu trc chng
hn nh tiu , tn tc gi, ngy xut
bn, phn loinhng cng c th cha
mt lng ln nhng thnh phn vn bn
phi cu trc chng hn nh phn tm tt
hay ni dung ca ti liu. Do o van e a t
ra la la m sao e co the tm kiem va khai
tha c tri thc t nguon d lie u nh va y.
Ca c ky thua t e gia i quyet van e na y
c go i la ky thua t "Text Mining" hay
khai pha d lie u va n ba n [4].

Khai ph vn bn chia thnh cc vn


nh hn bao gm phn loi vn bn (text
categorization), gom cm vn bn (text
clustering), rt trch thc th (entity
extraction), phn
tch
quan
im
(sentiment
analysis), tm
tt
ti
liu (document summarization), v m
hnh ha quan h gia cc thc th (entity
relation modeling) [2].
2. PHN TCH D LIU VN BN V
TRCH XUT THNG TIN
2.1. Trch xut thng tin
Trch xut thng tin (Information
Retrieval - IR) l mt khi nim c pht
trin song song vi cc h thng c s d
liu [1]. Tuy nhin, khng ging nh h
thng c s d liu ch yu tp trung vo
vic truy vn v x l giao tc ca d liu
cu trc, IR quan tm ti vic t chc v
trch xut thng tin t mt lng ln cc
vn bn. Nh vy IR v cc h thng c s
d liu tp trung vo nhng loi d liu
hon ton khc nhau, mt s bi ton
quan trng cn phi tnh n trong c s
d liu nhng li khng cn phi quan
tm trong IR, v d nh iu khin tng
tranh, khi phc v qun l giao

tcNgc li, c mt s bi ton trong


IR nhng trong c s d liu li khng
vng phi, chng hn x l vn bn phi
cu trc hoc tm kim xp x da vo t
kha [1].
2.2. o c bn cho trch xut vn
bn
Gi s mt h thng trch xut vn bn tr
v mt tp ti liu da vo truy vn u
vo. Cu hi t ra l lm cch no chng
ta nh gi c chnh xc hoc
ng n ca h thng. Gi tp cc ti liu
c lin quan n cu truy vn l
{Relevant}, v tp cc ti liu c trch
xut tr v l {Retrieval}. Tp cc ti liu
va c lin quan va c trch xut tr
v s c k hiu l {Relevant}
{Retrieval}. C hai o c bn cho vic
nh gi cht lng trch xut vn bn:
Precision: l t l cc ti liu c tr v
thc s c lin quan n ti liu truy vn
=

|{

} {

}|

|{

}|

Recall: l t l cc ti liu c lin quan n


ti liu truy vn v trn thc t c trch
xut tr v
=

} {

|{
|{

}|
}|

Mt h thng IR cn phi cn i gia


recall v precision, bi vy mt o
khc cng thng c s dng l Fscore c xy dng da trn recall v
precision:
=

)/2

Precision, recall v F-score l cc o c


bn ca mt tp cc ti liu c trch
xut. Trn thc t, i khi ta khng th s
dng trc tip cc o ny so snh
hai danh sch c sp xp cc ti liu tr
v, bi chng khng h quan tm n th
t ni ti ca cc ti liu [1]. o cht
lng ca mt danh sch c sp xp cc
ti liu, thng thng ngi ta s tnh
ton gi tr trung bnh ca presicion (AP)
ti tt c cc th t khi mt ti liu mi
c tr v.
3. CC PHNG PHP TRCH XUT
VN BN
V c bn, ta c th chia cc phng php
trch xut vn bn (text retrieval) thnh
hai loi: la chn ti liu (document
selection) v sp xp ti liu (document
ranking).
3.1. Phng php la chn ti liu
i vi phng php la chn ti liu,
cu truy vn c xem nh mt rng
buc c th cho vic la chn cc ti liu
c lin quan [1]. Mt v d in hnh cho
phng php ny l m hnh trch xut
boolean (Boolean retrieval model), trong
mi ti liu c biu din bi mt tp
cc t kha v ngi s dng s cung cp
mt biu thc boolean cc t kha, chng
hn nh car AND repair shops, tea OR
coffee, hoc database system BUT NOT
Oracle. H thng trch xut s nhn mt
truy vn dng boolean nh vy v tr v
cc ti liu tha mn biu thc. Kh khn
i vi phng php ny l vic m t
thng tin m ngi s dng cn bng biu
thc boolean, bi vy n ch thng hot

ng tt khi ngi s dng hiu r v tp


ti liu cng nh c kh nng trnh by r
rng cu truy vn [1].
3.2. Phng php sp xp ti liu
Phng php sp xp ti liu s dng
truy vn sp xp cc ti liu theo th
t lin quan [1]. Thc t cho thy phng
php ny thch hp cho vic trch xut
vn bn hn so vi phng php la chn
ti liu. Hu ht cc h thng IR hin i
u s dng cch ny tr v mt danh
sch c sp xp cc ti liu ty theo cu
truy vn ca ngi s dng. Nhng k
thut c dng trong nhng phng
php dng ny cng rt a dng, bao gm
i s hc, logic hc, xc sut, thng
k[3]. Vn chnh ca hng tip cn
ny l lm cch no xp x o
lin quan (degree of relevant) ca mt ti
liu da vo cc t c sn trong ti liu
cng nh trong ton b dataset. Trong
phm vi bo co ny, chng ta ch xem xt
mt trong nhng hng tip cn ph bin
nht hin nay, l m hnh khng gian
vector (vector space model - VSM).
tng chnh ca VSM nh sau: chng ta
biu din tt c cc ti liu trong dataset
v cu truy vn thnh cc vector trong
khng gian nhiu chiu tng ng vi tt
c cc t kha, sau s dng mt o
tng t (similarity measure) thch hp
no tnh ton tng t gia
vector truy vn vi cc vector ti liu. Gi
tr tng t s c dng sp xp
cc ti liu tr v.
3.2.1. Token ha

Bc u tin ca vic trch xut vn bn


l nh ngha cc t kha i din cho
cc ti liu, bc tin x l ny thng
c gi l token ha (tokenization) [1].
trnh vic x l cc t v dng, chng
ta s p dng mt danh sch dng (stop
list) cho tp cc ti liu trong dataset.
Danh sch dng l tp cc t c cho
rng khng lin quan n ni dung ca ti
liu. V d a, the, of, for, withl
cc t dng (stop words), mc d chng
c th xut hin rt thng xuyn trong
ti liu. Ngoi ra, ta c th thy rng mt
nhm cc t c th chia s chung mt t
gc (word stem). Do vy bc tip theo
chng ta s nh ra cc nhm t m trong
cc t ch c s khc bit nh v c
php. V d, nhm cc t drug,
drugged, v drugs s cng chia s
chung mt t gc l drug [1].
3.2.2. M hnh ha ti liu
Gi s mt dataset gm d ti liu v t t
kha (term), chng ta c th m hnh ha
mi ti liu thnh mt vecotr v trong
khng gian t chiu
. Tn s t kha
(term frequency) c nh ngha l s
ln xut hin ca t t trong ti liu d,
c k hiu l freq(d,t). Tip theo, ta xy
dng ma trn trng s term-frequency
TF(d,t) phn nh lin kt ca t t
tng ng vi ti liu d, trong 0 nu ti
liu khng cha t kha v khc
khng trong trng hp ngc li. C
nhiu cch nh ngha trong trng hp
trng s khc khng [1]. V d, ta c th
n gin gn gi tr TF(d,t) = 1 nu t t
xut hin trong vn bn d, hoc s dng
chnh gi tr freq(d,t). C nhiu cch khc

nhau chun ha gi tr tn s t kha.


Chng hn, h thng Cornell SMART s
dng cng thc sau tnh ton chun
ha tn s t [1]:
( , )
0
=
1 + log 1 + log

( , )

( , )=0

Bn cnh o tn s t, cn c mt
o khc cng tng i quan trng c
gi l nghch o tn s ti liu (Inverse
Document Frequency - IDF) biu din
mc quan trng ca t t [3]. Nu mt
t no xut hin trong nhiu vn bn,
mc quan trng ca n s b gim
xung bi nng lc phn bit ti liu ca
n b gim xung [1]. V d, cm t
database system c kh nng l t quan
trng nu n xut hin hu ht cc bi
bo trong cc hi tho v c s d liu.
Gi tr IDF(t) c nh ngha bi cng
thc sau:
()=

1+| |
| |

Trong , d l tp ton b cc ti liu


trong dataset v dt l tp cc ti liu c
cha t kha t. Nu |dt| <<|d| th gi tr
IDF ca t t ln v ngc li.
Trong m hnh VSM y , TF v IDF s
c kt hp vi nhau, c gi l o
TF-IDF [1]:

TF-IDF(d,t) = TF(d,t) IDF(t)


3.2.3. o tng t
Bi cc ti liu tng t nhau l nhng ti
liu c tn s t tng i (relative term
frequency) ging nhau, nn chng ta c
th o tng t gia cc ti liu hoc
gia mt ti liu trong dataset vi ti liu
truy vn da vo bng tn s. C nhiu
o (metric) c s dng tnh ton
mc tng t ca cc ti liu. Mt
trong nhng o thng c s dng
nht trong text mining l o cosine
(cosine measure) [1]. Gi v1 v v2 l cc
vector ti liu, o cosine c nh
ngha nh sau:
( ,

)=

.
=
| |. | | .

.
. .

4. KT LUN
Nhn chung, co the thay rang ca c ky thua t
ca text mining phc ta p hn so vi ca c
ky thua t data mining truyen thong bi
pha i thc hie n tre n d lie u va n ba n von
da ng phi cau tru c va co tnh m (fuzzy).
Tuy nhin, thc t cho thy hin nay
ngi s dng vn u thch v dng ngy
cng nhiu cc h thng lu tr d liu
dng vn bn. T o ta co the tin rang ca c
sa n pham t text mining co the co gia tri
thng ma i cao hn nhieu lan so vi ca c
sa n pham khai pha d lie u truyen thong
kha c [4].

5. THAM KHO
[1]

J. Han and M. Kamber, Data mining: concepts and techniques. San Francisco: Morgan
Kaufmann Publishers, 2006.

[2]

In Wikipedia. Retrieve from http://en.wikipedia.org/wiki/Textmining, 2012.

[3]

R.Feldman and J.Sanger, The text mining textbook: advanced approaches in analyzing
unstructured data. Cambridge Univ. Press, 2007

[4]

Phan Xun Hiu, Lun vn thc s, i hc Quc gia H Ni, 2010

You might also like