You are on page 1of 4

GOM CM TI LIU

DA TRN

THC TH C TN
C

ThS. Dng Th Thy Vn (*)

c h thng gom cm ti liu c in thng da trn t kha. Qu trnh x l ch da vo


s xut hin ca t trong vn bn bng cch so trng chui. S nhp nhng v ngha trong
cc ng cnh khc nhau v s a ngha ca ngn ng t nhin l hn ch ca cc h thng
gom cm c in. gii quyt hn ch trn, chng ti xut khai thc ng ngha vn bn
thng qua thc th c tn v cc mi quan h gia chng. Kt qu thc nghim cho thy cc m
hnh ng dng thc th c tn vo bi ton gom cm ti liu u tt hn m hnh gom cm ti
liu theo t kha thun ty. Kt qu ny m ra trin vng mi cho vic nng cao cht lng gom
cm ti liu.
THC TH C TN

Thc th c tn (Named Entity NE) l cc i tng


c tham kho thng qua tn nh t chc, ni chn, con
ngi. Thc th c tn c cp ln u ti Message
Understanding Conference 6, nm 1995 (MUC-6, 1995),
v c dng rng ri trong cc ng dng rt trch thng
tin (Information Extraction IE), tr li cu hi (Question
Answering QA) hay x l ngn ng t nhin (Natural
Language Processing NLP).
Mt thc th c tn c biu din bi b ba <tn, lp,
danh hiu>. Trong , danh hiu xc nh duy nht mt
thc th c tn. Cc thc th c tn khc nhau c th c
cng tn hoc cng lp. V d hai thc th ng Trn
Hng o v ng Trn Hng o c cng tn, hay thc
th ng Trn Hng o TP. HCM v ng Trn
Hng o Nng l hai thc th khc nhau c cng
tn v cng lp.
Cc thc th c tn khc v bn cht v ng ngha vi
cc t (word) ch chng ni v cc c th, trong khi cc t
ni v nhng ci chung nh khi nim, phn loi, quan h,
thuc tnh. Do , vic x l cc thc th c tn xut hin
trong vn bn cn n tri thc c th v th gii ang xt
cn vic x l cc t ch i hi ng ngha t vng v ng
ngha thng thng. Nh vy, vic nhn din cc thc th

Patterns

Feature
Selection/
Extraction

Pattern
Representations

c tn xut hin trong vn bn l mt trong nhng vn


kh quan trng. iu ny thu ht rt nhiu n lc nghin
cu v cng t c mt s thnh tu. Thnh tu trong
vic nhn din NE to iu kin v l c s cho cc
nghin cu khai thc ng ngha ca thc th c tn.
BI TON GOM CM TI LIU
1.Tng quan v bi ton gom cm
Bi ton gom cm l bi ton phn loi tp mu d liu
ra thnh nhiu nhm da vo tng t gia cc mu.
Cc mu trong cng cm ging nhau hn so vi cc mu
thuc cm khc. Hin nay, c rt nhiu k thut gom cm
d liu. S khc nhau gia nhng k thut l phng php
biu din d liu, phng php o tng t gia cc
mu d liu, v phng php gom cc mu d liu thnh
cc cm. Nh vy, bi ton gom cm bao gm ba giai on
chnh nh hnh 1.
Feature Selection hay Feature Extraction l cc qu
trnh chn la, rt trch nhng c im ni bt nht ca
mu d liu. V d, d liu l hnh nh th mu sc v hnh
dng c th c xem l nhng c im ni bt ca
chng. Interpattern Similarity l qu trnh o tng t
gia cc mu d liu, thng c o bng mt hm xc
nh khong cch gia tng cp mu. C nhiu phng
php o khong cch khc nhau, trong , khong cch

Interpattern
Similarity

Grouping

Clusters

feedback loop
Hnh 1: Cc giai on trong bi ton gom cm[4]

42

Khoa hc & ng dng

S 11 - 2010

Euclidean l phng php n gin v thng c s


dng o khc nhau gia hai mu ([4]). Trong m hnh
khng gian vect, khong cch cosine c s dng ph
bin o tng t gia hai vect. Grouping l bc
gom cc mu thnh nhiu cm khc nhau da vo mt gii
thut gom cm no . Trong nhiu loi gii thut gom
cm, K-Means l gii thut phn hoch ph bin ([8]). u
im ca K-Means l c th c p dng cho tp d liu
ln m vn c hiu qu v thi gian chy. phc tp tnh
ton ca K-Means l O(kn) vi k l s cm v n l s mu d
liu.

xut. Phn hoch C* do chuyn gia ngi xy dng sn.


Trong cc phng php nh gi da vo s so snh cc
phn hoch th phng php o thng tin khc nhau gia
hai phn hoch VI (variation of information) trong [11] c
xem l mi v tt nht. o VI o lng thng tin mt i
hay thu c trong vic bin i phn hoch C thnh phn
hoch C*. o VI c nh ngha nh sau:
VI(C, C*) = H(C | C*) + H(C* | C) = H(C) + H(C*) 2I(C,C*)

2.Cc phng php nh gi cht lng ca h


thng gom cm
Xa nay, cht lng gom cm thng c nh gi da
vo hai o: (1) o Entropy theo cm (cluster entropy)
c s dng o hn n bn trong mi cm, gi tr
o cng nh th hn n trong cm cng nh, ngha
l thun nht trong cm cng ln; v (2) o Entropy
theo lp (class entropy) c s dng xc nh cc mu
d liu cng lp c phn b nh th no vo cc cm.
Tuy nhin, khi s cm trong phn hoch kt qu tng th
o entropy theo cm gim nhng o entropy theo
lp tng. Do , cn kt hp hai o ny c
o entropy tng th (overall entropy) dng nh gi cht
lng ca h thng gom cm. o entropy tng th l s
kt hp tuyn tnh ca hai o Entropy trn.
Gi s C = C1C2 Ck l mt phn hoch trn tp N ti
liu c nhn trong tp {l , l , , l *}. L tng, mi cm Ci
1 2
k
ch cha mt nhn lj. Gi s gi nj l s ti liu c nh
nhn lj, v nij l s ti liu c nh nhn lj trong cm Ci.
Th, o entropy theo cm Ec, o entropy theo lp E
l
v o entropy tng th c nh ngha nh sau:

(Eqs. 2)
k

H (C ) = (
i =1

| Ci |
|C |
log i )
N
N

NG DNG THC TH C TN VO BI TON


GOM CM TI LIU
Cc m hnh kt hp thc th c tn v t kha
Theo m hnh khng gian vect ([2]), mi ti liu c
biu din bi mt vect trn mt khng gian no . V ti
liu vn bn cha t kha (Key Word - KW) v thc th c
tn (NE) nn chng ta c th xem KW v NE l hai c im
ni bt ca ti liu. K hiu

d iK

l vect trn khng gian t

kha ca ti liu di, v k


hiu d N , d T ,
, v d I
ln lt l vect trn khng gian tn,
lp,
tn-lp hoc danh hiu ca thc th c tn ca ti liu di.
tng t gia hai ti liu di v dj c nh ngha nh
(Eq. 1), trong wN + wT + wNT + wl = 1 v a c gi l trng
s kt hp ([1]).

r r

r r

r r

sim( d , q ) = .[wN.cosine( d N , q N ) + wT.cosine( d T , qT ) +


E(C) = .Ec(C) + (1 ).El(C)
vi b [0, 1] l trng s cn bng hai o Entropy.
Phng php nh gi Entropy cng c th gip chng
ta nhn ra phn hoch c phi l li gii tt, ng vi mong
mun ca ngi s dng hay khng. Tuy nhin, mt hn
ch ca phng php ny l phc tp tnh ton ca qu
trnh nh nhn tng ti liu trong tp ti liu a vo. ng
vi mi tp ti liu a vo, ngi s dng phi nh nhn
tng ti liu ri sau mi dng cc phng php Entropy
nh gi. C th ni vic nh nhn cho mi tp ti liu
a vo l khng kh thi trong ng dng thc t.
khc phc mt hn ch ca phng php Entropy,
chng ta dng phng php nh gi da vo s so snh
cc phn hoch. Phng php ny o mc ging nhau
gia phn hoch c to ra vi phn hoch chun (phn
hoch ng). Phn hoch c to ra cng ging phn
hoch chun cng tt. Vi phng php nh gi ny,
chng ta cn chn tp d liu kim th chun (data sets) c
phn hoch ng C*, thch hp vi phng php gom cm

S 11 - 2010

wNC.cosine(

+ (1 a).cosine(

r r

) + wI.cosine( d I , qI )]
,

(Eqs. 3)
Tuy nhin, hai c im t kha v thc th c
tn ca ti liu l khng c lp nhau. Ngha l mt t hay
cm t xut hin trong vn bn c th c xem l mt t
kha cng c th c xem l mt thc th c tn. Do
pht sinh vn l chng lp hay khng chng lp trong
qu trnh xc nh hai vect d iK v vect d iNE cho mi ti
liu di. Ngha l khi m mt thut ng no l mt trong
cc c trng ca thc th c tn th sau c m n nh
mt t kha hay khng. Vi l do trn, chng ti xut
hai m hnh khng gian vect tng ng vi quan im c
chng lp v khng chng lp cho bi ton gom cm ti
liu t ra. M hnh ng vi quan im c chng lp c
t tn l VSM_OVL v VSM_NOVL l tn ca m hnh ng
vi quan im khng chng lp.

Khoa hc & ng dng

43

Ti liu th

nh ch mc
ti liu

Nhn din NE v
ch thch ng ngha
ti liu

ti liu. u vo ca h thng l tp ti
liu th. Ti liu th l cc vn bn, trang
Web, Tp ti liu ny c a vo
module Nhn din NE v ch thch ng
ngha ti liu nhn din cc NE xut
hin trong ti liu. Qu trnh ch thch
ng ngha ti liu c s tham gia ca
Ontology v C s tri thc. Kt qu ca
qu trnh ny l tp ti liu vi cc NE
c nhn din v ch thch ng ngha,
gi l Kho ti liu c ch thch NE.
Tp ti liu th c a vo module
nh ch mc ti liu. Nu ngi s
dng chn m hnh gom cm ti liu
VSM_NOVL th Kho ti liu c ch
thch NE cng c a vo module
ny nh phn tch trn. Sau khi qua
module ny, ta c tp ti liu c nh
ch mc theo m hnh gom cm ti liu
tng ng. Trung tm ca h thng
gom cm ti liu l module Gom cm
ti liu theo cc m hnh VSM_OVL,
VSM_NOVL. Sau khi qua module ny,
tp ti liu c gom thnh cc cm v
tr v cho ngi s dng.

Kho ti liu c
nh ch mc theo
VSM_OVL

Kho ti liu c
nh ch mc theo
VSM_NOVL

Kho ti liu c
ch thch NE
Gom cm ti liu theo cc m
hnh VSM_OVL, VSM_NOVL
Ontology v C s
tri thc
Cc cm ti
liu

Hnh 2: Kin trc ca h thng gom cm ti liu theo NE v t kha

Kin trc ca h thng gom cm ti liu da trn


thc th c tn kt hp t kha
Hnh 2 l kin trc ca h thng gom cm ti liu da
trn thc th c tn kt hp t kha. Trong kin trc ny c
s tham gia ca mt s h thng nh h thng nhn din
NE v ch thch ng ngha ti liu, h thng nh ch mc

Hnh 3: Biu OE v VI vi k = 4 v thay i

44

Khoa hc & ng dng

THC NGHIM V NH GI
Trong bi bo ny, chng ti tp trung
vo c trng lp (type) ca thc th c tn v c trng ny
b b qua trong cc h thng gom cm da trn t kha.
Do , chng ti thc nghim trn cc vect

r r

.cosine( d T , qT ) + (1 ).cosine(
,
). Trong , c
gi
tr
thay i t 0 n 1, cho bit ng ngha ca
NE v KW ng gp cho cht lng gom cm. Khi = 0

Hnh 4: Biu OE v VI vi k thay i

S 11 - 2010

Bng 1: Cc gi tr OE v VI vi k = 4 v thay i

ngha l gom cm hon ton da trn t kha, v khi = 1


ngha l gom cm hon ton da trn thc th c tn.
Chng ti xy dng tp d liu kim th t tp d liu
Reuters-21578 v tp d liu ny c phn hoch chun C*
thch hp cho phng php nh gi VI. Tp d liu kim
th gm 500 ti liu c phn hoch nh sau:
PLACES: 195 documents
PEOPLE: 105 documents
ORGS: 129 documents
EXCHANGES: 71 documents
Sau khi thc nghim h thng vi gii thut gom cm
k-means trn tp d liu kim th trn (k = 4), thay i t 0
n 1, bc nhy 0.1, chng ti c kt qu nh hnh 3, bng
1. Tip theo, chng ti cho k thay i t 2 n 10, kt qu
thc nghim (hnh 4) cho thy cht lng gom cm t gi
tr tt nht khi k = 4 nh mong i.

liu thun ty da trn t kha. iu ny chng t cc c


trng ca thc th c tn ng vai tr quan trng trong vic
th hin ng ngha ca vn bn. c bit l c trng lp
ca thc th c tn, c trng ny b b qua trong cc h
thng gom cm c in.
(*): GV Khoa CNTT & Ton ng D ng
H Tn c Thng

Kt qu thc nghim cho thy:


Cht lng gom cm c ci thin 100% khi = 0.9 so
vi khi = 0 (OE = 0.47 so vi 1.07 i vi m hnh NEKW_
OVL). Chng ta ch rng khi = 0 l gom cm hon ton
da trn t kha. Nh vy, cc c trng ca thc th c tn
ng vai tr quan trng i vi kt qu gom cm.
Cht lng gom cm t c gi tr tt nht khi k = 4,
chnh l s cm ca tp d liu kim th c xy dng
trc. iu ny cho thy tp d liu Reuters-21578 tng
i thch hp vi nhng m hnh gom cm m chng ti
xy dng.
KT LUN
Chng ti a ra hai m hnh khng gian vect kt
hp thc th c tn v t kha cho bi ton gom cm ti
liu. Chng ti cng xy dng h thng gom cm ti liu
da trn hai m hnh xut ny v chy thc nghim h
thng trn tp d liu kim th chun Reuters-21578. Kt
qu thc nghim cho thy hai m hnh xut em li hiu
qu cho cht lng gom cm. C th khi = 0.9 th hiu
qu gom cm tng 100% so vi cc h thng gom cm ti

S 11 - 2010

Ti liu tham kho


[1] Van.T.T.Duong, Tru H. Cao, Cuong K.Chau and Tho T.Quan, Latent
Ontological Feature Discovery for Text Clustering, in Proc. of the 7th IEEE
International Conference on Research, Innovation and Vision for the Future,
in Computing and Communication Technologies (RIVF2009, July 13-17, Da
Nang, Viet Nam), IEEE Press.
[2] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval. AddisonWesley, 1999.
[3] T.H. Cao, K.C. Le, and V.M. Ngo, Exploring combinations of ontological
features and keywords for text retrieval, in Proc. of the 10th Pacific Rim Intl
Conference on Artificial Intelligence, LNAI 5351.Springer-Verlag, 2008, pp. 603613.

Khoa hc & ng dng

45

You might also like