Khai thc vn bn (ting Anh: Text mining hoc text data mining) l mt qu trnh x l v trch xut thng tin nm trong vn bn, qu trnh ny l mt phn ca vic phn tch vn bn trong khai thc d liu. Thng tin c th hin di dng cc mu, xu hng, th t sp xp c trch xut thng qua cc lut hoc thng qua qu trnh hc da trn cc mu thng k. Khai thc vn bn bao gm cc bc c bn nh: tin x l, hc m hnh, phn on, tng hp phn tch v trnh by kt qu. Tin x l c th gm vic phn tch on vn bn thnh cc on nh hn, lm giu vn bn bng cc tri thc bn ngoi, hoc loi b nhng thng tin nhiu trong vn bn. Qu trnh hc l qu trnh tm ra cc mu trong mt tp cc vn bn c tin x l hoc cha qua tin x l, kt qu qu trnh hc l mt m hnh biu din cc mu c tm thy. Qu trnh phn on l qu trnh p dng m hnh va hc c trn cc vn bn mi, vn bn mi s c gn nhn thm thng tin. Cui cng l qu trnh tng hp v trnh by kt qu. Khai ph vn chia thnh cc vn nh hn bao gm phn loi ti liu (text categorization, text classification), nhm ti liu (text clustering), trch xut thc th (concept/entity extraction), khai ph quan im (sentiment analysis), tm tt ti liu (document summarization), v trch xut quan h gia cc thc th (entity relation modeling). 6.3.5 Webmining a. Nhu cu: S pht trin nhanh chng ca mng Internet v Intranet sinh ra mt khi lng khng l cc d liu dng siu vn bn(d liu Web). Cng vi s thay i v pht trin hng nga hng gi v ni dung cng nh s lng ca cc trang Web trn Internet th vn tm kim thn g tin i vi ngi s dng li ngy cng kh khn. C th ni nhu cu tm kim thng tin trn mt CSDL phi cu trc c pht trin ch yu cng vi s pht trin ca Internet. Thc vy vi Internet con ngi lm quen vi cc trang Web cng vi v vn cc thng tin. Trong nhng nm gn y Internet tr thnh mt trong nhng knh v khoa hc, thng tin kinh t, 1
thng mi v qung co. Mt trong nhng l do cho s pht trin ny l s thp
v gi c tiu tn khi cng khai mt trang Web trn Internet. So snh vi nhng dch v khc nh mua bn hay qung co trn mt t bo hay tp ch, th mt trang Web "i" r hn rt nhiu v cp nht nhanh chng hn ti hng triu ngi dng khp mi ni trn th gii. C th ni trang Web nh l cun t in Bch khoa ton th. Thng tin trn cc trang Web a dng v mt ni dung cng nh hnh thc. C th ni Internet nh mt x hi o, n bao gm cc thng tin v mi mt ca i sng kinh t, x hi c trnh by di dng vn bn, hnh nh, m thanh,... Tuy nhin cng vi s a dng v s lng ln thng tin nh vy ny sinh vn qu ti thng tin. Ngi ta khng th tm t kim a ch trang Web cha thng tin m mnh cn, do vy i hi cn phi c mt trnh tin ch qun l ni dung ca cc trang Web v cho php tm thy cc a ch trang Web c ni dung ging vi yu cu ca ngi tm kim. Cc tin ch ny qun l d liu nh cc i tng phi cu trc. Hin nay chng ta lm quen vi mt s cc tin ch nh vy l: Yahoo, google,... Mt khc, gi s chng ta c cc trang Web v cc vn Tin hc, Th thao, Kinh t-X hi v xy dng...Cn c vo ni dung ca cc ti liu m khch hng xem hoc download v, sau khi phn lp chng ta s bit khch hng hay tp trung vo ni dung g trn trang Web ca chng ta, t chng ta s b sung thm nhiu cc ti liu v cc ni dung m khch hng quan tm v ngc li. Cn v pha khch hng sau khi phn tch chng ta cng bit c khch hng hay tp trung v vn g, t c th a ra nhng h tr thm cho khch hng . T nhng nhu cu thc t trn, phn lp v tm kim trang Web vn l bi ton hay v cn pht trin nghin cu hin nay. b. Kh khn: Web dng nh qu ln t chc thnh mt kho d liu phc v Dataming phc tp ca trang Web ln hn rt nhiu so vi nhng ti liu vn bn truyn thng khc Web l mt ngun ti nguyn thng tin c thay i cao Web phc v mt cng ng ngi dng rng ln v a dng Ch mt phn rt nh ca thng tin trn Web l thc s hu ch 2
c. Cc ni dung trong Webmining:
Khai ph ni dung trang Web (Web Content mining) Web Structure Mining Web Usage Mining