Anlamlı ve doğru bilgi çıkarımı her dil için farklı yöntemler kullanmayı
gerektirmektedir. Bunun en önemli nedeni ise, her dilin farklı anlamsal ve
sözdizimsel yapıya sahip olmasıdır. Günümüzde en büyük veri kaynağı olan dil
İngilizce’ dir. Bunun en büyük nedeni ise, sanal doku yöreleri arasında en yaygın
dilin yine İngilizce olmasıdır. Bu sebeplerden ötürü ise, arama motorları üzerinde
yapılan iyileştirme çalışmalar İngilizce üzerinde olmaktadır. Türkçe gibi daha az
Internet içeriğine sahip diller ise bilgi erişimi konusunda araştırma eksikliği
içerisindedir. Projenin temel amacı, Türkçe dilbilgisi ve biçimbilimsel kuralları
dikkate alan bir anlamsal arama motoru gerçeklemektir.
Anlamlı ve doğru bilgi çıkarımı her dil için farklı yöntemler kullanmayı
gerektirmektedir. Bunun en önemli nedeni ise, her dilin farklı anlamsal ve
sözdizimsel yapıya sahip olmasıdır. Günümüzde en büyük veri kaynağı olan dil
İngilizce’ dir. Bunun en büyük nedeni ise, sanal doku yöreleri arasında en yaygın
dilin yine İngilizce olmasıdır. Bu sebeplerden ötürü ise, arama motorları üzerinde
yapılan iyileştirme çalışmalar İngilizce üzerinde olmaktadır. Türkçe gibi daha az
Internet içeriğine sahip diller ise bilgi erişimi konusunda araştırma eksikliği
içerisindedir. Projenin temel amacı, Türkçe dilbilgisi ve biçimbilimsel kuralları
dikkate alan bir anlamsal arama motoru gerçeklemektir.
Anlamlı ve doğru bilgi çıkarımı her dil için farklı yöntemler kullanmayı
gerektirmektedir. Bunun en önemli nedeni ise, her dilin farklı anlamsal ve
sözdizimsel yapıya sahip olmasıdır. Günümüzde en büyük veri kaynağı olan dil
İngilizce’ dir. Bunun en büyük nedeni ise, sanal doku yöreleri arasında en yaygın
dilin yine İngilizce olmasıdır. Bu sebeplerden ötürü ise, arama motorları üzerinde
yapılan iyileştirme çalışmalar İngilizce üzerinde olmaktadır. Türkçe gibi daha az
Internet içeriğine sahip diller ise bilgi erişimi konusunda araştırma eksikliği
içerisindedir. Projenin temel amacı, Türkçe dilbilgisi ve biçimbilimsel kuralları
dikkate alan bir anlamsal arama motoru gerçeklemektir.
nternet kullanmnn artmas ve buna bal olarakta bilgiye eriimin kolaylamas beraberinde baz sorunlar da getirmektedir. Kaliteli bilgiye eriim nem arz eden bir konu haline gelir iken, bu olanaklar kullancalara salayacak en nemli unsur arama motorlardr. Anlaml bilginin karmnn yansra, bu bilginin son kullancya sunumu da nem arz etmektedir.
Anlaml ve doru bilgi karm her dil iin farkl yntemler kullanmay gerektirmektedir. Bunun en nemli nedeni ise, her dilin farkl anlamsal ve szdizimsel yapya sahip olmasdr. Gnmzde en byk veri kayna olan dil ngilizce dir. Bunun en byk nedeni ise, sanal doku yreleri arasnda en yaygn dilin yine ngilizce olmasdr. Bu sebeplerden tr ise, arama motorlar zerinde yaplan iyiletirme almalar ngilizce zerinde olmaktadr. Trke gibi daha az Internet ieriine sahip diller ise bilgi eriimi konusunda aratrma eksiklii ierisindedir. Projenin temel amac, Trke dilbilgisi ve biimbilimsel kurallar dikkate alan bir anlamsal arama motoru gereklemektir.
Bu dorultuda, dile zg ierii younlukla barndran haber, gnce ve forum siteleri taranarak indisleme yaplacaktr. Bu indisler yardm Trke dkmanlar sorguda aranan karamlara yaknlk seviyelerine gre kullancya sunulacaktr. Arama motoru kapsamnda, Soru Yantlama Sistemi de gereklenecektir. Projenin sonunda varlmak istenilen nokta, ek zellikler desteklenmi bir arama motoru e bilgi eriim sistemi tasarlamaktr. Bu amaca ulamak adna yaplan almalar ikinci blmde bileen baznda, ematik ve zet olarak sunulmutur.
9' 7V**,nlan Aralar ve Yntemler
Proje kapsamnda gereklenmesi dnlen sisteme ait genel ak emas (ekil 1), gereklenen paralar ve gereklenme detaylar ile sunulmaktadr.
,1, Arama motoru altyapsn oluturan etmenler ve indisleme ilemleri: Arama motorunun altyaps Apache loundation tarafndan gelitirilmekte olan e yine bir Apache Foundation ktphanesi olan Lucene temelli bir arama motoru mimarisi olan Nutch seilmitir. Sistemin kurulumu sunucu bilgisayar zerine kurularak gerekli btn dzenlemeler yaplmtr. Sisteme yaplan katklardan en nemlisi ise Lucene yaps bnyesinde gereklenen ve sadece Trke ierikli sayfalar tarama ve indisleme imkan veren bir ara modln gereklenmesidir. Bu sayede aratrma kapsamnda istenildii zere sadece Trke ierik ayklanm ve indislenmeye hazr hale getirilmitir. Bu blm ema zerinde (1) olarak iaretlenmitir ve indisleme modlnn bir paras olarak almaktadr.
Trke dkmanlar ierisinden yer alan kelimelerin kelime formlar biiminde indislenmesi mmkndr. Ancak bu durum ayn kkten gelen kelimelerin farkl kelimeler olarak deerlendirilmelerine neden olmaktadr. rnek olarak, va.at, masallar, masallarn kelimeleri farkl kelimeler gibi grlmekle birlikte va.at kknden tremi farkl kelime biimleridir. Bu kelime biimlerinin ayn kelime olarak nitelendirilmesi arama baarm asndan nemlidir. Bu sebeple, Trke dkmanlarda kullanlmak zere, verilen kelime biimini kk ve eklerine ayrma ilemi yaplmaldr. Bu ilemin adna biimbilimsel zmleme ad erilmektedir. Bu konuda yaplm almalar olmakla birlikte, bu proje kapsamnda bir doal dil ileme ktphanesi gelitirilmitir. Biimbilimsel zmleme bu ktphanenin bir paras olan zmleyici tarafndan yaplabilmektedir. Ayrca bu alanda denetimsiz bir bltleyici de tasarlanmtr. Bu denetimsiz zmleyici aratrc Koray Ak n yksek lisans tezini oluturmakta olup, ayrca bu almann bir paras uluslaras bir konerans bildirisi olarak yaynlanmtr. \ine bu almann tamam bir hakemli dergisiye iletilmi ancak eksiklikleri sebebi ile kabul grmemitir. Bu almalara rnler blmne ait eklerde yer verilmitir.
ekil 1 Arama motoru projesi kapsamnda gereklenmesi ve kurulumu planlanan bileenler ve sisteme genel bak.
3 Biimbilimsel zmleme, zellikle Trke iin birden fazla kkten tremi ok sayda zmleme ile sonulanabilir. Bu durumda hangi zmlemenin doru olduu sorusu ortaya kmaktadr. Bu problem literatrde biimbilimsel anlamszlk giderme olarak tanmlanmaktadr. Yine bu zellikle Trke iin yaplm baarl almalar mevcuttur. Gereklenmi olan yazlm ktphanesinde bu probleme zm bulmak amac ile makine renmesi temelli bir biimbilimsel anlamszlk giderici kodlanmtr. Bu almada uluslararas bir konferansta sunulmak zere kabul grm ve bildiri olarak yaynlanmtr. Ayn almann geniletilmi hali uluslararas hakemli bir dergiye iletilmi ancak kabul grmemitir. Yine bu almalar ekler blmnde sunulmutur.
Gerek biimbilimsel zmleyiciler gerekse biimbilimsel anlamszlk giderici, ak emasnn (1) ve (3) ile numaralandrlm kesimlerinde kullanlmaktadr. alma ile ilgili ek almalar ise hala devam etmektedir.
Yine (3) numaral blgede kullanlmak zere bir makine eviri sistemi tasarlanmtr. Bu alma ile hedeflenen ise ngilizce-Trke ynnde ve sorgu seviyesinde eviri yapabilen bir eviri sistemi tasarlamak, bu sayede de arama motoruna oklu dil destei katabilmektir. Bu konuda yaplan almalar aratrc Onur Grgn n doktora almalar kapsamnda devam etmektedir. Yine bu konudaki almalarn ilk rn ise ulusal bir kongrede szl sunulmak zere kabul edilmitir ve yakn tarihte bildiri olarak yaynlanacaktr.
,2, .rava .ovularnn ilgililik seviyelerine gre sralanmas: Kullanc tarafndan yaplan sorguya ilgililik asndan en yakn dkmanlarn gsterilmesi nemli bir problemdir. Bilgi eriimi alannda zerinde alma yaplan en nemli konulardan bir tanesi bu sralama ilemidir. Bu amala ve arama motoru altyaps ile birletirilmek zere bir sralayc tasarlanmtr. alma temel olarak, mevcut almalar inceleme ve bu almalar nda bir sralama algoritmas gereklemeyi hedeflemektedir. Bu konuda yaplan almalar aratrc Yasin Ozan Kl n yksek lisans tezini oluturmutur.
%' Bilimsel bulgular ve sonular
Proje kapsamnda gerekletirilen, yayna dnen almalar aadaki blmlerde ayrntlar ile aklanmtr. Yine bu almalara ait daha detayl bilgiler rnler blmnde yer almaktadr.
"' KELME BLTLEMEDE NEK AACI KULLANIMI
"'"' Giri Doal Dil leme (DD), bilsiyar bilimlerinin bir dal olarak bilgisayar ve dil arasndaki etkileimi ele almaktadr. Alanda yaplan almalarn esas amac hem insan tarafndan okunabilir anlaml yazl bilgi oluturabilme hemde insan dilini makinelerin anlayabilecei bir biimde sunabilmektir. Biimbilimsel zmleme, kelime biimi bltleme, cmlenin elerine ayrlmas, kelime anlam belirsizlii ve makine evirisi bu konuda ortaya konulan nemli problemlerden bazlar olarak saylabilir.
Biimbilimsel zmleme veya bltleme kelimelerin yaplarnn incelenmesi ve kelimeye ait eklerin belirlenmesi temeline dayanmaktadr. Trke de btn kelime biimleri, bir kk kelime ve ona al eklerin btnnden olumaktadr. rnek olarak, ngilizece evvvaratiov kelimesi e-vvvber-ate-iov eklinde ayrtrlabilir. Yine aynn ekilde Trke i.te,evterte kelimesi de i.te-,ev-ter-te eklinde ifade edilebilir. Kelimeler dilin en kk paras olarak tanmlanrken, ekler ise dile ait en kk szdizimsel paralardr ve kelime biimlerinin birbirleri ile ilikisini ortaya koymaktadrlar. Bu balamda, biimbilimsel zmleme bu yaplar inceleyerek bir kurallar zinciri oluturmaya almaktadr. anguage.
Biimbilimsel zmleme ve bltleme konuma tanmlama, makine evirisi, bilgi eriim sistemleri, metin alglama ve istatistiksel dil modelleme de yaygn ihtiya duyulan bir nileme srecidir. Trke, Fince,eke gibi sondan eklemeli dillerde ise bu konu yazl metinlerde karlalan kelime biimi eitlilii gz nne alndnda olduka ciddi bir problemdir. Yine Trke ve Fince gibi ekimsel eitliliin ok olduu dillerde ekleme kurallar kullanlarak ayn kkten teorik olarak snrsz sayda deiik kelime biimi elde edilebilmekte ve bu durum istatistiksel bir model oluturmay zorlatrmaktadr. Denetimsiz ve etiketlenmi bir eitim kmesine ihtiya duymadan otomatik zmleme sistemleri zerinde durulan nemli konulardan bir tanesidir. Yaklamn en byk arts, dil bamsz bir bltleme abas olmasdr.
Bu almann amac bu amaca hizmet etmek olan deiik yaklamlar nermektir. Bu amalar, nek aa yaps kullanlarak kelimeler, karakterler ve bu karakterlere ait sklklar eklinde ifade edilmitir.REC-TRIE algoritmas, bu yapy kullanarak ve batan sonra yollar takip ederek, karakter sklklarn baz alan bir kk bulur. Kk bulunduktan sonra, kalan kelime paralar kullanlarak yeni bir nek aac oluturulur ve btn ekler baka kelime paras kalmayacak ekilde kk bulma ilevi takip edilerek tespit edilir. kinci algoritma olan REVERSE-1RIL, RLC-1RIL ile ayn yntemi tersten takip takip etmektedir. nc ve son yaklam olan l\BRID-1RIL ise RLC-1RIL e RLVLRSL-TRIE nin bir karmdr. Kk bulma ilemi REC-TRIE mant ile, eklerin tespiti ise REVERSE-TRIE ilevi ile yaplmaktadr.
"'9' lgili almalar
MorphoChallenge |1|, LU Network o Lxcellence PASCAL2 Challenge Program kapsamnda 2005 ylndan beri yaplmakta olan denetimsiz biimbilimsel zmleme ve bltleme uygulamarnn yart bir etkinliktir. Ama, kelimeleri kkler ve ekleri eklinde bltleyebilen ve dil bamsz yaklamlarn oluturulmasn tevik etmektir.
Bu etkinlik erevesinde birok algoritma nerilmi ve literatrdeki yerlerini almtr. Bernhard [2], bu amala altkelimeler arasndaki geileri olaslksal olarak deerlendiren ve kk ve eklerin ayrmn uzunluk baz alarak zmeye alan bir almadr. Keshava [3], yine ayn mantkla, altkelimeleri bulunmas ve bunlarn birbirlerinin ard ardna gelme olaslklarn temel alan bir alma sunmutur. zellikle Trke iin Zeman[4], paradigma temelli bir yaklam nermitir. Bu yaklamda btn ek-kk eleri paradigmalar altnda gruplandrlmtr. Btn bltleme noktalar gz nnde bulundurulduundan paradigma says yksektir. Bltleme ilemi srasnda btn paradigmalar karlatrlarak doru bltleme tespit edilmeye allmaktadr. ParaMor [5], MorphoChallenge 2008 e damgasn vuran bir almadr. Her kelime biimi karakter snrlarndan bltlenmitir. Ayn son altkelime ile biten kelimeler iin algoritma bir paradigma yaratmaktadr. Bu paragimalar, eklemelerde hesaba katlarak daha gerek hallerini almaktadr. 2009 ylnda Monson ve dierleri [6] ParaMor un gelimi bir halini nermilerdir. ParaMor temel olarak bltleme kararlarna puan atamamaktadr. Bu amala, aratrclar doal dil iaretleyici eitmiler ve her bltleme snrna ait bir puan atamlardr. Bu puan gz nne alnarak, ParaMor un bltleme snrlarnn belirleme baarm deerlendirilmi ve doru veya yanl bltlemeler tespit edilebilmitir.
"'%' nerilen Yntemler
Bu blmde alma kapsamnda erilen yntemler ve bu yntemlere ait detaylar aklanmaktadr.
"'%'"' W0+.W2X Kelime listesi algoritmaya girdi olarak verilir ve veri kmesi ierisinde en az 5 kere tekrar etmekte olan kelimeler nek aacna yerletirilir. Kelimelere ait karakterler herbiri bir dme karlk gelecek ekilde nek aacna kaydedilir. Kelimedeki karakter says o kelimeye ait daldaki derinlii verir. Yeni gelen kelimeler nceden gelen kelimelerle ayn neklere sahiplerse, bu daldaki karakter sklklar gncellenir.
lk aamada kelimelere ait kkler tespit edilir ve bu kkler bir tabloya kayt edilirler. Bir sonraki aamada kkler haricinde kalan kelime paralar yeni bir nek aacna yerletirilirler. Bu aamalarda dikkat edilmesi gereken nokta, farkl dmler olarak ifade edilen karakterlerin birletirilerek tek bir dm olarak iade edilmeleridir. Algoritma nek aacnda tek bir eleman kalmayana kadar devam eder. ekil 1.1 de algoritmann almasna ilikin bir rnek sunulmutur.
ekil 1.1 Rec-TRIE algoritmasnn almas zerine bir rnek.
"'%'9' W0Y0(J0U.W2X
Reerse-1RIL, Rec-TRIE algoritmasnn ters ynde altrlan versiyonudur. Kk ve bltleme snr bulma ilemleri Rec-TRIE algoritmasnda olduu gibi yaplmakta olup radikal bir deiiklik yoktur. Yntemin ncelikle ortak eklerin tespit edilmesi amalamaktadr. Dier bir husus ise bltleme elde edilmeden nce ve sonrasnda kelimeleri ters evirme nilemine ihtiya duyulmasdr. Algoritmann almasna dair rnek ekil 1.2 de sunulmutur.
ekil 1.2 Reerse-TRIE algoritmasnn almas zerine bir rnek.
"'%'%' E-Z(CDU.W2X
Algoritma, Rec-1RIL e Reerse-TRIE yaklamlarnn birleini eklinde dnlebilir. Kk bulma ilemi Rec-TRIE ilevinde olduu gibi yaplmakta, geriye kalan kelime paralar ise ters evirilerek Reverse-TRIE ilevinde olduu gibi nek aacna yerletirilmektedir. Paralar bulunduka, bltlenmi kk ve ekler iin ayrlm olan tablo yapsna kaydedilmektedir. Bu aamada yaplacak bir dier ilemde, tersten ifade edilen eklerin, tekrar evirilmesi ilemine tabi tutulmalardr. Algoritmann szde kodu ekil 1.3 te sunulmutur.
ekil 1.3 lybrid-TRIE algoritmasna ait szde kod.
"'=' &0/0-*0(
MorphoChallenge algoritma analizi iin iki adet Perl betii salamaktadr. Bu betikler, verilen bir altn standart ile algoritma ktlarn karlatrarak baarm deerlendirmesi yapmaktadrlar. Bu almada veri kmesi olarak yarma tarafndan salanlan Trke, ngilizce ve Fince ye ait veri kmeleri alnm ve gerek veri kmelerinin alt kmeleri kullanlmtr. Algoritma baarm Mea.vre metrii ile llmtr. Bu metric aadaki gib hesaplanmaktadr.
,1.1,
Vuru (H): Kelime doru yerden bltlenmi. Ekleme (I): Kelime yanl yerden bltlenmi. kartma (D): Doru bltleme es geilmi. Veri kmesi olarak MorphoChallenge 2009 veri kmesi kullanlarak, nerilen yaklamlar baarmlar ngilizce, Trke ve Fince iin snanmtr. Performans deerledirmeleri yine MorphoChallenge tarafndan verilen Perl betikleri ile yaplm ve deney sonular Tablo 1.1, 1.2 ve 1.3 te sunulmutur.
.,Z*8 "'" Rec-1RIL, Reerse-1RIL e lybrid-TRIE algoritmalarnn Trke iin Precision,P,, Recall ,R, e l-Measure (F) deerleri.
.,Z*8 "'9 Rec-1RIL, Reerse-1RIL e lybrid-TRIE algoritmalarnn ngilizce iin Precision,P,, Recall ,R, e l-Measure ,l, deerleri.
.,Z*8 "'% Rec-1RIL, Reerse-1RIL e lybrid-TRIE algoritmalarnn Fince iin Precision(P), Recall ,R, e l-Measure (F) deerleri.
Sonular gstermektedir ki, Trke ve ngilizce iin en iyi performans Rec-1RIL gstermi olup, dier algoritmalar vasat bir performans sergilemitir. Rec-1RIL Trke kkler asndan baarl bir performans gstermitir. Algoritmalar temel zellii, her admda bir karaktere bakarak kk ve ek bulmalardr. Bu sebeple Fince gibi uzun kklere sahip diller iin baarm dk olarak gzlemlenmitir. kartma deerleri de zellikle Fince iin yksek kmakta ve bu da Recall deerinin ve buna bal olarakta F-Measure deerinin dmesine neden olmaktadr. Fince iin performans art Hybrid-TRIE ile salanmtr.
"'>' Tartma ve Gelecek almalar
almada nerilen algoritmalar basit ve kolay uygulanabilir olmalarna ramen sonular umut vericidir. Algoritmalar 2009 yarmaclarnn ayn veri kmesi zerindeki performanslar ile karlatrldklarnda Trke iin 4., ngilizce iin 12. Ve Fince iin 8. Srada yer bulmulardr. Recall deerleri gstermektedir ki zellikle Fince iin algoritmamz bltleme snrlarn es gemektedir. Ancak bu durum lybrid-TRIE ile belirli oranda dzeltilmitir.
Algoritmalar nek alglama (ngilizce ve Fince iin gerekli) mekanizmasna sahip deildir ve ses dmesi, sessiz yumuamas gibi kural d konular alglayamamaktadr. Gelecek almalar bu konular da gz nnde bulundurarak daha iyi bir performans sergilemek adna olacaktr.
Kaynaka
|1| Kurimo, M., Lagus, K., Virpioja, S., 1urunen, V., Morpho challenge. http:,,research.ics.tkk.i,eents,morphochallenge2010,
|2| Bernhard, D., Unsuperised morphological segmentation based on segment predictability and word segments alignment. In: Proceedings o the PASCAL Challenge \orkshop on Unsuperised Segmentation o \ords into Morphemes, 2008.
|3| Keshaa, S., A simpler, intuitie approach to morpheme induction. In: Proceedings o the PASCAL Challenge \orkshop on Unsuperised Segmentation o \ords into Morphemes, 2006.
|4| Zeman, D., Unsuperised acquiring o morphological paradigms rom tokenized text. In: Adances in Multilingual and Multimodal Inormation Retrieal. ol. 5152 pp.892-899, 2008.
|5| Monson, C., Carbonell, J., Laie, A., Lein, L., Paramor and morpho challenge 2008. In: Proceedings o the 9th Cross-language ealuation orum conerence on Laluating systems or multilingual and multimodal inormation access. Cross-Language Laluation lorum'08 pp.96-94, 2009.
|6| Monson, C. lollingshead, K. , Roark, B., Probabilistic paramor. In: Morpho Challenge 2009, 2009.
|| Solak, A., Oazer, K., Design and implementation o a spelling checker or turkish. In: Literary andLinguistic Computing. ol. 8., 1993
9' TRKE BMBLMSEL ANLAMSIZLIK GDERME N YEN BR YAKLAIM 9'"' Giri
Biimbilimsel zmleme problemi, bir kelime biimine ait olas zmlemeler arasndan doru olann belirlenmesi ilemi olarak tanmlanmaktadr. ekimsel ve ses kurallar gz nnde bulundurulduunda bir kelimenin farkl kkten tremi birden ok zmlemesi olabilmektedir. Bu durum Trke gibi biimbilimsel ve ekimsel olarak zengin diller iin olduka bir problem tekil etmektedir. zellilke Trke de eitlilii salayan birok etiket ve bu etiketlerin belirli kurallar erevesinde snrsz sayda kelime biiminin tretilmesine izin vermesidir.
Biimbilimsel zmleme konusunda literatrde pek ok alma mevcuttur. Bu almalar iki temel balk altnda toplanabilir: kural-tabanl yaklamlar ve istatistiksel yaklamlar. statistiksel yaklamlar yksek boyutlu veri kmesi kullanarak bir model oluturmakta ve belirsizlik giderme ilemi bu model ile gerekletirilmektedir [1]. Ancak zellikle Trke deki kelime biimlerinin okluu istatistiksel modellerin baarmn drmektedir. Bu soruna zm olarak, kelime biimleri daha kk gruplar olan ekimsel gruplar halinde ifade edilmektedir [2]. Bu konudaki en gncel alma Sak [3] tarafndan nerilmitir. Trke iin kural tabanl yaklamlarda erilmitir [4, 5].
Bu almada snflandrma tabanl bir anlamszlk giderme algoritmas nerilmektedir. almann temeli u ekilde aklanabilir: iki veya daha ok kelime biimi, kk kelimeler darda brakldnda ayn ekimsel gruplar iermektedirler. Ayn ekimsel gruplar ieren her bir zmleme bir snflandrma problemi olarak ifade edilmektedir. Herbir eleman biimbilimsel elerin varl baz alnarak znitelik vektrleri elde edilmi ve snflandrclar bu eitim kmeleri ile eitilmitir. almann dier blmlerinde problemin ayrntl tanm ve deneylere yer verilmitir.
9'9' Biimbilimsel Anlamszlk Giderme
Bir nceki blmde belirtildii zere anlamszlk giderme ilemi bir kelime biimine iin verilen olas zmlemeler ierisinden doru olann semektir. Bu zmlemeler iin ise biimbilimsel zmleyicilere [6, 7] ihtiya duyulmaktadr. Aada bir zerine kelimesine ait bir zmleme sonucu grlmektedir.
rnekte grld zere z ve zer kklerinden treti olan 4 farkl zmleme grlmektedir. + iaretleri ile birbirinden ayrlan paralar biimbiliseml dil elerini ^DB ise tretim snlarn gstermektedir. Tretim snrna ulaldnda kelime ilk halinde farkl bir grevle cmle ierisinde yer alabilir. rnek olarak, z fiili ile balayan nc kelime biimi ilk tretim snrndan sonra sfat haline dnmektedir. Her ^DB arasnda kalan eler dizisi ise ekimsel grup olarak adlandrlmaktadr. Problemi zm Bayes istatistii yardm ile zlebilmektedir ve aadaki gibi ifade edilebilir.
,2.1,
9'%' lgili almalar
Bu almada baarm karlatrlmas iin nemli Trke anlamszlk giderme algoritmas tartlmtrtartlmaktadr. Bu almalardan ilki ekidek-Tabanl 1emel Model dir. Bu modelde v-gram tabanl bir istatistiksel model oluturulmaktadr. Modelin oluturulmasnda iki nemli kstas vardr: (1) sradaki kelime kk sadece kendisinden nceki iki kelimenin kkne bamldr, (2) sradaki kelimenin ekimsel gruplar kelimenin kendinden nceki iki kelimenin ekimsel gruplarna bamldr.
Alandaki dier alma Yret tarafndan nerilmitir. alma kural tabanl bir alma olup, Greedy Prepend algiromasnn zerine kurulmutur. Kkler ve ekleme kurallar baznda kalp karmlar yaplm. Algoritma kendisinden iki nceki ve iki sonraki kelimeleri baz alarak znitelik vektrleri oluturmakta ve bu rnekler ile karar listeleri elde edilmektedir. Bu devrede Greedy Prepend algoritmas uygulanarak karar listeleri en ok kalb tanmlayacak genellemeye ekilmitir.
Bu alandaki en son ve en baarl alma Sak tarafndan nerilen ise bir makine renme yaklamdr. v-gram tabanl znitelik karmlar yaplarak model eitimi yaplmtr.
9'=' nerilen Yntem
nceki almalarda nerilen yntemler kk kelimeyi de anlamszlk giderme ilemine katmaktadrlar. Dier yandan, farkl kkten tremi kelimelerde olsalar, ayr kelimeler ayn zmlemelere sahip olabilirler. Bu durumda farkl kelimeler ayn snflandrcnn eitim kmesine ait rnekler olarak saylabilirler. Bu durumda balangta her bir kelime biimi bir problem tekil ederken, farkl kelimelerin ayn snflandrma problemi kapsamnda deerlendirilmeleri ile problem says nemli lde azalmaktadr. Bu aamaya problem indirgeme safhas denir. Dk saylara indirgenen problemler iin eitim kmesi oluturmak anlam kazanr. Eitim kmesi, seilen kelimenin iki kelime ncesi gznnde bulundurularak oluturulan znitelik vektrlerinden oluur. Bu veri kmesi ile eitilen snflandrclar ile belirsizlik giderme ilemi gerekletirilir. ekil 2.1 de algoritmann alma prensibi grsel olarak yanstlmaktadr
ekil 2.1 almada erilen algoritmaya genel bir bak
9'>' Deneyler ve Sonular
nerilen yntemin baarm lmleri iin olduka yaygn bir veri kmesi kullanlm [6] ve bilinen almalarla baarm karlatrlmas yaplmtr. Oluturulan veri kmeleri ile Weka ktphanesi kullanlarak on farkl snflandrc eitilmi ve baarmlar hem kendi aralarnda hemde dier bilinen yntemlerle karlatrlmtr. alma sonular gstermitirki, nerilen yaklam, ekirdek Tabanl Temel Model e oranla daha iyi bir performans sergilemi, ancak dier iki algoritmaya baarm asndan stnlk salayamamtr. Deney sonular Tablo 2.1 de sunulmutur.
9'<' Tartma ve Gelecek almalar
alma sonular gstermitir ki en baarl snflandrc J48 dir. Temel Model baarm olarak geilmesine ramen dier almalarn baarm yakalanamamtr. Ancak znitelik vektrlerinin arttrm ile daha iyi sonular elde edilebilecei dnlmektedir ve gelecek almalar bu kapsamda dzenlenecektir.
.,Z*8 9'" Deney sonularna ilikin sonu tablosu.
Kaynaka
|1| lakkani-Tr, D. Z.,Oflazer, K.,Tr, G.: Statistical Morphological isambiguation or Agglutinatie Languages, In: Computers and the lumanities 36,4,, pp. 381-410, 2002.
|2| Olazer, K., lakkani-Tr, D. Z., Tr, G., Design or a turkish treebank. In: Proceedings o the \orkshop on Linguistically Interpreted Corpora, 1999.
|3| Sak, H., Gngr, T., Saralar, M., Morphological Disambiguation of Turkish 1ext with Perceptron Algorithm. In: Gelbukh, A. ,ed., CICLING 200, LNCS 4394, pp. 10-118, 200.
|4| Yret, D., Tre, F., Learning Morphological Disambiguation Rules for Turkish, In: Proceedings o lL1-NAACL, 2006.
|5| Oflazer, K., Kuruz, I.: Tagging and morphological disambiguation of turkish text. In: Proceedings o the 4 th Applied Natural Language Processing Conerence, pp. 144-149, 1994.
|6| Olazer, K.: 1wo-leel Description o 1urkish Morphology. In: Literary and Linguistic Computing, 9,2,, pp. 13-148, 1994.
|| Sak, H., Gngr, T., Saralar, M.: Turkish Language Resources: Morphological Parser, Morphological Disambiguator and \eb Corpus. In: Go1AL 2008, olume 5221 o LNCS, pp. 41-42, Springer, 2008.
Makine evirisi (M) alanndaki almalarn istatistiksel yaklama dnm IBM in CANDIDL sisteminin temel kural-tabanl yaklama olan stnlnn kantlanmas ile balamaktadr. Hesaplama gcnn ve buna bal olarak paralel dil verisine ulamn kolaylamas aratrmaclarn bu alana olan eilimlerine destek vermitir. Ancak bu eviri denemelerinin byk bir ounluunu kstl szck dizimine ve kstl ekimsel biimbilime sahip dil ikilileri zerine yaplan almalar oluturmaktadr. ngilizce-Trke dil ikilisi iin yaplan almalarn azl, makine evirisi probleminin biimbilimsel olarak farkl zelliklere sahip diller iin zorluu e yine ayn dil ikilisi iin mevcut paralel metinlerin azl ile aklanabilir.
Baarl bir istatistiksel eviri modeli oluturmak iin yeterli byklkte ve kalitede paralel metin kullanmak gerekmektedir. eviri modelinde kullanlacak olan paralel metin, kaynak dildeki cmleler ve bu cmlelere ait hedef dildeki evirilerden olumaktadr. Birok dil ifti iin nitelikli ve byk boyutlarda paralel metin bulmak mmknken, ngilizce-Trke ifti iin paralel metin eksiklii bilinen bir problemdir.
lem istatistiksel veri seyreklii problemine zm olarak, hem de biimbilimsel ve ekimsel olarak farkl dil iftlerinde bire-ok hizalama kalitesini arttrabilmek adna, yapsal olarak gl olan dil tarafnda alt-szcksel gsterimlere ihtiya olduuna dikkat ekilmektedir [1]. Bu gsterimlerin elde edilebilmesi iin ise dil iftinin biimbilimsel analiz ve biimbilimsel anlamszlk giderme ilemlerinden geirilmesi gerekmektedir. zellikle Trke gibi sondan eklemeli diller iin literatrde biimbilimsel zmleyiciler [2, 3] ve anlamszlk gidericilerin [4, 5, 6, 7] varl hedeflenen gsterimlerin elde edilmesini de mmkn klmaktadr.
Bu bildiride yaplan alma, bu konuda literatrde baarl bir yaklam olan ve Trke altszcksel ifadelerin eviri modeline katlmas ile baarm orannn ykseleceini ifade eden almay [1] kendisine temel alarak, 2004-2010 tarihleri arasndaki SIU konferanslarna ait bildirilerden oluan bir dil verisi zerinde eviri yapmay hedeflemektedir. Deneyler iin elde edilen paralel metin ile bu almann bir dier amac olan ngilizce-Trke ifti iin bilimsel dile sahip nitelikli bir eitim kmesi oluturulmaktr.
Bildirinin genel ak u ekildedir. kinci blmde, istatistiksel makine evirisi presipleri anlatlmakta bu alanda yaplm olan ve ngilizce-Trke dil ifti iin literatrde kendisine yer bulmu almalar sunulmaktadr. nc blmde, benimsenen yaklam temel alnarak nerilen yntem sunulmakta ve SIU verisi zerinden rneklenerek aklanmaktadr. Drdnc blmde, deney verisi iin yaplan n almalara ve modellerin oluturulmasna ilikin detaylar sunulmutur. Bildiri sonular ve tartma blm ile son bulmaktadr.
%'9' lgili almalar statistiksel Makine evirisi alannda ilk almalar kelime-tabanl denemelerdir. Bu almalar, eviri temel birimi olarak kelimeleri kullanarak, her iki dile ait kelimeler arasnda ki en olas elemeleri bulmay hedeflemektedir [8]. Bu ileme kelime eleme ad verilmektedir. Ancak bu modeller, zellikle farkl biimbilimsel zellikler gsteren (ngilizce-Trke) diller iin bire-ok elemelerde yetersiz kalmaktadr. zellikle Trke de tek bir kelimenin ngilizce bir kelime grubuna karlk geldii durumlarda bu ak bir ekilde grlmektedir. Bu yetersizlii amak adna, temel eviri
ekil "' Faktrl eviri yaklam.
biriminin deitirilmesi gereklilii duyulmu ve aratrma abalar kelime grubu tabanl eviriye yneltilmitir.
Gerek kelime gerekse kelime grubu tabanl bir alma olsun, istatistiksel makine evirisinde iki konuya zen gsterilmektedir: uygunluk ve akclk. Uygunluk lt eletirme sonucunda salanrken, akclk iin hedef dile ait v-gram temelli bir dil modeline ihtiya duyulur.
ngilizce-Trke dil ikilisi iin yaplan almalar 1981 tarihine dayanmaktadr [9]. Yine ayn dil ifti iin ilk yapsal eletirme denemesi [10] ve kural-tabanl yaklam da [11] bu almay takiben nerilmitir. nerilen bu sistemlerin ortak noktas youn bir kural oluturma yntemini benimsemeleri ve kstl bir alana ynelik olmalardr.
Kelime grubu tabanl modeller makine evirisi konusunda en popler eviri yaklamlardr ve ngilizce-Trke ifti iin de baarl denemeler bu alanda olmutur [1][12]. Veri seyreklii probleminin zm iin, biimbilimsel olarak zengin olan Trke taraf iin biimbilimsel zmleme teknikleri kullanlm ve yine bu sebeple seste ekler szlksel ifadeler eklinde ifade edilmitir. ngilizce tarafnda ise dilin yaps gerei kstl bir zmleme yaplmtr. Temel olarak bu modeller literatrde faktrl yaklamlar olarak snflandrlm (ekil 1) olup, hem biimbilimsel elerin hem de kelime kklerinin ayr olarak eletirilmesini gerektirmektedir. Ancak aratrmaclar bu yntemin btn kurallarn takip etmemilerdir.
Deneysel almalar gstermektedir ki, yapsal olarak fakir-zengin dil iftleri iin faktrl yaklamlar dk baarm sergilemektedir. Bu nedenle, sz konusu almalarda ekler veya ek gruplar ayr kelimeler olarak deerlendirmi, kelime ve kelime grubu elemeleri bu ekilde yaplmtr. Bu sayede Trke ek ve ek gruplarnn ngilizce ek veya kelimelerle elenmesi salanmaktadr. Ancak kelime biimi elde edilirken ek baznda alan bir baka dil modeline ihtiya duyulmaktadr. Ek-temelli dil modeli, kk ve ekler halinde ifade edilen evirinin kelime biimine evirimi iin gereklidir.
%'%' Kullanlan Yntem
Giri blmnde bahsedildii zere, bu alma da daha nce nerilmi olan szdizimsel yaklamla zenginletirilmi szck grubu tabanl alma [1] temel alnmaktadr. Bu blmde almamzda kullandmz bu temel modellere ait detaylar aktarlmakta, kendi ilem ve nilem detaylar ile birlikte sunulmaktadr.
Bu almada temel olarak 4 farkl gsterim kullanlmakta ve bu gsterimlerle oluturulan eviri modellerinin performans deerlendirmeleri yaplmaktadr. n ilem olarak kelime biimlerine, evirinin Trke taraf iin biimbilimsel zmleme ve biimbilimsel belirsizlik giderme, ngilizce taraf iinse cmlenin elerinin bulunmas ilemi uygulanmtr. Ancak szdizimsel olarak katk salamayan etiketler (NN, isim etiketi) eitim kmesine dhil edilmemitir. (Orjinal alma ngilizce taraf iin kstl bir biimbilimsel zmleme de kullanmaktadr.)
Gsterim 1: Kelime6 zmleme yaplmadan kelime biimi olarak sunulmaktadr. Gsterim 2: Kelime kk ve biimbilimsel zmleme elemanlar ile birlikte kelime olarak sunulmaktadr. (bir+lA+DHr+mA) Gsterim 3: Kelime kk ayr, biimbilimsel zmleme elemalar eklenmi bir ekilde sunulmaktadr. (bir | +lA+DHr+mA) Gsterim 4: Kelime kk ve biimbilimsel zmleme elemanlar ayr kelimeler olarak sunulmaktadr. (bir |+lA | +DHr | +mA)
Aklanm olan gsterimlerle 4 farkl eitim kmesi oluturulmu ve bu eitim kmeleri kullanlarak 4 farkl eviri modeli elde edilmitir. Yine bu gsterimlerle oluturulmu test kmeleri ile baarmlar hesaplanmtr.
%'=' &0/0-*0( %'='"' Deney Verisi ve Dzenei Bu almada, IEEE de yaynlanan PDF formatndaki bildiriler toplanm ve PDl dokmanlarndan metin karm ilemi uygulanmtr. Dil kodlama problemi olan e her iki dilde zetesi olmayan dokmanlar elendiinde elde kalan dokman says 634 olmaktadr. Bu dokmanlar zerinde Microsoft Proofing Tools ile yazm denetimi ilemi uygulanmtr. Dokmanlarn makine evirisinde kullanlabilmesi iin paragraf ve cmle baznda hizalanm olmas gerekmektedir. Bildirilere ait zeteler genel olarak tek paragraftan olutuundan paragraf hizalama ilemi yaplmamtr. Cmle hizalama ilemi iin cmle karakter uzunluunu temel alan Church&Gale [13] e ait cmle hizalama algoritmas kullanlmtr. Algoritmann hata yapt hizalamalar el ile dzeltilerek, hizalama doruluu arttrlmtr. Hizalama ilemleri ematik olarak ekil 2 de sunulmutur.
Hizalanm cmleler, nc blmde belirtilen gsterime ulamak adna dil ileme iin gerekli nilemlere tabi tutulmutur. Trke cmleler iin Oflazer in iki-seiyeli modeli [2] zerine kurulmu olan biimbilimsel zmleyici, biimbilimsel belirsizlik giderme ilemi iin de kural tabanl bir anlamszlk giderici [5] kullanlmtr. ngilizce taraf iin sadece TreeTagger [14] yazlm kullanlm ve biimbilimsel olarak anlam ifade etmeyen etiketler karlmtr. Bir nceki blmde ifade edilen gsterimler kullanlarak, bu gsterimleri karlayan ve 3075 cmleden oluan 4 farkl veri kmesi elde edilmitir.
Eitim kmesi oluturulduktan sonra, kelime hizalama ve kelime grubu hizalama ilemleri gerekletirilmitir. Kelime hizalama iin GIZA++ [15] ve MKCLS yazlmlar [16], kelime grubu temelli eviri modeli oluturmak iin Moses [17] makine evirisi yazlm kullanlmtr. Trke ye ait dil modeli oluturmak iin El- Kahlout tarafndan sunulmakta olan Trke dil modeli eitim kmesi kullanlmtr. Uygulanan n ilemler serisi ematik olarak ekil 3 te sunulmutur.
Test kmesi olarak, 2011 yl SIU bildirilerinin bir altkmesi kullanlmtr. Test kmesine ait cmleler de ayn eitim kmesinde olduu gibi biimbilimsel zmleme, biimbilimsel anlamszlk giderme ilemlerinden geirilmitir. Her bir gsterim tarz iin farkl bir test kmesi oluturulmu olup, bu test kmeleri ile deneyler gerekletirilmitir.
Baarm lt olarak konum bamsz bir kelime hata oran (KHO) trevi olan BLEU metrii kullanlmaktadr. KHO dan farkl olarak, temel lm birimi olarak kelimeleri baz almayan BLEU, deiik uzunluklardaki vgram bekleri kullanlr ve 0-100 arasnda derecelendirilir. %'='9' Deney Sonular Deney sonular Tablo 2 de gsterilmitir. Sonular gstermektedir ki, sadece kelime biimlerinin kullanld gsterim en dk performans kaydetmitir. Gsterim 3, kelime biimlerine gre greceli %21 lik bir performans art salamtr. Eitim kmesinin kkl ve buna bal olarak, ek baznda hizalama sonularnn baarszl nedeni ile Gsterim 4 performans artna beklenilen katky gsterememitir. Bu yetersizliin bir dier nedeni de ek baznda alan bir dil modeli kullanlmamasdr.
Ayn test kmeleri kullanlarak Google Translate ile eviri yaplmtr. Bu eviri sonucunda ngilizce-Trke ynnde 14.71 BLEU puan elde edilmitir.
Gsterim B88[*0 .(,/J*,A0 " 9 % = 4.36 4.92 >'9R 4.41 "=':" .,Z*8 " Aday evirilerin ve Google Translate evirisinin BLEU metrii kullanlarak hesaplanan baarmlar.
%'>' Sonular ve Tartma
Deneyler sonunda karlalan dk baarm SIU dermecesinin yaps ile ilintilidir. Seilen eitim kmesinde eitlilik bulunduundan kelime hizalama performans dktr. Bir dier karm ise biimbilimsel zmlemenin istenilen katky yapamamasdr. Biimbilimsel zmleme zmlenecek kelimenin kk tespit edilerek ve olas ek dizilimleri kartlarak yaplmaktadr. SIU dermecesinde yer alan kelimeler ise zmleyici kk veritaban iin yeni kelimeler olup, biimbilimsel zmlemesi yaplamamaktadr. Bu durum kelime-ek hizalamas baarmn etkiledii gibi, kaliteli bir ek-tabanl dil modelinin oluturulmasn zorlatrmaktadr. Bu kelimelere ait zmlemelerin yaplabilmesi terimler szl oluturulmas ve biimbilimsel zmleme kurallar ile baarlabilir. Ayrca, kelime ve kelime grubu hizalama ilemlerinde yksek baarm yakalayabilmek iin mevcut veri kmesinin kelime ve kelime gruplar elemeleri ile zenginletirilmesi gerekmektedir. Devam eden almalarn zenginletirme konusu zerine olmas planlanmaktadr.
Kaynaka
|1| Ll-Kahlout, . D.: Exploring Different Representational Units in English-to- 1urkish Statistical Machine 1ranslation, In: Proceedings o the Second \orkshop on Statistical Machine 1ranslation, pp. 25-32 ,200,.
|2| Olazer, K.: 1wo-leel Description o 1urkish Morphology. Literary and Linguistic Computing 9, pp.13-148 ,1994,.
|3| lakkani-Tr, D. Z., Oflazer, K.,Tr, G.: Statistical Morphological Disambiguation or Agglutinatie Languages. In: Computers and the lumanities 36,4,, pp.381-410 ,2002,.
|4| Sak, H., Gngr, T., Saralar, M.: Turkish Language Resources: Morphological Parser, Morphological Disambiguator and \eb Corpus. In: Go1AL 2008, ol.5221 o LNCS, Springer, pp.41-42 ,2008,.
|5| Yret, D., Tre, F.: Learning Morphological Disambiguation Rules for 1urkish. In: Proceedings o lL1-NAACL, pp.328-334 ,2006,.
|6| Grgn, O., Yldz, O. T.: A Novel Approach to Morphological Disambiguation or 1urkish. In: Proceedings o International Symposium on Computer and Inormation Sciences ,ISCIS,, pp.-83 ,2011,.
|| Sak, l., Gngr, T., Saralar, M.: Morphological Disambiguation of Turkish 1ext with Perceptron Algorithm. In: Gelbukh, A. ,ed., CICLING 200, LNCS 4394, pp.10-118 ,200,.
|9| Sagay, Z.: A Computer 1ranslation rom Lnglish to 1urkish: Masters 1hesis, ML1U, Department o Computer Lngineering ,1981,.
|10| Keyder 1urhan, C.: An Lnglish to 1urkish Machine 1ranslation System Using Structural Mapping. In: Proceedings o the Applied Natural Language Processing, \ashington, DC, p.320-323 ,199,.
|11| Hakkani, D. Z., Tr, G., Oflazer, K., Mitamura, T., Nyberg, E.: An English- to-1urkish Interlingual M1 System. In: AM1A, pp.83-94 ,1998,.
|12| \eniterzi, R., Olazer, K.: Syntax-to-Morphology Mapping in lactored Phrase-based Statistical Machine 1ranslation rom Lnglish to 1urkish. In: Proceedings o the 48th Annual Meeting o the Association or Computational Linguistics ,ACL,, pp.454-464 ,2010,.
|13| Gale, \.A., Church, K. \.: A program or aligning sentences in bilingual corpora. Computational Linguistics, 19,1,, pp.5-102 ,1993,.
|14| Schmid, l. : Probabilistic part-o-speech tagging using decision trees. In: Proceedings o International Conerence on New Methods in Language Processing ,1994,.
|15| Och, l. J., Ney, l.: A systematic comparison o arious statistical alignment models, Covvtatiovat ivgvi.tic., Vol. 29, No.1, pp. 19-51 ,2003,.
|16| Och, l. J.: An Licient Method or Determining Bilingual \ord Classes. In: Ninth Con. o the Lurop. Chapter o the Association or Computational Linguistics, pp. 1-6 ,1999,.
|1| Koehn, P., loang, l., Birch, A., Callison-Burch, C., Zens, R., lederico, M., Bertoldi, N., Cowan, B., Shen, \., Moran, C., Dyer, C., Bojar, O., lerbst, L., Moses: Open Source 1oolkit or Statistical Machine 1ranslation. In: Proceedings o the 45th Annual Meeting o the Association or Computational Linguistics, Companion Volume, pp.1-180 ,200,.
=' SIRALAMAYI RENME
='"' Giri
Sralama, bilgi eriim sistemleri konusundaki nemli problemlerden birisidir. Dkman eriimi, ibirliki szgeleme [1], anahtar terim ztleme [2], tanmlama bulma [3], nemli eposta yol atama [4], duygu zmleme [5], rn deerleme[6] ve istenmeyen sanal doku iletiimi[7]. Bu almann amac dkman eriimi konusundaki sralama problemleridir. Bu konudaki sralama problemleri yle zetlenebilir.
Dkmanlar sadece sorguya olan yaknlklarna gre sralanmaktadr. likisel sralama [8] sorgunun sanal doku yresinin yapsna ve belgenin btnlne nem vermektedir. Birden fazla sralama aday listesinin birleimi daha iyi bir sralama sonucu ortaya koymaktadr. Bu birleik indise ilikin sonular kullancya sunulmaktadr. Bir sanal doku yresinin hangi zellikleri sralama sonularn etkilemektedir. Bu yaklama arama motoru eniyileme literatrnde tersine mhendislik ad erilmektedir. Dkmana eriimde sralama olduka zor bir problem olup, bu konuda birok algoritma nerilmitir. Son yllarda aratrclar, zellikle makine renme tekniklerini kullanarak daha iyi sralama teknikleri gelitirmek adna almaktadrlar. Bu amala byk boyutlardaki eitim kmeleri zerinde allmaktadr. Eitim kmesi yardm ile sralama modeli oluturma yaklamna Sralamay renme ad verilmektedir. Temel olarak bu yaklam, dkmanlara ait zniteliklerin kullanlarak bir sralama modeli oluturulmasn hedeflemektedir. Daha da genellemek gerekirse, bir sralama algoritmasnn sralamay renme yaklam saylabilmesi iin u iki zellii tamas gereklidir:
Yntem znitelik tabanl bir yaklam ise: Sorgu dkmanlar znetlik vektrleri eklinde ifade edilirler. En popler znitelikler, sorgu terimlerinin sklk saylar, PageRank ve BM25 puan. Eitim ieriyorsa: Modelin renimi drt aamal bir sretir; girdi, kt, kuram uzay ve kayp ilevi (loss function). Baz aramay renme algoritmalar zellikle ticari arama motorlar tarafndan tercih edilmekte olan evrimii renme yntemlerini kullanmaktadr.
Sralamay renme konusu aratrma konusu olarak son yllarn en popler konularndan bir tanesi olmu ve bu konuda birok algoritma nerilmitir [9-26|. Aratrclar arasnda bu algoritmalara ilikin eitli sorular tartlmaktadr:
Sralamay renme algoritmalarnn ortak ve ayrk zellikleri nelerdir? langi algorima en iyi baarm sergilemektedir? Algoritmalarn baarm karlatrmalar hangi kstaslar ile yaplmaldr? Sralama yeni bir makine renme problemi olarak kabul edilmelidir, yoksa varolan bir makine renme problemi midir? Bu almada sralamay renme algoritmalarnn birinci soru nda tartlmas ve performans deerlendirilmesi yaplmtr. Ayrca, sralama problemi 2 boyutlu bir snflama problemi olarak ifade edilmekte ve /-Enyakn Komuluk algoritmas ile zlmtr.
='9' Bilgiye Eriimde Sralama Modelleri Bilgiye eriimde pekok sralama modeli mevcuttur. Basit bir yaklam olduu dnlerek, modeller iki temel balk altnda sunulmutur: sorgu-baml ve sorgu bamsz sralama modelleri.
='9'"' ?8([VUBaml Sralama Modelleri lk soralama modelleri sorgu terimlerinin sonu dkmanlardaki rastlanma skln baz alarak almaktadr. Bu modellerde dkmanlar ve sorgular Euclid uzaynda vektrler olarak ifade edilir. Bu iki vektrn i arpm bize sorgu ile dkmann yaknln gsterir. Bu amala Terim Skl-Ters Dkman Skl (TF-IDl, arlklandrma kullanlr. Terim skl vektr, bir t teriminin dkman ierisindeki rastlanm sklnn dzgelenmi ifadesidir. Ters Dkman skl ise:
,4.1,
^ says dkman saysn ifade ederken, v;t) ise t terimini ieren dkman saysdr. Buna ek olarak, bir dier sralama prensibi ise olaslksal bir yaklam olan BM25 tir. Bu yaklamda dkmanlar benzerliklerinin logaritmik tahmini grecelilik oranlarna gre sralanmaktadr. Temel olarak baarl bir yaklam olmamakla birlikte, birok deiik sralama modeline ait parametrelerin birleimi olarak ifade edilebilir.
,4.2,
q, t 1 ,...,t M terimlerinden oluan sorguyu, a dkman 1;t,a) t teriminin a dkman ierisindeki rastlanma skln, ^;a) a dkmann terim baznda uzunluunu, arat ana indisin ortalama dkman uzunluunu, / 1 e b zgr parametreleri, D ise t teriminin ters dkman rastlanma skln ifade etmektedir.
Bilgiye eriimde istatistiksel bir dil modeli kullanmak bir baka sralama yaklamdr. Bu yaklamda terimlerine olaslksal deerler atanr ve dil modeli dkman ile ilikilendirilir. Sorgu terimleri, dkmanlara ait dil modelleri ile elde edilmeye allr. Dkmanlar sorgu terimlerini istenilen srada ierme oluturma performanslarna gre sralanr. Bu olaslk u ekilde ifade edilebilir.
,4.3,
Dkmana ait dil modelinin oluturulmas enyksek olabilirlik yntemine gre salanr. Bu konuda dikkat edilmesi gereken konu ise kestirimin yumuatlmasdr. Bu durum sfr olaslkl terimleri dizisinin olutuu durumlarda gereklidir. Bu amala, arkaplan dil modeli tm indis kullanlarak kestirilir.
,4.4,
Burada, , arkaplan dil modeli olup, yumuatma etmenidir ve aralnda deerler alr.
='9'9' ?8([VUBamsz Sralama Modelleri Bir nceki blmde bahsedilen sralama modelleri, sorgunun ierdii terimleri ve bunlarn sralann baz alnarak, bu etmenlerin dkmanlara olan benzerliklerini deerlendirmekte bir sralama sonucu sunmaktayd. Dier yandan, sorgu bamsz modeller, dkmanlar dier dkmanlara oranla nemlerine gre sralamaktadr. Bu konuda PageRank[27] rnek gsterilebilir. PageRank sanal doku yresi hiperba yapsn kullanmasndan tr sanal doku aramasnda tercih edilmektedir. Modelde, bir kullancnn herhangi bir sayfa bana rastgele tklama olasl eklinde tanmlanr:
,4.5,
Modele gre a sayfasnn PageRank saysal deeri, , ya bal sayfalar derlemi, ise den darya olan balarn saysdr. Kullancnn sanal doku yresini bir ba a tklayarak deilde, direkt olarak sayfay ziyaret etmesi olasl da modele dahil edildii model ise aadaki gibi ifade edilebilir:
,4.6,
, snm etmenini ve ^ ise indis teki toplam sayfa saysn ifade etmektedir.
='%' Sralamay renme Sralamay renme modelleri pekok deiik yntem kullanlarak oluturulabilmektedir. Ancak literatre bakldnda, sralamay renme modellerinin ana balk altnda toplanabilir. Bu yntemler, girdi, kt, kuram uzay ve kayp ilevi bakmndan farkllk gsterirler. Bu blmde, bu yntemler ve uygulama rneklerini akmaya alacaz.
='%'"' Nokta Tabanl Yaklam Bu yaklamda esas ama, her dkmann ilgililik derecesinin belirlenmesidir. Bu amala btn dkmanlarn znitelik vektrlerinden oluan bir girdi uzay oluturulur. kt uzay ise derlemdeki btn dkmanlarn ilgililik dereceleri ile oluturulur. Dkmanlara ait znitelik girdi olarak alarak ilgililik derecelerini kt olarak oluturan ilevler btn ise modele ait kuram uzayn oluturur. Nokta tabanl yaklamlara rneklere literatrde rastlanmaktadr [17, 19, 22-24, 25|. Bu yaklamlar ise iki ana balk altnda zetlenebilir: sralama iin oklu-snf snflandrma ve balanml altkme sralama.
oklu-snf snflandrma iin en bilinen rnek McRank tir [22]. Bu modelde sralama problemi ok snfl bir snflandrma problemi olarak ifade edilir ve bu snflar yardm ile sralama modeli oluturulur. Snflandrma sonularn sralama puanlarna dntrmek iin olaslksal dalm kullanlr. Bu dalm o dkmann hangi kategoriye ait olduunu ifade etmektedir. Sonu olarak skorlama ilevi aadaki gibi tanmlanabilir.
,4.,
Altsnf sralama yaklam ilk olarak Cossock ve Zahn tarafndan nerilmi olup, sralama probleminin balanm problemi olarak yeniden ifade edilmesidir. Skorlama ilevi f, eklinde ifade edilen dkmanlarn q sorgusuna ait e eklinde ifade edilen ilgililik etiketlerini kullanarak dkmanlar sralar. Kayp ilevi ise aadaki gibi tanmlanabilir.
,4.8,
Bu ana yaklamlar haricinde bu modellerin uzants veya bu modellerin birleimi olan modellerde nerilmitir [17, 23].
='%'9' kili Karlatrmal Yaklam kili karlatrmal yaklamlar btn dkmanlarn birbirlerine gre ilgililik srasn bulmak yerine, dkmanlarn ikili olarak greli sralamalarn bulmak prensibini takip eder. Sralam problemi, ikili dkmanlar arasnda bir snflandrma problemi olarak ifade edilir. Ama ikili dkmanlar arasnda enkk hatal snfladrma saysna ulamaktr. Eer btn ikililer doru olarak snfladrldlar ise, q sorgusuna ait btn dkmanlar doru olarak sralanm saylr. Dkmanlar znitelik vektrleri eklinde algoritmaya sunulurlar. Literatrde bu kategoriye ait bir ok alma mevcuttur [9, 11, 12, 15, 19, 26]. Bu kategoride bir AdaBoost trevi olan RankBoost [18] nemli bir yer tekil etmektedir. Atasndan farkl olarak RankBoost, herbir dkman dkman ikilileri baznda snflandrr.
Destek Vektr Makinesi(SVM) ile sralama [20] snflandrma iin destek vektr makinesi kullanma zerine kuruludur. SVM zerine kurulu bir sralama yaklam olduundan birok zelliini SVM iskeletinden miras almaktadr ve olduka iyi bir genelleme baarmna sahiptir ve karmak dorusal olmayan problemleri de zebilir.
='%'%' Liste Tabanl Yaklam Tekli veya ikili dkmanlar baznda ngrmelerde bulunan yaklamlardan farkl olarak, liste tabanl yaklamlar, gerke doru ile sralama sonular arasndaki fark enkklemeye alrlar. Yaklamda girdi uzay, q sorgusunun sonucu olan dkmanlar kmesidir. kt ise bu sorguya sonu olacak sralamalar kmesidir. Doru sralamay bulmaya alan ilevler btn ve gerek sralama ile kt uzay arasndaki farkllk hesabn yapan ilevler sras ile kuram uzay ve kayp ilevidir. Bu balamda literatrde pekok almaya rastlanmaktadr [10, 13, 24].
Liste tabanl yaklamlar arasnda en ok stnde durulan yntem kayp ilevi olarak edikmelik benzerlii kullanan RankCosine dr. ListNet [13] popler olarak kullanlan liste tabanl bir baka yaklamdr. Bu yaklam temel olarak dizilimlere bal olaslksal dalmlar zerinden kayp hesaplamakta ve bunnu iin Luce modelini kullanmaktadr. kt uzayn oluturan kt listeleri, dkmanlar ieren deiik sralamalar olarak dnlebileceinden, bu yaklam problem iin kolaylkla uygulanabilir.
='=' Snfladrmal izge Sralama (GRwC) Bu blm gelitirdiim sralamay renme yaklamna ait detaylar iermektedir. Temel olarak, sralama problemi iki snfl bir snflandrma problemine dntrlmekte ve /-Enyakn Komuluk algoritmas ile zlmektedir.
ler q sorgusu dorusal olarak veya ilgililik seviyesine gre etiketlenmi ve kendileri ile ilikilendirilmi dkmanlara X sahiptir. Her dkman sralama modelinin bir paras olan saysal deerlere sahip zniteliklere sahiptir. ledelene ise, her znitelie ait arlk deerlerini hesaplamak ve dorusal olarak birletirmektir.
Snflaycnn eitimi aamasnda veri setinin hazrlanmas gerekmektedir. Bu amala eitim kmesi pozitif ve negatif rnekler olarak iaretlenmitir. Bu gruplara ait herbir girdi, iki dkmana ait ve znitelik baznda eletirilmi bir vektrdr. Eer bir girdi + olarak iaretlendirilmi ise, birinci dkmann sralamas ikinciden yksektir. Ayn durum olarak iartelenmi girdi iin dier ynldr. Elenecek dkmanlar, ayn sorguya ait olmal, farkl sorgulardan gelen dkman vektrleri eletirilmemeli ve eitim kmesi katlmamaldr.
Veri kmesinin hazrlanmasndan sonra k-Enyakn Komuluk algoritmas kullanlarak ikili karlatrlmal bir snflandrma yaplmtr. Daha sonra, snflandrma algoritmasnn ngr sonular kullanlarak dkmanlar dorusal olarak sralanmtr. Bu amala her dkman bir dm simgelemek zere, dkman kmesi bir ynlendirilmi izge olarak ifade edilir. Eer dkman . dkman ye gre sralama da daha st srada yer almakta ise bu durum . dmnden dmne bir ynlendirme oku ile gsterilir. izgenin elde edilmesinden sonra bu izge zerinde topolojik sralama algoritmas altrlm ve dorusal bir sralama elde edilmitir. Bu duruma ait rnek ekil 4.1 de sunulmutur.
='>' Deneyler ve Sonular nerilen modeli snamak zere Letor veri kmesi kullanlmtr. Letor veri kmesi 2 farkl alt kmeden olumutur: OHSUMED ila veri kmesi ve TREC \eb 1rack. Snflandrcnn eitimi Weka yazlm kullanlarak yaplmtr. Snflandrcnn ve yaklamn snanmas iin ise snama kmesi bir takm ilemlere tabi tutulmutur. Snflandrcnn sonularnn gerek dkmanlar ile eletirilebilmesi iin bir arama listesi oluturulmutur.
Yaklam baarmn lebilmek adna yaklam sonular ok iyi bilinen ve almada da ad geen RankingSVM ile karlatrlmtr. RankingSVM eitimi Letor veri kmesi kullanlarak SVMLight yazlm ile gerekletirilmitir. Sonu deerlendirmeleri MAP ve P@k levleri kullanlarak yaplmtr. Karlatrma sonular Tablo 4.1, 4.2, 4.3 ve 4.4 te sunulmutur.
='<' Tartma ve Gelecek almalar Bu almada, bilgi eriim sistemlerinin ve zellikle arama motorlar iin nemli bir problem olarak nitelendirilen sralama problemine karlatrmal denemeler sunulmutur. almann hedeflerinden biriside gelitirilmekte olan arama motoru iin bu probleme ilikin farkl bir yaklam nermektir. Bu amala, liste tabanl bir algoritma nerilmi ve Letor veri kmesi zerinde denemeler yaplmtr. Elde edilen sonular RankingSVM algoritmas ile karlatrlm ve sonular sunulmutur.
Deneyler gstermektedir ki, yeni yaklammz RankingSVM ye oranla dk bir baarm gstermitir. Bunun en nemli nedeni ise, elde edilen ynlendirilmi izge A B C D D A B C ekil 4.2. Dkman izgesi kullanlarak sralama listesinin elde edilmesi gsteriminde rastlanlan ve topolojik sralama iin sorun tekil eden evrimsel ynlendirmelerdir. Dikkat ekici dier bir konu ise ilgililik seviyesi yksek dkmanlarn dk seviyeli dkmanlara gre daha yksek baarml olarak ayrtrlm olmasdr. Bunun sebebi ise, ilgililik seviyesi dk dkmanlarn znitelik saylarnn yeterli olmamas ve bu sebeple snflandrcnn baarmnn dmesi olarak ifade edilebilir.
Daha az znitelik ile yksek baarm gsteren algoritmalarn denenmesi ve znitelik seim algoritmalar yardm ile anlaml zniteliklerin belirlenmesi sralama performansn arttrmas beklenebilir. lerleyen almalarda bu konularn zerinde almalar yaplacaktr.
Kaynaka |1| larrington, L. l., Online ranking,collaboratie iltering using the perceptron algorithm, In: Proceedings o the 20 th International Conerence on Machine Learning, pp. 250-25, 2003.
|2| Bikel, D. M., Schwartz, R., \ieschedel, R. M., An algorithm that learns what is in a name, Machine Learning, Vol. 34, pp. 211-231, lebruary 1999.
|3| Xu, J., Cao, \., Li, l., Zhao, M., Ranking deinitions with superised learning methods, In: Special Interest 1racks and Posters o the 14 th
International Conerence on \orld \ide \eb, pp. 811-819, 2005.
|4| Chirita, P. -A.Diederich, J. Nejdl, \., mailrank: Using ranking or spam detection, In: Proceedings o the 14 th ACM International Conerence on Inormation and Knowledge Management, pp. 33-380, 2005.
|5| Pang, B., Lee, L., Seeing Stars: Lxploiting class relationships or sentiment categorization with respect to rating scales, pp. 115-124, 2005.
|6| Dae, K., Lawrence, S., Pennock, D. M., Mining the peanut gallery: opinion extraction and semantic classiication o product reiews, In: Proceedings o the 12 th International Conerence on \orld \ide \eb, pp. 519-528, 2003.
|| Gyngi, Z., Garcia-Molina, l., Pedersen, J., Combating web spam with trustrank, VLDB 04, pp. 576-58, 2004.
|8| Qin, 1., Liu, 1. \., Zhang, X. D., \ang, D. S., Xiong, \. \., Li, l., Learning to rank relational objects and its application to web search, In: Proceedings o the 1 th International Conerence on \orld \ide \eb, pp. 40-416, ACM, 2008.
|9| Bartell, B., Britannica, L., Belew, R., Cottrell, G., Learning to retriee inormation, In: Proceedings o the Swedish Conerence on Connectionism, 1995.
|10| Burges, C., Ragno, R., Le, Q. V., Learning to rank with nonsmooth cost unsctions, pp. 193-200, MI1 Press, 2006.
|11| Burges, C., Shaked, 1., Renshaw, L., Lazier, A., Deeds, M., lamilton, N., lullender, G., Learning to rank using gradient descent, NIPS, pp. 89-96, 2005.
|12| Cao, \., Xu, J., Liu, 1. \., Li, l., luang, \., lon, l. \., Adapting ranking SVM to document retrieal, In: Proceedings o the 22 nd International Conerence on Machine Learning, pp. 186-193, 2006.
|13| Cao, Z., Qin, 1., Liu, 1. \., Li, l., luang, \., lon, l. \., Learning to rank: rom pairwise approach to listwise approach, In: Proceedings o the 29 th Annual International ACM SIGIR Conerence on Research and Deelopment in Inormation Retrieal, pp. 129-136, ACM, New \ork, N\, USA, 200.
|14| Chu, \., Keerthi, S. S., Support ector ordinal regression, Neural Computation, Vol. 19, NO. 3, pp. 92-815, 200.
|15| Cohen, \. \., Schapire, R. L., Singer, \., Learning to order things, Journal o Artiicial Intelligence Research, Vol. 10, pp. 243-20, 1998.
|16| Cossock, D., Zhang, 1., Subset ranking using regression, Learning 1heory, Vol. 4005, pp. 605-619, 2006.
|1| Crammer, K., Singer, \., Pranking with ranking, Adances in Neural Inormation Processing Systems 14, pp. 641-64, 2001.
|18| lreund, \., Iyer, R., Schapire, R. L., Singer, \., An eicient boosting algorithm or combining preerences, Journal o Machine Learning Research, Vol. 4, pp. 933-969, December 2003.
|19| luhr, N., Optimum polynomial retrieal unctions based on the probability ranking principle, ACM 1ransactions on Inormation Systems, Vol. , pp. 183-204, July 1989.
|20| lerbrich, R., Graepel, 1., Obermayer, K., Large margin rank boundaries or ordinal regression, Adances in Large Margin Classiiers, pp. 115-132, Cambridge, MA, 2000.
|21| Kramer, S., \idmer, G., Pahringer, De Groee, M., Prediction o ordinal classes using regression trees, lundam. In., Vol. 4, pp. 1-13, September 2001.
|22| Li, P., Burger C. J. C., \u, Q., McRank: learning to rank using multiple classiication and gradient boosting, NIPS, MI1 Press.
|23| Nallapati, R., Discriminatie models or inormation retrieal, In: Proceedings o the 2 th Annual International ACM SIGIR Conerence on Research and Deelopment in Inormation Retrieal, pp. 64-1, 2004.
|24| Qin, 1., Zhang, X. D., 1sai, M. l., \ang, D. S., Liu, 1. \., Li, l., Query-leel loss unsctions or inormation retrieal, In. Process. Management, Vol 44, pp. 838-855, March 2008.
|25| Shashua, A., Lein, A., Ranking with large margin principle: two approaches, NIPS, 2003.
|26| 1sai, M. l. , Liu, 1. \., Qin, 1., Chen, l., Ma, \. \., lrank: a ranking method with idelity loss, In: Proceedings o the 30 th Annual Iternational ACM SIGIR Conerence , 200.
|2| Page, L., Brin, S., Motwani, R., \inograd, 1., 1he PageRank citation ranking: bringing order to web, 1echnical Report 1999-66, Stanord InoLab, 1999.
=' Sonularn tartlmas ve deerlendirilmesi6
stenilen konularn birounda hedeflere ulalm olmasna ramen, proje tam istenildii ekilde sonlandrlamamtr. Projenin eksik kald noktalar e gerekeleri maddeler halinde aklanmaya allmtr. Proje ye ilikin eksiklikler; i. Proje kapsamnda hayata geirilmesi planlanan arama motoru iin son kullancya bir arayz sunulamam ve kullanma alamamtr. ii. Bilgi eriim platformunun aktif bir paras olarak almas planlanan Soru Yantlama sistemi gereklenememitir. Gerekeler; i. Makine ve tehizat temini: Proje kapsamnda satn alnmas planlanan donanm zamannda ve eksiksiz bir biimde temin edilememitir. Proje btesinden alm yaplan ProLiant ML350 G6 sunucu bilgisayarna ait ikinci ilemciye ait soutucu ancak 23.01.2012 tarihinde temin edilebilmitir. Sanal doku taramasn gerekletirecek e depolama sunucusunda indisleme ilemini gerekletirecek olan bu sunucu bilgisayar, bu tarihe kadar yetersiz donanm ile almtr. ndisleme hatalar ve denemeler gznnde bulundurulduunuda 5 katmanl(ayn sanal doku yresinden itibaren 5 i ie ba takip edilerek, bir tarama e indisleme ilemi aylay mertebesinde sre almaktadr. Bu srenin uzunluu deerlendiriliren, sadece Trke sayfalarn filtrelenme, dile zg nilemlerden geirilme ve indislemeye hazr hale getirme ilemleride gz nnde bulundurulmaldr. Bu teminin gecikmesinin nedeni ise parann Trkiye pazarnda temin edilememesi ve uzun sre yurtdndan teminin beklenmesidir. Ayn kapsamda, bir dier sorun ise depolama sunucusunda yaanmtr. ncelikle ilk sipari ile birlikte tarafmza iletilen balant arabirimi, istenilen ile uyumam ve iki sunucu birbiri ile etkileime geememitir. Bu etkileimi salamak adna bir donanm deiim sresi yaanm, bu donanm ve kablolamann temini ise ancak ilk 12 aylk srenin dolumundan sonra yaplabilmitir. Donanmsal problemler gerek indisleme, gerekse depolama ilemlerinde gecikmeye sebebiyet vermitir. ii. Aratrc eksiklii: Projenin kapsam ve ayrntlar dnldnde i gc gereksinimi yksektir ve mevcut aratrc says bu gereksinimi karlayamtr. zellikle proje kapsamnda tez almalarn yrtmekte olan ve mezuniyet aamasnda olan yksek lisans rencilerinin mezuniyeti ile aktif aratrc says daha da azalmtr. Bu sebeple, aratrclar ancak zerlerine den aratrma ykn yerine getirmiler ancak paralarn birleimi ve sistemin alr hale getirlmesi salanamamtr. iii. Aratrma konularndaki deiiklikler: zellikle aratrc ve doktora rencisi Onur Grgn n doktora tezini oluturmas dnlen ve sistemin bir bileeni olarak alacak Soru Yantlama bileeni, aratrcnn tez konusunun statistiksel Makine evirisi alanna ynlendirilmesi sebebi ile gereklenememitir. Ancak bu durum sisteme, yeni bir bileen olan ve farkl bir dillerde yaplan aramalarn Trke ye evirilerek ok dilli bir arama siteminin oluturulmasn salayacak olan eviri Bileeninin eklenmesi almalarn kazandrmtr. Bu konudaki almalar aratrcnn almalar dorultusunda halen deam etmektedir. RNLER LSTES SAYFASI
1. Yazl rnler
(a) Uluslararas bilimsel toplantlarda sunulan bildiriler Grgn, O., Yldz, O. T., A Novel Approach to Morphological Disambiguation or 1urkish. In: Proceedings o Computer and Inormation Sciences II 26th International Symposium on Computer and Inormation Sciences, pp.-83 ,2011,. Ak, K.., Yldz, O. T., Unsuperised Morphological Analysis Using 1ries. In: Proceedings o Computer and Inormation Sciences II 26th International Symposium on Computer and Inormation Sciences, pp.69-5 ,2011,. (b) Ulusal bilimsel toplantlarda sunulan bildiriler Grgn, O., Yldz, O. T., ngilizce-Trke statistiksel Makine evirisinde Biimbilim Kullanm. In: Proceedings o 20 th
Conerence on Signal Processing and Its Applications ,2012,.
2. .0F*0( Y0 KCAC(G0 \(8^0*0(C_
Ak, K., Unsuperised Morphological Analysis Using 1ries, Master 1hesis, 2011. Kl, Y. O., Learning to Rank, Master Thesis, 2011. Grgn, O., English to 1urkish Statistical Machine 1ranslation Using Synchronous Grammar, Ph.D. Dissertation ,deam ediyor,.