You are on page 1of 37

IIK NVERSTES

BLMSEL ARATIRMA PROJELER


SONU RAPORU

























10A303

ANLAMSAL TRKE ARAMA MOTORU

Do.Dr. Olcay Taner YILDIZ





NDEKLER





1. GENEL ZET
2. HARCAMALAR LSTES
3. TEKNK RAPOR
4. RNLER LSTES
5. LKLLR




























GENEL ZET SAYFASI


Proje Kodu: "#$%#%

Proje Ad: ANLAMSAL TRKE ARAMA MOTORU

Proje \rtcs ,nan belirtilerek,: &o' &(' )*+,- .,/0( 123&24

Proje Lkibi5 Do. Dr. Olcay Taner YILDIZ, Ar. Gr. Onur GRGN6 $('
Gr. Yasin Ozan KILI, Ar. Gr. 78(,- $7

Ayrlan Toplam denek: 9#### .3

Gerekleen 1oplam larcama: ":;<=6># .3

Kalan denek: 9"%>6># .3

Raporun Gnderildii Tarih: #;'#>'9#"9




















HARCAMALAR LSTES SAYFASI


?0-,@,A BCD0(*0(C: Seyahat gideri bulunmamaktadr.

ECFG0A BCD0(*0(C: Hizmet gideri bulunmamaktadr.

?,(H BCD0(*0(C: Sar malzeme giderleri aadaki tabloda belirtilmitir.

IC/J KC(CG LC-,A
MN?&O
$D0A .8P*,G
7&Q &,@C*
USB BLLLLK,SANDISK 16GB USB, 35,00 4 260,00
FOTOKOP KAIDI XEROX A4 3,45 10 ,pak., 64,50
1ONLR lP Q2612A ,24 4 ,pak., 58,00
DVD TDK 4,7GB 100'L 33,00 1 ,pak., 62,00
R<=6>#

S,TC/0UTehizat BCD0(*0(C: Makine-Tehizat giderleri aadaki tabloda
belirtilmitir.

IC/J KC(CG LC-,A
MN?&O
$D0A .8P*,G
7&Q &,@C*
MACBOOK 13'' 2,26 GlZ 1255,00 1 2285,00
NO1LBOOK,LLNOVA SL510,, 549,00 2 2000,00
SLRVLR,lP ML350G6, 2850,00 1 5190,00
SLRVLR ,lP S1ORAGL\ORKS MSA, 3109,00 1 5660,00
lP 2GB RAM 315,00 3 1654,00
lP 5114-001 SPS-lAN 92MM 60,00 1 111,00
"<R##6##

Yazlm BCD0(*0(C: Yazlm gideri bulunmamaktadr.












PROJENN TEKNK RAPORU


"' Giri

nternet kullanmnn artmas ve buna bal olarakta bilgiye eriimin kolaylamas
beraberinde baz sorunlar da getirmektedir. Kaliteli bilgiye eriim nem arz eden
bir konu haline gelir iken, bu olanaklar kullancalara salayacak en nemli unsur
arama motorlardr. Anlaml bilginin karmnn yansra, bu bilginin son kullancya
sunumu da nem arz etmektedir.

Anlaml ve doru bilgi karm her dil iin farkl yntemler kullanmay
gerektirmektedir. Bunun en nemli nedeni ise, her dilin farkl anlamsal ve
szdizimsel yapya sahip olmasdr. Gnmzde en byk veri kayna olan dil
ngilizce dir. Bunun en byk nedeni ise, sanal doku yreleri arasnda en yaygn
dilin yine ngilizce olmasdr. Bu sebeplerden tr ise, arama motorlar zerinde
yaplan iyiletirme almalar ngilizce zerinde olmaktadr. Trke gibi daha az
Internet ieriine sahip diller ise bilgi eriimi konusunda aratrma eksiklii
ierisindedir. Projenin temel amac, Trke dilbilgisi ve biimbilimsel kurallar
dikkate alan bir anlamsal arama motoru gereklemektir.

Bu dorultuda, dile zg ierii younlukla barndran haber, gnce ve forum
siteleri taranarak indisleme yaplacaktr. Bu indisler yardm Trke dkmanlar
sorguda aranan karamlara yaknlk seviyelerine gre kullancya sunulacaktr.
Arama motoru kapsamnda, Soru Yantlama Sistemi de gereklenecektir. Projenin
sonunda varlmak istenilen nokta, ek zellikler desteklenmi bir arama motoru e
bilgi eriim sistemi tasarlamaktr. Bu amaca ulamak adna yaplan almalar ikinci
blmde bileen baznda, ematik ve zet olarak sunulmutur.

9' 7V**,nlan Aralar ve Yntemler

Proje kapsamnda gereklenmesi dnlen sisteme ait genel ak emas (ekil 1),
gereklenen paralar ve gereklenme detaylar ile sunulmaktadr.

,1, Arama motoru altyapsn oluturan etmenler ve indisleme ilemleri: Arama motorunun
altyaps Apache loundation tarafndan gelitirilmekte olan e yine bir
Apache Foundation ktphanesi olan Lucene temelli bir arama motoru
mimarisi olan Nutch seilmitir. Sistemin kurulumu sunucu bilgisayar zerine
kurularak gerekli btn dzenlemeler yaplmtr. Sisteme yaplan katklardan en
nemlisi ise Lucene yaps bnyesinde gereklenen ve sadece Trke ierikli
sayfalar tarama ve indisleme imkan veren bir ara modln gereklenmesidir. Bu
sayede aratrma kapsamnda istenildii zere sadece Trke ierik ayklanm ve
indislenmeye hazr hale getirilmitir. Bu blm ema zerinde (1) olarak
iaretlenmitir ve indisleme modlnn bir paras olarak almaktadr.

Trke dkmanlar ierisinden yer alan kelimelerin kelime formlar biiminde
indislenmesi mmkndr. Ancak bu durum ayn kkten gelen kelimelerin farkl
kelimeler olarak deerlendirilmelerine neden olmaktadr. rnek olarak, va.at,
masallar, masallarn kelimeleri farkl kelimeler gibi grlmekle birlikte va.at
kknden tremi farkl kelime biimleridir. Bu kelime biimlerinin ayn kelime
olarak nitelendirilmesi arama baarm asndan nemlidir. Bu sebeple, Trke
dkmanlarda kullanlmak zere, verilen kelime biimini kk ve eklerine ayrma
ilemi yaplmaldr. Bu ilemin adna biimbilimsel zmleme ad
erilmektedir. Bu konuda yaplm almalar olmakla birlikte, bu proje
kapsamnda bir doal dil ileme ktphanesi gelitirilmitir. Biimbilimsel
zmleme bu ktphanenin bir paras olan zmleyici tarafndan
yaplabilmektedir. Ayrca bu alanda denetimsiz bir bltleyici de tasarlanmtr.
Bu denetimsiz zmleyici aratrc Koray Ak n yksek lisans tezini
oluturmakta olup, ayrca bu almann bir paras uluslaras bir konerans
bildirisi olarak yaynlanmtr. \ine bu almann tamam bir hakemli dergisiye
iletilmi ancak eksiklikleri sebebi ile kabul grmemitir. Bu almalara rnler
blmne ait eklerde yer verilmitir.


ekil 1 Arama motoru projesi kapsamnda gereklenmesi ve kurulumu planlanan bileenler ve sisteme
genel bak.

3
Biimbilimsel zmleme, zellikle Trke iin birden fazla kkten tremi ok
sayda zmleme ile sonulanabilir. Bu durumda hangi zmlemenin doru
olduu sorusu ortaya kmaktadr. Bu problem literatrde biimbilimsel
anlamszlk giderme olarak tanmlanmaktadr. Yine bu zellikle Trke iin
yaplm baarl almalar mevcuttur. Gereklenmi olan yazlm
ktphanesinde bu probleme zm bulmak amac ile makine renmesi temelli
bir biimbilimsel anlamszlk giderici kodlanmtr. Bu almada uluslararas bir
konferansta sunulmak zere kabul grm ve bildiri olarak yaynlanmtr. Ayn
almann geniletilmi hali uluslararas hakemli bir dergiye iletilmi ancak kabul
grmemitir. Yine bu almalar ekler blmnde sunulmutur.

Gerek biimbilimsel zmleyiciler gerekse biimbilimsel anlamszlk giderici,
ak emasnn (1) ve (3) ile numaralandrlm kesimlerinde kullanlmaktadr.
alma ile ilgili ek almalar ise hala devam etmektedir.

Yine (3) numaral blgede kullanlmak zere bir makine eviri sistemi
tasarlanmtr. Bu alma ile hedeflenen ise ngilizce-Trke ynnde ve sorgu
seviyesinde eviri yapabilen bir eviri sistemi tasarlamak, bu sayede de arama
motoruna oklu dil destei katabilmektir. Bu konuda yaplan almalar aratrc
Onur Grgn n doktora almalar kapsamnda devam etmektedir. Yine bu
konudaki almalarn ilk rn ise ulusal bir kongrede szl sunulmak zere
kabul edilmitir ve yakn tarihte bildiri olarak yaynlanacaktr.

,2, .rava .ovularnn ilgililik seviyelerine gre sralanmas: Kullanc tarafndan yaplan
sorguya ilgililik asndan en yakn dkmanlarn gsterilmesi nemli bir
problemdir. Bilgi eriimi alannda zerinde alma yaplan en nemli
konulardan bir tanesi bu sralama ilemidir. Bu amala ve arama motoru altyaps
ile birletirilmek zere bir sralayc tasarlanmtr. alma temel olarak, mevcut
almalar inceleme ve bu almalar nda bir sralama algoritmas
gereklemeyi hedeflemektedir. Bu konuda yaplan almalar aratrc Yasin
Ozan Kl n yksek lisans tezini oluturmutur.

%' Bilimsel bulgular ve sonular

Proje kapsamnda gerekletirilen, yayna dnen almalar aadaki
blmlerde ayrntlar ile aklanmtr. Yine bu almalara ait daha detayl
bilgiler rnler blmnde yer almaktadr.

"' KELME BLTLEMEDE NEK AACI KULLANIMI

"'"' Giri
Doal Dil leme (DD), bilsiyar bilimlerinin bir dal olarak bilgisayar ve dil
arasndaki etkileimi ele almaktadr. Alanda yaplan almalarn esas amac hem
insan tarafndan okunabilir anlaml yazl bilgi oluturabilme hemde insan dilini
makinelerin anlayabilecei bir biimde sunabilmektir. Biimbilimsel zmleme,
kelime biimi bltleme, cmlenin elerine ayrlmas, kelime anlam belirsizlii ve
makine evirisi bu konuda ortaya konulan nemli problemlerden bazlar olarak
saylabilir.

Biimbilimsel zmleme veya bltleme kelimelerin yaplarnn incelenmesi ve
kelimeye ait eklerin belirlenmesi temeline dayanmaktadr. Trke de btn kelime
biimleri, bir kk kelime ve ona al eklerin btnnden olumaktadr. rnek
olarak, ngilizece evvvaratiov kelimesi e-vvvber-ate-iov eklinde ayrtrlabilir.
Yine aynn ekilde Trke i.te,evterte kelimesi de i.te-,ev-ter-te eklinde ifade
edilebilir. Kelimeler dilin en kk paras olarak tanmlanrken, ekler ise dile ait en
kk szdizimsel paralardr ve kelime biimlerinin birbirleri ile ilikisini ortaya
koymaktadrlar. Bu balamda, biimbilimsel zmleme bu yaplar inceleyerek bir
kurallar zinciri oluturmaya almaktadr.
anguage.

Biimbilimsel zmleme ve bltleme konuma tanmlama, makine evirisi, bilgi
eriim sistemleri, metin alglama ve istatistiksel dil modelleme de yaygn ihtiya
duyulan bir nileme srecidir. Trke, Fince,eke gibi sondan eklemeli dillerde
ise bu konu yazl metinlerde karlalan kelime biimi eitlilii gz nne
alndnda olduka ciddi bir problemdir. Yine Trke ve Fince gibi ekimsel
eitliliin ok olduu dillerde ekleme kurallar kullanlarak ayn kkten teorik olarak
snrsz sayda deiik kelime biimi elde edilebilmekte ve bu durum istatistiksel bir
model oluturmay zorlatrmaktadr. Denetimsiz ve etiketlenmi bir eitim
kmesine ihtiya duymadan otomatik zmleme sistemleri zerinde durulan
nemli konulardan bir tanesidir. Yaklamn en byk arts, dil bamsz bir
bltleme abas olmasdr.

Bu almann amac bu amaca hizmet etmek olan deiik yaklamlar nermektir.
Bu amalar, nek aa yaps kullanlarak kelimeler, karakterler ve bu karakterlere ait
sklklar eklinde ifade edilmitir.REC-TRIE algoritmas, bu yapy kullanarak ve
batan sonra yollar takip ederek, karakter sklklarn baz alan bir kk bulur. Kk
bulunduktan sonra, kalan kelime paralar kullanlarak yeni bir nek aac
oluturulur ve btn ekler baka kelime paras kalmayacak ekilde kk bulma ilevi
takip edilerek tespit edilir. kinci algoritma olan REVERSE-1RIL, RLC-1RIL ile
ayn yntemi tersten takip takip etmektedir. nc ve son yaklam olan
l\BRID-1RIL ise RLC-1RIL e RLVLRSL-TRIE nin bir karmdr. Kk
bulma ilemi REC-TRIE mant ile, eklerin tespiti ise REVERSE-TRIE ilevi ile
yaplmaktadr.




"'9' lgili almalar

MorphoChallenge |1|, LU Network o Lxcellence PASCAL2 Challenge Program
kapsamnda 2005 ylndan beri yaplmakta olan denetimsiz biimbilimsel
zmleme ve bltleme uygulamarnn yart bir etkinliktir. Ama, kelimeleri
kkler ve ekleri eklinde bltleyebilen ve dil bamsz yaklamlarn oluturulmasn
tevik etmektir.

Bu etkinlik erevesinde birok algoritma nerilmi ve literatrdeki yerlerini
almtr. Bernhard [2], bu amala altkelimeler arasndaki geileri olaslksal olarak
deerlendiren ve kk ve eklerin ayrmn uzunluk baz alarak zmeye alan bir
almadr. Keshava [3], yine ayn mantkla, altkelimeleri bulunmas ve bunlarn
birbirlerinin ard ardna gelme olaslklarn temel alan bir alma sunmutur.
zellikle Trke iin Zeman[4], paradigma temelli bir yaklam nermitir. Bu
yaklamda btn ek-kk eleri paradigmalar altnda gruplandrlmtr. Btn
bltleme noktalar gz nnde bulundurulduundan paradigma says yksektir.
Bltleme ilemi srasnda btn paradigmalar karlatrlarak doru bltleme
tespit edilmeye allmaktadr. ParaMor [5], MorphoChallenge 2008 e damgasn
vuran bir almadr. Her kelime biimi karakter snrlarndan bltlenmitir. Ayn
son altkelime ile biten kelimeler iin algoritma bir paradigma yaratmaktadr. Bu
paragimalar, eklemelerde hesaba katlarak daha gerek hallerini almaktadr. 2009
ylnda Monson ve dierleri [6] ParaMor un gelimi bir halini nermilerdir.
ParaMor temel olarak bltleme kararlarna puan atamamaktadr. Bu amala,
aratrclar doal dil iaretleyici eitmiler ve her bltleme snrna ait bir puan
atamlardr. Bu puan gz nne alnarak, ParaMor un bltleme snrlarnn
belirleme baarm deerlendirilmi ve doru veya yanl bltlemeler tespit
edilebilmitir.

"'%' nerilen Yntemler

Bu blmde alma kapsamnda erilen yntemler ve bu yntemlere ait detaylar
aklanmaktadr.

"'%'"' W0+.W2X
Kelime listesi algoritmaya girdi olarak verilir ve veri kmesi ierisinde en az 5 kere
tekrar etmekte olan kelimeler nek aacna yerletirilir. Kelimelere ait karakterler
herbiri bir dme karlk gelecek ekilde nek aacna kaydedilir. Kelimedeki
karakter says o kelimeye ait daldaki derinlii verir. Yeni gelen kelimeler nceden
gelen kelimelerle ayn neklere sahiplerse, bu daldaki karakter sklklar gncellenir.

lk aamada kelimelere ait kkler tespit edilir ve bu kkler bir tabloya kayt edilirler.
Bir sonraki aamada kkler haricinde kalan kelime paralar yeni bir nek aacna
yerletirilirler. Bu aamalarda dikkat edilmesi gereken nokta, farkl dmler olarak
ifade edilen karakterlerin birletirilerek tek bir dm olarak iade edilmeleridir.
Algoritma nek aacnda tek bir eleman kalmayana kadar devam eder. ekil 1.1 de
algoritmann almasna ilikin bir
rnek sunulmutur.

ekil 1.1 Rec-TRIE algoritmasnn almas zerine bir rnek.

"'%'9' W0Y0(J0U.W2X

Reerse-1RIL, Rec-TRIE algoritmasnn ters ynde altrlan versiyonudur. Kk
ve bltleme snr bulma ilemleri Rec-TRIE algoritmasnda olduu gibi yaplmakta
olup radikal bir deiiklik yoktur. Yntemin ncelikle ortak eklerin tespit edilmesi
amalamaktadr. Dier bir husus ise bltleme elde edilmeden nce ve sonrasnda
kelimeleri ters evirme nilemine ihtiya duyulmasdr. Algoritmann almasna
dair rnek ekil 1.2 de sunulmutur.

ekil 1.2 Reerse-TRIE algoritmasnn almas zerine bir rnek.

"'%'%' E-Z(CDU.W2X

Algoritma, Rec-1RIL e Reerse-TRIE yaklamlarnn birleini eklinde
dnlebilir. Kk bulma ilemi Rec-TRIE ilevinde olduu gibi yaplmakta, geriye
kalan kelime paralar ise ters evirilerek Reverse-TRIE ilevinde olduu gibi nek
aacna yerletirilmektedir. Paralar bulunduka, bltlenmi kk ve ekler iin
ayrlm olan tablo yapsna kaydedilmektedir. Bu aamada yaplacak bir dier
ilemde, tersten ifade edilen eklerin, tekrar evirilmesi ilemine tabi tutulmalardr.
Algoritmann szde kodu ekil 1.3 te sunulmutur.


ekil 1.3 lybrid-TRIE algoritmasna ait szde kod.

"'=' &0/0-*0(

MorphoChallenge algoritma analizi iin iki adet Perl betii salamaktadr. Bu
betikler, verilen bir altn standart ile algoritma ktlarn karlatrarak baarm
deerlendirmesi yapmaktadrlar. Bu almada veri kmesi olarak yarma tarafndan
salanlan Trke, ngilizce ve Fince ye ait veri kmeleri alnm ve gerek veri
kmelerinin alt kmeleri kullanlmtr. Algoritma baarm Mea.vre metrii ile
llmtr. Bu metric aadaki gib hesaplanmaktadr.



,1.1,


Vuru (H): Kelime doru yerden bltlenmi.
Ekleme (I): Kelime yanl yerden bltlenmi.
kartma (D): Doru bltleme es geilmi.
Veri kmesi olarak MorphoChallenge 2009 veri kmesi kullanlarak, nerilen
yaklamlar baarmlar ngilizce, Trke ve Fince iin snanmtr. Performans
deerledirmeleri yine MorphoChallenge tarafndan verilen Perl betikleri ile yaplm
ve deney sonular Tablo 1.1, 1.2 ve 1.3 te sunulmutur.


.,Z*8 "'" Rec-1RIL, Reerse-1RIL e
lybrid-TRIE algoritmalarnn Trke iin
Precision,P,, Recall ,R, e l-Measure (F) deerleri.

.,Z*8 "'9 Rec-1RIL, Reerse-1RIL e
lybrid-TRIE algoritmalarnn ngilizce iin
Precision,P,, Recall ,R, e l-Measure ,l,
deerleri.


.,Z*8 "'% Rec-1RIL, Reerse-1RIL e
lybrid-TRIE algoritmalarnn Fince iin Precision(P),
Recall ,R, e l-Measure (F) deerleri.

Sonular gstermektedir ki, Trke ve ngilizce iin en iyi performans Rec-1RIL
gstermi olup, dier algoritmalar vasat bir performans sergilemitir. Rec-1RIL
Trke kkler asndan baarl bir performans gstermitir. Algoritmalar temel
zellii, her admda bir karaktere bakarak kk ve ek bulmalardr. Bu sebeple Fince
gibi uzun kklere sahip diller iin baarm dk olarak gzlemlenmitir. kartma
deerleri de zellikle Fince iin yksek kmakta ve bu da Recall deerinin ve buna
bal olarakta F-Measure deerinin dmesine neden olmaktadr. Fince iin
performans art Hybrid-TRIE ile salanmtr.

"'>' Tartma ve Gelecek almalar

almada nerilen algoritmalar basit ve kolay uygulanabilir olmalarna ramen
sonular umut vericidir. Algoritmalar 2009 yarmaclarnn ayn veri kmesi
zerindeki performanslar ile karlatrldklarnda Trke iin 4., ngilizce iin 12.
Ve Fince iin 8. Srada yer bulmulardr. Recall deerleri gstermektedir ki zellikle
Fince iin algoritmamz bltleme snrlarn es gemektedir. Ancak bu durum
lybrid-TRIE ile belirli oranda dzeltilmitir.

Algoritmalar nek alglama (ngilizce ve Fince iin gerekli) mekanizmasna sahip
deildir ve ses dmesi, sessiz yumuamas gibi kural d konular
alglayamamaktadr. Gelecek almalar bu konular da gz nnde bulundurarak
daha iyi bir performans sergilemek adna olacaktr.

Kaynaka

|1| Kurimo, M., Lagus, K., Virpioja, S., 1urunen, V., Morpho challenge.
http:,,research.ics.tkk.i,eents,morphochallenge2010,

|2| Bernhard, D., Unsuperised morphological segmentation based on segment
predictability and word segments alignment. In: Proceedings o the PASCAL
Challenge \orkshop on Unsuperised Segmentation o \ords into
Morphemes, 2008.

|3| Keshaa, S., A simpler, intuitie approach to morpheme induction. In:
Proceedings o the PASCAL Challenge \orkshop on Unsuperised
Segmentation o \ords into Morphemes, 2006.

|4| Zeman, D., Unsuperised acquiring o morphological paradigms rom
tokenized text. In: Adances in Multilingual and Multimodal Inormation
Retrieal. ol. 5152 pp.892-899, 2008.

|5| Monson, C., Carbonell, J., Laie, A., Lein, L., Paramor and morpho
challenge 2008. In: Proceedings o the 9th Cross-language ealuation orum
conerence on Laluating systems or multilingual and multimodal
inormation access. Cross-Language Laluation lorum'08 pp.96-94, 2009.

|6| Monson, C. lollingshead, K. , Roark, B., Probabilistic paramor. In: Morpho
Challenge 2009, 2009.

|| Solak, A., Oazer, K., Design and implementation o a spelling checker or
turkish. In: Literary andLinguistic Computing. ol. 8., 1993


9' TRKE BMBLMSEL ANLAMSIZLIK GDERME N YEN
BR YAKLAIM
9'"' Giri

Biimbilimsel zmleme problemi, bir kelime biimine ait olas zmlemeler
arasndan doru olann belirlenmesi ilemi olarak tanmlanmaktadr. ekimsel ve ses
kurallar gz nnde bulundurulduunda bir kelimenin farkl kkten tremi birden
ok zmlemesi olabilmektedir. Bu durum Trke gibi biimbilimsel ve ekimsel
olarak zengin diller iin olduka bir problem tekil etmektedir. zellilke Trke de
eitlilii salayan birok etiket ve bu etiketlerin belirli kurallar erevesinde snrsz
sayda kelime biiminin tretilmesine izin vermesidir.

Biimbilimsel zmleme konusunda literatrde pek ok alma mevcuttur. Bu
almalar iki temel balk altnda toplanabilir: kural-tabanl yaklamlar ve
istatistiksel yaklamlar. statistiksel yaklamlar yksek boyutlu veri kmesi
kullanarak bir model oluturmakta ve belirsizlik giderme ilemi bu model ile
gerekletirilmektedir [1]. Ancak zellikle Trke deki kelime biimlerinin okluu
istatistiksel modellerin baarmn drmektedir. Bu soruna zm olarak, kelime
biimleri daha kk gruplar olan ekimsel gruplar halinde ifade edilmektedir [2].
Bu konudaki en gncel alma Sak [3] tarafndan nerilmitir. Trke iin kural
tabanl yaklamlarda erilmitir [4, 5].

Bu almada snflandrma tabanl bir anlamszlk giderme algoritmas
nerilmektedir. almann temeli u ekilde aklanabilir: iki veya daha ok kelime
biimi, kk kelimeler darda brakldnda ayn ekimsel gruplar iermektedirler.
Ayn ekimsel gruplar ieren her bir zmleme bir snflandrma problemi olarak
ifade edilmektedir. Herbir eleman biimbilimsel elerin varl baz alnarak
znitelik vektrleri elde edilmi ve snflandrclar bu eitim kmeleri ile eitilmitir.
almann dier blmlerinde problemin ayrntl tanm ve deneylere yer
verilmitir.



9'9' Biimbilimsel Anlamszlk Giderme

Bir nceki blmde belirtildii zere anlamszlk giderme ilemi bir kelime biimine
iin verilen olas zmlemeler ierisinden doru olann semektir. Bu
zmlemeler iin ise biimbilimsel zmleyicilere [6, 7] ihtiya duyulmaktadr.
Aada bir zerine kelimesine ait bir zmleme sonucu grlmektedir.



rnekte grld zere z ve zer kklerinden treti olan 4 farkl
zmleme grlmektedir. + iaretleri ile birbirinden ayrlan paralar
biimbiliseml dil elerini ^DB ise tretim snlarn gstermektedir. Tretim
snrna ulaldnda kelime ilk halinde farkl bir grevle cmle ierisinde yer
alabilir. rnek olarak, z fiili ile balayan nc kelime biimi ilk tretim
snrndan sonra sfat haline dnmektedir. Her ^DB arasnda kalan eler dizisi
ise ekimsel grup olarak adlandrlmaktadr. Problemi zm Bayes istatistii
yardm ile zlebilmektedir ve aadaki gibi ifade edilebilir.


,2.1,


9'%' lgili almalar

Bu almada baarm karlatrlmas iin nemli Trke anlamszlk giderme
algoritmas tartlmtrtartlmaktadr. Bu almalardan ilki ekidek-Tabanl
1emel Model dir. Bu modelde v-gram tabanl bir istatistiksel model
oluturulmaktadr. Modelin oluturulmasnda iki nemli kstas vardr: (1) sradaki
kelime kk sadece kendisinden nceki iki kelimenin kkne bamldr, (2) sradaki
kelimenin ekimsel gruplar kelimenin kendinden nceki iki kelimenin ekimsel
gruplarna bamldr.

Alandaki dier alma Yret tarafndan nerilmitir. alma kural tabanl bir
alma olup, Greedy Prepend algiromasnn zerine kurulmutur. Kkler ve
ekleme kurallar baznda kalp karmlar yaplm. Algoritma kendisinden iki nceki
ve iki sonraki kelimeleri baz alarak znitelik vektrleri oluturmakta ve bu rnekler
ile karar listeleri elde edilmektedir. Bu devrede Greedy Prepend algoritmas
uygulanarak karar listeleri en ok kalb tanmlayacak genellemeye ekilmitir.

Bu alandaki en son ve en baarl alma Sak tarafndan nerilen ise bir makine
renme yaklamdr. v-gram tabanl znitelik karmlar yaplarak model eitimi
yaplmtr.

9'=' nerilen Yntem

nceki almalarda nerilen yntemler kk kelimeyi de anlamszlk giderme
ilemine katmaktadrlar. Dier yandan, farkl kkten tremi kelimelerde olsalar,
ayr kelimeler ayn zmlemelere sahip olabilirler. Bu durumda farkl kelimeler ayn
snflandrcnn eitim kmesine ait rnekler olarak saylabilirler. Bu durumda
balangta her bir kelime biimi bir problem tekil ederken, farkl kelimelerin ayn
snflandrma problemi kapsamnda deerlendirilmeleri ile problem says nemli
lde azalmaktadr. Bu aamaya problem indirgeme safhas denir. Dk saylara
indirgenen problemler iin eitim kmesi oluturmak anlam kazanr. Eitim kmesi,
seilen kelimenin iki kelime ncesi gznnde bulundurularak oluturulan znitelik
vektrlerinden oluur. Bu veri kmesi ile eitilen snflandrclar ile belirsizlik
giderme ilemi gerekletirilir. ekil 2.1 de algoritmann alma prensibi grsel
olarak yanstlmaktadr



ekil 2.1 almada erilen algoritmaya genel bir bak

9'>' Deneyler ve Sonular

nerilen yntemin baarm lmleri iin olduka yaygn bir veri kmesi
kullanlm [6] ve bilinen almalarla baarm karlatrlmas yaplmtr.
Oluturulan veri kmeleri ile Weka ktphanesi kullanlarak on farkl snflandrc
eitilmi ve baarmlar hem kendi aralarnda hemde dier bilinen yntemlerle
karlatrlmtr. alma sonular gstermitirki, nerilen yaklam, ekirdek
Tabanl Temel Model e oranla daha iyi bir performans sergilemi, ancak dier iki
algoritmaya baarm asndan stnlk salayamamtr. Deney sonular Tablo 2.1
de sunulmutur.

9'<' Tartma ve Gelecek almalar

alma sonular gstermitir ki en baarl snflandrc J48 dir. Temel Model
baarm olarak geilmesine ramen dier almalarn baarm yakalanamamtr.
Ancak znitelik vektrlerinin arttrm ile daha iyi sonular elde edilebilecei
dnlmektedir ve gelecek almalar bu kapsamda dzenlenecektir.


.,Z*8 9'" Deney sonularna ilikin sonu tablosu.

Kaynaka

|1| lakkani-Tr, D. Z.,Oflazer, K.,Tr, G.: Statistical Morphological
isambiguation or Agglutinatie Languages, In: Computers and the lumanities
36,4,, pp. 381-410, 2002.

|2| Olazer, K., lakkani-Tr, D. Z., Tr, G., Design or a turkish treebank. In:
Proceedings o the \orkshop on Linguistically Interpreted Corpora, 1999.

|3| Sak, H., Gngr, T., Saralar, M., Morphological Disambiguation of Turkish
1ext with Perceptron Algorithm. In: Gelbukh, A. ,ed., CICLING 200, LNCS
4394, pp. 10-118, 200.

|4| Yret, D., Tre, F., Learning Morphological Disambiguation Rules for Turkish,
In: Proceedings o lL1-NAACL, 2006.

|5| Oflazer, K., Kuruz, I.: Tagging and morphological disambiguation of turkish
text. In: Proceedings o the 4
th
Applied Natural Language Processing
Conerence, pp. 144-149, 1994.

|6| Olazer, K.: 1wo-leel Description o 1urkish Morphology. In: Literary and
Linguistic Computing, 9,2,, pp. 13-148, 1994.

|| Sak, H., Gngr, T., Saralar, M.: Turkish Language Resources: Morphological
Parser, Morphological Disambiguator and \eb Corpus. In: Go1AL 2008,
olume 5221 o LNCS, pp. 41-42, Springer, 2008.

3. NGLZCE-TRKE STATSTKSEL MAKNE EVRSNDE
BMBLM KULLANIMI
%'"' Giri

Makine evirisi (M) alanndaki almalarn istatistiksel yaklama dnm IBM
in CANDIDL sisteminin temel kural-tabanl yaklama olan stnlnn
kantlanmas ile balamaktadr. Hesaplama gcnn ve buna bal olarak paralel dil
verisine ulamn kolaylamas aratrmaclarn bu alana olan eilimlerine destek
vermitir. Ancak bu eviri denemelerinin byk bir ounluunu kstl szck
dizimine ve kstl ekimsel biimbilime sahip dil ikilileri zerine yaplan almalar
oluturmaktadr. ngilizce-Trke dil ikilisi iin yaplan almalarn azl, makine
evirisi probleminin biimbilimsel olarak farkl zelliklere sahip diller iin zorluu
e yine ayn dil ikilisi iin mevcut paralel metinlerin azl ile aklanabilir.

Baarl bir istatistiksel eviri modeli oluturmak iin yeterli byklkte ve kalitede
paralel metin kullanmak gerekmektedir. eviri modelinde kullanlacak olan paralel
metin, kaynak dildeki cmleler ve bu cmlelere ait hedef dildeki evirilerden
olumaktadr. Birok dil ifti iin nitelikli ve byk boyutlarda paralel metin bulmak
mmknken, ngilizce-Trke ifti iin paralel metin eksiklii bilinen bir
problemdir.

lem istatistiksel veri seyreklii problemine zm olarak, hem de biimbilimsel ve
ekimsel olarak farkl dil iftlerinde bire-ok hizalama kalitesini arttrabilmek adna,
yapsal olarak gl olan dil tarafnda alt-szcksel gsterimlere ihtiya olduuna
dikkat ekilmektedir [1]. Bu gsterimlerin elde edilebilmesi iin ise dil iftinin
biimbilimsel analiz ve biimbilimsel anlamszlk giderme ilemlerinden geirilmesi
gerekmektedir. zellikle Trke gibi sondan eklemeli diller iin literatrde
biimbilimsel zmleyiciler [2, 3] ve anlamszlk gidericilerin [4, 5, 6, 7] varl
hedeflenen gsterimlerin elde edilmesini de mmkn klmaktadr.

Bu bildiride yaplan alma, bu konuda literatrde baarl bir yaklam olan ve
Trke altszcksel ifadelerin eviri modeline katlmas ile baarm orannn
ykseleceini ifade eden almay [1] kendisine temel alarak, 2004-2010 tarihleri
arasndaki SIU konferanslarna ait bildirilerden oluan bir dil verisi zerinde eviri
yapmay hedeflemektedir. Deneyler iin elde edilen paralel metin ile bu almann
bir dier amac olan ngilizce-Trke ifti iin bilimsel dile sahip nitelikli bir eitim
kmesi oluturulmaktr.

Bildirinin genel ak u ekildedir. kinci blmde, istatistiksel makine evirisi
presipleri anlatlmakta bu alanda yaplm olan ve ngilizce-Trke dil ifti iin
literatrde kendisine yer bulmu almalar sunulmaktadr. nc blmde,
benimsenen yaklam temel alnarak nerilen yntem sunulmakta ve SIU verisi
zerinden rneklenerek aklanmaktadr. Drdnc blmde, deney verisi iin
yaplan n almalara ve modellerin oluturulmasna ilikin detaylar sunulmutur.
Bildiri sonular ve tartma blm ile son bulmaktadr.

%'9' lgili almalar
statistiksel Makine evirisi alannda ilk almalar kelime-tabanl denemelerdir. Bu
almalar, eviri temel birimi olarak kelimeleri kullanarak, her iki dile ait kelimeler
arasnda ki en olas elemeleri bulmay hedeflemektedir [8]. Bu ileme kelime
eleme ad verilmektedir. Ancak bu modeller, zellikle farkl biimbilimsel zellikler
gsteren (ngilizce-Trke) diller iin bire-ok elemelerde yetersiz kalmaktadr.
zellikle Trke de tek bir kelimenin ngilizce bir kelime grubuna karlk geldii
durumlarda bu ak bir ekilde grlmektedir. Bu yetersizlii amak adna, temel
eviri

ekil "' Faktrl eviri yaklam.

biriminin deitirilmesi gereklilii duyulmu ve aratrma abalar kelime grubu
tabanl eviriye yneltilmitir.

Gerek kelime gerekse kelime grubu tabanl bir alma olsun, istatistiksel makine
evirisinde iki konuya zen gsterilmektedir: uygunluk ve akclk. Uygunluk lt
eletirme sonucunda salanrken, akclk iin hedef dile ait v-gram temelli bir dil
modeline ihtiya duyulur.

ngilizce-Trke dil ikilisi iin yaplan almalar 1981 tarihine dayanmaktadr [9].
Yine ayn dil ifti iin ilk yapsal eletirme denemesi [10] ve kural-tabanl yaklam
da [11] bu almay takiben nerilmitir. nerilen bu sistemlerin ortak noktas
youn bir kural oluturma yntemini benimsemeleri ve kstl bir alana ynelik
olmalardr.

Kelime grubu tabanl modeller makine evirisi konusunda en popler eviri
yaklamlardr ve ngilizce-Trke ifti iin de baarl denemeler bu alanda
olmutur [1][12]. Veri seyreklii probleminin zm iin, biimbilimsel olarak
zengin olan Trke taraf iin biimbilimsel zmleme teknikleri kullanlm ve
yine bu sebeple seste ekler szlksel ifadeler eklinde ifade edilmitir. ngilizce
tarafnda ise dilin yaps gerei kstl bir zmleme yaplmtr. Temel olarak bu
modeller literatrde faktrl yaklamlar olarak snflandrlm (ekil 1) olup, hem
biimbilimsel elerin hem de kelime kklerinin ayr olarak eletirilmesini
gerektirmektedir. Ancak aratrmaclar bu yntemin btn kurallarn takip
etmemilerdir.

Deneysel almalar gstermektedir ki, yapsal olarak fakir-zengin dil iftleri iin
faktrl yaklamlar dk baarm sergilemektedir. Bu nedenle, sz konusu
almalarda ekler veya ek gruplar ayr kelimeler olarak deerlendirmi, kelime ve
kelime grubu elemeleri bu ekilde yaplmtr. Bu sayede Trke ek ve ek
gruplarnn ngilizce ek veya kelimelerle elenmesi salanmaktadr. Ancak kelime
biimi elde edilirken ek baznda alan bir baka dil modeline ihtiya
duyulmaktadr. Ek-temelli dil modeli, kk ve ekler halinde ifade edilen evirinin
kelime biimine evirimi iin gereklidir.

%'%' Kullanlan Yntem

Giri blmnde bahsedildii zere, bu alma da daha nce nerilmi olan
szdizimsel yaklamla zenginletirilmi szck grubu tabanl alma [1] temel
alnmaktadr. Bu blmde almamzda kullandmz bu temel modellere ait
detaylar aktarlmakta, kendi ilem ve nilem detaylar ile birlikte sunulmaktadr.

Bu almada temel olarak 4 farkl gsterim kullanlmakta ve bu gsterimlerle
oluturulan eviri modellerinin performans deerlendirmeleri yaplmaktadr. n
ilem olarak kelime biimlerine, evirinin Trke taraf iin biimbilimsel
zmleme ve biimbilimsel belirsizlik giderme, ngilizce taraf iinse cmlenin
elerinin bulunmas ilemi uygulanmtr. Ancak szdizimsel olarak katk
salamayan etiketler (NN, isim etiketi) eitim kmesine dhil edilmemitir. (Orjinal
alma ngilizce taraf iin kstl bir biimbilimsel zmleme de kullanmaktadr.)

Gsterim 1: Kelime6 zmleme yaplmadan kelime biimi olarak
sunulmaktadr.
Gsterim 2: Kelime kk ve biimbilimsel zmleme elemanlar ile birlikte
kelime olarak sunulmaktadr. (bir+lA+DHr+mA)
Gsterim 3: Kelime kk ayr, biimbilimsel zmleme elemalar eklenmi bir
ekilde sunulmaktadr. (bir | +lA+DHr+mA)
Gsterim 4: Kelime kk ve biimbilimsel zmleme elemanlar ayr kelimeler
olarak sunulmaktadr. (bir |+lA | +DHr | +mA)

Aklanm olan gsterimlerle 4 farkl eitim kmesi oluturulmu ve bu eitim
kmeleri kullanlarak 4 farkl eviri modeli elde edilmitir. Yine bu gsterimlerle
oluturulmu test kmeleri ile baarmlar hesaplanmtr.

%'=' &0/0-*0(
%'='"' Deney Verisi ve Dzenei
Bu almada, IEEE de yaynlanan PDF formatndaki bildiriler toplanm ve PDl
dokmanlarndan metin karm ilemi uygulanmtr. Dil kodlama problemi olan
e her iki dilde zetesi olmayan dokmanlar elendiinde elde kalan dokman says
634 olmaktadr. Bu dokmanlar zerinde Microsoft Proofing Tools ile yazm
denetimi ilemi uygulanmtr. Dokmanlarn makine evirisinde kullanlabilmesi
iin paragraf ve cmle baznda hizalanm olmas gerekmektedir. Bildirilere ait
zeteler genel olarak tek paragraftan olutuundan paragraf hizalama ilemi
yaplmamtr. Cmle hizalama ilemi iin cmle karakter uzunluunu temel alan
Church&Gale [13] e ait cmle hizalama algoritmas kullanlmtr. Algoritmann
hata yapt hizalamalar el ile dzeltilerek, hizalama doruluu arttrlmtr.
Hizalama ilemleri ematik olarak ekil 2 de sunulmutur.

Hizalanm cmleler, nc blmde belirtilen gsterime ulamak adna dil ileme
iin gerekli nilemlere tabi tutulmutur. Trke cmleler iin Oflazer in iki-seiyeli
modeli [2] zerine kurulmu olan biimbilimsel zmleyici, biimbilimsel
belirsizlik giderme ilemi iin de kural tabanl bir anlamszlk giderici [5]
kullanlmtr. ngilizce taraf iin sadece TreeTagger [14] yazlm kullanlm ve
biimbilimsel olarak anlam ifade etmeyen etiketler karlmtr. Bir nceki blmde
ifade edilen gsterimler kullanlarak, bu gsterimleri karlayan ve 3075 cmleden
oluan 4 farkl veri kmesi elde edilmitir.

Eitim kmesi oluturulduktan sonra, kelime hizalama ve kelime grubu hizalama
ilemleri gerekletirilmitir. Kelime hizalama iin GIZA++ [15] ve MKCLS
yazlmlar [16], kelime grubu temelli eviri modeli oluturmak iin Moses [17]
makine evirisi yazlm kullanlmtr. Trke ye ait dil modeli oluturmak iin El-
Kahlout tarafndan sunulmakta olan Trke dil modeli eitim kmesi kullanlmtr.
Uygulanan n ilemler serisi ematik olarak ekil 3 te sunulmutur.

Test kmesi olarak, 2011 yl SIU bildirilerinin bir altkmesi kullanlmtr. Test
kmesine ait cmleler de ayn eitim kmesinde olduu gibi biimbilimsel
zmleme, biimbilimsel anlamszlk giderme ilemlerinden geirilmitir. Her bir
gsterim tarz iin farkl bir test kmesi oluturulmu olup, bu test kmeleri ile
deneyler gerekletirilmitir.

Baarm lt olarak konum bamsz bir kelime hata oran (KHO) trevi olan
BLEU metrii kullanlmaktadr. KHO dan farkl olarak, temel lm birimi olarak
kelimeleri baz almayan BLEU, deiik uzunluklardaki vgram bekleri kullanlr ve
0-100 arasnda derecelendirilir.
%'='9' Deney Sonular
Deney sonular Tablo 2 de gsterilmitir. Sonular gstermektedir ki, sadece
kelime biimlerinin kullanld gsterim en dk performans kaydetmitir.
Gsterim 3, kelime biimlerine gre greceli %21 lik bir performans art
salamtr. Eitim kmesinin kkl ve buna bal olarak, ek baznda hizalama
sonularnn baarszl nedeni ile Gsterim 4 performans artna beklenilen
katky gsterememitir. Bu yetersizliin bir dier nedeni de ek baznda alan bir
dil modeli kullanlmamasdr.

Ayn test kmeleri kullanlarak Google Translate ile eviri yaplmtr. Bu eviri
sonucunda ngilizce-Trke ynnde 14.71 BLEU puan elde edilmitir.

Gsterim B88[*0
.(,/J*,A0
" 9 % =
4.36 4.92 >'9R 4.41 "=':"
.,Z*8 " Aday evirilerin ve Google Translate evirisinin BLEU metrii kullanlarak hesaplanan
baarmlar.

%'>' Sonular ve Tartma

Deneyler sonunda karlalan dk baarm SIU dermecesinin yaps ile ilintilidir.
Seilen eitim kmesinde eitlilik bulunduundan kelime hizalama performans
dktr. Bir dier karm ise biimbilimsel zmlemenin istenilen katky
yapamamasdr. Biimbilimsel zmleme zmlenecek kelimenin kk tespit
edilerek ve olas ek dizilimleri kartlarak yaplmaktadr. SIU dermecesinde yer alan
kelimeler ise zmleyici kk veritaban iin yeni kelimeler olup, biimbilimsel
zmlemesi yaplamamaktadr. Bu durum kelime-ek hizalamas baarmn
etkiledii gibi, kaliteli bir ek-tabanl dil modelinin oluturulmasn zorlatrmaktadr.
Bu kelimelere ait zmlemelerin yaplabilmesi terimler szl oluturulmas ve
biimbilimsel zmleme kurallar ile baarlabilir. Ayrca, kelime ve kelime grubu
hizalama ilemlerinde yksek baarm yakalayabilmek iin mevcut veri kmesinin
kelime ve kelime gruplar elemeleri ile zenginletirilmesi gerekmektedir. Devam
eden almalarn zenginletirme konusu zerine olmas planlanmaktadr.

Kaynaka

|1| Ll-Kahlout, . D.: Exploring Different Representational Units in English-to-
1urkish Statistical Machine 1ranslation, In: Proceedings o the Second
\orkshop on Statistical Machine 1ranslation, pp. 25-32 ,200,.

|2| Olazer, K.: 1wo-leel Description o 1urkish Morphology. Literary and
Linguistic Computing 9, pp.13-148 ,1994,.

|3| lakkani-Tr, D. Z., Oflazer, K.,Tr, G.: Statistical Morphological
Disambiguation or Agglutinatie Languages. In: Computers and the
lumanities 36,4,, pp.381-410 ,2002,.

|4| Sak, H., Gngr, T., Saralar, M.: Turkish Language Resources:
Morphological Parser, Morphological Disambiguator and \eb Corpus. In:
Go1AL 2008, ol.5221 o LNCS, Springer, pp.41-42 ,2008,.

|5| Yret, D., Tre, F.: Learning Morphological Disambiguation Rules for
1urkish. In: Proceedings o lL1-NAACL, pp.328-334 ,2006,.

|6| Grgn, O., Yldz, O. T.: A Novel Approach to Morphological
Disambiguation or 1urkish. In: Proceedings o International Symposium on
Computer and Inormation Sciences ,ISCIS,, pp.-83 ,2011,.

|| Sak, l., Gngr, T., Saralar, M.: Morphological Disambiguation of Turkish
1ext with Perceptron Algorithm. In: Gelbukh, A. ,ed., CICLING 200,
LNCS 4394, pp.10-118 ,200,.

|8| lutchinson, J. : 1he Georgetown-IBM Demonstration. M1 News
International, no.8, pp.15-18 ,1994,.

|9| Sagay, Z.: A Computer 1ranslation rom Lnglish to 1urkish: Masters 1hesis,
ML1U, Department o Computer Lngineering ,1981,.

|10| Keyder 1urhan, C.: An Lnglish to 1urkish Machine 1ranslation System
Using Structural Mapping. In: Proceedings o the Applied Natural Language
Processing, \ashington, DC, p.320-323 ,199,.

|11| Hakkani, D. Z., Tr, G., Oflazer, K., Mitamura, T., Nyberg, E.: An English-
to-1urkish Interlingual M1 System. In: AM1A, pp.83-94 ,1998,.

|12| \eniterzi, R., Olazer, K.: Syntax-to-Morphology Mapping in lactored
Phrase-based Statistical Machine 1ranslation rom Lnglish to 1urkish. In:
Proceedings o the 48th Annual Meeting o the Association or
Computational Linguistics ,ACL,, pp.454-464 ,2010,.

|13| Gale, \.A., Church, K. \.: A program or aligning sentences in bilingual
corpora. Computational Linguistics, 19,1,, pp.5-102 ,1993,.

|14| Schmid, l. : Probabilistic part-o-speech tagging using decision trees. In:
Proceedings o International Conerence on New Methods in Language
Processing ,1994,.

|15| Och, l. J., Ney, l.: A systematic comparison o arious statistical alignment
models, Covvtatiovat ivgvi.tic., Vol. 29, No.1, pp. 19-51 ,2003,.

|16| Och, l. J.: An Licient Method or Determining Bilingual \ord Classes. In:
Ninth Con. o the Lurop. Chapter o the Association or Computational
Linguistics, pp. 1-6 ,1999,.

|1| Koehn, P., loang, l., Birch, A., Callison-Burch, C., Zens, R., lederico, M.,
Bertoldi, N., Cowan, B., Shen, \., Moran, C., Dyer, C., Bojar, O., lerbst,
L., Moses: Open Source 1oolkit or Statistical Machine 1ranslation. In:
Proceedings o the 45th Annual Meeting o the Association or
Computational Linguistics, Companion Volume, pp.1-180 ,200,.


=' SIRALAMAYI RENME

='"' Giri

Sralama, bilgi eriim sistemleri konusundaki nemli problemlerden birisidir.
Dkman eriimi, ibirliki szgeleme [1], anahtar terim ztleme [2], tanmlama
bulma [3], nemli eposta yol atama [4], duygu zmleme [5], rn deerleme[6] ve
istenmeyen sanal doku iletiimi[7]. Bu almann amac dkman eriimi
konusundaki sralama problemleridir. Bu konudaki sralama problemleri yle
zetlenebilir.

Dkmanlar sadece sorguya olan yaknlklarna gre sralanmaktadr.
likisel sralama [8] sorgunun sanal doku yresinin yapsna ve belgenin
btnlne nem vermektedir.
Birden fazla sralama aday listesinin birleimi daha iyi bir sralama sonucu
ortaya koymaktadr. Bu birleik indise ilikin sonular kullancya
sunulmaktadr.
Bir sanal doku yresinin hangi zellikleri sralama sonularn etkilemektedir.
Bu yaklama arama motoru eniyileme literatrnde tersine mhendislik ad
erilmektedir.
Dkmana eriimde sralama olduka zor bir problem olup, bu konuda birok
algoritma nerilmitir. Son yllarda aratrclar, zellikle makine renme
tekniklerini kullanarak daha iyi sralama teknikleri gelitirmek adna almaktadrlar.
Bu amala byk boyutlardaki eitim kmeleri zerinde allmaktadr. Eitim
kmesi yardm ile sralama modeli oluturma yaklamna Sralamay renme
ad verilmektedir. Temel olarak bu yaklam, dkmanlara ait zniteliklerin
kullanlarak bir sralama modeli oluturulmasn hedeflemektedir. Daha da
genellemek gerekirse, bir sralama algoritmasnn sralamay renme yaklam
saylabilmesi iin u iki zellii tamas gereklidir:

Yntem znitelik tabanl bir yaklam ise: Sorgu dkmanlar znetlik
vektrleri eklinde ifade edilirler. En popler znitelikler, sorgu terimlerinin
sklk saylar, PageRank ve BM25 puan.
Eitim ieriyorsa: Modelin renimi drt aamal bir sretir; girdi, kt,
kuram uzay ve kayp ilevi (loss function).
Baz aramay renme algoritmalar zellikle ticari arama motorlar tarafndan tercih
edilmekte olan evrimii renme yntemlerini kullanmaktadr.

Sralamay renme konusu aratrma konusu olarak son yllarn en popler
konularndan bir tanesi olmu ve bu konuda birok algoritma nerilmitir [9-26|.
Aratrclar arasnda bu algoritmalara ilikin eitli sorular tartlmaktadr:

Sralamay renme algoritmalarnn ortak ve ayrk zellikleri nelerdir?
langi algorima en iyi baarm sergilemektedir? Algoritmalarn baarm
karlatrmalar hangi kstaslar ile yaplmaldr?
Sralama yeni bir makine renme problemi olarak kabul edilmelidir, yoksa
varolan bir makine renme problemi midir?
Bu almada sralamay renme algoritmalarnn birinci soru nda tartlmas
ve performans deerlendirilmesi yaplmtr. Ayrca, sralama problemi 2 boyutlu bir
snflama problemi olarak ifade edilmekte ve /-Enyakn Komuluk algoritmas ile
zlmtr.

='9' Bilgiye Eriimde Sralama Modelleri
Bilgiye eriimde pekok sralama modeli mevcuttur. Basit bir yaklam olduu
dnlerek, modeller iki temel balk altnda sunulmutur: sorgu-baml ve sorgu
bamsz sralama modelleri.


='9'"' ?8([VUBaml Sralama Modelleri
lk soralama modelleri sorgu terimlerinin sonu dkmanlardaki rastlanma skln
baz alarak almaktadr. Bu modellerde dkmanlar ve sorgular Euclid uzaynda
vektrler olarak ifade edilir. Bu iki vektrn i arpm bize sorgu ile dkmann
yaknln gsterir. Bu amala Terim Skl-Ters Dkman Skl (TF-IDl,
arlklandrma kullanlr. Terim skl vektr, bir t teriminin dkman ierisindeki
rastlanm sklnn dzgelenmi ifadesidir. Ters Dkman skl ise:


,4.1,

^ says dkman saysn ifade ederken, v;t) ise t terimini ieren dkman saysdr.
Buna ek olarak, bir dier sralama prensibi ise olaslksal bir yaklam olan BM25 tir.
Bu yaklamda dkmanlar benzerliklerinin logaritmik tahmini grecelilik oranlarna
gre sralanmaktadr. Temel olarak baarl bir yaklam olmamakla birlikte, birok
deiik sralama modeline ait parametrelerin birleimi olarak ifade edilebilir.


,4.2,

q, t
1
,...,t
M
terimlerinden oluan sorguyu, a dkman 1;t,a) t teriminin a dkman
ierisindeki rastlanma skln, ^;a) a dkmann terim baznda uzunluunu,
arat ana indisin ortalama dkman uzunluunu, /
1
e b zgr parametreleri, D
ise t teriminin ters dkman rastlanma skln ifade etmektedir.

Bilgiye eriimde istatistiksel bir dil modeli kullanmak bir baka sralama yaklamdr.
Bu yaklamda terimlerine olaslksal deerler atanr ve dil modeli dkman ile
ilikilendirilir. Sorgu terimleri, dkmanlara ait dil modelleri ile elde edilmeye
allr. Dkmanlar sorgu terimlerini istenilen srada ierme oluturma
performanslarna gre sralanr. Bu olaslk u ekilde ifade edilebilir.


,4.3,

Dkmana ait dil modelinin oluturulmas enyksek olabilirlik yntemine gre
salanr. Bu konuda dikkat edilmesi gereken konu ise kestirimin yumuatlmasdr.
Bu durum sfr olaslkl terimleri dizisinin olutuu durumlarda gereklidir. Bu
amala, arkaplan dil modeli tm indis kullanlarak kestirilir.


,4.4,

Burada, , arkaplan dil modeli olup, yumuatma etmenidir ve
aralnda deerler alr.

='9'9' ?8([VUBamsz Sralama Modelleri
Bir nceki blmde bahsedilen sralama modelleri, sorgunun ierdii terimleri ve
bunlarn sralann baz alnarak, bu etmenlerin dkmanlara olan benzerliklerini
deerlendirmekte bir sralama sonucu sunmaktayd. Dier yandan, sorgu bamsz
modeller, dkmanlar dier dkmanlara oranla nemlerine gre sralamaktadr.
Bu konuda PageRank[27] rnek gsterilebilir. PageRank sanal doku yresi hiperba
yapsn kullanmasndan tr sanal doku aramasnda tercih edilmektedir. Modelde,
bir kullancnn herhangi bir sayfa bana rastgele tklama olasl eklinde
tanmlanr:


,4.5,

Modele gre a sayfasnn PageRank saysal deeri, , ya bal sayfalar
derlemi, ise den darya olan balarn saysdr. Kullancnn sanal doku
yresini bir ba a tklayarak deilde, direkt olarak sayfay ziyaret etmesi olasl da
modele dahil edildii model ise aadaki gibi ifade edilebilir:


,4.6,

, snm etmenini ve ^ ise indis teki toplam sayfa saysn ifade etmektedir.

='%' Sralamay renme
Sralamay renme modelleri pekok deiik yntem kullanlarak
oluturulabilmektedir. Ancak literatre bakldnda, sralamay renme
modellerinin ana balk altnda toplanabilir. Bu yntemler, girdi, kt, kuram
uzay ve kayp ilevi bakmndan farkllk gsterirler. Bu blmde, bu yntemler ve
uygulama rneklerini akmaya alacaz.

='%'"' Nokta Tabanl Yaklam
Bu yaklamda esas ama, her dkmann ilgililik derecesinin belirlenmesidir. Bu
amala btn dkmanlarn znitelik vektrlerinden oluan bir girdi uzay
oluturulur. kt uzay ise derlemdeki btn dkmanlarn ilgililik dereceleri ile
oluturulur. Dkmanlara ait znitelik girdi olarak alarak ilgililik derecelerini kt
olarak oluturan ilevler btn ise modele ait kuram uzayn oluturur. Nokta
tabanl yaklamlara rneklere literatrde rastlanmaktadr [17, 19, 22-24, 25|. Bu
yaklamlar ise iki ana balk altnda zetlenebilir: sralama iin oklu-snf
snflandrma ve balanml altkme sralama.

oklu-snf snflandrma iin en bilinen rnek McRank tir [22]. Bu modelde
sralama problemi ok snfl bir snflandrma problemi olarak ifade edilir ve bu
snflar yardm ile sralama modeli oluturulur. Snflandrma sonularn sralama
puanlarna dntrmek iin olaslksal dalm kullanlr. Bu dalm o dkmann
hangi kategoriye ait olduunu ifade etmektedir. Sonu olarak skorlama ilevi
aadaki gibi tanmlanabilir.


,4.,

Altsnf sralama yaklam ilk olarak Cossock ve Zahn tarafndan nerilmi olup,
sralama probleminin balanm problemi olarak yeniden ifade edilmesidir. Skorlama
ilevi f, eklinde ifade edilen dkmanlarn q sorgusuna ait e
eklinde ifade edilen ilgililik etiketlerini kullanarak dkmanlar sralar.
Kayp ilevi ise aadaki gibi tanmlanabilir.


,4.8,

Bu ana yaklamlar haricinde bu modellerin uzants veya bu modellerin birleimi
olan modellerde nerilmitir [17, 23].

='%'9' kili Karlatrmal Yaklam
kili karlatrmal yaklamlar btn dkmanlarn birbirlerine gre ilgililik srasn
bulmak yerine, dkmanlarn ikili olarak greli sralamalarn bulmak prensibini
takip eder. Sralam problemi, ikili dkmanlar arasnda bir snflandrma problemi
olarak ifade edilir. Ama ikili dkmanlar arasnda enkk hatal snfladrma
saysna ulamaktr. Eer btn ikililer doru olarak snfladrldlar ise, q sorgusuna
ait btn dkmanlar doru olarak sralanm saylr. Dkmanlar znitelik
vektrleri eklinde algoritmaya sunulurlar. Literatrde bu kategoriye ait bir ok
alma mevcuttur [9, 11, 12, 15, 19, 26]. Bu kategoride bir AdaBoost trevi olan
RankBoost [18] nemli bir yer tekil etmektedir. Atasndan farkl olarak RankBoost,
herbir dkman dkman ikilileri baznda snflandrr.

Destek Vektr Makinesi(SVM) ile sralama [20] snflandrma iin destek vektr
makinesi kullanma zerine kuruludur. SVM zerine kurulu bir sralama yaklam
olduundan birok zelliini SVM iskeletinden miras almaktadr ve olduka iyi bir
genelleme baarmna sahiptir ve karmak dorusal olmayan problemleri de
zebilir.

='%'%' Liste Tabanl Yaklam
Tekli veya ikili dkmanlar baznda ngrmelerde bulunan yaklamlardan farkl
olarak, liste tabanl yaklamlar, gerke doru ile sralama sonular arasndaki fark
enkklemeye alrlar. Yaklamda girdi uzay, q sorgusunun sonucu olan
dkmanlar kmesidir. kt ise bu sorguya sonu olacak sralamalar kmesidir.
Doru sralamay bulmaya alan ilevler btn ve gerek sralama ile kt uzay
arasndaki farkllk hesabn yapan ilevler sras ile kuram uzay ve kayp ilevidir. Bu
balamda literatrde pekok almaya rastlanmaktadr [10, 13, 24].

Liste tabanl yaklamlar arasnda en ok stnde durulan yntem kayp ilevi olarak
edikmelik benzerlii kullanan RankCosine dr. ListNet [13] popler olarak
kullanlan liste tabanl bir baka yaklamdr. Bu yaklam temel olarak dizilimlere
bal olaslksal dalmlar zerinden kayp hesaplamakta ve bunnu iin Luce
modelini kullanmaktadr. kt uzayn oluturan kt listeleri, dkmanlar ieren
deiik sralamalar olarak dnlebileceinden, bu yaklam problem iin kolaylkla
uygulanabilir.

='=' Snfladrmal izge Sralama (GRwC)
Bu blm gelitirdiim sralamay renme yaklamna ait detaylar iermektedir.
Temel olarak, sralama problemi iki snfl bir snflandrma problemine
dntrlmekte ve /-Enyakn Komuluk algoritmas ile zlmektedir.

ler q sorgusu dorusal olarak veya ilgililik seviyesine gre etiketlenmi ve kendileri
ile ilikilendirilmi dkmanlara X sahiptir. Her dkman sralama modelinin
bir paras olan saysal deerlere sahip zniteliklere sahiptir. ledelene
ise, her znitelie ait arlk deerlerini hesaplamak ve dorusal olarak
birletirmektir.

Snflaycnn eitimi aamasnda veri setinin hazrlanmas gerekmektedir. Bu amala
eitim kmesi pozitif ve negatif rnekler olarak iaretlenmitir. Bu gruplara ait
herbir girdi, iki dkmana ait ve znitelik baznda eletirilmi bir vektrdr. Eer
bir girdi + olarak iaretlendirilmi ise, birinci dkmann sralamas ikinciden
yksektir. Ayn durum olarak iartelenmi girdi iin dier ynldr. Elenecek
dkmanlar, ayn sorguya ait olmal, farkl sorgulardan gelen dkman vektrleri
eletirilmemeli ve eitim kmesi katlmamaldr.

Veri kmesinin hazrlanmasndan sonra k-Enyakn Komuluk algoritmas
kullanlarak ikili karlatrlmal bir snflandrma yaplmtr. Daha sonra,
snflandrma algoritmasnn ngr sonular kullanlarak dkmanlar dorusal
olarak sralanmtr. Bu amala her dkman bir dm simgelemek zere,
dkman kmesi bir ynlendirilmi izge olarak ifade edilir. Eer dkman .
dkman ye gre sralama da daha st srada yer almakta ise bu durum .
dmnden dmne bir ynlendirme oku ile gsterilir. izgenin elde
edilmesinden sonra bu izge zerinde topolojik sralama algoritmas altrlm ve
dorusal bir sralama elde edilmitir. Bu duruma ait rnek ekil 4.1 de sunulmutur.





='>' Deneyler ve Sonular
nerilen modeli snamak zere Letor veri kmesi kullanlmtr. Letor veri kmesi 2
farkl alt kmeden olumutur: OHSUMED ila veri kmesi ve TREC \eb 1rack.
Snflandrcnn eitimi Weka yazlm kullanlarak yaplmtr. Snflandrcnn ve
yaklamn snanmas iin ise snama kmesi bir takm ilemlere tabi tutulmutur.
Snflandrcnn sonularnn gerek dkmanlar ile eletirilebilmesi iin bir arama
listesi oluturulmutur.

Yaklam baarmn lebilmek adna yaklam sonular ok iyi bilinen ve
almada da ad geen RankingSVM ile karlatrlmtr. RankingSVM eitimi
Letor veri kmesi kullanlarak SVMLight yazlm ile gerekletirilmitir. Sonu
deerlendirmeleri MAP ve P@k levleri kullanlarak yaplmtr. Karlatrma
sonular Tablo 4.1, 4.2, 4.3 ve 4.4 te sunulmutur.

='<' Tartma ve Gelecek almalar
Bu almada, bilgi eriim sistemlerinin ve zellikle arama motorlar iin nemli bir
problem olarak nitelendirilen sralama problemine karlatrmal denemeler
sunulmutur. almann hedeflerinden biriside gelitirilmekte olan arama motoru
iin bu probleme ilikin farkl bir yaklam nermektir. Bu amala, liste tabanl bir
algoritma nerilmi ve Letor veri kmesi zerinde denemeler yaplmtr. Elde
edilen sonular RankingSVM algoritmas ile karlatrlm ve sonular
sunulmutur.

Deneyler gstermektedir ki, yeni yaklammz RankingSVM ye oranla dk bir
baarm gstermitir. Bunun en nemli nedeni ise, elde edilen ynlendirilmi izge
A B
C
D
D
A
B
C
ekil 4.2. Dkman izgesi kullanlarak sralama listesinin elde
edilmesi
gsteriminde rastlanlan ve topolojik sralama iin sorun tekil eden evrimsel
ynlendirmelerdir. Dikkat ekici dier bir konu ise ilgililik seviyesi yksek
dkmanlarn dk seviyeli dkmanlara gre daha yksek baarml olarak
ayrtrlm olmasdr. Bunun sebebi ise, ilgililik seviyesi dk dkmanlarn
znitelik saylarnn yeterli olmamas ve bu sebeple snflandrcnn baarmnn
dmesi olarak ifade edilebilir.

S$\
RankingSVM .4134
GRwC .3810
.,Z*8 ='" RankingSVM ve GRwC iin MAP karlatrma sonular (OSHUMED).

W,/TC/[?QS BW]I
P1 .5914 .4602
P2 .5314 .4391
P3 .532 .4281
P4 .5313 .4201
P5 .5309 .3854
P6 .5203 .343
P .501 .3621
P8 .4813 .3581
P9 .460 .3209
P10 .414 .3210
.,Z*8 ='9 RankingSVM ve GRwC iin P@k karlatrma sonular (OSHUMED).

S$\
RankingSVM .3613
GRwC .2094
.,Z*8 ='" RankingSVM ve GRwC iin MAP karlatrma sonular (TREC).

W,/TC/[?QS BW]I
P1 .4325 3.52
P2 .3381 .2861
P3 .3264 .234
P4 .3104 .2301
P5 .3012 .2153
P6 .292 .1926
P .264 .1635
P8 .2562 .135
P9 .2501 .122
P10 .2035 .1183
.,Z*8 ='9 RankingSVM ve GRwC iin P@k karlatrma sonular (TREC).


Daha az znitelik ile yksek baarm gsteren algoritmalarn denenmesi ve znitelik
seim algoritmalar yardm ile anlaml zniteliklerin belirlenmesi sralama
performansn arttrmas beklenebilir. lerleyen almalarda bu konularn zerinde
almalar yaplacaktr.

Kaynaka
|1| larrington, L. l., Online ranking,collaboratie iltering using the
perceptron algorithm, In: Proceedings o the 20
th
International Conerence
on Machine Learning, pp. 250-25, 2003.

|2| Bikel, D. M., Schwartz, R., \ieschedel, R. M., An algorithm that learns what
is in a name, Machine Learning, Vol. 34, pp. 211-231, lebruary 1999.

|3| Xu, J., Cao, \., Li, l., Zhao, M., Ranking deinitions with superised
learning methods, In: Special Interest 1racks and Posters o the 14
th

International Conerence on \orld \ide \eb, pp. 811-819, 2005.

|4| Chirita, P. -A.Diederich, J. Nejdl, \., mailrank: Using ranking or spam
detection, In: Proceedings o the 14
th
ACM International Conerence on
Inormation and Knowledge Management, pp. 33-380, 2005.

|5| Pang, B., Lee, L., Seeing Stars: Lxploiting class relationships or sentiment
categorization with respect to rating scales, pp. 115-124, 2005.

|6| Dae, K., Lawrence, S., Pennock, D. M., Mining the peanut gallery: opinion
extraction and semantic classiication o product reiews, In: Proceedings o
the 12
th
International Conerence on \orld \ide \eb, pp. 519-528, 2003.

|| Gyngi, Z., Garcia-Molina, l., Pedersen, J., Combating web spam with
trustrank, VLDB 04, pp. 576-58, 2004.

|8| Qin, 1., Liu, 1. \., Zhang, X. D., \ang, D. S., Xiong, \. \., Li, l.,
Learning to rank relational objects and its application to web search, In:
Proceedings o the 1
th
International Conerence on \orld \ide \eb, pp.
40-416, ACM, 2008.

|9| Bartell, B., Britannica, L., Belew, R., Cottrell, G., Learning to retriee
inormation, In: Proceedings o the Swedish Conerence on Connectionism,
1995.

|10| Burges, C., Ragno, R., Le, Q. V., Learning to rank with nonsmooth cost
unsctions, pp. 193-200, MI1 Press, 2006.

|11| Burges, C., Shaked, 1., Renshaw, L., Lazier, A., Deeds, M., lamilton, N.,
lullender, G., Learning to rank using gradient descent, NIPS, pp. 89-96,
2005.

|12| Cao, \., Xu, J., Liu, 1. \., Li, l., luang, \., lon, l. \., Adapting
ranking SVM to document retrieal, In: Proceedings o the 22
nd
International
Conerence on Machine Learning, pp. 186-193, 2006.

|13| Cao, Z., Qin, 1., Liu, 1. \., Li, l., luang, \., lon, l. \., Learning to
rank: rom pairwise approach to listwise approach, In: Proceedings o the
29
th
Annual International ACM SIGIR Conerence on Research and
Deelopment in Inormation Retrieal, pp. 129-136, ACM, New \ork, N\,
USA, 200.

|14| Chu, \., Keerthi, S. S., Support ector ordinal regression, Neural
Computation, Vol. 19, NO. 3, pp. 92-815, 200.

|15| Cohen, \. \., Schapire, R. L., Singer, \., Learning to order things, Journal
o Artiicial Intelligence Research, Vol. 10, pp. 243-20, 1998.

|16| Cossock, D., Zhang, 1., Subset ranking using regression, Learning 1heory,
Vol. 4005, pp. 605-619, 2006.

|1| Crammer, K., Singer, \., Pranking with ranking, Adances in Neural
Inormation Processing Systems 14, pp. 641-64, 2001.

|18| lreund, \., Iyer, R., Schapire, R. L., Singer, \., An eicient boosting
algorithm or combining preerences, Journal o Machine Learning Research,
Vol. 4, pp. 933-969, December 2003.

|19| luhr, N., Optimum polynomial retrieal unctions based on the probability
ranking principle, ACM 1ransactions on Inormation Systems, Vol. , pp.
183-204, July 1989.

|20| lerbrich, R., Graepel, 1., Obermayer, K., Large margin rank boundaries or
ordinal regression, Adances in Large Margin Classiiers, pp. 115-132,
Cambridge, MA, 2000.

|21| Kramer, S., \idmer, G., Pahringer, De Groee, M., Prediction o ordinal
classes using regression trees, lundam. In., Vol. 4, pp. 1-13, September
2001.

|22| Li, P., Burger C. J. C., \u, Q., McRank: learning to rank using multiple
classiication and gradient boosting, NIPS, MI1 Press.

|23| Nallapati, R., Discriminatie models or inormation retrieal, In:
Proceedings o the 2
th
Annual International ACM SIGIR Conerence on
Research and Deelopment in Inormation Retrieal, pp. 64-1, 2004.

|24| Qin, 1., Zhang, X. D., 1sai, M. l., \ang, D. S., Liu, 1. \., Li, l.,
Query-leel loss unsctions or inormation retrieal, In. Process.
Management, Vol 44, pp. 838-855, March 2008.

|25| Shashua, A., Lein, A., Ranking with large margin principle: two approaches,
NIPS, 2003.

|26| 1sai, M. l. , Liu, 1. \., Qin, 1., Chen, l., Ma, \. \., lrank: a ranking
method with idelity loss, In: Proceedings o the 30
th
Annual Iternational
ACM SIGIR Conerence , 200.

|2| Page, L., Brin, S., Motwani, R., \inograd, 1., 1he PageRank citation ranking:
bringing order to web, 1echnical Report 1999-66, Stanord InoLab, 1999.

=' Sonularn tartlmas ve deerlendirilmesi6

stenilen konularn birounda hedeflere ulalm olmasna ramen, proje tam
istenildii ekilde sonlandrlamamtr. Projenin eksik kald noktalar e
gerekeleri maddeler halinde aklanmaya allmtr.
Proje ye ilikin eksiklikler;
i. Proje kapsamnda hayata geirilmesi planlanan arama motoru iin son
kullancya bir arayz sunulamam ve kullanma alamamtr.
ii. Bilgi eriim platformunun aktif bir paras olarak almas planlanan
Soru Yantlama sistemi gereklenememitir.
Gerekeler;
i. Makine ve tehizat temini: Proje kapsamnda satn alnmas planlanan
donanm zamannda ve eksiksiz bir biimde temin edilememitir.
Proje btesinden alm yaplan ProLiant ML350 G6 sunucu
bilgisayarna ait ikinci ilemciye ait soutucu ancak 23.01.2012
tarihinde temin edilebilmitir. Sanal doku taramasn gerekletirecek
e depolama sunucusunda indisleme ilemini gerekletirecek olan bu
sunucu bilgisayar, bu tarihe kadar yetersiz donanm ile almtr.
ndisleme hatalar ve denemeler gznnde bulundurulduunuda 5
katmanl(ayn sanal doku yresinden itibaren 5 i ie ba takip
edilerek, bir tarama e indisleme ilemi aylay mertebesinde sre
almaktadr. Bu srenin uzunluu deerlendiriliren, sadece Trke
sayfalarn filtrelenme, dile zg nilemlerden geirilme ve
indislemeye hazr hale getirme ilemleride gz nnde
bulundurulmaldr. Bu teminin gecikmesinin nedeni ise parann
Trkiye pazarnda temin edilememesi ve uzun sre yurtdndan
teminin beklenmesidir.
Ayn kapsamda, bir dier sorun ise depolama sunucusunda
yaanmtr. ncelikle ilk sipari ile birlikte tarafmza iletilen balant
arabirimi, istenilen ile uyumam ve iki sunucu birbiri ile etkileime
geememitir. Bu etkileimi salamak adna bir donanm deiim sresi
yaanm, bu donanm ve kablolamann temini ise ancak ilk 12 aylk
srenin dolumundan sonra yaplabilmitir.
Donanmsal problemler gerek indisleme, gerekse depolama
ilemlerinde gecikmeye sebebiyet vermitir.
ii. Aratrc eksiklii: Projenin kapsam ve ayrntlar dnldnde i
gc gereksinimi yksektir ve mevcut aratrc says bu gereksinimi
karlayamtr. zellikle proje kapsamnda tez almalarn
yrtmekte olan ve mezuniyet aamasnda olan yksek lisans
rencilerinin mezuniyeti ile aktif aratrc says daha da azalmtr. Bu
sebeple, aratrclar ancak zerlerine den aratrma ykn yerine
getirmiler ancak paralarn birleimi ve sistemin alr hale getirlmesi
salanamamtr.
iii. Aratrma konularndaki deiiklikler: zellikle aratrc ve doktora
rencisi Onur Grgn n doktora tezini oluturmas dnlen ve
sistemin bir bileeni olarak alacak Soru Yantlama bileeni,
aratrcnn tez konusunun statistiksel Makine evirisi alanna
ynlendirilmesi sebebi ile gereklenememitir. Ancak bu durum
sisteme, yeni bir bileen olan ve farkl bir dillerde yaplan aramalarn
Trke ye evirilerek ok dilli bir arama siteminin oluturulmasn
salayacak olan eviri Bileeninin eklenmesi almalarn
kazandrmtr. Bu konudaki almalar aratrcnn almalar
dorultusunda halen deam etmektedir.
RNLER LSTES SAYFASI

1. Yazl rnler

(a) Uluslararas bilimsel toplantlarda sunulan bildiriler
Grgn, O., Yldz, O. T., A Novel Approach to Morphological
Disambiguation or 1urkish. In: Proceedings o Computer and
Inormation Sciences II 26th International Symposium on
Computer and Inormation Sciences, pp.-83 ,2011,.
Ak, K.., Yldz, O. T., Unsuperised Morphological Analysis Using
1ries. In: Proceedings o Computer and Inormation Sciences II
26th International Symposium on Computer and Inormation
Sciences, pp.69-5 ,2011,.
(b) Ulusal bilimsel toplantlarda sunulan bildiriler
Grgn, O., Yldz, O. T., ngilizce-Trke statistiksel Makine
evirisinde Biimbilim Kullanm. In: Proceedings o 20
th

Conerence on Signal Processing and Its Applications ,2012,.

2. .0F*0( Y0 KCAC(G0 \(8^0*0(C_

Ak, K., Unsuperised Morphological Analysis Using 1ries, Master
1hesis, 2011.
Kl, Y. O., Learning to Rank, Master Thesis, 2011.
Grgn, O., English to 1urkish Statistical Machine 1ranslation Using
Synchronous Grammar, Ph.D. Dissertation ,deam ediyor,.















X73XW

You might also like