P. 1
app-math-tr

app-math-tr

|Views: 367|Likes:
Yayınlayan: skorsky12

More info:

Published by: skorsky12 on Jul 19, 2011
Telif Hakkı:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/20/2015

pdf

text

original

Bilgisayar Bilim, Yapay Zeka

Burak Bayramlı
18 Temmuz 2011
Sayilar ve Kuramlar
sayilarvekuramlar.blogspot.com
Kod
https:
//github.com/burakbayramli/classnotes/tree/master/app-math-tr
https://github.com/burakbayramli/classnotes
Matematiksel Modelleme
Babil medeniyetinden dikkatli ölçmeyi ve gözlem yapmayı ö˘ grenen eski Yunan-
lılar, tabiatı, mantıklı analiz dizisi ile anlamaya u˘ gra¸ stılar. Aristo’nun oldukça
inandırıcı olan söylemlerinden biri olan, "dünya düz de˘ gildir"’den esinlenen günün
di ˘ ger felsefecileri, "o zaman dünyanın çapı nedir?" gibi sorular ile u˘ gra¸ smaya
ba¸ sladılar. Hayret verici olan bir geli¸ sme, Eratostenes’in bu ölçüyü oldukça yakın
olarak bulmasıdır, hem de ya¸ sadı ˘ gı ¸ sehir olan
˙
Iskenderiye’den dı¸ sarı ayak bile
basmadan! Kullanılan yöntem bazı kestirmeler ve temel alınan birkaç varsayım
içeriyordu. Dünya mükemmel bir küredir (olmasa da onun hesabı için bu uy-
gundu), güne¸ sin ı¸ sınları birbirine paralel olarak yol alır, Syene ¸ sehri
˙
Iskenderiye’nin
5000 stadya (bir ölçü birimir) kadar güneyde yer alır, vs.. Bu varsayımlardan
yola çıkarak, Erotostenes bir matematiksel dünya yarattı ve bu dünya üzerinde
geometri’nin uygulanabilir oldu˘ gunu gördü!
Günümüzde, aynen Yunanlı bilginlerin yaptı ˘ gı gibi, bilim adamları etrafımızdaki
dünyayı daha pragmatik bir seviyede anlayabilmek ve akabinde teknik sorulara
çözüm bulabilmek için, etrafımızdaki dünyayı matematiksel terimlerle temsil et-
meye devam ediyorlar. Gerçe˘ gi matematiksel bir dil ile ’taklit etmeye’ yardım
eden bu i¸ slem ve dü¸ sünce ¸ sekline, matematiksel modelleme adı veriliyor.
Bir problemi matematiksel terimler kullanarak göstermenin bazı yararları var.
˙
Ilki, altında oldu˘ gumuz ¸ sartları öne sürmemizi ve tanımlamamız için bizi zor-
laması, ki bu güzel bir ¸ sey. Gerçek dünyada olmakta olan problemler çetrefilli
olduklarından, hangi de˘ gi¸ skenlerin çözümümüz için önemli, hangisinin önem-
siz oldu˘ gunu daha matematiksel uygulama ba¸ slamadan kararla¸ stırmak önemli.
Bu seçim yapıldıktan sonra, genelde bazı kanunlar ve kuramlar kuruluyor ve bu
varsayımlar, modelimizin idealle¸ stirilmi¸ s hali adı altında irdelenmeye ba¸ slanıyor.
Matematik’in en önemli yararı, mantıksal sonuçlara varabilmek icin elimizdeki
varsayımlardan ba¸ slayarak bu formülleri de˘ gi¸ simden geçirmemize yardım eden
temel teknikler vermesi. Böylece elimize analiz yapabilmemiz için sa˘ glam bir
temel geçiyor, aradı ˘ gımız sonucun ne oldu˘ gunu ba¸ stan tam kestirmesek bile, bu
1
modelleme i¸ slemi bize yolda yardım edecek araçlar sa˘ glıyor.
Ayrıca matemati ˘ gin, bilgisayarlar tarafından sayısal cevaplar alınabilece˘ gi bir or-
tam sa˘ glamasi da önemli bir avantaj.
Etkili matematiksel modeller kurmak oldukça yetenek isteyen bir i¸ s, tasavvur ve
tarafsız irdeleyebilme kabiliyeti gerektiriyor. Daha önceden kurulmu¸ s olan öteki
modelleri örnek olarak incelemek, modelleme sürecinin nasıl bir ¸ sey oldu˘ gunu
hissetmek için yararlı olabilir. Revaçta modellemeyi ö˘ greten çok güzel kitaplar
ve makaleler var. Bu yazımızda bizim odaklanaca˘ gımız, birinci derecen türevsel
denklem içeren matematik modelleri olacak.
˙
Izleyece˘ gimiz modelleme i¸ sleminin
ana hatları ¸ söyle olacak.
Problemi Formüllere Dök
Bu safhada amacımız bir formülü kurmak. Böylece cevabın matematiksel olarak
’bulunabilece˘ gini’ umuyoruz. Tabii bu i¸ slem hem matemati ˘ gi hem de problem
alanını bilmemizi gerektiyor. Bu seviyede, matematikçi olmasa bile problemalanında
uzman olanlar kimseler ile konu¸ smanız yararlı olabilir. Ayrıca problem alanını
anlatan eserleri okumanız iyi olacaktır.
Modeli Geli¸ stir
Burada yapılacak iki ¸ sey var.
˙
Ilk önce hangi de˘ gi¸ skenler önemli, hangiler de˘ gil
ona karar vermeniz gerekiyor. Önemli olanların arasından, bazıları ba˘ gımlı bazıları
ba˘ gımsız de˘ gi¸ sken olarak tanımlanacaklar. Önemsiz de˘ gi¸ skenleri ¸ söyle farketm-
eniz mümkün; modellenen süreç üzerinde hiç etkisi olmayan de˘ gi¸ skenler sizin
için önemli de˘ gildir ve atılabilir. Mesela, binadan a¸ sa˘ gı dü¸ sen bir topun hareke-
tini incelemek istiyorsanız, topun hangi renkte oldu˘ gu modeliniz için önemsizdir.
Ba˘ gımsız de˘ gi¸ skenler modeli etkileyebilecek, modele giri¸ s olarak verilebilecek
de˘ gerlerden seçilir. Yere dü¸ sen cisim için, cismin ¸ sekli, kütlesi, ba¸ slangıç nok-
tası, ba¸ slangıç hızı, ve hangi zamanda bırakıldı ˘ gı bu tür ba˘ gımsız de˘ gi¸ skenler-
dendir. Ba˘ gımlı de˘ gi¸ skenler, adı üzerinde, de˘ gerleri ba˘ gımsız de˘ gi¸ skenlere ba˘ glı
olan fakat, gene de model için önemli olan de˘ gi¸ skenlerdir. Yere dü¸ sen cisim
için bunlar hız, katledilen mesafe, yere çarpma zamanı gibi de˘ gi¸ skenler ba˘ gımlı
de˘ gi¸ skenler arasında sayılabilir.
˙
Ikinci yapmak gereken ¸ sey, bu de˘ gi¸ skenler arasındaki ba˘ glantıları bulmak (mesela
birinci derece türevsel denklem kurarak). Bunu yapmak problem alanı hakkında
bilgi ve vizyon gerektirir. Taslak bir modelle ba¸ slayabilirsiniz, ve testleriniz sonu-
cunda modeli safile¸ stirmek (rafine etmek) mümkündür. Mesela yukarıdaki örnek
için ba¸ slangıçta sürtünme kuvvetini hesaba katmayabilirsiniz, fakat ileride daha
net sonuçlar için sürtünmeyi modele eklemeniz gerekebilir.
Modeli Test Et
Modeli hemen test verileri ile ’do˘ grulamaya’ u˘ gra¸ smadan önce, ¸ sunlara tekrar
göz atın.
2
• Varsayımlar akla yatkın mı?
• Denklemler birim de˘ gerlerini do˘ gru kullanıyor mu? (Mesela kuvvet de˘ ger-
lerini, hız de˘ geri ile toplamak yanlı¸ s olur)
• Model iç yapısı bakımından tutarlı mı? Yani, modeli olu¸ sturan denklemler
birbiri ile çatı¸ sma halinde mi?
• Elimizde olan denklemler çözüm verebilecek nitelikte mi?
• Çözümü bulmak, elimizdeki denklemler ile ne kadar zor olacak?
• Çözüm, inceledi ˘ gimiz probleme yardım edecek türden olacak mı?
Nüfus Artı¸ s Modeli
Bir ülkenin nüfus artı¸ sını nasıl tahmin edebiliriz? E˘ ger bir gurubun nüfus artı¸ sını
tahmin etmek istiyorsak, bu gurubu her dı¸ s etkiden uzak izole bir kapalı kutu
halinde dü¸ sünebiliriz. Bu kutu mesela biyolojide Petri taba˘ gı denen bir ortam,
ya da günlük hayatta bir ada olarak tanımlanabilecek bir ortam olabilir. Böylece
nüfus artı¸ sını izole bir ¸ sekilde ’tek odada’ incelememiz mümkün olacak.
Diyelimki, p(t), t zamanında ölçülecek olan nüfusu veriyor olsun. ¸ Simdi ço˘ galma
(do˘ gum) ve azalma (ölüm) hızlarını hesaplayalım.
Örnek olarak ¸ söyle dü¸ sünelim, bir bakteri kendini ikiye bölerek ço˘ galır. Bizim
modelimiz için de, büyüme hızının, o anki mevcut nüfusa oranlı oldu˘ gunu varsay-
alım. Bu varsayım bakterilerin büyüme ¸ sekli ile tutarlı. Büyüyecek yer ve yeteri
kadar yiyecek oldu˘ gu sürece, bakteriler büyüyece˘ gini biliyoruz. Bir di ˘ ger varsayım
da ¸ söyle olsun, ölüm oranı sıfır. (Unutmayalım ki, hücre bölünmesinde ebeveyn
hücre ölmez, iki hücre haline gelir). Yani bakteri nüfusu için bir model ¸ söyle ola-
bilir.
dp
dt
= k
1
p
p(0) = p
0
k
1
> 0 olarak tasavvur edece˘ giz. k
1
büyüme oranı ’sabitidir’. p
0
, nüfusun t = 0
(yani ba¸ slangıçtaki) sayısıdır. ¸ Simdi bakterilerden, insan nüfusuna gelelim.
˙
Insan
nüfusu için hiç ölmeme varsayımı tabii ki yanlı¸ s! Fakat, insanların sadece do˘ gal
sebeplerden öldü˘ günü varsayarsak, ölüm oranının da o anki nüfus sayısına oran-
tılı oldu˘ gunu dü¸ sünebiliriz. Bu yüzden, ilk denklemi de˘ gi¸ stirip, ¸ su hale getiriy-
oruz.
dp
dt
= k
1
p −k
2
p = (k
1
−k
2
)p = kp
k
2
olarak nitelenen sabit, ölüm oranı olarak temsil edildi. k
1
’in her zaman k
2
’den
büyük oldu˘ gunu farzedersek, asâgıdaki model çıkar.
dp
dt
= kp
3
p(0) = p
0
Birçok k sabiti kullanılmı¸ s olması aklınızı karı¸ stırmasın. Do˘ gum ve ölüm oranla-
maları de˘ gi¸ sik sabitler gerektiyor, ama önemli olan bir ’sabit’ kullanıldı ˘ gını far-
ketmek. Sonuçta demeye çalı¸ stı ˘ gımız nüfus ile nüfus büyümesi arasında do˘ grusal
bir ba˘ glantı olması. Sabite ihtiyacamız da buradan geliyor.
Elimize geçen son formül, ünlü bir formüldür, Maltezyen ya da nüfus artı¸ sının
üstel (exponential) kanunu olarak bilinir. Denklem ayırılabilir oldu˘ gu için, i¸ slem-
den geçirip p fonksiyonunu bulmak mümkün.
dp
dt
= kp, p(0) = p
0
dp
p
= kdt

dp
p
=

kdt
lnp = kt +C
p = e
C
e
kt
e
C
= C
1
p = C
1
e
kt
Maltezyen modelini test etmek için, Amerika’nın nüfus artı¸ s verisini kullanabili-
riz.
Sene Nufus Maltezyen Lojistik
1770 3.93 3.93 3.3
1800 5.31 5.19 5.30
1810 7.24 6.84 7.13
1820 9.64 9.03 9.58
1830 12.87 11.92 12.82
1840 17.07 15.73 17.07
1850 23.19 20.76 22.60
1860 31.44 27.39 29.70
1870 39.82 36.15 38.65
1880 50.16 47.70 49.69
1890 62.95 62.95 62.95
1900 75.99 83.07 78.37
1910 91.97 109.63 95.64
1920 105.71 144.67 114.21
1930 122.87 190.91 133.28
1940 131.67 251.94 152.00
1950 151.33 332.47 169.56
1960 179.32 438.75 185.35
1970 203.21 579.00 199.01
1980 226.50 764.08 210.46
1990 249.63 1008.32 219.77
2000 ? 1330.63 227.19
4
Örnek 1
E˘ ger t = 0 de˘ geri için 1790 senesini alırsak, son formüle göre ¸ söyle p(t) formülü
nasıl bulunabilir?
p(t) = (3.93)e
kt
p(100) = 62.95 = (3.93)e
100k
k =
ln(62.95) −ln(3.93)
100
≈ 0.027737
p(t) = (3.93)e
(0.027737)t
p(t)’yi bulduk. Yukarıda ki verilerden formülü kontrol edersek, Maltezyen tah-
mini 1900 tarihine kadar tuttu˘ gunu görürüz. Fakat 1900’den sonra tahmin edilen
nüfusun çok fazla, bu yüzden modelin i¸ slemedi ˘ gini görüyoruz.
Acaba model niye her zaman için i¸ slemedi? Dü¸ sünelim. Model, nüfus çok arttık-
tan sonra bozulmaya ba¸ sladı ˘ gına göre, nüfus fazlalı ˘ gı ile alakalı, ve bizim modele
almadı ˘ gımız bir faktör var demektir.
Maltezyen modeli, sadece do˘ gal sebeplerden olan ölümü göz önüne almı¸ stı. Öteki
ölümsebepleri de önemli olabilir, mesela yiyecek darlı ˘ gından olan ölümler, yeterli
sa˘ glık malzemesi olmaması, ilaç yoklu˘ gundan olan ölümler, bula¸ sıcı hastalılar ya
da suç i¸ sleyen insanlar yüzünden ölenler olabilir.
Bu tür faktörler insanlar arasında etkile¸ sim gerektirdi ˘ gi ve belli kaynaklara olan
yarı¸ sma sırasında vuku bulan ölme durumlerı oldu˘ gu için, modele, ikili ili¸ ski-
lerin de dikkate alındı ˘ gı bir ¸ sekilde geni¸ sletmemiz gerekiyor. Yani, p sayısındaki
bir nüfus için, p(p - 1) kadar ikili ili¸ ski oldu˘ gunu dü¸ sünürsek, o zaman bu ikili
ili¸ ski ve yarı¸ s sonucundaki ölüm oranını ¸ su ¸ sekilde modelleyebiliriz.
dp
dt
= ap −bp
2
Burada p ve p
2
ifadelerinin katsayilari, sabitleri degisik, cunku bir sabit normal
dogum olumu, digeri ise kaynaklara olan yaristaki olumler icin secildi.
Simdi biraz notasyon degisikligi, Cebirsel islemleri kolaylastirmak icin sabitlerde
biraz oynama yapacagiz. a = k, ve b = k/K diyelim.
kp −
k
K
p
2
=
dp
dt
kp(1 −
p
K
) =
dp
dt
Degisken ayirma (seperation of variables) yontemini kullanirsak
dp
p(1 −p/K)
= k dt
5
Iki tarafin da entegralini alalim

dp
p(1 −p/K)
=

k dt

1
p(1 −p/K)
dp =

k dt
Esitligin sol tarafinda entegralin icindeki ifadede hem bolum, hem boleni K ile
carparsak
=
K
p(K −p)
Bunun uzerinde kismi kesirler yontemini (partial fractions method) kullanabil-
iriz, ozellikle bolumdeki carpanlarin toplaminin bolumde oldugu durumlarda,
ki bizim ornegimizde bu p + K − p = K, bu ifadeyi ayirmak cok kolay, kismi
kesirlerin bolumu hemen 1 olabilir
=
1
p
+
1
K −p
Entegralde yerine koyalim

1
p
+
1
K −p
dp =

k dt

dp
p
+

dp
K −p
=

k dt
ln|p| −ln|K −p| = kt +C
ln

p
K −p

= kt +C
ln

K −p
p

= −kt −C
Iki tarafi e bazinda hesaplarsak

K −p
p

= e
−kt−C
Eger A = ±e
−C
alirsak
K −p
p
= Ae
−kt
(1)
K
p
−1 = Ae
−kt
K
p
= 1 +Ae
−kt
p
K
=
1
1 +Ae
−kt
6
p(t) =
K
1 +Ae
−kt
Final formule eristik.
Peki A nedir? Eger (1) ifadesine t = 0 verirsek
K −p(0)
p(0)
= Ae
k·0
= A
p(0) = p
0
diyelim
K −p
0
p
0
= A
Bu denklemin tahminleri cok daha iyi isleyecektir.
Elde ettigimiz p(t) fonksiyonunu grafikledigimiz zaman cikti suna benzeyecektir.
Elde edilen sekilde bir ’S’ goruntusunde, bu fonksiyona “S egrisi” adi verildigi
de oluyor. Bir diger isim “Hill fonksiyonu”.
Veri Uydurmak
Hill fonksiyonunu sayisal yontemler kullanarak tarihi veriye uydurarak, sabit-
lerini hesaplatmak mumkundur. Scipy paketindeki scipy.optimize.leastsq fonksiy-
onu bu isi yapabilir. Uydurmanin islemesi icin once bir f tanimlanir, daha sonra
bu fonksiyonun gercek veri ile arasindaki hatayi tanimlayan bir fonksiyon verilir.
Bu iki fonksiyon uzerinden veri uydurmasi yapilacaktir.
# US population prediction, Logistic growth, Hill function
# Amerika nufus artisi, lojistik denklem
from scipy import optimize
def f(t,A,k,K):
return K / (1+A
*
np.exp(-k
*
t))
def resid(p, y, t):
A,k,K = p
7
return y - f(t,A,k,K)
t, x1 = np.loadtxt(’us.txt’, unpack=True)
t = np.linspace(0,10,len(t))
A0,k0,K0 = 1, 1, 1
[A,k,K], flag = optimize.leastsq(resid, [A0,k0,K0], args=(x1, t))
print flag, A, k, K
plt.plot(t, x1, ’ro’)
plt.hold(True)
t = np.linspace(0,20,len(t))
plt.plot(t, f(t,A,k,K), ’go’)
plt.savefig(’us.png’)
1 43.0658055581 0.427360301123 394.758729112
Program isletildikten sonra grafik basilacak. Grafikte kirmizi noktalar gercek
veri, yesil noktalar ise uyumu yapilmis fonksiyonun gelecek yillar icin gosterdigi
tahmindir.
Sonuç
Bu yazıda hem model kurmanın ve türevsel denklemlerin yararlarını gördük.
Türevsel denklem kurarken dü¸ sünülmesi gereken, dp/dt görünce ’oran’ dü¸ sün-
mek, yani akla ’de˘ gi¸ sim’ getirmek. Tabii daha türevleri daha detaylı anlaya-
bilmek için (ispatı ile birlikte) limitlerin kuramı yararlı olur, fakat unutmayalım
ki limitlerin analiz’in ispatı için yeti¸ sinceye kadar yüzyıllar geçmi¸ sti! Analiz’in
tam ispatı daha gelmeden, mühendisler ve bilim adamları türevleri ve tümlevleri
kullanıyorlardı.
Analiz, dinamik olan sistemler için kullanılır, yani de˘ gi¸ smekte olan sistemler için
gereklidirler. Analiz’in tarihinin fizik ile yakın alakası bundandır.
Kaynaklar
Lerma, Math 214-2 Integral Calculus Lecture Notes http://www.math.northwestern.
edu/~mlerma/courses/math214-2-03f
8
Chan, Scientific Scripting with Python for Computational Immunology
9
Hesapsal Zorluk Teorisi (Computational Complexity)
Hesapsal Zorluk Teorisi algoritmaların yer ve zaman gibi kaynakları ne kadar
kullandı ˘ gından hareketle bu algoritmaları kategorize etmeye u˘ gras¸ır. Di ˘ ger bazı
amac¸lar, hangi algoritmaların c¸ ¨ oz¨ ums ¨ uz olaca˘ gı, hangi algoritmaların c¸ok zaman
alacak olsa bile, eninde sonunda bir sonuca varabilece˘ gi gibi konulardır.
Algoritma t ¨ urlerinin arasındaki benzerlikleri bulmak, zorluk teorisinde ¨ onemli
bir yer tutar. Mesela problemP ic¸in bir algoritma yazmamız gerekti ˘ gini d¨ us¸ ¨ unelim,
ve aynı g¨ un kuramsal bir bilgisayar bilim makˆ alesinde, bizim problemin di ˘ ger bir
”A problemi” ile tıpatıp aynı oldu˘ gunu okuduk. Bu makˆ aleye g¨ ore, A problemi-
nin kabakuvvet c¸ ¨ oz¨ um¨ un¨ un ”yavas¸” oldu˘ gu belirtilmis¸ olabilir, ve hızlı c¸ ¨ oz¨ um¨ un
imkansız oldu˘ gu da ispat edilmis¸tir (mesela).
Bu bilgiden hareketle, ¨ uzerinde u˘ gras¸tı ˘ gımiz algoritmanın hızlı c¨ oz¨ um¨ un¨ un ola-
mayaca˘ gını daha bas¸tan anlamıs¸ oluyoruz, gereksiz zaman harcamayarak ya prob-
lemi basitles¸tirmeye ya da akıllı tahmin (heuristic) ekleyerek c¸ ¨ oz¨ um¨ u biraz ol-
sun hızlandırmaya c¸alıs¸abiliriz. Bilgisayar bilimde algoritmalar arasındaki ben-
zerlik c¸ok sıkı bir ilis¸ki, bu y¨ uzden algoritma kategorilerinin hangi problemleri
ic¸erdi ˘ gine dikkat etmek lazim.
Di ˘ ger Konular
Yazı dizisinin sonunda hızlı ve ya yavas¸ algoritma s¨ oz¨ un¨ un teorik olarak ne
ifade etti ˘ gini hesapsal y¨ uk teorisinin bas¸ arac¸larından olan indirgeme (reduction)
tekni ˘ gini g¨ orece˘ giz. Problemler arasındaki benzerli ˘ gin, birini ¨ otekini indirgemek
ile m¨ umk¨ un oldu˘ gunu g¨ ostermeye u˘ gras¸aca˘ gız.
Turing makinalarını, bas¸tan planlı (deterministic), bas¸tan plansız (nondetermin-
istic) s¸ekillerini de yazılarımızda g¨ ormeniz m¨ umk¨ un olacak.
Algoritma
Algoritma bas¸ı sonu belli, her muhtemel sec¸enek ic¸in ¨ onceden belirlenmis¸ bir kod
parc¸asının devreye girdi ˘ gi bir veri ve eylemler dizisidir. Bu algoritmayı yazarken
ic¸inde bulundu˘ gumuz evren, de˘ gis¸kenler, girdi, c¸ıktı aletleri, e˘ ger/eylem c¸iftleri,
gibi kavramların oldu˘ gu bir evren. Bu dili is¸leten makinayı bir soyut makina
olarak gorelim. Fakat g¨ orece˘ giz ki, halˆ a teorik is¸ yapmamız ic¸in bu makina yeteri
kadar basit de˘ gildir. Kullandı ˘ gımız ’esnek’ dili destekleyen makinamız oldukc¸a
c¸etrefil hˆ alde. Ayrıca, dili de˘ gis¸tirirsek (Java yerine LISP gibi) makinın da de˘ gis¸mesi
gerekir, b¨ ut ¨ un dilleri temsil edebilen bir makina bulamaz mıyız? Teorik is¸ yapa-
bilmemiz ic¸in b¨ oyle evrensel bir makinaya ihtiyacımız var.
Dili basitles¸tirelim. Direk eris¸imli (random access) belle˘ gi olan, komutları ve
verisi aynı g¨ oz¨ uken bir makina yapalım ve onun kullandı ˘ gı dili tasarlayalım. (Bu
makina g¨ un¨ um¨ uzde kullanılan bilgisayardır).
Peki bu makina daha da basit olamaz mı?
Olur. Tek bir teyp ¨ uzerinde girdisini tutan, her an, ¨ onceden belirli ve sayılı konum/durum
ic¸inde olabilen, komutlarını, durumdan/duruma gec¸is¸ listesi olarak tutan bir
1
makina d¨ us¸ ¨ unelim.
¨
Oyle g¨ oz¨ uk¨ uyor ki, artık bilgisayar is¸leminin ruhuna indik. Bundan daha basit
bir makina tasarlamamız m¨ umk¨ un g¨ oz¨ ukm¨ uyor. Durum, gec¸is¸, ve teyp kavram-
larını kullanarak her t ¨ url ¨ u bilgisayar hesabını temsil edebilece˘ gimizi d¨ us¸ ¨ un¨ ursek
(bunun ispatları yapılmıs¸tır), en basit temsil s¸eklinde varmıs¸ oldu˘ gumuzu g¨ or ¨ uyoruz.
˙
Is¸te bu makina, Turing makinası olarak bilinir.
Turing Makinası
Formel olarak, Turing makinası M s¸u d¨ ortl ¨ uy¨ u ic¸erir:
M = (K, Σ, δ, s)
K = makina durumu (state)
δ = gecis fonksiyonu
Σ = teyp alfabesi
s: teyp verisi
D¨ ortl ¨ u ic¸indeki b¨ ut ¨ un terimler birer k¨ umedir. K terimi, M makinasının ic¸erdi ˘ gi
durumların k¨ umesi, delta b¨ ut ¨ un gec¸is¸lerin listesi, sigma, alfabe oldu˘ gu ic¸in teypin
kullandı ˘ gı harflerin k¨ umesi ve s, giris¸ ic¸in Mmakinasına verilen harflerin k¨ umesidir.
S¸imdi programa d¨ onelim: Gec¸is¸ fonksiyonu olan delta, yani program, K x Sigma
ile, (K U dur, ”evet”, ”hayır”) x Sigma x Sol, Sa˘ g, Hareketsiz k¨ ume ¨ uyelerini bir-
birine es¸ler. Yani gec¸is¸ fonksiyonu, durum+teyp sembolu ikililerini, durum+teyp
sembolu+teyp hareketi ¨ uc¸l ¨ ulerine es¸lemektedir.
Not: ’x’ operasyonu, iki k¨ ume arasında kartezyen es¸leme yapmaktadır. Yˆ ani, A x
B, Ak¨ umesinin her elemanı ile B k¨ umesinin her elemanını es¸leyerek, —A—*—B—
sayıda yeni bir k¨ ume olus¸turur. SQL dilini bilenler JOIN komutu ile ba˘ glantı
kurabilirler)
2
Turing makinasının is¸levi, makinanın o anda g¨ ord¨ u˘ g¨ u, kafasının okudu˘ gu sem-
bol, ve o an ic¸inde olunan duruma g¨ ore bas¸ka bir duruma gec¸mek, ve (gerekiy-
orsa) teype yeni bir harf yazmak, sonra da teyp kafasını gene programa g¨ ore
sa˘ ga ya da sola hareket ettirmekten ibarettir. Teyp kafasını hareketsiz bırakmakta
m¨ umk¨ und¨ ur.
Bu kadar basit temel is¸lemlere dayanan bir modelin d¨ unyadaki b¨ ut ¨ un algorit-
maları temsil edebilmesi ilginc¸ de˘ gil mi?
¨
Ornek Turing makinası olarak, as¸a˘ gıda teyp ¨ uzerinden verilen bir metnin palin-
drom olup olmadı ˘ gını anlayabilen bir Turing Makinayı g¨ orebilirsiniz. Bu pro-
gram (makina), e˘ ger metin palindrom ise ”evet” cevabı verecek, de˘ gil ise ”hayır”
cevabı verecektir. Palindrommetni, ”arabaabara” gibi, ic¸inde ”araba” kelimesinin
ters y¨ uz edilerek yanyana konuldu˘ gu metne verilen isimdir. Palindrom tanımak
c¸ok kolay olmayıp c¸ok zor da olmayan bir ¨ ornek oldu˘ gu ic¸in hesapsal y¨ uk teorisi
kitaplarında oldukc¸a kullanılmaktadır.
Church-Turing Tezi
Aras¸tırmacılar uzun s ¨ ure Turing makinasından daha basit bir model bulmaya
u˘ gras¸tılar, ve bu u˘ gras¸ıda bas¸arısız oldular.
Daha sonra aras¸tırmacılar, kac¸ de˘ gis¸ik makina modelinin mevcut olabilece˘ gini
anlamak ic¸in, en basit Turing makinasının c¸ ¨ ozemeyece˘ gi problemleri c¸ ¨ ozecek
makinalar tasarlamaya da u˘ gras¸tılar. Mesela RAM, birden fazla teyp, vs. gibi
ekler koyarak, basit modeli g¨ uc¸lendirmeye c¸abaladılar. E˘ ger en basit modelin
c¸ ¨ ozemeyece˘ gi bir problemi c¸ ¨ ozen bir model bulsalardı, bu model yeni ve alter-
natif bir model olabilirdi. Yeni modelin de˘ gis¸ik olup olmadı ˘ gını nasıl anlamak
ic¸in, kuramcılar indirgeme denen bir tekni ˘ gi kullandılar.
˙
Indirgeme, yeni mod-
elle kurulmus¸ olan makinayı, eski modelle kurulmus¸ makina aracılı ˘ gı ile, yani
onun dili ile, simule etmektir.
Bu simulasyonun ’d¨ on¨ us¸ ¨ um’ denen as¸amasında, simule edilen makinanın gir-
disi, ¨ otekine c¸ok hızlı bir s¸ekilde d¨ on¨ us¸t ¨ ur ¨ ul ¨ ur. Hemen ardından simule eden
3
makinaya girdi olarak verilir. C¸ ıktı da aynı s¸ekilde d¨ on¨ us¸t ¨ ur ¨ ul ¨ ur.
E˘ ger c¸ok hızlı (polinom zamanlı) olarak d¨ on¨ us¸ ¨ um¨ u yapabildiysek, ve simule de
c¸alıs¸ır ise, indirgeme bas¸arılı olmus¸ demektir.
Fakat, g¨ or ¨ ulm¨ us¸t ¨ ur ki, envai t ¨ urden ekler ile g¨ uc¸lenen her ’s¨ ozde yeni’ model en
basit Turing makinasına indirgenebilmis¸tir. Demek ki bu ’yeni’ modeller gerc¸ekten
yeni model de˘ gillerdi, ve is¸te bu bu sayede bilgisayarlar ic¸in en basit Turing mak-
inasından alternatif bir model olamaca˘ gı kanıtlanmıs¸ oldu.
B¨ ut ¨ un bu bulgulara dayanarak Church ve Turing s¸u tezi kabul etmeye karar
verdiler.
”Bir algoritma ile, (b¨ ut ¨ un girdilerine ”evet” ve ”hayır” cevabı verebilen) bir Tur-
ing makinası tamamen aynıdır. Birbirleri arasında direk ilis¸ki vardır. ”
Yani, algoritma denen soyut kavram, en basit Turing makinası ¨ uzerinde yazılan
bir program demektir, b¨ ut ¨ un teorik hesaplar ve kuramlar bu en basit makina
¨ uzerinden yapılabilir.
Bu ortak bilgisayar kavramında fikirbirli ˘ gine varılmasının ne kadar ¨ onemli oldu˘ gunu
vurgulamak istiyorum. Teorik d¨ unyada, ’bilgisayar’ denince, formel bir kavram
akla gelmelidir. En basit makinalar arasında en g¨ uc¸l ¨ us ¨ u sec¸ilerek, bu makinayı
baz alan kuramların da aynı s¸ekilde basit olması sa˘ glanmıs¸tır. Basitlik, bilim
d¨ unyasında ¨ onemli yer tutar.
”Her girdiye evet ya da hayır cevabı veren” makinaların ¨ ozellikle belirtilmesi
ilginc¸tir. Bunun sebebi s¸udur; Her Turing makınasının (yani programın) is¸leyis¸ini
biterek durması garanti de˘ gildir. Sonsuz d¨ ong¨ uye giren programları hepimiz
biliyoruz. E˘ ger evrendeki her Turing makinasını 11001010... gibi bir ikili d¨ uzen
kodu ile belirtiliyorsak, bu makinalardan her biri durup, ”evet” ya da ”hayır”
cevabı veriyor olamaz (bu s¨ oylemin ispatını Algoritma Yuku konulu yazida g¨ orebilirsiniz).
Church-Turing tezi, duran ve ”evet” ya da ”hayır” cevabı veren makinaların bir
algoritma ile es¸g¨ or ¨ ulmesini belirtmis¸tir.
Ek olarak belirtmek gerekir ki, Church-Turing tezi sadece bir tezdir, yani bir
¨ onkabuld¨ ur. Aynen matematikteki bir aksiyom gibidir, yani ispatlanmıs¸ teori
de˘ gildir. Bu sebeple do˘ grulu˘ gu veya yanlıs¸lı ˘ gı ispat edilemez. Geometride nokta,
c¸izgi gibi kavramların en bas¸tan ispatsız olarak kabul edildi ˘ gi gibi, Church-Turing
tezi bir bas¸langıc¸ ¨ onkabuludur. Bu ¨ onkabul olmadan geri kalan teorileri bir temele
oturtmamız m¨ umk¨ un olmazdı.
Tabii, Church-Turing tezi bir tez oldu˘ guna g¨ ore, bas¸ka bir tez gelecek olsa de˘ gis¸ik
bir bilgisayar bilim teorisi kurulabilirdi. Fakat aras¸tırmacılar bunun m¨ umk¨ un
oldu˘ gunu d¨ us¸ ¨ unm¨ uyor.
Sonsuza Giden
˙
Ikili Sayıların K¨ umesi
As¸a˘ gıda g¨ osterilen k¨ ume, sayılamayan sonsuz bir k¨ umedir.
B =
4
{1101 ....... }
{1011 ....... }
{1110 ....... }
{.100 ....... }
{.011 ....... }
...
Teori: B sayılamayan sonsuzluktadır.
˙
Ispat:
B’nin sayılabilir oldu˘ gunu farzedelim.
Kullanılan matematiksel teknik: Bir teorinin ”kars¸ıtının” do˘ gru oldu˘ gunu, yani
B’nin sayılabilir bir sonsuzluk oldu˘ gunu farzedip yola devameder, ve anlamsız/sac¸ma/absurd
bir sonuca varırsak, tersini farzetti ˘ gimizi teori do˘ gru demektir. Bu, yanlıs¸ın yanlıs¸lı ˘ gının
do˘ gruyu vermesidir bir anlamda.
Bu teknik, matematikte ”kars¸ıtlık ile ispat etmek” diye bilinir. Teorinin tersini
kabul edip yanlıs¸ bir sonuca vardıysak, demek ki teori do˘ grudur .
Devam edelim. B’nin sayılabilir oldu˘ gunu farzetti ˘ gimize g¨ ore, as¸a˘ gıdaki gibi bir
es¸leme m¨ umk¨ un olabilir.
S¸imdi, do˘ gal sayılar ile olan es¸lemeyi yanlıs¸ c¸ıkartmak ic¸in ¨ oyle bir sayı bulaca˘ gız
ki, hic¸bir n ile es¸lenemeyecek.
Bu sayı, k¨ os¸egen ¨ uzerindeki sayının ikili aritmeti ˘ ge g¨ ore tam tersi olsun (k¨ os¸egen
as¸a˘ gıda g¨ osterilmis¸tir)
Yani k¨ os¸egendeki 1010.. yerine, 0101... kullanaca˘ gız. Bu sayı, bir n ile es¸lenebilir
mi?
Hayır! Neden oldu˘ gunu g¨ orelim. Bu es¸lemenin imkansız olmasının sebebi, sol
5
tarafta 1,2,..n diye giderken, n’in kars¸ısındaki f(n)’in (terslik kuralımız y¨ uz¨ unden)
n’inci de˘ gerinin her zaman gerekenden ters bir de˘ ger olaca˘ gıdır.
Halbuki, elimizde sonsuz tane 0 ve 1 var, ve elimizdeki 0101.. de˘ gerini bir yer-
lere koyabilmeliydik. Fakat elimizdeki gayet masum ve basit kurala g¨ ore bile
bunu yapamıyoruz. Demek ki, bas¸ta yapılan faraziye, yanlıs¸ idi, bu da teorinin
do˘ grulu˘ gunu ispatlar. B sayılamayan b¨ uy¨ ukl ¨ ukte bir sonsuz k¨ umedir.
Sonsuzluklar Arasındaki Farklar
˙
Iki sonsuzluk arasındaki en bariz fark, bir sonsuzlu˘ gun sayılabilir ¨ otekinin de
sayılamayan t ¨ urden oldu˘ gu zaman ortaya c¸ıkar. Sayılabilen sonsuzlukları tanımlamak
ic¸in, ¨ unl ¨ u matematikc¸i Kurt G¨ odel, inceledi ˘ gi k¨ umeyi do˘ gal sayılar ile es¸leme
tekni ˘ gini denedi. Do˘ gal sayılar bildi ˘ gimiz gibi 1’den bas¸layarak sonsuza kadar
birer birer artan tam sayıların k¨ umesidir.
Sayılabilir Sonsuzluklar
Zaten herhangi bir s¸eyi sayarken de yaptı ˘ gımiz bu de˘ gil midir? Parmakla g¨ osterip,
s¨ oyleriz ”bir..iki.. ¨ uc¸...vs.”, ve kullandı ˘ gımız b¨ ut ¨ un bu sayılar birer do˘ gal sayıdır.
Yani sayarken biz de g¨ osterdi ˘ gimiz s¸eyi, bir do˘ gal sayı ile es¸leriz.
Bu es¸lemenin gec¸erli olabilmesi ic¸in, en g¨ uc¸l ¨ u matematiksel hˆ alinde olması gerekiyor,
yani bize lazımolan birebir ve ¨ orten t ¨ urden bir es¸lemedir... Ave B k¨ umesi d¨ us¸ ¨ un¨ ursek;
Birebir es¸leme, iki de˘ gis¸ik Aelemanının hic¸bir zaman aynı B elemanına es¸lenmedi ˘ gi
zaman ortaya c¸ıkar, ¨ orten es¸leme ise, B’nin b¨ ut ¨ un elemanlarının A’nın bir elemanı
ile muhakkak es¸lendi ˘ gi zaman ortaya c¸ıkar.
Bu iki t ¨ ur es¸lemenin oldu˘ gu zaman, elimizde tekab¨ ul etme (correspondence) ilis¸kisi
c¸ıkar.
S¸imdi tekab¨ ul tekni ˘ gi kullanarak ¨ ornek k¨ umeleri inceleyelim: Mesela, 2,4,6,...
olarak ikis¸er ikis¸er artan sayılar k¨ umesi sayılabilir bir sonsuzluk mudur?
Bu soruyu, yeni bilgilerimiz ıs¸ı ˘ gında de˘ gis¸tirerek tekrar soruyoruz; Do˘ gal sayılar
ile 2,4,... k¨ umesi arasında ilis¸ki varmı dır?
Ek not: Lise matemati ˘ ginden hatırlayaca˘ gımız fonksiyon kavramı, aslında bir
tekab¨ ul ilis¸kisidir.
Demek ki, do˘ gal sayılar ile 2,4,...N arasında bir fonksiyon bulabilirsek, tekab¨ ul
ilis¸kisini kurmus¸ olaca˘ gız, ve 2,4,...N’in sayılabilir bir k¨ ume oldu˘ gunu ispatlamıs¸
olaca˘ gız.
Bu fonksiyonu bulmak oldukc¸a basit: f(x) = 2x. Demek ki 2,4,6.. k¨ umesi sayılabilir
bir sonsuzluktur.
Sayılamayan Sonsuzluklar
Gerc¸ek sayılar, noktadan sonra kesire devam eden sayılardır, mesela pi sayısı
3.1415926.. ya da 2’nin karek¨ ok¨ u 1.4142135... sayıları gerc¸ek sayılardır. Cantor, R
k¨ umesinin sayılamaz oldu˘ gunu k¨ os¸egenles¸tirme (diagonalization) tekni ˘ gini kul-
6
lanarak ispat etmis¸tir.
Teori: Gerc¸ek sayılar k¨ umesi R (real numbers), sayılamaz bir k¨ umedir.
˙
Ispat: R’ın sayılamaz oldu˘ gunu ispat etmek ic¸in, R ile N (do˘ gal sayılar) arasında
tekab¨ ul ilis¸kisi olmadı ˘ gını ispat etmek zorundayız.
˙
Ispat, kars¸ıtlık ile ispat etme
tekni ˘ gini kullanacak. D¨ us¸ ¨ unelim ki, N ile R arasında f denen bir tekab¨ ul ilis¸kisi
m¨ umk¨ un. Bizim yapmamız gereken, f’in gerekti ˘ gi gibi c¸alıs¸amaca˘ gını ispat et-
mekten ibaret.
F’in do˘ gru bir tekab¨ ul ilis¸kisi olabilmesi ic¸in, f b¨ ut ¨ un N’in elemanlarını, t ¨ um R
elemanları ile es¸lemelidir. Ama biz ¨ oyle bir x bulaca˘ gız ki, bu x hic¸bir N elemanı
ile es¸lenemeyecek. Aradı ˘ gımız kars¸ıtlıkta is¸te bu x olacak.
Bu x’i arayıp bulamayız tabii, ama ins¸a edebiliriz.
S¸imdi, tekab¨ ul ilis¸kisinin oldu˘ gu farzından yola c¸ıkarak, as¸a˘ gıdaki t ¨ urden bir
ilis¸kinin mevcut oldu˘ gunu varsayalım.
n f(n)
1 3.14159....
2 55.555555...
3 0.12345...
4 0.5000000...
.. ...
Bu tekab¨ ul ilis¸kisi, f(1) = 3.14159...., f(2) = 55.55555..., f(3) = .. .olarak devam
ediyor. Yani, f is¸levi 1 sayısını 3.14159 ile es¸liyor, 2 sayısını 55.55555 ile es¸liyor,
vs.
Bas¸taki farzla ilerleyip geri kalan sonuc¸ları patlatmak ic¸in, amacımız f(n)’in ¨ uyesi
olamayacak bir x bulmak idi. Bunun ic¸in s¸ ¨ oyle bir x kurgulayabiliriz.
X’in ins¸a kuralını s¸ ¨ oyle saptayalım: X’in 1. basama˘ gındaki sayı, f(1)’in nok-
tadan sonraki 1. basama˘ gındaki sayıdan farklı olsun. Ne olursa olsun ( ¨ onemli
de˘ gil) ama farklı olsun. Yukarıdaki f(1) ¨ orne˘ ginde bu sayı 1 (3.14159..), o zaman
x’in noktadan sonraki 1. sayısı, 1’den farklı olması gerekiyor; mesela, rasgele
sec¸iyoruz, 4.
Aynı s¸ekilde, x’in f(2)’de olamamasını zorlamak ic¸in, x’in 2. basma˘ gındaki sayının
f(2)’nin 2. basama˘ gındaki sayıdan farklı sec¸iyoruz. Yani, 5 yerine (55.55555..)
diyelim 6.
Gene aynı s¸ekilde, x’in f(3) ic¸in, 3 yerine 4 sec¸ebiliriz, vs..
Bu s¸ekilde f(n)’in k¨ os¸egeni ¨ uzerinde devam ederek bir x olus¸turmus¸ oluruz.
7
n f(n)
1 3.14159....
2 55.555555...
3 0.12345...
4 0.5000000...
.. ...
x = 0.464...
X’in f(n)’in ¨ uyesi olamayaca˘ gını bu s¸ekilde ispatlamıs¸ oluyoruz, c¸ ¨ unk¨ u x’in n’inci
basama˘ gı, f(n)’in noktadan sonraki n’inci basama˘ gından her zaman de˘ gis¸ik ola-
caktır.
Not: Biraz daha g¨ orsel olan ispatlar, s¸unu da ekleyebiliyor: X’i f(n) ic¸ine sokus¸turmus¸
oldu˘ gumuzu d¨ us¸ ¨ un¨ un;
n f(n)
1 3.14159....
2 55.555555...
3 0.12345...
4 0.5000000...
.. ...
.. 0.464 ???
Soru is¸areti yerine hangi sayı gelmelidir? :)
Soru is¸areti yerine istedi ˘ giniz sayıyı koyun, bir taraf o sayının ¨ oyle kabul etmekte,
x sırası ise ne olursa olsun, o sayı olmasın (!) demektedir. Bu da bir c¸akıs¸ma,
uyus¸mazlı, abs ¨ urdl ¨ uk ve sac¸malıktır. Demek ki bas¸taki faraziyemis¸ yanlıs¸tır.
Demek ki, R k¨ umesi olan f(n), do˘ gal sayılar (n) ile es¸lenemiyor; O zaman R
sayılamayan b¨ uy¨ ukl ¨ ukte sonsuz bir k¨ ume olmaktadır.
Durmayan Turing Makinaları Var mıdır?
Bilgisayar bilimde, bir dil (language) ile algoritma (Turing makinası) arasında c¸ok
sıkı bir ba˘ glantı vardır.
Algoritma, belli bir problemi c¸ ¨ ozmek ic¸in yazılır. Bu problemi c¸ ¨ ozmek demek,
¨ onceden kararlas¸tırılmıs¸ bir alfabe ¨ uzerinden olus¸turulabilecek bir girdinin is¸lenmesi,
ve bu girdiye ve programın mantı ˘ gına g¨ ore bir cevabın verilmesidir.
Algoritma ile es¸ g¨ or ¨ ulen Turing makinalarının yaptı ˘ gı (bkz. Church-Turing tezi),
girdiye ”ret” vermek, ya da ”kabul” etmektir.
Ozaman, bir Turing makinasının kabul etti ˘ gi t ¨ umgirdilerin toplamını d¨ us¸ ¨ un¨ ursek;
bu toplama bir dil diyebiliriz.
Formel olarak
8
Demek ki, bir evet/hayır t ¨ ur ¨ unden karar problemini, aynı zamanda ”bir dilin
karar verilme” problemi gibi de g¨ orebiliriz. Bilgisayara verilen girdiyi (bir dile
ait olan bir girdiyi) anlayabiliyor muyuz? Anlamaktan ¨ ote, evet ya da hayır diye-
biliyor muyuz? Verilen girdinin, bekledi ˘ gimiz dile ait olup olmadı ˘ gına kesin evet
ya da hayır diyebiliyor muyuz?
Diller, Problemler
Bunu takiben s¸u soru sorulabilir: B¨ ut ¨ un bunlar iyi de, bilgisayarların is¸i c¸o˘ gu za-
man evet/hayır cevabı veren programlar de˘ gil ki. C¸ o˘ gu problem, hesaplanmıs¸
bir de˘ ger istiyor, bir sonuc¸, c¸ıktı veriyor. D¨ unyadaki her problemi bir karar prob-
lemine c¸evirebilir miyiz?
Bu da kritik bir sorudur. Bunun da cevabı da ”evet” olacak. Mesela bir opti-
mizasyon problemini d¨ us¸ ¨ unelim. S¸u ¨ unl ¨ u seyahat eden satıcı problemi. N sayıda
s¸ehir arasındaki uzaklıklar biliniyor, b¨ ut ¨ un s¸ehirleri ziyaret etmek kaydıyla, en
kısa katedilebilecek yolu bulmamız lazım. Yani cevap, en kısa olan g¨ uzergahın
raporudur.
Bas¸langıc¸ta evet/hayır cevabı verilmesi m¨ umk¨ un g¨ oz¨ ukmeyen bu problemi, aslında
bir es¸ik de˘ geri vererek bir karar problemine d¨ on¨ us¸t ¨ urebiliriz. Yani, ”en kısa yolu
bul” yerine, ”katedilen en kısa yol 1-4-3-3 s¸ehirleri mi?” sorusuna evet ya da hayır
cevabı verilmesi gibi.
Her Problem = Dil Ama Her Dil=Problem Mi?
Bu kadar giris¸i, bir problemin (makinanın) bir dil ile aynı oldu˘ gunu belirtmek
ic¸in yaptık. Fakat bunun tersi, her zaman gec¸erli de˘ gildir.
D¨ unyadaki her dile karar verebilen bir Turing makinası olmayabilir.
Bu uyus¸mazlı ˘ gın sebebi ne olabilir?
Basit bir sayı farkı bu uyus¸mazlı ˘ ga yol ac¸acaktır. E˘ ger evrendeki t ¨ um m¨ umk¨ un
dillerin sayısı, t ¨ um m¨ umk¨ un Turing makinalarından fazla ise, demek ki bazı
diller ic¸in Turing makinası olamaz, ve bu diller karar verilen diller kategorisine
giremezler.
˙
Iyice kafaların karıs¸tı ˘ gını g¨ or ¨ ur gibi oluyorum. T¨ um diller derken bir sonsuzluk-
tan bahsediyoruz, aynı s¸ekilde t ¨ um Turing makinaları derken de sonsuzluktan
bahsediyoruz.. Bir sonsuzluk ¨ oteki sonsuzluktan nasıl b¨ uy¨ uk olabilir?
9
Evet olabiliyor! Bazı sonsuzlukların bazı sonsuzluklardan daha b¨ uy¨ uk oldu˘ gu
matematiksel olarak ispatlandı, ve tabii ki bu c¸ok b¨ uy¨ uk bir bulus¸ oldu.
Bu yazıda numaralar ¨ uzerinden g¨ ord¨ u˘ g¨ um¨ uz ¨ ornekte oldu˘ gu gibi, t ¨ um Turing
makinalarının sayılabilir oldu˘ gunu, ama t ¨ umdillerin sayılamayan kadar oldu˘ gunu
ispatlayabilirsek, aradaki bariz farktan hareketle, bazı dilleri karar verebilecek bir
Turing makinasının olamayaca˘ gını da ispatlamıs¸ oluruz.
Teori: Her dil karar verilebilen bir dil de˘ gildir.
˙
Ispat: B¨ ut ¨ un Turing makinalarının sayılabilir kadar oldu˘ gunu biliyoruz. Tur-
ing makinası bir program oldu˘ guna g¨ ore, her programın bir metin olarak kod-
lanması m¨ umk¨ und¨ ur. Bu kodlamayı 0,1 gibi bir alfabe ile yapacak olsak, t ¨ um
Turing makinaları 0,1* k¨ umesine dahil oldu˘ gunu s¨ oyleyebiliriz. 0,1* k¨ umesi,
0,1,00,01,11,000,... olarak sonsuza giden bir k¨ umedir. Bu k¨ umenin ic¸inden gec¸erli
olmayan (bozuk) Turing makinalarını atsak, geriye kalan hˆ ala sayılabilir bir son-
suzluktadır.
S¸imdi, t ¨ um dillere d¨ onelim. Bir dil, mesela gene aynı sigma alfabesi ¨ uzerinde
0,1,00,01,11,000,... olarak giden bir k¨ umede ”sadece 1 ile bas¸layan metinler” ola-
bilir. Aynı s¸ekilde ”sadece 0 ile bas¸layan metinler” bir bas¸ka dil olabilir, vs. Yani,
sayılabilir sonsuz oldu˘ gunu bildi ˘ gimiz 0,1* ¨ uzerinden, sonsuz kadar altk¨ ume
olus¸turuyoruz, t ¨ um diller is¸te bu k¨ umede oluyor.
Bu yeni k¨ ume, sayılamayan bir sonsuzluktur.
˙
Ispat ic¸in, yeni k¨ umeyi, B adını
verece˘ gimiz sayılamayan sonsuz bas¸ka bir k¨ ume ile birebir ve ¨ orten t ¨ urden es¸leyelim.
B k¨ umesi, sigma alfabesi ¨ uzerinden yarattı ˘ gımız ve her bir ¨ uyesi sonsuza giden,
ayrıca bu ¨ uyelerden sonsuz kadar olan bir k¨ umedir.
E˘ ger es¸leme bas¸arı ile sonuc¸lanırsa, t ¨ um dillerin de sayılamayan kadar sonsuz
oldu˘ gu ispatlanmıs¸ olacaktır.
As¸a˘ gıda bu es¸lemenin bir ¨ orne˘ gini g¨ or ¨ uyoruz. A ile g¨ osterilen bir dildir. A dili, 0
ile bas¸layan b¨ ut ¨ un ikili d¨ uzenli sayıların dili olsun. S¸imdi, bu dilin elemanlarına
tekab¨ ul eden hemen altındaki Xa sırasına bakın. Bu sırada, e˘ ger bir ¨ o˘ ge o dile ait
ise, bu ¨ o˘ genin o sıradaki bit de˘ geri 1 olacak. Ait de˘ gil ise 0.
Nereye gelmeye c¸alıs¸tı ˘ gımızı herhalde g¨ or ¨ uyoruz. X
A
numarasının tamˆ amı, A
dilinin bir nevi ”temsilci numarası” olmaktadır. Aynı s¸ekilde ”1 ile bas¸layan
metinlerin toplamı olan dil”’in temsilci no’su bas¸ka olacaktır (mesela X
C
). Tem-
silci no’su, aynen B k¨ umesinin elemanları gibi, sonsuza giden bir ikili sayıdır.
B¨ ut ¨ un dillerin temsilci no’larının k¨ umesi, B ile tekab¨ ul eden bir ilis¸ki ic¸indedir.
10
Demek ki b¨ ut ¨ un diller sayılamayan sonsuzluktadır, c¸ ¨ unk¨ u B’nin sayılamayan
sonsuzlukta oldu˘ gunu ispatlamıs¸tık. Kıyasla, Turing makinaları sayılabilir son-
suz oldu˘ guna g¨ ore, aradaki fark, karar verilemeyen diller olacaktır. Bu dilleri
karar verebilen Turing makinasının yazılması m¨ umk¨ un de˘ gildir.
NP-Zor (NP-Hard) ve NP-Tam (NP-Complete)
Bilgisayar bilimde oyle problemler vardir cozumlerini bulmak icin her mumkun
girdiyi denemek gerekir. 3SAT bu problemlerden biri. Diyelimki x
1
, .., x
n
degisken-
lerini kullanip en fazla uc ogeli, ve grup icinde VEYA ile birbirine bagli, gru-
plarasi ise VE ile birbirine bagli bir ifade zinciri olusturuyoruz. Mesela,
(x
1
∨x
2
∨ ¯ x
3
) ∧( ¯ x
1
∨ ¯ x
2
∨ ¯ x
3
) ∧(x
1
∨ ¯ x
2
) ∧( ¯ x
1
∨ ¯ x
2
)
ki ∨ isareti VEYA (OR), ∧ isareti ise VE (AND), degisken uzerinde cizgi olmasi
onun tersinin alinmasi (NOT) demek. Soru su, bu ifadenin dogru yani 1 sonu-
cunu vermesini saglayacak girdiler (onu tatmin edecek (satisfy -SAT kisaltmasi
buradan geliyor-) var midir? Ve bu sonuc polinom zamanda (n ve ifade uzunlu-
guna dogru lineer orantili sekilde) bulunabilir mi?
Bu ufak ornekte tahmin etmeye ugrasirsak, x
1
= 1, x
2
= 0, x
3
= 0 bu formulu
“tatmin eder”, yani ustteki ifade 1 sonucunu verebilen bir ifadedir. Fakat bu
sonuca “kesinlikle” erismek ve bunu her tur 3SAT problemi icin yapabilmek icin
bir programin tum girdi kombinasyonlarini denemesi gerekir. Tum seceneklerin
denenme mecburiyeti bir problemi zor kategorisine sokar. Kisayol, cinlik, en-
vai turden tahmin (heuristic) her zaman ise yaramaz (probleme gore bazen ise
yarayabilir, fakat hesapsal zorluk her zaman en kotu sartin performansini baz
alir).
Ayrica 3SAT o kadar temel bir problemdir ki, zor problemler kategorisinde tem-
sili bir ozelligi vardir. Tum zor problemler 3SAT’a indirgenebilirler. Bu tur prob-
lemlere ayrica NT-Tam ismi de verilir, cunku cok zor problemleri “tam” olarak
temsil ederler.
11
Yapay Zeka ile Problem Çözümü
Zeka nedir? Bu kavramın tanımı uzun süre filozofları, matematikçileri ve en so-
nunda yazılım bilim adamlarını u˘ gra¸ stırdı.
Yapay Zeka olgusu, uzun bir de˘ gi¸ sim ve ne oldu˘ gunu tam bilmeyen bir süreçten
geçerek bu günlere geldi. En sonunda üzerinde mutabakat kurulan tanım, yapay
zekayı genel ve temel olarak iki kategoriye ayırdı.
Genel zeka altında, insanların bütün zihni güçlerini ve özelliklerini birgün bil-
gisayar ile kopyalama, yapabilme çabası var. Tabii ki bu arayı¸ s uzun bir zaman
alacak.
Öteki dal temel zeka adı altında "sadece belli problemler için özel" algoritmalar
yaratarak, problem çözebilen bir zeka türü pe¸ sinde ko¸ smaktadır. Yani zeki bir
vekil yaratıp onu problemin üzerine atmak, ya da ufak bir temsilcimizi, bize ben-
zeyen ufak bir kısmımızı yaratıp, onu problem çözmek ile görevlendirmek diye
nitelendirebilece˘ gimiz bir zeka türüdür aranan.
Teknik olarak detaya inersek, gerçek zamanda, sürekli girdi bilgisi i¸ sleyerek hareket
etmek zorunda olan zeka ¸ seklini temel zeka altında inceliyoruz. Karar verme ol-
gusu bu vekil zeka için çok önemlidir, özellikle belirsizlik altında bile karar vere-
bilmek, vekil sistemler hayati önem ta¸ sır.
Örnek Problem
Ara¸ stırmacılar, yapay zeka kodlarını denemek için bir deney ortamı ararken,
¸ sunu dü¸ sündüler. E˘ ger hayat bir problemler dizisi, çözüm bekleyen sorunlar,
takip etmemiz gereken kurallar, ve plan gerektiren çözümler içeriyorsa, bu or-
tamı benzetimlemenin en rahat yolu nedir?
¸ Sans oyunları! Öyle ya, bir oyun hayatın ufak bir kopyası gibidir, kurallar içerir,
bir amaç vardır, plan gerektirir. Yapay zeka ara¸ stırmalarının oyun oynamak üz-
erinde bu kadar durmasının sebebi budur.
8 Ta¸ s Oyunu
Yukarıdaki 8 ta¸ s oyununu, bilgisayara ¸ söyle tanımlayabiliriz. Ba¸ slangıç durumu
olan ta¸ sları (solda) sonuç durumuna (sa˘ ga) dönü¸ stürmek için gerekli olan ta¸ s
hareketleri bul ve raporla kullanıcıya bildir. Bilgisayar bu sonuca birkac de˘ gi¸ sik
algoritma takip ederek ula¸ sabilir.
1
Kör Arama
Kör, ya da mekanik, bir ¸ sekilde arama algoritmaları, ba¸ slangıç tahta durumu üz-
erinde yapılabilecek bütün ta¸ s hareketlerini i¸ sletir ve sonuç tahtasını kayıt eder.
Mesela, ba¸ slangıç tahtasında 8 yukarı çıkabilir, 4 sa˘ ga gidebilir. (Not: Kodlama
açısından daha rahat olması için her ta¸ sın hareketini de˘ gil, bo¸ slu˘ gun hareketini
baz almak daha rahat olur. Sonuç aynı, ama kodlama daha rahat. Yani, bo¸ sluk
sola gidebilir, a¸ sagı inebilir). Bu iki mübah i¸ slemden sonuç olarak iki yeni tahta
çıkacak. Onların da üzerinde olası bütün i¸ slemleri yaparsak, daha da fazla tahta-
lar çıkacak, vs. Bunu yaparken bir yandan sonuç tahtasına gelip gelmedi ˘ gimizi
kontrol edersek, kör bir arama algoritması yazmı¸ s olaca˘ gız.
Bu i¸ slemlerin sonuçlarını bir a˘ gaç veri yapısı olarak temsil etmek uygun olacak.
Yani resimde görülen soldaki tahta üst dü˘ güm, iki hareketten çıkan olası yeni
tahtalar o üst dü˘ gümün iki çocu˘ gu olarak gösterilebilir. Böyle giderek elimize bir
a˘ gaç yapısı çıkacak. Örne˘ gini a¸ sa˘ gıda bulabilirsiniz
A˘ gaç yapısı, birazdan görece˘ gimiz bütün arama algoritmalarının temelini olu¸ stu-
racak. Ama, bu a˘ gacı yaratmanın de˘ gi¸ sik yolları var. Mesela, a˘ gacın her katını mı
önce olu¸ sturmak istersiniz, yoksa bir dalı sonuna kadar derinli ˘ gine takip etmek,
yoksa geri dönüp ba¸ ska bir dalı mı tekrar derinli ˘ gine aramak istersiniz.
LISP’e Giri¸ s
Bu iki yolu, LISP örnek kodu ile derinli ˘ gine inceleyelim. LISP en eski 2. bilgisayar
dilidir, ve Yapay Zeka ara¸ stırmaları için yaratılmı¸ stır. LISP, i¸ slev (function) bile
dinamik olarak yaratıp bildirgeç olarak i¸ slemlere verebilen bir dildir. Bu esnek
yapısı yapay zeka ara¸ stırmacılarının çok i¸ sine yaramı¸ stır.
LISP dilinde temel veri yapısı "listedir". Mesela, yukarıdaki ba¸ slangıç tahtasını
LISP’de ¸ söyle tanımlanabiliriz.
2
(setf tahta-baslangic ’((5 4 nil)(6 1 8)(7 3 2)))
Bu kullanımda dikkat ederseniz, bir listenin listesini tanımladık. Yani, liste içeren
bir liste. LISP referans kaynaklarından rahatça ö˘ grenilebilir, böylece LISP’in ço˘ gu
i¸ sleminin liste yapısı üzerinde tanımlanan i¸ slemler için oldu˘ gunu göreceksiniz.
Zaten LISP’in ismi bile buradan gelir, LIST Processing, türkçesi "liste i¸ slemek".
Örnek di ˘ ger bazı liste i¸ slemleri: (car liste) komutu listenin ba¸ sındaki de˘ geri, (cdr
liste) listenin geri kalan kısmını verir. (nth 2 liste) listenin ba¸ stan 3. de˘ gerini
getirir, (setf liste (append ’a liste)) liste de˘ gi¸ skenine ’a harfini ekler, vs..
A˘ gac yapısındaki her dü˘ gümün, arama algoritması için, üst dü˘ gümünü hatırla-
ması gerekiyor. Ayrıca hangi ta¸ s kaydırma ile o tahta durumuna geldi ˘ gini de
hatırlaması gerekiyor. Çünkü sonuca geldi ˘ gimizde, oradan tekrar ba¸ slangıca
dönerek (üstü izleyerek) kaydırma i¸ slemlerini ekrana basarak gösterece˘ giz. Al-
goritmanın da amacı bu de˘ gil mi? Bilgisayarın sonuca nasıl geldi ˘ gini bize göster-
mesi!
Bu sebeple, yeni büyütülmü¸ s liste (listenin listesi) ¸ su hale geldi. Örnek olarak
bo¸ slu˘ gu a¸ sa˘ gı kaydırarak, geldi ˘ gimiz bir tahtayı ¸ söyle gösterelim.
;; listenin icine bakabilen islemler
(Defun Durum (dugum) (first dugum))
(Defun Kaydir (dugum) (second dugum))
(Defun Ust (dugum) (third dugum))
;; ornek bir tahta
(setq baslangic (((1 3 2)(5 4 6)(7 8 nil))
’asagi (((1 3 2)(5 4 nil)(7 8 6))))
;; tahtayi ve islemleri kullanarak dugum hakkinda bazi raporlar
(print "kaydir islemi")
(kaydir baslangic)
(print "ust dugum")
(ust baslangic)
(print "tahta durumu")
(durum baslangic)
"Üst" dü˘ gümün, çocuk dü˘ gümü içine nasıl kondu˘ gunu görüyoruz. A˘ gaçta daha
derine indikçe, liste içinde liste, onun içinde liste, onun da içinde liste gibi bu yapı
daha da derinle¸ secektir. C ya da Java gibi dillerinde imleç (pointer) kullanarak
aynı ¸ sey yapılabilir. Ama LISP bu a˘ gaç yapısı için bile liste kullanıyor. Merak
etmeyin, imleç kullanımı kadar da etkili oluyor.
Önce Geni¸ sli ˘ gine ve Önce Derinli ˘ gine Arama
A˘ gaç yapısını tanımladıktan sonra, algoritmaya gelelim. Kat kat arama algo-
ritmasında, çocuk dü˘ gümleri yarattıktan sonra onları "i¸ slenmek üzere beklet-
ti ˘ gimiz" bir listeye koyarız. (gene mi liste?) :)
3
Evet. Bu yapı üzerine ekleme yaparken, ya sonra, ya ba¸ sa ekleme yapmak mümkün.
E˘ ger sona koyarsak, çocuklar en son girdi ˘ gi yerden en son çıkacak, e˘ ger ba¸ sa
koyarsak girdi ˘ gi gibi hemen çıkacaktır. Bu ¸ sekilde kullanımın birincisi, listeyi
kuyruk (queue) olarak, ikincisi yı ˘ gıt (stack) olarak kullanmak anlamına gelir.
Yazılım bilimde bu iki olgu çok temeldir. Her algoritma kitabında kuyruklar
ve yı ˘ gıtlar hakkında bilgi alabilirsiniz. Sonuçta, çocukları yı ˘ gıt üzerinde beklet-
mi¸ ssek, arama önce geni¸ sli ˘ gine arama olur, kuyruk olarak bekletmi¸ ssek arama
"önce derinli ˘ gine" arama olur.
Bu iki arama ¸ seklinin farkı niçin önemlidir? Burada esas sormamız gereken ¸ su
olacak. Hangi arama ¸ sekli daha ba¸ sarılıdır?
Bu sorunun cevabı algoritmik analiz ile verilebilir, fakat özet olarak belirtmek
gerekir ki, önce geni¸ sli ˘ gine aramak istatistiki olarak daha ba¸ sarılı oluyor. Derin-
li ˘ gine arama, ek ba¸ ska algoritmalar ile destekli olarak da ba¸ sarılı olabiliyor.
Gereken Kodlar ve Programlar
Ekteki dosyalar LISP derleyicisi/yorumlayıcısi ve örnek kodlar içeriyor.
Önce geni¸ sli ˘ gine aramayı, derinli ˘ gine aramaya çevirmek için tek yapmanız gereken
yı ˘ gıtı, kuyru˘ ga çevirmektir.
Bir önceki yapay zeka yazısı, akıllı bilgisayarlar hakkında hayal kırıklı ˘ gı yarat-
mı¸ s olabilir. Sonuçta gösterdi ˘ gimiz algoritma, derinli ˘ gine ya da önce geni¸ sli ˘ gine
arasa bile, "bütün" sonuçları deniyor! Yani insan ile yarı¸ smak için aslında hafıza
geni¸ sli ˘ ginden ve hesap hızından yararlanıyor. Peki nerede zeka?
Bunu dü¸ sündüyseniz haklısınız. Hakikaten de, bu ilk bahsetti ˘ gimiz algoritmalar
"kaba-kuvvet algoritmaları" diye anılır. Direk ileri giderler, ve gayet mekanik
¸ sekilde sonuca ula¸ smaya u˘ gra¸ sırlar.
Fakat, bir insan olarak biliyoruz ki, akıllı olmanın bir özelli ˘ gi de ö˘ grenmektir.
Yani, bazı kısa yollar bulmak, bir takım dersler çıkartarak sonuca daha hızlı ula¸ s-
mayı sa˘ glamak insanların gayet do˘ gal yaptı ˘ gı ¸ seylerdir. E˘ ger bunlar kodlan-
mamı¸ ssa, oyun oynayan algoritmamız kaba kuvvetten daha ileri gidemeyecek.
Üstelik büyük problemler için o üstün hızı bile yeti¸ smeyebilir!
Pekala. Hadi o zaman ¸ su programa biraz akıl verelim.
˙
Izlenen Yolun Fiyatı
Algoritmamızın "arama" algoritmasını olarak isimlendirilmesinin sebebi, mümkün
olan birçok seçenek arasından kısa olanı bulmak için "arama" yapmasıdır. Bilgisa-
yarın önünde olan birçok seçene˘ gin her birinin fiyatı, yani uzunlu˘ gu, birbirinden
farklıdır. Akıllı bir programa lazım olan, bu yollardan en kısa olanını bulmak-
tır.
˙
Insanlar da, kendi dü¸ süncelerini hızlandırmak için birtakım yan algoritmalar
geli¸ stirirler ve çabuk sonuca ula¸ smaya u˘ gra¸ sırlar.
Bu fiyatı iki türlü ölçebiliriz. Birincisi, karar a˘ gacında çözümü ararken o an
üzerinde bulundu˘ gumuz dü˘ güme gelmek için ödedi ˘ gimiz fiyat (katedilen yol),
4
öteki de önümüzde katedece˘ gimiz geri kalan yoldur.
Katedilen yolun seçimde (arayı¸ sta) ne yararı var diye dü¸ sünebilirsiniz. Ekle-
mek gerekir ki, özellikle önce-derinli ˘ gine arama algoritması bazen aynı dü˘ güme
de˘ gi¸ sik yollardan ula¸ sabiliyor. Bu gibi durumlarda tuttu˘ gumuz kayıtlarda aynı
dü˘ gümü bulursak, ve bu dü˘ gümün içerdi ˘ gi yol daha pahalı ise, eskiyi listeden
atıp, yerine yeni dü˘ gümü koymamız gerekiyor.
Nihayet akıllı bir "seçim" yaptık.
Fakat hala geriye bakıyoruz.
˙
Ileriye bakarak, bilgili bir tahminde hala bulun-
madık.
˙
Ileriye dönük bir tahmin i¸ slevini nasıl bilgisayar kodlarız? 8’li Bulmaca
oyununu dü¸ sünürsek; oyunun herhangi bir seviyesinde tahtaya bakarak, en iyi
yapılacak hareketi nasıl bulabiliriz?
Akıllı Tahmin
Öyle bir i¸ slev bulalım ki, elimizde olan dü˘ gümden yarattı ˘ gımız çocuk dü˘ gümler
arasında hangisini takip edece˘ gimizi bize söylesin. Sözde program ¸ söyle olabilir.
• Dü˘ gümü al
• Dü˘ gümün bütün olası çocuklarını yarat
• Her çocuk için, sonuç tahtasına olan tahmini bir uzaklık de˘ geri hesapla
• Bu çocuk dü˘ gümler arasında sonuca en yakın olanı seç
Pekala, nedir bu uzaklık de˘ geri?
˙
I¸ ste akıl devreye burada giriyor.
Her tahta durumunun sonuca uzaklı ˘ gı, tahmini olarak ¸ söyle hesaplanabilir. Mesela,
ba¸ slangıçtaki her ta¸ sı, sonuç tahtasına bakarak bulalım. E˘ ger sonuç tahtasındaki
ta¸ s, ba¸ slangıçtaki aynı yerde de˘ gil ise, ne kadar uzakta oldu˘ gunu bulalım.
Üstteki iki tahta arasında, bu uzaklık de˘ geri "5" ta¸ sı için "4" olacaktır. Çünkü
1,1 eksen konumundan 3,3 konumuna gitmi¸ stir. Ve aradaki fark 2 a¸ sa˘ gı 2 sa˘ ga
gitti ˘ gimiz için 4’tür. Bu tür uzaklık hesabına Manhattan uzaklı ˘ gı deniyor, çünkü
hepsi e¸ sit bloklar arasında yürüyerek giderken ölçülen türden bir hesap çe¸ sididir.
Bu uzaklık hesabı, bir nevi ¸ sunu beyan etmektir. Bu tahtayı, sonuç tahtasına çe-
virmek için bu kadar hamle yapmak gerekiyor. Tabii ki bu hesap kesin bir hesap
5
de˘ gildir. Tam do˘ gru da de˘ gildir, ama, olması da gerekmez. Yeteri kadar do˘ gru,
ve en önemlisi, hiç bir zaman fazla keseden atmayan bir hesap do˘ gru seçim için
yeterlidir. Çünkü, aynı ¸ sekilde "tam do˘ gru olmayan hesapları" öteki seçenekler
için de yapıyoruz! Yani, birbirine olan izafi bir do˘ gruluk, sayının tamamen do˘ gru
olması etkisi yapar.
LISP kodu
Ekteki kodlarda görece˘ giniz gibi, LISP kodu için 2 tane i¸ slev tanımlamak gerekti.
G-güncel de˘ gi¸ skeni ’geriye bakan’ türden olan fiyatı-sabit-arama algoritması için
zaten gerekiyordu. Ekte olmayan, ama konu hakkında görebilece˘ giniz bir al-
goritma sırf tahmine dayanarak seçim yapmaya u˘ gra¸ sır, yani sadece t-guncel
de˘ gerini kullanır. En güçlü olan yöntem, g-guncel ve t-guncel’in ’toplamına’
dayanarak seçimyapmaktır. Böylece hemo ana kadar gözledi ˘ gimiz ölçümü, hem
de ileriye bakarak yaptı ˘ gımız tahmini aynı anda gözönüne almıs oluyoruz.
˙
Iki hesabın birle¸ simine dayanarak seçim yapan arama algoritmasına A* (a yıldız)
algoritması denir. Bu kodu da a-yildiz-arama.lisp altında bulabilirsiniz.
Ayrıca, ödev olarak (yapay zeka dersi için) bizim kodladı ˘ gımız, A*’ı kendi akıl
i¸ slevi ile geni¸ sletip, kendi t-guncel kodunu yazmamız gerekiyordu.
Bu yeni A* t-guncel hesabı, hem ta¸ s uzaklı ˘ gına dayanıyor, fakat bir toplam daha
ekliyor. E˘ ger iki ta¸ sı de˘ gi¸ s toku¸ s yaptırmamız gerekiyorsa, bu normal uzaklıktan
çok daha pahalı bir i¸ slemdir, ve 2 sayılması gerekir! Bu ¸ sekilde yapılan toplamın,
ve akabinde t-guncel de˘ gerinin, algoritmayı daha geli¸ stirdi ˘ gini göreceksiniz.
Yani biraz daha akıl kullanarak, i¸ simizi kolayla¸ stırmı¸ s oluyoruz.
(defvar s0)
(defvar s1)
(defvar hata-bulma-seansi nil)
(defvar kaydir-sayisi 0)
(Defun Durum (dugum) (first dugum))
(Defun Kaydir (dugum) (second dugum))
(Defun Ust (dugum) (third dugum))
(defun nx (durum) (nth 0 (nth 4 durum)) )
(defun ny (durum) (nth 1 (nth 4 durum)) )
(defun nil-yerini-guncellestir (dugum x y)
(setf dugum (remove (list (nx dugum) (ny dugum))
dugum :test #’equal ))
(setf dugum (append dugum (list (list x y))))
)
;;
;; X ve Y eksen degerlerine bore liste uzerinde degis tokus
;; yap. Boylece LISP’de cok kullanilan bir suru car ve cdr
;; kullanmaya gerek kalmiyor.
;;
(defun degis-tokus-xy (matris x1 y1 x2 y2)
(let (( gecici (nth y1 (nth x1 matris))))
6
(setf (nth y1 (nth x1 matris)) (nth y2 (nth x2 matris)))
(setf (nth y2 (nth x2 matris)) gecici)
matris
))
;;
;; Eger verilen noktada MIL var ise, geriye T (dogru) cevabi gonder.
(defun null-xy(matris x y)
(null (nth y (nth x matris))))
;;
;; cocuklari toplayan (yaratan) islem.
;;
(defun cocuklari-getiren-islem (dugum)
(let ( (result-son-dugums nil) (son-durum nil) (durum (first dugum)) )
(setf son-durum (kaydir-yukari durum))
(setf result-son-dugums (list (list son-durum ’yukari dugum)))
(setf son-durum (kaydir-asagi durum))
(setf result-son-dugums
(append result-son-dugums (list (list son-durum ’asagi dugum))))
(setf son-durum (kaydir-saga durum))
(setf result-son-dugums
(append result-son-dugums (list (list son-durum ’saga dugum))))
(setf son-durum (kaydir-sola durum))
(setf result-son-dugums
(append result-son-dugums (list (list son-durum ’sola dugum))))
(setq kaydir-sayisi (+ kaydir-sayisi (length result-son-dugums)))
result-son-dugums)) ;;and that’s it Son-dugums is returned
;;by the function
;;
;; copy wan’t provided in my version of lisp.
;;
(defun copy (obj)
(cond ( (null obj) nil)
( (listp obj) (cons (copy (first obj)) (copy (rest obj))))
( t obj) ) )
;;
;; My lisp has not defined this macro
;;
(defun caadddr (x)
(car(car(cdr(cdr(cdr x))))))
;;
;; the yukari kaydir
(defun kaydir-yukari (Ust-durum)
(let ((durum (copy Ust-durum)))
7
(cond
((eql (nx durum) 0) nil)
(t
(degis-tokus-xy durum
(- (nx durum) 1)
(ny durum)
(nx durum)
(ny durum))
(setf durum (nil-yerini-guncellestir durum (- (nx durum) 1)
(ny durum)))
)
)
durum))
;;
;; the asagi kaydir
(defun kaydir-asagi (Ust-durum)
(let ((durum (copy Ust-durum)))
(cond
((eql (nx durum) 3) nil)
(t
(degis-tokus-xy durum
(+ 1 (nx durum))
(ny durum)
(nx durum)
(ny durum))
(setf durum (nil-yerini-guncellestir
durum (+ (nx durum) 1) (ny durum)))))
durum))
;;
;; the saga kaydir
(defun kaydir-saga (Ust-durum)
(let ((durum (copy Ust-durum)))
(cond
((eql (ny durum) 3) nil)
(t
(degis-tokus-xy durum
(nx durum)
(+ 1 (ny durum))
(nx durum)
(ny durum))
(setf durum (nil-yerini-guncellestir
durum (nx durum) (+ 1 (ny durum))))))
durum))
;;
;; the sola kaydir
(defun kaydir-sola (Ust-durum)
(let ((durum (copy Ust-durum)))
(cond
((eql (ny durum) 0) nil)
(t
(degis-tokus-xy durum
8
(nx durum)
(- (ny durum) 1)
(nx durum)
(ny durum))
(setf durum (nil-yerini-guncellestir
durum (nx durum) (- (ny durum) 1) ))))
durum))
;;
;; Trace
(defun sonuc-izini-bul (dugum)
(cond ((null dugum) (print "Cozumun Baslangici") nil)
(t
(sonuc-izini-bul (Ust dugum))
(print (Kaydir dugum)))))
;;
;; funds the difference between two sets
(defun diff (x y)
(cond ((null x) nil)
((not (member (first x) y :test #’equal ))
(cons (first x)
(diff (rest x) y)))
(t (diff (rest x) y))))
;;
;; show # of elements in lists and number of dugums generated.
(defun sonuc-raporu-ver (acik tamamlanan baslangic)
(print "ACIK listesindeki dugum sayisi")
(print (length acik))
(print "TAMAMLANAN listesindeki dugum sayisi")
(print (length tamamlanan))
(print "Toplam Yaratilan Dugum Sayisi")
(print kaydir-sayisi)
)
;;
;; show # of elements depending on the debug flag status
(defun kac-dugum-yarattik()
(when (eql hata-bulma-seansi T)
(print "Su anda hafizada bu kadar dugum var")
(print kaydir-sayisi))
)
;;
;; test evaluator function
(defun test (isim exp sonuc)
(cond
((equal exp sonuc) t)
(t (print isim) (error "HATA! Birim test calismadi! "))
))
;;
;; tests
;;
9
(setq s0 ’((1 3 3 1) (2 6 4 1) (5 8 2 1)))
(test "copy" (copy s0) ’((1 3 3 1) (2 6 4 1) (5 8 2 1)))
(setq s0 ’((1 3 3) (2 6 4) (5 8 nil)(2 2)))
(test "degis-tokus xy 1" (degis-tokus-xy s0 2 2 1 2)
’((1 3 3) (2 6 NIL) (5 8 4)(2 2)))
(setq s0 ’((1 3 3) (2 6 4) (5 8 nil)(2 2)))
(test "null xy" (null-xy s0 2 2) t)
(setq s0 ’((1 3 3 1) (2 6 4 1) (5 8 nil 1)(1 1 1 1)(2 2)))
(test "yukari kaydir 1 test" (kaydir-yukari s0)
’((1 3 3 1)(2 6 nil 1)(5 8 4 1)(1 1 1 1)(1 2)))
(setq s0 ’((1 3 3 1) (2 6 4 1) (5 nil 4 1)(1 1 1 1)(2 1)))
(test "yukari kaydir 2 test" (kaydir-yukari s0)
’((1 3 3 1)(2 nil 4 1)(5 6 4 1)(1 1 1 1)(1 1)))
(setq s0 ’((1 3 nil 1) (2 6 4 1) (5 8 4 1)(1 1 1 1)(0 2)))
(test "asagi kaydir 1 test" (kaydir-asagi s0)
’((1 3 4 1)(2 6 nil 1)(5 8 4 1)(1 1 1 1)(1 2)))
(setq s0 ’((1 3 3 1)(2 6 4 1)(5 8 nil 1)(1 1 1 1)(2 2)))
(test "degis-tokus xy 2" (degis-tokus-xy s0 1 1 2 1)
’((1 3 3 1)(2 8 4 1)(5 6 nil 1)(1 1 1 1)(2 2)))
(setq s0 ’((1 3 3 1) (2 nil 4 1) (5 5 4 1)(1 1 1 1)(1 1)))
(test "asagi kaydir 2 test" (kaydir-asagi s0)
’((1 3 3 1)(2 5 4 1)(5 nil 4 1)(1 1 1 1)(2 1)))
(setq s0 ’((1 nil 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(test "saga kaydir 1 test" (kaydir-saga s0)
’((1 3 nil 1)(2 3 4 1)(5 5 4 1)(1 1 1 1)(0 2)))
(setq s0 ’((1 3 3 1) (2 nil 4 1) (5 5 4 1)(1 1 1 1)(1 1)))
(test "saga kaydir 2 test" (kaydir-saga s0)
’((1 3 3 1)(2 4 nil 1)(5 5 4 1)(1 1 1 1)(1 2)))
(setq s0 ’((1 nil 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(test "sola kaydir 1 test" (kaydir-sola s0)
’((nil 1 3 1)(2 3 4 1)(5 5 4 1)(1 1 1 1)(0 0)))
(setq s0 ’((1 3 3 1) (2 nil 4 1)(5 5 4 1)(1 1 1 1)(1 1)))
(test "sola kaydir 2 test" (kaydir-sola s0)
’((1 3 3 1)(nil 2 4 1)(5 5 4 1)(1 1 1 1)(1 0)))
(setq s0 ’((1 3 3) (2 nil 4) (5 5 4)))
(setq s0 (append s0 ’((2 3 4))))
(test "ekleme testi" s0 ’((1 3 3) (2 nil 4) (5 5 4)(2 3 4)) )
(setq s0 ’((1 3 3 1) (2 nil 4 1) (5 5 4 1)(1 1 1 1)(1 1)))
(setq s0 (list s0 nil nil))
(setq s1 ’((((1 NIL 3 1) (2 3 4 1) (5 5 4 1) (1 1 1 1) (0 1)) YUKARI
(((1 3 3 1) (2 NIL 4 1) (5 5 4 1) (1 1 1 1) (1 1)) NIL NIL))
(((1 3 3 1) (2 5 4 1) (5 NIL 4 1) (1 1 1 1) (2 1)) ASAGI
10
(((1 3 3 1) (2 NIL 4 1) (5 5 4 1) (1 1 1 1) (1 1)) NIL NIL))
(((1 3 3 1) (2 4 NIL 1) (5 5 4 1) (1 1 1 1) (1 2)) SAGA
(((1 3 3 1) (2 NIL 4 1) (5 5 4 1) (1 1 1 1) (1 1)) NIL NIL))
(((1 3 3 1) (NIL 2 4 1) (5 5 4 1) (1 1 1 1) (1 0)) SOLA
(((1 3 3 1) (2 NIL 4 1) (5 5 4 1) (1 1 1 1) (1 1)) NIL NIL))))
(test "cocuk dugum bulucu islemi test" (cocuklari-getiren-islem s0) s1)
(setq s0 ’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(setq s1 ’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(test "durum equality" (equal s0 s1) t)
(setq s0 ’(((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1))
YUKARI (((1 3 3 1) (2 NIL 4 1) (5 5 4 1)(1 1 1 1)) NIL NIL)))
(test "durum test" (equal (durum s0)
’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1))) t)
(setf s0 ’((((1 3 3 1) (2 NIL 4 1) (5 5 4 1)(1 1 1 1 )(1 1)) NIL NIL)
(((1 3 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(1 1)) NIL NIL)
(((1 3 3 1) (2 5 4 1) (5 5 4 1)(1 1 1 1)(1 1)) NIL NIL)))
(setq s1 ’((((1 3 3 1) (2 NIL 4 1) (5 5 4 1)(1 1 1 1)(1 1)) NIL NIL)
(((1 3 3 1) (2 5 4 1) (6 6 6 1)(1 1 1 1)(1 1)) NIL NIL)) )
(test "diff test" (diff s1 s0)
’((((1 3 3 1) (2 5 4 1) (6 6 6 1)(1 1 1 1)(1 1)) NIL NIL)) )
(print "OLDU. Ortak Birim Testler Basari Ile Calisti")
(load "ortak.lisp")
;;
;; her kati arayip, bitince sonraki katta arama yapmak.
(defun kat-kat-ara (d0 ds cocuklar)
;; dikkat edin, icerideki liste bir dugum
(let ( ( acik (list (list d0 nil nil) ) )
( tamamlanmis nil )
( n nil )
( kizlar nil ))
(setq kaydir-sayisi 0)
(loop
(if (null acik) (return ’hata)) ;;hata var, geri rapor ver
(setf n (pop acik)) ;; ilk dugumu cikart
;; tamamlanmis listesine n dugumunu koy, cunku birazdan onu
;; isleyecegiz
(push n tamamlanmis)
;; sonuc dugumune geldik mi? (bulduk mu?)
(when (equal (durum n) ds)
(print "Sonuc bulundu. Nasil buldugumuz asagida")
(sonuc-raporu-ver acik tamamlanmis d0)
(return (sonuc-izini-bul n))
)
11
;; iste burada yeni cocuk dugumler cikartiyoruz
(setf kizlar (apply cocuklar (list n)))
;; hata ayiklama icin lazim olabilir
(kac-dugum-yarattik)
;; iki kere tekrar eden dugumleri cikar. (DIFF=fark demektir, iki
;; liste arasindaki benzerleri cikartir, farki getirir.
(setf kizlar
(DIFF kizlar (append acik tamamlanmis)))
;; dikkat: yeni dugumleri listenin SONUNA koyuyoruz yazilim
;; bilimde buna ’kuyruk’ veri yapisi denir. Yani, kuyruga son
;; giren, son cikar. Yukarida ’pop (cikart)’ deyince su anda
;; koydugumuz deger gelmeyecek. (liste dolu ise). Eger bu noktada
;; kuyruk yapisi kullaniliyorsa, bu algoritmayi kat-kat arama
;; haline cevirecek.
(setf acik (append acik kizlar))
)))
;;
;; testler
;;
(setq d0 ’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(setq ds ’((1 3 4 1) (2 3 NIL 1) (5 5 4 1)(1 1 1 1)(1 2)))
(test "basit kat-kat-ara"
(not (eql (kat-kat-ara d0 ds #’cocuklari-getiren-islem) ’hata)) t )
(print "OLDU. KAT-KAT-ARA Testleri Calisti")
(load "ortak.lisp")
(defun kat-engelli-da (node goal succesors depth)
;;Hmmmm...where did Open, Closed and N go?
(block
DBDFS (let ((daughters nil) )
(if (equal (durum node) goal)
(return-from DBDFS (sonuc-izini-bul node)))
;;bottomed out in the search space
(if (= depth 1) (return-from DBDFS nil))
;;without finding a goal down this path
;;presumably we have a LIST of derived
(setf daughters (cocuklari-getiren-islem node))
;;here we generate new derived durums
;; debugging
(kac-dugum-yarattik)
(loop ;;so we iterate down them looking for
;;a solution path...this could easily
12
;;be changed to a do form....
;;failed to find a solution
(if (null daughters) (return-from DBDFS nil))
(if (kat-engelli-da ;;recursive call with
(pop daughters) ;;the first of daughters& daughters updated
goal ;;same old goal durum
daughters ;;same old set of operators
(- depth 1)) ;;but a shallower depth!
;;here we did find a solution so we leave happy
(return-from DBDFS t)
) ;;;;end if
) ;;;;ends loop
) ;;ends let
) ;; ends block
) ;;ends defun {otherwise known as "]" :) }
;;
;; outside method
;;
(defun kat-kat-arama (d0 ds cocuklar derinlik-limiti)
(setf kaydir-sayisi 0)
(kat-engelli-da (list d0 nil nil) ds cocuklar derinlik-limiti)
(print "kac dugum yaratildi")
(print kaydir-sayisi)
)
;;
;; outside method for iterative deepening
;;
(defun gitgide-icin-kka (d0 dg cocuklar derinlik-limiti)
(kat-engelli-da (list d0 nil nil) ds cocuklar derinlik-limiti)
)
;;
;; tests
;;
(setq s0 ’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(setq s1 ’((1 3 4 1) (2 3 NIL 1) (5 5 4 1)(1 1 1 1)(1 2)))
(test "kka derinlik limiti" (not (eql (kat-kat-arama s0 s1 nil 3) ’fail)) t )
(print "OLDU. Kat Engelli Kat-Kat Arama Basari Ile Gecti")
(load "ortak.lisp")
(defun iki-yonlu-ara (di ds ileriden-cocuklar geriden-cocuklar)
(let ( ( acik-i (list (list di nil nil) ) ) ;;dikkat ic liste bir
;;dugum
( acik-g (list (list ds nil nil) ) )
;;tamamlanan listesine ihtiyac yok
13
( nf nil )
( nb nil )
( kizlar-i nil )
( kizlar-g nil )
( ortak-dugum nil ))
(setq kaydir-sayisi 0)
(loop
(cond
((or (null acik-i) (null acik-g)) ;;arama uzayini bitirdik mi?
(print "Sorry, the problem posed is insoluable")
(return nil)))
;;Evet. Ilk dugumu cikart ve Acik listeyi guncellestir
(setf nf (pop acik-i))
;;agaclar icin tamamlanan listesine ihtiyac yok
(setf ortak-dugum (member nf acik-g :test #’durum-karsilastirici))
(when ortak-dugum
;; bu dugumu, geri gelen tarafta bulduk mu?
(print "Harika. Sonuc Bulundu:")
(sonuc-izini-bul nf)
(sonuc-izini-bul-geri (first ortak-dugum))
(sonuc-raporu-ver acik-i acik-g nil nil)
(return ortak-dugum))
;; burada yeni dugumler cikartiyoruz
(setf kizlar-i (apply ileriden-cocuklar (list nf)))
;; hata bulmak icin rapor
(kac-dugum-yarattik)
;; acik liste kuyruk olarak kullaniliyor, o yuzden algoritma
;; esasen kat-kat arama.
(setf acik-i (append acik-i kizlar-i))
;;Tamam, ilk dugumu cikar, acik listeyi guncellestir
(setf nb (pop acik-g))
(setf ortak-dugum (member nb acik-i :test #’durum-karsilastirici))
(when ortak-dugum
;; durum, ileri giden kisimda bulundu mu?
(print "Harika. Sonuc Bulundu:")
(sonuc-izini-bul nb)
(sonuc-izini-bul-geri (first ortak-dugum))
(sonuc-raporu-ver acik-i acik-g nil nil)
(return ortak-dugum))
;;burada yeni cocuklar yaratiyoruz
(setf kizlar-g (apply geriden-cocuklar (list nb)))
;; hata bulmak icin rapor
(kac-dugum-yarattik)
14
;;acik kuyruk olarak kullaniliyor, o yuzden kat-kat arama yapmis
;;oluyoruz
(setf acik-g (append acik-g kizlar-g))
) ;;closes loop
) ;;closes let
) ;; closes defun
;;
;; geri giden algorithmanin izini buluyor
;;
(defun sonuc-izini-bul-geri (dugum)
(cond ((null dugum) (print "Geri giden sonucu izliyoruz") nil)
(t
(if (equal ’north (Kaydir dugum)) (print ’asagi))
(if (equal ’east (Kaydir dugum)) (print ’sola))
(if (equal ’west (Kaydir dugum)) (print ’saga))
(if (equal ’south (Kaydir dugum)) (print ’yukari))
(sonuc-izini-bul-geri (Ust dugum))
)))
;;
;; iki dugumun ’icine bakarak’ durumlarini karsilastiriyor
;;
(defun durum-karsilastirici (a b)
(if (equal (durum a)(durum b)) b))
;;
;; iki yonlu arama icin bu islemi tekrar tanimlamak gerekti..
;;
(defun sonuc-raporu-ver (acik-i acik-g start end)
(print "# of items in OPEN FORWARD")
(print (length acik-i))
(print "# of items in OPEN BACKWARD")
(print (length acik-g))
(print "# of items in TOTAL nodes")
(print kaydir-sayisi)
)
;;
;; testler
;;
(setq d0 ’((1 2 3 4) (5 6 0 8) (9 10 7 11) (13 14 15 12) (1 2)))
(setq ds ’((1 2 3 4) (5 6 7 8) (9 10 11 12) (13 14 15 0) (3 3)))
(test "bi-directional"
(not (eql (iki-yonlu-ara d0
ds
’cocuklari-getiren-islem
’cocuklari-getiren-islem) ’hata)) t )
(print "Oldu. Iki Yonlu Arama Testleri Gecti")
(load "ortak.lisp")
(load "kat-engelli-da.lisp")
15
;;
;; Bu sekilde kat-kat arama, kat-engelli-kka islemini cagiriyor. Bu
;; cagirmayi yaparken, her seferinde yeni bir derinlik limiti veriyor.
;; Yani, kat engeli 1 ile cagiriyoruz, sonuc bulursak guzel.
;; Bulamazsak, kat engeli 2 ile.. vs, vs.
(defun gitgide-derinlesen-kka (s0 sg sons depth ARTIS-OLCUSU)
(block B
(if (gitgide-icin-kka s0 sg sons depth) ;call dfs directly to depth
(return-from B t)) ;solution found if dfs is true, so return t
(gitgide-derinlesen-kka ;else, try again but more deeply!
s0 ;the same initial state
sg ;the same old goal state
sons ;the same old set of operators
(+ depth ARTIS-OLCUSU) ;but now a deeper search!
ARTIS-OLCUSU) ;and increment again later if you don’t succeed
) ;; ends block
);ends defun
(defun gitgide-derinlesen-kka-disyuz (s0 sg sons depth ARTIS-OLCUSU)
(setf kaydir-sayisi 0)
(gitgide-derinlesen-kka s0 sg sons depth ARTIS-OLCUSU)
(print "# of nodes")
(print kaydir-sayisi)
)
;;
;; tests
;;
(setq s0 ’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(setq s1 ’((1 3 4 1) (2 3 NIL 1) (5 5 4 1)(1 1 1 1)(1 2)))
(test "dfs iterative deepening"
(not (eql (gitgide-derinlesen-kka-disyuz s0 s1 nil 1 1) ’fail)) t )
(print "OK. Gitgide Derinlesen DA Testleri Isliyor")
(load "ortak.lisp")
;; Fiyati sabit arama islemi, baslangictan sonuca giden en kisa yolu
;; bulmaya ugrasir. En kisa derken, bahsettigimiz, algoritmanin daldan
;; dala atlarken (dugumleri takip ederken) her dal fiyatinin 1 degeri
;; tasidigi algoritmadan bahsediyoruz. Bu ’1’ degerleri her atlayista
;; toplanir, ve, ayni dugume degisik bir yoldan gelinecek olursa, eski
;; deger (ve eski dugumun) atilip, en kisa dugumun, yani yolun,
;; kullanilmasi gerekir. Katedilen yol miktari, G-Guncel
;; degiskeninde, her dugum icinde saklanir.
;; Dugum temsil seklini
;; (Durum Kaydir-Ismi G-Guncel Ust-Dugum)
;; olarak degistirmemiz gerekiyor.
16
;; bu yuzden yeni erisim islemlerini tanimlayalim.
(Defun Durum (node) (first node))
(Defun Kaydir (node) (second node))
(Defun G-guncel (node) (third node))
(Defun Ust (node) (fourth node))
;;
;; Fiyati sabit arama sirasinda her dugumun fiyati, ust dugum
;; fiyati + 1 olarak hesaplanir. Burada sadece 1 degeri geri veriyoruz.
(defun FIYAT (ust cocuk) 1)
;;
;; Unutmayalim; cocuklari-yaratan islemi de degistirmemiz gerekecek.
;; Cunku artik FIYAT degeri, problem cozumunun bir parcasi oldu.
;;
(defun fiyati-sabit-arama (d0 ds cocuklar)
(let ( ( acik ;; ic-liste aslinda bir dugum
(list (list s0 nil 0 nil)))
;;g-guncel burada 0
( tamamlanan nil )
( n nil )
( kizlar nil ))
(setq kaydir-sayisi 0)
(loop
(if (null acik) (return ’hata))
(setf n (pop acik)) ;; Oldu. Ilk dugumu cikart.
;; acik listesini guncellestir
(push n tamamlanan) ;; n dugumunu tamamlanan listesine ekle
;; Dikkat ederseniz, acik ve tamamlanan listelerini tutmamizin
;; sebebi, ayni dugumlere tekrar tekrar gelmeyi engellemek. Bu
;; listelerde kaydedilmis dugumleri bir daha islemiyoruz.
(if (equal (durum n) ds) ;;have we found our goal state?
(let ()
(print "Sonuc Bulundu. Iste Asagida:")
(return (sonuc-izini-bul n))))
;; yeni cocuk dugumler yaratiyoruz
(setf kizlar (apply cocuklar (list n)))
;; rapor verme kismi
(kac-dugum-yarattik)
(setf kizlar
(DIFF kizlar tamamlanan)) ;; Tekrar eden dugumleri cikart.
;; Unutmayin, ayni dugume tekrar geldiysek, bu yeni yol
;; mutlaka eskisinden daha uzun olacaktir. Boylece, tek yapmamiz
;; gereken bu dugumu acik listesinden cikartmak.
(setf acik (UPDATE kizlar acik))
17
;; Acik listesini her dugumun G-guncel degerine gore
;; siraya diz. En azdan, en coga gore.
(setf acik
(sort acik #’(lambda(dugum1 dugum2)
(< (g-guncel dugum1) (g-guncel dugum2))) ))
;; Boylece ilk dugumu aldigimizda, bu dugumun fiyati en az
;; olan dugum oldugu garanti.
) ;; loop sonu
) ;;let sonu
) ;;defun sonu
(defun UPDATE (kizlar acik)
(let ( ( m nil ) (bulunmus-eski-m nil) )
(loop
;; hepsini islediysek, isimiz bitti..
(if (null kizlar) (return acik))
(setf m (pop kizlar)) ;;ilk dugum uzerinde islem yapalim
(setf bulunmus-eski-m
(MEMBER-DURUM (durum m) acik)) ;; acikta bulduk mu?
;; oyle ise, bulunmus-eski-m degeri acik listesinin bir
;; alt-listesi olacak.
(if bulunmus-eski-m ;; eski m acik listede bulundu ise
;; durum degeri ayni olan dugumu al
(let ((old-m (first bulunmus-eski-m)))
;;yeni cocuk degeri g-guncel degeri
(if (< (g-guncel m) (g-guncel old-m))
;; daha ucuz ise yeni dugumu tutmak lazim
;; eski dugumu ise yaramaz haline cevir
;; yeni cocuk m ile degistir
;; Dikkat edelim, bu sonuc ACIK listesine
;; kalici bir degisiklik yapacak.
(setf (first bulunmus-eski-m) m) ))
;; yoksa ayni degerde eski dugum bulamadik
(push m acik)
)
;; o zaman m dugumunu acik listeye ekle.
) ;; loop sonu, sonraki dugumu dene
) ;;let sonu
) ;;defun sonu
;;
;;Bu islem, sadece icinde dugum bulunan alt-listeyi geri getiriyor.
;;Yani bu listenin icindeki ’durum’ bildirgec olarak verilen durum
18
;;ile ayni ise geri veriliyor
(Defun MEMBER-DURUM (durum dugum-listesi)
(if (null dugum-listesi) ;;if exhausted then
nil ;;return nil
(if (equal durum (first dugum-listesi)) ;;else if we find one
dugum-listesi ;;return where we found it
;;else keep looking recursively
(MEMBER-DURUM durum (rest dugum-listesi)))))
(defun cocuklari-getiren-islem (dugum)
(let ( (butun-cocuk-dugumler nil)
(cocuk-dugumler nil)
(cocuk-durumlar nil)
(durum (first dugum)) )
;;Dikkat: Yeni ogul dugumun G-guncel degeri nasil degistiriliyor.
;;Ust dugumun g-guncel degeri, arti oglan dugume gelmenin fiyati
;;Bu FIYAT formulu her algoritmaya gore degisik
;;olabilir. Fiyati-sabit-arama icin tanim boyledir.
;; yukari
;;apply problem dependent operator 1
(setf cocuk-durumlar (kaydir-yukari durum))
(setf cocuk-dugumler (list (list
cocuk-durumlar ’north
(+ (g-guncel dugum)
(FIYAT (durum dugum) cocuk-durumlar))
dugum)))
(setf butun-cocuk-dugumler (append butun-cocuk-dugumler cocuk-dugumler))
;; south
;;apply problem dependent operator 1
(setf cocuk-durumlar (kaydir-asagi durum))
(setf cocuk-dugumler (list (list
cocuk-durumlar ’south
(+ (g-guncel dugum)
(FIYAT (durum dugum) cocuk-durumlar))
dugum)))
(setf butun-cocuk-dugumler
(append butun-cocuk-dugumler cocuk-dugumler))
;; east
;;apply problem dependent operator 1
(setf cocuk-durumlar (kaydir-saga durum))
(setf cocuk-dugumler (list (list
cocuk-durumlar ’east
(+ (g-guncel dugum)
19
(FIYAT (durum dugum) cocuk-durumlar))
dugum)))
(setf butun-cocuk-dugumler (append butun-cocuk-dugumler cocuk-dugumler))
;; west
;;apply problem dependent operator 1
(setf cocuk-durumlar (kaydir-sola durum))
(setf cocuk-dugumler (list (list
cocuk-durumlar ’west
(+ (g-guncel dugum)
(FIYAT (durum dugum) cocuk-durumlar))
dugum)))
(setf butun-cocuk-dugumler
(append butun-cocuk-dugumler cocuk-dugumler))
(setq kaydir-sayisi
(+ kaydir-sayisi (length butun-cocuk-dugumler)))
;;and that’s it. cocuk-dugumler is returned by the function
butun-cocuk-dugumler))
;;
;; tests
;;
(setq s0 ’((1 NIL 3 1) (2 3 4 1) (5 5 4 1)(1 1 1 1)(0 1)))
(setq s1 ’((1 3 4 1) (2 3 NIL 1) (5 5 4 1)(1 1 1 1)(1 2)))
(test "uniform cost search"
(not (eql (fiyati-sabit-arama s0 s1 #’cocuklari-getiren-islem) ’fail)) t)
(print "OK. Uniform Cost Tests Passed")
(load "ortak.lisp")
(Defun Durum (dugum) (first dugum))
(Defun Kaydir (dugum) (second dugum))
(Defun G-guncel (dugum) (third dugum))
;; tguncel ’tahmin guncel’ den
;; geliyor.
(Defun t-guncel (dugum) (fourth dugum))
(Defun Ust (dugum) (fifth dugum))
(defun FIYAT (ust cocuk) 1)
;;
;; sinifta tanimlanan tahmin islevi (function). baslangic
;; tahtasindaki her tas icin, ayni tasin sonuc tahtasindaki
;; pozisyonuna olan uzakliklari toplayan bir islev.
;;
(defun tguncel-hesapla (su-anki-durum sonuc-durumu)
(let ((i 0)(j 0)(toplam 0)(su-anki nil)(uzaklik 0))
(loop
(setq i 0)
20
(loop
(setf su-anki (nth i (nth j su-anki-durum)))
(cond ((member su-anki (first sonuc-durumu))
(setf
uzaklik
(+ (abs (- 0 j))
(abs (- i (position su-anki
(first sonuc-durumu)))))))
((member su-anki (second sonuc-durumu))
(setf
uzaklik
(+ (abs (- 1 j))
(abs (- i (position su-anki
(second sonuc-durumu)))))))
((member su-anki (third sonuc-durumu))
(setf
uzaklik
(+ (abs (- 2 j))
(abs (- i (position su-anki
(third sonuc-durumu)))))))
((member su-anki (fourth sonuc-durumu))
(setf
uzaklik
(+ (abs (- 3 j))
(abs (- i (position su-anki
(fourth sonuc-durumu)))))))
)
(setf toplam (+ toplam uzaklik))
(setq i (incf i)) ;; increment
(if (eql i 4) (return)))
(setq j (incf j))
(if (eql j 4) (return))
) toplam)
)
;; bu algoritma, fiyati-sabit-arama islevi temel alinarak yazilmistir.
;; yani, algoritma asagi yukari aynidir. Tek fark, FIYAT islevinin
;; hesaplanmasi.
(defun a-yildiz-arama (s0 sg sons)
(let ( ( acik (list (list s0 nil 0 0 nil) ) )
;;g-guncel set to 0
( tamamlanan nil )
( n nil )
( kizlar nil ))
(setq kaydir-count 0)
(loop
(if (null acik) (return ’hata))
(setf n (pop acik))
21
(push n tamamlanan)
(if (equal (durum n) sg)
(let ()
(print "Great. I found a solution. Here it is:")
(sonuc-raporu-ver acik tamamlanan s0)
(return (sonuc-izini-bul n))))
(setf kizlar (cocuklari-getiren-islem n))
(kac-dugum-yarattik)
(setf kizlar
(DIFF kizlar tamamlanan))
(setf acik (UPDATE kizlar acik))
(setf acik
(sort acik #’(lambda(dugum1 dugum2)
(< (+ (g-guncel dugum1) (t-guncel dugum1))
(+ (g-guncel dugum2) (t-guncel dugum2))
))))
)
)
)
(defun UPDATE (kizlar acik)
(let ( ( m nil ) (bulunan-eski-d nil) )
(loop
(if (null kizlar) (return acik))
(setf m (pop kizlar))
(setf bulunan-eski-d (MEMBER-DURUM (durum m) acik))
(if bulunan-eski-d
(let ((eski-d (first bulunan-eski-d)))
(if (< (g-guncel m) (g-guncel eski-d))
(setf (first bulunan-eski-d) m) ))
(push m acik)
)
)
)
)
22
(Defun MEMBER-DURUM (durum list-of-nodes)
(if (null list-of-nodes)
nil
(if (equal durum (first list-of-nodes))
list-of-nodes
(MEMBER-DURUM durum (rest list-of-nodes)))))
(defun cocuklari-getiren-islem (dugum)
(let ( (butun-cocuklar nil)
(cocuk-dugumler nil)
(ogul-dugumler nil)
(durum (first dugum)) )
(setf ogul-dugumler (kaydir-yukari durum))
(setf cocuk-dugumler (list (list
ogul-dugumler
’yukari
(+ (g-guncel dugum)
(FIYAT (durum dugum) ogul-dugumler))
(tguncel-hesapla (durum dugum) sg )
dugum)))
(setf butun-cocuklar (append butun-cocuklar cocuk-dugumler))
(setf ogul-dugumler (kaydir-asagi durum))
(setf cocuk-dugumler (list (list
ogul-dugumler
’asagi
(+ (g-guncel dugum)
(FIYAT (durum dugum) ogul-dugumler))
(tguncel-hesapla (durum dugum) sg)
dugum)))
(setf butun-cocuklar (append butun-cocuklar cocuk-dugumler))
(setf ogul-dugumler (kaydir-saga durum))
(setf cocuk-dugumler (list (list
ogul-dugumler
’saga
(+ (g-guncel dugum)
(FIYAT (durum dugum) ogul-dugumler))
(tguncel-hesapla (durum dugum) sg)
dugum)))
(setf butun-cocuklar (append butun-cocuklar cocuk-dugumler))
(setf ogul-dugumler (kaydir-sola durum))
(setf cocuk-dugumler (list (list
ogul-dugumler
’sola
(+ (g-guncel dugum)
(FIYAT (durum dugum) ogul-dugumler))
23
(tguncel-hesapla (durum dugum) sg)
dugum)))
(setf butun-cocuklar (append butun-cocuklar cocuk-dugumler))
(setq kaydir-count (+ kaydir-count (length butun-cocuklar)))
butun-cocuklar))
(setq s0 ’((1 2 3 4) (5 6 0 8) (9 10 7 11) (13 14 15 12) (1 2)))
(setq sg ’((1 2 3 4) (5 6 7 8) (9 10 11 12) (13 15 14 0) (3 3)))
(test "calc hhat test A
*
" (tguncel-hesapla s0 sg) 8)
(setq s0 ’((1 2 3 4) (5 6 0 8) (9 10 7 11) (13 14 15 12) (1 2)))
(setq sg ’((1 2 3 4) (5 6 7 8) (9 10 11 12) (13 14 15 0) (3 3)))
(test "A
*
Search test"
(not (eql (a-yildiz-arama s0 sg nil) ’hata)) t )
(print "OK. A
*
Tests Passed")
Yapay Zeka ve Musabaka
Bilgisayarlar bir problemi yapay zeka kullanarak çözerken, kullandıkları teknikler;
Karar a˘ gacı, akıllı tahmin yetene˘ gi ve o ana kadar geçilen yolu hatırlamaktır.
Karar a˘ gacı kullanırken, seçece˘ gimiz yolun do˘ gru yol mu olup olmadı ˘ gı tahmin
etmek için de˘ gerlendirme i¸ slevine sorarız. Bu i¸ slev gerçek bir tahmin mantı ˘ gına
ne kadar yakın ise, (yani uzman bir insana) arama da o kadar ba¸ sarılı olur.
Bu örnekten yola çıkarsak, kar¸ sılıklı müsabakalar da bir arama problemi gibi
görülebilir. Bir ba¸ slangıç noktası vardır, belli seçenekler vardır, bu seçenekleri
takip etmek için karar a˘ gacı tekni ˘ gi uygulanabilir.
Tek bir de˘ gi¸ siklik ile: Artık kararların hepsi bize ait de˘ gil.
Altüst (Minimax) Algoritması
Mesela müsabaka, bir dama oyunu olsun. Oyun sırasında sıra bir bilgisayara, bir
kar¸ sı tarafa geçer. Bu yüzden iyi bir yapay zeka algoritması, hem kendi hareket-
lerinin arasında "de˘ gerlendirme i¸ slevinin" en iyi buldu˘ gunu seçmeli, hem de,
aynı zamanda rakibi için en kötü olacak yolu takip etmelidir.
Bu iki seçene˘ ge göre karar arama yapan algoritmaya altüst algoritması diyoruz.
Çünkü rakip için an alt de˘ ger ile, bilgisayar için en üst de˘ geri aynı anda arıyoruz.
Normal tek ki¸ sili arama algoritmalarında sadece "bir" ileriye bakarak de˘ gerlendirme
yapmı¸ s, ve en fazla olan seçene˘ gi takip etmi¸ stik. Altüst için arama yaparken
derinli ˘ gine inece˘ giz, ve bu derinli ˘ gi hafızamızın elverdi ˘ gi kadar yapabilece˘ giz.
Çünkü, hamleye kar¸ sı hamle, ona kar¸ sı hamle derken en iyi seçene˘ gi bulabilmek
için bazen oldukça derinlere inmek gerekebilir. 10 seviye altta çok iyi gözüken bir
birle¸ sim olabilir, ama belki de 11. seviyede maçı kaybediyoruz! Tabii dallanma
24
seviyesi fazla olan oyunlarda (mesela satranç) bu ¸ sekilde derinlik birçok bilgisa-
yarı donanım olarak zorlayacaktır. Bu yüzden Kasparov gibi bir ustayı ancak
IBM’in satranç için özel yapılmı¸ s makinesi zorlayabiliyor.
Oyun:
˙
Italyan Daması
Altüst algoritmasını dallanma faktörünün fazla olmadı ˘ gı bir oyun üzerinde göre-
ce˘ giz. Bu oyunun ismi italyan daması. Bildi ˘ gimiz dama oyununa çok benziyor,
sadece ta¸ slar düz olarak ileri, geri, sa˘ ga, sola gitmek yerine çapraz hareket ediyor-
lar. Aynen damada oldu˘ gu gibi, en sona ula¸ san ta¸ s kral oluyor ve uzun sıçramalar
yapabiliyor.
Ekte verilen LISP kodu üzerinde görece˘ gimiz gibi, programı temel hareketler,
de˘ gerlendirme i¸ slevi, algoritma ve ekrandan giri¸ s yaparak oynanabilen kısımlara
ayırdık.
Altüst algoritması, özyineli olarak çalı¸ san bir algoritmadır. Altüst, önce derin-
li ˘ gine bir sekilde müsaade edildi ˘ gi kadar (programcı tarafından) derinli ˘ ge iner,
ve vardı ˘ gı en uç noktalardaki tahtaları de˘ gerlendirir. Geri dönerken, bu de˘ ger-
lerden bazen "en az" olanı bazen "en fazla" olanı seçer. En az/en fazla kıstası her
seviyede bir de˘ gi¸ sir. Rakip hareketlerini gösteren seviyede bulunuyorsak, enalt,
kendi seviyemizde bulunuyorsak enüst seçimi yaparız.
Üzerinde kar¸ sıla¸ stırma yaptı ˘ gımız sayı, de˘ gerlendirme i¸ slevinin tahta hakkında
biçti ˘ gi de˘ gerden ba¸ skası de˘ gildir. Bu tür de˘ gerlendirme i¸ slevini A* algoritması
altında görmü¸ stük.
Tahta de˘ gerlerinin arasındaki seçimi özyineden geriye "dönerken" yaptı ˘ gımıza
özellikle dikkat edin. Yani, 10. seviyeye indiysek ve bütün önce-derinli ˘ gine
olarak bir dalı açmı¸ s isek, ancak ondan sonra de˘ gerleri birbirleri ile kar¸ sıla¸ stırarak
ve seçerek döndürmeye ba¸ slıyoruz. De˘ gerlendirme i¸ sleminin kendisi, derinli ˘ gin
en sonundaki tahtalar üzerinde yapılıyor. "Ara tahtaların" üzerinde de˘ gerlendirme
yapmıyoruz. (Bkz. tahta-degerlendir fonksiyonu).
Örnekteki resimde 2. seviyeye 99 ve 100’ün dönmü¸ s oldu˘ gunu görüyoruz. 1. se-
viye de sırasıyla önce 99, sonra 100’ün dönmesi gerekir, ve bunlardan 100 de˘ geri
99’un üzerine çıkacaktır. Çünkü 1. seviye ’üst’ seviyesidir. Alt seviyesi olsa idi,
99 seçilecekti.
Ayrıca, seviyeye göre bazen alt, bazen üst de˘ gerler aradı ˘ gımız için, hangi se-
viyede oldu˘ gumuza ba˘ glı olarak <> i¸ sleçlerini kullanmak yerine, hep aynı i¸ sleci
25
(>) kullansak, ve kar¸ sıla¸ stırma yaptı ˘ gımız de˘ geri sonraki seviyeye aktarmadan
önce eksi (-) ile çarpsak kod daha temiz olacak. Bunu ufak bir algoritma nu-
marası olarak görebilirsiniz. De˘ geri eksiye dönen bir de˘ gerin üzerinde uygu-
lanan büyüktür/küçüktür kar¸ sıla¸ stırmalarının sonucu otomatikman tersine döner
(basit aritmetik). Eksiyi eksi ile çarpınca sayı tekrar artıya döndü˘ gü için özyineli
olarak bu çarpımı tekrar tekrar yapmamız mümkün olabiliyor. Ne güzel. Böylece
iki tane if (ya da LISP cond) ifadesi yazmaktan kurtulmu¸ s olduk. Kod daha
temiz hale geldi. Bahsedilen ça˘ gırım ¸ sekli dama-alg.lisp dosyasındaki a¸ sa˘ gıdaki
satırda.
(setf dene (eniyi-hareket (tas-oynat
(first hareket-listesi) konumn)
(- derinlik 1)
(
*
onun-eniyi -1) ;; eksi carpimina dikkat
(
*
enyuksek-deger -1))) ;; ;; eksi carpimina dikkat
Bir ba¸ ska ilginç bir nokta da ¸ sudur: Rakibimizin tahtalarını ve kendi tahtalarına
de˘ ger biçerken hep aynı i¸ slevi kullanıyoruz. (Kod üzerinde tahta-degeri(tahta)
LISP i¸ slevi). Bunun Türkçesi ¸ su demektir: Kendi oyun bilgimize dayanarak rak-
ibimizin ne yapaca˘ gını tahmin etmeye u˘ gra¸ sıyoruz. Yani zihnen, sanal bir alemde
"rakibimizin yerine" hamle yapıyoruz ve bu sanal hamleye kendimize göre bir
cevap veriyoruz. Hakikaten de satranç, dama, ka˘ gıt oynarken yaptı ˘ gımız da bu
de˘ gil midir?
Eniyile¸ stirme
Gördü˘ gümüz gibi, altüst’ün temeli oldukça basit. Bundan sonrası, altüst’ü hız
ve hafıza bakımından eniyile¸ stirme için yapılmı¸ stır. Alfa-beta budaması denen
altüst uzantısı bu çerçevede dü¸ sünülmü¸ stür.
Dama tahtaları arasında alt/üst irdelemesi yaparken, ¸ sunu dü¸ sünebiliriz: A˘ gacın
herhangi yerindeki oyuncunun varabilece˘ gi bir yer olarak bir n adlı bir dü˘ güm
oldu˘ gunu dü¸ sünün; E˘ ger oyuncunun n’in bir üstü ya da daha tepesinde (dal-
lanma olarak) m adında daha iyi seçene˘ gi var ise, n dü˘ gümü oyun sırasında asla
eri¸ silmeyecektir. Bu yüzden n hakkında yeteri kadar bilgiye sahip oldu˘ gumuzda
(cocuklarından birkaçına bakarak), bu dü˘ gümü tümden budayabiliriz.
Daha detaylı (ve matematiksel) bir örnekte göstermemiz gerekirse:
altust-degeri(en tepe) =
üst ( alt(3, 12, 8), alt(2, x, y), alt(14, 5, 2) )
altust-degeri(en tepe) =
üst ( 3, alt(2, x, y), 2)
altust-degeri(en tepe) =
üst ( 3, z, 2)
altust-degeri(en tepe) = 3
Alt (2, x, y) i¸ slevinin de˘ geri Z’ye e¸ sitlendi (ve atıldı), x ve y’nin ne oldu˘ guna bile
bakılmadan. Çünkü alt(2, x, y) dedi ˘ gimiz zaman aynı anda ¸ sunu söylemi¸ s oluy-
oruz: "alt (2, x, y) en fazla 2 olabilir". De˘ gil mi? Çünkü alt i¸ slevinin gere˘ gi olarak
26
zaten en a¸ sa˘ gı olan de˘ geri seçece˘ giz. X ya da y daha az olsa, onları seçerdik, daha
fazla olsalar 2’yi seçece˘ giz. Fakat, elimizde KES
˙
IN bir 2 de˘ geri "zaten" var ise,
alt(2, x, y)’yi bir tarafa atabiliriz, çünkü nasıl olsa alt(2, x, y)’nin sonucu 2’den
daha iyi olamazdı. DAHA
˙
IY
˙
I’den kastımız üst i¸ slevi bakımından daha iyi de-
mektir, çünkü alt() i¸ slevlerinin sonucu üst() i¸ slevine gidiyor, biliyorsunuz.
Sonuçta, soyut olarak dü¸ sünerek alt(2, x, y)’nin üzerinde 2 yönlü bir tra¸ slama
yapıyoruz denebilir. Xve Y’nin 2’den fazla olmasını fonksiyonun kendisi tra¸ slıyor.
Daha az olabilme ihtimallerini’de, elimizde zaten olan 2 de˘ geri tra¸ slıyor, çünkü
bu iki de˘ gerinin ne yaparsak yapalım üstüne çıkamayaca˘ gız. Alt de˘ gerleri, üstte
toplandı ˘ gı için...
Alfa beta budaması, ismini, a˘ gaçta gezinirken o ana kadar en üst bulunmu¸ s olan
de˘ geri alfa de˘ gi¸ skeninde, ve en alt bulunmu¸ s de˘ geri beta de˘ gi¸ skeninde sürekli
olarak yanında gezdirmesinden gelir. En alt ve en üst de˘ gerler aranırken, sürekli
alfa ve beta’ya kar¸ sıla¸ stırma yapılır. Alfa/beta penceresinin içine dü¸ smeyen seçenek-
ler, ve onların alt-a˘ gaçları tamamen budanır. Bu ¸ sekilde yer ve zamandan oldukça
istifade etmemiz mümkündür.
27
(load "dama-temel.lisp")
;;
;; Cok basit bir degerlendirme fonksiyonu. Degerlendirme islemleri
;; tahtaya bakarak bu tahtanin bilgisayar icin ne kadar iyi durdugunu
;; (oldugunu) bir rakam ile rapor ederler.
*
enust-renk
*
bilgisayarin
;; hangi oyuncuyu oynadigini gosterir. Burada kullanilan degerlendirme
;; cok basit, "daha zoru" degerlendirme icin ozel olan dosyada olacak.
;; Bu islevin raporladigi rakam, zaten tahtanin en sonunda tutulmakta.
(defun tahta-degeri(tahta)
(cond ((equal
*
enust-renk
* *
beyaz
*
)
(caadr tahta))
(t (cadadr tahta))
))
;;
;; disardan cagirilan islev
(defun altust-arama(dugum)
(setf benim-eniyi -999999)
(setf onun-eniyi +999999)
(eniyi-hareket (copy-tree dugum) 10 benim-eniyi onun-eniyi)
)
;; Simdi, altust (minimax) algoritmasinin alfa-beta seklini gosteriyoruz.
(defun eniyi-hareket(konumn derinlik benim-eniyi onun-eniyi)
;; Dikkat ederseniz normal altust algoritmasina iki yeni
;; bildirgec ekledik. Baslarken Benim-Eniyi -sonsuz’a (eksi sonsuz)
;; esitlenmeli. Onun-eniyi ise +sonsuz’a esitlenmeli.
(let ((hareket-listesi nil)(enyuksek-deger nil)
(eniyim nil)(dene nil)(denenen-deger nil))
;; Bu kontrol, ozyineli cagirimi karar agacin sonuna geldigimizde
;; bitirebilmek icindir. Iki elemanli bir liste geriye
28
;; getiriyoruz.
(if (eql derinlik 0)
(return-from eniyi-hareket (list (tahta-degeri konumn) nil)))
;; Oyun kurallarina gore uygun olan, tahta’nin o anki konumuna
;; gore olan butun muhtemel hareketleri buluyoruz.
(setq hareket-listesi (hareket-listesi-hesapla
*
enust-renk
*
konumn))
(setq enyuksek-deger benim-eniyi)
(setq eniyim nil)
;; Artik hareket-listesi’ni taramaya haziriz. En iyi
;; hareketi bu listeden sececegiz. Enyuksek-deger ve eniyim
;; degerlerini nasil yukledigimize dikkat edin.
(do () ((equal hareket-listesi nil))
;; Burasi ana ozyineli cagirimin yapildigi yer. Bu cagiri ile
;; siradaki hareketin arama alanini ’aciyoruz’. Iki yeni
;; bildirgeci gectigimize dikkat edin.
(setf dene (eniyi-hareket (tas-oynat (first hareket-listesi) konumn)
(- derinlik 1)
(
*
onun-eniyi -1)
(
*
enyuksek-deger -1)))
;; eniyi-hareket iki deger geri getirir, unutmayin..
(setq denenen-deger (first dene))
;; Simdi, elimizdeki hareketin otekilere daha iyi olup olmadigina
;; karar verelim. Elimizdeki hareketi ’su ana kadar en iyi’ olarak
;; secip secmeyecegimiz buna bagli.
(if (> denenen-deger enyuksek-deger)
(progn
(setq enyuksek-deger denenen-deger)
(setq eniyim (first hareket-listesi))
))
;; Iste ’kesit’ islemi alfa-beta algoritmasi icin burada
;; yapilir. Eger iyi bir hareket bulamadiysak, arayisi burada
;; durduruyoruz. Return fonksiyonu, donguyu yarida kesiyor
;; ve bir onceki ozyine seviyesine donuyor.
(if (> enyuksek-deger onun-eniyi)
(return-from eniyi-hareket (list enyuksek-deger eniyim)))
;; Listede taramaya devam ediyoruz, bakalim elimizdekinden daha
;; iyi bir hareket bulabilecekmiyiz
(setq hareket-listesi (cdr hareket-listesi))
)
;; Butun hareket-liste’sini aradiktan sonra, en iyi
;; hareketi bulmus bulunuyoruz. Geriye cevap olarak
;; bu hareketi bildirecegiz.
29
(return-from eniyi-hareket (list enyuksek-deger eniyim))
) ;; let sonu
) ;; defun sonu
;;
;; testler
(oyuna-basla
*
beyaz
*
)
(test "degerlendir testi" (tahta-degeri
*
tahta
*
) 12)
(oyuna-basla
*
beyaz
*
)
(test "altust basit test" (altust-arama
*
tahta
*
) ’(12 ((1 5) (0 4))))
(setq
*
enust-renk
*
"b")
(setf hic-siyah-kalmadi
’(((nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) nil)
(nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(nil nil nil nil nil nil nil nil)(nil nil nil nil nil nil nil nil)
(nil nil nil nil nil nil nil nil)(nil nil nil nil nil nil nil nil )
(nil nil nil nil nil nil nil nil)) (12 0)))
(test "basit degerlendir 1" (tahta-degeri hic-siyah-kalmadi) 12)
(setq
*
enust-renk
*
"s")
(setf hic-siyah-kalmadi
’(((nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) nil)
(nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(nil nil nil nil nil nil nil nil)(nil nil nil nil nil nil nil nil)
(nil nil nil nil nil nil nil nil)(nil nil nil nil nil nil nil nil )
(nil nil nil nil nil nil nil nil)) (12 0)))
(test "basit degerlendir 2" (tahta-degeri hic-siyah-kalmadi) 0)
(oyuna-basla
*
beyaz
*
)
(setq tahta-kopyasi (copy-tree
*
tahta
*
))
(altust-arama
*
tahta
*
)
(test "tahta degismemesi gerekir testi" (equal tahta-kopyasi
*
tahta
*
) t)
(print "Tamam. Algoritma Birim Testleri Gecti")
(load "dama-alg.lisp")
;; Bu islev, atak oyun halinde mi, yoksa defans oyun halinde mi
;; oldugumuzu hesaplar. Eger defans agirlikli oynuyorsak, ki program
;; bunu oyunun basinda yapmak uzere yazildi, her tahtanin degeri
;; hesaplanirken agirliklar defansif olculere gore secilir. Atak
;; oyununda bu agirliklar degisiyor. Defans/Atak karari su ana kadar
;; kac hamle yapildigina gore veriliyor; Belli bir tetik degerinden
;; sonra, (7 hamle) bilgisayar atak oynamaya basliyor.
(defun atak-oyun? ()
(cond ((> bilgisayar-hamle-sayisi 7) t)
(t nil)))
30
;; Alttaki degerlendirme islevini goruyoruz. Bu islev oyunun
;; akillica secim yapmasina yardim edecek.
(defun tahta-degeri(tahta)
(let (
(y-sayac 0) (x-sayac 0)
;; sayac degiskenler
(benim-tas-sayim (caadr tahta))(rakibin-tas-sayisi (cadadr tahta))
(benim-kral-sayim 0)(rakibin-kral-sayisi 0)
(mevcut-hamlelerim 0)(rakibin-mevcut-hamleleri 0)
;; agirliklar
(kralin-agirligi nil)(mevcut-hamle-agirligi nil)
(benim-kalan-tas-agirligim nil)(rakibin-kalan-tas-agirligi nil)
;; sonuc
(degerlendirme-toplami 0)
)
;; Atak/defans halimize gore agirlik degerlerini
;; degistir
(cond ((equal (atak-oyun?) nil)
(progn
(setq kralin-agirligi 50)
(setq mevcut-hamle-agirligi 60)
(setq benim-kalan-tas-agirligim 70)
(setq rakibin-kalan-tas-agirligi 30)
))
(t
(progn
(setq kralin-agirligi 100)
(setq mevcut-hamle-agirligi 60)
(setq benim-kalan-tas-agirligim 20)
(setq rakibin-kalan-tas-agirligi 70)
)
))
;; butun tahtayi tararken..
(dotimes (x-sayac 8)
(dotimes (y-sayac 8)
(setq konum-degeri (tas-degeri-ver (list x-sayac y-sayac) tahta))
(if (not (equal konum-degeri nil))
(progn
;; tas degeri ve kral gosterge degerine eris
(setq renk (car konum-degeri))
(setq kral-mi (cadr konum-degeri))
;; saymaya basla
;; krallari say
(if (and (equal
*
enust-renk
*
renk)
(equal kral-mi t))
(setq benim-kral-sayim (+ 1 benim-kral-sayim)))
(if (and (equal
*
enalt-renk
*
renk)
(equal kral-mi t))
(setq rakibin-kral-sayisi (+ rakibin-kral-sayisi 1)))
31
;; mevcut hareketleri say (hareket sahamiz ne kadar genis?)
(setq mevcut-hamlelerim
(length (hareket-listesi-hesapla
*
enust-renk
*
tahta)))
(setq rakibin-mevcut-hamleleri
(length (hareket-listesi-hesapla
*
enalt-renk
*
tahta)))
))
))
;; hepsini topla
(setf degerlendirme-toplami
(+ degerlendirme-toplami
(
*
benim-tas-sayim benim-kalan-tas-agirligim)))
(setq degerlendirme-toplami
(+ degerlendirme-toplami
(
*
rakibin-tas-sayisi rakibin-kalan-tas-agirligi)))
(setq degerlendirme-toplami
(+ degerlendirme-toplami
(
*
benim-kral-sayim kralin-agirligi)))
(setq degerlendirme-toplami
(+ degerlendirme-toplami
(
*
mevcut-hamlelerim mevcut-hamle-agirligi)))
;; sonuc degeri geri bildir
degerlendirme-toplami)
)
;;
;; testler
(setq bilgisayar-hamle-sayisi 0)
(test "atak mi defans mi? 1" (atak-oyun?) nil)
(setq bilgisayar-hamle-sayisi 10)
(test "atak mi defans mi? 2" (atak-oyun?) t)
(oyuna-basla
*
beyaz
*
)
(test "atak mi defans mi? 3" (atak-oyun?) nil)
(oyuna-basla
*
beyaz
*
)
(test "tahta degerlendir" (tahta-degeri
*
tahta
*
) 1620)
(print "Tamam. Degerlendirme Birim Testleri Gecti")
(load "dama-deger.lisp")
(oyuna-basla
*
beyaz
*
)
(print "----------------------------------------------------")
(print "Hamleleri mesela siyah icin ’((0 2)(1 3)) seklinde girmek gerekli")
(print "Bu, x=0 y=2’deki tasi x=1, y=3 pozisyonuna getirecektir")
(print "----------------------------------------------------")
(loop
(goster
*
tahta
*
)
(print "Hamlenizi giriniz")
(setq insan-hamlesi (eval (read)))
32
(cond ((equal (hamle-kurallara-uygunmu insan-hamlesi
*
tahta
*
"b") t)
(progn
(tas-oynat insan-hamlesi
*
tahta
*
)
(print "su hareketi yaptiniz")
(print insan-hamlesi)
(goster
*
tahta
*
)
(setq bilgisayar-hamlesi (cadr (altust-arama
*
tahta
*
)))
(print "bilgisayarin hareketi")
(print bilgisayar-hamlesi)
(tas-oynat bilgisayar-hamlesi
*
tahta
*
)
(setf bilgisayar-hamle-sayisi (+ bilgisayar-hamle-sayisi 1))
))
(t (print "HATALI HAREKET")))
)
;; Oyun tahtasi liste icinde liste olarak temsil edildi. Her tahta
;; konumu, eger uzerinde bir tas var ise, bir liste nesnesi
;; tasir. Eger bu tas normal bir tas ise, bu liste ("b" nil) gibi
;; olur. Eger bu tas kral tasi ise, ("b" T) olarak temsil
;; edilecektir. Yani, ikinci T ya da NIL degeri krallik
;; gostergesidir. Eger konum uzerinde hic tas yok ise, liste nesnesi
;; yerine NIL bulacaksiniz, dikkat edin (nil nil) degil. Listenin en
;; sonundaki iki rakam, tahta uzerinde o anda her renkten kac tas
;; kaldigini gosterir. Birinci rakam beyaz, ikincisi siyah icin. Bunu
;; yapmamizin sebebi algoritmayi hizlandirmak icin, boylece ikidebir
;; tahtayi bastan sona taramak gerekmiyor.
(setq
*
beyaz
*
"b")
(setq
*
siyah
*
"s")
(setq
*
enust-renk
*
nil)
(setq
*
enalt-renk
*
nil)
(setq
*
tahta
*
nil)
(setq bilgisayar-hamle-sayisi 0)
;;
;; test isleten islev
(defun test (isim deyim sonuc)
(cond
((equal deyim sonuc) t)
(t (print isim) (error "HATA! Birim test bir yanlis buldu! "))
))
;;
;; Tahta silbastan baslayinca, enust-renk bilgisayara aittir.
(defun oyuna-basla (renk)
(setq bilgisayar-hamle-sayisi 0)
(setq
*
tahta
*
(copy-tree (tahtayi-hazirla)))
(cond
((equal renk
*
beyaz
*
)
(progn (setq
*
enust-renk
*
"b")
(setq
*
enalt-renk
*
"s")))
(t (progn (setq
*
enust-renk
*
"s")
(setq
*
enalt-renk
*
"b")
)
33
)
)
)
;;
;; tahtayi sifirla
(defun tahtayi-hazirla ()
’(((nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) nil)
(nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(nil nil nil nil nil nil nil nil)
(nil nil nil nil nil nil nil nil)
(("s" nil) nil ("s" nil) nil ("s" nil) nil ("s" nil) nil)
(nil ("s" nil) nil ("s" nil) nil ("s" nil) nil ("s" nil) )
(("s" nil) nil ("s" nil) nil ("s" nil) nil ("s" nil) nil)
) (12 12))
)
;;
;; tahtanin o anki durumunu ekrana metin olarak bas (hata bulmak
;; icin cok yararli oldu)
(defun goster (tahta)
(terpri)
(write-line "+=0===1===2===3===4===5===6===7-+")
(let ((y-sayici 8))
(dotimes (y-ozyine 8)
(princ (- y-sayici 1))
(let ((x-sayici 7))
(dolist (kon (nth (- 7 (- y-sayici 1)) (car tahta)))
(princ " ")
(cond
((equal kon nil) (princ " "))
((and (equal (car kon) "b") (null (cadr kon))) (princ "b"))
((and (equal (car kon) "b") (cadr kon)) (princ "B"))
((and (equal (car kon) "s") (null (cadr kon))) (princ "s"))
((and (equal (car kon) "s") (cadr kon)) (princ "S"))
)
(princ " ")
(if (null (equal x-sayici 0)) (princ "|"))
(setq x-sayici (- x-sayici 1))
)
)
(write-line "|")
(if (null (equal y-sayici 1))
(write-line "|===============================|"))
(setq y-sayici (- y-sayici 1))
)
)
(write-line "+=0===1===2===3===4===5===6===7=+")
nil
)
;;
;; her hamle su sekilde temsil edilir, mesela ’((0 2)(1 2))
;; Yani, hamle X=1, Y=2 konumundan X=1, Y=2 konumuna yapilacak.
34
(defun tas-oynat (hamle tahta)
(setq gecici-tas1 (tas-degeri-ver (car hamle) tahta))
(setq gecici-tas2 (tas-degeri-ver (cadr hamle) tahta))
;; hamle
(setq tahta
(tas-degeri-degis (cadr hamle)
(tas-cikart (car hamle) tahta) gecici-tas1))
(setq atlanan-konum
(atlayarak-gidilen-konumlar (car hamle) (cadr hamle)))
;; eger gerekiyorsa krala cevir
(cond
((and (equal (car gecici-tas1) "s") (equal 7 (cadadr hamle)))
(setf (cadr gecici-tas1) t))
((and (equal (car gecici-tas1) "b") (equal 0 (cadadr hamle)))
(setf (cadr gecici-tas1) t))
)
(cond
(atlanan-konum ;; hareket atlama ise
(progn
(if (equal (car (tas-degeri-ver atlanan-konum tahta)) "b")
(setf (caadr tahta) (- (caadr tahta) 1))
(setf (cadadr tahta) (- (cadadr tahta) 1)))
(setq tahta (tas-cikart atlanan-konum tahta))
(cond
((caddr hamle) ;; birkac atlama var ise, ozyineli olarak cagir
(progn
(tas-oynat (cdr hamle) tahta)
)
)
(t
tahta ))
)
)
(t ;; atlama degil
tahta
)
)
)
;;
;; tas degerini geri getir
(defun tas-degeri-ver (kon tahta)
(nth (car kon) (nth (- 7 (cadr kon)) (car tahta)))
)
;;
;; tasin degerini tahtaya koy
(defun tas-degeri-degis (kon tahta eleman)
(setf (nth (car kon) (nth (- 7 (cadr kon)) (car tahta))) eleman)
tahta
)
35
;;
;; tasi tahtadan al
(defun tas-cikart (kon tahta)
(setf (nth (car kon) (nth (- 7 (cadr kon)) (car tahta))) nil)
tahta
)
;;
;;
(defun atlayarak-gidilen-konumlar (kon_a kon_b)
(setq x (car kon_a))
(setq y (cadr kon_a))
(cond
((equal kon_b (list (+ x 1) (+ y 1))) nil)
((equal kon_b (list (+ x 1) (- y 1))) nil)
((equal kon_b (list (- x 1) (+ y 1))) nil)
((equal kon_b (list (- x 1) (- y 1))) nil)
;; ya da ortada kalan taslarin kordinatlarini getir
(t
(cond
((< x (car kon_b)) (setq gecici_x (+ 1 x)))
(t (setq gecici_x (- x 1)))
)
(cond
((< y (cadr kon_b)) (setq gecici_y (+ 1 y)))
(t (setq gecici_y (- y 1)))
)
(list gecici_x gecici_y)
)
)
)
(defun hamle-kurallara-uygunmu (hareket tahta renk)
;; hareket menzilin disinda ise, bu kural disi bir hareket
(cond
((null (menzildemi (cadr hareket)))
nil
)
;; gitmeye ugrastigimiz yerde zaten bir tas var ise,
;; bu da kural disi bir harekettir
((tas-degeri-ver (cadr hareket) tahta)
nil
)
(t
(let (
(eleman (tas-degeri-ver (car hareket) tahta))
(baslax (caar hareket))
(baslay (cadar hareket))
(bitisx (caadr hareket))
(bitisy (cadadr hareket)))
(cond
;; eger hareket ziplama hareketi ise
((equal 2 (abs (- baslax bitisx)))
(cond
36
((equal eleman (list "s" nil))
(if (and (equal 2 (- bitisy baslay))
(equal (car (tas-degeri-ver
(atlayarak-gidilen-konumlar
(car hareket)
(cadr hareket)) tahta)) "b"))
t
)
)
((equal eleman (list "b" nil))
(if (and (equal -2 (- bitisy baslay))
(equal (car (tas-degeri-ver
(atlayarak-gidilen-konumlar
(car hareket)
(cadr hareket)) tahta)) "s"))
t
)
)
((equal (cadr eleman) t)
(if (and (equal 2 (abs (- bitisy baslay)))
(equal (car (tas-degeri-ver
(atlayarak-gidilen-konumlar
(car hareket)
(cadr hareket)) tahta))
(renk-degistir renk)))
t
)
)
)
)
;; ziplama degil ise
((equal 1 (abs (- baslax bitisx)))
(cond
((equal eleman (list "s" nil))
(if (equal 1 (- bitisy baslay))
t
)
)
((equal eleman (list "b" nil))
(if (equal -1 (- bitisy baslay))
t
)
)
((equal (cadr eleman) t)
(if (equal 1 (abs (- baslay bitisy))) t)
)
)
)
)
)
)
)
)
(defun menzildemi (kon)
37
(let ((x (car kon)) (y (cadr kon)))
(cond
((and (< x 8) (< y 8) (> x -1) (> y -1)) t)
(t nil)
)
)
)
(defun renk-degistir (color)
(cond
((equal "b" color) "r")
(t "b")
)
)
;;
;; girilen renk ve tahtaya gore, oyuncunun yapabilecegi
;; butun hareketleri geri getir
(defun hareket-listesi-hesapla (renk tahta)
(setq tas-konumlari (tas-yerlerini-ver renk tahta))
(let ((muhtemel-hareketler nil) (mumkun-atlamalar nil))
(dolist (kon tas-konumlari)
(setq mumkun-atlamalar
(append mumkun-atlamalar
(mecburi-hareketleri-ver kon tahta renk)))
(if (null mumkun-atlamalar)
(progn
(if (hamle-kurallara-uygunmu
(list kon (list (- (car kon) 1)
(- (cadr kon) 1))) tahta renk)
(setq muhtemel-hareketler
(append
muhtemel-hareketler
(list (list kon (list (- (car kon) 1)
(- (cadr kon) 1)))))))
(if (hamle-kurallara-uygunmu
(list kon (list (- (car kon) 1)
(+ (cadr kon) 1))) tahta renk)
(setq muhtemel-hareketler
(append
muhtemel-hareketler
(list (list kon (list (- (car kon) 1)
(+ (cadr kon) 1)))))))
(if (hamle-kurallara-uygunmu
(list kon (list (+ (car kon) 1)
(- (cadr kon) 1))) tahta renk)
(setq muhtemel-hareketler
(append
muhtemel-hareketler
(list (list kon (list (+ (car kon) 1)
(- (cadr kon) 1)))))))
(if (hamle-kurallara-uygunmu
(list kon (list (+ (car kon) 1)
(+ (cadr kon) 1))) tahta renk)
(setq muhtemel-hareketler
38
(append
muhtemel-hareketler
(list (list kon (list (+ (car kon) 1)
(+ (cadr kon) 1)))))))
) ;; progn sonu
) ;; if sonu
)
(if mumkun-atlamalar mumkun-atlamalar muhtemel-hareketler)
)
)
(defun tas-yerlerini-ver (renk tahta)
(setq konumlar nil)
(if (equal renk (car (tas-degeri-ver ’(0 0) tahta)))
(setq konumlar (append konumlar ’((0 0)))))
(if (equal renk (car (tas-degeri-ver ’(0 1) tahta)))
(setq konumlar (append konumlar ’((0 1)))))
(if (equal renk (car (tas-degeri-ver ’(0 2) tahta)))
(setq konumlar (append konumlar ’((0 2)))))
(if (equal renk (car (tas-degeri-ver ’(0 3) tahta)))
(setq konumlar (append konumlar ’((0 3)))))
(if (equal renk (car (tas-degeri-ver ’(0 4) tahta)))
(setq konumlar (append konumlar ’((0 4)))))
(if (equal renk (car (tas-degeri-ver ’(0 5) tahta)))
(setq konumlar (append konumlar ’((0 5)))))
(if (equal renk (car (tas-degeri-ver ’(0 6) tahta)))
(setq konumlar (append konumlar ’((0 6)))))
(if (equal renk (car (tas-degeri-ver ’(0 7) tahta)))
(setq konumlar (append konumlar ’((0 7)))))
(if (equal renk (car (tas-degeri-ver ’(1 0) tahta)))
(setq konumlar (append konumlar ’((1 0)))))
(if (equal renk (car (tas-degeri-ver ’(1 1) tahta)))
(setq konumlar (append konumlar ’((1 1)))))
(if (equal renk (car (tas-degeri-ver ’(1 2) tahta)))
(setq konumlar (append konumlar ’((1 2)))))
(if (equal renk (car (tas-degeri-ver ’(1 3) tahta)))
(setq konumlar (append konumlar ’((1 3)))))
(if (equal renk (car (tas-degeri-ver ’(1 4) tahta)))
(setq konumlar (append konumlar ’((1 4)))))
(if (equal renk (car (tas-degeri-ver ’(1 5) tahta)))
(setq konumlar (append konumlar ’((1 5)))))
(if (equal renk (car (tas-degeri-ver ’(1 6) tahta)))
(setq konumlar (append konumlar ’((1 6)))))
(if (equal renk (car (tas-degeri-ver ’(1 7) tahta)))
(setq konumlar (append konumlar ’((1 7)))))
(if (equal renk (car (tas-degeri-ver ’(2 0) tahta)))
(setq konumlar (append konumlar ’((2 0)))))
(if (equal renk (car (tas-degeri-ver ’(2 1) tahta)))
(setq konumlar (append konumlar ’((2 1)))))
(if (equal renk (car (tas-degeri-ver ’(2 2) tahta)))
(setq konumlar (append konumlar ’((2 2)))))
(if (equal renk (car (tas-degeri-ver ’(2 3) tahta)))
39
(setq konumlar (append konumlar ’((2 3)))))
(if (equal renk (car (tas-degeri-ver ’(2 4) tahta)))
(setq konumlar (append konumlar ’((2 4)))))
(if (equal renk (car (tas-degeri-ver ’(2 5) tahta)))
(setq konumlar (append konumlar ’((2 5)))))
(if (equal renk (car (tas-degeri-ver ’(2 6) tahta)))
(setq konumlar (append konumlar ’((2 6)))))
(if (equal renk (car (tas-degeri-ver ’(2 7) tahta)))
(setq konumlar (append konumlar ’((2 7)))))
(if (equal renk (car (tas-degeri-ver ’(3 0) tahta)))
(setq konumlar (append konumlar ’((3 0)))))
(if (equal renk (car (tas-degeri-ver ’(3 1) tahta)))
(setq konumlar (append konumlar ’((3 1)))))
(if (equal renk (car (tas-degeri-ver ’(3 2) tahta)))
(setq konumlar (append konumlar ’((3 2)))))
(if (equal renk (car (tas-degeri-ver ’(3 3) tahta)))
(setq konumlar (append konumlar ’((3 3)))))
(if (equal renk (car (tas-degeri-ver ’(3 4) tahta)))
(setq konumlar (append konumlar ’((3 4)))))
(if (equal renk (car (tas-degeri-ver ’(3 5) tahta)))
(setq konumlar (append konumlar ’((3 5)))))
(if (equal renk (car (tas-degeri-ver ’(3 6) tahta)))
(setq konumlar (append konumlar ’((3 6)))))
(if (equal renk (car (tas-degeri-ver ’(3 7) tahta)))
(setq konumlar (append konumlar ’((3 7)))))
(if (equal renk (car (tas-degeri-ver ’(4 0) tahta)))
(setq konumlar (append konumlar ’((4 0)))))
(if (equal renk (car (tas-degeri-ver ’(4 1) tahta)))
(setq konumlar (append konumlar ’((4 1)))))
(if (equal renk (car (tas-degeri-ver ’(4 2) tahta)))
(setq konumlar (append konumlar ’((4 2)))))
(if (equal renk (car (tas-degeri-ver ’(4 3) tahta)))
(setq konumlar (append konumlar ’((4 3)))))
(if (equal renk (car (tas-degeri-ver ’(4 4) tahta)))
(setq konumlar (append konumlar ’((4 4)))))
(if (equal renk (car (tas-degeri-ver ’(4 5) tahta)))
(setq konumlar (append konumlar ’((4 5)))))
(if (equal renk (car (tas-degeri-ver ’(4 6) tahta)))
(setq konumlar (append konumlar ’((4 6)))))
(if (equal renk (car (tas-degeri-ver ’(4 7) tahta)))
(setq konumlar (append konumlar ’((4 7)))))
(if (equal renk (car (tas-degeri-ver ’(5 0) tahta)))
(setq konumlar (append konumlar ’((5 0)))))
(if (equal renk (car (tas-degeri-ver ’(5 1) tahta)))
(setq konumlar (append konumlar ’((5 1)))))
(if (equal renk (car (tas-degeri-ver ’(5 2) tahta)))
(setq konumlar (append konumlar ’((5 2)))))
(if (equal renk (car (tas-degeri-ver ’(5 3) tahta)))
(setq konumlar (append konumlar ’((5 3)))))
(if (equal renk (car (tas-degeri-ver ’(5 4) tahta)))
(setq konumlar (append konumlar ’((5 4)))))
(if (equal renk (car (tas-degeri-ver ’(5 5) tahta)))
40
(setq konumlar (append konumlar ’((5 5)))))
(if (equal renk (car (tas-degeri-ver ’(5 6) tahta)))
(setq konumlar (append konumlar ’((5 6)))))
(if (equal renk (car (tas-degeri-ver ’(5 7) tahta)))
(setq konumlar (append konumlar ’((5 7)))))
(if (equal renk (car (tas-degeri-ver ’(6 0) tahta)))
(setq konumlar (append konumlar ’((6 0)))))
(if (equal renk (car (tas-degeri-ver ’(6 1) tahta)))
(setq konumlar (append konumlar ’((6 1)))))
(if (equal renk (car (tas-degeri-ver ’(6 2) tahta)))
(setq konumlar (append konumlar ’((6 2)))))
(if (equal renk (car (tas-degeri-ver ’(6 3) tahta)))
(setq konumlar (append konumlar ’((6 3)))))
(if (equal renk (car (tas-degeri-ver ’(6 4) tahta)))
(setq konumlar (append konumlar ’((6 4)))))
(if (equal renk (car (tas-degeri-ver ’(6 5) tahta)))
(setq konumlar (append konumlar ’((6 5)))))
(if (equal renk (car (tas-degeri-ver ’(6 6) tahta)))
(setq konumlar (append konumlar ’((6 6)))))
(if (equal renk (car (tas-degeri-ver ’(6 7) tahta)))
(setq konumlar (append konumlar ’((6 7)))))
(if (equal renk (car (tas-degeri-ver ’(7 0) tahta)))
(setq konumlar (append konumlar ’((7 0)))))
(if (equal renk (car (tas-degeri-ver ’(7 1) tahta)))
(setq konumlar (append konumlar ’((7 1)))))
(if (equal renk (car (tas-degeri-ver ’(7 2) tahta)))
(setq konumlar (append konumlar ’((7 2)))))
(if (equal renk (car (tas-degeri-ver ’(7 3) tahta)))
(setq konumlar (append konumlar ’((7 3)))))
(if (equal renk (car (tas-degeri-ver ’(7 4) tahta)))
(setq konumlar (append konumlar ’((7 4)))))
(if (equal renk (car (tas-degeri-ver ’(7 5) tahta)))
(setq konumlar (append konumlar ’((7 5)))))
(if (equal renk (car (tas-degeri-ver ’(7 6) tahta)))
(setq konumlar (append konumlar ’((7 6)))))
(if (equal renk (car (tas-degeri-ver ’(7 7) tahta)))
(setq konumlar (append konumlar ’((7 7)))))
konumlar
)
(defun mecburi-hareketleri-ver (kon tahta renk)
(let ((muhtemel-hareketler nil) (eleman (tas-degeri-ver kon tahta)))
(if (cadr eleman)
;;
;; KRALLAR
;;
(progn
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (+ (car kon) 2)
(+ (cadr kon) 2) renk muhtemel-hareketler))
41
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (+ (car kon) 2)
(- (cadr kon) 2) renk muhtemel-hareketler))
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (- (car kon) 2)
(+ (cadr kon) 2) renk muhtemel-hareketler))
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (- (car kon) 2)
(- (cadr kon) 2) renk muhtemel-hareketler))
)
;;
;; NORMAL
;;
(progn
(if (equal renk "b")
(progn
;;
;; BEYAZ :: Bu demektir ki normal parcalar icin + kullan
;;
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (+ (car kon) 2)
(- (cadr kon) 2) renk muhtemel-hareketler))
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (- (car kon) 2)
(- (cadr kon) 2) renk muhtemel-hareketler))
)
(progn
;;
;; SIYAH :: Buna gore normal parcalar icin ’-’ kullan
;;
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (+ (car kon) 2)
(+ (cadr kon) 2) renk muhtemel-hareketler))
(setq muhtemel-hareketler
(atlamalari-bul
(copy-tree tahta) kon (- (car kon) 2)
(+ (cadr kon) 2) renk muhtemel-hareketler))
)
)
)
)
muhtemel-hareketler
)
)
;;
;;
(defun atlamalari-bul (gecici_tahta kon yenix yeniy renk m-hareketler)
(let ((muhtemel-hareketler nil))
42
(if (hamle-kurallara-uygunmu
(list kon (list yenix yeniy)) gecici_tahta renk)
(progn
(setq gecici_tahta
(tas-oynat (list kon (list yenix yeniy)) gecici_tahta))
(setq gecici
(mecburi-hareketleri-ver
(list yenix yeniy) gecici_tahta renk))
(if gecici
(dolist (b gecici)
(setq a (list kon (list yenix yeniy)))
(if muhtemel-hareketler
(setq muhtemel-hareketler
(append
muhtemel-hareketler
(list (append a (cdr b)))))
(setq muhtemel-hareketler
(list (append muhtemel-hareketler a (cdr b))))
)
)
(setq muhtemel-hareketler (list (list kon (list yenix yeniy))))
)
))
(if muhtemel-hareketler
(append m-hareketler muhtemel-hareketler) m-hareketler)
)
)
;; Oyunun bitip bitmedigine karar veren islev budur. Cagirmak icin
;; bir renk ve tahtanin durumu bildirilir, eger renk icin hic bir
;; hareket kalmadi ise, bu oyuncu icin oyun bitmis demektir.
;; Bu oyuncunun belki taslarinin onu kapanmistir, ya da hic
;; tasi kalmamistir. Her iki halde de hareket-listesi-hesapla
;; hic hareket listesi geri getirmez.
(defun oyun-bitti-mi?(renk tahta)
(cond
((equal (hareket-listesi-hesapla renk tahta) nil) t)
(t nil))
)
;; -------------------------------------------------------------
;;
;; testler
(oyuna-basla
*
beyaz
*
)
(setf sonuc (tas-oynat ’((0 2)(1 2))
*
tahta
*
))
(setf beklenen-sonuc
’(((nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil))
(("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) nil)
(nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil))
(nil nil nil nil nil nil nil nil) (nil nil nil nil nil nil nil nil)
(nil ("s" nil) ("s" nil) nil ("s" nil) nil ("s" nil) nil)
(nil nil nil ("s" nil) nil ("s" nil) nil ("s" nil))
(("s" nil) nil ("s" nil) nil ("s" nil) nil ("s" nil) nil))
43
(12 11)) )
(test "tek hareket yap" (equal beklenen-sonuc sonuc) t)
(oyuna-basla
*
beyaz
*
)
(test "yanlis hareket yap"
(hamle-kurallara-uygunmu ’((0 2)(1 2))
*
tahta
* *
beyaz
*
) nil)
(oyuna-basla
*
beyaz
*
)
(test "dogru hamle yap"
(hamle-kurallara-uygunmu ’((0 2)(1 3))
*
tahta
*
’USER::BLACK) T)
(oyuna-basla
*
beyaz
*
)
(setf beklenen-hareket-listesi
’(((1 5) (0 4)) ((1 5) (2 4)) ((3 5) (2 4))
((3 5) (4 4)) ((5 5) (4 4)) ((5 5) (6 4)) ((7 5) (6 4))))
(setf sonuc (hareket-listesi-hesapla "b"
*
tahta
*
))
(test "oyuna uygun hareket" (equal sonuc beklenen-hareket-listesi ) t)
(oyuna-basla
*
beyaz
*
)
(setf gecici-sonuc (tas-oynat ’((0 2)(2 7))
*
tahta
*
))
(setf beklenen-tahta
’(((nil ("b" nil) ("s" T) ("b" nil) nil ("b" nil) nil ("b" nil))
(("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) nil)
(nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil))
(nil nil nil nil nil nil nil nil)
(nil nil nil nil nil nil nil nil)
(nil nil ("s" nil) nil ("s" nil) nil ("s" nil) nil)
(nil ("s" nil) nil ("s" nil) nil ("s" nil) nil ("s" nil))
(("s" nil) nil ("s" nil) nil ("s" nil) nil ("s" nil) nil))
(12 11)))
(test "kral yap" (equal gecici-sonuc beklenen-tahta) t)
(setf hic-siyah-tassiz-tahta
’(((nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) nil)
(nil ("b" nil) nil ("b" nil) nil ("b" nil) nil ("b" nil) )
(nil nil nil nil nil nil nil nil)(nil nil nil nil nil nil nil nil)
(nil nil nil nil nil nil nil nil)(nil nil nil nil nil nil nil nil )
(nil nil nil nil nil nil nil nil)) (12 0)))
(test "siyah icin oyun bitti"
(oyun-bitti-mi?
*
siyah
*
hic-siyah-tassiz-tahta) t)
(print "Tamam. Temel Birim Testler Gecti")
(load "dama-deger.lisp")
(oyuna-basla
*
beyaz
*
)
(goster
*
tahta
*
)
(setq insan-hamlesi ’((0 2)(1 3)))
(cond ((equal (hamle-kurallara-uygunmu insan-hamlesi
*
tahta
*
"b") t)
(progn
(tas-oynat insan-hamlesi
*
tahta
*
)
(print "su hareketi yaptiniz")
(print insan-hamlesi)
44
(goster
*
tahta
*
)
(setq bilgisayar-hamlesi (cadr (altust-arama
*
tahta
*
)))
(print "bilgisayarin hareketi")
(print bilgisayar-hamlesi)
(tas-oynat bilgisayar-hamlesi
*
tahta
*
)
(setf bilgisayar-hamle-sayisi (+ bilgisayar-hamle-sayisi 1))
(goster
*
tahta
*
)
))
(t (print "HATALI HAREKET")))
Tek hamlelik bir oyun oynayalim, ve bilgisayarin karsiligini gorelim,
!clisp dama-test.lisp
"Tamam. Temel Birim Testler Gecti"
"Tamam. Algoritma Birim Testleri Gecti"
WARNING: DEFUN/DEFMACRO: redefining function TAHTA-DEGERI in
/home/burak/Documents/classnotes/app-math-tr/probsolve/dama-deger.lisp,
was defined in
/home/burak/Documents/classnotes/app-math-tr/probsolve/dama-alg.lisp
"Tamam. Degerlendirme Birim Testleri Gecti"
+=0===1===2===3===4===5===6===7-+
7 | b | | b | | b | | b |
|===============================|
6 b | | b | | b | | b | |
|===============================|
5 | b | | b | | b | | b |
|===============================|
4 | | | | | | | |
|===============================|
3 | | | | | | | |
|===============================|
2 s | | s | | s | | s | |
|===============================|
1 | s | | s | | s | | s |
|===============================|
0 s | | s | | s | | s | |
+=0===1===2===3===4===5===6===7=+
"su hareketi yaptiniz"
((0 2) (1 3))
+=0===1===2===3===4===5===6===7-+
7 | b | | b | | b | | b |
|===============================|
6 b | | b | | b | | b | |
|===============================|
5 | b | | b | | b | | b |
|===============================|
4 | | | | | | | |
|===============================|
3 | s | | | | | | |
|===============================|
2 | | s | | s | | s | |
|===============================|
45
1 | s | | s | | s | | s |
|===============================|
0 s | | s | | s | | s | |
+=0===1===2===3===4===5===6===7=+
"bilgisayarin hareketi"
((1 5) (0 4))
+=0===1===2===3===4===5===6===7-+
7 | b | | b | | b | | b |
|===============================|
6 b | | b | | b | | b | |
|===============================|
5 | | | b | | b | | b |
|===============================|
4 b | | | | | | | |
|===============================|
3 | s | | | | | | |
|===============================|
2 | | s | | s | | s | |
|===============================|
1 | s | | s | | s | | s |
|===============================|
0 s | | s | | s | | s | |
+=0===1===2===3===4===5===6===7=+
Biz siyah (s) tarafiyiz ve ilk hamleyi 0,2 kordinatindan 1,3 kordinatina dogru
yaptik. Bilgisayar buna karsilik 1,5’ten 0,4’e dogru bir hamle yapti.
46
ID3
Zeki arama yazisinda, arama algoritmasına tahmin yetene˘ gi kazandirdigimizda
problem sonucuna ulas¸ım hızını arttırmıs¸tık. Tahmin yetene˘ gi oyun tahtasına
de˘ ger bic¸ebilen is¸lev sayesinde bilgisayara kodlanmıs¸tı.
Bir soru;
˙
Insan zekasında tahmin neye dayanır?
¨
Uzerinde bilgimiz, tecr ¨ ubemiz
olmayan konu hakkında tahmin yapabilirmiyiz? Hayır.
¨
Oyleyse bilgisayara tah-
min ¨ ozelli ˘ gi kazandırdı ˘ gımız zaman aynı zamanda makinaya ”bilgi” verdi ˘ gimizi
s¨ oyleyebiliriz. Makinayı bilgilendirdik, ona tecr ¨ ube kazandırdık da diyebiliriz
c¸ ¨ unk¨ u tahmin, bir konu hakkında bilgimize, tecr ¨ ubemize dayandı ˘ gı ¨ olc¸ ¨ ude bas¸arılı
olabilir.
Bilgisayara bilgiyi iki s¸ekilde verebiliriz: Yapısal, ya da is¸levsel. Zeki arama
¨ orne˘ gi is¸levsel bir ¨ ornek g¨ osterdi. Bilgiyi, bilgisayara algoritma halinde verdik.
Tahta de˘ gerlendiren is¸lev, her tas¸a g¨ ore nasıl hesap yapaca˘ gını biliyordu. Bu
hesabı toplama ve c¸arpma is¸lemlerini kullanarak ve daha ¨ onceden ”bildi ˘ gi” a˘ gırlıklara
g¨ ore birbirine ekleyerek tahta hakkında ne d¨ us¸ ¨ und¨ u˘ g¨ un¨ u tek bir sayı halinde
bildirdi, ve algoritmanın geri kalanı bu de˘ gerler ile do˘ gru sec¸imi yaparak sonuca
ulas¸tı.
Bu yazıda oyun oynama yerine birc¸ok sec¸ene˘ gin arasında karar vermek konusunu
is¸leyece˘ giz. Zeki aramanın aksine bilgi bilgisayara is¸lev olarak de˘ gil, bir karar
a˘ gac¸ yapısı olarak verilecek, ve daha da iyisi bilgisayarın bu yapıyı ”¨ ornek veri-
den” kendi kendine ¨ o˘ grenmesi sa˘ glanacak.
Karar A˘ gacı Nedir?
Video, televizyon gibi bir ev elektronik es¸yasının kılavuzunda ”s¸u, s¸ ¨ oyle olduysa
s¸ ¨ oyle yap” gibi tarifler vardir.
˙
Ilk ¨ once kontrol edilmesi tavsiye edilen ayarlar
vardır, ve bu ayarlardan gelen cevaba g¨ ore de˘ gis¸ik ayarlara bakılması tavsiye
edilir ve en sonunda kılavuz ne hangi ¨ ozel d¨ u˘ gmeye basılması gerekti ˘ gini s¨ oyler.
Kullanım kılavuzları onlarca sayfalık bir karar a˘ gacıdır denebilir.
˙
Insanlara karar
a˘ gacın kavramı do˘ gal geldi ˘ gi ic¸in kılavuzlar bu s¸ekilde hazırlanmıs¸tır.
Di ˘ ger bir ¨ ornek, lokantalarda c¸ok yemek yiyen birisinin kullandı ˘ gı karar a˘ gacı
olabilir. Bu kimse her t ¨ url ¨ u de˘ gis¸ik s¸art altında de˘ gis¸ik lokantalara gitmis¸, ve
her seferindeki memnuniyet/pis¸manlık durumunu kayıt ederek bir karar a˘ gacı
olus¸turmus¸ ise, artık yeni bir lokantada karar kılması ic¸in kapısından s¸ ¨ oyle ic¸eri
bakıp men¨ uye g¨ oz gezdirmesi yeterli olacaktır.
Mesela bu zat’tın lokanta deneyimleri as¸a˘ gıdaki gibi kayıtlı olsun.
labels = [’BASKA’,’BAR’,’HAFTASONU’,’ACMIYIZ’,’MUSTERILER’,\
’FIYAT’,’YAGMUR’, ’RESERVASYON’,’YEMEKTURU’,’BEKLEMESURESI’,’BEKLEYELIM’]
dataSet = [
[’EVET’,’HAYIR’,’HAYIR’,’EVET’,’BIRAZ’,’DDD’,’HAYIR’,’EVET’,’FRANSIZ’,’0’,’EVET’],
[’EVET’,’HAYIR’,’HAYIR’,’EVET’,’DOLU’,’D’,’HAYIR’,’HAYIR’,’TAYLAND’,’30’,’HAYIR’],
[’HAYIR’,’EVET’,’HAYIR’,’HAYIR’,’BIRAZ’,’D’,’HAYIR’,’HAYIR’,’KEBAP’,’0’,’EVET’],
[’EVET’,’HAYIR’,’EVET’,’EVET’,’DOLU’,’D’,’EVET’,’HAYIR’,’TAYLAND’,’10’,’EVET’],
[’EVET’,’HAYIR’,’EVET’,’HAYIR’,’DOLU’,’DDD’,’HAYIR’,’EVET’,’FRANSIZ’,’60’,’HAYIR’],
1
[’HAYIR’,’EVET’,’HAYIR’,’EVET’,’BIRAZ’,’DD’,’EVET’,’EVET’,’ITALYAN’,’0’,’EVET’],
[’HAYIR’,’EVET’,’HAYIR’,’HAYIR’,’HIC’,’D’,’EVET’,’HAYIR’,’KEBAP’,’0’,’HAYIR’],
[’HAYIR’,’HAYIR’,’HAYIR’,’EVET’,’BIRAZ’,’DD’,’EVET’,’EVET’,’TAYLAND’,’0’,’EVET’],
[’HAYIR’,’EVET’,’EVET’,’HAYIR’,’DOLU’,’D’,’EVET’,’HAYIR’,’KEBAP’,’60’,’HAYIR’],
[’EVET’,’EVET’,’EVET’,’EVET’,’DOLU’,’DDD’,’HAYIR’,’EVET’,’ITALYAN’,’10’,’HAYIR’],
[’HAYIR’,’HAYIR’,’HAYIR’,’HAYIR’,’HIC’,’D’,’HAYIR’,’HAYIR’,’TAYLAND’,’0’,’HAYIR’],
[’EVET’,’EVET’,’EVET’,’EVET’,’DOLU’,’D’,’HAYIR’,’HAYIR’,’KEBAP’,’30’,’EVET’]
]
Peki bu veriye bakarak karar a˘ gacını nasıl olus¸turaca˘ gız?
˙
Insanın aklında karar a˘ gacını olus¸turması bas¸ka bilim dalları altında aras¸tırılıyor.
Bilgisayar ic¸in karar a˘ gacını ”kendi kendine c¸ıkartan” bir yapay zeka algorit-
ması (ID3), bu yazımızın konusu olacak. ID3 ve genelde ¨ o˘ grenen algoritmalar ve
ileride mekanize- ¨ o˘ grenme konusuna giris¸ ac¸ısından yararlı olabilir, ve bu konuda
zaten en pop¨ uler yaklas¸ım olan ID3’ ¨ un genis¸ bir uygulama alanı vardır.
Algoritma
Karar a˘ gacımız ¨ oyle olsun ki, e˘ gitim verisi ile e˘ gitildikten sonra, yeni bir soruya
kars¸ılılk, ¨ ustten bas¸layarak yeni s¸artlar c¸erc¸evesinde (ama eski veriye g¨ ore kurulmus¸)
a˘ gac¸ta bizi bir ’evet’ ya da ’hayır’ cevabına do˘ gru y¨ onlendirsin.
˙
Iyi kurulmus¸
bir karar a˘ gacı, ”en az” soru ile ”en c¸abuk” cevaba eris¸memizi sa˘ glayan a˘ gac¸tır.
C¸ ¨ unk¨ u ileride de g¨ orece˘ gimiz gibi, aynı veri ic¸in birden fazla de˘ gis¸ik karar a˘ gacı
kurmak m¨ umk¨ und¨ ur.
Evet, algoritmamıza bas¸layalım. Veriyi b¨ olmek ic¸in, bir bas¸lık sec¸memiz gerekiyor.
Bu sec¸imi s¸imdilik rasgele yapalım, diyelim ki ”M¨ us¸teri” bas¸lı ˘ gını sec¸tik. Veriye
bakınca, bu bas¸lık altında ”Hic¸”, ”Biraz” ya da ”Dolu” de˘ gerlerini g¨ or ¨ uyoruz. Bu
bas¸lı ˘ gı en ¨ ust d¨ u˘ g¨ um olarak a˘ gaca yerles¸tirelim, ve veriyi, bu bas¸lı ˘ gın tekrar eden
de˘ gerlere g¨ ore guruplayıp, b¨ olelim.
Alttaki a˘ gac¸, m¨ us¸teri bas¸lı ˘ gı ¨ uzerinden olus¸turulan a˘ gacımızın ilk seviyesidir.
Yes¸il ve kırmızı toplar evet=yes¸il, hayır=kırmızı cevaplarını temsil ediyorlar. Res-
imin anlatmak istedi ˘ gi, karar a˘ gacı ¨ o˘ greniminin, e˘ gitimverisinin tamamını b¨ old¨ u˘ g¨ u,
ve sec¸enekler arasında taksim etti ˘ gi. Elimizdeki verinin ”hedef bas¸lı ˘ gı” ”bekleye-
lim mi?” sorusudur, ve cevabı sadece evet ya da hayır olabilir. Yazının geri kalan
kısmında kırmızı ve yes¸il topların hepsini g¨ ostermeyece˘ giz. Kolaylık bakımından
2
a˘ gacın en uc¸ kısmında tamamen yes¸il ya da tamamen kırmızı var ise tek bir renk
g¨ ostermek yeterli olacak.
A˘ gacın bu ilk seviyesine bakınca, g¨ or ¨ uyoruz ki daha s¸imdiden elimizde yararlı
bir karar a˘ gacı var. C¸ ¨ unk¨ u e˘ ger, ’m¨ us¸teriler’ sorusuna yeni sorunun cevabı ”hic¸”
olsaydı, direk olarak bir ”Y” (Yanlıs¸) cevabına eris¸memiz m¨ umk¨ un oluyordu. Bu
noktada is¸ bitiyor, karar verilmis¸ olurdu. Tabii bu cevap senaryosu c¸ok iyimser
bir senaryodur, c¸ ¨ unk¨ u e˘ ger yeni sorunun cevabı ”Dolu” olsa idi, bu dalı izleyerek
hala b¨ ol ¨ unm¨ us¸ olan bir dala geldi ˘ gimizi g¨ orecektik. Demek ki a˘ gac¸ olus¸turan
algoritmanın is¸i daha bitmedi. ”Dolu” dalını takip ederek, oradaki verileri de
b¨ olmeye devam etmemiz gerekiyor.
Bu dalı b¨ olmek ic¸in, ’m¨ us¸teriler’ bas¸lı ˘ gından sonra, gene rasgele olarak, ’bekleme
s ¨ uresi’ bas¸lı ˘ gını sec¸ebiliriz. E˘ ger lokanta dolu ise, kapıda beklememiz ic¸in e˘ gitim
verisinde elimizde olan bekleme s ¨ ureleri bu bas¸lık altında toplanmıs¸. M¨ umk¨ un
de˘ gerler 60 dakika’dan fazla, 30-60 dakika arası, 10-30 dakika arası, ya da 10
dakikadan daha az beklemek olarak g¨ or ¨ ul ¨ uyor. Bu b¨ ol ¨ unmeyi de yaptıktan sonra,
sırası ile “m¨ us¸teriler=dolu” ve “bekleme s ¨ uresi=60 dakidan fazla” sorusunun
bizi kesin bir cevaba eris¸tirdi ˘ gini g¨ orece˘ giz. Ayrıca, “m¨ us¸teriler=dolu” ve “10
dakikadan az beklemek” sorusu bizi ’evet’ cevabına getirecektir. Bunlar da g¨ uzel.
Fakat is¸imiz daha bitmedi, halˆ a b¨ ol ¨ unmemis¸ dallar var, vs.
Herhalde algoritmanın b¨ olen ve a˘ gac¸ olus¸turan kısmının mantı ˘ gı anlasildi. Tah-
min edilecegi gibi bu b¨ olme ve dal olus¸turma is¸lemi tamamen ’evet’ ve ’hayır’
sonuc¸larına eris¸inceye kadar devamedecek. Sonuc¸ karar a˘ gacını as¸a˘ gıda g¨ or ¨ uyoruz.
Optimizasyon
Yapay zeka dalında, algoritmaların do˘ grulu˘ gu kadar, bilgisayara getirdi ˘ gi y¨ uk¨ un
3
ne kadar ¨ onemli oldu˘ gunu g¨ orm¨ us¸t ¨ uk. O kadar ki, e˘ ger bu y¨ uk kontrol edilir bir
¨ olc¸ ¨ ude de˘ gil ise, algoritmanın is¸e yararlılı ˘ gı sorgulanmaya bas¸lanır. Test olarak,
bir algoritmanın 12 veri satırı (yukarıdaki ¨ ornek) yerine , 500,000 satırlık veri ile
ne yapaca˘ gını sormak yerinde olur. C¸ ¨ unk¨ u insan beyninin yaptı ˘ gı binbir t ¨ url ¨ u
teknik kullanarak bu kadar veriyi is¸lemektir, aktif zekamızda farkında olmasak
bile, belli bir seviyede bu is¸lemler olmaktadır. Basit bir is¸ gibi g¨ or ¨ unen bir yerden
bir yere kalkıp y¨ ur ¨ umek ic¸in kullandı ˘ gımız algoritmaların neler c¸ ¨ ozmek zorunda
oldu˘ gunu, robot yazılımlar ile u˘ gras¸anlar bilir.
O y¨ uzden, ID3 algoritmasını 500,000 satırlık veriyi idare edebilecek s¸ekilde iler-
letmemiz gerekiyor.
Bas¸lık Sec¸imi
Ilerletme ic¸in uygun bir zaman herhalde bas¸lık sec¸imi esnˆ asında olacaktır.
˙
Ilk
karar a˘ gacında g¨ ord¨ u˘ g¨ um¨ uz gibi bazı sorulara olan cevaplar daha ilk seviyede
kesin cevaba eris¸ebiliyordu. Demek ki, s ¨ urekli olarak ”uygun bas¸lı ˘ gı uygun za-
manda” sec¸ersek, a˘ gacımızı oldukc¸a k¨ uc¸ ¨ ultmemiz m¨ umk¨ un olur. B¨ oylece kesin
cevaba eris¸memiz kolaylas¸ır. Tabii kolaylık derken, 500,000 satırlık veri ic¸in 100
derinli ˘ gindeki bir a˘ gac¸ ile 10 birim arasındaki bir farktan bahsediyorum, ki bu
fark hic¸ yabana atılacak bir fark de˘ gildir.
Peki uygun bas¸lık nedir? Mesela ilk seviye ic¸in, m¨ us¸teri yerine, ”yemek t ¨ ur ¨ u”
bas¸lı ˘ gını sec¸seydik, daha mı iyi bir sec¸im yapmıs¸ olurduk? Bu farazi b¨ ol ¨ unmeyi
as¸a˘ gıdaki s¸ekilde g¨ orelim.
G¨ or ¨ uyoruz ki, bu yeni b¨ ol ¨ unme bizi hic¸ bir kesin cevaba g¨ ot ¨ urmedi.
¨
Ust ¨ une
¨ ustl ¨ uk, b¨ ut ¨ un bu dalların alt-dalları, onlarında alt-dalları derken a˘ gacımızın arap
sac¸ına d¨ onmesi ihtimal dahilinde. Demek ki ’yemek t ¨ ur ¨ u’ b¨ ol ¨ unmesi bize yeni
”bilgi” sˆ a˘ glamadı. Halˆ a elimizde kesin cevaplar de˘ gil, sec¸enekler var.
Bize ¨ oyle bir is¸lev lazım ki, her parc¸aya bakıp kazandırdı ˘ gı bilgiyi ¨ olc¸s ¨ un, hala
b¨ ol ¨ unm¨ us¸ kalan kısımlar ic¸inde bile, onlardan en iyi olanını sec¸sin.
˙
Is¸te bu nok-
tada bilgi kuramı yardımımıza yetis¸iyor.
Bilgi Kuramı
Bilgi kuramı (information theory), bilgiyi nasıl kodlayaca˘ gımızı ve sonuc¸ kodla-
manın ne kadar yer tutaca˘ gı gibi sorunlar ile u˘ gras¸ır. Mesela, elimizde 2 de˘ gis¸ik
4
de˘ ger var ise ve bu de˘ gerleri ikili d¨ uzende kodlamamız gerekse, bu is¸ ic¸in kac¸
tane bit gerekir?
Cevap: Bir tane.
Peki, 4 tane de˘ ger oldu˘ gunu d¨ us¸ ¨ unelim. S¸imdi kac¸ tane? Cevap:
˙
Iki. Tekrar
eden mantık belki farkedilmistir; e˘ ger ”kac¸ bit” sorusu ile ”eldeki bilgi” arasında
matematiksel bir bˆ aglantı kurmak gerekse (K ye B), s¸ ¨ oyle yazabiliriz. Parca Bilgi
Degeri suna esit:

d
d +y
log
2

d
d +y


y
d +y
log
2

y
d +y

Adresleme, onluk d¨ uzen ve ikilik d¨ uzen arasında gidip gelme gibi problemlerden
hatırlayabilece˘ gimiz bir sonuc¸ bu. Ya da, ’iki tane bit en fazla kac¸ onluk sayıyı
g¨ osterir’ sorusunun tersten sorulmus¸ s¸eklidir denebilir.
S¸imdi, bu ters soruyu, karar a˘ gacının b¨ old¨ u˘ g¨ u her parc¸aya soralım. Tabii birkac¸
de˘ gis¸iklik yapmamız gerekecek. Mesela elimizde yemekt ¨ ur ¨ u=tayland sonucunda
tek bir parc¸a ¨ uzerine 2 yanlıs¸ ve 2 do˘ gru de˘ ger var ise, bu d¨ u˘ g¨ um¨ un bilgi de˘ gerini
kesirler ile hesaplamamız gerekecek. Kesirler ile u˘ gras¸ırken, log is¸levi eksi de˘ gerler
getirece˘ gi ic¸in, cevabı ¨ once kesirin kendisi, sonra da eksi ile c¸arpmamız lazım
(log, 0 ve 1 arası ic¸in eksi de˘ ger getirir). Yani, genel olarak iki cevaplı bir uzayda,
tek parc¸anın bilgi de˘ geri s¸ ¨ oyle g¨ osterilebilir. Parca Bilgi Degeri suna esit:
B(O(v
1
), ..., O(V
n
)) =
n

i=1
−O(v
i
) log
2
O(v
i
)
O, olasiligi temsil ediyor.
Genel olarak g¨ ostermek gerekirse, n cevaplı bir uzayda parc¸anın bilgi de˘ geri
s¸udur.
B

1
2
,
1
2

=
1
2
log
2

1
2


1
2
log
2

1
2

= 1 bit
Form¨ ul ¨ u kontrol etmek ic¸in, bas¸ta verdi ˘ gimiz bit ¨ orne˘ gini kullanalım: 2 de˘ gis¸ik
de˘ ger ic¸in kac¸ bit gerekir?
parca

i=1
d
i
+y
i
d +y

d
i
d
i
+y
i
,
y
i
d
i
+y
i

d
i
: i’inci parca dogru sayisi y
i
: i’inci parca yanlis sayisi d: tum dogrular y: tum
yanlislar
1 bit gerekti ˘ gini halˆ a bulabiliyoruz.
Parc¸aların Bilgi De˘ ger Toplamı
B¨ ol ¨ und¨ ukten sonra elimize gec¸en parc¸aların bilgi de˘ ger toplamı ic¸in
5
Musteri Parcalari
2
12
B(0, 1) +
4
12
B(1, 0) +
6
12
B(
2
6
,
4
6
) = 0.459
Yemek Turu Parcalari
2
12
B(
1
2
,
1
2
) +
2
12
B(
1
2
,
1
2
) +
4
12
B(
2
4
,
2
4
) +
4
12
B(
2
4
,
2
4
) = 1
Problemi s¨ ozel olarak biraz daha berraklas¸tıralım. Herhangi bir d¨ u˘ g¨ umde iken,
bu d¨ u˘ g¨ um¨ un bilgi de˘ gerini B() ile bulabiliriz. Lokanta ¨ orne˘ ginin ilk seviyesinde,
en ¨ ust d¨ u˘ g¨ um¨ un bilgi de˘ geri ’1’ oldu˘ gunu g¨ oreceksiniz, c¸ ¨ unk¨ u elimizde tek d¨ u˘ g¨ um,
6 yanlıs¸, 6 do˘ gru cevap var. G¨ uzel.
S¸imdi bir seviye as¸a˘ gı inelim. Her bas¸lı ˘ gı teker teker deneyip, ve veriyi her bas¸lık
ic¸in gec¸ici olarak parc¸alayıp, muhtemel her b¨ ol ¨ unme ic¸in bu bas¸lı ˘ ga tekˆ ab¨ ul eden
parc¸aların bilgi de˘ gerini toplayalım (bir ¨ ustteki form¨ ul).
¨
Ornek veri ¨ uzerinde ¨ ustteki form¨ ul ¨ u deneyelim (1. seviye parc¸alanması ic¸in)
Musteri Parcalari
2
12
B(0, 1) +
4
12
B(1, 0) +
6
12
B(
2
6
,
4
6
) = 0.459
Yemek Turu Parcalari
2
12
B(
1
2
,
1
2
) +
2
12
B(
1
2
,
1
2
) +
4
12
B(
2
4
,
2
4
) +
4
12
B(
2
4
,
2
4
) = 1
G¨ or ¨ uyoruz ki, a˘ gacın en ¨ ust seviyesini temsil etmek ic¸in 1 bit gerekiyor iken,
m¨ us¸teri b¨ ol ¨ unmesinden sonra 0.459 bit yetiyor (daha az). Fakat yemek t ¨ ur ¨ u
b¨ ol ¨ unmesinden sonra halˆ a 1 bit lˆ azım! Yani, yemek t ¨ ur ¨ u b¨ ol ¨ unmesi bize hic¸ bir
s¸ey kazandırmadı.
Kazanc¸ kelimesini aritmetik olarak s¸ ¨ oyle tˆ arif edebiliriz: Bir d¨ u˘ g¨ um¨ un bilgi de˘ gerinden,
bu d¨ u˘ g¨ um¨ un alt-parc¸alarının bilgi de˘ ger toplamının d¨ us¸ ¨ ulmesi kazanc¸ de˘ gerini
verir. ID3 algoritması, tabii ki daha az bit gerektiren ya da, daha c¸ok bilgi ”kazandıran”
sec¸ene˘ gi takip ederse daha etkili olur. B¨ oylece her seviyede gitgide daha berraklas¸an
karar a˘ gacı, ”en az” seviyede, kesin kararlara ”en c¸abuk” s¸ekilde ulas¸an karar
a˘ gacı olacaktır.
E˘ ger B() is¸levinin ic¸ mekanizmaları hala anlas¸ılmadı ise, s¸unları bilmek yardımcı
olabilir:
Parc¸a tamamen yanlıs¸ de˘ gerler ic¸eriyor (kesin cevap) = B(0,1) = 0 bit
Parc¸a tamamen do˘ gru de˘ gerler ic¸eriyor (kesin cevap) = B(1,0) = 0 bit
... 3 do˘ gru, 3 yanlıs¸ = B(3,3) = 1 bit
... 2 do˘ gru, 4 yanlıs¸ = B(2,4) = 0.92 bit
... 1 do˘ gru, 5 yanlıs¸ = B(1,5) = 0.65 bit
Yeni algoritmanın sonucu ortaya c¸ıkacak karar a˘ gacı s¸ ¨ oyle olacaktır. Bu a˘ gacın
6
ilk bas¸taki a˘ gaca kıyasla c¸ok daha k¨ uc¸ ¨ uk oldu˘ gunu g¨ or ¨ uyoruz.
Kodu Python ile gostermek gerekirse [1]
from math import log
import operator
def calcShannonEnt(dataSet):
numEntries = len(dataSet)
labelCounts = {}
#the the number of unique elements and their occurance
for featVec in dataSet:
currentLabel = featVec[-1]
if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
for key in labelCounts:
prob = float(labelCounts[key])/numEntries
shannonEnt -= prob
*
log(prob,2) #log base 2
return shannonEnt
def splitDataSet(dataSet, axis, value):
retDataSet = []
for featVec in dataSet:
if featVec[axis] == value:
#chop out axis used for splitting
reducedFeatVec = featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)
return retDataSet
def chooseBestFeatureToSplit(dataSet):
#the last column is used for the labels
numFeatures = len(dataSet[0]) - 1
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain = 0.0; bestFeature = -1
#iterate over all the features
for i in range(numFeatures):
7
#create a list of all the examples of this feature
featList = [example[i] for example in dataSet]
#get a set of unique values
uniqueVals = set(featList)
newEntropy = 0.0
for value in uniqueVals:
subDataSet = splitDataSet(dataSet, i, value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob
*
calcShannonEnt(subDataSet)
#calculate the info gain; ie reduction in entropy
infoGain = baseEntropy - newEntropy
#compare this to the best gain so far
if (infoGain > bestInfoGain):
#if better than current best, set to best
bestInfoGain = infoGain
bestFeature = i
#returns an integer
return bestFeature
def createTree(dataSet,labels):
classList = [example[-1] for example in dataSet]
if classList.count(classList[0]) == len(classList):
#stop splitting when all of the classes are equal
return classList[0]
#stop splitting when there are no more features in dataSet
if len(dataSet[0]) == 1:
return majorityCnt(classList)
bestFeat = chooseBestFeatureToSplit(dataSet)
bestFeatLabel = labels[bestFeat]
myTree = {bestFeatLabel:{}}
del(labels[bestFeat])
featValues = [example[bestFeat] for example in dataSet]
uniqueVals = set(featValues)
for value in uniqueVals:
#copy all of labels, so trees don’t mess up existing labels
subLabels = labels[:]
myTree[bestFeatLabel][value] = \
createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
return myTree
def getNumLeafs(myTree):
numLeafs = 0
firstStr = myTree.keys()[0]
secondDict = myTree[firstStr]
for key in secondDict.keys():
#test to see if the nodes are dictonaires, if not they are leaf nodes
if type(secondDict[key]).__name__==’dict’:
numLeafs += getNumLeafs(secondDict[key])
else: numLeafs +=1
return numLeafs
def getTreeDepth(myTree):
maxDepth = 0
firstStr = myTree.keys()[0]
8
secondDict = myTree[firstStr]
for key in secondDict.keys():
#test to see if the nodes are dictonaires, if not they are leaf nodes
if type(secondDict[key]).__name__==’dict’:
thisDepth = 1 + getTreeDepth(secondDict[key])
else: thisDepth = 1
if thisDepth > maxDepth: maxDepth = thisDepth
return maxDepth
def plotNode(nodeTxt, centerPt, parentPt, nodeType):
createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords=’axes fraction’,
xytext=centerPt, textcoords=’axes fraction’,
va="center", ha="center", bbox=nodeType, arrowprops=arrow_args )
def plotMidText(cntrPt, parentPt, txtString):
xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]
yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
createPlot.ax1.text(xMid, yMid, txtString, \
va="center", ha="center", rotation=30)
def plotTree(myTree, parentPt, nodeTxt):
#if the first key tells you what feat was split on
#this determines the x width of this tree
numLeafs = getNumLeafs(myTree)
depth = getTreeDepth(myTree)
#the text label for this node should be this
firstStr = myTree.keys()[0]
cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW,\
plotTree.yOff)
plotMidText(cntrPt, parentPt, nodeTxt)
plotNode(firstStr, cntrPt, parentPt, decisionNode)
secondDict = myTree[firstStr]
plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD
for key in secondDict.keys():
#test to see if the nodes are dictonaires, if not they are leaf nodes
if type(secondDict[key]).__name__==’dict’:
#recursion
plotTree(secondDict[key],cntrPt,str(key))
else: #it’s a leaf node print the leaf node
plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW
plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), \
cntrPt, leafNode)
plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD
#if you do get a dictonary you know it’s a tree, and the first
#element will be another dict
def createPlot(inTree):
fig = plt.figure(1, facecolor=’white’)
fig.clf()
axprops = dict(xticks=[], yticks=[])
#no ticks
createPlot.ax1 = plt.subplot(111, frameon=False,
**
axprops)
plotTree.totalW = float(getNumLeafs(inTree))
plotTree.totalD = float(getTreeDepth(inTree))
9
plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0;
plotTree(inTree, (0.5,1.0), ’’)
plt.savefig(’id3_1.png’)
decisionNode = dict(boxstyle="sawtooth", fc="0.8")
leafNode = dict(boxstyle="round4", fc="0.8")
arrow_args = dict(arrowstyle="<-")
tree = createTree(dataSet, labels)
createPlot(tree)
Ayni kodu LISP ile gorelim,
;;
;; Ilk kolon, her satir icin kimlik gorevini yapiyor. Yani, d1’i
;; kullanarak d1 ile baslayan tum veri satirina ulasmak mumkun.
;; Python kodundaki veri farkli olarak ikinci kolondaki etiket degerini
;; en sona atiyor
;;
;; LISP dilinde bu isi gerceklestirebilmek icin, veri satirindaki bilgileri
;; anahtar-deger deger cifti olarak kimlik kolonu ’uzerinde’ sakliyoruz.
;; LISP komutlarindan ’get’, bu isi goruyor.
;;
(setf
*
egitim-verisi
*
’(
(d1 EVET EVET HAYIR HAYIR EVET BIRAZ DDD HAYIR EVET FRANSIZ T0)
(d2 HAYIR EVET HAYIR HAYIR EVET DOLU D HAYIR HAYIR TAYLAND T30)
(d3 EVET HAYIR EVET HAYIR HAYIR BIRAZ D HAYIR HAYIR KEBAP T0)
(d4 EVET EVET HAYIR EVET EVET DOLU D EVET HAYIR TAYLAND T10)
(d5 HAYIR EVET HAYIR EVET HAYIR DOLU DDD HAYIR EVET FRANSIZ T60)
10
(d6 EVET HAYIR EVET HAYIR EVET BIRAZ DD EVET EVET ITALYAN T0)
(d7 HAYIR HAYIR EVET HAYIR HAYIR HIC D EVET HAYIR KEBAP T0)
(d8 EVET HAYIR HAYIR HAYIR EVET BIRAZ DD EVET EVET TAYLAND T0)
(d9 HAYIR HAYIR EVET EVET HAYIR DOLU D EVET HAYIR KEBAP T60)
(d10 HAYIR EVET EVET EVET EVET DOLU DDD HAYIR EVET ITALYAN T10)
(d11 HAYIR HAYIR HAYIR HAYIR HAYIR HIC D HAYIR HAYIR TAYLAND T0)
(d12 EVET EVET EVET EVET EVET DOLU D HAYIR HAYIR KEBAP T30)
))
(setf
*
dogru-sayisi
*
0)
(setf
*
yanlis-sayisi
*
0)
(setf
*
toplam-veri-sayisi
*
0)
(setf
*
basliklar
*
’(BEKLEYELIMMI
BASKA
BAR
HAFTASONU
ACMIYIZ
MUSTERILER
FIYAT
YAGMUR
RESERVASYON
YEMEKTURU
BEKLEMESURESI))
(defun deger-koy (baslik satir deger)
(setf (get satir baslik) deger))
(defun deger-al (baslik satir)
(get satir baslik))
;; uzerinde irdeleme yaptigimiz kolon degerini bulup geri
;; getirir.
(defun hedef-baslik-degeri (satir)
(get satir ’BEKLEYELIMMI))
(defun hedef-baslik () (return ’BEKLEYELIMMI))
(defun veriyi-satirkimligine-cevir (ornekler)
(loop for satir in ornekler collect
(car satir)))
;; verileri olusturan butun satirlarin irdeleme sonucu ayni mi?
;; yani, verilen satilarinin hepsinin ’bekleyelimmi ozelligi
;; ayni cevabi mi tasiyor?
(defun ayni-cevap? (satirlar)
( let ((sonuc nil))
(setq ilkdeger (hedef-baslik-degeri (car satirlar)))
(setf sonuc (every #’(lambda(e)
(equal ilkdeger (hedef-baslik-degeri e)))
(cdr satirlar))
) sonuc ))
;; bu islevin, program basladiktan hemen sonra cagrilmasi
11
;; gerekiyor. anahtar/deger bilgilerini bu fonksiyon yaratip,
;; kimlik sembolu uzerine koyuyor
(defun egitim-verilerini-cevir (veri basliklar)
(loop for d in veri do
(loop for baslik in basliklar
as deger in (cdr d)
do
(setf kimlik-no (first d))
(deger-koy baslik kimlik-no deger)
))
(loop for d in veri do
(if (equal (hedef-baslik-degeri (car d)) ’EVET) (incf
*
dogru-sayisi
*
))
(if (equal (hedef-baslik-degeri (car d)) ’EVET) (incf
*
yanlis-sayisi
*
))
)
(setf
*
toplam-veri-sayisi
*
(+
*
dogru-sayisi
* *
yanlis-sayisi
*
))
)
;;
;;
;; Iste Algoritma
;;
;;
(defun karar-agaci-egit (ornekler basliklar)
(let ((sonuc nil))
;; ornekler, butun egitim verisini olusturur
(cond
((equal basliklar nil)
(setf sonuc (encok-gorulen-deger ornekler)))
;; butun satirlarin klasmani ayni ise, bulunan bu klasmani getir
;; hepsi ayni ise, herhangi birinin klasmani yeter
((ayni-cevap? ornekler)
(setf sonuc (hedef-baslik-degeri (car ornekler))))
;; Burada, parca listelerinin listesini olustur. Bu kocaman liste
;; elimizdeki veriyi her basligi kullanrak bolmus ve biraraya
;; konulmus bir halidir. parca-sec islevi, girdisini boyle bekliyor.
(t (progn
(setq parca-listenin-listesi
(loop for baslik in basliklar collect (parcala ornekler baslik)))
(setf eniyi (parca-sec parca-listenin-listesi))
(setf sonuc (cons (car eniyi)
(loop for dal in (cdr eniyi) collect
(list (car dal)
(karar-agaci-egit
(cdr dal)
(remove (car eniyi) basliklar))
))
))
))
12
) sonuc ))
(defun kazanc (parca-listesi)
(let ((kazanc 0))
;; Burada ufak bir numaraya dikkat. Gecici bir sekilde, parcalari
;; "butun" tek parcaya topluyoruz ki bolunmeden onceki bilgi
;; icerigini hesaplayabilelim.
(setf birlesim (reduce #’append (cdr parca-listesi)))
(setf ust-bilgi-icerigi
(parca-bilgi-icerigi birlesim))
(setf cocuklarin-bilgi-icerigi (bilgi-icerigi parca-listesi))
(setf kazanc (- ust-bilgi-icerigi cocuklarin-bilgi-icerigi))
kazanc ))
(defun bilgi-icerigi (parca-listesi)
;; her parcanin bilgi icerigini hesaplayip bu degerleri topla
(let ((toplam 0))
(dolist (parca (cdr parca-listesi)) ;; cdr komutu baslik kismini kesip atiyor
(incf toplam
(parca-bilgi-icerigi parca))
) toplam ))
(defun encok-gorulen-deger (baslik satirlar)
(let ((enuzun nil))
(loop for p in (parcala baslik satirlar) do
(when (> (length p) length)
(setq length (length p))
(setq enuzun p)))
(car enuzun)))
(defun parca-bilgi-icerigi (parca)
;; bu parca icindeki dogru ve yanlis satirlari say. Dogru
;; ve yanlis ’hedef basligina’ gore bulunuyor tabii
(let ((dogru-sayisi 0)(yanlis-sayisi 0))
(dolist (kimlik-no parca)
(cond
;; eger satir BEKLEYELIMMI=EVET ise
((and (member kimlik-no parca)
(equal (hedef-baslik-degeri kimlik-no) ’EVET))
(incf dogru-sayisi))
;; eger satir BEKLEYELIMMI=HAYIR ise
((and (member kimlik-no parca)
(equal (hedef-baslik-degeri kimlik-no) ’HAYIR))
(incf yanlis-sayisi))
(t nil))
)
(setf toplam (+ dogru-sayisi yanlis-sayisi))
(setf dogru-orani (/ dogru-sayisi toplam))
13
(setf yanlis-orani (/ yanlis-sayisi toplam))
;; Asagida gorulan (zerop ..) kullanimi guzel bir LISP numarasi.
;; Eger dogru-orani 0 ise, hesabin geri kalani icin 0 kullan.
;; Fakat (zerop xx) 0 ise, yani xx 0 degil ise :), o zaman
;; log hesabini yap. Vay anasini.
;; Bu numaradan once ’sifirla bolunme (division by zero)’ hatasi
;; aliyordum. log 0 hesap edilir bir deger degil demek ki,
;; tanim olarak 0 oldugu kabul ediliyor. Sinifta hoca da oyle
;; soylemisti.
(setf logp (
*
(
*
-1 dogru-orani)
(if (zerop dogru-orani) 0 (log dogru-orani 2))))
(setf logn (
*
(
*
-1 yanlis-orani)
(if (zerop yanlis-orani) 0 (log yanlis-orani 2))))
(setf log-toplam (+ logp logn))
(setf butune-olan-d-y-orani (/ toplam
*
toplam-veri-sayisi
*
))
(setf bilgi-icerik (
*
log-toplam butune-olan-d-y-orani))
bilgi-icerik ))
;;
;; veriyi bolmek icin en iyi basligi bul
(defun parca-sec (parca-listenin-listesi)
;;
;;
(let ((sonuc (car parca-listenin-listesi)))
(dolist (parca-listesi parca-listenin-listesi)
(if (> (kazanc parca-listesi)
(kazanc sonuc))
(setf sonuc parca-listesi)))
sonuc ))
;; karar agacina bunun ile soru sorabilirsin.
(defun soru-sor (satir agac)
(let (deger dal)
(if (atom agac) (return-from soru-sor agac))
(setf deger (deger-al (car agac) satir))
(setf dal (second (assoc deger (cdr agac))))
(soru-sor satir dal)))
;;
;; Verilen basliga gore veriye bakar, basligin altindaki verinin
;; tekabul eden degerine gore guruplama yapip, veriyi parcalara ayirir
(defun parcala (satirlar baslik)
(let ((gecici-liste ())(e nil)(kimlik-no nil)(bulunanlar-sayisi 0)(iteration 0))
(dolist (kimlik-no satirlar)
(setf dongu 0)
(setf bulunanlar-sayisi -1)
14
;; eger konol degeri zaten mevcut ise, kimlik-no’yi bu alt
;; listeye ekle
(dolist (su-anki-parca gecici-liste)
;; su anki parcanin ilk satirina bakmak yeterli, cunku
;; otekilerinde degeri ayni olacak
(setf su-anki-ornek-deger (car su-anki-parca))
;; degerler ayni ise
(if (equal su-anki-ornek-deger (deger-al baslik kimlik-no))
(progn
;; demekki satir bu parcaya ait. ekle.
(setf bulunanlar-sayisi dongu)
(return)
)
)
(incf dongu)
) ;; dolist sonu
(if (> bulunanlar-sayisi -1)
(progn
;; buraya dikkat edin; bir liste icerigini degil, gostergecini
;; (pointer) degistiriyoruz. Nth’in geri getirdigi, normal
;; deger degil, gostergec degeri. Yeni listenin gostergecini bu deger
;; uzerine yazinca, eski liste kaybolmus oluyor.
;; Yeni liste bir oncekinin bir fazlasi aslinda..
(setf (nth bulunanlar-sayisi gecici-liste)
(append (nth bulunanlar-sayisi gecici-liste) (list kimlik-no)))
))
;; yoksa, yeni bir alt-liste baslat, ve gecici-listeye ekle
(if (equal bulunanlar-sayisi -1)
(progn
(setf gecici-liste
(append gecici-liste
(list (list (deger-al baslik kimlik-no) kimlik-no))))
))
)
;; baslik degerini listenin onune koy
(setf gecici-liste (append (list baslik) gecici-liste))
gecici-liste
))
(defun agac-goster (agac &optional (derinlik 0))
(tab derinlik)
(format t "˜A˜%" (first agac))
(loop for alt-agac in (cdr agac) do
(tab (+ derinlik 1))
(format t "= ˜A" (first alt-agac))
(if (atom (second alt-agac))
(format t " => ˜A˜%" (second alt-agac))
15
(progn (terpri)(agac-goster (second alt-agac) (+ derinlik 5))))))
(defun tab (n)
(loop for i from 1 to n do (format t " ")))
;; bu satiri silme
(egitim-verilerini-cevir
*
egitim-verisi
* *
basliklar
*
)
;;
;; testler
;;
;; test degerlendiren fonksiyon
(defun test (isim deyim sonuc)
(cond
((equal deyim sonuc) t)
(t (print isim) (error "HATA! Birim Testler Hata Yakaladi! "))
))
;; her sembolun bir ozellik listesi var
(test "ozellik listesi bos olan sembol" (get ’ornek-sembol ’baharatlar) NIL)
;; her sembolun bir ozellik listesi var
(setf (get ’ornek-sembol ’baharatlar) ’tuz)
(test "ornek sembole baska bir deger ekle" (get ’ornek-sembol ’baharatlar) ’tuz)
;; her sembolun bir ozellik listesi var
(setf (get ’ornek-sembol ’tatlilar) ’baklava)
(test "degisik bir sembole birsey ekle"
(get ’ornek-sembol ’tatlilar) ’baklava)
;; baslik degerini eriselim
(test "tablo dogru kuruldu" (hedef-baslik-degeri ’d1) ’EVET)
;; yemekturu uzerinde parcalara ayiralim
(setf beklenen-parcalar ’(YEMEKTURU (FRANSIZ D1 D5)
(TAYLAND D2 D4 D8 D11)
(KEBAP D3 D7 D9 D12)
(ITALYAN D6 D10)))
(test "parcala (yemekturu)"
(parcala (veriyi-satirkimligine-cevir
*
egitim-verisi
*
) ’YEMEKTURU)
beklenen-parcalar)
;; musteriler uzerinde parcalara ayiralim
(setf beklenen-parcalar ’(MUSTERILER (BIRAZ D1 D3 D6 D8)
(DOLU D2 D4 D5 D9 D10 D12)
(HIC D7 D11)))
(test "musteriler uzerinden parcala"
(parcala (veriyi-satirkimligine-cevir
*
egitim-verisi
*
) ’musteriler)
beklenen-parcalar)
;; bilgi icerigi
(setf
*
toplam-veri-sayisi
*
12)
16
(test "bilgi icerigi" (parca-bilgi-icerigi
(veriyi-satirkimligine-cevir
*
egitim-verisi
*
))
1)
;; eniyi parcayi bul, MUSTERILER basliginin secilmesi lazim.
(setf yemekturu-parcalari
’(TYPE
(FRANSIZ D1 D5)
(TAYLAND D2 D4 D8 D11)
(KEBAP D3 D7 D9 D12)
(ITALYAN D6 D10)))
(setf musteri-parcalari
’(patrons
(BIRAZ D1 D3 D6 D8)
(TAYLAND D2 D4 D5 D9 D10 D12)
(HIC D7 D11)))
(setf ornek-girdi (list yemekturu-parcalari musteri-parcalari))
(test "parca-sec"
(parca-sec ornek-girdi) musteri-parcalari)
;; eniyi parcalamayi sec, MUSTERILER basliginin secilmesi lazim
(setf girdi ’(D1 D3))
(test "ayni cevap 1" (ayni-cevap? girdi) t)
(setf girdi ’(D2 D4))
(test "ayni cevap 2" (ayni-cevap? girdi) nil)
;; ana veriyi, kimlik no’lara cevir
(test "kimlik no ya ceviri testi" (veriyi-satirkimligine-cevir
*
egitim-verisi
*
)
’(D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12))
(setf agac (karar-agaci-egit (veriyi-satirkimligine-cevir
*
egitim-verisi
*
)
’(BASKA
BAR
HAFTASONU
ACMIYIZ
MUSTERILER
FIYAT
YAGMUR
RESERVASYON
YEMEKTURU
BEKLEMESURESI)
))
(agac-goster agac)
;; egitim verisinden bir satir kullanip soru sor
(test "soru-sor 1" (soru-sor ’d6 agac) ’EVET)
(test "soru-sor 2" (soru-sor ’d2 agac) ’HAYIR)
(test "soru-sor 3" (soru-sor ’d3 agac) ’EVET)
(test "soru-sor 4" (soru-sor ’d4 agac) ’EVET)
(test "soru-sor 5" (soru-sor ’d5 agac) ’HAYIR)
(test "soru-sor 6" (soru-sor ’d6 agac) ’EVET)
(test "soru-sor 7" (soru-sor ’d7 agac) ’HAYIR)
(test "soru-sor 8" (soru-sor ’d8 agac) ’EVET)
17
(test "soru-sor 9" (soru-sor ’d9 agac) ’HAYIR)
(test "soru-sor 10" (soru-sor ’d10 agac) ’HAYIR)
(test "soru-sor 11" (soru-sor ’d11 agac) ’HAYIR)
(test "soru-sor 12" (soru-sor ’d12 agac) ’EVET)
(print "Tamam. Birim Testler Isledi.")
!clisp id3.lisp
MUSTERILER
= BIRAZ => EVET
= DOLU
ACMIYIZ
= EVET
YEMEKTURU
= TAYLAND
HAFTASONU
= HAYIR => HAYIR
= EVET => EVET
= ITALYAN => HAYIR
= KEBAP => EVET
= HAYIR => HAYIR
= HIC => HAYIR
"Tamam. Birim Testler Isledi."
Kaynaklar
[1] Harrington, P., Machine Learning In Action
18
Dinamik Programlama
Dinamik programlamanin (DP) temelinde ardi ardina verilen kararlarin bulun-
masi / hesaplanmasi fikri vardir; ilgilendigi problemler her verilen kararin di-
ger karar seceneklerini ortaya cikardigi turden problemlerdir, ve her seferinde
bu seceneklerin arasindan bir tanesi secilmelidir. Amac en iyi karar zincirini
bulmaktir. Metot olarak kullanilanlar kismen “acgozlu algoritmalar (greedy al-
gorithms)” olarak bilinen algoritmalarin yaptigina benzer fakat acgozlu algorit-
malar, mesela en kisa yolu bulmaya ugrasirken, gezilen dugumlerde sadece “o
an icin” en iyi secimi yapar. Bu tur secim nihai sonuc goze alindigi zamanen iyi
sonucu vermeyebilir; Mesela alttaki grafige bakarsak,
diyelim ki a noktasindan f noktasina en kisa yoldan ulasmaya calisiyoruz - acgo-
zlu algoritma a,b,c,d uzerinden gidis yapardi cunku her an, sadece o an icin en
iyi olani secerdi. Fakat nihai sonuca bakarsak secilen yolun en kisa yol olmadigini
goruruz. En iyi yol a,b,d uzerinden giden yoldur.
Gosterilen cizit / ag yapisi (graph) yonlu ve c¸evrimsiz (directed, acyclic graph
-DAG-) diye bilinen bir yapidir. Tipik kisa yol problemleri bu yapilar uzerinde
calisirlar.
DP problemleri ozellikle bir problemi alt problemlere bolebildigimiz zaman fay-
dalidirlar, ve bu alt problemler tekrar tekrar hesaplaniyorlarsa da bu daha iyidir,
cunku DP o alt problemleri onbellekleyerek tekrar hesaplanmadan geri getir-
ilmelerini saglayabilir.
Mesela ustteki en kisa yol problemini DP ile cozelim.
Once bazi teorik, mantiksal konular: tumevarimsal olarak dusunelim. Diyelim
ki ustteki DAG’de a, f arasindaki en kisa yolu kesinlikle “biliyoruz”. Ve yine
diyelim ki bu yol uzerinde / bir ara nokta x noktasi var. O zaman, a, x, ve x, f
arasindaki yollar da tanim itibariyle en kisadir. Ispatlayalim: eger mesela x, f
arasindaki en kisa yol bildigimizden baska olsaydi, o zaman eldekini atip o yolu
kullaniyor olurduk (en kisa oldugunu kesin biliyoruz ya), ve bu sefer o alternatif
en kisa olurdu. Fakat ilk basta en kisa yolu bildigimiz faraziyesi ile basladik. Bir
celiski elde ettik, demek ki ara noktanin kisaligi dogrudur
1
Bu ispattan hareketle kisa yolu tek numerik bir deger olarak hesaplamaya ugrasabil-
iriz.
Oyle bir fonksiyon d(v) olsun ki herhangi bir v nodu icin o nod’dan bitis nok-
tasina olan en kisa uzakligi kesin biliyor olsun (dikkat, bu hesabin nasil olacagini
dusunmuyoruz simdilik, sadece olabilecegini, olmus oldugunu farz ediyoruz).
Cogu tumevarimsal tasarimda oldugu gibi hesabin kendisinin ozyinelilik (recur-
sive) cagri zincirinin mekanigi icinde halolmasini amacliyoruz. Dogru olan bir
ifadeyi dusunuyoruz oncelikle, ve hesabin kendisini surekli bir sonraki noktaya
erteliyoruz.
Devam edelim: u, v arasindaki parca mesafeler w(u, v)’dir. Simdi, eger bir ara
nokta u’ya gelmissek -yine tumevarimsal olarak dusunmeye devam ediyoruz-
bu noktanin her komsusu w icin d(w)’yi “bildigimize” gore, en kisa yol icin tek
yapmamiz gereken her secim aninda en minimal w(u, v) +d(v)’yi u’nun uzakligi
olarak almaktir.
Veri yapisi olarak DAG’i alttaki gibi gosterelim,
DAG = {
’a’: {’b’:2, ’f’: 9},
’b’: {’d’:2, ’c’:1, ’f’: 6},
’c’: {’d’:7},
’d’: {’e’:2, ’f’: 3},
’e’: {’f’:4},
’f’: {}
}
Boylece w(u, v) basit bir Python sozluk (dictionary) erisimi haline geliyor, mesela
a,b arasi parca mesafe icin
print DAG[’a’][’b’]
2
En kisa yolu bulacak program
from functools import wraps
def memo(func):
cache = {}
@wraps(func)
def wrap(
*
args):
if args not in cache:
print ’onbellekte yok -’, args[0]
cache[args] = func(
*
args)
else: print ’onbellekte var -’, args[0]
return cache[args]
return wrap
def rec_dag_sp(W, s, t):
@memo
2
def d(u):
print ’Dugum:’ + u[0]
if u == t: print ’Son nokta t, geri donus’; return 0
min_dist = min(W[u][v]+d(v) for v in W[u])
print ’Geri donus,’,u,’uzerindeyiz, mesafe=’,min_dist
return min_dist
return d(s)
dist = rec_dag_sp(DAG, ’a’, ’f’)
print ’toplam mesafe=’, dist
onbellekte yok - a
Dugum:a
onbellekte yok - b
Dugum:b
onbellekte yok - c
Dugum:c
onbellekte yok - d
Dugum:d
onbellekte yok - e
Dugum:e
onbellekte yok - f
Dugum:f
Son nokta t, geri donus
Geri donus, e uzerindeyiz, mesafe= 4
onbellekte var - f
Geri donus, d uzerindeyiz, mesafe= 3
Geri donus, c uzerindeyiz, mesafe= 10
onbellekte var - d
onbellekte var - f
Geri donus, b uzerindeyiz, mesafe= 5
onbellekte var - f
Geri donus, a uzerindeyiz, mesafe= 7
toplam mesafe= 7
Simdi cagri mekaniginin hakikaten nasil isledigini gorelim. Not: Onbellek kodla-
masi dekorator kullaniyor, dekoratorler hakkinda bir yazi icin [2]’ye bakabilirsiniz.
Baslangic u, oradan, minimum secerken, surekli d() cagrisi yapiyoruz, yani d()
kendini cagiriyor. Cagrinin geri donmesinin tek yolu son noktaya erismek. Bu ne
demektir? Programimiz daha hesap yapmadan “derinligine bir dalis” yapiyor.
Son noktalara gelene kadar ozyineli cagrilari ardi ardina uyguluyor, esas hesaplari
geri donus sirasinda yapiyor. Bu nasil ise yariyor? Ayrica onbelleklemenin hakikaten
isleyip islemedigini nasil bilecegiz? Ya da onbellekteki bir degerin hep en iyisi
oldugunu nereden bilecegim?
Bu arada, boyle bir yaklasimda, onbellek degeri bir kez set edildi mi, hic degis-
tirmeye gerek yok.
Nokta d’ye bakalim. Bu noktanin mesafesi (yani son nokta f’ye uzakligi) karar-
lastirilirken algoritma d’nin her komsusuna bakacaktir, bunu for v in W[u]) ile
yapacaktir. Her komsu icin f’ye gelene kadar o yol derinligine takip edilecek-
tir. Mesela ustteki ciktida goruyoruz ki d sonrasi iki komsu e,f icin once d-f ve
d-e-f gidisi yapilmistir (amac hep o son noktaya ulasmak, unutmayalim). ’Kom-
3
sulara bakma ve aralarindan en azi secme” mantigi tumbu yollar denenene kadar
bekleyecektir, ancak hepsi bittikten sonra iclerinden bir minimum sececektir.
Iste simdi niye her dugumdeki minimum hesabinin en iyisi oldugunu anliyoruz,
cunku o noktadan nihai noktaya varis icin tum alternatifler deneniyor. O derine
dalisin sonuclari arasindan bir tanesi seciliyor. Onbellekteki deger bu sebeple
bir kez set ediliyor, ve hic degismiyor. Tabii ki onbellekteki deger tekrar tekrar
kullanilabiliyor, mesela c icin bir d uzakligi gerektiginde bu onbellekten servis
edilecektir.
Ve her dugumdaki minimum hesabi en iyiyse, bu hesaplari kullanan baslangica
yakin noktalarin hesabi da dogal olarak en iyisi (kisasi) olacaktir. Basta tumevarim-
sal olarak belirttigimizin tekrar ifade edilmesidir bu.
Kisa Yol Tarifini Bulmak
Mesafe hesabi iste boyle yapiliyor... Peki en kisa yolun kendisini nasil biliriz?
Yani once suraya, sonra suraya git turunden yol tarifi bilgisi nasil hesaplanir?
Aslinda komsular arasindaki en kisa mesafeyi secme problemi, o komsular icin-
den hangisinin o en mesafeyi sagladigini hatirlama problemine oldukca benziyor.
Yani, her dugumuzerindeyken ve komsular arasindan en kisa mesafeyi secerken,
o mesafenin “hangi komsudan” geldigini hatirlamak ve bunu bir yerlere kaydet-
mek yeterli. Her dugum icin, son noktaya olan en kisa mesafe degismedigine
gore, “o mesafe bilgisinin geldigi komsunun hangisi oldugu” bilgisi de degis-
meyecektir. Ve her nokta icin o “ebeveyn komsu” bilindigi zaman hersey isleyip
bittikten sonra en kisa yol tarifi icin eldeki kayda bakariz, ve baslangic noktasi
a’dan baslayarak ziplaya ziplaya o ebeveyn zinciri ile sona kadar geliriz. Bu
degisiklikleri ekleyince kod su hale gelir,
parent = {}
def rec_dag_sp2(W, s, t):
@memo
def d(u):
if u == t: return 0
distances = [W[u][v]+d(v) for v in W[u]]
min_dist = min(distances)
parent[u] = list(W[u])[np.argmin(distances)]
print ’Geri donus,’,u,’uzerindeyiz, mesafe=’,min_dist
return min_dist
return d(s)
print rec_dag_sp2(DAG, ’a’, ’f’)
print ’ebeveynler’, parent
onbellekte yok - a
onbellekte yok - b
onbellekte yok - c
onbellekte yok - d
onbellekte yok - e
onbellekte yok - f
4
Geri donus, e uzerindeyiz, mesafe= 4
onbellekte var - f
Geri donus, d uzerindeyiz, mesafe= 3
Geri donus, c uzerindeyiz, mesafe= 10
onbellekte var - d
onbellekte var - f
Geri donus, b uzerindeyiz, mesafe= 5
onbellekte var - f
Geri donus, a uzerindeyiz, mesafe= 7
7
ebeveynler {’a’: ’b’, ’c’: ’d’, ’b’: ’d’, ’e’: ’f’, ’d’: ’f’}
Not: argmin bir liste icindeki en minimal degerin indisini verir.
Iste sonuc. Baslangic a, onun ebeveyni b. b’ye bakiyoruz, onunki d. Oradan f’ye
atliyoruz, ve sonuca erismis oluyoruz, en kisa yol a-b-d-f.
Analiz
Acgozlu yaklasimdan bu yaklasimin farkini simdi daha iyi gorebiliriz, acgozlu
teknik her dugumde en azi bizzat takip eder, ve kisayol hesabi, mesafe hesabi
hep bu takip eylemi sirasin o anda yapilir, elde bir toplam vardir ve ona eklenir,
vs. Bu yaklasim daha hangi yolu sectigi, sonradan, birkac adim sonrasinda hicbir
secimle ilgilenmez. Dinamik Programlama ise takip etme eylemi ile hesap eylem-
ini birbirinden ayirir, ve tumevarimsal bir tanimdan yola cikarak, hep en kisa, en
optimali bulmayi basarir.
DP algoritmasinin karmasikligi, M tane baglanti (edges) ve N tane dugum icin
O(N + M)’dir. Yani cozum lineer zamandadir! Alt problemleri tekrar tekrar
cozuyoruz evet, ve @memo ibaresini koddan cikartsaydik algoritmamizin ustel (ex-
ponential) zamanda isledigini gorurduk, ki bu cok kotudur. Fakat cozulen alt
problemleri bir daha cozmeyip sonuclarini onbellekten aldigimiz icin algoritma
son derece hizli isliyor.
Kaynaklar
[1] Hetland, M., L., Python Algorithms, 8. Bolum
[2] http://sayilarvekuramlar.blogspot.de/2013/07/onbelleklemeyi-
dekorator-ile-yapmak.html
5
Minimum Kapsamli Agac (Minimum Spanning Tree -MST-)
MST algorithmasi kenar agirliklarina (weights) sahip olan bir cizit (graph) yapisi
icinde minimal ve kapsayan agaci (MST) bulan algoritmaya verilen isimdir. Mesela
alttaki cizit icinde
MST oyle bir baglanti yapisidir ki bastan sona, herhangi bir noktadan (node) bir
digerine gecis yapilabilsin, ve bu tum yollarin toplami en minimal olsun. Dikkat,
herhangi bir noktadan digerine giden yol en az olsun demiyoruz, bu durumda
problem en kisa yol (shortest path) problemi olurdu, ki bu problemi Dinamik
Programlama yazisinda gorduk. Burada gorecegimiz kapsayan agacin toplaminin
minimal olmasidir.
Kapsayan agac (spanning tree) kavramini tanimlamak gerekirse, bir cizitin kap-
sayan agaci orijinal cizitin tum noktalarina sahip olmalidir, agac icinde hicbir
dongu (cycle) olmamalidir. Dongu derken bir noktadan digerine atlaya atlaya
giderken bizi donup tekrar ayni yere getirebilecek turden “kapali devre” tur bir
donguden bahsediyoruz - bu mumkun olmamalidir. Ayrica cizit baglantili olma-
lidir, yani bir kismi diger kismindan kopuk bir cizit uzerinde MST bulunamaz.
Minimum kapsayici agac ise bu tur pek cok alternatif agaclarin icinde en az
agirlikli olanidir. Not, bir cizitin MST cozumu tekil (unique) olmayabilir, ayni
agirlikta birden fazla degisik agac mumkundur. Mesela ustteki cizit icin mumkun
MST’ler altta goruluyor,
Kontrol edilebilir, ustteki her agacin kenar toplami 8’dir. Bu agaclarin her biri bir
MST olarak kabul edilebilir.
Uygulama baglaminda MST bulma algoritmasinin ne kadar kullanisli olacagi
goruluyor herhalde; mesela elektrik hatlari, telefon iletisim hatlari tasarlarken
MST kullanilabilir, toplam baglantisi en az olan bir ag yapisi her iki durumda da
1
kullanisli olur. Biyolojik, kimyasal aglarin analizinde bile MST kullanilmaktadir.
Agaclarin Ozellikleri (Properties of Trees)
Baslamadan once bir agaci agac yapan iki onemli ozelligi belirtelim
1) Tanim itibariyle agac olan bir seye, arasinda baglanti olmayan iki noktayi bir-
lestiren bir kenar koyarsak bu agacta bir dongu yaratmis oluruz.
2) Elde olan bir agacin herhangi bir kenarini cikartirsak bu agaci “kopartmis”
oluruz, birbiriyle baglantisiz iki alt-agac ortaya cikar.
Resimde her iki durumu goruyoruz. Bu iki ozellik cok onemli, cunku onlari
MST’lerin cok temel ozelliklerini ispatlamak icin kullanacagiz. Ondan once bazi
tanimlar,
Tanim
Kesik (cut): Bir cizit uzerindeki yapilan kesik, o ciziti birbiriyle alakasiz, baglan-
tisiz iki parcaya / kumeye boler. Not: Bir kesik birden fazla kenarin uzerinden
gecebilir / kapsayabilir, cunku bir ciziti tamamen ikiye ayirmaktan bahsediy-
oruz. Bir agactan bahsediyor olsaydik, yukarida belirttigimiz gibi, tek bir kenari
kesmek yeterli olurdu.
Birlestiren kenar (crossing edge): birbirinden baglantisiz iki kumedeki herhangi
bir noktayi diger kumedeki herhangi bir diger noktayla birlestiren bir kenardir.
Onerme (Proposition)
Herhangi bir ciziti alalim, ve bu cizitteki bir kesik icindeki (yani kopardigi tum
kenarlar) icindeki minimumbirlestiren kenara bakalim. Bu kenar o cizitin MST’sinde
kesinlikle olmalidir.
Ispat
2
Bu ispat tersini yanlislama (proof by contradiction) yontemini kullanacak. Diye-
lim ki bir kesik var, ve o kesikteki e minimum birlestiren kenar. Bu cizitin MST’si
T olsun. Simdi e’nin T’nin icinde olmadigi durumu dusunelim (yani onermenin
dediginin tersi), ve diyelim ki simdi e’yi alip T’ye ekliyoruz. Yeni bir cizit or-
taya cikardi, fakat daha once dedigimiz gibi, T’ye bir kenar eklemek ona ayni
zamanda bir dongu eklemek demektir, ki bu dongunun icinde en az bir diger ke-
nar f olacaktir (cunku e MST’de olmadigina gore orada baska bir sey var), ki bu
f, e’den buyuktur. Fakat o zaman f’yi kesip onun yerine daha az agirlikta olan
e’yi ekleyince MST’yi, hem de daha az agirlikla elde etmis olmaz miydik? Evet.
Demek ki e’nin MST icinde olmamasi imkansizdir cunku MST tanim itibariyle en
minimal agirliga sahip olmalidir.
Alttaki resimde gri ve beyaz ile gosterilen ayri kumelerdeki noktalari bir kesik
ile ayrilmislar ve bu kumelerin arasindaki birlestiren kenarlar kirmizi ile goster-
iliyor. Burada e ile gosterilen kenar MST icinde olmalidir.
Ustteki kavramlar Kruskal’in MST bulan algoritmasinin temelini olusturmak-
tadir (bu algoritmaya kisaca Kruskal diyecegiz). Kruskal (ilk basta) birbirinden
bagimsiz agaclari yavas yavas yaratir, onlari buyutur. Ayni anda surekli o agaclari
minimal bir kenar ile birlestirip onlari daha buyuk bir agac yapma firsatina bakar.
Ufak ufak agaclar ustteki durumda gri ve beyaz noktalari kapsayan agaclar gibi
gorulebilir, bunlar cizitin farkli bolgelerinde ayri ayri buyurler. Eger bu ayri ayri
bolgelerde, onlara ait MST’ler olusturabilmissek, Onlari minimal sekilde birle-
stirmek (ustte e ile) bize daha buyuk bir MST saglar.
Kruskal kenarlari teker teker isler, once onlari agirliklarina gore siralar, ve en
kucuk kenarlari once alir. Bu yuzden agaclari baglanayan “birlestiren kenarin”
minimal kalmasi, ve once alinmasi da saglanir.
Birlesim-Bulus (Union-Find)
Kruskal’in kodlama baglaminda onemli bir puf noktasi, sirayla bakilan bir ke-
narin mevcut alt-agaclardan birine eklenme durumunda dongu olusturup olus-
turmadigini hizli bir sekilde anlayabilmesidir. Bunun icin su diger soruyu cevap-
lamak yeterlidir: bir kenara baktigimizda, bu kenarin iki ucundaki iki noktayi
aliriz, ve bu iki noktanin herhangi bir alt-agac icinde, yani ayni alt-agac icinde,
olup olmadigina bakariz (hatirlarsak pek cok alt-agac olabiliyor). Eger bu iki
3
nokta herhangi bir alt-agac icinde bulunursa, bu kenari cope atabiliriz, cunku bu
noktalar baska bir sekilde bir alt-MST olusturmustur, ve bu alt-MST optimaldir
(bkz ustteki ispat).
“Iki noktanin ayni alt agac icinde olup olmadigini anlamak” ise su alt-agaclarin
surekli bir “temsili noktaya” isaret etmesiyle halledilebilir (bu isaret, kenarlar-
dan farkli). Eger iki nokta, ayni, temsili noktaya isaret ediyorsa, onlar ayni agac
icindedir, vep dolayli olarak bu demektir ki bu noktalar bir sekilde “baglanmistir-
lar” cunku her alt-agac ayni zamanda ufak bir MST’dir. Bu durumda yeni kenari
eklemek tanim itibariyle bir dongu olusturur, ve gereksizdir. Eger noktalar farkli
agaclarda iseler, bu agaclari birlestirmek iki temsili noktadan birinin bir diger-
ine isaret etmesiyle halolabilir. Evet birlestirme sonrasi bazi uyeler yeni temsili
noktaya isaret etmiyor olabilirler, bu durum, noktadan noktaya atlanip temsili
noktaya erismek ile halolur. Bu arada, arama sirasinda, yeni temsili noktaya olan
isaretler degistirilir, ki bu “duzeltme” islemi yol sikistirma (path compression)
olarak aniliyor.
Alttaki kod tum bu numaralari kullaniyor. Ornek olarak yazinin basinda verilen
ciziti kodladik ve MST’sini bulduk. Cizit formati iki yonlu kenar bilgisi gerek-
tirmez, iki nokta arasindaki gecisi bir kere belirtmek yeterlidir.
G1 = {
’a’: {’b’:1, ’f’:2, ’g’: 6},
’b’: {’c’:1},
’c’: set(),
’d’: {’f’:1, ’e’:2},
’e’: {’g’:1},
’f’: set(),
’g’: set()
}
def find(C, u):
if C[u] != u:
C[u] = find(C, C[u]) # Path compression
return C[u]
def union(C, R, u, v):
u, v = find(C, u), find(C, v)
if R[u] > R[v]: # Union by rank
C[v] = u
else:
C[u] = v
if R[u] == R[v]: # A tie: Move v up a level
R[v] += 1
def kruskal(G):
E = [(G[u][v],u,v) for u in G for v in G[u]]
T = set()
C, R = {u:u for u in G}, {u:0 for u in G} # Comp. reps and ranks
print list(sorted(E))
for _, u, v in sorted(E):
if find(C, u) != find(C, v):
4
T.add((u, v))
print (u, v)
union(C, R, u, v)
return T
mst = list(kruskal(G1))
print ’MST’, mst
[(1, ’a’, ’b’), (1, ’b’, ’c’), (1, ’d’, ’f’), (1, ’e’, ’g’), (2, ’a’, ’f’), (2, ’d’, ’e’), (6, ’a’, ’g’)]
(’a’, ’b’)
(’b’, ’c’)
(’d’, ’f’)
(’e’, ’g’)
(’a’, ’f’)
(’d’, ’e’)
MST [(’d’, ’e’), (’e’, ’g’), (’d’, ’f’), (’b’, ’c’), (’a’, ’f’), (’a’, ’b’)]
Bu isleyis (yine basta gosterdigimiz) alternatif MST’lerden birincisini buldu (a-f
bagli, e-f bagli degil). Guzel! Kruskal’in isleyis hizi O(ElogE) seviyesindedir, E
kenar sayisidir. Bu cok iyi bir performanstir, bu performansin mesela O(N
2
)’den
farkini gostermek icin alttaki hesaba bakalim, eger 100,000 tane kenar olsaydi,
e = 100
*
1000
print ’nˆ2’, e
**
2
print ’log’, np.log(e)
print ’kruskal’, e
*
np.log(e)
nˆ2 10000000000
log 11.512925465
kruskal 1151292.5465
Kruskal 1 milyon kusur operasyona orantili bir sonuc verirdi, kiyasla O(N
2
) 10
milyar operasyon ortaya cikartiyor!
Bir diger ornek: Altta MST’nin adim adim olusturulmasini da gorecegiz. Kirmizi
ile isaretlenen kenar o adimda secilen kenari gosteriyor, siyah olanlar mevcut
MST(lerde) olan kenarlari.
5
G2 = {
0: {7: 0.16, 4: 0.38, 2: 0.26, 6: 0.58},
1: {5: 0.32, 2: 0.36, 3: 0.29, 7: 0.19},
2: {3: 0.17, 6: 0.40, 7: 0.34},
3: {6: 0.52},
4: {5: 0.35, 7: 0.37, 6: 0.93},
5: {7: 0.28},
6: set(),
7: set()
}
6
mst = list(kruskal(G2))
print ’MST’, mst
[(0.16, 0, 7), (0.17, 2, 3), (0.19, 1, 7), (0.26, 0, 2), (0.28, 5, 7), (0.29, 1, 3), (0.32, 1, 5), (0.34, 2, 7), (0.35, 4, 5), (0.36, 1, 2), (0.37, 4, 7), (0.38, 0, 4), (0.4, 2, 6), (0.52, 3, 6), (0.58, 0, 6), (0.93, 4, 6)]
(0, 7)
(2, 3)
(1, 7)
(0, 2)
(5, 7)
(4, 5)
(2, 6)
MST [(2, 6), (4, 5), (5, 7), (0, 7), (2, 3), (1, 7), (0, 2)]
Sekilde 5-7’yi birbirine baglayan 6. adim sonrasi 1-3’un cozume dahil edilmedig-
ine dikkat edelim. Bu noktada 1 ve 3 dugumleri artik ayni agac icindedirler, ve
bu kenari eklemek bir dongu olusturacaktir.
Kruskal algoritmasi, ve ona benzer Prim, ya da “bir sonraki adimda hep en yakini
isleyen” algoritmalar acgozlu (greedy) algoritmalar olarak bilinirler. Mesela Di-
namik Programlama yazisinda gordugumuz uzere, acgozlu yontem en kisa yolu
vermeyebiliyordu. MST durumunda acgozluluk faydalidir, acgozlulugun fay-
dali oldugu mutlu orneklerden biridir diyelim!
Not: Bazilarina tanidik gelebilecek bilgisayar bilimin demirbas problemlerinden
Seyahat Eden Satis Gorevlisi (Traveling Salesman Problemi -TSP-) NP-Tam olarak
bilinir. MST, ki cok hizli isleyen bir algoritma, yaklasiksal olarak TSP’yi cozmekte
kullanilabilmektedir.
Sedgewick, R. Algorithms, sf. 409
Sedgewick, R. Algorithms, 4rd Edition, sf. 624
Heatland, Python Algorithms
7
Felzenswalb Gruplamasi (Felzenswalb Clustering)
Minimum Kapsayan Agac (Minimum Spanning Tree -MST-) kavramini kullanan
Felzenswalb kumelemesini gorecegiz. MST’yi daha once isledik. Literaturde
Felzenswalb metotunun imaj gruplamasi icin kullanildigini gorebilirsiniz, biz
imaj gruplamasi yapan algoritma icinden veri kumelemesi yapan kismi cikart-
tik ve ayri bir sekilde paylasiyoruz. Bu gruplama algoritmasinin daha once pay-
lastigimiz Kruskal’in MST koduna yapilacak birkac ekleme sayesinde elde edilebilmesi
hakikaten ilginc. Normal MST cizitin ayri bolgelerinde ayri agaclar yaratir ve
bunlari yavas yavas buyutur, gerektigi noktalarda onlari birlestirir. Felzenswalb
sadece bu birlestirme mantigini biraz degistirip, ayri agaclari bir grup olarak
kabul eder, ve bu gruplarin kendi icinde benzerligi maksimal, gruplararasi ben-
zerligi minimal olacak hale getirir. Bu sekilde bildik Kruskal isletilince cok hizli
isleyen hizli bir gruplama algoritmasi elde edilmis olur!
Felzenswalb veri olarak, MST gibi, bir cizit alir ve bu cizit veri noktalarinin arasin-
daki yakinlik bilgisini iceren bir matris olarak verilebilir. Mesela 5 veri noktasi var
ise, 0. nokta ile 1. nokta arasindaki ’10’ buyuklugundeki bir mesafe A(0, 1) = 10
olarak kaydedilebilir. Kumeler birbirine yakin ogeler arasindan secilir.
Algoritmanin onemli avantajlarindan biri kume sayisinin (GMM’de oldugu gibi)
onceden tanimlanmasina gerek olmamasidir. Belli esik degerleri tanimlaninca
kume sayisi kendiliginden bulunur. Tabii “disaridan verilen bir parametreyi baska
biriyle degistirmis mi olduk?” sorusu akla gelebilir, Felzenswalb’in aldigi hiper-
parametreler kabaca ayarlanabilen ve veri kaynagi baglaminda akla uygun seyler,
ve belli degerler etrafinda stabilite ortaya cikabiliyor. Kiyasla “kume sayisi” ciddi
bir rakam ve degismesi mumkun degil.
Felzenswalb’in matematiginde once imaj bolgelerinin (ya da veri kumeleri olarak
dusunebiliriz) arasinda ikili karsilastirma icin bir olcut gerekir. Bu bolumde bir
beyan D’yi ortaya koyacagiz, ki bu beyan, imajdaki iki bilesen (ki imaj grupla-
masinin dogru olarak bulmaya calisacagi bilesenler) arasinda bir sinir olup ol-
madigina dair kanitin olcusu olacak. Beyanin temeli sudur: iki bilesen arasin-
daki sinirin boyunda yer alan her iki tarafin ogelerinin farkliligina bak, ve onu
her bilesenin kendi icindeki farkliliga gore oranla. Yani bu beyan, bir bilesenin
ic farkliligini dis farkliligina kiyaslar, ve bu sebeple verinin yerel karakteristik-
leri gozetmis olur. Kiyaslama mesela, global, verinin her yerinde aynen gecerli
olacak bir sabit esik degerine vs. bagli degildir.
Tanim
Bir bilesen C ⊆ V, ki C bir bilesendir (component) ve V cizitin tum noktalaridir,
ic farkliligini, o C’nin minimum kapsayan agacinin, yani MST(C)’sinin en buyuk
kenar agirligi olarak aliyoruz. Bu ic farkliligi Int(C) olarak belirtirsek,
Int(C) = max
e∈MST(C,E)
w(e)
ki w((v
i
, v
j
)) bir cizit G = (V, E)’yi olusturan bir kenar (v
i
, v
j
) ∈ E agirligi olarak
1
belirtilir.
Tanim
Iki bilesen C
1
, C
2
⊆ V arasindaki farki o iki bileseni birlestiren kenarlardan en
ufagi olarak aliyoruz. Iki bilesenin arasinda birden fazla baglanti olmasi mumkun-
dur, tum bunlara bakiyoruz, ve en ufagini aliyoruz.
Dif(C
1
, C
2
) = min
v
i
∈C
1
,v
j
∈C
2
,(v
i
,v
j
)∈E
w((v
i
, v
j
))
Eger C
1
, C
2
arasinda bir kenar yok ise Dif(C
1
, C
2
) = ∞kabul ediliyor.
Prensip olarak iki bilesen arasindaki en minimal baglantinin problem cikartabile-
cegi dusunulebilirdi, niye en az, niye ortalama vs degil? Fakat pratikte bu ol-
cutun cok iyi isledigi gorulmustur. Hatta iyi olmaktan ote, bu olcutu minimal
yerine medyan, ya da diger ceyreksel (quantile) olcute degistirildigi zaman (ki
bunu yaparak aykiri degerlere -outlier- karsi daha dayanikli olmasini istenmisti),
algoritma cetrefilligi NP-Zor haline geliyor. Yani gruplama kriterinde ufacik bir
degisiklik problemin cozum zorlulugunda muthis bir degisim ortaya cikartiyor.
Simdi iki bilesenin karsilastirma beyani D’nin tanimina geldik. Dolcutu, Dif(C
1
, C
2
)’nin
Int(C
1
) ya da Int(C
2
)’den herhangi birinden daha buyuk olup olmadigina bakar.
Ayrica bu karsilastirmayi bir esik degeri uzerinden pay ekleyerek yapar, eger ird-
eleme olumlu ise, iki bilesen arasinda sinir vardir, yoksa yoktur.
D(C
1
, C
2
) =

Dogru Eger Dif(C
1
, C
2
) > MInt(C
1
, C
2
) ise
Yanlis Diger durumda
Minimum ic fark MInt ise soyle tanimlidir,
MInt(C
1
, C
2
) = min(Int(C
1
) +τ(C
1
), Int(C
2
) +τ(C
2
))
Esik fonksiyonu τ ustteki irdeledigimiz fark hesaplarinin belli derecelerde dis-
aridan etkilemek icin koyulmustur. Eger bu kullanilmasaydi sadece Int fonksiy-
onu kullanilmasi gerekecekti, fakat bu olcut tek basina ufak bir bilesenin yerel
karakteristiklerini gostermesi acisindan yeterli degildir. Asiri durumda mesela
|C| = 1, Int(C) = 0, yani en kucuk C durumudur bu (|C| bilesenin icindeki oge
sayisi), icinde tek oge vardir, ve hicbir kenar yoktur, Int(C) = 0.
Bu sebeple iyi bir τ bilesenin buyuklugunu hesaba katarak, ona ters oranli bir
rakam olusturursa iyi olur, mesela bir sabit k uzerinden,
τ(C) =
k
|C|
Bu demektir ki ufak bilesenler icin daha kuvvetli bir ispat ariyoruz, cunku ku-
cuk |C|, τ’yu buyutecektir, ve Dif’in ondan buyuk olmasi daha zorlasacaktir.
2
Tabii dikkat edelim, k bir “bilesen sayisi” degildir, yani fonksiyonuna dikkatli
bakarsak, eger bilesenler arasinda yeterince buyuk bir fark var ise ufak bilesen-
lere hala izin verilmistir.
Algoritma soyledir, girdi olarak G = (V, E) alir, ve V’yi S bilesenlerine ayirir ki
her S icinde ona ait olan kenarlar vardir, yani S = (C
1
, .., C
r
)
felzenswalb(G)
1 E kenarlarini π = (o
1
, .., o
m
) seklinde kucukten buyuge dogru sirala.
2 Ilk basta S
0
gruplamasini al. Bu durumda her kenar v
i
kendi bileseni icindedir.
3 for q = 1, .., m
4 S
q−1
gruplamasini baz alip S
q
gruplamasini soyle yarat; q’inci siradaki
5 kenarin birlestirdigi noktalari v
i
, v
j
oldugunu farz edelim, yani o
q
= (v
i
, v
j
).
6 Eger v
i
, v
j
S
q−1
gruplamasi icinde farkli iki bilesen icindeyseler, ve w(o
q
) her
7 iki bilesenin icsel farkina kiyasla cok kucuk ise, bu iki bileseni birlestir,
8 yoksa hicbir sey yapma.
9 return S
m
Ustteki dongu icindeki en son irdelemede icsel farktan bahsediliyor, bu tabii ki
MInt(C
1
, C
2
). Daha formel sekilde MInt(C
q−1
1
, C
q−1
2
) cunku bilesenlerin icerik-
leri hangi adimda oldugumuza gore degisebilir, q adiminda bir onceki q −1’den
bize “miras kalan” gruplamalar ve bilesenler uzerinden is yapiyoruz. Bir sonraki
adima ya birlesmis, ya da birlesmemis (ayni) gruplamalari aktariyoruz.
Ayni algoritmanin biraz daha fazla formul iceren hali [3]
felzenswalb(G)
1 Butun kenarlari kucukten buyuge dogru sirala.
2 Ilk basta kenar v
i
kendi bileseni icinde olsun, buna S
0
gruplamasi diyelim.
3 for tum kenarlar e
i
= (v
1
, v
2
) ∈ E icin
4 v
1
∈ C
1
ve v
2
∈ C
2
’nin birbirinden ayri, ayri bilesenler icinde
5 ama ayni kenari iceren noktalar oldugunu dusunelim,
6 if w(e
i
) MInt(C
1
, C
2
)
7 C
1
ve C
2
’yi birlestir
8 else
9 S
i
= S
i−1
10 return S
Felzenswalb gruplamasinin Python ile yazilmis ornegi alttadir, daha hizli isleyen
C++ bazli kodu surada [2] bulabilirsiniz.
import scipy.sparse as sps
import scipy.io as io
import itertools, numpy as np
def threshold(size, c): return c / size
S = {}
3
def find(C, u):
if C[u] != u:
C[u] = find(C, C[u]) # Path compression
return C[u]
def union(C, R, u, v, S):
u, v = find(C, u), find(C, v)
if R[u] > R[v]: # Union by rank
C[v] = u
S[v] = S[u] = S[u] + S[v]
else:
C[u] = v
S[v] = S[u] = S[u] + S[v]
if R[u] == R[v]: # A tie: Move v up a level
R[v] += 1
class Felzenswalb:
def __init__(self, min_size, c):
self.min_size_ = min_size
self.c_ = c
def fit(self, X):
print X.shape
G = {}
for i in range(X.shape[0]): G[i] = {}
for u,v,w in itertools.izip(X.row, X.col, X.data): G[u][v] = w
E = [(G[u][v],u,v) for u in G for v in G[u]]
E = sorted(E)
T = set()
C, R = {u:u for u in G}, {u:0 for u in G} # Comp. reps and ranks
S = {u:1 for u in range(len(G))}
ts = {x:threshold(1,self.c_) for x in C}
for w, u, v in E:
if find(C, u) != find(C, v):
if w <= ts[u] and w <= ts[v]:
T.add((u, v))
union(C, R, u, v, S)
ts[u] = w + threshold(S[u],self.c_)
for _, u, v in E:
if find(C, u) != find(C, v):
if S[C[u]] < self.min_size_ or S[C[v]] < self.min_size_:
union(C, R, u, v, S)
self.labels_ = [np.nan for i in range(len(C))]
for i in range(len(C)): self.labels_[i] = int(C[i])
self.T_ = T
Basit bir ornek
import scipy.sparse as sps, felz
import scipy.io as io
X = io.mmread(’simple.mtx’)
4
clf = felz.Felzenswalb(min_size=1,c=1.0)
clf.fit(X)
print clf.labels_
(5, 5)
[1, 1, 3, 3, 1]
Biraz daha cetrefil bir ornek
import scipy.sparse as sps
import scipy.io as io, random
import pandas as pd, os, sys
syn = pd.read_csv("../kmeans/synthetic.txt",comment=’#’,names=[’a’,’b’],sep=" ")
data = np.array(syn)
from sklearn.metrics.pairwise import euclidean_distances
X = euclidean_distances(data, data)
X2 = X.copy()
# filter out large values / distances so matrix can be sparse
X2[X > 2000] = 0.0
X3 = sps.lil_matrix(X2)
X4 = sps.triu(X3)
print ’non-zero items’, len(X4.nonzero()[0])
print X4.shape
non-zero items 87010
(3000, 3000)
import felz
clf = felz.Felzenswalb(min_size=20,c=800)
clf.fit(X4)
(3000, 3000)
syn[’cluster’] = clf.labels_
print len(syn[’cluster’].unique()), ’clusters found’
print syn[:5]
19 clusters found
a b cluster
0 54620 43523 120
1 52694 42750 120
2 53253 43024 120
3 54925 42624 120
4 54973 43980 120
import random
for clust in syn[’cluster’].unique():
tmp = np.array(syn[syn[’cluster’] == clust][[’a’,’b’]])
plt.scatter(tmp[:,0], tmp[:,1], c=np.random.rand(3,1))
plt.savefig(’mstseg_01.png’)
5
Simdi SVDile Kumeleme yazisinda gordugumuz kelime gruplamasi ornegini Felzenswalb
ile gruplayalim.
import scipy.linalg as lin
import scipy.sparse as sps
import itertools, sys
sys.path.append(’../svdcluster/’)
import leven
words = np.array(
[’the’, ’be’, ’to’, ’of’, ’and’, ’a’, ’in’, ’that’, ’have’,
’I’, ’it’, ’for’, ’not’, ’on’, ’with’, ’he’, ’as’, ’you’,
’do’, ’at’, ’this’, ’but’, ’his’, ’by’, ’from’, ’they’, ’we’,
’say’, ’her’, ’she’, ’or’, ’an’, ’will’, ’my’, ’one’, ’all’,
’would’, ’there’, ’their’, ’what’, ’so’, ’up’, ’out’, ’if’,
’about’, ’who’, ’get’, ’which’, ’go’, ’me’, ’when’, ’make’,
’can’, ’like’, ’time’, ’no’, ’just’, ’him’, ’know’, ’take’,
’people’, ’into’, ’year’, ’your’, ’good’, ’some’, ’could’,
’them’, ’see’, ’other’, ’than’, ’then’, ’now’, ’look’,
’only’, ’come’, ’its’, ’over’, ’think’, ’also’, ’back’,
’after’, ’use’, ’two’, ’how’, ’our’, ’work’, ’first’, ’well’,
’way’, ’even’, ’new’, ’want’, ’because’, ’any’, ’these’,
’give’, ’day’, ’most’, ’us’])
(dim,) = words.shape
f = lambda (x,y): leven.levenshtein(x,y)
res=np.fromiter(itertools.imap(f, itertools.product(words, words)),dtype=np.uint8)
A = sps.coo_matrix(np.reshape(res,(dim,dim)))
print A.shape
(100, 100)
Kumelemeyi yapalim, min_size=2 sectik cunku ufak kumeler de mumkun.
import felz
clf = felz.Felzenswalb(min_size=1.5,c=0.2)
clf.fit(A)
labels = np.array(clf.labels_)
c = len(np.unique(labels))
print c, ’clusters found’
6
(100, 100)
16 clusters found
for c in np.unique(labels):
print ’cluster’, c
print words[labels==c]
cluster 9
[’a’ ’I’ ’as’ ’at’ ’up’ ’also’ ’use’ ’because’ ’us’]
cluster 10
[’in’ ’it’ ’with’ ’which’ ’its’ ’first’]
cluster 13
[’of’ ’for’ ’on’ ’from’ ’or’ ’one’ ’if’ ’people’ ’only’ ’after’ ’our’
’work’]
cluster 15
[’the’ ’be’ ’have’ ’he’ ’by’ ’they’ ’we’ ’her’ ’she’ ’my’ ’their’ ’who’
’get’ ’me’ ’when’ ’time’ ’year’ ’them’ ’see’ ’other’ ’then’ ’over’ ’back’
’even’ ’give’]
cluster 18
[’to’ ’not’ ’do’ ’so’ ’go’ ’no’ ’know’ ’into’ ’good’ ’now’ ’look’ ’two’
’how’ ’new’ ’most’]
cluster 22
[’this’ ’his’ ’him’ ’think’]
cluster 31
[’and’ ’an’ ’all’ ’can’ ’want’ ’any’]
cluster 39
[’that’ ’what’ ’than’]
cluster 42
[’but’ ’out’ ’about’ ’just’]
cluster 59
[’make’ ’like’ ’take’]
cluster 63
[’you’ ’your’]
cluster 66
[’would’ ’could’]
cluster 75
[’some’ ’come’]
cluster 88
[’will’ ’well’]
cluster 89
[’say’ ’way’ ’day’]
cluster 95
[’there’ ’these’]
Kaynaklar
[1] Pedro F. Felzenszwalb and Daniel P. Huttenlocher, Efficient Graph-Based Image
Segmentation, http://cs.brown.edu/
˜
pff/segment/
[2] https://github.com/burakbayramli/kod/felzenszwalb
[3] Mihai-Cotizo Sima, An extension of Felzenszwalb-Huttenlocher segmentation to
3D point clouds, 2012
7
En Yakin k-Komsu (k-Nearest Neighbor)
Yapay Ogrenimalaninda ornek bazli ogrenen algoritmalardan bilinen kNN, egitim
verinin kendisini siniflama (classification) amacli olarak kullanir, yeni bir model
ortaya cikartmaz. Algoritma soyle isler: etiketleri bilinen egitim verisi alinir ve
bir kenarda tutulur. Yeni bir veri noktasi xqgorulunce bu veriye geri donulur
ve o noktaya “en yakin” k tane nokta bulunur. Daha sonra bu noktalarin etiket-
lerine bakilir ve cogunlugun etiketi ne ise, o etiket yeni noktanin etiketi olarak
kabul edilir. Mesela elde 1 kategorisi altinda [2 2], 2 kategorisi altinda [5 5] var
ise, yeni nokta [3, 3] icin yakinlik acisindan [2 2] bulunmali ve etiket olarak 1
sonucu dondurulmelidir.
Ustte tarif edilen basit bir ihtiyac, yontem gibi gorulebilir. Fakat yapay ogrenim
ve yapay zeka cok boyutlarda oruntu tanima (pattern recognition) ile ugrasir, ve
milyonlarca satirlik veri, onlarca boyut (ustteki ornekte 2, fakat cogunlukla cok
daha fazla boyut vardir) isler hakikaten zorlasabilir. Mesela goruntu tanimada
veri M x N boyutundaki dijital imajlar (duzlestirilince M · N boyutunda), ve on-
larin icindeki resimlerin kime ait oldugu etiket bilgisi olabilir. kNN bu tur multi-
medya, cok boyutlu veri ortaminda basarili sekilde calisabilmektedir. Ayrica en
yakin k komsunun icerigi tarifsel bilgi cikarimi (knowledge extraction) amaciyla
da kullanilabilir [2].
“En yakin” sozu bir kordinat sistemi anlamina geliyor, ve kNN, aynen GMM ve
diger pek cok kordinatsal ogrenme yontemi gibi eldeki cok boyutlu veri noktalar-
inin elemanlarini bir kordinat sistemindeymis gibi gorur. Kiyasla mesela APriori
gibi bir algoritma metin bazli veriyle oldugu gibi calisabilirdi.
Peki arama baglaminda, bir veri obegi icinden en yakin noktalari bulmanin en ba-
sit yolu nedir? Listeyi bastan sonra taramak (kaba kuvvet yontemi -brute force-)
listedeki her nokta ile yeni nokta arasindaki mesafeyi teker teker hesaplayip en
yakin k taneyi icinden secerdi, bu bir yontemdir.. Bu basit algoritmanin yuku
O(N)’dir. Eger tek bir nokta ariyor olsaydik, kabul edilebilir olabilirdi. Fakat
genellikle bir siniflayici (classifier) algoritmasinin surekli islemesi, mesela bir on-
line site icin gunde milyonlarca kez bazi kararlari almasi gerekebilir. Bu durumda
ve N’in cok buyuk oldugu sartlarda, ustteki hiz bile yeterli olmayacaktir.
Arama islemini daha hizli yapmanin yollari var. Akilli arama algoritmalari kulla-
narak egitim verilerini bir agac yapisi uzerinden tarayip erisim hizini O(logN)’e
indirmek mumkundur.
K¨ ure Agac¸ları (Ball Tree, BT)
Bir noktanin diger noktalara yakin olup olmadiginin hesabinda yapilmasi gereken
en pahali islem nedir? Mesafe hesabidir. BT algoritmasinin puf noktasi bu hesabi
yapmadan, noktalara degil, noktalari kapsayan ”kurelere” bakarak hiz kazandirma-
sidir. Noktalarin her biri yerine o noktalari temsil eden kurenin mihenk noktasina
(pivot -bu nokta kure icindeki noktalarin ortalamasal olarak merkezi de olabilir,
herhangi bir baska nokta da-) bakilir, ve oraya olan mesafeye gore bir kure altin-
daki noktalara olabilecek en az ve en fazla uzaklik hemen anlasilmis olur.
1
Not: Kure kavrami uc boyutta anlamli tabii ki, iki boyutta bir cemberden bahset-
mek lazim, daha yuksek boyutlarda ise merkezi ve capi olan bir “hiper yuzey-
den” bahsetmek lazim. Tarifi kolaylastirdigi icin cember ve kure tanimlarini kul-
laniyoruz.
Mesela elimizde alttaki gibi noktalar var ve kureyi olusturduk.
Bu kureyi kullanarak kure disindaki herhangi bir nokta q’nun kuredeki ”diger
tum noktalar x’e” olabilecegi en az mesafenin ne olacagini ucgensel esitsizlik ile
anlayabiliriz.
Ucgensel esitsizlik
|x −y| |x −z| +|z −y|
|| operatoru norm operatoru anlamina gelir ve uzaklik hesabinin genellestirilmis
halidir. Konu hakkinda daha fazla detay icin Fonksinel Analiz ders notlarimiza
bakabilirsiniz. Kisaca soylenmek istenen iki nokta arasinda direk gitmek yer-
ine yolu uzatirsak, mesafe artacagidir. Tabii uzaklik, yol, nokta gibi kavramlar
tamamen soyut matematiksel ortamda da isleyecek sekilde ayarlanmistir. Mesela
mesafe (norm) kavramini degistirebiliriz, Oklitsel yerine Manhattan mesafesi kul-
laniriz, fakat bu kavram bir norm oldugu ve belirttigimiz uzayda gecerli oldugu
icin ucgensel esitsizlik uzerine kurulmus tum diger kurallar gecerli olur.
Simdi diyelim ki disaridaki bir q noktasindan bir kure icindeki diger tum x nok-
talarina olan mesafe hakkinda bir seyler soylemek istiyoruz. Ustteki sekilden bir
2
ucgensel esitsizlik cikartabiliriz,
|x −c| +|x −q| |q −c|
Bunun dogru bir ifade oldugunu biliyoruz. Peki simdi yaricapi bu ise dahil ede-
lim, cunku yaricap hesabi bir kere yapilip kure seviyesinde depolanacak ve bir
daha hesaplanmasi gerekmeyecek, yani algoritmayi hizlandiracak bir sey olabilir
bu, o zaman eger |x−c| yerine yaricapi kullanirsak, esitsizlik hala gecerli olur, sol
taraf zaten buyuktu, simdi daha da buyuk olacak,
radius +|x −q| |q −c|
Bunu nasil boyle kesin bilebiliyoruz? Cunku BT algoritmasi radius’u |x − c|’ten
kesinlikle daha buyuk olacak sekilde secer). Simdi yaricapi saga gecirelim,
|x −q| |q −c| −radius
Boylece guzel bir tanim elde ettik. Yeni noktanin kuredeki herhangi bir nokta x’e
olan uzakligi, yeni noktanin mihenke olan uzakliginin yaricapi cikartilmis halin-
den muhakkak fazladir. Yani bu cikartma isleminden ele gecen rakam yeni nok-
tanin x’e uzakligina bir ”alt sinir (lower bound)” olarak kabul edilebilir. Diger
tum mesafeler bu rakamdan daha buyuk olacaktir. Ne elde ettik? Sadece bir yeni
nokta, mihenk ve yaricap kullanarak kuredeki ”diger tum noktalar hakkinda” bir
irdeleme yapmamiz mumkun olacak. Bu noktalara teker teker bakmamiz gerek-
meyecek. Bunun nasil ise yaradigini algoritma detaylarinda gorecegiz.
Benzer sekilde
Bu ne diyor?
|q −c| +|x −c| |q −x|
|x−c| yerine yaricap kullanirsak, sol taraf buyuyecegi icin buyukluk hala buyuk-
luk olarak kalir,
|q −c| +radius |q −x|
3
Ve yine daha genel ve hizli hesaplanan bir kural elde ettik (onceki ifadeye ben-
zemesi icin yer duzenlemesi yapalim)
|q −x| |q −c| +radius
Bu ifade ne diyor? Yeni noktanin mihenke olan uzakligina yaricap “eklenirse”
bu uzakliktan, buyuklukten daha buyuk bir yeni nokta / kure mesafesi olamaz,
kuredeki hangi nokta olursa olsun. Bu esitsizlik te bize bir ust sinir (upper bound)
vermis oldu.
Algoritma
ball knn

PS
in
, node

1 – Eger alttaki sart gecerli ise node icindeki bir noktanin daha once
2 – kesfedilmis k en yakin komsudan daha yakin olmasi imkansizdir
3 if D
node
minp
D
sofar
4 return PS
in
degismemis halde;
5 else if node bir cocuk noktasi ise
6 PS
out
= PS
in
;
7 for ∀x ∈ points(node)
8 if (|x −q| < D
sofar
); – basit lineer arama yap
9 x’i PS
out
’a ekle;
10 if |PS
out
| == k +1;
11 en uzak olan komsuyu PS
out
’tan cikart;
12 D
sofar
’i guncelle;
13
14 – eger uc nokta degil ise iki cocuk dugumden daha yakin olanini
15 – incele, sonra daha uzakta olanina bak. buyuk bir ihtimalle
16 – arama devam ettirilirse bu arama kendiliginden kesilecektir
17 else
18 node
1
= node’un q’ya en yakin cocugu;
19 node
2
= node’un q’dan en uzak cocugu;
20 PS
temp
= ball knn(PS
in
, node
1
);
21 PS
out
= ball knn(PS
temp
, node
2
);
Kure Agaclari (BT) metotu once kureleri, agaclari olusturmalidir. Bu kureler hiy-
erarsik sekilde planlanir, tum noktalarin icinde oldugu bir ”en ust kure” vardir
her kurenin iki tane cocuk kuresi olabilir. Belli bir (disaridan tanimlanan) mini-
mumr
min
veri noktasina gelinceye kadar sadece noktalari geometrik olarak kap-
samakla gorevli kureler olusturulur, kureler noktalari sahiplenmezler. Fakat bu
r
min
sayisina erisince (artik oldukca alttaki) kurelerin uzerine noktalar konacak-
tir.
Once tek kurenin olusturulusuna bakalim. Bir kure olusumu icin eldeki veri icin-
den herhangi bir tanesi mihenk olarak kabul edilebilir. Daha sonra bu mihenkten
diger tum noktalara olan uzaklik olculur, ve en fazla, en buyuk olan uzaklik yar-
icap olarak kabul edilir (her seyi kapsayabilmesi icin).
4
Not: Bu arada ”tum diger noktalara bakilmasi” dedik, bundan kacinmaya calis-
miyor muyduk? Fakat dikkat, ”kure olusturulmasi” evresindeyiz, k tane yakin
nokta arama evresinde degiliz. Yapmaya calistigimiz aramalari hizlandirmak -
egitim / kure olusturmasi bir kez yapilacak ve bu egitilmis kureler bir kenarda
tutulacak ve surekli aramalar icin ardi ardina kullanilacaklar.
Kureyi olusturmanin algoritmasi soyledir: verilen noktalar icinde herhangi birisi
mihenk olarak secilir. Sonra bu noktadan en uzakta olan nokta f
1
, sonra f
1
’den en
uzakta olan nokta f
2
secilir. Sonra tum noktalara teker teker bakilir ve f
1
’e yakin
olanlar bir gruba, f
2
’ye yakin olanlar bir gruba ayrilir.
import itertools
def dist(vect,x):
return np.fromiter(itertools.imap
(np.linalg.norm, vect-x),dtype=np.float)
def norm(x,y): return np.linalg.norm(x-y)
points = np.array([[3.,3.],[2.,2.]])
q = [1.,1.]
print ’diff’, points-q
print ’dist’, dist(points,q)
diff [[ 2. 2.]
[ 1. 1.]]
dist [ 2.82842712 1.41421356]
# k-nearest neighbor Ball Tree algorithm in Python
import pprint
__rmin__ = 2
# node: [pivot, radius, points, [child1,child2]]
def new_node(): return [None,None,None,[None,None]]
def zero_if_neg(x):
if x < 0: return 0
else: return x
def form_tree(points,node,all_points,plot_tree=False):
pivot = points[0]
radius = np.max(dist(points,pivot))
if plot_tree: plot_circles(pivot, radius, points, all_points)
node[0] = pivot
node[1] = radius
if len(points) <= __rmin__:
node[2] = points
return
idx = np.argmax(dist(points,pivot))
furthest = points[idx,:]
idx = np.argmax(dist(points,furthest))
furthest2 = points[idx,:]
dist1=dist(points,furthest)
5
dist2=dist(points,furthest2)
diffs = dist1-dist2
p1 = points[diffs <= 0]
p2 = points[diffs > 0]
node[3][0] = new_node() # left child
node[3][1] = new_node() # right child
form_tree(p1,node[3][0],all_points)
form_tree(p2,node[3][1],all_points)
# knn: [min_so_far, [points]]
def search_tree(new_point, knn_matches, node, k):
pivot = node[0]
radius = node[1]
node_points = node[2]
children = node[3]
# calculate min distance between new point and pivot
# it is direct distance minus the radius
min_dist_new_pt_node = norm(pivot,new_point) - radius
# if the new pt is inside the circle, its potential minimum
# distance to a random point inside is zero (hence
# zero_if_neg). we can only say so much without looking at all
# points (and if we did, that would defeat the purpose of this
# algorithm)
min_dist_new_pt_node = zero_if_neg(min_dist_new_pt_node)
knn_matches_out = None
# min is greater than so far
if min_dist_new_pt_node >= knn_matches[0]:
# nothing to do
return knn_matches
elif node_points != None: # if node is a leaf
print knn_matches_out
knn_matches_out = knn_matches[:] # copy it
for p in node_points: # linear scan
if norm(new_point,p) < radius:
knn_matches_out[1].append([list(p)])
if len(knn_matches_out[1]) == k+1:
tmp = [norm(new_point,x) \
for x in knn_matches_out[1]]
del knn_matches_out[1][np.argmax(tmp)]
knn_matches_out[0] = np.min(tmp)
else:
dist_child_1 = norm(children[0][0],new_point)
dist_child_2 = norm(children[1][0],new_point)
node1 = None; node2 = None
if dist_child_1 < dist_child_2:
node1 = children[0]
node2 = children[1]
else:
node1 = children[1]
node2 = children[0]
6
knn_tmp = search_tree(new_point, knn_matches, node1, k)
knn_matches_out = search_tree(new_point, knn_tmp, node2, k)
return knn_matches_out
points = np.array([[3.,4.],[5.,5.],[9.,2.],[3.2,5.],[7.,5.],
[8.,9.],[7.,6.],[8,4],[6,2]])
tree = new_node()
form_tree(points,tree,all_points=points)
pp = pprint.PrettyPrinter(indent=4)
print "tree"
pp.pprint(tree)
newp = np.array([7.,7.])
dummyp = [np.Inf,np.Inf] # it should be removed immediately
res = search_tree(newp,[np.Inf, [dummyp]], tree, k=2)
print "done", res
tree
[ array([ 3., 4.]),
7.0710678118654755,
None,
[ [ array([ 8., 9.]),
3.1622776601683795,
array([[ 8., 9.],
[ 7., 6.]]),
[None, None]],
[ array([ 3., 4.]),
6.324555320336759,
None,
[ [ array([ 9., 2.]),
3.6055512754639891,
None,
[ [ array([ 7., 5.]),
1.4142135623730951,
array([[ 7., 5.],
[ 8., 4.]]),
[None, None]],
[ array([ 9., 2.]),
3.0,
array([[ 9., 2.],
[ 6., 2.]]),
[None, None]]]],
[ array([ 3., 4.]),
2.2360679774997898,
None,
[ [ array([ 5., 5.]),
0.0,
array([[ 5., 5.]]),
[None, None]],
[ array([ 3., 4.]),
1.019803902718557,
array([[ 3. , 4. ],
[ 3.2, 5. ]]),
[None, None]]]]]]]]
None
done [1.0, [[[8.0, 9.0]], [[7.0, 6.0]]]]
7
Bu iki grup, o anda islemekte oldugumuz agac dugumun (node) iki cocuklari
olacaktir. Cocuk noktalari kararlastirildiktan sonra artik sonraki asamaya gecilir,
fonksiyon form_tree bu cocuk noktalari alarak, ayri ayri, her cocuk grubu icin
ozyineli (recursive) olarak kendi kendini cagirir. Kendi kendini cagiran form_tree,
tekrar basladiginda kendini yeni (bir) nokta grubu ve yeni bir dugum objesi ile
basbasa bulur, ve hicbir seyden habersiz olarak isleme koyulur. Tabii her ozyineli
cagri yeni dugum objesini yaratirken bir referansi ustteki ebeveyn dugume koy-
mayi unutmamistir, boylece ozyineli fonksiyon dunyadan habersiz olsa bile, agacin
en ustunden en altina kesintisiz bir baglanti zinciri hep elimizde olur.
Not: form_tree icinde bir numara yaptik, tum noktalarin f
1
’e olan uzakligi dist1,
f
2
’e olan uzakligi ise dist2. Sonra diffs = dist1-dist2 ile bu iki uzakligi bir-
birinden cikartiyoruz ve mesela points[diffs <= 0] ile f
1
’e yakin olanlari bu-
luyoruz, cunku bir tarafta f
1
’e yakinlik 4 diger tarafta f
2
’ye yakinlik 6 ise, 4-6=-2
ie o nokta f
1
’e yakin demektir. Ufak bir numara ile Numpy dilimleme (slicing)
teknigini kullanabilmis olduk ve bu onemli cunku boylece for dongusu yazmiy-
oruz, Numpy’in arka planda C ile yazilmis hizli rutinlerini kullaniyoruz.
Ek bazi bilgiler: kurelerin sinirlari kesisebilir.
Arama
Ustte sozde program (pseudocode) BallKNN olarak gosterilen ve bizim kodda
search_tree olarak anilan fonksiyon arama fonksiyonu. Aranan new_point’e
olan k en yakin diger veri noktalar. Disaridan verilen degisken knn_matches
uzerinde fonksiyon ozyineli bir sekilde arama yaparken ”o ana kadar bulunmus
en yakin k nokta” ve o noktalarin new_point’e olan en yakin mesafesi saklanir,
arama isleyisi sirasinda knn_matches, knn_matches_out surekli verilip geri don-
durulen degiskenlerdir, sozde programdaki P
in
, P
out
’un karsiligidirlar.
Arama algoritmasi soyle isler: simdi onceden olusturulmus kure hiyerarisisini
ustten alta dogru gezmeye baslariz. Her basamakta yeni nokta ile o kurenin mi-
henkini, yaricapini kullanarak bir ”alt sinir mesafe hesabi” yapariz, bu mesafe
hesabinin arkasinda yatan dusunceyi yazinin basinda anlatmistik. Bu mesafe
kure icindeki tum noktalara olan bir en az mesafe idi, ve eger eldeki knn_matches
uzerindeki simdiye kadar bulunmus mesafelerin en azindan daha az ise, o zaman
bu kure ”bakmaya deger” bir kuredir, ve arama algoritmasi bu kureden isleme
devam eder. Simdiye kadar bulunmus mesafelerin en azi knn_matches veri yapisi
icine min_so_far olarak saklaniyor, sozde programdaki D
sofar
.
Bu irdeleme sonrasi (yani vs kuresinden yola devam karari arkasindan) isleme iki
sekilde devam edilebilir, cunku bir kure iki turden olabilir; ya nihai en alt kurel-
erden biridir ve uzerinde gercek noktalar depolanmistir, ya da ara kurelerden
biridir (sona gelmedik ama dogru yoldayiz, daha alta inmeye devam), o zaman
fonksiyon yine ozyineli bir sekilde bu kurenin cocuklarina bakacaktir - her cocuk
icin kendi kendini cagiracaktir. Ikinci durumda, kurede noktalar depolanmistir,
artik basit lineer bir sekilde o tum noktalara teker teker bakilir, eldekilerden daha
yakin olani alinir, eldeki liste sismeye baslamissa (k’den daha fazla ise) en buyuk
8
noktalardan biri atilir [3], vs.
Daha alta inmemiz gereken birinci durumda yapilan iki cagrinin bir ozelligine
dikkat cekmek isterim. Yeni noktanin bu cocuklara olan uzakligi da olculuyor,
ve en once, en yakin olan cocuga dogru bir ozyineleme yapiliyor. Bu nokta cok
onemli: niye boyle yapildi? Cunku icinde muhtemelen daha yakin noktalarin
olabilecegi kurelere dogru gidersek, ozyineli cagrilarin teker teker bitip yukari
dogru cikmaya baslamasi ve kaldiklari yerden bu sefer ikinci cocuk cagrilarini
yapmaya baslamasi ardindan, elimizdeki knn_matches uzerinde en yakin nokta-
lari buyuk bir ihtimalle zaten bulmus olacagiz. Bu durumda ikinci cagri yapilsa
bile tek bir alt sinir hesabi o kurede dikkate deger hicbir nokta olamayacagini or-
taya cikaracak (cunku en iyiler zaten elimizde), ve ikinci cocuga olan cagrilar hic
alta inmeden pat diye geri donecektir, hic asagi inilmeyecektir.
Bu muthis bir kazanimdir: zaten bu stratejiye liteturde ”budamak (pruning)” adi
veriliyor, bu da cok uygun bir kelime aslinda, cunku agaclarla ugrasiyoruz ve
bir dugum (kure) ve onun altindaki hicbir alt kureye ugramaktan kurtularak o
dallarin tamamini bir nevi ”budamis” oluyoruz. Bir suru gereksiz islemden de
kurtuluyoruz bu arada, ve aramayi hizlandiriyoruz.
Mesafeler
Algoritmanin mesafeleri anlatan kisminda norm ve uzaylar gibi kavramlardan
bahsettik. Yeni noktanin mihenke olan uzakliginin o kure icindeki tum diger
noktalara olan uzakligini temsil edebilecegini soyledik: peki niye bu kavramlari
direk bu sekilde anlatmadik, ve norm, ucgensel esitsizlik gibi kavramlardan bah-
settik? Cunku 2 ve 3 boyut sonrasi uzaylari gorsel olarak dusunmek mumkun
degildir, istedigimiz kadar ellerimizi kollarimizi sallayalim, bu kavramlari gorsel
olarak tarif edemeyiz, ve degisik bir norm (mesafe) olcutu kullanmayi secebiliriz.
Bu her iki durumda da elimizde soyut matematik baglaminda saglam bir temel
oldugunu bilmek algoritmanin genelligini, ve degisik sartlarda uygulanabilirlig-
ini arttirir. Mesela Oklit mesafesi yerine Manhattan mesafesi kullansam bile, bu
mesafenin olcutunun norm kurallarini uydugunu bildigim icin kNN yapisinin
geri kalanini oldugu gibi kullanabilirim, cunku o yapinin gecerliligini normlar
uzerinde gecerli ucgensel esitsizlik uzerinde ispat ettim.
Model
kNN’in model kullanmayan, model yerine verinin kendisini kullanan bir algo-
ritma olarak tanittik. Peki “egitim” evresi sonrasi ele gecen kureler ve agac yapisi
bir nevi model olarak gorulebilir mi?
Bu onemli bir soru, ve bir bakima, evet agac yapisi sanki bir modelmis gibi du-
ruyor. Fakat, mesela istatistiksel, grafiksel, yapay sinir aglari (neural net) baglaminda
bakilirsa bu yapiya tam bir model denemez. Model bazli metotlarda model kuru-
lunca veri atilir, ona bir daha bakilmaz. Fakat kNN, kure ve agac yapisini hala el-
deki veriye erismek icin kullanmaktadir. Yani bir bakima veriyi “indeksliyoruz”,
ona erisimi kolaylastirip hizlandiriyoruz, ama ondan model cikartmiyoruz.
9
Not: Verilen Python kodu ve algoritma yakin noktalari hesapliyor sadece, onlarin
etiketlerinden hareketle yeni noktanin etiketini tahmin etme asamasini gercekle-
stirmiyor. Fakat bu son asama isin en basit tarafi, egitim veri yapisina eklenecek
bir etiket bilgisi ve siniflama sonrasi k noktanin agirlikli etiketinin hesabi ile basit
sekilde gerceklestirilebilir.
!python plot_circles.py
Agaci olusumu sirasinda kurelerin grafigi alttadir.
10
Kaynaklar, Notlar
[1] Liu, Moore, Gray, NewAlgorithms for Efficient High Dimensional Non-parametric
Classification
[2] Alpaydın, Introduction to Machine Learning
[3] Silme islemi ornek kodumuzda Python del ile gerceklestirildi. Eger bu islem
de hizlandirilmak istenirse, en alt kure seviyesindeki veriler bir oncelik kuyrugu
(priority queue) uzerinde tutulabilir, ve silme islemi hep en sondaki elemani siler,
ekleme islemi ise yeni elemani (hep sirali olan) listede dogru yere koyar.
11
Regresyon, En Az Kareler (Least Squares)
Bu makalede, yapay ¨ o˘ grenim (machine learning) konusunun amacından, motive
eden fakt ¨ orlerden bahsedece˘ giz, ve yapay ¨ o˘ grenimde istatistiki y¨ ontemler ve gra-
fik modelleri savunan/ye˘ gleyen bir ac¸ı ile yaklas¸maya c¸alıs¸aca˘ gız.
Yapay ¨ ogrenim, do˘ gada g¨ or ¨ ulen/g¨ ozlemlenen herhangi bir veriyi, veriden daha
ufak s¸ekilde temsil etmemize yardım eder. Ve bunları, g¨ ozlemlenen olay ic¸in net
bir matematiksel model olmadı ˘ gı zaman yapmaya u˘ gras¸ır. Modeli bilgisayara
olus¸turttuktan sonra, bu modeli kullanarak, di ˘ ger yapay ¨ o˘ grenim arac¸larını kul-
lanmaya bas¸layabiliriz: Bunlar k¨ umeleme (clustering), anormallik farketme (ano-
maly detection), regresyon (regression) ve ¨ ozellik sec¸me (feature selection) gibi
uygulamalardır.
Bu makalede x vekt ¨ or ¨ u bir boyuttaki girdiyi temsil etmek ic¸in, X c¸ok boyutlu
girdiyi temsil etmek ic¸in kullanılacak. Vekt ¨ or x’in b¨ ut ¨ un elemanları tek bir ¨ ozelli ˘ gi
¨ olc¸en b¨ uy¨ ukl ¨ ukler olarak kabul edelim, ve tersi belirtilmezse ba˘ gımsız ¨ ozdes¸c¸e
da˘ gılmıs¸ (iid) olarak g¨ orelim.
Regresyon Bazlı Y¨ ontemler
Model
Yapay ¨ o˘ grenim ic¸in uygun bir bas¸langıc¸ noktası, do˘ grusal regresyondur (linear
regression). Veri olarak alınan x ac¸ıklamak ic¸in, hedef is¸levi olarak e˘ grili ˘ gi ve
bas¸langıc¸ noktasını bilmedi ˘ gimiz bir do˘ gru olan f(x)’i ¨ o˘ grenmeye c¸alıs¸alım.
f(x; θ) =
N

i=1
θ
1
x
i

0
(1)
ki θ
0
ve θ
1
bilinmeyen de˘ gis¸kenleri temsil ediyorlar. Birc¸ok muhtemel f(x; θ) arasından
araya araya en optimal θ’yı bulmamız gerekiyor. Altta do˘ grusal regresyon grafini
goruyoruz.
˙
Ilk ¨ once (1)’i matris formuna c¸eviriyoruz, ki do˘ grusal cebir notasyonu kullan-
mamız m¨ umk¨ un olsun. Do˘ grusal cebir sayesinde, denklemi daha ileride c¸ok bo-
yutta is¸ler hˆ ale getirmek c¸ok basit olacak.
f(x; θ) =
N

i=1
_
1 x
i
¸
_
θ
0
θ
1
_
(2)
1
f(x; θ) =
_
¸
_
1 x
1
.
.
.
1 x
N
_
¸
_
_
θ
0
θ
1
_
(3)
(2)’de g¨ osterilen toplama dikkat edersek, (3) form¨ ul ¨ unden kayboldu˘ gunu g¨ orece˘ giz.
Toplamın yerine ilk matriste ek boyutlar geldi. Do˘ grusal cebirin biraz daha eklen-
mesi, t ¨ um form¨ ul ¨ u daha da temiz hˆ ale getirecektir.
f(X; θ) = Xθ
Arama is¸leminin sonuca varması ic¸in, hesaplanmıs¸ f(x; θ) ile verilen y’i kars¸ılas¸tırması
gerekir. Bu kars¸ılas¸tırmayı matematiksel olarak yapmanın kars¸ılı ˘ gı bir kayıp fonk-
siyonu (loss function) tanımlamaktır. Bu fonksiyon, bas¸arı/bas¸arısızlık kriteri-
mizi tanımladı ˘ gımız yer olacaktır. Diyelim ki kayıp kriteri (yˆ ani bizim o an eli-
mizde olan en iyi tahminin ne kadar yanlıs¸ oldu˘ gu) f(x; θ) is¸levinin sonucu ile,
veri olarak elimizde olan y’nin farkının karesi olsun. Bu kayıp fonksiyonunu baz
alarak, t ¨ um noktalar ic¸in bu hesabı yapıp sonucu toplarsak, t ¨ um riski hesaplamıs¸
oluruz.
R(θ) =
1
2N
|y −Xθ|
2
Not: 2 teriminin kullanılma sebebi, cebirsel is¸lemlerin ileri safhalarında
2
ile oto-
matikman iptal olması ic¸indir. Risk fonksiyonunu herhangi bir sayı ile c¸arpmak,
en alt (minima) noktasının nerede oldu˘ gunu de˘ gis¸tirmez.
Yapay ¨ o˘ grenim literat ¨ ur ¨ unde R(θ) fonksiyonu ¨ olc¸ ¨ umsel risk olarak bilinir. Bizim
amacımız R’yi minimize etmektir, ve bu s¸ekilde, ve aynı zamanda, en iyi θ’yı
aramaktır. Altta 3 boyutlu risk fonksiyonu grafigi.
Risk’in en az oldu˘ gu nokta, fonksiyon de˘ gis¸imin en az oldu˘ gu noktadır, bunu
analiz dersinden biliyoruz. Bu demektir ki, bu noktada R(θ)’nin gradyan sıfır ola-
caktır. Gradyan, R(θ)’nın b¨ ut ¨ un parc¸a t ¨ urevlerini (partial derivatives) vekt ¨ or ha-
lindeki s¸eklidir. Bir is¸levin gradyanını almanın sonucu elimize gec¸en vekt ¨ or, her
zaman o fonksiyonun, o noktadan hareketle en y¨ uksek de˘ gis¸imin/artıs¸ın/azalıs¸ın
olaca˘ gı y¨ on¨ u g¨ osterecektir. E˘ ger bu gradyan sıfır olmus¸ ise, demek ki bir tam ya-
tay d¨ uzleme geldik, ve hic¸ artıs¸ ve azalıs¸ imkanı kalmamıs¸.
Bazı c¸es¸it risk form¨ ullerinin t ¨ urevi cebirsel olarak c¸ ¨ oz¨ ulmesi zor bir sonuc¸ verebi-
lir. Bu gibi durumlarda, yaklas¸ıksal (approximate) tekniklerden birini kullanarak
hesaplamayı yapabiliriz: Bir bilgisayar programı ile gradyanın is¸aret etti ˘ gi y¨ one
do˘ gru y¨ ur¨ uyen bir y¨ ontemtakip ederiz. Bu sayede gradyanın sıfır oldu˘ gu b¨ olgeye
eris¸meye u˘ gras¸ırız. Program gradyan= 0 g¨ ord¨ u˘ g¨ u anda duracaktır.
¨
On¨ um¨ uzdeki
2
¨ ornek ic¸in c¸ıkardı ˘ gımız t ¨ urev, cebirsel olarak temiz olacak, o y¨ uzden yaklas¸ıksal,
algoritmik tekniklere s¸imdilik ihtiyacımız yok.

θ
R(θ) =
_
0
0
_

θ
_
1
2N
||y −Xθ||
2
_
= 0
1
2N

θ
_
(y −Xθ)
T
(y −Xθ)
_
= 0
1
2N

θ
__
y
T
−(Xθ)
T
_
(y −Xθ)
_
= 0
1
2N

θ
_
y
T
y −y
T
Xθ −(Xθ)
T
y +θ
T
X
T

_
= 0
˙
Ikinci ve ¨ uc¸ ¨ unc ¨ u terimler aslında birbirine es¸ittir, c¸ ¨ unk¨ u vekt ¨ or c¸arpım kural-
larına g¨ ore, u
T
v = v
T
u.
1
2N

θ
_
y
T
y −2y
T
Xθ +θ
T
X
T

_
= 0
1
2N
_
−2y
T
X +2θX
T
X
_
= 0
1
N
_
−y
T
X +θX
T
X
_
= 0
θX
T
X = y
T
X
θ =
_
X
T
X
_
−1
y
T
X
θ hesaplandıktan sonra, artık bu de˘ geri f(x; θ) ic¸ine koyabilir ve gelecekte bilin-
meyen verileri tahmin ic¸in kullanabiliriz.
Y¨ uksek Boyutlar
Do˘ grusal regresyon rahat bir s¸ekilde c¸ok boyutlu c¸alıs¸acak s¸ekilde uzatılabilir.
X =
_
¸
_
1 x
1
· · · x
1
(D)
.
.
.
.
.
.
.
.
.
.
.
.
1 x
N
· · · x
N
(D)
_
¸
_
(7)
R(θ) =
1
2N
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
_
y
1
.
.
.
y
N
_
¸
_
−X
_
¸
¸
¸
_
θ
0
θ
1
.
.
.
θ
D
_
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
2
Yeni risk hesabı, N veri de˘ geri ve D boyutu ic¸in kullanılabilir. θ hesabını ise gene
aynen (7) denklemi ¨ uzerinden gerc¸ekles¸tirebiliriz. Bu denklemden gelen sonuc¸,
N boyutlu bir hiper d¨ uzlemin hˆ am veriye en uygun (fit) hˆ ali olacaktır.
3
Baz Fonksiyonlar
E˘ gitimverisini modellemenin di ˘ ger bir yolu baz fonksiyonları olarak bilinen fonk-
siyonlardır. Bu y¨ ontem ile, bir polinom, sin¨ usyen (sin¨ us bazlı) ya da radyal bir
baz fonksiyon sec¸ilir, ve her veri noktası x
i∈N
, baz fonksiyonundan gec¸irtilerek
yeni bir x olus¸turulur. Bu noktadan sonra uygulanacak regresyon is¸lemi, N baz
fonksiyonunun en optimal hˆ aldeki toplamının bulunma is¸lemine d¨ on¨ us¸ecektir.
Baz fonksiyonları arasında en pop¨ uler olan radyal fonksiyonlardır, c¸ ¨ unk¨ u c¸ok
boyutlu veriyi modellememize izin verirler. Kars¸ılas¸tırma olarak polinom bazlı
fonksiyonlarda tek boyutun ¨ uzerine c¸ıkamayız.
Bir radyal baz fonksiyonu hesaplamak, bir bakıma her nokta yerine bir tepe fonk-
siyonu yerles¸tirmektir. Bu tepe s¸ ¨ oyle g¨ osterilir:
φ
i
(x) = exp
_

1

|x −x
i
|
2
_
ki x bir ya da c¸ok boyutlu olabilir. Tepenin genis¸li ˘ gi σ parametresi ile kontrol
edilir, ve regresyon is¸lemi bas¸lamadan modelci tarafından sec¸ilen bir de˘ gerdir.
Bundan sonra risk fonksiyonu s¸u hˆ ale gelecektir.
R(θ) =
1
2N
|y −Qθ|
2
ki Q de˘ geri s¸una es¸ittir:
_
¸
_
1 φ
0
(x
1
) · · · φ
D
(x
1
)
.
.
.
.
.
.
.
.
.
.
.
.
1 φ
0
(x
N
) · · · φ
D
(x
N
)
_
¸
_
Ve hˆ ala (7) denklemini regresyon ic¸in kullanabiliriz.
Regresyonun Bazı Sorunları
Regresyon metodunun en temel eksiklerinden birisi, hˆ am veriyi modellemek ic¸in
elimizde sa˘ glammatematiksel temelin olmamasıdır. Daha ¨ once g¨ ord¨ u˘ g¨ um¨ uz gibi
kayıp fonksiyonu rasgele sec¸tik. Kayıp fonksiyonu, uzaklı ˘ gın karesi oldu˘ gu gibi
k¨ up¨ u de rahatlıkla olabilirdi. Hangisi daha iyi bir sec¸imdir? Elimizdeki y¨ ontem
bu cevapları vermemektedir. Bazı ek yaklas¸ımlar bu sorunu e˘ gitimverisini, “e˘ gitim
b¨ ol ¨ um¨ u” ve “e˘ gitimin performansını kontrol b¨ ol ¨ um¨ u” olarak ikiye b¨ olerek d¨ uzelt-
meye u˘ gras¸tılar. Bu s¸ekilde ele gec¸en modellerden hangisinin daha iyi oldu˘ gu
¨ olc¸ ¨ umsel s¸ekilde bulunmaya u˘ gras¸ıldı. Fakat ideal olarak, her problem ic¸in tek
yaklas¸ımı takip etmek bizim ic¸in daha uygundur.
Ayrıca, regresyonu tekni ˘ gini sınıflandırma (classification) amac¸lı kullanmak bazı
problemleri beraberinde getirmektedir. Meselˆ a alttaki sekildeki en ideal sınıf ayrac¸
c¸izgisinin, kesikli olan c¸izgi oldu˘ gu bellidir.
Fakat, bu verideki en uzak sa˘ g ve sol noktalar, regresyon tarafından daha fazla
cezalandırılmakta, bu y¨ uzden uzaklıkları sebebiyle de˘ gerleri b¨ uy¨ uk oldu˘ gu ic¸in
regresyon c¸izgisi onlara daha fazla yakınlas¸maya c¸abalamaktadır. Bunun sonucu
4
da d¨ uz c¸izgi olarak g¨ or ¨ unen ayrac¸ olmaktadır. Bu soruna bir m¨ uhendislik c¸ ¨ oz¨ um¨ u bir
ezici/d¨ uzeltici (squashing) fonksiyonu kullanmaktır, b¨ oylece uzaktaki noktaların
cezalandırılmasının tersi gerc¸ekles¸tirilmeye u˘ gras¸ılır. Pop¨ uler d¨ uzeltici fonksi-
yonlardan biri g(z) = (1 + exp(−z))
−1
ve perceptron ins¸a etmek ic¸in kullanılan
sign fonksiyonudur.
Yapay Sinir A˘ gları
D¨ uzeltici fonksiyonların eklenmesi ile regresyon biraz daha is¸e yarar hˆ ale gelir.
Bunun da ¨ ust ¨ une, regresyonu de˘ gis¸ik seviyelerde birkac¸ kez yapar ve her se-
viyede de˘ gis¸ik d¨ uzeltici (ya da aynı) d¨ uzeltici fonksiyonlar kullanırsak, Alttaki
sekilde g¨ ord¨ u˘ g¨ um¨ uz daha c¸etrefilli ayrıcı problemleri c¸ ¨ ozmemiz m¨ umk¨ un ola-
caktır. Bu t ¨ ur yaklas¸ımlara a˘ ga benzer yapısı sebebiyle yapay sinir a˘ gları (neural
network) adı verilmis¸tir.
D¨ uzeltici fonksiyonların a˘ g yapısına eklenmesiyle birlikte, gradyan y¨ ontemini
kullanarak p¨ ur cebirsel olarak en alt noktayı bulmak zorlas¸ır. Bu y¨ uzden yaklas¸ıksal
y¨ ontemler kullanmaya mecbur oluyoruz. Bu y¨ ontemlerden biri gradyan inis¸i (gra-
dient descent) adı verilen bir y¨ ontemdir. C¸ ok katmanlı bir yapay sinir a˘ g ic¸in
gradyan inis¸i her katmana sırayla uygulanır, ki YSAe˘ gitmekte kullanılan ¨ unl ¨ u BACKP-
ROP algoritmasının altında yatan temel fikir budur. BACKPROP birc¸ok uygu-
lama alanında bas¸arı ile kullanılmıs¸tır.
Bu ek g¨ uc ¨ une ra˘ gmen, YSA’nın bazı limitasyonları hˆ alen mevcuttur.
¨
Oncelikle
YSA’ların matematiksel analizi zor olmaktadır. A˘ g yapısına yeni bir katman ek-
ledi ˘ gimizde bunun sonuc¸larının ne olaca˘ gını hˆ alen bilmiyoruz. Ayrıca analiz bir
tarafa, YSA ile c¸ ¨ oz¨ ulmesi m¨ umk¨ un olmayan problemler de mevcuttur. Meselˆ a
x
2
+ y
2
= 1 form¨ ul ¨ un¨ u ¨ o˘ grenmek bunlardan biridir c¸ ¨ unk¨ u, bu form¨ ul bir fonk-
siyon de˘ gil, bir ili¸ skidir. Di ˘ ger bir ¨ unl ¨ u problem balistikten G¨ ulle Atmanın Ac¸ısı
ve Uzaklı ˘ gı problemidir ve regresyon bazlı bir y¨ ontem kullanarak c¸ ¨ ozmek im-
kansızdır. Bu t ¨ ur problemler en rahat s¸ekilde Bayes A˘ gları gibi bir istatistiki yaklas¸ım
ile c¸ ¨ oz¨ ulebilir.
˙
Istatistiki Yaklas¸ım
5
Giris¸
˙
Istatistiki yaklas¸ım, veriyi daha iyi ve kesin ¨ ozetleyebilmemizi sa˘ glar.
˙
Iki boyutlu
bir veri ic¸in regresyon yapınca, bilinmeyen bir do˘ grunun sadece ac¸ısını ¨ o˘ grenmis¸
oluyoruz.
˙
Istatistiki yaklas¸ım ile bir Gauss Normal da˘ gılımın parametrelerini ve-
riden c¸ıkartınca, elimize gec¸enler merkez nokta µ (ortalama), da˘ gılımın genis¸li ˘ gi
σ (varyans), ve elipsin ac¸ısı Σ (kovaryans) olacaktır.
˙
Istatistiki yaklas¸ım, aynı za-
manda, olasılık kuramının b¨ ut ¨ un arac¸larını kullanmamıza imkan verdi ˘ gi ic¸in, alt-
yapı daha sa˘ glam olacaktır, ve b¨ oylece rasgele y¨ ontemlere daha az bas¸vurmus¸
olaca˘ gız, ve ileride modeli analiz etmemiz kolaylas¸acak.
Metot
Olasılık modellerinde, tek bir parametreyi ¨ o˘ grenmek yerine, o parametrenin ¨ ust ¨ unden
tanımlanan bir da˘ gılımı ¨ o˘ greniyoruz. Yˆ ani y yerine p(y) kullanıyoruz. Di ˘ ger ta-
raftan, eski y¨ ontemde p(y) yerine y kullanmak, b¨ ut ¨ un a˘ gırlı ˘ gı tek bir noktada
toplanmıs¸ bir da˘ gılım ¨ o˘ grenmek ile aynı s¸ey oluyor.
Bir da˘ gılıma birden fazla bilinmeyen eklemenin sonucu elimize bir ortak da˘ gılım
(joint distribution) gec¸mesidir. Ayrıksal (discrete) s¸artlarda ortak da˘ gılımbir tablo
olarak g¨ osterilebilir ve belli (sonlu) sayıda elemanı vardır.
Rasgele (random) de˘ gis¸kenler arasındaki ba˘ gımlılık ve ba˘ gımsızlık da ortak da˘ gılım
tablo b¨ uy¨ ukl ¨ u˘ g¨ unde etkileyici bir fakt ¨ ord¨ ur. E˘ ger iki olayın, ve bu sebeple bu
olayların rasgele de˘ gis¸kenlerinin arasında bir ilis¸ki var ise, modelimizin bu ilis¸kiyi
yansıtması isabetli olacaktır. Fakat basitles¸tirmek ic¸in (meselˆ a) b¨ ut ¨ un de˘ gis¸kenlerin
arasında bir ilis¸ki kuracak olsaydık, bunun sonucu tablomuzun b¨ uy¨ ukl ¨ u˘ g¨ unde
¨ ustel bir patlama olurdu.
¨
Ornek olarak D bilinmeyenli ve hepsi birbiri ile ilis¸kili
rasgele de˘ gis¸kenler ¨ ust ¨ unden bir da˘ gılımın tablo b¨ uy¨ ukl ¨ u˘ g¨ u 2
D
iken, b¨ ut ¨ un ras-
gele de˘ gis¸kenler birbirinden ba˘ gımsız oldu˘ gu durumda ise b¨ uy¨ ukl ¨ uk 2D’a ine-
cektir.
Bu y¨ uzden verimli bir y¨ ontem s¸ ¨ oyle olabilir: 2D, yˆ ani tam ba˘ gımsızlık ile bas¸larız
ve ba˘ gımlılık ilis¸kisini yavas¸ yavas¸ modele tanıs¸tırırız. De˘ gis¸kenler arasındaki
ba˘ gımlılık ilis¸kisi p(y|x) olarak g¨ osterilir, ve okunus¸u“x verildi ˘ ginde y’nin olasılı ˘ gı”
olarak tanımlanır. Ortak da˘ gılım p(x, y) = p(y|x)p(x) olarak bilinir ve bu es¸itlik
olasılık kuramından iyi bilinen bir es¸itliktir. C¸ ok bilinmeyen ic¸eren bir problemde
b¨ ut ¨ un ba˘ gımlılıkların form¨ ul olarak yazılması karıs¸ık olabilece˘ ginden, genelde
c¸izit notasyonu kullanılır. Alttaki sekilde g¨ or ¨ ulen ortak da˘ gılım p(x, y, z), b¨ ut ¨ un
olasılıkların c¸arpımına es¸ittir, yˆ ani p(x)p(y|x)p(z|x).
Dikkat edilirse, bu modele g¨ ore p(x, y, z) ortak da˘ gılımı p(x)p(y)p(z) c¸arpımına
es¸it de˘ gildir. Bu sonuc¸ sadece ve sadece b¨ ut ¨ un de˘ gis¸kenler birbirinden ba˘ gımsız
ise ortaya c¸ıkacaktır.
6
Olasılık da˘ gılımlarını kullanırken, modelin bilinmeyenlerini, yˆ ani parametrele-
rini bile bir rasgele de˘ gis¸ken olarak g¨ osterebilirsiniz. B¨ oylece di ˘ ger rasgele de˘ gis¸kenler
ile bu t ¨ ur de˘ gis¸kenler arasında ba˘ gımlılık ilis¸kisi kurulabilir. Meselˆ a, alttaki sekil-
deki noktaları sınıflandırma ¨ orne˘ ginden bas¸layalım.
Bu ¨ ornekte, x ∈ R
D
girdi verisidir, ve y ∈ {0, 1} de sonuc¸tur. De˘ gis¸ken y ikili
sistemde oldu˘ gu ic¸in, bu da˘ gılımı bir Bernoulli Da˘ gılımı olarak modelleyebiliriz.
p(y
i
|α) = α
y
i
(1 −α)
1−y
i
ki i = 1...N. Bir da˘ gılım tablosu yerine da˘ gılım form¨ ul ¨ u kullanmak bize da˘ gılımı
cebirsel olarak manip¨ ule etme avantajını sa˘ glar. Bu sayede form¨ ul ¨ u En B¨ uy¨ uk
Olabilirlik (MaximumLikelihood) gibi bir metoda girdi olarak verebiliriz, form¨ ul ¨ un
t ¨ urevini alabiliriz, vs.
X’leri temsil etmek ic¸in Gaussian da˘ gılımını sec¸ece˘ giz.
p(x
i
|y
i
, µ, Σ) = N(x
i

y
, Σ
y
) (11)
Ortak da˘ gılım da alttaki gibi g¨ oz¨ ukecektir.
G¨ ord¨ u˘ g¨ um¨ uz gibi µ, α, Σde˘ gis¸kenleri de rasgele de˘ gis¸keni hˆ aline getirildi. Grafi˘ ge
bakarak cebirsel ortak da˘ gılımı p(x, y, µ, α, Σ) s¸ ¨ oyle g¨ osterebiliriz.
p(y|α)p(x|y, µ, Σ)p(Σ)p(µ)p(α) (12)
Sınıflandırma amacımıza eris¸ebilmek ic¸in (12) form¨ ul ¨ un¨ u, p(x, y|α, µ, Σ) sorusunu
cevaplandırabilen bir hˆ ale getirmeliyiz. Olasılık kuramından bilinen bir de˘ gis¸im
ile p¨ ur cebirsel olarak s¸ ¨ oyle devam edebiliriz.
p(x, y|α, µ, Σ) =
p(x, y, α, µ, Σ)
p(α)p(µ)p(Σ)
(13)
7
S¸imdi (13)’deki b¨ ol ¨ uneni, grafik modelden gelen ortak da˘ gılım(12) ile de˘ gis¸tirece˘ giz.
p(x, y|α, µ, Σ) =
p(y|x)p(x|y, µ, Σ)p(α)p(µ)p(Σ)
p(α)p(µ)p(Σ)
= p(y|x)p(x|y, µ, Σ) (14)
E˘ gitim (hˆ am) verisine en uygun olan parametreleri bulmak ic¸in, En B¨ uy¨ uk Olabi-
lirlik y¨ ontemini kullanaca˘ gız. Bu metoda g¨ ore (14) form¨ ul ¨ un¨ un her Nveri noktası
ile hesabından sonra birbiri ile c¸arparız. O zaman, bilinmeyen parametrelerin en
iyi hesapsal tahmini (estimation), bu s ¨ uper ortak da˘ gılımın en y¨ uksek oldu˘ gu
noktada bulunabilir.
Olabilirlik =
N

i=1
p(y|x)p(x|y, µ, Σ) (15)
Olabilirli ˘ gin en y¨ uksek oldu˘ gu nokta, olabilirlik form¨ ul ¨ un¨ un t ¨ urevinin sıfır oldu˘ gu
noktadadır.
˙
Ileride yapılacak t ¨ urev alma is¸lemini rahatlatmak ic¸in, (15) ic¸indeki terimlerin
log’unu alırız. Bu is¸lem, c¸arpım is¸aretini toplam is¸aretine d¨ on¨ us¸t ¨ urecektir. Bunu
yapmamız en y¨ uksek noktayı bulma ac¸ısından bir fark yaratmaz, c¸ ¨ unk¨ u (15)
form¨ ul ¨ un¨ un de˘ gis¸im hızı, toplamlı olan form¨ ul ¨ unkiyle aynıdır.
l =
N

i=1
log(p(y
i
|x
i
)) +
N

i=1
log(p(x
i
|y
i
, µ, Σ))
Son terimi iki toplama c¸evirebiliriz. Bunun ic¸in y ¨ uzerinden ¨ ozetlemeyi (margi-
nalize) iki parc¸a halinde, y’nin m¨ umk¨ un her de˘ geri ic¸in yapaca˘ gız.
l =
N

i=1
log(p(y
i
|α)) +

y
i
∈0
log(p(x
i

0
, Σ
0
)) +

y
i
∈1
log(p(x
i

1
, Σ
1
)) (16)
S¸imdi, olabilirli ˘ gin gradyanını α, Σ, µ’a g¨ ore (ayrı ayrı) alırsak ve bu sonuc¸ form¨ ulleri
sıfıra es¸itleyip c¸ ¨ ozersek, elimize gec¸en parametre de˘ gerleri veriyi ac¸ıklayan en
m¨ umk¨ un parametre de˘ gerleri olacaktır.
¨
Ornek olarak
∂l
∂α
gradyanını alalım. Parc¸alı
t ¨ urevi α’ya g¨ ore aldı ˘ gımız ic¸in, birincisi haric¸ (16) ic¸indeki b¨ ut ¨ un terimler yoko-
lur. Sonuc¸ olarak s¸u olur:
∂l
∂α
=

∂α
N

i=1
log(p(y
i
|α))
0 =

∂α
N

i=1
log
_
α
y
i
(1 −α)
1−y
i
_
0 =

∂α
N

i=1
y
i
log(α) +(1 −y
i
) log(1 −α)
Problemalanından bildi ˘ gimiz ¨ uzere, bazı y
i
’ler 0 olacak, bazılari ise 1. Sıfır de˘ gerler
y
i
log(α)’yi iptal edecektir, bir de˘ gerleri de (1 −y
i
) log(1 −α)’i iptal edecektir. O
8
zaman, y
i
’leri form¨ ulden yoketmek ic¸in t ¨ um form¨ ul ¨ u s¸ ¨ oyle de˘ gis¸tirebiliriz.
0 =

∂α
_

i∈class1
log(α) +

i∈class0
log(1 −α)
_
0 =

i∈class1
1
α

i∈class0
1
1 −α
E˘ ger N
0
de˘ gis¸kenini 0 sınıfında olan i’ların toplamı, N
1
’i 1 sınıfında olan i’ların
sayısı olarak alırsak
0 =
N
1
α

N
0
1 −α
α =
N
1
N
1
+N
0
=
N
1
N
olur. Bu sonuc¸, y
i
= 1 olan y
i
’leri, toplam veri noktası sayısına b¨ ol ¨ unce α’nın
bulunabilece˘ gi s¸eklindeki ¨ onseziyi de desteklemis¸ oluyor. Bunu tahmin de ede-
bilirdik, ama bu ¨ onsezinin En B¨ uy¨ uk Olurluk y¨ ontemi tarafından matematiksel
olarak do˘ grulanmıs¸ olması daha rahatlatıcı oldu.
Di ˘ ger bilinmeyenler µ
0
, µ
1
, Σ
0
, Σ
1
ic¸in benzer y¨ ontemi takip edebiliriz. (16)’in t ¨ ure-
vini bilinmeyen rasgelen de˘ gis¸kene g¨ ore alırız, sıfıra es¸itleriz ve c¸ ¨ ozeririz. Bu
is¸lemyer darlı ˘ gı sebebiyle burada g¨ osterilmeyecektir. Bu is¸lemlerin sonunda form¨ ul
(11)’deki t ¨ um bilinmeyenleri bulabiliriz. (11)’i daha ¨ once bulunmus¸ olan p(y) ile
kullanınca, (14)’u nihayet sınıflama ic¸in kullanmamız m¨ umk¨ un olacaktır. Yapay
¨
O˘ grenim literat ¨ ur ¨ unde p(y), ilk tahmin (prior guess) olarak da bilinir.
Sınıflama
Sınıflama ic¸in bir form¨ ul daha t ¨ uretmemiz gerekiyor: p(y|x). Bu form¨ ul, sonraki
tahmin (posterior) olarak bilinir, ve bilindikten sonra bize verilen ve sınıflandırılmamıs¸
yeni veri x’i p(y|x = yenideger) s¸eklinde bu form¨ ulden gec¸iririz, ve y’nin olurlu˘ gunu
hesaplarız.
S¸imdi sonraki tahmin, p(y|x)’i t ¨ uretelim. Olasılık kuramından,
p(y|x) =
p(x, y)
p(x)
Bunun is¸lemesi ic¸in p(x)’e ihtiyacımız var. p(x, y)’i alalım, ve y ¨ uzerinden ¨ ozetle-
yelim.
p(y|x) =
p(x, y)

y
p(x, y)
=
p(x, y)
p(x, y = 0) +p(x, y = 1)
Artık sınıflama is¸lemi, p(y = 1|x) ve p(y = 0|x) form¨ ullerini ayrı ayrı hesapla-
maktan ibarettir. Hangi olasılık daha b¨ uy¨ uk ise, o y de˘ geri x’in ait oldu˘ gu sınıf
9
olacaktır.
Kaynaklar
C. Bishop Neural Networks for Pattern Recognition, Oxford University Press, 1995.
R. O. Duda, P. E. Hart & D. G. Stork Pattern Classification (2nd ed), Wiley, 2000.
M. Jordan, C. Bishop, Introduction to Graphical Models (Online), not yet published.
T. Mitchell, Machine Learning, McGraw-Hill, 1997.
10
K-Means Kumeleme Metodu
Yapay Ogrenim (Machine Learning) alaninda populer kumeleme algoritmalarin-
dan biri k-means algoritmasidir. K-means kumelemesinde kac tane kumenin ol-
masi gerektigi bastan tanimlanir (k parametresi ile), algoritma bunu kendisi bul-
maz. Metotun geri kalani basit - bir dongu (iteration) icinde her basamakta:
1) Her nokta icin, eldeki kume merkezleri teker teker kontrol edilir ve o nokta en
yakin olan kumeye atanir
2) Atamalar tamamlandiktan sonra her kume icinde hangi noktalarin oldugu
bilindigi icin her kumedeki noktalarin ortalamasi alinarak yeni kume merkezi
hesaplanir. Eski merkez hesaplari atilir.
3) Basa donulur
Dongu tekrar ilk adima dondugunde, bu sefer yeni kume merkezlerini kullanila-
rak, ayni adimlar tekrar yapilacaktir.
Fakat bir problem yok mu? Daha birinci dongu baslamadan kume merkezlerinin
nerede oldugunu nereden bilecegiz? Burada bir tavuk-yumurta problemi var,
kume merkezleri olmadan noktalari atayamayiz, atama olmadan kume merkez-
lerini hesaplayamayiz.
Bu probleme pratik bir cozumilk basta kume merkezlerini (ya da kume atamalar-
ini) rasgele bir sekilde secmektir. Pratikte bu yontem cok iyi isliyor. Tabii bu
rasgelelik yuzunden K-means’in dogru sonuca yaklasmasi (convergence) garanti
degildir, ama gercek dunya uygulamalarinda cogunlukla kullanisli kumeler bu-
lunur. Bu potansiyel problemlerden kacinmak icin k-means pek cok kez isletilebilir
(her seferinde yeni rasgele baslangiclarla yani) ve ayni sonuca ulasilip ulasil-
madigi kontrol edilebilir.
Pek en iyi k nasil bulunur? SVD kullanarak grafige bakmak (bu yazinin sonunda
anlatiliyor) mesela, fakat en iyisi K-Means yerine GMM kulanmak! Bkz. alttaki
referans.
K-Means EM algoritmasinin bir turevi olarak kabul edilebilir, EM kumeleri bir
Gaussian (ya da Gaussian karisimi) gibi gorur, ve her basamakta bu dagilim-
larin merkezini, hem de kovaryansini hesaplar. Yani kumenin ”sekli” de EM
tarafindan saptanir. Ayrica EM her noktanin tum kumelere olan uyeliklerini
”hafif (soft)” olarak hesaplar (bir olasilik olcutu uzerinden), fakat K-Means icin
bu atama nihai (hard membership). Nokta ya bir kumeye aittir, ya da degildir.
EM’in belli sartlarda yaklasiksalligi icin matematiksel ispat var. K-Means akilli
tahmin yaparak (heuristic) calisan bir algoritma olarak biliniyor. Sonuca yaklas-
masi bu sebeple garanti degildir, ama daha once belirttigimiz gibi pratikte fayda-
lidir. Bir suru alternatif kumeleme yontemi olmasina ragmen hala K-Means’den
vazgecilemiyor! Burada bir etken de K-Means’in cok rahat paralelize edilebilmesi.
Bu konu baska bir yazida islenecek.
Ornek test verisi altta
1
import pandas as pd
data = pd.read_csv("synthetic.txt",names=[’a’,’b’],sep=" ")
print data.shape
data = np.array(data)
(3000, 2)
plt.scatter(data[:,0],data[:,1])
plt.savefig(’kmeans_1.png’)
def euc_to_clusters(x,y):
return np.sqrt(np.sum((x-y)
**
2, axis=1))
class KMeans():
def __init__(self,n_clusters,n_iter=10):
self.k = n_clusters
self.iter = n_iter
def fit(self,X):
# her veri noktasi icin rasgele kume merkezi ata
labels = [random.randint(0,self.k-1) for i in range(X.shape[0])]
self.labels_ = np.array(labels)
self.centers_ = np.zeros((self.k,X.shape[1]))
for i in range(self.iter):
# yeni kume merkezleri uret
for j in range(self.k):
# eger kume j icinde hic nokta yoksa, ortalama (mean)
# hesabi yapma, cunku o zaman nan degeri geliyor, ve
# hesabin geri kalani bozuluyor.
if len(X[self.labels_ == j]) == 0: continue
center = np.mean(X[self.labels_ == j],axis=0)
self.centers_[j,:] = center
# her nokta icin kume merkezlerine gore kume atamasi yap
self.labels_ = []
for point in X:
c = np.argmin(euc_to_clusters(self.centers_, point))
self.labels_.append(int(c))
self.labels_ = np.array(self.labels_)
2
cf = KMeans(k=5,iter=20)
cf.fit(data)
print cf.labels_
[3 3 3 ..., 2 2 2]
Ustteki sonucun icinde iki ana vektor var, bu vektorlerden birincisi icinde 2,0, gibi
sayilar goruluyor, bu sayilar her noktaya tekabul eden kume atamalari. Ikinci
vektor icinde iki boyutlu k tane vektor var, bu vektorler de her kumenin merkez
noktasi. Merkez noktalarini ham veri uzerinde grafiklersek (kirmizi noktalar)
plt.scatter(data[:,0],data[:,1])
plt.hold(True)
plt.ylim([30000,70000])
for x in cf.centers_: plt.plot(x[0],x[1],’rd’)
plt.savefig(’kmeans_2.png’)
Goruldugu gibi 5 tane kume icin ustteki merkezler bulundu. Fena degil. Eger 10
dersek
cf = KMeans(k=10,iter=30)
cf.fit(data)
plt.scatter(data[:,0],data[:,1])
plt.ylim([30000,70000])
plt.hold(True)
for x in cf.centers_: plt.plot(x[0],x[1],’rd’)
plt.savefig(’kmeans_3.png’)
3
Kategorik ve Numerik Iceren Karisik Veriler
Bazen verimiz hem kategorik hem de numerik degerler iceriyor olabilir, KMeans
yeni kume merkezlerini hesaplarken ortalama operasyonu kullandigi icin sadece
numerik veriler uzerinde calisabilir (kategorik verilerin nasil ortalamasini alalim
ki?). Bu durumda ne yapacagiz?
Bir secenek su olabilir, kategorik her kolonu her degisik degeri bir yeni kolona
tekabul edecek sekilde saga dogru acariz, ve o degerin yeni kolonuna 1 degeri
digerlerine 0 degeri veririz. Bu kodlamaya 1-in-q kodlamasi, 1-in-n kodlamasi,
ya da Ingilizce one-hot encoding ismi veriliyor.
Ornek olarak UCI veri bankasindan Avustralya Kredi Verisine bakalim:
import pandas as pd
df = pd.read_csv("crx.csv")
print df[:2]
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16
0 b 30.83 0.00 u g w v 1.25 t t 1 f g 00202 0 +
1 a 58.67 4.46 u g q h 3.04 t t 6 f g 00043 560 +
Bu veride A1, A2, gibi kolon isimleri var, kategorik olanlarda ’g’,’w’ gibi degerler
goruluyor. Bu kolonlari degistirmek icin
from sklearn.feature_extraction import DictVectorizer
def one_hot_dataframe(data, cols):
vec = DictVectorizer()
mkdict = lambda row: dict((col, row[col]) for col in cols)
vecData = pd.DataFrame(vec.fit_transform(data[cols].to_dict(outtype=’records’)).toarray())
vecData.columns = vec.get_feature_names()
vecData.index = data.index
data = data.drop(cols, axis=1)
data = data.join(vecData)
return data
df2 = one_hot_dataframe(df,[’A1’,’A4’,’A5’,’A6’,’A7’,’A9’,’A10’,’A12’,’A13’])
print df2.ix[0]
4
A2 30.83
A3 0
A8 1.25
A11 1
A14 00202
A15 0
A16 +
A10=f 0
A10=t 1
A12=f 1
A12=t 0
A13=g 1
A13=p 0
A13=s 0
A1=? 0
A1=a 0
A1=b 1
A4=? 0
A4=l 0
A4=u 1
A4=y 0
A5=? 0
A5=g 1
A5=gg 0
A5=p 0
A6=? 0
A6=aa 0
A6=c 0
A6=cc 0
A6=d 0
A6=e 0
A6=ff 0
A6=i 0
A6=j 0
A6=k 0
A6=m 0
A6=q 0
A6=r 0
A6=w 1
A6=x 0
A7=? 0
A7=bb 0
A7=dd 0
A7=ff 0
A7=h 0
A7=j 0
A7=n 0
A7=o 0
A7=v 1
A7=z 0
A9=f 0
A9=t 1
Name: 0, Length: 52, dtype: object
Islem sonucunda A12=f mesela icin 1 verilmis, ama A12=t (ve diger her mumkun
5
deger icin yani) 0 degeri verilmis (sadece bu tek satir icin). Boylece kategorik
veriyi sayisal hale cevirmis olduk.
Fakat isimiz bitti mi? Hayir. Simdi KMeans bu tur veriyle acaba duzgun cal-
isir miydi onu kendimize soralim. Icinde pek cok 0, bazen 1 iceren veri satirlari
arasinda uzaklik hesabi yapmak ise yarar mi?
Yapay Ogrenim literaturunde bu tur veriler uzerinde kosinus benzerligi (cosine
similarity) kullanmak daha yaygindir. Bu konuyu SVD, Toplu Tavsiye yazisinda
daha iyi gorebilirsiniz. Kosinus benzerligi bize 0 ile 1 arasinda bir deger don-
durur. Benzerligi uzakliga cevirmek icin basit bir sekilde 1-benzerlik formulunu
kullanabiliriz. O zaman soyle bir cozum kullanabilir: normal numerik degerler
icin Oklitsel, kategorik 1-hot kodlanmis kolonlar icin Kosinus uzakligi kullanilir,
bu uzakliklar bazi agirliklar uzerinden birlestirilir, ve KMeans bu uzaklik ile is
yapar. Teknik olarak imkansiz degil; KMeans merkez bulmak icin ortalama alir
ve Kosinus uzakliginin verdigi aradaki aci, ortalama alma islemi ile uyumludur.
Yani icinde hem Oklitsel hem 1-hot kodlanmis verilerin oldugu vektorlerin orta-
lamasini alabiliriz, demek ki KMeans isleyebilir.
Problemsudur, iki uzakligi birlestiren agirliklar ne olmalidir? Bu yontemi denedigimizde
bu agirliklarin ne secildiginin cok onemli oldugunu farkettik, ve kumeleme gibi
izlenmeyen (unsupervised) bir yontemde bu hiperparametreleri deneme / yanilma
yontemi ile bulma sansimiz yoktur.
Bu durumda kullanilabilecek bir yontem sudur: SVD kullanarak tum matrisi
azaltmak ve onun uzerinde pur Oklitsel uzakliklar kullanmak. Numerik ve kate-
gorik karisik verileri iceren verileri kumelemek icin tavsiye edilen yontem sudur:
1) Kategorik veriler uzerinde 1-hot kodlama yap.
2) Once kolonlari sonra satirlari normalize et.
3) Tum matris uzerinde cok kucuk olmayan bir k ile SVD al (mesela alttaki veri
seti icin once 10)
4) S vektorune bak, ortalamadan buyuk olan kac tane hucre oldugunu gor.
5) Bu sayi yeni k degerimiz olacak, SVD’yi tekrar bu k ile islet.
6) Elde edilen U uzerinde kumeleme yap,
from sklearn.preprocessing import normalize
6
import scipy.sparse.linalg as slin
import scipy.linalg as lin
import pandas as pd
df = pd.read_csv("crx.csv",sep=’,’,na_values=[’?’])
df = df.dropna()
df[’A16’] = df[’A16’].str.replace(’+’,’1’)
df[’A16’] = df[’A16’].str.replace(’-’,’0’)
df[’A16’] = df[’A16’].astype(int)
df2 = one_hot_dataframe(df,[’A1’,’A4’,’A5’,’A6’,’A7’,’A9’,’A10’,’A12’,’A13’])
df2 = df2.drop(’A16’,axis=1)
df2 = np.array(df2)
df3 = df2.copy()
df3 = normalize(df3, norm=’l2’, axis=0)
df3 = normalize(df3, norm=’l2’, axis=1)
u,s,v=slin.svds(df3,k=10)
print s
[ 4.45826083 4.49654025 4.68382638 4.93391665 4.98604314
5.153349 5.63521289 5.70490968 6.68558115 14.81145675]
Bakiyoruz, averajdan yuksek olan en buyuk sadece iki kolon var. SVD literatu-
runde bu kolonlarin matrisin “enerjisini” icerdigi soylenir, hakikaten eger SVD
ayristirma sonrasi bu ilk kolona bu kadar onem verdiyse, onlar onemli, “enerjiyi
iceriyor” olmalidirlar. Simdi SVD’yi k = 2 ile tekrar isletiyoruz,
u,s,v=slin.svds(df3,k=2)
print s
[ 6.68558115 14.81145675]
Simdi U uzerinde kumeleme yapacagiz, ve kontrol icin kenara koydugumuz bili-
nen etiketler uzerinden kumeleme basarimizi olcecegiz. Avustralya Kredi Verisi
aslinda izlenen (supervised) algoritmalar icin kullanilir, ama biz onu izlenmeyen
kumeleme problemi icin kullandik, bilinen etiketleri veri icinden cikartip bir ke-
nara koyuyoruz, ve sonra kumeleme tahmini yaparak bu etiketlerle olan uyumu
olcuyoruz.
clf = KMeans(n_clusters=2)
clf.fit(u)
labels_true = np.array(df[’A16’])
labels_pred = clf.labels_
match = np.sum((labels_true == labels_pred).astype(int))
print float(match)/len(df), 1-float(match)/len(df)
0.217457886677 0.782542113323
Basari yuzde %78. Cok iyi. Ustteki ornek kume sayisinin (dikkat SVD k’sinden
farkli) bilindigini farz etti. Bazi durumlarda kume sayisini grafiksel olarak gormek
mumkundur (ama en iyisi Gaussian Karisim Modeli kullanip mumkun K’leri
AIC ile test etmek, bkz Istatistik, GMM ile Kumelemek yazisi).
7
Mesela ustteki veri seti icin ortalamayi cikartip varyansa bolersek ve SVD isle-
tirsek en buyuk iki U kolonun grafigi alttaki gibi cikiyor,
Eger rasgele yansitma (random projection) kullansaydik ne olurdu? Bu islemi
birkac kez yapalim ki rasgele matris Omega degisik sekillerde (ama hala rasgele)
uretilince sonuc degisir miydi gorelim.
import numpy.random as rand
for i in range(5):
Omega = rand.randn(df3.shape[1],30)
u = np.dot(df3,Omega)
clf = KMeans(n_clusters=2)
clf.fit(u)
labels_true = np.array(df[’A16’])
labels_pred = clf.labels_
match = np.sum((labels_true == labels_pred).astype(int))
print float(match)/len(df), 1-float(match)/len(df)
0.436447166922 0.563552833078
0.258805513017 0.741194486983
0.367534456355 0.632465543645
0.390505359877 0.609494640123
0.456355283308 0.543644716692
Goruldugu gibi bazen cok iyi sonuclar aliyor olsak bile bazen cok kotu sonuclar
da alabiliyoruz. Demek ki bu veri setinde SVD teknigi daha basarili.
Bazi ek notlar
[2] nbviewer.ipython.org/url/cbcb.umd.edu/
˜
hcorrada/PML/src/kmeans.
ipynb
[3] https://archive.ics.uci.edu/ml/datasets/Statlog+%28Australian+
Credit+Approval%29
8
Paralel KMeans, Hadoop
K-Means algoritmasini nasil paralel sekilde isletiriz? Ozellikle Hadoop gibi bir
Esle-Indirge (Map-Reduce) ortamini dusunelim. Veri cok buyuk olcekte olabilir
ve bu veriler birden fazla makinaya bolunecektir. Esle-Indirge kavraminda es-
leme safhasinda ”anahtar uretiriz”, ve sonra indirgeme safhasinda Hadoop sis-
temi oyle kurmustur ki ayni anahtarlarlar tek bir makinaya gonderilir, ve bu nihai
asamada artik anahtar bazinda indirgeme (ozetleme) yapilir.
Paralel K-Means icin anahtar nedir? Anahtar, mesela kume olabilir. Yani kume 1,
kume 2 gibi kume isaretleri / sayilari anahtar olarak kullanilabilirler.
Peki anahtar ile eslenecek ”deger” nedir?
Oyle bir deger ariyoruz ki ust uste konulabilecek bir sey olmali, EI sisteminin
kuvveti burada, anahtarlar farkli noktalarda uretilebiliyor, sonra tek noktada ust
uste konuyor, o zaman degerler oyle uretilmeli ki bu ust uste koyma, ozetleme
islemi yapilabilsin.
Ust uste konabilecek sey kumeye (anahtar) ait olan veri noktasi olabilir, yani bas-
basyagi veri noktasinin kendisi deger olabilir. Normal K-Means’i hatirlarsak, her
nokta icin o noktaya en yakin kumeyi buluyordu ve sonra, atama islemi bit-
ince, her kumenin altindaki noktalarin toparlayip, onlarin ortalamasini alarak
yeni kume merkezini hesapliyordu. Bu ortalama islemi ust uste konabilecek bir
sey, cunku toplama oyle bir islem, ve / yani farkli makinalarda kume-nokta, es-
lemelerini uretirsek, indirgeme asamasinda o anahtar icin tumdegerleri toplayip,
nokta sayisina boleriz ve yeni kume merkezini elde ederiz.
Simdi Hadoop ile ilgili bazi lojistik konulara gelelim:
Eger esleme safhasinda her nokta icin en yakin kumeyi bulmak istiyorsak, o
zaman (ilk basta rasgele bile olsa) kume merkezlerinin bilgisi tum makinalarin
1
erisebilecegi bir yerde olmali. Biz bu veriyi, centers.csv adli bir dosyaya koy-
maya karar verdik, bu dosya tek makina ortaminda bilinen bir dizinde (mesela
/tmp), cok makinali ortamda ise HDFS uzerinde herkesin erisebilecegi bir yerde
olmali.
Paralel K-Means icin tek bir esle-indirge isletimi yeterli degil, bu algoritma dongulu
/ ozyineli (iterative) bir algoritma, 5,10,20 kez islemesi gerekebilir. Her dongu
(indirgeme) sonunda yeni kume merkezleri hesaplanacak, bu merkezler eski centers.csv
yerini alacak ve islem tekrar baslayacak.
Simdi ham veriyi gosterelim,
from pandas import
*
df1 = read_csv("../kmeans/synthetic.txt",comment=’#’,,sep=" ")
plt.scatter(df1.ix[:,0],df1.ix[:,1])
plt.savefig(’kmeans_1.png’)
from mrjob.job import MRJob
from mrjob.protocol import PickleProtocol
import numpy as np, sys
import pandas as pd
import os, random
def euc_to_clusters(x,y):
return np.sqrt(np.sum((x-y)
**
2, axis=1))
class MRKMeans(MRJob):
INTERNAL_PROTOCOL = PickleProtocol
def __init__(self,
*
args,
**
kwargs):
super(MRKMeans, self).__init__(
*
args,
**
kwargs)
self.centers_ = pd.read_csv("/tmp/centers.csv",header=None,sep=" ")
self.k = 15
def mapper(self, key, line):
point = np.array(map(np.float,line.split(’ ’)))
c = np.argmin(euc_to_clusters(np.array(self.centers_), point))
yield(c, point)
def reducer(self, key, tokens):
new_centers = np.zeros((1,2))
counts = 0
for val in tokens:
2
new_centers += val
counts += 1
yield(’final’, (key, new_centers[0] / counts))
def reduce_all_centers(self, key, values):
new_centers = np.zeros((self.k,2))
self.f=open("/tmp/centers.csv","w")
for (cluster,val) in values:
print cluster, val
new_centers[cluster] = val
for row in new_centers:
self.f.write(" ".join(map(str,row)))
self.f.write("\n")
self.f.close()
def steps(self):
return [self.mr(mapper=self.mapper,reducer=self.reducer),
self.mr(reducer=self.reduce_all_centers)]
if __name__ == ’__main__’:
for i in range(15): MRKMeans.run()
reduce_all_centers cagrisi tum indirgeyiciler her kume icin yeni orta noktayi
hesaplayip onu yayinladiktan (emit) sonra, tum yeni merkezlerin gelecegi yer.
Komut satirindan tek makina icin Hadoop’suz isletelim,
!sort --random-sort synthetic.txt > /tmp/synthetic.txt
!head -15 /tmp/synthetic.txt > /tmp/centers.csv
!python kmeans.py synthetic.txt
/usr/local/lib/python2.7/dist-packages/pytz/__init__.py:29: UserWarning: Module _yaml was already imported from /usr/lib/python2.7/dist-packages/_yaml.so, but /usr/local/lib/python2.7/dist-packages is being added to sys.path
from pkg_resources import resource_stream
using configs in /home/burak/.mrjob.conf
creating tmp directory /tmp/kmeans.burak.20131202.234454.312709
writing to /tmp/kmeans.burak.20131202.234454.312709/step-0-mapper_part-00000
Counters from step 1:
(no counters found)
writing to /tmp/kmeans.burak.20131202.234454.312709/step-0-mapper-sorted
> sort /tmp/kmeans.burak.20131202.234454.312709/step-0-mapper_part-00000
writing to /tmp/kmeans.burak.20131202.234454.312709/step-0-reducer_part-00000
Counters from step 1:
(no counters found)
writing to /tmp/kmeans.burak.20131202.234454.312709/step-1-mapper_part-00000
Counters from step 2:
(no counters found)
writing to /tmp/kmeans.burak.20131202.234454.312709/step-1-mapper-sorted
> sort /tmp/kmeans.burak.20131202.234454.312709/step-1-mapper_part-00000
writing to /tmp/kmeans.burak.20131202.234454.312709/step-1-reducer_part-00000
10 [ 33655.97916667 59869.70138889]
13 [ 10318.87456446 55430.98780488]
9 [ 21286.26027397 59328.61187215]
0 [ 34297.27789474 43563.19789474]
1 [ 56490.3362069 37260.18103448]
3
2 [ 56217.97297297 43823.02702703]
3 [ 56453.07407407 34324.16666667]
4 [ 22960.27741935 45942.7483871 ]
5 [ 61346.1443299 47761.37113402]
6 [ 58466.11940299 60120.6641791 ]
7 [ 51691.66477273 48608.63636364]
8 [ 60189.47019868 53209.15231788]
11 [ 62427.68 44841.88]
12 [ 27699.59813084 56743.19626168]
14 [ 41850.40925267 47055.58362989]
Counters from step 2:
(no counters found)
Moving /tmp/kmeans.burak.20131202.234454.312709/step-1-reducer_part-00000 -> /tmp/kmeans.burak.20131202.234454.312709/output/part-00000
Streaming final output from /tmp/kmeans.burak.20131202.234454.312709/output
removing tmp directory /tmp/kmeans.burak.20131202.234454.312709
using configs in /home/burak/.mrjob.conf
using configs in /home/burak/.mrjob.conf
creating tmp directory /tmp/kmeans.burak.20131202.234456.597838
creating tmp directory /tmp/kmeans.burak.20131202.234456.597838
writing to /tmp/kmeans.burak.20131202.234456.597838/step-0-mapper_part-00000
writing to /tmp/kmeans.burak.20131202.234456.597838/step-0-mapper_part-00000
Counters from step 1:
Counters from step 1:
(no counters found)
(no counters found)
writing to /tmp/kmeans.burak.20131202.234456.597838/step-0-mapper-sorted
writing to /tmp/kmeans.burak.20131202.234456.597838/step-0-mapper-sorted
> sort /tmp/kmeans.burak.20131202.234456.597838/step-0-mapper_part-00000
> sort /tmp/kmeans.burak.20131202.234456.597838/step-0-mapper_part-00000
writing to /tmp/kmeans.burak.20131202.234456.597838/step-0-reducer_part-00000
writing to /tmp/kmeans.burak.20131202.234456.597838/step-0-reducer_part-00000
Counters from step 1:
Counters from step 1:
(no counters found)
(no counters found)
writing to /tmp/kmeans.burak.20131202.234456.597838/step-1-mapper_part-00000
writing to /tmp/kmeans.burak.20131202.234456.597838/step-1-mapper_part-00000
Counters from step 2:
Counters from step 2:
(no counters found)
(no counters found)
writing to /tmp/kmeans.burak.20131202.234456.597838/step-1-mapper-sorted
writing to /tmp/kmeans.burak.20131202.234456.597838/step-1-mapper-sorted
> sort /tmp/kmeans.burak.20131202.234456.597838/step-1-mapper_part-00000
> sort /tmp/kmeans.burak.20131202.234456.597838/step-1-mapper_part-00000
writing to /tmp/kmeans.burak.20131202.234456.597838/step-1-reducer_part-00000
writing to /tmp/kmeans.burak.20131202.234456.597838/step-1-reducer_part-00000
10 [ 34190.76071429 59473.68214286]
13 [ 9524.38372093 55188.34689922]
9 [ 19288.00425532 59048.12340426]
0 [ 34495.96781609 42837.15862069]
1 [ 56603.56756757 37301.28378378]
2 [ 54698.1862069 43080.47586207]
3 [ 56850.95180723 34689.86746988]
4 [ 23627.50314465 45589.86792453]
4
5 [ 60775.48039216 47705.81372549]
6 [ 58623.54054054 59894.10135135]
7 [ 51384.90184049 49124.60736196]
8 [ 60238.23021583 52723.48920863]
11 [ 61762.52830189 45110.81132075]
12 [ 27191.86813187 57337.64835165]
14 [ 41387.76223776 47391.7972028 ]
...
import pandas as pd
df1 = pd.read_csv("../kmeans/synthetic.txt",comment=’#’,sep=" ",header=None)
plt.scatter(df1.ix[:,0],df1.ix[:,1])
plt.hold(True)
df2 = pd.read_csv("/tmp/centers.csv", sep=" ", header=None)
plt.plot(df2.ix[:,0],df2.ix[:,1],’rd’)
plt.savefig(’kmeans_2.png’)
K-Means’i 20 kere islettik. Eger istenirse (hatta daha iyi olur) dongu bir while
icine konur ve bitis icin ”stabilite sarti” aranir. Stabilite yeni kume merkezinin
eskisinden ”cok fazla degisik olup olmadigi” sartidir, degisim yoksa artik sonucu
bulmusuz demektir, daha fazla donguye gerek kalmayacaktir. Biz donguyu 20
kere donguyu islettik, (bu problem icin) yeterli oldu.
K-Means isini bitirdikten sonra elde edilen sonuclari okuyabiliriz. Nihai kume
merkezleri /tmp/centers.csv icinde. Bu merkezleri alip, ham veri uzerinde kir-
mizi nokta olarak gosteriyoruz.
veriyi 20-30 makinaya dagitarak parca parca isleyip kumelemeniz mumkundur.
Endustride son zamanlarda habire duyulan Buyuk Veri (Big Data) olayi iste bu.
5
Ortalama Kaydirma ile Kumeleme (Mean Shift Clustering)
Kumeleme yapmak icin bir metot daha: Ortalama Kaydirma metotu. Bu meto-
dun mesela GMM gibi bir metottan farki, kume sayisinin onceden belirtilmeye
ihtiyaci olmamasidir, kume sayisi otomatik olarak metot tarafindan saptanir.
”Kume” olarak saptanan aslinda veri icindeki tum yogunluk bolgelerinin merke-
zleridir, yani alttaki resmin sag kismindaki bolgeler.
Baslangic neresidir? Baslangic tum noktalardir, yani her noktadan baslanarak
1. O nokta etrafinda (yeterince buyuk) bir pencere tanimla
2. Bu pencere icine dusen tum noktalari hesaba katarak bir ortalama yer hesapla
3. Pencereyi yeni ortalama noktayi merkezine alacak sekilde kaydir
Metotun ismi buradan geliyor, cunku pencere yeni ortalamaya dogru ”kaydiriliyor”.
Altta bir noktadan baslanarak yapilan hareketi goruyoruz. Kaymanin saga dogru
olmasi mantikli cunku tek pencere icinden bakinca bile yogunlugun ”sag tarafa
dogru” oldugu gorulmekte. Yontemin puf noktasi burada.
1
Eger yogunluk merkezine cok yakin bir noktadan / noktalardan baslamissak ne
olur?
Ozaman ilerleme o baslangic noktasi icin aninda bitecek, cunku hemen yogunluk
merkezine gelmis olacagiz. Diger yonlerden gelen pencereler de ayni yere gele-
cekler tabii, o zaman ayni / yakin yogunluk merkezlerini ayni kume olarak kabul
etmemiz gerekir. Bu ”ayni kume irdelemesi” sayisal hesaplama acisindan ufak
farklar gosterebilir tabii, ve bu ufak farki gozonune alarak ”kume birlestirme”
mantigini da eklemek gerekiyor.
Ortalama Kaydirma sisteminde pencere buyuklugu kullanici tarafindan tanim-
lanir. Optimal pencere buyuklugunu nasil buluruz? Deneme yanilma yontemi,
verinin tarifsel istatistiklerine kestirme bir hesap (estimate) etmek, ya da kul-
lanicinin ayni istatistiklere bakarak tahminde bulunmasi. Birkac farkli pencere
buyuklugu de denenebilir. Bu konu literaturde (Ing. bandwidth selection) adi
atlinda uzun uzadiya tartisilmaktadir. Fakat evet, kullanici tarafindan tanimli bu
parametrenin bir anlamda bu metotun bir zayifligi oldugu soylenebilir. GMM
kume sayisini istiyordu, bu metot ta pencere buyuklugunu istiyor. Hangi meto-
tun ne zaman uygun oldugunu anlamak tecrube gerektiriyor.
Eger yogunluk merkezine cok yakin bir noktadan / noktalardan baslamissak ne
olur?
Ozaman ilerleme o baslangic noktasi icin aninda bitecek, cunku hemen yogunluk
merkezine gelmis olacagiz. Diger yonlerden gelen pencereler de ayni yere gele-
cekler tabii, o zaman ayni / yakin yogunluk merkezlerini ayni kume olarak kabul
etmemiz gerekir. Bu ”ayni kume irdelemesi” sayisal hesaplama acisindan ufak
farklar gosterebilir tabii, ve bu ufak farki gozonune alarak ”kume birlestirme”
mantigini da eklemek gerekiyor.
Ortalama Kaydirma sisteminde pencere buyuklugu kullanici tarafindan tanim-
lanir. Optimal pencere buyuklugunu nasil buluruz? Deneme yanilma yontemi,
verinin tarifsel istatistiklerine kestirme bir hesap (estimate) etmek, ya da kul-
lanicinin ayni istatistiklere bakarak tahminde bulunmasi. Birkac farkli pencere
buyuklugu de denenebilir. Bu konu literaturde (Ing. bandwidth selection) adi
atlinda uzun uzadiya tartisilmaktadir. Fakat evet, kullanici tarafindan tanimli bu
parametrenin bir anlamda bu metotun bir zayifligi oldugu soylenebilir. GMM
kume sayisini istiyordu, bu metot ta pencere buyuklugunu istiyor. Hangi meto-
tun ne zaman uygun oldugunu anlamak tecrube gerektiriyor.
2
Altta ornek veri ve kodu bulabilirsiniz (kod scikit-learn adli kutuphaneden
alinmistir). Metot kume sayisi 17’yi otomatik olarak buluyor.
Alternatif bir kod meanshift_alternative.py dosyasinda bulunabilir, bu kod pencereler
kaydirirken onlarin uzerinden gectigi noktalari ”sahiplenen” turden bir kod. Yani
[encere hareketini durdurdugunda hem kume merkezini hem de o kumenin al-
tindaki noktalari bulmus oluyoruz. Tabii sonraki pencereler bazi noktalari on-
ceki kumelerden calabilirler. Neyse, islemin normal isleyisine gore bir sonraki
pencere secilecektir ve bu pencere ”geriye kalan noktalar” uzerinden islem ya-
pacaktir. Beklenir ki, islem ilerledikce islenmesi gereken noktalar azalacaktir ve
yontemin bu sebeple klasik yonteme gore daha hizli isleyecegi tahmin edilebilir.
Hakikaten de boyledir.
from pandas import
*
data = read_csv("../kmeans/synthetic.txt",comment=’#’,header=None,sep=" ")
print data.shape
data = np.array(data)
(3000, 2)
plt.scatter(data[:,0],data[:,1])
plt.savefig(’meanshift_1.png’)
3
from sklearn.neighbors import NearestNeighbors
from sklearn.utils import extmath
def mean_shift(X, bandwidth=None, max_iterations=300):
seeds = X
n_samples, n_features = X.shape
stop_thresh = 1e-3
*
bandwidth # when mean has converged
center_intensity_dict = {}
nbrs = NearestNeighbors(radius=bandwidth).fit(X)
# For each seed, climb gradient until convergence or max_iterations
for my_mean in seeds:
completed_iterations = 0
while True:
# Find mean of points within bandwidth
i_nbrs = nbrs.radius_neighbors([my_mean], bandwidth,
return_distance=False)[0]
points_within = X[i_nbrs]
if len(points_within) == 0:
break # Depending on seeding strategy this condition may occur
my_old_mean = my_mean # save the old mean
my_mean = np.mean(points_within, axis=0)
# If converged or at max_iterations, addS the cluster
if (extmath.norm(my_mean - my_old_mean) < stop_thresh or
completed_iterations == max_iterations):
center_intensity_dict[tuple(my_mean)] = len(points_within)
break
completed_iterations += 1
# POST PROCESSING: remove near duplicate points
# If the distance between two kernels is less than the bandwidth,
# then we have to remove one because it is a duplicate. Remove the
# one with fewer points.
sorted_by_intensity = sorted(center_intensity_dict.items(),
key=lambda tup: tup[1], reverse=True)
sorted_centers = np.array([tup[0] for tup in sorted_by_intensity])
unique = np.ones(len(sorted_centers), dtype=np.bool)
nbrs = NearestNeighbors(radius=bandwidth).fit(sorted_centers)
for i, center in enumerate(sorted_centers):
if unique[i]:
neighbor_idxs = nbrs.radius_neighbors([center],
return_distance=False)[0]
unique[neighbor_idxs] = 0
unique[i] = 1 # leave the current point as unique
cluster_centers = sorted_centers[unique]
# ASSIGN LABELS: a point belongs to the cluster that it is closest to
nbrs = NearestNeighbors(n_neighbors=1).fit(cluster_centers)
labels = np.zeros(n_samples, dtype=np.int)
distances, idxs = nbrs.kneighbors(X)
labels = idxs.flatten()
return cluster_centers, labels
4
cluster_centers, labels = mean_shift(np.array(data), 4000)
print len(cluster_centers)
17
plt.scatter(data[:,0],data[:,1])
plt.hold(True)
for x in asarray(cluster_centers): plt.plot(x[0],x[1],’rd’)
plt.savefig(’meanshift_2.png’)
Teorik Konular
Bu metotu teorik bir yapiya oturtmak icin onu yazinin ilk basindaki resimde
oldugu gibi gormek gerekiyor, yani mesela o ilk resmin sagindaki 2 boyuttaki
veri dagilimi (ki ayriksal, sayisal), 3 boyuttaki surekli (continuous) bir baska dag-
ilimin yansimasi sanki, ki o zaman 2 boyuttaki yogunluk bolgeleri surekli dag-
ilimdaki tepe noktalarini temsil ediyorlar, ve biz o surekli versiyondaki tepe nok-
talarini bulmaliyiz. Fakat kumeleme isleminin elinde sadece 2 boyuttaki veriler
var, o zaman surekli dagilimi bir sekilde yaratmak lazim.
Bunu yapmak icin problem / veri once bir Cekirdek Yogunluk Kestirimi (Ker-
nel Density Estimation -KDE-) problemi gibi goruluyor, ki her nokta uzerine
bir cekirdek fonksiyonu koyularak ve onlarin toplamim alinarak sayisal dagilim
puruzsuz bir hale getiriliyor. Ortalama Kaydirma icin gerekli kayma ”yonu”
ise iste bu yeni surekli fonksiyonun gradyanidir deniyor (elimizde bir surekli
fonksiyon oldugu icin turev rahatlikla alabiliyoruz), ve gradyan yerel tepe nok-
tasini gosterdigi icin o yone yapilan hareket bizi yavas yavas tepeye goturecektir.
Bu hareketin yerel tepeleri bulacagi, ve tum yontemin nihai olarak sonuca yak-
lasacagi (convergence) matematiksel olarak ispat edilebilir.
KDE ile elde edilen teorik dagilim fonksiyonunun icbukey olup olmadigi onemli
degil (ki mesela lojistik regresyonda bu onemliydi), cunku nihai tepe noktasini
degil, birkac yerel tepe noktasindan birini (hatta hepsini) bulmakla ilgileniyoruz.
Gradyan bizi bu noktaya tasiyacaktir.
Kaynaklar
5
http://www.serc.iisc.ernet.in/
˜
venky/SE263/slides/Mean-Shift-
Theory.pdf
http://saravananthirumuruganathan.wordpress.com/2010/04/01/introduction-
to-mean-shift-algorithm/
http://www.cse.yorku.ca/
˜
kosta/CompVis_Notes/mean_shift.pdf
http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/TUZEL1/
MeanShift.pdf
Scikit-Learn Kodlari
http://yotamgingold.com/code/MeanShiftCluster.py
6
Log Lineer Modeller ve Kosulsal Rasgele Alanlar (Log Linear Models and Con-
ditional Random Fields -CRF-)
Ders 2
Charles Elkan ders notlari
Elkan’in yapay ogrenim konusuna bakisi ilginc, ona gore makine ogrenimi bir
bilgisayar bilim (computer science) konusudur, mesela altta islenen maksimum
olurluk bilgisayar bilimdir.
Kosulsal Olurluk (Conditional Likelihood)
Diyelim ki elimizde egitim verisi olarak ikili < x, y > veri noktalari var. O zaman
y’nin x’e kosulsal olarak bagli (conditional on) bir dagilimi oldugunu soyleyebil-
iriz.
y ∼ f(x; θ)
Yani her x icin farkli bir y dagilimi ortaya cikabilir. Ve tum bu farkli dagilimlarin
ortak noktasi θ parametresidir. Kosulsal olasilik yani soyle yazilabilir,
P(Y = y|X = x; θ)
Usttekiler Y icin bir model ortaya koydu, peki elimizde X’in dagilimi icin bir olasi-
lik modelimiz var mi? Cevap hayir. Niye? Dusunelim, p(y, x) nedir ?
p(x, y) = p(x)p(y|x)
Ustte p(y|x)’i tanimlayacak (θ uzerinden) bir olasilik demeti / ailesi tanimladik,
fakat elimizde p(x) dagilimini verecek bir model yok, o zaman p(x, y)’yi tanim-
layacak bir model de yok.
Fakat bu dunyanin sonu degil. Belki de Makine Ogrenimi bransinin bir slo-
gani su olmali: “Ogrenmen gerekmeyen seyi ogrenme”. Ustteki ornekte p(y|x)’i
ogrenebiliriz, ama p(x)’i illa ogrenmemiz gerekir mi?
Siniflayici (classifier) ve takip edilen (supervised) ogrenimdurumunu dusunursek,
bize egitim amacli olarak < x, y > ikili veri noktalari saglanacak. x kaynak veri,
y tahmin edilecek (ya da basta egitim hedefi olan) etiket olacak. y icin bir model
ortaya cikartiyoruz, cunku test zamaninda y olmayacak, fakat x hep olacak. Yani
y’nin modellenmesi mecburi, cunku “genelleyerek” onun ne oldugunu bulaca-
giz, ama x hep verili.
Kosulsal Olurluk Maksimum Olurluk Prensibi
Egitim verisi < x
1
, y
1
>, ..., < x
n
, y
n
> icin, θ’yi soyle sec
1
ˆ
θ = arg max
θ
n

i=1
p(y
i
|x
i
; θ)
Normal maksimumolurlukta bilindigi gibi olasiliklarin carpimi maksimize edilir,
burada maksimize ettigimiz “kosulsal” olasiliklarin carpimi.
Burada onemli bir soru su: bildigimiz gibi maksimum olurluk hesabi her veri
noktasinin bir digerinden bagimsiz oldugunu farzeder [cunku her olurluk hesabini
bir diger ile carpiyoruz, baska ek carpim, toplama, vs yapmiyoruz], bu faraziye
dogru bir faraziye midir? Bu soru ve ona verilecek cevap cok onemli. Evet,
eger egitim noktalari birbirinden bagimsiz degilse maksimum olurluk kullanma-
maliyiz. Bagimsizligi da iyi tanimlamak gerekiyor tabii, eger ustteki durumda x
i
verildikten sonra y
i
’larin birbirinden bagimsiz olmasi yeterli.
Bu model klasik Istatistik’te cokca kullanilan bir yaklasimdir, hatta lineer re-
gresyon’un temeli ustteki faraziyedir.
y = α +
¯
β¯ x +N(0, σ
2
)
Bu standart lineer regresyon modeli, ve bu modelde her y ona tekabul eden x’e
bagli, bu sayede x’ler biliniyorsa y’ler birbirinden kosulsal olarak bagimsiz hale
geliyor, boylece x’ler birbirine bagimli olsa bile α ve β’nin bulunmasi mumkun
oluyor.
Ustteki resimde egitim noktalari (training points) mavi olsun, test noktalari yesil
olsun (hemen altinda). Bazi Yapay Ogrenimyaklasimlari diyebilir ki egitimx’lerinin
dagilimi test x’lerinin dagilimindan farkli, bu veri seti ogrenilemez (yani genel-
lenemez, modellenemez). Fakat klasik Istatistik buna bakar ve der ki x’lerin ver-
ildigi durumda y’ler bagimsizdir, bu sekilde bir kosulsal model ogrenilebilir.
Lojistik Regresyon ayni sekilde isler (lojistik regresyon, log lineer modellerin ozel
bir halidir, CRF’ler ayni sekilde). Burada da ogrenilen bir
p = p(y|x; α, β)
modeli vardir ve y degerleri sadece 0 ve 1 olabilir. Tahmin edilen olasilik ise
y’nin 1 olma olasiligidir. Bu model Rasgele Gradyan Cikisi ile egitilir [detaylar
icin Lojistik Regresyon notlarimiza bakabilirsiniz].
2
log
p
1 −p
= α +

j
β
j
x
j
p log sansinin monotonik bir fonksiyonudur, ve ters yonden bakarsak, log sans
p’nin monotonik bir fonksiyonudur. Yani lineer bir fonksiyon (sag taraf) ne kadar
buyurse, olasilik / log sans o kadar buyuyecektir. Bu buyume durumu mesela
β
j
katsayisini veri analizi baglaminda yorumlanabilir hale getirir. Diyelim ki β
4
katsayisi pozitif, o zaman diger tum sartlarin esit oldugu durumda (with all else
being equal) x
4
ne kadar buyurse 1 olma olasiligi o kadar artar.
Lojistik modellerin onemli bazi avantajlari var, ki bu avantajlar log lineer mod-
ellere de sirayet ediyor (bu iyi).
1) Degiskenler arasi ilinti (correlation) probleme yol acmaz: Bu fayda aslinda
daha once belirttigimiz x’lerin birbirine bagimli olabilmesi ile alakali. Bagimsizlik
onsarti aranmadigi icin istedigimiz kadar x’i problemin uzerine atabiliriz, egitici
algoritma bunlardan cikartabildigi kadar iyi bir model bulacaktir.
Kiyasla mesela Naive Bayes boyle degildir, eger bir NB siniflayicisini egitiyorsak,
ve ogelerin (feature) arasinda ilinti var ise, siniflayicinin dogrulugu (accuracy)
azalabilir.
2) LR ile “1 olma olasiligini”, yani “bir sayisal skoru”, elde ediyoruz, bu sadece
1/0 degerinden daha fazla bir bilgi demektir.
3) Bu skor, anlami olan bir olasiliksal degerdir: Sonucta SVM siniflayicilari da
−∞ ve +∞ arasinda degerler dondururler, ve bu degerler siralama (ranking)
amacli kullanilabilir, fakat olasilik matematigi acisindan anlami olan bir degerin
olmasi bundan bile iyidir. Naive Bayes 0 ve 1 arasinda deger dondurebilir, fakat
bu degerlerin de olasiliksal olarak aslinda anlami yoktur, pratikte goruldu ki bu
degerler cok uc noktalarda, ya sifira cok yakin, ya bire cok yakin. Literaturde NB
skorlarinin “iyi kalibre edilmis olmadigi” soylenir.
X
1
, ..., X
n
test ornekleri ve tahmin edilen olasiliklar P(Y = 1|x
i
) = v
i
olsun. Diye-
lim ki s =

i
v
i
ve t sayisi 1, .., n tane ogenin icinden y = 1 degerini tasiyan
ogelerin sayisi olsun. Ornek, elimizde 100 tane egitim noktasi var, bunlarin 60’i 1
degerinde. Bu durumda s yaklasik 60 olacaktir (rasgele gurultuyu hesaba katarsak
tabii), yani E[t] = s denebilecektir ve bu sadece eger olasiliklar iyi kalibre edilmisse
soylenebilir.
3
4) Dengesiz egitim verisi kullanilabilir: pek cok egitim setinde mesela 1 degeri
tasiyan degerleri 0 degeri tasiyanlardan cok daha fazla. Lojistik regresyon bu tur
veriyle rahatca calisabilir.
Ders 3
Lojistik regresyon icin log olurlugun (LCL) turevini almak lazim. Once basitle-
stirme amacli α = β
o
, ve x
0
= 1. O zaman log sansin eski hali (altta esitligin sol
tarafi) soyle yazilabilir (sag taraf), daha derli toplu bir formul olur,
α +

j
β
j
x
j
=
d

j=0
β
j
x
j
Bulmak istedigim her j icin
d

j
LCL lazim
d

j
LCL =

i:y
i
=1
d

j
logp(1|..) +

i:y
i
=0
d

j
logp(0|..) (3)
Eger ustteki bir bolumu p digerine 1 −p dersem, yani soyle
=

i:y
i
=1
d

j
logp(1|..)

p
+

i:y
i
=0
d

j
logp(0|..)

1−p
O zaman
=

i:y
i
=1
d

j
logp +

i:y
i
=0
d

j
log(1 −p)
Biliyoruz ki
d

j
logp =
1
p
d

j
p (1)
d

j
log(1 −p) =
1
1 −p
(−1)
d

j
p (2)
Ustteki son iki formulun her ikisinde de d/dβ
j
p kismi olduguna dikkat.
Notasyon
e = exp


n

j=0
β
j
x
j

4
p =
1
1 +e
1 −p =
1 +e − 1
1 +e
=
e
1 +e
Simdi d/dβ
j
p’e donelim, ve p’nin ustteki gibi oldugundan hareketle,
d

j
p = (−1)(1 +e)
−2
d

j
e
= (−1)(1 +e)
−2
(e)
d

j
(x
j
)
=
1
1 +e
e
1 +e
x
j
= p(1 −p)x
j
Son ifade kodlama icin oldukca uygun, d/dβ
j
p hesabini yine icinde p iceren bir
ifadeye bagladik, ayrica turev x
j
ile orantili.
Bu hesapla aslinda (1) icindeki d/dβ
j
p kismini hesaplamis olduk. Eger yerine
koyarsak,
d

j
logp =
1
p
p(1 −p)x
j
p’ler iptal olur
= (1 −p)x
j
Ayni sekilde (2) icin
d

j
log(1 −p) =
1
1 −p
(−1)p(1 −p)x
j
= −px
j
Ustteki turevler tek bir egitim veri noktasi icin. Tum egitim veri setinin turevi her
noktanin turevlerinin toplami olacak, (3)’de goruldugu gibi.
d

j
LCL =

i:y
i
=1
(1 −p
i
)x
ij
+

i:y
i
=0
−p
i
x
ij
(4)
5
x
ij
notasyonunda j, j
inci
oge / ozellik anlamina geliyor. Simdi notasyonel bir
numara kullanacagim,
=

tum i
(y
i
−p
i
)x
ij
Bunu niye yaptim? (4) formulunde esitligin sag tarafi, birinci terim icinde 1 sayisi
var, sonraki terimde 1 yok. Eger 1 olup olmamasi yerine y
i
kullanirsam, ki zaten
1’in olup olmamasi y
i
’nin 1 olup olmamasina bagli, tek bir terimde isi hallede-
bilirim. y
i
= 1 oldugu zaman ustteki ifade 1 − p
i
olacaktir, olmadigi zaman −p
i
olacaktir.
Eristigimiz sonucu analiz etmemiz gerekirse, nihai formul gayet basit ve temiz
cikti.
[24:10] kalibrasyonla alakali bir yorum
Rasgele Gradyan Cikisi (Stochastic Gradient Ascent)
Fikir: turevi egitim noktasi basina hesapla, ve modeli hemen guncelle.
Egitim noktalari < x, y > olarak gelsinler. Her nokta icin, ve her β
j
icin
d

j
p(y|x; β) = g
j
hesapla.
β
j
:= β
j
+αg
j
Gradyanin ne oldugunu hatirlayalim, bir fonksiyonun maksimumuna “dogru”
olan bir gidis yonunu gosterir, ve bu gidis yonu o fonksiyonu olusturan degisken-
lerin (parcali turevleri) uzerinden belirtilir. O zaman elimizdeki gradyan o ic
degiskenlerin maksimum yondeki degisim seklini bize tarif eder.
Algoritmanin tamami: alttaki formul icin
d

j
p(y| ¯ x;
¯
β) = (y −p)x
j
Her x icin
- O anki modele gore p’yi hesapla
- Her j = 0, .., d icin
- β
j
:= β
j
+α (y −p)x
j

kismi turev
hesapla
6
Peki metotun ismindeki “rasgele (stochastic)” tanimi nereden geliyor? Iyi bir
soru bu cunku metotta rasgele sayi uretimi gibi seyler gormuyoruz. Cevap, metot
yine de rasgele, cunku her noktayi ayri ayri isliyoruz, ve bu noktalarin egitim al-
goritmasini gelisi bir nevi “veriyi orneklemek” gibi sanki, ek olarak veriyi egitime
almadan once rasgele sekilde karistirmak ta iyi olabilir.
Bazi Tavsiyeler (Heuristics)
1) Her ozellik (feature) x
j
’i olceklemek, yani ayni ortalama (mean) ve varyansa
sahip olacak sekilde tekrar ayarlamak. Yani mesela 0 ile 100 arasinda olabile-
cek “yas” gibi bir ozelligi, 0 ve 1 arasinda degisen ozellikler ile ayni ortalama ve
varyansa sahip olacak sekilde ayarlamak. Bunun sebebi guncelleme hesabindaki
λ’nin tek bir sabit olmasi, ve bu sabit her j icin aynidir, o sebeple λ’nin her og-
eye “ayni sekilde” uygulanabilmesi icin ogelerin birbirine yakin olmasi iyidir. Ek
olarak, genellikle egitim verisinde 0 ile 1 arasinda ikisel turden ogeler vardir, o
sebeple bu sekilde olmayan diger ogeleri 0 ve 1 arasinda cekmek daha uygun ve
kolay olur.
2) Veriyi rasgele sekilde siralamak. Terminoloji: egitim veri seti uzerinden bir
gecis yapmak bir “cag” (epoch) olarak bilinir.
3) λ’yi deneme / yanilma yontemi ile bulun (bu sabiti bulmanin sistemik bir yon-
temi yok). Belki verinin icinden alinan daha ufak bir orneklem uzerinde bu den-
eme / yanilma islemi yapilabilir.
4) Deneme yanilma islemini soyle yapabilirsiniz: buyuk bir λ ile ise baslarsiniz,
ve her cagda λ degerini azaltabilirsiniz (mesela her cag sonunda 1/2 ile carparak).
Ders 4
Log Lineer Modeller
Bu modeller lojistik regresyonun yapiya sahip (structured) girdiler ve ciktilar
icin genellenmis halidir. Lojistik regresyonda girdi ¯ x ∈ R
d
ve cikti y ∈ 0, 1 idi,
yani cikti ikiseldi. Fakat biz bundan daha genel makine ogrenimi problemlerini
cozmek istiyoruz, yani istedigimiz x ∈ X, ki X herhangi bir uzay olabilmeli, ve
y ∈ Y ki Y ayni sekilde herhangi bir uzay olabilmeli.
Mesela x bir cumle olabilmeli, diyelim ki x = “he sat on the mat”, tercumesi
“adam paspasin uzerinde oturdu”. Buna karsilik olan y ise mesela soyle ola-
bilmeli, y = “pronoun verb article noun”, yani her kelimenin hangi gramer ogesi
oldugunu gosteren bir ibare. Mesela “sat” yani oturmak, bir fiil (verb), “mat”
paspas, bir isim (noun), ve y icinde gelen egitim verisinde bunlar olabilmeli (ust-
teki ornekte ikinci oge), sadece 0/1 degerleri degil.
Bu tabii ki takip edilen (supervised) bir egitim sekli olacak. Fakat dikkat bazi
yapay ogrenim uygulamalarinda “cok siniftan gelen” ama tek bir deger vardir,
mesela y ∈ 1, 2, 3 olabilir, 3 sinifli bir cikti yani. Bazen cikti gercek sayi (real num-
ber) olabilir, ama yine de tek bir y degeri vardir. Ustteki durum boyle degildir.
Potansiyel olarak y’nin buyuklugu x ile birebir ayni bile olmayabilir. Bu tur bir
7
karisik eslemeden bahsediyoruz. Tek sinirlamamiz Y’nin sonlu (finite) olmasi.
Model soyle (notasyonu biraz degistirdik, β yerine w kullaniyoruz mesela, w
modelin “agirliklarini (weights)” temsil ediyor.
p(y|x; w) =
exp

j
w
j
F
j
(x, y)

Z(x, w)
Yakindan bakarsak model LR modeline benziyor. Bir lineer fonksiyonun exp’si
aliniyor ve bu deger olasilik hesabinda kullaniliyor. Ileride zaten gorecegiz ki LR
ustteki yaklasimin bir “ozel durumu”, yani ustteki model daha genel bir tanim.
Aklimiza bircok soru geliyor herhalde, mesela “Z nedir?” ya da “F
j
nasil hesa-
planir?” gibi. Z soyle tanimlanir
Z(x, w) =

y

exp

j
w
j
F
j
(x, y

)

Tum y

’lere bakiliyor, yani tum mumkun Y degerleri teker teker y

uzerinden
toplamda kullaniliyor. Y’nin sonlu olma faraziyesi burada onemli hale geliyor,
toplami sonsuz bir kume uzerinden yapamayiz.
Z normalizasyon icin kullaniliyor, cunku olasilik teorisinde eger elimizde coklu
bir hedef var ise, bu hedeflere olan olasilik degerlerinin toplami 1 olmalidir. Z iste
bunu garantiler, bu sebeple bolen (denominator) bolumun (nominator) toplami
olmalidir.
Her F
j
(x, y) bir ozellik fonksiyonudur (feature function). Niye? Cunku elimdeki
x’ler illa bir vektor olmayabilir, yani x
j
“vektorunu” alip w
j
“vektoru” ile carpa-
mam, bu sebeple once bir fonksiyon ile bir numerik deger uretmem gerekiyor.
Kume olarak
F
J
: X ×Y →R
Eger F
j
(x, y) > 0 ve w
i
> 0 ise, o zaman F
j
(x, y) = 0’a kiyasla p(y|x; w) ar-
tar. Sezgisel olarak tarif edersek ozellik fonksiyonun (OF) soyledigi sudur, eger
agirlik pozitif ise OF’in degeri ne kadar buyurse elimizdeki y, x ile o kadar “uyum-
ludur” (tabii ki belli bir ozellik yani j icin). Negatif ilinti bunun tam tersi olurdu.
Egitim w
j
agirliklarini bulmamizi saglar. F onceden tanimlidir (yani egitime bile
baslamadan once), bu fonksiyonun ne olacagi “secilir”. Secilirken tabii ki x, y
arasindaki ilintiye gore fazla / az sonuc geri getirebilecek sekilde secilmelidir.
Kelime ornegine geri donersek, bir F soyle olabilir,
F
15
(x, y) = “eger ikinci kelimenin bas harfi buyuk ve ikinci etiket isim (noun)”.
OF’ler reel degerlidir. Bunun ozel durumu 0/1 degeri veren OF’lerdir. Biraz
onceki ornek mesela 0/1 donduruyor.
8
Ya da F
14
(x, y) diyelim ki soyle “ilk kelimenin bas harfi buyuk, ve ilk etiket bir
isim”. Tahmin edebiliriz ki egitim setimizde ilk kelimesinin bas harfi buyuk olan
ama o kelimesi isim olmayan pek cok ornek olacaktir. Bu durumda w
14
kucuk
olur.
Dedigimiz gibi F reel degeri olabilir, mesela
F
16
(x, y) = lengh(y) −lengh(x)
yani bu fonksiyonda x’nin uzunlugunu y’nin uzunlugundan cikartiyoruz. Bu ne
ise yarar? Diyelim ki otomatik tercume yapmasi icin bir yapay ogrenim programi
yaziyoruz, x, y egitimnoktalari birbirinin tercumesi olan Ingilizce/Fransizca cum-
leler. Cogunlukla Fransizca cumleler tekabul ettikleri Ingilizce cumlelerden cok
daha uzun oluyorlar, yani ustteki cikarma cogunlukla pozitif sonuc verecek. Degisik
bir acidan bakarsak, pozitif bir sonuc, bir tercumenin dogru oldugu yonunde bir
isaret olarak kabul edilebilir, ve ustteki OF uzerinden egitim algoritmasi bunu
kullanir. Egitim sonrasi w
16
pozitif bir agirlik alacaktir.
Bir log lineer modelde (buna CRF’ler de dahil) ilk yapilan is probleminiz icin
onemli olan OF’leri ortaya cikartmak.
F tanimlamanin degisik bir baska yolu:
a(x) bir fonksiyon olsun. Her v ∈ Y icin
F
j
(x, y) = a(x)I(y = v)
tanimlayalim.
p(y|x; w) =
exp

j
w
j
F
j
(x, y)
Z
Simdi lineer zincirli CRF konusuna bakalim. Yine x ∈ X ve y ∈ Y. x bir girdi
zinciri, y bir cikti zinciri ve en basit durumda x ile ayni uzunlukta. Konusma
bolumlerini etiketlemek bu kategoriye dahil, ama bir diger uygulama kelimeyi
arasina eksi isaretleri koyarak bolme (hyphenation).
Mesela girdi x =”beloved”, cikti y =”00100000” cunku bu kelime “be-loved”
olarak bolunur.
Bu uygulama icin bir OF
F
j
(x, y) =
kac tane 1 var
x uzunlugu
x =”beloved”, cikti y =”00100000” icin sonuc 1/7 olurdu.
Lineer zincir CRF icin hangi OF’lerin bazi sinirlari var.
9
F
j
(¯ x, ¯ y) =

i
f
j
(y
i−1
y
i
¯ xi)
ki sembol uzeri duz cizgiyi (¯ x gibi) bu sefer bir sirali veri temsil etmek icin kul-
laniyorum)
Mesela
f
18
= f
j
(y
i−1
y
i
¯ xi) = ”i = 2, y
i−1
= 0, y
i
= 1, x
1
x
2
= ”as””
Mesela “async” kelimesi “a-sync” olarak bolumebilir, ve egitim setinde “async”
ile “y =01...” gelirse ustteki OF bu bolunmeyi odullendirir / ogrenir.
Simdi CRF olmayan bir Lineer Model’e bakalim,
Mesela cok etiketli takip edilen ogrenim. “Cok etiketli” ne demektir? Dikkat,
“cok sinifli (multi label)” degil, yani tek ogenin iki veya daha fazla deger arasin-
dan birini secmesinden bahsetmiyoruz. Birde fazla etiket alabilmekten bahsediy-
oruz, mesela bir Internet sayfasi, bir veya daha fazla kategoriye ayni anda ait
olabilir, mesela hem Spor, hem Is Dunyasi. Diyelim ki 10 mumkun etiket var, bir
dokuman kac degisik sekilde etiketlenebilir?
2
10
= 1024 sekilde (bu sayi, hesap bir kumenin kac degisik sekilde alt kumesi
olabilir hesabini yansitiyor ayni zamanda, yani siralama onemli olmadan belli
sayida ogenin kac degisik sekilde alt kumeleri olabilir sorusu). Bu buyuk bir
rakam. Ve bu kadar cok olasilik var ise, egitim verisi tum kombinasyonlar icin
ornek veri icermeyebilir. Fakat muhakkak algoritmamizin bu kombinasyonlari
tahmin edebilmesini tercih ederiz.
Cozum? 10 degisik siniflayici kurarark bu problemi cozebiliriz (ayri ayri, tek
basina tek sinifa bakilinca yeterli veri cikar herhalde), fakat bu sekilde “sini-
flararasi” iliskileri yakalayamayiz. Log lineer model yaklasiminda oyle bir ikisel
(binary) OF yaratirsiniz ki, mesela,
F
19
(x, y) = ”Spor ∈ y, Is Dunyasi ∈ y”
Dikkat edersek OF sadece y’ye bakiyor. Bu OF’yi iceren algoritma egitilince ust-
teki OF icin bir pozitif agirlik ogrenilebilecektir.
Soru: bir anlamda problemin yerini degistirmis olmuyor muyuz? Mesela ustteki
sekilde bu sefer her turlu kombinasyon icin OF’mi yaratacagiz? Cevap: eger
sadece ikili eslere bakiyorsak, kombinasyon hesabi C(10, 2) = 45 sonucunu verir.
Bu fena bir sayi degil.
Ayrica verinin seyrekligi bize hangi kombinasyonlarin dahil edilip edilmeyecegi
yonunde yardimci olabilir.
Soru: cok sinifli problemler[ lojistik regresyonu gelistirerek cozulemez mi? Ce-
vap: boyle bir yaklasim var, buna multinom lojistik regresyon deniyor. Fakat bu
10
yaklasimin log lineer modellerin ozel bir hali oldugunu belirtmek isterim, yani
yapay ogrenim dunyasinin aktif olarak arastirdigi alan artik burasi, multinom lo-
jistik regresyon asildi. Zaten log lineer modeller ile cok etiketli problemleri de
cozebiliyorsunuz.
Ders 5
Soru: biraz once sadece y’ler arasinda bir OF tanimlayabildigimizi gorduk. Peki
sadece x’ler arasinda OF tanimlamak faydali olur muydu? Cevap: Formulu
tekrar hatirlayalim,
p(y|x; w) =
exp

j
w
j
F
j
(x, y)
Z(x, w)
OF’nin gorevi hangi y’lerin daha yuksek olasiligi oldugunu belirtmek. Eger sadece
x var ise, bu durumda bolum ve bolendeki degerler birbirini iptal ederdi. Her y
icin ayni x “katkisi” olurdu ve bunun siniflayiciya hicbir faydasi olmazdi.
[8:00-18:00 atlandi]
Cozdugumuz problemler su formatta
p( ¯ y| ¯ x; w) =
exp

j
w
j
F
j
(¯ x, y)
Z(¯ x, w)
Tahmin etmek icin
ˆ y = arg max
y
exp

j
w
j
F
j
(¯ x, y)
Bir ¯ y tahmin etmek icin bu modellerden birini kullanacaksak, p( ¯ y| ¯ x; w) formu-
lune ¯ x’i koyariz, ve elde edilen dagilimda hangi ¯ y’nin olasiligi daha yuksekse
onu seceriz. Daha yuksek olasiliga sahip olan ¯ y, p( ¯ y| ¯ x; w) formulunde bolumu
daha yuksek olandir. Bolen her ¯ y icin sabit / ayni.
Aslinda exp’ye ihtiyac yok, cunku exp monotonik bir fonksiyon, yani sadece su
kullanilabilir,
ˆ y = arg max
y

j
w
j
F
j
(¯ x, y)
En olasi y’yi bulmak icin Z’nin gerekmedigine de dikkat, cunku bu sabit tum
secenekler icin ayni.
Burada tahmin etmek baglaminda zor olan sey, en yuksek y’yi bulmak icin tum
y’lere teker teker bakmaya mecbur olmamiz. Bu bakma islemi cok zaman alabilir,
o zaman bu problemi bir sekilde cozmem lazim.
11
Diger problem, tum olasiliklarin 1’e toplanabilmesini saglayan normalize sabi-
tinin hesabi, yani Z(¯ x, w) =

y

exp[

j
w
j
F
j
(¯ x, ¯ y)], ki eger olasilik degeri hesaplay-
acaksak bu sabit gerekli.
Yani iki ana problem var, bir de egitim algoritmasi var, ki bu aynen lojistik re-
gresyon orneginde oldugu gibi rasgele gradyan cikisi uzerinden olacak, bu 3 al-
goritmayi simdi sunacagiz.
Algoritma 1
Once,
ˆ y = arg max
¯ y

j
w
j
F
j
(¯ x, ¯ y)
Bu hesabi polinom zamanda (polynomial time) yapmak istiyoruz. Tanimi biraz
degistirelim,
= arg max
¯ y

j
w
j

i
f
j
(y
i−1
y
i
¯ xi)
j tum ozellikler, i x, y “boyunca” ilerleyen indisler. Ustteki ibare tek bir egitim
veri noktasi icin yapiliyor, yani i degisik veri noktalarini indislemiyor (genellikle
oyle olur, o yuzden belirtmek istedik).
Toplam islemlerinin sirasini degistirelim,
= arg max
¯ y

i

j
w
j
f
j
(y
i−1
y
i
¯ xi)
Icerideki toplama g
i
(y
i−1
y
i
) ismi verelim, boylece her i icin degisik bir g fonksiy-
onuna sahip oluyorum.
= arg max
¯ y

i
g
i
(y
i−1
y
i
)
y
i−1
, y
i
kelime bolme probleminde iki degerden birini alabilir. Cumle etiketleme
probleminde belki 20 degerden birini alabilirler. ¯ x, ¯ w zaten sabit (egitim verisi
icindeler, ya da sabit olarak goruluyorlar). Bu durumda g’yi temsil etmek icin
nasil bir veri yapisi kullanmaliyim? Cunku bilgisayar bilim yapiyoruz, ve bil-
gisayar bilimde veri yapilari vardir. Bize gereken belli y
i−1
, y
i
kombinasyonu
icin bir g degeri dondurulmesi, ve bu sonucu bir yerde depolayabilmek.
Gereken yapi basit bir matris olabilir. Diyelim ki m farkli y degeri var ise, m
2
hucresi olan bir matris isimizi gorur. Her g
i
icin ayri bir m
2
matrisi olacak tabii
ki. n tane matris, d deger var ise islem zamani O(m
2
nd).
Algoritmamda ilk yapacagim is mumkun g degerlerini onceden hesaplayip (pre-
compute) bir yerde depolu olarak tutmak / hazir etmek.
12
Tanim
Skor(y
1
, ..., y
k
) =

k
i=1
g
i
(y
i−1
y
i
)
Amacimiz oyle bir y siralamasi (sequence) bulmak ki bu siranin skoru en yuksek
olsun.
U(k) = en iyi siralama y
1
, ..., y
k
’nin skoru
U(k, v) = y
k
= v olma sartiyla en iyi siralama y
1
, ..., y
k
’nin skoru
Amacim U(n + 1, BITIS)’i bulmak. Mumkun etiketlere BASLA, BITIS adli iki
yeni deger ekledik, bu bazi formulleri kolaslastiracak. Bu tanim aslinda arg max
ile bulmaya calistigim seyin bir bolumj aslinda, sadece amacimi bu sekilde tekrar
tanimladim. Tekrar belirtmek gerekirse,
U(k, v) = max
y
1
,y
k−1
[
k−1

i=1
g
i
(y
i−1
y
i
) +g
k
(y
k
, v)]
Ilginc bolume geldik. Ustteki tanimi ozyineli olarak tanimlarsak,
U(k, v) = max
y
k−1
[U(k − 1, y
k−1
) +g
k
(y
k−1
, v)]
Bu ozyineli fonksiyonun avantaji nedir? Aslinda bir onceki formule gore cok
daha cetrefil duruyor. Avantaj surada, dinamik programlama (dynamic program-
ming) tekniklerini kullanarak bir dongu icinde ustteki ozyineli hesabi yapmak
mumkun. Simdi teker teker bakalim,
y
0
= BASLA
U(1, v) = max
y
0
[U(0, y
o
) +g
1
(y
0
, v)]
Bu ilk basamakta aslinda bir maksimizasyon yok, o zaman
= g(BASLA, v)
yeterli.
Ama ikinci basamakta isler zorlasiyor,
U(2, v) = max
y
1
[U(1, y
1
) +g
2
(y
1
, v)]
Fakat esitligin sag tarafindaki U hesabini bir onceki basamakta hesapladim ve
depoladim, onu hemen kullanabilirim. Bu hesabin yuku nedir? Her mumkun v
degerine (m tane) bakmam lazim, ve bu islem sirasinda her y
1
mumkun degeri
(yine m tane) irdelemem lazim. Yani O(m
2
).
Bu islemi U(n + 1, BITIS)’e kadar yapmam lazim. Toplam yuk O(nm
2
).
g matrislerini hesaplamak icin O(nm
2
d) demistik, bu O(nm
2
)’ten daha buyuktur
/ ona baskindir, ve O aritmetigine gore daha buyuk olan kullanilir.
13
Bu algoritma dinamik programlamanin ozel bir halidir, bazen ona Viterbi algo-
ritmasi ismi de verilir. Bilindigi gibi Viterbi algoritmasi Gizli Markov Model-
leri (Hidden Markov Models) yapisini dekode etmek icin kullaniliyor. CRF’lerin
HMM’e kismen baglantisi oldugu dusunulurse, Viterbi algoritmasinin burada da
ortaya cikmasi sasirtici degil.
Algoritma 2
Sunu hesapla
Z(¯ x, w) =

y

exp

j
w
j
F
j
(¯ x, ¯ y)

g
Icerideki toplama g
i
demistik,
g =

i
g
i
(y
i−1
y
i
)
Yani
Z(¯ x, w) =

¯ y
exp

i
g
i
(y
i−1
y
i
)
Bir toplamin exp’si, exp’lerin carpimi haline donusur, yani exp toplamdan “iceri”
nufuz eder,
=

¯ y

i
expg
i
(y
i−1
y
i
) (5)
t = 1, .., n + 1 icin sunu tanimlayalim,
M
t
(u, v) = expg
t
(u, v)
M
t
asagi yukari g ile ayni sey, her degisik g fonsiyonu icin degisik bir matris var,
bu matris hucrelerinin exp’sinin alinmis hali M
t
matrisi.
M
1
(u, v) sadece u = BASLA icin gecerli.
M
n+1
(u, v) sadece b = BITIS icin gecerli.
M
12
= M
1
M
2
yani matris carpimi.
M
12
(BASLA, w)’yu dusunelim (ki bu tek bir hucre degeri)
14
Bu ifadenin sol taraftaki M
1
icinde BASLA satirini sag taraftaki M
2
w kolonu ile
carptigini dusunebiliriz.
M
12
(BASLA, w) =

v
M
1
(BASLA, v)M
2
(v, w)
=

v
exp[g
1
(BASLA, v) +g
2
(v, w)]
Bu istedigimiz gibi bir ifadeye donusmeye basladi, cunku hatirlarsak, (5)’e ben-
zeyen bir seyleri elde etmeye ugrasiyoruz. Gerci ustteki ifade tum y degerleri
icin degil, tek bir v icin, ama yine de uygun, ustteki v yerine y
1
dersek belki daha
uygun olur,
=

y
1
exp[g
1
(BASLA, y
1
) +g
2
(y
1
, w)]
Uclu bir carpma gorelim: M
123
.
M
123
=

y
2
M
12
(BASLA, y
2
)M
3
(y
2
, w)
=

y
2
[

y
1
exp[g
1
(BASLA, y
1
) +g
2
(y
1
y
2
)] expg
3
(y
2
, w)]

y
1
,y
2
exp[g
1
(BASLA, y
1
) +g
2
(y
1
y
2
) +g
3
(y
2
, v)]
Yani uc matrisi birbiriyle carparak y
1
, y
2
uzerinden toplam almis oluyorum. Ve
boyle devam edersem, yani tum matrisleri birbiriyle carparsam ve BASLA, BITIS
degerlerine bakarsam,
M
123...n+1
(BASLA, BITIS) =

y
1
,...,y
n
exp[(g
1
(BASLA, y
1
) +g
2
(y
1
, y
2
) +g
3
(y
2
, y
3
) + ... +g
n+1
(y
n
, BITIS)]
15
Bu ifade parcalara ayirma (partition) fonsiyonu icin tam ihtiyacim olan sey. Daha
once Viterbi algoritmasindan bahsettik, hatta bu algoritma dinamik program-
lama kategorisine girer dedik, ustteki algoritma dinamik programlama bile sayil-
maz, aslinda bir matris carpimi sadece. Daha genel olarak ustteki algoritma ileri-
geri (forward-backward) algoritmasinin bir turevi, bu algoritmalar bildigimiz
gibi HMM’lerde sikca kullaniliyorlar.
Bu iki algoritma CRF’ler icin gerekli. Simdi CRF’leri nasil egitecegimizi gorelim.
Egitim
Maksimizasyon icin rasgele gradyan cikisi kullanacagiz.
p(y|x; w) =
exp

j
w
j
F
j
(x, y)
Z(x; w)
adyan cikisi icin ustteki formulun turevini alabilmeliyiz. Once log’unu almak
lazim, cunku ∂/∂w
j
logp hesabi gerekli, usttekinin log’u ise bolumun log’u eksi
bolenin log’u.

∂w
j
logp =

∂w
j
[

j
w
j
F
j
(x, y)] −

∂w
j
logZ(x; w)
Turevin eksi oncesi ilk bolumu cok basit, w
j
ve toplam yokolacak (tum j’lerin
toplami yokoldu, cunku turev “tek” bir j degeri ile ilgileniyor, digerleri sifir oluyor)
= F
j
(x, y) −

∂w
j
logZ(x; w)
Eksiden sonraki kisim cok zarif bir sonuca donusecek, birazdan gorecegiz.

∂w
j
logZ(x; w) =
1
Z

∂w
j
Z
Turevi toplam icine tasiyoruz,
=
1
Z

y


∂w
j
[exp[

j

w

j
F
j
(x, y

)]]
=
1
Z

y

exp[

j

w
j
F
j
(x, y

)]F
j
(x, y

)

=

y

F
j
(x, y

)
exp[

j

w
j
F
j
(x, y

)]
Z
16
Simdi ilginc kisma geldik, ustteki kesirli kisim p(y

|x; w) degerine esittir.
=

y

F
j
(x, y

)p(y

|x; w)
Ilginc durum burada ortaya cikiyor, cunku ustteki ayni zamanda bir beklenti (ex-
pectation) tanimi degil mi? Tum F
j
degerlerini o degerlerin olasiliklari ile carpip
toplarsak bir beklenti elde etmez miyiz? Evet. O zaman beklenti tanimini kullan-
abiliriz,

∂w
j
logp = F
j
(x, y) −E[F
j
(x, y

)]
ki y

soyle bir dagilimi takip ediyor,
y

∼ p(y

|x; w)
Soru:

∂w
j
logp =? Yani bu turev ne zaman sifira esittir?
Cevap: Turevin acilimina bakinca mesela, F
j
= 0 olunca mi? Hayir, cunku OF
sifir olsa bile beklenti kismi sifir olmayabilir. O zaman soyle soylemek gerekir,
eger tum y

icin F
j
(x, y

) − 0 ise, o zaman turev sifir olur.
Cogunlukla F
j
(x, y) = a(x)I(y = v). Hatirlarsak bu yontem bir ozelligi (ki (a(x)
ile temsil ediliyor), her mumkun v degeri icin bir OF’ye cevirmenin yolu idi (tek
x’e bagli OF olamaz).
Ozaman sunu da soyleyebiliriz, eger a(x) = 0 ise, her y icin F
j
(x, y) = 0 demektir.
Bu bilginin faydasi sudur, veride seyreklik var ise, lojistik regresyon bunlari at-
lamayi bilir. Demek ki ayni sekilde kosulsal lineer modeller de bu ozellikleri
atlayabilir. Eger bir ozellik a(x) = 0 ise, o ozellik agirlik guncellemesi (weight
update) sirasinda atlanir.
train crf
1 for her egitim noktasi x, y icin
2 j icin
3 E[F
j
(x, y

)] hesapla (buna sadece E diyelim)
4 Guncelle: w
j
:= w
j
+λ[F
j
(x, y) −E]
Bu hesabin en pahali kismi neresi? Beklenti hesabi. Bu beklentileri hesaplanmasi
icin daha once verdigimiz matris carpimi yontemine benzer bir yontem kullan-
mak gerekiyor (burada vermeyecegiz, arama motorunde Rahul Gupta uzerinden
arayabilirsiniz, bu kisi bu konuyu anlatiyor).
Kaynak
[1] http://videolectures.net/cikm08_elkan_llmacrf
17
Bruce B. de Mesquita’nin (BDM) Oyun Teorisi
BDM mutabakata / anlasma ya varma / savas konularinda tahminler yapabilen
bir arastirmaci. Girdi olarak alttaki gibi bir veriyi alip,
import pandas as pd
dfiran = pd.read_csv(’iran.csv’); print dfiran
Actor Capability Position Salience
0 Jalili 24 10 70
1 Haddad 8 20 100
2 Gharazi 1 40 100
3 Rezayi 20 40 60
4 Ghalibaf 64 50 100
5 Velayati 7 50 25
6 Ruhani 21 80 100
7 Aref 30 100 70
onu hangi mutabakatin olacagi tahmini icin kullanabiliyor. Ustteki veri Iran’da
kimin baskan secilecegi hakkinda bir tahmin icin. BDM bu hesabi yapmak icin
iki yontemi var, birincisi yari-Oyun Teorisel (quasi Game Theoretic), ikincisi tam
Oyun Teorik (ve daha kuvvetli bazi ozellikleri var). Birinci model hakkinda daha
cok dokumantasyon var, bu model ile BDM pek cok basarili tahmine de imza atti
bu arada, ne yazik ki kodu acik olarak paylasmadi. Biz bu modeli kodlamaya
ugrastik.
Veride beceri (capability), ve ilgi (salience) var. Bunlar bariz. Pozisyon uzerinde
anlasmazlik olan sey, her turlu karar ilginc bir sekilde tek boyutlu bir skala uzerinden
temsil edilebiliyor, yani bir sey hic istememek 0, cok istemek 1, ve arada tum
secimler aradaki degerler olabilir. Cok / az istemek arasindaki her nokta belli
secenek paketlerini bile barindiriyor olabilir.
Oyun “evreler” uzerinden isleniyor. Her evrede aktorler gucleri oraninda diger
aktorleri kendi pozisyonlarina davet ediyorlar / etmiyorlar. Bir evrede her aktor
pek cok diger aktorden “benim yanim gel” istegi almis olabilir, evre sonunda ak-
tor bu tekliflerden (offer) kendisi icin en az degisim gerektirecek sececege gidiyor
(ilk baslangic noktasina gore, bir oncekine gore degil). Hoca bunu bu sekilde
secmis ve iyi bir secim bizce cunku doga enerji israfini sevmez. Insanlar da oyle!
Ortalamalar
Bir oyunun, herhangi bir evresi icin, agirlikli ortalama ve agirlikli mode hesaplan-
abilir. Agirlikli cunku herkesin pozisyonunun basit ortalamasi degil, kisilerin ilgi
ve gucu ile orantili bir ortalama. Agirlikli ortalama icin formul

n
i=1
c
i
s
i
x
i

n
i=1
c
i
s
i
Agirlikli mode icin biraz takla lazim, once tum veriyi pozisyonlara gore siral-
iriz, herkesin c
i
s
i
carpimini hesaplayip normalize ederiz, ve kumulatif olarak
bu rakamlari toplariz. Hangi noktada 0.5’e erisilmis ise o nokta “agirlikli orta”
1
oluyor, ve o noktanin pozisyonu mode olarak kabul ediliyor. Hatirlanabilecegi
uzere basit mode hesabi icin, yani duz bir liste sayi icin, o sayilar siralaniyordu,
ve ortadaki sayi mode olarak seciliyordu. Burada ayni kavram sadece c
i
, s
i
isin
icinde.
import scholz
dfiran.Salience = dfiran.Salience/100.
game = scholz.Game(dfiran)
print ’ortalama’, game.mean()
print ’mode’, game.weighted_median()
ortalama 54.3833734112
mode 50.0
Biraz Matematik
Her evrede hesaplanan ana formuller sunlar,
E(U
ij
|teklif et) = (1 −s
j
)U
si
+s
j
P
i
i
U
si
+s
j
(1 −P
i
i
)U
fi
E(U
ij
|teklif etme) = QU
sq
+(1 −Q)

TU
bi
) +(1 −T)U
wi

E(U
ij
) = E(U
ij
|teklif et) −E(U
ij
|teklif etme)
Teklif etmek bir diger oyuncuyu pozisyonunu degistirmesi icin iknaya ugrasmak
/ ona “sormak” (challange).
Formulerin bilesenlerini altta acacagiz.
Once genel faydadan baslayalim. Fayda (utility) U
i
ij
aktor i’nin kendi pozisy-
onuna benzerlige verdigi degerdir, diger aktor j uzaksa buna atanan fayda az,
yakinsa coktur.
U
i
ij
= 1 −2

x
i
−x
j
x
max
−x
min

U
i
ii
dogal olarak 1 degerinde, aktor kendi pozisyonunda en cok faydayi goruyor.
Bir aktor bir diger aktoru iknaya ugrasabilir. Bu durumda elde edecegi fayda -
basarili olursa- aktorun kendi pozisyon faydasi ve digerinin arasindaki uzakliga
oranli gorulebilir. Yani bana en uzak pozisiyondaki birini ikna etmek bana en
cok fayda getirir, daha yakin, daha az. Her aktorun icinde oldugu risk 0 r
i
1
olacak sekilde (ki risk ile ne denmek istedigini ileride anlatacagiz),
U
i
si
= 2 −4

2 −(U
i
ii
−U
i
ij
)
4

r
i
2
Kaybetme durumunda kaybedilen fayda U
i
fi
ise ustteki faydalar cikartmalarinin
ters cevirilmis hali olarak dusunebilirim, bir anlamda ikna edilmis olma durumu
olabilir bu, ikna ettigimde kazandigima gore edildigimde kaybederim, ve bu
cikarma isleminin ters cevirilmis hali gibi gorulebilir, yani U
i
ij
−U
i
ii
, o zaman
U
i
fi
= 2 −4

2 −(U
i
ij
−U
i
ii
)
4

r
i
U
i
ij
formulunu ustteki iki formule sokarsak, ve U
i
ii
= 1 olduguna gore, basitle-
stirdikten sonra,
U
i
si
= 2 −4

0.5 −0.5

x
i
−x
j
x
max
−x
min

r
i
U
i
fi
= 2 −4

0.5 −0.5

x
j
−x
i
x
max
−x
min

r
i
elde ederim.
Yarisma
Nihai hesap icin aktorler arasindaki muhtemel bir yarista kim ustte kalir, bunu
hesaplamamiz gerekiyor. Bu olcutu v
jk
i
ile gosterebilirim, yani aktor i eger aktor-
ler j, k arasinda secim yapmasi gerekirse kimi tercih eder? Daha dogrusu, i’nin
oyu (vote) ne olur? Bunun formulu,
v
jk
i
= c
i
s
i
(U
ij
−U
ik
)
olarak gosterilebilir.
print ’v’
print game.v(1,0,2)
print game.v(0,1,2)
print game.v(0,2,3)
v
63.1578947368
84.2105263158
94.7368421053
Kabiliyet ve ilgi ile carpmak mantikli herhalde, cunku aktorun oyunu hesapliy-
oruz, bu oy aktorun gucune oranli olmali. Hesapta i aktorunun j’den elde ede-
cegi faydayi j faydasindan cikartiyoruz. j solda oldugu icin bu hesap, arti sayilar
baglaminda, i’nin j’yi tercihi olarak ta gorulebilir, eger j’ye verilen tum oylari
hesaplamak istersek, o zaman her i icin yapilan v
jk
i
’leri toplayip bolumde kul-
lanmaliyiz, ve bolumde ise j’den gelen faydanin daha fazla oldugu oylari kullan-
maliyiz,
3
P
j
=

U
ij
>U
ik
v
jk
i

i
v
jk
i
Indiste j kullanimi biraz garip oldu, genellikle esitligin sol tarafinda i kullanmaya
alistik, ufak bir indis degisimi yapalim,
P
i
=

U
ji
>U
jk
v
ik
j

j
v
ik
j
[zaman darligi sebebiyle gerisi atlandi]
Alttaki “oyun agaci (game tree)” soyle okunabilir, ana beklenti formulleri bu
agacin “duzlestirilmis” hali bir bakima. Her secenek, secilebilecek her yol o yolun
olasiligi ve nihai uc degeri ile carpilip toplaniyor.
Bizim kodu isletince alttaki sonuclar cikti. Iran icin [5]’te 80 civari sonuc bulmus-
lar, bizde bu cikmadi. UK Isci (Labor) Partisinin avroya katilim karari 50 uzeri
[6]’da 4 civari imis.
4
Hocanin kendisine bu konuda pek cok soru sorduk [1], koda bir gozatti, yanlis bir
sey goremedi. Okuyucuya odev, eger yanlis bulursaniz duzeltin ve bana haber
verin.
Kodu isletmek icin python run.py [DOSYA] [KAC KEZ] yeterli.
BDM’in yeni modeli veriye yeni parametreler ekliyor, ornegi mugabe-full.csv
icinde bulunabilir. BDM’in bu tahminine gore uzun yillar basta kalan diktator
olan Mugabe’nin niye o noktada kalabildigini gormek mumkun, bir turlu gitmek
bilmeyen liderlerin arkasindaki dinamikleri anlamak icin bilgilendirici olurdu
5
herhalde!
Hocanin yeni modeli [4,9]’ta anlatiliyor fakat, bizce, kodlamak icin hala yeterli
bilgi yok.
Kod
import pandas as pd
import numpy as np
import itertools
Q = 1.0 ; T = 1.0
class Game:
def __init__(self,df):
self.df = df.copy()
self.df_orig = self.df.copy()
# dictionaries of df variables - used for speedy access
self.df_capability = df.Capability.to_dict()
self.df_position = df.Position.to_dict()
self.df_salience = df.Salience.to_dict()
self.max_pos = df.Position.max()
self.min_pos = df.Position.min()
def weighted_median(self):
df = self.df.copy()
df[’w’] = df.Capability
*
df.Salience
df = df.sort_index(by=’Position’,ascending=True)
df[’w’] = df[’w’] / df[’w’].sum()
df[’w’] = df[’w’].cumsum()
return float(df[df[’w’]>=0.5].head(1).Position)
def mean(self):
return (self.df.Capability
*
self.df.Position
*
self.df.Salience).sum() / \
(self.df.Capability
*
self.df.Salience).sum()
def Usi_i(self,i,j,ri=1.):
tmp1 = self.df_position[i]-self.df_position[j]
tmp2 = self.max_pos-self.min_pos
return 2. - 4.0
*
( (0.5-0.5
*
np.abs(float(tmp1)/tmp2) )
**
ri)
def Ufi_i(self,i,j,ri=1.):
tmp1 = self.df_position[i]-self.df_position[j]
tmp2 = self.df.Position.max()-self.df.Position.min()
return 2. - 4.0
*
( (0.5+0.5
*
np.abs(float(tmp1)/tmp2) )
**
ri )
def Usq_i(self,i,ri=1.):
return 2.-(4.
*
(0.5
**
ri))
def Ui_ij(self,i,j):
tmp1 = self.df_position[i] - self.df_position[j]
tmp2 = self.max_pos-self.min_pos
return 1. - 2.
*
np.abs(float(tmp1) / tmp2)
6
def v(self,i,j,k):
return self.df_capability[i]
*
self.df_salience[i]
*
(self.Ui_ij(i,j)-self.Ui_ij(i,k))
def Pi(self,i):
l = np.array([[i,j,k] for (j,k) in itertools.combinations(range(len(self.df)), 2 ) if i!=j and i!=k])
U_filter = np.array(map(lambda (i,j,k): self.Ui_ij(j,i)>self.Ui_ij(i,k), l))
lpos = l[U_filter]
tmp1 = np.sum(map(lambda (i,j,k): self.v(j,i,k), lpos))
tmp2 = np.sum(map(lambda (i,j,k): np.abs(self.v(j,i,k)), l))
return float(tmp1)/tmp2
def Ubi_i(self,i,j,ri=1):
tmp1 = np.abs(self.df_position[i] - self.weighted_median()) + \
np.abs(self.df_position[i] - self.df_position[j])
tmp2 = np.abs(self.max_pos-self.min_pos)
return 2. - (4.
*
(0.5 - (0.25
*
float(tmp1) / tmp2))
**
ri)
def Uwi_i(self,i,j,ri=1):
tmp1 = np.abs(self.df_position[i] - self.weighted_median()) + \
np.abs(self.df_position[i] - self.df_position[j])
tmp2 = np.abs(self.max_pos-self.min_pos)
return 2. - (4.
*
(0.5 + (0.25
*
float(tmp1) / tmp2))
**
ri)
def EU_i(self,i,j,r=1):
term1 = self.df_salience[j]
*
self.Pi(i)
*
self.Usi_i(i,j,r)
term2 = self.df_salience[j]
*
(1.-self.Pi(i))
*
self.Ufi_i(i,j,r)
term3 = (1-self.df_salience[j])
*
self.Usi_i(i,j,r)
term4 = Q
*
self.Usq_i(i,r)
term5 = (1.-Q)
*
( T
*
self.Ubi_i(i,j,r) + (1.-T)
*
self.Uwi_i(i,j,r) )
return (term1+term2+term3)-(term4+term5)
def EU_j(self,i,j,r=1):
return self.EU_i(j,i,r)
def Ri(self,i):
# get all j’s expect i
l = [x for x in range(len(self.df)) if x!= i]
tmp = np.array(map(lambda x: self.EU_j(i,x), l))
numterm1 = 2
*
np.sum(tmp)
numterm2 = (len(self.df)-1)
*
np.max(tmp)
numterm3 = (len(self.df)-1)
*
np.min(tmp)
return float(numterm1-numterm2-numterm3) / (numterm2-numterm3)
def ri(self,i):
Ri_tmp = self.Ri(i)
return (1-Ri_tmp/3.) / (1+Ri_tmp/3.)
def do_round(self):
df_new = self.df.copy()
# reinit
self.df_capability = self.df.Capability.to_dict()
self.df_position = self.df.Position.to_dict()
self.df_salience = self.df.Salience.to_dict()
self.max_pos = self.df.Position.max()
self.min_pos = self.df.Position.min()
7
self.df_orig_position = self.df_orig.Position.to_dict()
offers = [list() for i in range(len(self.df))]
ris = [self.ri(i) for i in range(len(self.df))]
for (i,j) in itertools.combinations(range(len(self.df)), 2 ):
if i==j: continue
eui = self.EU_i(i,j,r=ris[i])
euj = self.EU_j(i,j,r=ris[j])
if eui > 0 and euj > 0 and np.abs(eui) > np.abs(euj):
# conflict - actor i has upper hand
j_moves = self.df_position[i]-self.df_orig_position[j]
print i,j,eui,euj,’conflict’, i, ’wins’, j, ’moves’,j_moves
offers[j].append(j_moves)
elif eui > 0 and euj > 0 and np.abs(eui) < np.abs(euj):
# conflict - actor j has upper hand
i_moves = self.df_position[j]-self.df_orig_position[i]
print i,j,eui,euj,’conflict’, j, ’wins’, i, ’moves’,i_moves
offers[i].append(i_moves)
elif eui > 0 and euj < 0 and np.abs(eui) > np.abs(euj):
# compromise - actor i has the upper hand
print i,j,eui,euj,’compromise’, i, ’upper hand’
xhat = (self.df_position[i]-self.df_orig_position[j])
*
np.abs(euj/eui)
offers[j].append(xhat)
elif eui < 0 and euj > 0 and np.abs(eui) < np.abs(euj):
# compromise - actor j has the upper hand
print i,j,eui,euj,’compromise’, j, ’upper hand’
xhat = (self.df_position[j]-self.df_orig_position[i])
*
np.abs(eui/euj)
offers[i].append(xhat)
elif eui > 0 and euj < 0 and np.abs(eui) < np.abs(euj):
# capitulation - actor i has upper hand
j_moves = self.df_position[i]-self.df_orig_position[j]
print i,j,eui,euj,’capitulate’, i, ’wins’, j, ’moves’,j_moves
offers[j].append(j_moves)
elif eui < 0 and euj > 0 and np.abs(eui) > np.abs(euj):
# capitulation - actor j has upper hand
i_moves = self.df_position[j]-self.df_orig_position[i]
print i,j,eui,euj,’capitulate’, j, ’wins’, i, ’moves’,i_moves
offers[i].append(i_moves)
else:
print i,j,eui,euj,’nothing’
# choose offer requiring minimum movement, then
# update positions
print offers
#exit()
df_new[’offer’] = map(lambda x: 0 if len(x)==0 else x[np.argmin(np.abs(x))],offers)
df_new.loc[:,’Position’] = df_new.Position + df_new.offer
# in case max/min is exceeded
df_new.loc[df_new[’Position’]>self.max_pos,’Position’] = self.max_pos
df_new.loc[df_new[’Position’]<self.min_pos,’Position’] = self.min_pos
self.df = df_new
print self.df
Kaynaklar
8
[1] http://math.stackexchange.com/questions/1366279/expected-
utility-method-and-a-repeated-game-solution
[2] Bueno De Mesquita BB (1994) Political forecasting: an expected utility method.
In: Stockman F (ed.) European Community Decision Making. Yale, CT: Yale
University Press, Chapter 4, 71-104.
[3] https://oficiodesociologo.files.wordpress.com/2012/03/scholz-
et-all-unravelling-bueno-de-mesquita-s-group-decision-model.
pdf
[4] ANewModel for Predicting Policy Choices: Preliminary Tests http://irworkshop.
sites.yale.edu/sites/default/files/BdM_A%20New%20Model%20for%
20Predicting%20Policy%20ChoicesREvised.pdf
[5] http://www.scirp.org/journal/PaperDownload.aspx?paperID=49058
[6] The Predictability of Foreign Policies, The British EMU Policy, https://
www.rug.nl/research/portal/files/3198774/13854.pdf
[7] J. Velev, Python Code, https://github.com/jmckib/bdm-scholz-expected-
utility-model.git
[8] The Visible Hand, http://s3.amazonaws.com/os_extranet_files_
test/27236_59690_fa12visible.pdf
[9] Mesquita, The Predictioneer’s Game
9
Doktora Derecesi
Gerc¸ekten istedi ˘ gim s¸ey doktora mı? Doktora s ¨ ureci neyi kapsıyor?
Doktora, tek bir konu ¨ uzerinde yo˘ gunlas¸ıp, ’derinli ˘ gine’ inerek aras¸tırma ya-
paca˘ gınız uzun bir d¨ onemdir. Uzun derken 6 sene gibi bir uzunluktan bahsediyo-
rum. Derinlik derken doktora sonuna yaklas¸tı ˘ gınızda, aras¸tırma yaptı ˘ gınız dalda
d¨ unyanın en ¨ onde, ya da ¨ one yakın bir uzmanı olacaksınız. Bu alanda size danıs¸manlık
yapan hocanızdan bile daha c¸ok biliyor olacaksınız.
˙
Ic¸inde oldu˘ gunuz okulda ko-
nunuzun en ileri noktası siz olacaksınız. Tek bir konu derken, doktora yıllarınızın
son iki yılında oldukc¸a odaklı ve yo˘ gunlas¸tı ˘ gınız tek bir konu ¨ uzerinde aras¸tırma
yapmaktan bahsediyorum. Doktora zamanı, enine ¨ o˘ grenme (genelles¸me) zamanı
de˘ gil, konu ’odaklı’ ve ’derinli ˘ gine’ ¨ o˘ grenme zamanıdır.
Artık
¨
Onemli Olan Ders Almak De˘ gil
Lisans, Y¨ uksek lisans ve Mastır dereceleri hep ’enine’ olan derecelerdir. Mezu-
niyet ic¸in gerekli olan derslerin sayısı bu iki derece ic¸in oldukc¸a fazladır. Mesela
bilgisayar programcılı ˘ gı hakkında lisans ic¸in Matematik, Bilgisayar ya da M¨ uhendislik
b¨ ol ¨ umlerinden 3 ya da 4 ders almak gerekir. Mastır ic¸in de durum aynıdır.
Kars¸ılas¸tıracak olursak, doktora programı ic¸in gec¸en 6 sene ic¸erisinde genelde
10’dan az sayıda ders almanız yetiyor. Carnegi Mellon’da 5 mecburi ana ders, 3
tane de mecburi sec¸meli dersi vardır. Yani doktora sırasında vurgulanan alınan
ders sayısı de˘ gil ’aras¸tırma yapmaktır’. Bir doktora ¨ o˘ grencisi, bir dersi genelde
aras¸tırmasına yardımcı olaca˘ gını umdu˘ gu ic¸in alır. Bilgisayar konusunda aras¸tırma
yapan doktora ¨ o˘ grencisin aldı ˘ gı dersler, bilgisayar b¨ ol ¨ um¨ unden bile olmayabilir!
˙
Istatistik, Uygulama Aras¸tırma, Ruhbilim, Dilbilimya da ¨ o˘ grencinin aras¸tırmasına
hangi ders yararlı olacaksa bu ders alınır.
Aras¸tırma S¨ ureci, Danıs¸man ile Doktora
¨
O˘ grencisinin Etkiles¸imi
Daha ¨ once belirtti ˘ gimiz gibi, doktora derecesinin amacı aras¸tırma yapmaktır. Genelde
aras¸tırmanız, kendinize bir danıs¸man sec¸ti ˘ ginizde bas¸lar. C¸ o˘ gu okulda danıs¸man
sec¸imi ilk senede oluyor. CMU ¨ universitesinde, biz doktora ¨ o˘ grencilerinin hemen
aras¸tırma yapmaya bas¸lamısını istiyoruz, o sebeple programa girdi ˘ ginizden bir/iki
ay sonra danıs¸man sec¸meniz gerekiyor.
Tekrar belirtelim. Aras¸tırma, derse girmek gibi de˘ gildir. Birc¸ok ¨ o˘ grenci derse git-
mek ve derse c¸alıs¸mak olgusundan aras¸tırma yapma olgusuna gec¸is¸i yapamıyor,
sonuc¸ olarak doktoraya bas¸lıyan ¨ o˘ grencilerin ancak yarısı doktora derecesini alarak
mezun oluyor. (CMU’da 3/4 ¨ ogrenci doktor olarak mezun oluyor). Unutmayın,
bu bahsetti ˘ gimiz ¨ o˘ grenciler hem de lisans diplomasını 4 ¨ uzerinden 4.0 ile almıs¸
¨ o˘ grenciler.
Aras¸tırma ile ders girmenin farkı:
• Derste ev ¨ odevi olarak verilen problemlerin c¸ ¨ oz¨ um¨ u bellidir, ve c¸ ¨ oz¨ um ic¸in
kullanılacak teknik bilinir, ¨ odev verilmeden ¨ once derste ¨ o˘ gretilmis¸tir. Aras¸tırma
yaparken bir konu ¨ uzerinde yıllarca, c¸ ¨ oz¨ um¨ un bile olup olmadı ˘ gını bilme-
1
den c¸alıs¸abilirsiniz. Oproblemi c¸ ¨ ozmek ic¸in yeni y¨ ontemler bulacak, ’kes¸fedecek’
olan sizsiniz.
• Derste, ¨ uzerinde c¸alıs¸aca˘ gınız problemler size verilir. Aras¸tırmada, ¨ uzerinde
c¸alıs¸aca˘ gınız problemleri kendinizin sec¸me s¸ansınız var. Ayrica, ’g¨ uzel’
problemleri bulmak sizin g¨ oreviniz. G¨ uzel derken ’temel’ demek istiyorum.
Yani, Oracle veri taban programına bir yama yapıp daha hızlı is¸lemesini
sa˘ glamak eminim Oracle’ı c¸ok sevindirir, ama bu yaptı ˘ gınız temel aras¸tırma
sayılmaz. Ama veri analiz hızını arttıracak yeni bir algoritma bulmak temel
aras¸tırma sayılır. B¨ oyle c¸ı ˘ gır ac¸an aras¸tırmalar yaparken, bir ayrı g¨ oreviniz
de, aynı s¸eyi bas¸kasının yapıp yapmadı ˘ gını kontrol etmek. Bunu bas¸armak
ic¸in sec¸ti ˘ giniz alanda daha ¨ once yazılmıs¸ y¨ uzlerce makale okumanız gereke-
bilir.
• Ders alırken e˘ ger bir ¨ odev problemini c¸ ¨ ozemiyorsanız, ¨ oteki sınıf arkadas¸larınıza
sorabilirsiniz. E˘ ger arkadas¸larınız bilmiyorsa, hocanıza sorarsınız, o mut-
laka biliyordur. Aras¸tırma yaparken, ’yanlızsınız’, en iyi s¸artlarda bile danıs¸man
hocanız ve bir bas¸ka ¨ o˘ grenci ile aynı anda c¸alıs¸ıyor olacaksınız. Sonuc¸ta
d¨ unyadaki herkese sorunuzu sorabilirsiniz, fakat genelde cevabı onlarda
bilmiyor olacak; bilselerdi yaptı ˘ gınız zaten aras¸tırma olmazdı! Birc¸ok ¨ o˘ grenci
yanlız c¸alıs¸makta c¸ok g¨ uc¸l ¨ uk c¸eker.
• Derslerde s ¨ urekli not verilirsiniz, ve s ¨ urekli ¨ on¨ un¨ uzde olan konular, ne ¨ o˘ gretilece˘ gi
¨ onceden s¨ oylenir. Aras¸tırmada not yoktur. Genelde danıs¸manınızdan biraz
y¨ on verilir, ama onun haricinde hedefinize do˘ gru ilerlemek, kendinizi mo-
tive etmek ve insiyatif g¨ ostermek sizin g¨ oreviniz.
• Ders alırken, bir hocayı c¸o˘ gu zaman tek basına yakalayamazsınız. Fakat
aras¸tırma yaparken, e˘ ger bir hoca sizin danıs¸manınız ise, hocanız ile her
hafta en az 1 saat bas¸bas¸a oturacaksınız. E˘ ger hocanız c¸ok mes¸gul bir hoca
ise (unutmayalımhocalarda aras¸tırma, ders, tes¸vik para bas¸vuruları, komitel-
erde oturmak, konferans vermek ic¸in seyahat, vs ile u˘ gras¸maları gerekir),
o zaman haftada 1/2 saat alabilirsiniz. E˘ ger hocanız yeni bir hoca ise, o
zaman haftada 2 saat alabilirsiniz.
¨
Onceden plan yaparak bu saatler ic¸in
hazırlanmak sizin g¨ oreviniz, ki b¨ oylece bu saatten en faydalı s¸ekilde yarar-
lanmanız m¨ umk¨ un olsun.
• Derste hocanız ile aranızda bir mesafe vardır. Aras¸tırma yaparken danıs¸man
hocanız ile yanyana c¸alıs¸acaksınız. Tabii ki hocanız size y¨ on verecek, fikir
sa˘ glayacak, okumanız ic¸in makaleler verecek, program ¨ odevleri verecek,
ve bu g¨ orevler ic¸in son zaman tesbit edecek, vs. Fakat hocanız ile yan
yana c¸alıs¸ırken, ’es¸it meslektas¸’ olarak c¸alıs¸acaksınız.
˙
Ikiniz de birbiriniz-
den ¨ o˘ greneceksiniz. Beraber kes¸if yapacaksınız. C¸ o˘ gu ¨ o˘ grenci, danıs¸man
hocalarının beraber aras¸tırma yaparken derstekinden ne kadar de˘ gis¸ik oldu˘ guna
s¸as¸ırıyor. Mesela derste c¸ok sıkıcı, kuru ve rahatsız bir s¸ekilde ders anlatan
bir hoca, aras¸tırma yaparken canlanıyor, ve muazzam bir heyecan ile is¸e
sarılıyor. Derste, profos¨ orleri ’zaten c¸ ¨ ozd¨ u˘ g¨ u problemleri’ tekrar c¸ ¨ ozerken
seyredeceksiniz. B¨ ut ¨ un problemler dersin sonunda c¸ ¨ oz¨ ulm¨ us¸ olurlar. Aras¸tırma
2
yaparken, hocanızı sesli d¨ us¸ ¨ un¨ urken dinleyeceksiniz, ve problemleri nasıl
c¸ ¨ ozd¨ u˘ g¨ un¨ u ve yaklas¸tı ˘ gını g¨ ormeniz m¨ umk¨ un olacak.
¨
O˘ grenciler genelde
bunu c¸ok yararlı buluyorlar. Bazen, mesela kendinizin hocanızdan daha
hızlı s¸ekilde d¨ us¸ ¨ und¨ u˘ g¨ un¨ uz¨ u farkedebilirsiniz, ama hocanızın sizden daha
c¸ok fikri olabilir. Siz hesaplama ve programlama da iyi olabilirsiniz, ama
hocanız matematiksel ispatlarda, makale yazmak ve konus¸malarda sizden
daha iyi olabilir. Bu birc¸ok ¨ o˘ grenciyi s¸as¸ırtıyor, c¸ ¨ unk¨ u tipik olarak danıs¸man
hocalarının her konuda kendilerinden daha iyi olmasını bekliyorlar! Dudak
b¨ ukmeyin.. zaten bu ne kadar gerc¸ek dıs¸ı bir beklenti de˘ gil mi? Hayatta
oldu˘ gu gibi, yakınmadan e˘ ger hocanızın sizde olmayan hangi ¨ ozelliklerinin
oldu˘ gunu saptayıp, bu ¨ ozellikleri kapmak ic¸in u˘ gras¸ırsanız bas¸arılı olur-
sunuz.
Unutmayın ki, bas¸ka kimse size aras¸tırmanın nasıl birs¸ey oldu˘ gunu anlatamaz.
Aras¸tırmanın nasıl oldu˘ gunu anlamanın en rahat yolu, aras¸tırma yapmaktır! Ne
kadar erken olursa, o kadar iyi.
Aras¸tırmanın Verdi ˘ gi Mutluluk ya da Moral Bozuklukları
Aras¸tırma c¸ok ¨ od¨ ullendirici, ama bazen de c¸ok engel c¸ıkartan ve bu y¨ uzden hayal
kırıklı ˘ gı yaratan bir eylem olabilir. C¸ o˘ gu ¨ ust-lisans ¨ o˘ grencisi ¨ ust-lisans e˘ gitimini,
ta en as¸a˘ gılardan, en yukarılara kadar inip c¸ıkabilen bir d¨ onmedolap gibi tarif
ediyorlar.
Elde olmayan sebeplerden c¸ıkabilecek ¨ ofke ve sıkıntı s¸u sebeplerden olabilir. Mesela,
aynı konu hakkında c¸alıs¸an bas¸ka biri, sorunu sizden ¨ once c¸ ¨ ozm¨ us¸t ¨ ur. Ya da,
¨ ofke/sıkıntı yanlızlıktan gelebilir. Fakat en b¨ uy¨ uk ihtimalle, elde olmayan sebe-
plerden c¸ıkacak ¨ ofke/sıkıntının sebebi s¸u olacaktır.
Sandı ˘ gınız kadar akıllı olmadı ˘ gınızı farketmek.
Ekteki c¸ok tipik bir ¨ ornek.

¨
O˘ grenci X, ¨ ulkesi olan Y’den c¸ok ¨ unl ¨ u olan Z ¨ universitesinden mezun olarak
gelmis¸. Geldi ˘ gi okulda binlerce kis¸i arasından 5. olarak mezun olmus¸. Not
ortalaması olarak son sene, sınıf birincisi olmus¸.
¨
O˘ grenci, doktora programına
’ben en iyi olaca˘ gım’ beklentisi ile bas¸lıyor, ve aras¸tırma ile c¸ok yo˘ gun olarak
d¨ ort elle sarılıyor. Birinci ya da ikinci senesinin sonunda bakıyor ki, hic¸ makale
yayınlayamamıs¸. Evdeki arkadas¸ları, ailesi ’neyi var bu c¸ocu˘ gun’ diye merak et-
meye bas¸lıyorlar. Bu g¨ or ¨ unmez engele kars¸ı ¨ o˘ grenci kızgınlık ve utanc¸ hissediyor.
Danıs¸man hocasını suc¸luyor, b¨ ol ¨ um¨ un¨ u suc¸luyor, okulunu suc¸luyor. Fakat en
sonunda, olgunluk g¨ osterip, ’b¨ uy¨ uy¨ up’, belki de en iyi olmadı ˘ gını kabul ediyor,
fakat gene de e˘ ger iyi c¸alıs¸ırsa bas¸arıya ulas¸abilece˘ gini anlıyor. Daha c¸ok ’dinle-
meye’ bas¸lıyor, c¸ok c¸alıs¸ıyor ve sonunda bas¸arıya ulas¸ıyor. ”
Aras¸tırma b¨ ut ¨ un ters gidebilecek yanlarına ra˘ gmen, c¸ok haz verici bir s ¨ urec¸tir
de aynı zamanda. Bazısı ic¸in aras¸tırmanın zevki, kimsenin bilmedi ˘ gi yeni bir
s¸eyi kes¸fetmektir. Yeni bir algoritma bulmus¸ olabilirsiniz, yeni is¸letim sistem
tasarım fikri bulmus¸ olabilirsiniz, ya da bir sabit disk eris¸im hızı arttırmıs¸ ola-
3
bilirsiniz.
¨
Otekiler ic¸in aras¸tırmanın hazzı, gerc¸ekten ama gerc¸ekten anlamıs¸ ol-
manın verdi ˘ gı hazdır. Sınıfta ders veren hocanızın tam ders ya da kitap ilginc¸
gelmeye bas¸larken, durup, ”bu konunun gerisi, ders kapsamımımız dıs¸ında”
dedi ˘ gine s¸ahit oldunuz mu? Aras¸tırma yaparken, bir konuyu istedi ˘ giniz kadar
derinlikte pes¸inden kos¸arsınız, ve hakkında her s¸eyi anlayabilirsiniz. C¸ o˘ gu dok-
tora ¨ o˘ grencisi ic¸in de aras¸tırmanın hazzı, damgasını vurmus¸ olmak, bir konuda
etkisini hissettirmek bir s¸eyleri de˘ gis¸tirmis¸ olmaktır, mesela sistemlerin yapılıs¸
tarzını de˘ gis¸tirdiniz, ya da sistemlerin daha akıllıca tasarlanması ic¸in yardım
etmis¸ oldunuz. Tabii ’bir is¸i, yapılması gerekti ˘ gi gibi yapmanın’ verdi ˘ gi haz da
vardır. Bir s¸irkette, amac¸ ¨ ur ¨ un¨ u c¸alıs¸ır hale getirip piyasaya s ¨ urmektir. Aras¸tırma
yaparken, projenizi uzun uzadıya planlayıp ve her ac¸ıdan kararlas¸tırıp, her tasarım
sec¸iminizi gurula savunabilir hale gelmeniz m¨ umk¨ und¨ ur. Aras¸tırma, c¸abucak
toparlama yamayla kapatma zamanı de˘ gildir. C¸ o˘ gu insan da, bir konu hakkında
otorite olmayı, ve aras¸tırmasının bas¸kaları tarafından referans g¨ osterilmesini sever.
Doktora Sırasında Sermaye Kayna˘ gı
Anne babanızın para verdi ˘ gi lisans s ¨ urecinin, ya da mastır sırasında asistan olarak
c¸alıs¸ıp ve halen para ¨ odedi ˘ giniz sistemin tersine, doktora sırasında para artık
sizin ic¸in problem olmayacak. C¸ o˘ gu okulda doktora ¨ o˘ grencileri doktora sırasında
hic¸ para ¨ odemezler. Hatta ¨ ust ¨ une okuldan yas¸am gelirleri ic¸in maas¸ bile ba˘ glanır,
bu genelde ayda $1700 civarıdır. En iyi s¸artlarda, tek yaptı ˘ gınız aras¸tırma ola-
caktır. Bunun ismi ’aras¸tırma yardımcı g¨ orevlisi’ (Research Assistanship) olmaktır.
Doktora, muazzam bir fırsattır. Istedi ˘ giniz konuda istedi ˘ giniz danıs¸manı sec¸ip,
bol yardımg¨ orece˘ giniz, problemler hakkında derin derin d¨ us¸ ¨ unebilece˘ giniz, makale
yayınlayabilece˘ giniz, ¨ unl ¨ u olabilece˘ giniz, aynı zamanda 6 sene sıfır okul ¨ ucreti
¨ odeyip, ¨ ust ¨ une maas¸ alaca˘ gınız bir ortamda olacaksınız. Bu fırsatın bedelini
danıs¸man hocanız ¨ od¨ uyor olacak; bunu, s¸irketlere ya da devletten tes¸vik ser-
mayesi alarak yapacak. Bir danıs¸man hoca ic¸in her doktora ¨ o˘ grencisinin maliyeti
yılda 50,000 doları bulabilir (ders ¨ ucretleri, maas¸, okulun kesti ˘ gi vergi, alet/edevat
masrafı, vs).
¨
Onemli not 1: C¸ o˘ gu okulda, yardımcı aras¸tırmacı olarak c¸alıs¸mak, sadece danıs¸man
hocanızın tesvik parası var ise m¨ umk¨ un oluyor. Bazı hocalar tesvik ic¸in bas¸vuru
yapmadı ˘ gı, ya da tes¸vik parasının az oldu˘ gu alanlarda oldukları ic¸in, yas¸am
¨ ucreti ic¸in yardımcı ¨ o˘ gretmen olarak c¸alıs¸maya mecbur olabilirsiniz. Ben ¨ ust-
lisans ¨ o˘ grencisi iken, bazı arkadas¸larım tam 13 d¨ onem yardımcı ¨ o˘ gretmenlik yap-
mak zorunda kaldılar, kendi kendilerine okulu devam ettirebilmek ic¸in! Bu tabii
sec¸eneklerden sadece birisi, di ˘ ger sec¸enek, danıs¸man hocalanızı elinde tes¸vik
olanlardan sec¸mek. CMU ¨ universitemizde sistemgayet g¨ uzel, her doktora ¨ o˘ grencisi
maas¸ ve ders ¨ ucreti, danıs¸manı kim olursa olsun okul tarafından ¨ odeniyor.
¨
Onemli not 2: Birc¸ok s¸irket ve h¨ uk¨ umet birimleri, ¨ ust-lisans para deste˘ gi (gradu-
ate fellowship) verir. E˘ ger s¸anslı c¸ıkıp bunlardan birini alabilirseniz, bu destekler
b¨ ut ¨ un doktora s ¨ urenizi kars¸ılamıs¸ olur, ve b¨ oylece danıs¸man hocanızın tesvik
parası olup olmadı ˘ gı ¨ onemli olmaz.
4
Doktoradan Sonra Hayat
Hayatınızın 6 senesini planladı ˘ gınız s¸u zamanda, s¸ ¨ oyle bir durup, ’bitirdikten
sonra’ ne yapaca˘ gınızı d¨ us¸ ¨ unmeniz yararlı olur. C¸ o˘ gu ¨ o˘ grenci doktora bittik-
ten sonra, akademiya (ya ¨ universiteye ya sadece ders verilen bir ortama) geri
d¨ on¨ uyor ve profos¨ or oluyor, ya da aras¸tırma labaratuvarına giriyorlar. Bazı ¨ o˘ grenciler
doktorayı aldıktan sonra bir daha hic¸ aras¸tırma yapmıyorlar, b¨ oyle arkadas¸lar
ic¸in, bizce, doktora derecesi ve onun ic¸in harcanan s ¨ ure, koca bir zaman kaybıdır.
E˘ ger bir aras¸tırma ¨ universitesinde profos¨ or olacaksanız, hayatınız s¸ ¨ oyle gec¸ecek.
• Ne istersen o konuda aras¸tırma yap
• Doktora ¨ o˘ grencilere yardım et
• Ders ver
• Tes¸vik sermayesi ic¸in bas¸vuru yap
• Bas¸ka aras¸tırmacılar ile c¸alıs¸mak ve konferanslar vermek ic¸in seyahat yap
• B¨ ol ¨ um¨ un¨ uz ic¸in yardımcı bazı hizmetler yapmak (bu konus¸mayı size ver-
mek gibi)
Farkettiyseniz, ’hayatınız’ dedim, ’is¸iniz’ demedim. C¸ ¨ unk¨ u yeni bir aras¸tırmacı
ic¸in, is¸iniz, hayatınız olacak. Benim ic¸in harika bir hayat bu, c¸ ¨ unk¨ u b¨ ut ¨ un bu
eylemlerin hepsini yapmayı zaten ben c¸ok seviyorum. Ve bu eylemlerin hep-
sinde de sıkı c¸alıs¸ıyorum, fakat aynı zamanda farketmeden de gec¸emiyorum ki,
bu herkese g¨ ore bir is¸ de˘ gil.
E˘ ger sadece ¨ o˘ gretim yapan bir ¨ universitede iseniz, is¸iniz s¸unlar olacak.
• Bir s ¨ ur ¨ u ders ver
• B¨ ol ¨ um¨ un ic¸in hizmetler yap
• Arada sırada alt-lisans ¨ o˘ grencilere aras¸tırmalar hakkında yardım et
• Arada biraz kendi aras¸tırmanı yap
E˘ ger aras¸tırma labaratuvarına katılırsanız, is¸iniz s¸unlar olacak.
• Aras¸tırma yap (yarısı kendi istedi ˘ gin konular ¨ uzerinde, yarısı s¸irketinizin
istedi ˘ gi konular hakkında)
• S¸irketteki ¨ oteki insanlar ile c¸alıs¸

¨
Otekiler ile c¸alıs¸mak ve konus¸ma yapmak ic¸in biraz seyahat.
5
Doktora Derecesi Almalı mıyım?
Bu kararı alırken, akılda tutulacak konulardan bazıları:
• Doktora herkes ic¸in uygun de˘ gildir!
• Doktora derecesi, ortalama 6 sene gerektirir.
• E˘ ger aras¸tırmayı ve ¨ o˘ gretmeyi denediniz, ve bunlardan en az birini sevmiyor
iseniz, doktorayı hic¸ d¨ us¸ ¨ unmeyin! Not: Doktora programı c¸o˘ gunlukla aras¸tırma
ic¸erir, ¨ o˘ gretmek de˘ gil, fakat e˘ ger ic¸inizde ¨ o˘ gretme as¸kı var ise, bu moti-
vasyon doktorayı bitirmenize yardım edebilir, sonuc¸ta ¨ o˘ gretmen olabilmek
ic¸in. Bunun birc¸ok ¨ orne˘ gini g¨ ord¨ um.
• Doktora, belli bir karakter yapısı gerektiriyor. Bir problemi c¸ ¨ ozmeye fa-
natik bir saplantı haline getiren biri olmanız lazım. Kesinlikle pes etmeyen
bir kapasiteniz olmalı, ve a˘ gır c¸alıs¸mayı g¨ oze alabilen ve yapabilen biri ol-
malısınız. Problenizi c¸ ¨ ozmek ic¸in ne gerekiyorsa yapmayı g¨ oze almak da
lazım, mesela 5 tane matematik dersi almak, veri tabanı gibi tamamen yeni
bir alan ¨ o˘ grenmek, b¨ ut ¨ un is¸letim sistem c¸ekirde˘ gini bas¸tan yazabilmek gibi
• Niye doktora istedi ˘ ginizi bilmelisiniz. Bu amacınız hakkında vizyon ve fikir
sahibi olmalısınız, ve kendinizi bu konular hakkında anlatabilmelisiniz.
• Normal olarak, 4 sene alt-lisansı bitirdikten sonra bazı ¨ o˘ grenciler hala tam
karar vermemis¸ oluyor. Bu normal, ben de bu ¨ o˘ grencilerden biriydim. B¨ oyle
¨ o˘ grenciler ic¸in en iyisi, bir aras¸tırma ya da sanayii labaratuvarında bir kac¸
sene aras¸tırma ortamında c¸alıs¸ıp, sonra kararı vermek. E˘ ger emin de˘ gilseniz,
birkac¸ sene c¸alıs¸mayı s¸iddetle tavsiye ederim.
¨
Ust lisansa, ne istedi ˘ ginizi
anlamadan katiyen bas¸vurmayın.
Benimhikayems¸ ¨ oyle oldu: Matematik ve Bilgisayar hakkında alt-lisansı bitirmis¸tim.
Bundan sonra, GTE s¸irketinin sanal zeka labaratuvarında c¸alıs¸maya bas¸ladım.
˙
Ilk ¨ once, maas¸ ve tek bas¸ıma kendimi destekleyebilmek bana c¸ok g¨ uzel geldi.
Aras¸tırma yaptı ˘ gımalanı da seviyordum; benzer-olus¸ tanıma ve kategoriles¸tirme.
Otomatik kars¸ılıklı ilis¸ki matrislerinin ¨ ozvekt ¨ orlerini kullanarak, bakıs¸ ac¸ısı bazlı
de˘ gis¸imler ile u˘ gras¸ıyordum. Fakat bir s ¨ ure sonra farkettim ki, bu konuda daha
fazla bilgi sahibi olmak istiyorum. Niye bazı algoritmaların iyi sonuc¸ verdi ˘ gini,
niye ¨ otekilerin k¨ ot ¨ u sonuc¸ verdi ˘ gini anlamak istiyordum. Kendi algoritmalarımı
yaratmak istiyordum. Kendi sorularımı cevaplayacak yeterli matematik bilgim
olmamasından endis¸e ediyorum, vs.. Yani sonuc¸ olarak, konuya daha derin dal-
mak istiyordum. S¸irkette beraber c¸alıs¸tı ˘ gım c¸o˘ gu kis¸i, b¨ oyle s¸eyleri istedi ˘ gim ic¸in
benim bir ’garip’ oldu˘ gumu d¨ us¸ ¨ un¨ uyordu. 2 sene sonra istifa ettim, ve doktoraya
bas¸ladım. Okuldaki ilk ay etrafıma bakıp g¨ ord¨ um ki, herkes aynen benim gibi bir
garip! Bunu farkedince, do˘ gru sec¸imi yaptı ˘ gımı anladım.
Doktora Ogrencilerine Ogutler
6
(Carnegie Mellon ¨ universitesi profos¨ or ¨ u Manuel Blum’un lisans ¨ ust ¨ u bilgisayar
bilim ¨ o˘ grencilerine konus¸masından alınmıs¸tır)
¨
Ust lisansın d¨ ort eylemi: Okumak, Aritmetik, Aras¸tırmak, Yazmak
Sunus¸ Sırası
• Okumak, C¸ alıs¸mak, D¨ us¸ ¨ unmek
• Doktoranın Bas¸ında
• Doktoranın Ortasında
Okumak
Kitaplar tomar de˘ gildir.
Tomarların, torah gibi bas¸tan sona okunması gerekir.
Kitaplar, rasgele eris¸imlidir – tomarlara g¨ ore b¨ uy¨ uk ilerleme yani.
Kitapların bu ¨ ozelli ˘ ginden istifade edin! Bir kitabı bas¸tan sona okumakla kendi-
nizi y¨ uk¨ uml ¨ u hissetmeyin. Kitabın herhangi bir yerinden ac¸ıp okumaya bas¸lamakta
hic¸ bir sakınca yoktur.
¨
Ozellikle matematik ve fizik gibi a˘ gır olan konuların kitaplarında, anlayabildi ˘ giniz
ne var ise oradan bas¸layın. Okuyabildi ˘ giniz kadarını okuyun. Sayfa bos¸luklarına
yazın (bunun ne kadar faydalı olabilece˘ gini biliyorsunuz). B¨ oylelikle, aynı kitaba
geri d¨ ond¨ ug¨ un¨ uzde, artık daha c¸ok s¸ey okuyabileceksiniz. B¨ oyle yaparak, her
seferinde azar azar mesafe katederek, muazzˆ am zor konuları bile ¨ o˘ grenmeniz
m¨ umk¨ und¨ ur.
Okudu˘ gunuzu bir yandan deftere yazmayı d¨ us¸ ¨ un¨ un. E˘ ger c¸ok zor bir konuyu
okuyacaksanız, okuduklarınızı yazman yararlı olabilir.
M
˙
IT’de Bertram Konstant adında bir matematik profos¨ or ¨ un¨ u hatırlıyorum. Ne
zaman odasında olsa, kapısı ac¸ık olurdu.
Yazardı.
Yazardı. S¨ urekli yazardı.
Aras¸tırmasını mı yazıyordu? Belki.
Aklına gelen fikirleri mi yazıyordu? Belki.
Bence, okuyordu, ve okuduklarını aynen yazıyordu.
S¸ahsen benim ic¸in de okuduklarımı yazmak, zor bir konuyu ¨ o˘ grenmenin en kˆ arlı
ve zevkli yollarından biridir.
C¸ alıs¸mak
Hepiniz bilgisayar bilimcisiniz.
7
Hepiniz Finite Automata’nın ne yapabilece˘ gini biliyorsunuz. Hepiniz Turing
makınasının ne yapabilece˘ gini biliyorsunuz. Mesela Finite Automata toplama
yapabilir, ama c¸arpma yapamaz.
Turing makinaları b¨ ut ¨ un hesaplanabilir fonksiyonları hesaplayabilir.
Turing makinaları Finite Automata’dan kat kat daha ¨ ust ¨ und¨ ur.
Fakat TM ile FA arasındaki yegane fark s¸udur: TM’sının elinde ka˘ gıt ve kalemi
vardır, FA’nın ise yoktur.
Bir d¨ us¸ ¨ un¨ un.
Bu, yazmanın g¨ uc ¨ un¨ u g¨ osteriyor.
Demek ki e˘ ger yazmıyorsanız, Finite Automata seviyesine d¨ us¸ ¨ uyoruz demektir.
Ama yazarak, Turing makinasının g¨ uc ¨ une eris¸ebiliyoruz.
D¨ us¸ ¨ unmek
Claude Shannon bana bir seferinde s¸unu anlatmıs¸tı: K¨ uc¸ ¨ uk yas¸tayken bir res-
imli bulmaca yapıyormus¸ ve bir yerde takılıp kalmıs¸. O sırada abisi yanından
gec¸erken s¸ ¨ oyle demis¸: ”Sana s¸imdi bir ipucu verirdim, c¸ ¨ ozerdin ama...”.
Abisi sadece bu kadar demis¸.
Fakat bu dedikleri Claude’ın bilmeceyi c¸ ¨ ozmesi ic¸in yeterli olmus¸.
Bu ipucu’nun en g¨ uzel tarafı nedir biliyormusunuz?
Kendinize bu ipucunu istedi ˘ giniz zaman verebilirsiniz.
Tavsiyem s¸udur: C¸ ok c¸etin bir problemde takılıp kaldı ˘ gınızda minik bir kus¸un,
ya da, kendinizin yas¸lı hˆ alinin kendinize s¸ ¨ oyle fısıldadı ˘ gını d¨ us¸ ¨ un¨ un:
”Sana s¸imdi bir ipucu verirdim, c¸ ¨ ozerdin ama...”
Bir keresinde Umesh Vazirani adındaki bir M
˙
IT ¨ o˘ grencisine, her d¨ onem nasıl 6
lisans seviyesinde ders alabildi ˘ gini sordum.
Bana problemleri zor yoldan c¸ ¨ ozmeye vaktinin olmadı ˘ gını, o y¨ uzden hep bir ke-
stirme buldu˘ gunu s¨ oyledi.
Umesh anlamıs¸tı ki, problemlerin c¸o˘ gunlukla hem kısa hem de zekice bir c¸ ¨ oz¨ um
yolu vardır.
Bazen de ¨ oyle olur ki, bir problemin ¨ ust ¨ unde uzun uzun d¨ us¸ ¨ un¨ urs ¨ un¨ uz, ve c¸ ¨ oz¨ um
bulamazsınız. Ve bir bakarsınız aynı meseleyi bir bas¸kası c¸ ¨ ozm¨ us¸. Dikkat edin,
bu, yeni bir s¸ey ¨ o˘ grenmek ic¸in b¨ uy¨ uk fırsattır.
Kac¸ırmayın.
Kendinize sorun: ”Nasıl d¨ us¸ ¨ unmeliydim de bu c¸ ¨ oz¨ um¨ u ben bulabilmeliydim”.
Bunu yapmanın bana c¸ok yararlı oldu˘ gunu g¨ ord¨ um.
8
Bazen de bir problem ¨ uzerinde uzun uzun d¨ us¸ ¨ un¨ urs ¨ un¨ uz, ve c¸ ¨ oz¨ um¨ u BULUR-
SUNUZ!
Ondan sonra bir bakarsınız ki, bir bas¸kası b¨ oyle bir c¸ ¨ oz¨ um¨ u sizden ¨ once yayınlamıs¸.
Bu durum sizin ic¸in a˘ gır olabilir, ama bu da ¨ o˘ grenmek ic¸in iyi bir fırsattır.
Yayınlanan makaleyi okuyun.
S¸as¸kınlik ile g¨ oreceksiniz ki bu makale, sizin makalenize g¨ ore bazı ac¸ılardan c¸ok
de˘ gis¸ik. Bu ’ ¨ oteki’ makale as¸a˘ gi yukarı:
• %50 ihtimalle sizin makalenizden tamamen de˘ gis¸ik
• %25 ihtimalle aynı, ama sizinki kadar iyi de˘ gil
• %25 ihtimalle sizinkinden daha iyi
Bu demektir ki, %50’den fazla bir ihtimalle halˆ a yayın yapma s¸ansınız var.
Ya ¨ oteki makalenin daha iyi oldu˘ gu %25 ihtimal s¨ ozkonusu ise?
˙
Is¸te size ¨ o˘ grenmek ic¸in bir fırsat!
Kendinize sorun: ”Nasıl d¨ us¸ ¨ unmeliydim de bu c¸ ¨ oz¨ um¨ u ben bulabilmeliydim”.
Genc¸ bir m¨ uhendisken, s¸u ”modern cebir” denen g¨ uc¸l ¨ u y¨ ontemi ¨ o˘ grenmemgerekti ˘ gini
is¸te b¨ oyle anlamıs¸tım.
Elektrik m¨ uhendisli ˘ gi lisans derecesinden, Matematik ¨ ust lisansa gec¸memin se-
bebi bu idi. Tabii bu daha bilgisayar bilim denen s¸eyden c¸ok ¨ onceydi.
Gene d¨ us¸ ¨ unmek ¨ ust ¨ une..
’Paradoks, yani mantı ˘ ga aykırı g¨ oz¨ ukebilen d¨ us¸ ¨ uncenin’ ve ’c¸elis¸kinin’ ¨ onemi
¨ ust ¨ une..
Bir s¨ oylemin ’do˘ gru’ oldu˘ gunu matematiksel ispat etmis¸seniz, ve gene aynı s¨ oylemin
bir de yanlıs¸ oldu˘ gunu ispat edebiliyorsanız, bir bulus¸a c¸ok yaklas¸mıs¸ olabilirsiniz.
Bir yerde bir s¸ey yerine oturmamıs¸ demektir.
C¸ elis¸kinin g¨ uc ¨ un¨ u hic¸ k¨ uc¸ ¨ umsemeyin.
˙
Insano˘ glu’nun en ¨ onemli bilgi kaynaklarından biridir.
¨
Orneklerden biri, yalancının paradoksu olan: ”Bu s¨ oylem yanlıs¸” paradoksudur.
Bu d¨ us¸ ¨ uncenin k¨ umeler kuramındaki uygulamalarını d¨ us¸ ¨ un¨ un, dilbilimde ge-
tirdi ˘ gi yenilikleri...
Sayılabilme ve sayılamama alanlarında paradoklar var.
Yazılımbilimde ’donma problemi’ paradoksu var.
Fizikte bir c¸ok paradokslu konu var.
9
Kuantum kuramında Einstein-Rosen-Podulsky paradoksu var.
˙
Izafi olarak hızlanan ikizler.
Maddenin dalgasal ve tanecik olabilme ¨ ozelli ˘ gi.
Burada benims¸u anda ¨ uzerinde c¸alıs¸makta oldu˘ gumaras¸tırmamdan bahsedeyim.
Paradoks kullanıyorum.
¨
Ozellikle bilic¸in paradoksu ile ilgileniyorum. S¸u iki
apayrı g¨ or ¨ us¸ ¨ u kars¸ılas¸tırın.
1. Bu g¨ or ¨ us¸e g¨ ore insanlar bir MEKAN
˙
IZMAlar, oldukc¸a fazla ama sonuc¸ta sınırlı
hafızaları var, robotumsu varlıklar. Aynen bilgisayarın programlandı ˘ gı gibi pro-
gramlanabiliyorlar. Ya da,
2.
˙
Insanlar d¨ us¸ ¨ unce dolu, g¨ ozlemci yaratıklar ve tanrıvari bir h¨ ur iradeleri var.
˙
Insanlar bilinc¸li varlıklar. Son derece c¸etrefilli ve yetenekli bir mekanizmanın
kontrol ¨ u ellerinde, yaptıklarını, bilinc¸altından c¸ıkıveren/¨ uste gelen d¨ us¸ ¨ uncelerin
arasından sec¸iyorlar, ve uyguluyorlar.
Bana g¨ ore bu iki g¨ or ¨ us¸te do˘ gru. Ama bu nasıl olabilir?
Johnsun’un hayatı adlı kitabında James Boswell, Samuel Johnson’ın bir deyis¸ini
aktarır. ”H¨ ur iradeye b¨ ut ¨ un teoriler kars¸ı gelir, ama b¨ ut ¨ un tecr ¨ ubeler destekler”.
Johnson, Nevton g¨ om¨ uld¨ u˘ g¨ u sırada 18 yas¸ındaydı.
Johnson biliyordu ki, F=ma’nin g¨ osterdi ˘ gi, insanların mekanizma oldu˘ gu idi.
”H¨ ur iradeye b¨ ut ¨ un teoriler kars¸ı gelir, ama b¨ ut ¨ un tecr ¨ ubeler destekler”
Benim dipnotum burada bitiyor.
Bir problemi nasıl c¸ ¨ ozece˘ ginize dair bir liste yapın. Benim en g¨ ozde y¨ ontemim
ufak bas¸lamak. Kıyaslamak gerekirse, David Gries’ınki kendini muhtemel bir
c¸ ¨ oz¨ um¨ un ic¸ine koymak.
¨
Ornek olarak David’in ¨ unl ¨ u kahve kutusu problemi.
Bir kutu siyah ve beyaz kahve c¸ekirde˘ gi oldu˘ gunu d¨ us¸ ¨ unelim, ve s¸unları ya-
palım.
˙
Iki c¸ekirdek c¸ıkartalım, e˘ ger ikisi de aynı renk ise onların yerine bir beyaz
c¸ekirdek geri koyalım. E˘ ger c¸ekilen iki c¸ekirdek ayrı renkler ise, onların yerine
siyah bir c¸ekirdek geri koyalım. B¨ oyle gidersek en son c¸ekirde˘ gin rengi ne olur?
Beyin bir kastır. Kullandıkc¸a g¨ uc¸lenir. C¸ ok g¨ uc¸l ¨ u olsa bile, kullanılmazda zayıf
d¨ us¸er. Kasparov Deep Blue’ya kars¸ı satranc¸ mac¸ını kaybetmeden aylar ¨ once an-
nesi Kasparov’a kızmıs¸tı, satranc¸ talimi yapmıyor diye. Annesi endis¸esinde haklı
c¸ıkmıs¸tı.
Doktoranın Bas¸ında
IVIC adlı bir s¸irkette girdi ˘ gim harika bir is¸i hatırlıyorum. (IVIC=Instituto Vene-
zolano de Investigaciones Cientificos). Svaetichin adlı bir n¨ urofizikc¸i bana c¸ ¨ ozmem
ic¸in bir g¨ uzel bir sorun verdi. Problemi ne yazıki ki c¸ ¨ ozemedim. Problem, ıs¸ı ˘ gı
altın balı ˘ gının g¨ oz¨ undeki ”tek bir h¨ ucrenin” ¨ uzerine odaklamanın y¨ ontemini bul-
mak idi. Svaetichin, siyah teneke ¨ uzerinde ufacık bir delik ac¸arak ıs¸ı ˘ gı buradan
s ¨ uzmeyi denemis¸ti, bu yaklas¸ım orta boy deliklerde is¸lemis¸ olsa bile, c¸ok ufak
10
deliklerde ıs¸ı ˘ gın sapmasına yol ac¸ıyor, de˘ gis¸ik ıs¸ık kalıpları ortaya c¸ıkıyordu.
Svaetichin problemi c¸ ¨ ozemedi ˘ gine g¨ ore, ben de c¸ ¨ ozemem diye karar verdim.
Ya da, bu problemin fiziki olarak c¸ ¨ oz¨ ums ¨ uz oldu˘ gunun d¨ us¸ ¨ und¨ um. S¸imdiki
aklım olsaydı, fizik kitaplarımın hepsini okumaya tekrar bas¸lar, ¨ ozellikle optik
kitaplarını hatim etmeye u˘ gras¸ırdım, bir yandan etraftaki ¨ oteki aras¸tırmacılar
ile konus¸ur, Svaetichin’a danıs¸ırdım, vs. Svaetichin, e˘ ger okuyuyor, d¨ us¸ ¨ un¨ uyor,
c¸alıs¸ıyor olsaydım, bana yardım ederdi.
Tez danıs¸manınızın size ”kendisinin c¸ ¨ ozebilece˘ gi” bir problemi vermesini bekle-
meyin. Tabii bunu yapabilir de.
• Size sonucunu zaten bildi ˘ gi bir problem verebilir
• Size c¸ ¨ oz¨ umlenebilece˘ gini d¨ us¸ ¨ und¨ u˘ g¨ u, ama daha kendisinin c¸ ¨ ozmedi ˘ gi bir
problem verebilir
• Size muzammam zor bir problem verebilir
E˘ ger size verilen problem yeterince zor ise, size tavsiyem ola˘ gan-dıs¸ı cevaplara
bakmanız. Bu noktaya geri d¨ onece˘ giz.
Tez danıs¸manı hocanız, size kendisinin c¸ok rahat ve bilgili oldu˘ gu bir alanda
problemverebilir. B¨ oylece sorun c¸ıktı ˘ gında ona soru sorabilir, ve y¨ on alabilirsiniz.
Ya da, size kendisinin az ya da hic¸ bir s¸ey bilmedi ˘ gi bir alanda problem vere-
bilir, b¨ oyle s¸artlarda sizin ¨ o˘ grendikleriniz ile onu bilgilendirmeniz, ve e˘ gitmeniz
gerekecek.
Normal olarak ikinci s¸ık ic¸in, sizin her s¸eyi kendi bas¸ınıza ¨ o˘ grenmeniz gereke-
cek. Tabii kaynak olarak ¨ oteki arkadas¸larınız, makaleler, kitaplar, ve derslerden
yararlanacaksınız.
Bu iki t ¨ ur tez danıs¸manı da sizin ic¸in iyi olabilir. S¸ahsen, hangi t ¨ ur ¨ un ¨ otekinden
iyi oldu˘ gunu bilmiyorum. Tek bildi ˘ gim, hangi t ¨ ur danıs¸manınızın oldu˘ gunu
”bas¸tan bilmenizdir”.
Hangi konuyu aras¸tırırsanız aras¸tırın, konuyu severek aras¸tırıyor olmalısınız.
¨
Oyle sevmelisiniz ki, bas¸kaları c¸oktan o konuyu bıraktıktan sonra halˆ a onu aras¸tırabiliyor,
d¨ us¸ ¨ un¨ uyor olabilmelisiniz.
Doktoranın Ortasında
ANATOLE FRANCE s¸ ¨ oyle demis¸: ”Bir ¨ universite ¨ o˘ grencisi ( ¨ ozellikle doktora
¨ o˘ grencileri), hers¸ey hakkında birs¸eyler, birs¸ey hakkında da hers¸eyi bilmelidir”.
Doktora ¨ o˘ grencileri hakkındaki espriyi bilirsiniz. Doktora ¨ o˘ grencisi gitgide daha
az s¸ey hakkında daha fazla s¸ey ¨ o˘ grenir, sonunda hic¸birs¸ey hakkında hers¸eyi biliy-
ordur.
Doktora sırasında konuyu ¨ oyle daraltacaksınız ki, bu konu hakkında hers¸eyi
bilebilesiniz.
11
˙
Ilk bas¸ta bu, bir toplui ˘ gnenin ucu ile u˘ gras¸ıyorsunuz gibi gelebilir. D¨ unyanın
ufacık bir kesitidir sanki sizinki, kristal tanesidir, g¨ uzeldir, ama daha b¨ uy¨ uk bir
resim ic¸inde mikroskopik kalır.
Bu ufacık d¨ unyanızda usanmadan c¸alıs¸ın. G¨ oreceksiniz ki, bu ufacık kesiti anla-
maya bas¸ladı ˘ gınızda, konunuz, kesitiniz d¨ unyayı kaplıyor.
Zamanla, kendi kum taneci ˘ giniz ¨ uzerinde d¨ unyayı g¨ oreceksiniz.
Kum tanesi ¨uzerinde d¨unyayı g¨ormek
Ya da yabani ot ¨uzerinde cenneti,
Sonsuzlu˘gu elinde tutmaktır
Ya da ebediyeti bir saatte.
WILLIAM BLAKE (1757-1827)
C¸ ok de˘ gis¸ik t ¨ urden aras¸tırma c¸es¸itleri vardır.
Mesela, do˘ gru bildi ˘ ginizi ispatlamak ic¸in aras¸tırma yapabilirsiniz.
Do˘ gru olanı aras¸tırabilirsiniz. B¨ oyle aras¸tırmaların en iyi olanları, bas¸ta do˘ gru
bildi ˘ giniz birs¸eyin yanlıs¸lı ˘ gını ispatlamayı bas¸arırlar.
Mesela, Fred Hoyle ”B¨ uy¨ uk Patlama” terimini, tersini ispatlamaya u˘ gras¸ırken
bulmus¸tu.
Gene s¸ahsımdan ¨ ornek vereyim. Ntane tamsayının ortalamasını bulmaya u˘ gras¸an
herhangi bir deterministik algoritmanın, Ntamsayıyı sıraya dizmek ic¸in gerekti ˘ gi
kadar kars¸ılas¸tırma is¸lemi yapması gerekti ˘ gini d¨ us¸ ¨ un¨ uyordum, yani N log N.
Hayretle g¨ ord¨ umki, Ntamsayının orta de˘ geri O(n) kars¸ılas¸tırma ile bulunabiliyor!
Bir s¨ oylemS’in do˘ grulu˘ gunu ispata u˘ gras¸ırken, hic¸ de˘ gilse biraz zamanı bu s¨ oylemin
yanlıs¸lı ˘ gını ispat ic¸in ayırın. S¨ oylem hakikaten do˘ gru bile olsa, yanlıs¸lı ˘ gını ispata
c¸alıs¸mak yeni bir ac¸ıdan bakmanızı sˆ a˘ glayacak, ve size yeni fikirler verecektir.
Manuel Blum
Cahit Arf’in Tavsiyeleri
Unlu matematikcilerden Dr. Cahit Arf ogrenci oldugu zamanlarda, hatta bazen
sonrasinda bile, bir teoriyi ogrenmek ve incelemek istedigi zaman kitapta onun
ispatinin oldugu bolumu kapatarak o teoriyi once kendisinin ispatlamaya cal-
istigini soyler. Bu caba basarisiz olabilir, ama sonra cevaba, ispata baktigi zaman
ondan daha cok sey ogrenebilecektir, cunku problemi kendimiz cozmeye calistigi
zaman zihninde bir suru soru olusmustur, ve cozume bakildigi zaman, ve bu
sorularin cevabi alininca, daha derin bir sekilde ogrenmek mumkun olacaktir.
12

You're Reading a Free Preview

İndirme
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->