You are on page 1of 12

Istanbul Ticaret niversitesi Sosyal Bilimler Dergisi Yl:8 Say:15 Bahar 2009 s.

167-178

DORUSAL OLMAYAN REGRESYON ANALZNDE GEREK DEER KODLAMALI GENETK ALGORTMA


Timur KESKNTRK* Serap AHN

ZET Altunkaynak ve Esin (2004), yapm olduklar almada dorusal olmayan regresyonda parametre tahminini ikili kodlamal genetik algoritma ile yapm ve elde ettikleri sonular Gauss-Newton ile karlatrmlardr. Bu almada parametre tahmininde gerek deer kodlamal genetik algoritma kullanlm ve sonular ilgili almadaki sonular ile karlatrmal olarak ele alnmtr. Anahtar Kelimeler: Regresyon, Gerek deer kodlamal genetik algoritma.

REAL-VALUED GENETIC ALGORIHM IN NONLINEAR REGRESSION ANALYSIS


ABSTRACT Altunkaynak and Esin (2004), performed parameter estimation in nonlinear regression via binary genetic algorithm encoding and compared the results with Gauss-Newtons method. In this study, real-valued genetic algorithm has been proposed for the parameter estimation in nonlinear regression and the results are compared with those of Altunkaynak and Esin. Keywords: Regression, Real-valued Genetic Algorithm.

Ar. Gr. stanbul niversitesi, letme Fakltesi, tkturk@istanbul.edu.tr Ar. Gr. stanbul niversitesi, letme Fakltesi.

167

Timur Keskintrk / Serap ahin 1. GR Olaylar ya da durumlar arasndaki ilikinin ortaya karlmas olarak zetleyebileceimiz regresyon analizi, olduka geni bir kullanm alanna sahiptir. liki, bir fonksiyonla ifade edilmekte ve bu fonksiyon yorumlanarak ilikinin gc, yn hakknda yorum yaplp, gelecekle ilgili politikalar belirlenmektedir. Fonksiyonun doru bir ekilde oluturulmas, analiz ve yorumlarn geerliliinde etkin bir rol oynamaktadr. Bu konuda gelitirilmi bir ok istatistiksel ve sezgisel teknik sz konusudur. Altunkaynak ve Esin (2004), yapm olduklar almada, Gauss-Newton ile ikili genetik algoritmay karlatrmlardr. Bu almada, ikili kodlamaya alternatif olarak gelitirilen gerek deerli genetik algoritma, dorusal olmayan regresyonda parametre tahmininde kullanlm ve ad geen alma sonularyla karlatrlmtr. kinci blmde regresyon analizi genel olarak anlatlm, Gauss-Newton yntemi zerinde daha ayrntl olarak durulmutur. Kullanlan S-byme erileri de blm sonunda verilmitir. nc blmde genetik algoritma (GA)nn tanm yaplm, teorisine ve admlarna deinilmitir. Drdnc blm uygulamaya ayrlm, kullanlan algoritmalara ait operatr ve parametreler anlatlmtr. Sonular da bu blmde raporlanmtr. Son blm, sonularn yorumlanmas ve nerilerden olumaktadr. 2. REGRESYON ANALZ Regresyon analizi, bir deikenin bir veya daha fazla deikenle arasndaki ilikinin matematik bir fonksiyonla ifade edilmesidir. Matematik fonksiyonun tipine gre dorusal ve dorusal olmayan regresyon modelleri olarak ikiye ayrlrlar (Orhunbilge, 2002). Dorusal modeller yansz, normal dalml, minimum varyansl tahmin verirken, dorusal olmayan regresyon modelleri genelde bunu sadece rnek boyutu ok byk olduunda yapabilmektedir. Sonu kartmak, dorusal modellerden daha zordur. Ayrca normal dalm teorisi, dorusal olmayan regresyon modellerine tam olarak uygulanamamaktadr. Bunun yerine asimptotik ve byk apl rnekler teorisine dayanan yntemler kullanlmaktadr (Kutner vd, 1996). Dorusal olmayan regresyon modelleri de ayn dorusal modeller gibi basit formda gsterilebilirler:
Yi = f(Xi , ) + i (1) Dorusal olmayan regresyon modellerinde, regresyon parametre says modeldeki aklayc deiken saysyla dorudan ilikili deildir. Denklem 1deki ,

168

Istanbul Ticaret niversitesi Sosyal Bilimler Dergisi Yl:8 Say:15 Bahar 2009 s.167-178

bilinmeyen parametrelerin p 1 vektr, , E(e) = 0 ve Var(e) = 2 olacak ekilde korelasyonsuz hata terimidir. f(Xi , ) ise dorusal olmayan regresyon modeli iin beklenti fonksiyonu olarak adlandrlr (Ratkowsky, 1983). Dorusal olmayan regresyon modellerinin parametre tahminleri iin nerilen birok yntem vardr. Bunlardan bilinen bazlar en kk kareler, en ok olabilirlik (maximum likelihood) ve gauss newton yntemleridir (Kutner vd, 1996). almamzda genetik algoritma sonular Gauss-Newton sonular ile karlatrlmtr. Gauss-Newton yntemi beklenti fonksiyonunun dorusallatrlmas ile balar. Dorusallatrma f(Xi , ) in bir
(0) g(0) [ g(0) ,g1 ,...........g(0)1 ] civarnda sadece dorusal terimlerin korunduu bir 0 p

Taylor serisi almyla gerekletirilir. st indiste parantez iinde iterasyon saylar olacak ekilde g(0) noktas genellikle bir balang tahmini veya model parametreleri iin balang deerlerinin bir kmesidir. teratif olarak bu sre yaknsama salanana, yani parametre tahminlerinde deikenlik anlaml saylabilecek seviyeye dene kadar devam eder. Genellikle yaknsaklk kriteri,

b j,k +1 b jk b jk

< ,

j=1,2,.,p

(2)

ye dayanr. Burada , 10-6 gibi kk bir saydr. Her iterasyon sonunda, hata kareler toplamnn deeri hesaplanarak bir azalma olup olmad kontrol edilir. Gauss-Newtondan esinlenilerek yeni bir takm yntemler gelitirilmitir. En dik inme yntemi, kesirli artmlar ve Marquardt algoritmas bunlardan bazlardr (nl, 2006). Bu almada dorusal olmayan S-biimli byme modelleri kullanlmtr. Sbiimli byme erileri reten sreler, biyoloji, tarm, mhendislik ve ekonomide yaygndr. Bu tr eriler sabit bir noktada balayarak, azalarak artan byme oranyla asimptotik bir son deere yaklar (nl, 2006). almamzda aadaki byme erileri kullanlmtr:

169

Timur Keskintrk / Serap ahin


f(x) = exp[ exp( x)]
f(x) =

(Gompertz fonksiyonu)

(3)

(1 + exp( x)

(Lojistik fonksiyonu)

(4)

f(x) =

(1 + exp( x)1/
( + x ) ( + x )

(Richards fonksiyonu)

(5)

f(x) =

(Morgan-Mercer-Flodin)

(6)

f(x) = exp( x )

(Weibull Type)

(7)

3. GENETK ALGORTMA Genetik algoritma, zellikle dorusal olmayan, ok deikenli, zor problemlerin zmne ynelik olarak gelitirilmi, populasyon temelli sezgisel bir yntemdir (Goldberg, 1989; Michalewicz, 1992; Reeves, 1995). nbilgi ve varsaymlar olmadan, sadece ama fonksiyonu ile alabilmektedir. Probleme ait deikenler, kromozom denen dizilerde, genlerle temsil edilmektedir. Her bir deiken kodlama biimine gre tek ya da bir grup genle tanmlanmaktadr. Seim, aprazlama ve mutasyon operatrleriyle, bunlara genetik operatrler de denmektedir, iterasyonlar boyunca kromozomlarda birtakm deiiklikler yaplmakta ve en iyi sonucu verecek zm seti aranmaktadr. GAda ilk olarak kodlama biimine karar verilmelidir. Genellikle ikili kodlama, permutasyon kodlama ve gerek deerli kodlama kullanlmaktadr. kili kodlama 1 ve 0 deerlerinden olumaktadr. Deikenler, deer aralna gre belirlenen sayda genden oluan ikili dzende temsil edilmektedir. Fonksiyon deeri hesaplanrken ikili deerler, ondalk deere evrilerek elde edilen deikenin gerek deeri, fonksiyonda yerine konulur. Permutasyon kodlama, sralamann nemli olduu ve tekrarn mmkn olmad, en ksa yol, gezgin satc vb. problemlerin zmnde kullanlr. almamzda da kullanlan gerek deerli kodlama ise deikenlerin dorudan kendi deerleriyle temsil edildikleri kodlama biimi olarak karmza kmaktadr. zm uzayndaki arama tek bir noktadan deil, noktalar kmesinden yaplmaktadr. Uygulayc tarafndan belirlenen miktardaki kromozom, populasyonu

170

Istanbul Ticaret niversitesi Sosyal Bilimler Dergisi Yl:8 Say:15 Bahar 2009 s.167-178

oluturmaktadr. lk poulasyon tesadfi olarak belirlenmekte olup, balang populasyonu olarak isimlendirilir. Genlerdeki deiken deerleri, fonksiyonda yerine konularak kromozomun uygunluk deeri elde edilir. Genetik operatrlerden ilk olarak seim operatr uygulanr. Ama, populasyonda daha iyi bireylerin (kromozom) oaltlmas (kopyalanmas), uygunluu (ama fonksiyon deeri) dk olan bireylerin elenmesi, yok edilmesidir. Bylelikle toplam uygunluk iyiletirilmi olmaktadr. Birok seim yntemi vardr. Bunlara rulet tekerlei seimi, turnuva seimi, genel stokastik rnekleme ve sral seim rnek olarak verilebilir (Obitko, 1998). Seim sonras aprazlama operatr uygulanmaktadr. aprazlamada ama, iki bireyin farkl birtakm zelliklerini tayan ve daha iyi bireyler elde etmektir. Biyolojik remede olduu gibi bir anne ve baba kromozom kullanlr. ki kromozomun farkl genleri yeni bir kromozoma aktarlr. Bylelikle, uygunluu daha yksek zm alternatifleri retilmeye allr. GAnn zm arama srecinde olduka nemli bir operatrdr. Belli bir olaslkla gerekletirilir. Genellikle bu olaslk 0,9 gibi yksek deerlerde belirlenir. Kodlama biimine ve problemin yapsna bal olarak gelitirilmi birok aprazlama operatr bulunmaktadr. kili kodlamada genellikle tek nokta (Sarker ve Newton, 2002), iki nokta ve ok noktal aprazlama, permutasyon kodlamada pozisyona dayal, sral (Goldberg, 1989) ve dairesel aprazlama (Cheng vd, 1999) kullanlmaktadr. Gerek deerli kodlamaya ise aritmetik aprazlama, kesikli retim, izgi retim rnek olarak verilebilir. Mutasyon operatr, bir daha ulalmas mmkn olmayan zmlerin kaybna kar koruma salamaktadr (Goldberg, 1989). Dk bir olaslkla herhangi bir gen zerinde yaplan tesadfi deiikliklerdir. kili dzende, genin deeri 1 ise 0 a, 0 ise 1 e dntrlmesi eklinde gerekletirilmektedir. Permutasyon kodlamada yakn kaydrma, uzak kaydrma, toplu kaydrma, tesadfi deiim, sral deiim gibi birok mutasyon eidi vardr. Gerek deerli kodlamada ise mevcut deiken deerinin belirlenen mutasyon adm miktarnca azaltlmas veya eit olaslkla arttrlmas eklinde mutasyon uygulanmaktadr. Bu admn belirlenmesi farkl ekillerde yaplr. Breeder genetic algorithm mutation bunlardan biridir (Mhlenbein, H., 1994). Genetik operatrler balang populasyonuna uygulanr ve yeni bir jenerasyon elde edilir. Bu populasyon dngdeki ilk populasyondur ve bir iterasyon tamamlanm olur. Uygunluk deerinin belirlenmesiyle balayan ikinci iterasyonla dng devam eder. Tamamlanma kriteri (iterasyon says) salandnda algoritma durdurulmakta ve mevcut en iyi zm sonu olarak belirlenmektedir.

171

Timur Keskintrk / Serap ahin 4. UYGULAMA almamzda, Altunkaynak ve Esinin (2004) almalarnda da kullanlan Ratkowskye ait veri kmeleri kullanlmtr (Tablo 1). Tablo 1. Problemlerde kullanlan veri kmeleri A B Y X Y 8.93 9 16.08 10.8 14 33.83 18.59 21 65.8 22.33 28 97.2 39.35 42 191.55 56.11 57 326.2 61.73 63 386.87 64.62 70 520.53 67.08 79 590.03 651.92 724.93 699.56 689.96 637.56 717.41

C X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 1.23 1.52 2.95 4.34 5.26 5.84 6.21 6.5 6.83 X 0 1 2 3 4 5 6 8 10

Algoritmaya ait kodlar MATLAB programlama dilinde yazlmtr. Weibull fonksiyonunda A veri kmesi dnda tm problemlerin zmnde MATLAB programndaki GATOOL arac kullanlmtr. Genetik algoritma arac kullanlrken fonksiyonlar veri setleriyle birlikte bir M dosyasna yazlmaktadr. Daha sonra ara arlp dosyann ad, parametre says, istenen ktlar ve genetik algoritma parametreleri girildikten sonra altrlr. rnein Gompertz byme modeli ve A tipi veri seti iin yazlan M dosyas aada grlmektedir:
function scores = gompertza(x) y=[8.93 10.8 18.59 22.33 39.35 56.11 61.73 64.62 67.08]; z=[9 14 21 28 42 57 63 70 79]; for i=1:9 scores=scores+(y(i)-x(1)*exp(-exp(x(2)-x(3)*z(i))))^2/6; end end

172

Istanbul Ticaret niversitesi Sosyal Bilimler Dergisi Yl:8 Say:15 Bahar 2009 s.167-178

Operatrlerin seiminde mutasyon iin Adaptive Feasible, aprazlama iin arithmetic ve hybrid function iin fminsearch seilmi olup dier operatrlerde varsaylan operatrler kullanlmtr. Populasyon bykl 60, iterasyon says 1000 olarak deitirilmi, dier parametreler varsaylan olarak braklmtr. Weibull byme erisi A veri setinin zmnde, Matlabte kodunu yazm olduumuz genetik algoritma ile zm aranmtr. Tarafmzca gelitirilen GAda tek noktal aprazlama, modifiye edilmi Breeder genetic algorithm mutation (Mhlenbein, H., 1994), rulet tekerlei seim yntemi kullanlmtr. Kodlamaya ait temel dosya aada grlmektedir:
function gareal(iteration,popsize,mut_rate); randpop=rand(popsize,4); bestval=-99999999; for i=1:iteration fitnesspop=fitnessreal(randpop); if max(fitnesspop)>bestval bestval=max(fitnesspop); h=find(fitnesspop==bestval); bestloc=randpop(h(1),:); [i,-bestval] end randpop=secim(randpop,fitnesspop); randpop=caprazlamareal(randpop,fitnesspop,bestloc); randpop=mutasyonreal(randpop,mut_rate,i); randpop(randint(1,1,[1,popsize]),:)=bestloc(1,:); end

Parametreler ise, populasyon bykl 60, iterasyon says 1000, aprazlama olasl 1, mutasyon olasl 0.28 olarak belirlenmitir. aprazlamada, populasyon bykl kadar yeni birey elde edilmekte, mevcut bireylerle birlikte hepsi ierisinden en iyi fonksiyon deerine sahip, populasyon bykl kadar birey yeni nesle aktarlmaktadr. Gompertz ve A tipi veri iin 1000 iterasyon boyunca en iyi ve ortalama deerlere ait grafik ekil 1de yer almaktadr.

173

Timur Keskintrk / Serap ahin


10
8

Best: 3.6323 Mean: 3.6324


Best fitness Mean fitness

10 Fitness value

10

10

10

100

200

300

400

500 600 Generation

700

800

900

1000

ekil: 1 Gompertz A iin en iyi ve ortalama deer grafii Her bir byme erisine ait, A,B ve C veri tipleriyle elde edilen sonular, parametre deerleri ve sapmalar olarak Tablo 2de verilmitir.

174

Istanbul Ticaret niversitesi Sosyal Bilimler Dergisi Yl:8 Say:15 Bahar 2009 s.167-178

Tablo 2. Problemlerde kullanlan veri kmeleri


Gompertz GaussNewton 82.830 1.224 0.037 3.630 723.1 02.May 0.45 1134 6.925 0.768 0.493 0.0619 kili GA 82.730 1.224 0.037 3.636 722.75 2.503 0.451 Gerek deerli GA 82.832 1.224 0.037 3.632+ 723.103 2.500 0.450 72.46 2.618 0.067 Oca.34 702.9 4.443 0.689 744 6.687 1.745 0.755 0.035 72.534 2.612 0.067 1.344 700.59 4.444 0.689 GaussNewton Parametre A B C
+ *

Logistic kili GA Gerek deerli GA 72.462 2.618 0.067 1.343+ 702.871 4.443 0.689 69.62 4.255 0.089 1.724 Oca.21 699.6 5.277 0.76 1.279 799 6.684 1.780 0.759 1.017 0.0424 GaussNewton

Richards kili GA 69.170 4.544 0.093 1.875 1.260 698.76 5.422 0.775 1.321 6.659 2.089 0.801 1.174 0.043 Gerek deerli GA 69.622 4.255 0.089 1.724 1.210* 699.642 5.277 0.760 1.279 6.684 1.777 0.759 1.016 0.0424*

Morgan-Mercer-Flodin (MMF) GaussNewton 80.69 8.895 49577 2.828 ub.71 723.9 33.35 6266 4.641 1015 6.986 1.181 Ara.96 2.475 0.0048 kili GA 81 9 47207 3 2.714 723.8 33.6 6418 04.Tem 1015.1 6.993 1.182 13.011 2.480 0.005 Gerek deerli GA 80.959 8.894 49.577.313 2.828 2.711+ 723.929 33.350 6.266.339 4.641 1015.038+ 6.986 1.181 12.959 2.475 0.0048* 69.96 61.68

Weibull Type GaussNewton kili GA 70.986 63.909 0.0002 22.015 19.928 692.57 673.98 0.002 3.197 6.691 5.577 0.117 1.757 0.0260 Gerek deerli GA 69.573 61.139 0.00009 2.415 1.685+ 695.037 673.495 0.00152 3.262 6.656 5.549 0.118 1.763 0.0268+

Dier iki sonutan birine eit ya da daha iyi. Her iki sonutan en iyi deere sahip olana eit ya da ondan daha iyi.

Veri Seti

0.0001 2.378 Oca.68 695 673.5 0.0015 3.262 712 6.656 5.549 0.118 1.763 0.0268

1133.9 1133.845* 69.213 0.7696 0.4934 0.0619 6.925 0.768 0.493 0.0619*

744.17 744.157+ 6.691 1.764 0.754 0.035 6.687 1.745 0.755 0.035*

799.36 798.764*

724.48 712.209+

175

Timur Keskintrk / Serap ahin Tablo 2 incelendiinde * ile gsterilen gerek deerli GA sonularnn mevcut en iyi zme eit ya da ondan daha iyi sonu verdii grlmektedir. + ile gsterilen sonular ise gerek deerli GAnn ikili GAya ya da Gauss-Newtona gre daha iyi sonular rettii durumlar gstermektedir. Dikkat edilirse + ile iaretlenen sonularda yuvarlamalar Gauss-Newton sonularyla ayn ekilde yaplrsa, elde edilen deerlerin ayn olduu grlecektir. SONU Genetik algoritma, Gauss-Newton ve benzeri istatistiksel yntemler gibi belli varsaymlar ve nkoullar ile almamaktadr. Ama fonksiyonunun belirlenmesi ve deikenlerin kromozomlarda kodlanmas yeterli olmaktadr. Genetik operatrlerin ve parametrelerin belirlenmesi ile algoritma altrlr. Altunkaynak ve Esin (2004), yapm olduklar almada, dorusal olmayan regresyonda parametre tahmini iin ikili kodlamal genetik algoritmay kullanmlardr. Bu almada ise ayn konuda, ikili kodlama yerine gerek deerli kodlama kullanlmtr. Sonular incelendiinde, gerek deerli kodlamann, ilgili almada raporlanan 15 sonutan 7sinde mevcut en iyi deerin ayns ya da daha iyisini, 7sinde ikili kodlamal genetik algoritmadan daha iyisini ve birinde Gauss-Newton ile ayn deeri bulmutur. Sonular genellikle birbirine ok yakn olmakla birlikte, genetik algoritmann elde edilen sonular ve bahsedilen kullanm kolaylndan dolay Gauss-Newton vb. istatistiksel yntemlere iyi bir alternatif olduu aktr. Kodlama farkll olan, iki GA karlatrldnda ise gerek deerli GAnn ikili GAya gre daha iyi sonular rettii sylenebilir. Ayrca kodlamada ve dntrme ilemlerindeki ilem ve zaman yk de dikkate alndnda, gerek deerli genetik algoritmann regresyonda parametre tahmini iin tercih edilebilecek iyi bir alternatif olduu dnlmektedir. Ayrca, 1995 ylnda zellikle srekli deikenlerin sz konusu olduu problemler iin gelitirilen diferansiyel geliim algoritmasnn (Keskintrk, 2006; Storn ve Price, 1995), dorusal olmayan regresyonda parametre tahmini iin iyi bir alternatif olabilecei ve mevcut yntemlerle karlatrmal bir alma yaplabilecei dnlmektedir.

176

Istanbul Ticaret niversitesi Sosyal Bilimler Dergisi Yl:8 Say:15 Bahar 2009 s.167-178

KAYNAKLAR Altunkatnak B., Esin A., (2004), Dorusal Olmayan Regresyonda Parametre Tahmini iin Genetik Algoritma Yntemi, Gazi niversitesi Fen Bilimleri Dergisi, 17(2), s.43-51. Cheng R., Gen M., Yasuhiro T., (1999), A Tutorial Survey of Job-Shop Scheduling Problems Using Genetic Algorithms, Part II: Hybrid Genetic Search Strategies, Computers and Industrial Engineering, Vol. 36, s.343364. Goldberg D.E., (1989), Genetic algorithms in search optimization and machine learning, Addison Wesley Publishing Company, USA Keskintrk T., (2006), Diferansiyel Geliim Algoritmas, stanbul Ticaret niversitesi Fen Bilimleri Dergisi, Yl: 5 (9), s.85-99. Kutner M.H.,Neter J., Nachtsheim C.J., Wasserman W., (2004), Applied Linear Statistical Models, McGraw Hill. Michalewicz Z., (1992), Genetic Algorithms + Data Structure = Evolution Programs, Springer-Verlag, Berlin. Mhlenbein H., (1994), The Breeder Genetic Algorithm - a provable optimal search algorithm and its application, Colloquium on Applications of Genetic Algorithms, IEE 94/067, London. Obitko M., (1998), Genetic Algorithms, (evrimii), http://cs.felk.cvut.cz/~xobitko/ga/ Hochschule fr Technik und Wirtschaft Dresden (FD). Orhunbilge N., (2002), Uygulamal Regresyon ve Korelasyon Analizi, stanbul, .. letme Fakltesi. Ratkowsky D.A., (1983), Nonlinear Regression Modeling, Marcel Dekker, New York. Reeves, C.R., (1995), Modern heuristic techniques for combinatorial problems, McGraw-Hill Book Company Inc., Europe. Sarker R., Newton C., (2002), A genetic algorithm for solving economic lot size scheduling problem, Computer & Industrial Engineering, Vol: 12 (5), s:195-196.

177

Timur Keskintrk / Serap ahin Storn R., Price K., (1995), Differential evolution: a simple and efficient adaptive scheme for Global optimization over continuous spaces, Technical Report TR-95-012, International Computer Science Institute, Berkeley. nl A.R., (2006), Dorusal Olmayan Regresyon Modelleri ve Bilgisayarl zmleri, Yksek Lisans Tezi, Marmara niversitesi, Fen Bilimleri Enstits.

178

You might also like