VeriMadenciligi TextMininng

AHMET YESEVİ ÜNİVERSİTESİ
BİLİŞİM SİSTEMLERİ VE MÜHENDİSLİK FAKÜLTESİ

BİLGİSAYAR MÜHENDİSLİĞİ YÜKSEK LİSANS PROGRAMI
DÖNEM PROJESİ
METİN MADENCİLİĞİ
HAZIRLAYAN
04730012 Ayhan Adsız
DANIŞMAN
Dr. Yalçın ÖZKAN
Şubat 2006
1
ÖZET.......................................................................................................................................................................
........4
TEŞEKKÜR.................................................................................................................................................
..................5
1 VERİ MADENCİLİĞİ............................................................................................................................
..................7
1.1 Veri Madenciliğinde Karşılaşılan Problemler .............................................................................................11
1.1.1 Veritabanı Boyutu ................................................................................................................................11
1.1.2 Gürültülü Veri ......................................................................................................................................12
1.1.3 Boş Değerler ........................................................................................................................................12
1.1.4 Eksik Veri .............................................................................................................................................13
1.1.5 Artık Veri ..............................................................................................................................................13
1.1.6 Dinamik Veri ........................................................................................................................................13
1.1.7 Farklı tipteki verileri ele alma ..............................................................................................................14
1.2 Veri Madenciliği Algoritmaları ...................................................................................................................14
1.2.1 Hipotez Testi Sorgusu ..........................................................................................................................14
1.2.2 Sınıflama Sorgusu ................................................................................................................................15
1.2.3 Güdümsüz Gruplama Sorgusu .............................................................................................................15
1.2.4 Ardışık Örüntüler .................................................................................................................................16
1.2.5 Eşleştirme Sorgusu ..............................................................................................................................16
1.2.6 Eşleştirme Algoritmaları ......................................................................................................................16
2 METİN VERİ MADENCİLİĞİ................................................................................................................

.............18
2.1 Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması..................................................................18
2.1.1 Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı.............................................................................18
2.1.2 Metin Çıkartımı İçin Temel Ölçümler..................................................................................................19
2.1.3 Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı.........................................................................19
2.1.4 Metin Verilerinin Heterojenliği.............................................................................................................21
3 METİN SINIFLANDIRMA...................................................................................................................................
.23
3.1 Metin Madenciliğinin Ön Aşamaları ve Sınıflama.......................................................................................24
3.1.1 Ayrıştırma..............................................................................................................................................24
3.1.2 Durdurma Kelimelerinin Çıkarılması..................................................................................................24
3.1.3 Gövdeleme............................................................................................................................................24
3.1.4 Metin Gösterimi ...................................................................................................................................25
3.1.5 Vektör Uzayı Modeli.............................................................................................................................25
3.1.6 Boyut Küçültme...................................................................................................................................26
3.1.6.1 Özellik Seçimi...............................................................................................................................26
3.1.6.2 Doküman Frekans Eşikleme........................................................................................................26
3.1.6.3 Bilgi Kazanımı Yöntemi..............................................................................................................26
3.1.6.4 χ2 (chi kare) İstatistiği.................................................................................................................27
3.1.7 Yeniden Değiştirgeleme.......................................................................................................................28
3.2. Ağırlıklandırma...........................................................................................................................................28
3.2.1 Boole Ayırma.......................................................................................................................................28
3.2.2. Kelime Frekans Ağırlıklandırma.........................................................................................................28
3.2.3 tf x idf Ağırlıklandırma (Term Frequency x Inverse Document Frequency).......................................29
3.2.4 tfc-Ağırlıklandırma (Term Frequency Component).............................................................................29
3.2.5 ltc Ağırlıklandırma (Logarithmic Term Component) .........................................................................29
3.3 Metin Madenciliği Algoritmaları.................................................................................................................30
3.3.1 Rocchio Algoritması.............................................................................................................................30
3.3.2 Naive Bayes.........................................................................................................................................30
3.3.3 Karar Ağacı...........................................................................................................................................31
3.3.3.1 Ağacı Oluşturma (CART)............................................................................................................31
3.3.3.2 Ağacın Budanması.......................................................................................................................32
3.3.4 Destek Yöney Makineleri....................................................................................................................33
3.3.4.1. Ayrılabilir Durumlarda Destek Yöney Makineleri.......................................................................33
3.3.4.2 Ayrılamaz Durumlarda Destek Yöney Makineleri.......................................................................35
3.3.5. Bayesian Ağları....................................................................................................................................35
2
4 KÜMELEME ANALİZİ.....................................................................................................................
....................37
4.1 Kümeleme Analizi Uygulamaları.................................................................................................................37
4.2 Kümeleme Analizinde Veri Tipleri................................................................................................................38
4.2.1 Aralık Ölçekli Değişkenler...................................................................................................................39
4.2.2 İkili Değişkenler..................................................................................................................................39
4.2.3 Nominal (ada bağlı) , Ordinal (sıraya bağlı) ve Ondalıklı Değişkenler...............................................40
4.2.2Karışık Tipteki Değişkenler...................................................................................................................40
4.3 Ana Kümeleme Yöntemlerinin Kategorilendirilmesi....................................................................................41
4.3.1 Bölümlendirme Metodu........................................................................................................................41
4.3.1.1 Klasik Bölümlendirme Metotları: k-means, k-medoids................................................................41
4.3.1.2 Büyük Veritabanlarında k-medoid ten CLARA’ ya......................................................................46
4.4 Grid Temelli Metodlar..................................................................................................................................46
4.4.1 STING (Statistical Information Grid- İstatiksel Bilgi Grid)................................................................46
4.4.2 WaveCluster: Wavelet Dönüşümü Kullanarak Kümeleme..................................................................48
4.4.3 CLIQUE (Clustering High-Dimensional Space- Yüksek Boyutlu Alanda Kümeleme).......................50
4.5 Model Tabanlı Kümeleme Metodları............................................................................................................51
4.5.1 İstatistiksel Yaklaşım............................................................................................................................51
4.6 Sıradışılık Analizi.........................................................................................................................................53
4.6.1 İstatistiksel Tabanlı Sıradışılık Denetimi..............................................................................................54
4.6.2 Uzaklık-tabanlı Sıradışılık Denetimi....................................................................................................55
4.6.3 Sapma Tabanlı Sıradışılık Denetimi.....................................................................................................56
5 OTOMATİK HABER METİNLERİ SINIFLANDIRMA UYGULAMASI...................................................58

5.1 Önerilen Sistem............................................................................................................................................58
5.2 Kullanılan Parser ve Gerekliliği..................................................................................................................60
5.3 Karar mekanizmasında kullanılan yöntemler..............................................................................................60
5.3.1 Destekleyici Öğrenme (Learning Vector Quantization-LVQ) .............................................................60
5.3.2 Naive Bayes..........................................................................................................................................61
5.4 Vektörel metinlerde boyut azaltma çalışmaları............................................................................................61
5.4.1 Principle Component Anaysisl(PCA)...................................................................................................61
5.4.2 Informaiton Gain(IG)............................................................................................................................61
5.5 Uygulama Sonuçları.....................................................................................................................................62
5.6 Sonuç............................................................................................................................................................63
KAYNAKÇA................................................................................................................................................
................64
3
ÖZET
İletişim ve bilgisayar teknolojilerindeki gelişmeler, veri toplamak için bilgi teknolojilerinin daha çok ve
daha yaygın bir şekilde kullanılmasına, bu yolla toplanan verilerde inanılmaz bir artışa neden olmuştur.
Varolan verilerden bilgiyi elde etmeye geniş çapta ihtiyaç duyulmuştur. Bu ihtiyacı gidermek için
araştırma kurumları ve üniversiteler çalışmalarıyla yeni disiplinler ortaya çıkarmıştır. Veri madenciliği
bu yeni disiplinlerden biridir. Veri madenciliğinin veri tabanları üzerine uygulanmasıyla Veri Tabanında
Bilgi Keşfi (VTBK) ortaya çıkmıştır. Veri seçimi, veri temizleme, veri ön işleme, veri indirgeme, veri
madenciliği algoritmasının uygulanması ve sonuçların değerlendirilmesi VTBK’yi oluşturan
basamaklardır.
Veri madenciliği üzerindeki eski çalışmalar ilişkisel, görev ile ilişkili ve veri ambarı gibi yapısal veriler
üzerine yoğunlaşmıştır. Ancak, WWW’ de inanılmaz gelişmeler sonucu gerçekte elde edilebilir bilginin
büyük bir çoğunluğu metin veri tabanları üzerinde saklanmaktadır. Bu veri tabanları, makaleler,
araştırma yazıları, kitaplar, sayısal kütüphaneler, e-posta mesajları ve web sayfaları gibi çeşitli
kaynaklardan, büyük ölçekli doküman koleksiyonlarından oluşmaktadır. Geleneksel bilgi kazanım
teknikleri, metin verilerinden bilgi çıkarımında etkisiz kalmış ve bunun sonucu olarak da metin veri
madenciliği çalışmaları hızla yayılmıştır.
Anahtar Kelimeler: Metin madenciliği, metin sınıflandırma algoritmaları, metin kümeleme.
4
TEŞEKKÜR
Proje hazırlama çalışmalarım sırasındaki yönlendirici önerilerinden ve gerekli kaynak teminindeki

katkılarından, ayrıca kaliteli bir Yüksek Lisans Eğitimi almama vesile olan Proje Danışmanım Sayın Dr.
Yalçın ÖZKAN’ a teşekkür ederim.
Ek olarak, eğitim dönemindeki ve proje hazırlamam esnasında bana her türlü manevi desteği veren
eşim ve çocuklarıma minnettarım.
5
GİRİŞ
Veri Madenciliği, önceden öngörülemeyen ve saklı durumdaki değerli bilgi ya da bilgilerin, eldeki
verilerden, matematiksel yöntemler ile süzülerek, anlamlı şekilde ortaya çıkarılması sürecidir.
Bilişim teknolojisinin gelişmediği yıllarda insanlar sınırlı sayıdaki basılı kaynak arasında,
kütüphanelerde yazar adı, konu ve kitap başlığına göre arama yapabilirken, günümüzün bilgileri daha
çok sayısal metinler olarak saklanmaya doğru yöneldiğinden, bilgi saklama ve bilgiye erişim daha
farklı, daha çok seçenek sunabilen ve daha karmaşık bir hal almıştır. Sayısal dokümanların miktarının
artmasının nedenleri; Hızla gelişen teknoloji sayesinde, kağıt üzerindeki metinlerin sayısal ortamlara
geçirilmesi kolaylaşmış, kelime işlemcilerin üstün yetenekleri sayesinde dokümanların sayısal olarak
hazırlanması ve saklanması yaygınlaşmış ve İnternet’in popüler olması, bu dokümanların
paylaşılmalarını arttırmıştır.
İnternet’teki ve diğer sayısal ortamlardaki bilgiler hızla çoğaldıkça, insanların bu bilgileri daha iyi
düzenleme, bilgilere daha kolay ulaşma ve aradığı bilgiyi daha çabuk bulma ihtiyacı da artar. Çünkü
fazlalaşan dokümanlar, kullanıcının aradığı bilgiye ulaşmasını zorlaştırır. Bu problemi ortadan
kaldırmak için, bilgisayarın yeteneklerinden ve bilgisayar biliminin bir alt dalı olan bilgi erişimi
yöntemlerinden faydalanılır (Bolat 2003). Bilgi erişimi yöntemleri, bilgisayar biliminin yapay zeka,
çoklu ortam sistemleri, paralel hesaplama gibi alt dallarını kullanır.
Metin Madenciliği, bir sistem yardımıyla kullanıcı ihtiyaçlarının bir sorgu şeklinde alınması ve çok
sayıda metin dokümanı olan bir veri tabanı içinden dokümanların kullanıcı isteklerine olan
benzerliklerine göre sıralanmış bir liste halinde sunulması işlemidir. Günümüzün arama motorları metin
erişimine örnek olarak verilebilir.
6
1 VERİ MADENCİLİĞİ
Bilgi teknolojilerindeki gelişme, bilgisayarların ve otomatik veri toplama araçlarının geniş bir alanda
uygulanmasını sağlamıştır. Yaygın bilgisayar kullanımı sonucunda, çeşitli ortamlarda ve/veya
biçimlerde çok büyük ölçekli işletimsel veri birikmiştir. Büyüme işlevleri cinsinden ifade edecek olursak,
veri saklama kapasitesi her 9 ayda bir tahmini ikiye katlanmaktadır. Buna karşılık ise, aynı periyotta,
Moore kanununa göre hesaplama gücü iki kat daha az büyümektedir. Bu aradaki fark, veriyi yakalama
ve saklama oranının onu işleme ve kullanma yeteneğimizi/oranını çoktan geçtiğini göstermektedir. Bir
başka deyişle, bir kısım veri nihai olarak bir daha hiç erişilmemek/işlenmemek üzere saklanabilir ki bu
durum daha çok veritabanının dışsal boyutu, yani varlıkların ya da nesnelerin sayıları, ile ilgilidir.
Sorun, yalnızca, veri yakalama/saklama kapasitesinin ve hesaplama gücünün büyüme oranları
arasındaki teknolojik boyutlu üssel fark değildir. Örnek olarak, verinin dışsal ve içsel boyutu ile ilgili
mutlak rakamlar verelim. Astronomi veritabanlarında tutanak sayısı 1012’lere ulaşırken, sağlık
sektöründeki uygulamalarda öznitelik sayısı 102 ila 103 arasında değişmektedir (Sever vd. 2002).
Veritabanının içsel boyutu ile kastedilen, veri sözlüğü ile ilişkilidir; yani, varlıkların tanımı ve veri
hacmindeki büyüme oranı her ikisinin ortasında seyretmektedir. 90’ların başında yapılan bir tahmine
göre büyüme oranı her bir 20 ayda ikiye katlanmaktadır. Buna karşılık, Internetteki web sayfalarındaki
ve sunucu bilgisayarlarındaki artış oranlarına baktığımızda, 90’ların sonu itibariyle rakamlar her bir
yılda ikiye katlamaktadır.
İşletimsel kaygılardan yola çıkılarak tanımlanmış öz niteliklerin yeniden bilgi keşfetme açısından
düzenlenmesi de günümüz veritabanı teknolojilerinin önündeki en büyük meydan okumalardan
birisidir.
Gerek bilimsel veritabanlarında gerekse de günlük iş aktiviteleri etrafında modellenmiş ticari

veritabanlarında bu çok büyük hacimli verilerin analizi alan uzmanlarının kapasitesini çoktan aşmıştır.
Bu nedenle gerçek hayat verilerinin otomatik veya yarı otomatik tekniklerle kullanıcı açısından ilginç ve
önemli bilgilere dönüştürülmesi ihtiyacı doğmuştur ki bu, bugünün veritabanı yönetim sistemlerinin tipik
işlevleriyle gerçekleştirilemez. Bunun en önemli nedeni VTYS’ler çevrimiçi oturum işleme (ÇOİ - On
Line Transaction Processing, OLTP) göz önünde bulundurularak geliştirilmişlerdir. İşletimsel veri
tabanı (VT) üzerinde konuşlanan ÇOİ tipikçe kısa süre gerektiren (örneğin, saniyede 10’lar veya
100’ler mertebesinde işlenebilen oturumlar) ve yapısal ve kodlama bilgisi bilinen alanlara (örneğin,
ad/soyad, tarih, ısmarlama no, vs.) göre akort edilmişlerdir. Burada söz konusu olan, oturumların
aşağıdakileri sağlamasıdır: (a) ya gerçekleşti ya da gerçekleşmedi (atomik) işlemi, (b) önceki
tutarlılığın oturum sonucunda korunması, (c) işlem bir kere istendiğinde sonuç değişikliklerin sürekli
olması, (d) izole olması, ve (e) eş zamanlı oturumların veri tabanına etkisinin serileştirilebilir olması .
Gerçekte, veri analizini konu alan karar destek uygulamaları, doğası gereği ne kısa süreli olması ne de
yapısal bilgileri kullanması gerekmektedir. Bunun ötesinde, karar destek uygulamaları için işletimsel
veriler tek başlarına yeterli değillerdir ki bunlar dış veri kaynakları ile birleştirilir. Bu bağlamda birleşik
VTYS’lerin tek bir küresel sorgu cümlesi ile sorgulanması için oluşturulan birleştirilmiş kavramsal şema
7
ile ilgili zorluklar ve meydan okuyucu noktalar karar destek modellerinin oluşturulması esnasında da
geçerlidir (Sever vd. 2002).
Literatürde, işletimsel veri içinden faydalı örüntülerin bulunması işlemine pek çok terim karşılık
gelmektedir. Bunlardan birkaçı veritabanlarında bilgi keşfi (VTBK - Knowledge Discovery From
Databases), veri madenciliği (Data Mining), bilgi harmanlama (Information Harvesting)’ dır. Yeni
gelişmekte olan her araştırma dalında olduğu gibi, VTBK’nın tanımı ve faaliyet alanının ne olacağı
konusunda farklı görüşler vardır. Bazı kaynaklara göre; VTBK daha geniş bir disiplin olarak
görülmektedir ve veri madenciliği terimi sadece bilgi keşfi metodlarıyla uğraşan VTBK sürecinde yer
alan bir adımdır. VTBK sürecinde yer alan adımlar şöyledir(Sever vd.2002):
1• Veri Seçimi (Data Selection): Bu adım birkaç veri kümesini birleştirerek, sorguya uygun
örneklem kümesini elde etmeyi gerektirir.
2• Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen örneklemde yer
alan hatalı tutanakların çıkarıldığı ve eksik nitelik değerlerinin değiştirildiği aşamadır. Bu aşama
keşfedilen bilginin kalitesini arttırır.
3• Veri İndirgeme (Data Reduction): Seçilen örneklemden ilgisiz niteliklerin atıldığı ve tekrarlı
tutanakların ayıklandığı adımdır. Bu aşama seçilen veri madenciliği sorgusunun çalışma zamanını
iyileştirir.
4• Veri Madenciliği (Data Mining): Verilen bir veri madenciliği sorgusunun (sınıflama, güdümsüz
öbekleme, eşleştirme, vb.) işletilmesidir.
5• Değerlendirme (Evaluation): Keşfedilen bilginin geçerlilik, yenilik, yararlılık ve basitlik
kıstaslarına göre değerlendirilmesi aşamasıdır.
6
VTBK sistemlerinde kullanılan veri çevrimiçi veya çevrimdışı işletimsel veridir. İşletimsel veri
organizasyonel aktiviteler düşünülerek düzenlenir ve normalleştirilir. Bu bilgi keşfi süreci için gerekli
verilerin ya bir arada bulunmamasına, ya hiç tutulmamasına ya da ilgili veri içeriğinin birden fazla
yorumlanmasına yol açar. Bu yüzden bilgi keşfi açısından işletimsel veri ister çevrimiçi ister çevrimdışı
olsun “işlenmemiş/ham veri” olarak kabul edilir. Şekil 1.1’de VTBK sürecinde yer alan adımlar
gösterilmiştir(Sever vd. 2002).
8
Şekil 1.1: VTBK Adımında Yer Alan Süreçler
Veri Madenciliği için yapılan diğer tanımlardan bir kaçı şöyledir:
Önceden bilinmeyen ve potansiyel olarak faydalı olabilecek, veri içinde gizli bilgilerin çıkarılmasına veri
madenciliği denir. Diğer bir tanım ise, veri madenciliği, büyük veri kümesi içinde saklı olan genel
örüntülerin ve ilişkilerin bulunmasıdır.
Aktif araştırma alanlarından biri olan veri tabanlarında bilgi keşfi disiplini (VTBK), çok büyük hacimli
verileri tam ya da yarı otomatik bir biçimde analiz eden yeni kuşak araç ve tekniklerin üretilmesi ile
ilgilenen son yılların gözde araştırma konularından biridir. VTBK, veri seçimi, veri temizleme ve ön
işleme, veri indirgeme, veri madenciliği ve değerlendirme aşamalarından oluşan bir süreçtir. Veri
Madenciliği, önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli
veritabanlarından otomatik biçimde elde edilmesini sağlayan VTBK süreci içinde bir adımdır (Sever vd.
2002).
Veri madenciliği, makina öğrenimi, istatistik, veritabanı yönetim sistemleri, veri ambarlama, koşut
programlama gibi farklı disiplinlerde kullanılan yaklaşımları birleştirmektedir.
Makina öğrenimi, istatistik ve veri madenciliği arasındaki yakın bağ kolaylıkla görülebilir. Bu üç disiplin
veri içindeki ilginç düzenlilikleri ve örüntüleri bulmayı amaçlar. Makina öğrenimi yöntemleri veri
madenciliği algoritmalarında kullanılan yöntemlerin çekirdeğini oluşturur. Makina öğreniminde
9
kullanılan karar ağacı, kural tümevarımı pek çok veri madenciliği algoritmasında kullanılmaktadır.
Makina öğrenimi ile veri madenciliği arasında benzerliklerin yanısıra farklılıklar da göze çarpmaktadır.
Öncelikle veri madenciliği algoritmalarında kullanılan örneklem boyutu, makina öğreniminde kullanılan
veri boyutuna nazaran çok büyüktür. Genellikle makina öğreniminde kullanılan örneklem boyu 100 ile
1000 arasında değişirken veri madenciliği algoritmaları milyonlarca gerçek hayat nesneleri üzerinde
uğraşmaktadır ki bunların karakteristiği boş (boş), artık, eksik, gürültülü değerler olarak belirlenebilir.
Aynı zamanda veri madenciliği algoritmaları bilgi keşfetmeye uygun nesne niteliklerinin elde edilme
sürecindeki karmaşıklıkla baş etmek zorundadır(Sever vd. 2002) .
Olasılıksal veri nedenlemede veri madenciliği, istatistik alanındaki bir çok metodu kullanmasına
rağmen, nesnelerin nitelik ve değerlerine bağlı çıkarsama yapmada bilinen istatistiksel metodlardan
ayrılmaktadır. Örneğin, x-kare veya t testi gibi istatistiksel test yöntemleri birden fazla nitelik arasında
korelasyon derecesini belirli bir güvenlik arasında verebilmesine karşılık, belirli nitelik değerleri
arasındaki ilişkinin derecesini açığa çıkaramazlar. İstatistiksel yöntemler karar verme mekanizmasında
veri madenciliği disiplini ortaya çıkmadan önce çok sık kullanılırdı. Ancak bu yöntemlerin kullanım
zorluğu (uzman kişileri tutma/başvurma), veri madenciliği algoritmalarının uygulama kolaylılığı ile
karşılaştırıldığında, veri nedenleme sürecindeki en güç adımı oluşturuyordu.
Veritabanı yönetim sistemleri (VTYS) büyük miktardaki yapısal bilgiyi saklama ve etkin bir biçimde
erişim sağlamakla yükümlüdür. VTYS’lerde veri düzenlemesi, ilgili organizasyonun işletimsel veri
ihtiyacı doğrultusunda gerçekleştirilir ki bu her zaman bilgi keşfi perspektifi ile bire-bir çakışmaz. Bu
açıdan veritabanındaki veriler temizleme, boyut indirgeme, transfer, vb. işlemlerinden geçirilerek veri
madenciliği kullanımına sunulurlar. veri madenciliği teknikleri ayrı araç olarak sağlanabileceği gibi bir
VTYS ile de entegre olabilirler. Örneğin, veri kileri, çevrim içi analitik işleme ya da kısaca OLAP.
Veri madenciliğinde analitik modelleme, öngörüsel modelleme, tanımsal modelleme, OLAP, sorgulama
ve raporlama gibi aşamalardan oluşturulabilir.
10
Şekil 1.2 Modelleme Aşamaları
1.1 Veri Madenciliğinde Karşılaşılan Problemler
Küçük veri kümelerinde hızlı ve doğru bir biçimde çalışan bir sistem, çok büyük veritabanlarına
uygulandığında tamamen farklı davranabilir. Bir veri madenciliği sistemi, tutarlı veri üzerinde
mükemmel çalışırken, aynı veriye gürültü eklendiğinde kayda değer bir biçimde kötüleşebilir. İzleyen
kesimde günümüz veri madenciliği sistemlerinin karşı karşıya olduğu problemler incelenecektir.
1.1.1 Veritabanı Boyutu
Veritabanı boyutları inanılmaz bir hızla artmaktadır. Pek çok makina öğrenimi algoritması bir kaç yüz
tutanaklık oldukça küçük örneklemleri ele alabilecek biçimde geliştirilmiştir. Aynı algoritmaların yüz
binlerce kat büyük örneklemlerde kullanılabilmesi için çok büyük dikkat gerekmektedir. Örneklemin
büyük olması, örüntülerin gerçekten var olduğunu göstermesi açısından bir avantajdır ancak böyle bir
örneklemden elde edilebilecek olası örüntü sayısı çok büyüktür. Bu yüzden veri madenciliği
sistemlerinin karşı karşıya olduğu en önemli sorunlardan biri veritabanı boyutunun çok büyük
olmasıdır. Dolayısıyla veri madenciliği yöntemleri ya sezgisel/buluşsal bir yaklaşımla arama uzayını
taramalıdır ya da örneklemi yatay/dikey olarak indirgemelidir.
Yatay indirgeme çeşitli biçimlerde gerçekleştirilebilir. İlkinde, belirli bir niteliğin alan değerleri önceden
sıradüzensel olarak sınıflandırılır (ya da kategorize edilir) ki buna genelleştirme işlemi de
denilmektedir. Sonrasında ise, ilgili niteliğin değerleri önceden belirlenmiş genelleme sıradüzeninden
aşağıdan yukarıya doğru seviye seviye günlenir (yani, üst nitelik değeri ile değiştirilir) ve tekrarlı
çoklular çıkarılır (Sever vd. 2002). İkincisinde, oldukça sağlam olan örnekleme kuramı kullanılarak çok
11
büyük hacimli veri öyle bir boyuta indirgenir ki hem kaynak veri belirli bir güven aralığında temsil
edebilir hem de indirgenen veri kümesinin hacmi makine öğrenimi algoritmalarınca işlenebilir olması
olurlu olabilir. Sonuncusunda ise, sürekli değerlerden oluşan bir alana sahip nitelik üzerine
kesikleştirme tekniğinin uygulanmasıdır. Sürekli değerlerin belirli aralık değerlerine dönüştürülmesi ile
tekrarlılık arz eden çoklular ortadan kaldırılarak yatay indirgeme sağlanabilir. Aslında bu kesikleştirme
tekniği, sürekli sayısal değerler için geçerli olmıyan makine öğrenim algoritmaları için bir önkoşul ya da
ön işlemedir ki bu konu ayrı bir alt başlık olarak verilecektir. Dikey indirgeme, artık niteliklerin
indirgenmesi işlemidir ki bu artık işleme alt başlığında tartışılacaktır.
1.1.2 Gürültülü Veri
Büyük veritabanlarında pek çok niteliğin değeri yanlış olabilir. Bu hata, veri girişi sırasında yapılan
insan hataları veya girilen değerin yanlış ölçülmesinden kaynaklanır. Veri girişi ya da veri toplanması
sırasında oluşan sistem dışı hatalara gürültü adı verilir. Ancak günümüzde kullanılan ticari ilişkisel
veritabanları veri girişi sırasında oluşan hataları otomatik biçimde gidermek konusunda az bir destek
sağlamaktadır. Hatalı veri gerçek dünya veritabanlarında ciddi problem oluşturabilir. Bu durum, bir veri
madenciliği yönteminin kullanılan veri kümesinde bulunan gürültülü verilere karşı daha az duyarlı
olmasını gerektirir. Gürültülü verinin yol açtığı problemler tümevarımsal karar ağaçlarında uygulanan
metodlar bağlamında kapsamlı bir biçimde araştırılmıştır (Sever vd. 2002). Eğer veri kümesi gürültülü
ise sistem bozuk veriyi tanımalı ve ihmal etmelidir. Quinlan, gürültünün sınıflama üzerindeki etkisini
araştırmak için bir dizi deney yapmıştır. Deneysel sonuçlar, etiketli öğrenmede etiket üzerindeki gürültü
öğrenme algoritmasının performansını doğrudan etkileyerek düşmesine sebeb olmuştur. Buna karşın
eğitim kümesindeki nesnelerin özellikleri/nitelikleri üzerindeki en çok %10’luk gürültü miktarı
ayıklanabilmektedir. Gürültünün etkisini analiz etmek için istatiksel yöntemler kullanmışlardır.
1.1.3 Boş Değerler
Bir veritabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir. Boş
değer tanımı gereği kendisi de dahil olmak üzere hiç bir değere eşit olmayan değerdir. Bir çokluda
eğer bir nitelik değeri boş ise o nitelik bilinmeyen ve uygulanamaz bir değere sahiptir. Bu durum
ilişkisel veritabanlarında sıkça karşımıza çıkmaktadır. Bir ilişkide yer alan tüm çoklular aynı sayıda
niteliğe, niteliğin değeri boş olsa bile, sahip olmalıdır. Örneğin kişisel bilgisayarların özelliklerini tutan
bir ilişkide bazı model bilgisayarlar için ses kartı modeli niteliğinin değeri boş olabilir.
Lee, boş değeri, (1) bilinmeyen, (2) uygulanamaz, ve (3) bilinmeyen veya uygulanamaz olacak
biçimde üçe ayıran bir yaklaşımı ilişkisel veritabanlarını genişletmek için öne sürmüştür. Mevcut boş
değer taşıyan veri için herhangi bir çözüm sunmayan bu yaklaşımın dışında bu konuda sadece
bilinmeyen değer üzerinde çalışmalar yapılmıştır. Boş değerli nitelikler veri kümesinde bulunuyorsa, ya
bu çoklular tamamıyla ihmal edilmeli ya da bu çoklularda niteliğe olası en yakın değer
atanmalıdır(Sever vd. 2002).
12
1.1.4 Eksik Veri
Evrendeki her nesnenin ayrıntılı bir biçimde tanımlandığı ve bu nesnelerin alabileceği değerler
kümesinin belirli olduğu varsayılsın. Verilen bir bağlamda her bir nesnenin tanımı kesin ve yeterli olsa
idi, sınıflama işlemi basitçe nesnelerin alt kümelerinden faydalanılarak yapılırdı. Bununla birlikte,
veriler kurum ihtiyaçları gözönünde bulundurularak düzenlenip, toplandığından, mevcut veri gerçek
hayatı yeterince yansıtmayabilir. Örneğin hastalığın tanısını koymak için kurallar sadece çok yaşlı
insanların belirtilerinin bulunduğu bir veri kümesi kullanılarak üretilseydi, bu kurallara dayanarak bir
çocuğa tanı koymak pek doğru olmazdı. Bu gibi koşullarda bilgi keşfi modeli belirli bir güvenlik (ya da
doğruluk) derecesinde tahmini kararlar alabilmelidir (Sever vd. 2002).
1.1.5 Artık Veri
Verilen veri kümesi, eldeki probleme uygun olmayan veya artık nitelikler içerebilir. Bu durum pek çok
işlem sırasında karşımıza çıkabilir. Örneğin, eldeki problem ile ilgili veriyi elde etmek için iki ilişkiyi
ortak nitelikler üzerinden birleştirirsek sonuç ilişkide kullanıcının farkında olmadığı artık nitelikler
bulunur. Artık nitelikleri elemek için geliştirilmiş algoritmalar özellik seçimi olarak adlandırılır (Sever vd.
2002).
Özellik seçimi, tümevarıma dayalı öğrenmede budama öncesi yapılan bir işlemdir. Başka bir deyişle,
özellik seçimi, verilen bir ilişkinin içsel tanımını, dışsal tanımın taşıdığı (veya içerdiği) bilgiyi bozmadan
onu eldeki niteliklerden daha az sayıdaki niteliklerle (yeterli ve gerekli) ifadeleyebilmektir. Özellik
seçimi yalnızca arama uzayını küçültmekle kalmayıp, sınıflama işleminin kalitesini de arttırır .
1.1.6 Dinamik Veri
Kurumsal çevrim-içi veritabanları dinamiktir, yani içeriği sürekli olarak değişir. Bu durum, bilgi keşfi
metodları için önemli sakıncalar doğurmaktadır. İlk olarak sadece okuma yapan ve uzun süre çalışan
bilgi keşfi metodu bir veritabanı uygulaması olarak mevcut veri tabanı ile birlikte çalıştırılırdığında
mevcut uygulamanın da performansı ciddi ölçüde düşer. Diğer bir sakınca ise, veritabanında bulunan
verilerin kalıcı olduğu varsayılıp, çevrimdışı veri üzerinde bilgi keşif metodu çalıştırıldığında, değişen
verinin elde edilen örüntülere yansıması gerekmektedir. Bu işlem, bilgi keşfi metodunun ürettiği
örüntüleri zaman içinde değişen veriye göre sadece ilgili örüntüleri yığmalı olarak günleme yeteneğine
sahip olmasını gerektirir. Aktif veritabanları tetikleme mekanizmalarına sahiptir ve bu özellik bilgi keşif
metodları ile birlikte kullanılabilir (Sever vd. 2002).
Bir ilişki (ya da veri kümesi), içsel ve dışsal olmak üzere iki şekilde tanımlanabilir. İçsel tanım ilişkinin
özellikleri ve dışsal tanım varlıkları ile ilgilidir. Örneğin, bir kitap ilişkisinin içsel tanımını K ile ve dışsal
13
tanımını i ile gösterelim. O zaman, K(Başlık, Yazarlar, Yayıncı, Yıl, Adres, ISBN) şeması içsel tanımı,
ve <Türkçe Arama Motorlarında Performans Değerlendirme, {Y. Tonta, Y. Bitirim, H. Sever}, Total
Bilişim, 2002, Ankara,975-92923-0-0> varlığı i(K) ilişkisinin bir üyesi olarak görülebilir.
1.1.7 Farklı tipteki verileri ele alma
Gerçek hayattaki uygulamalar makina öğreniminde olduğu gibi yalnızca sembolik veya kategorik veri
türleri değil, fakat aynı zamanda tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafik bilgi içeren veri
gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirir. Kullanılan verinin saklandığı ortam, düz
bir kütük veya ilişkisel veritabanında yer alan tablolar olacağı gibi, nesneye yönelik veritabanları, çoklu
ortam veritabanları, coğrafik veritabanları vb. olabilir. Saklandığı ortama göre veri, basit tipte
olabileceği gibi karmaşık veri tipleri (çoklu ortam verisi, zaman içeren veri, yardımlı metin, coğrafik,
vb.) de olabilir. Bununla birlikte veri tipi çeşitliliğinin fazla olması bir veri madenciliği algoritmasının tüm
veri tiplerini ele alabilmesini olanaksızlaştırmaktadır. Bu yüzden veri tipine özgü adanmış veri
madenciliği algoritmaları geliştirilmektedir.
1.2 Veri Madenciliği Algoritmaları
Veri madenciliği süreci sonunda elde edilen örüntüler kurallar biçiminde ifade edilir. Elde edilen
kurallar, (1) koşul yan tümcesi ile sonuç arasındaki eşleştirme derecesini gösterir (if <koşul tümcesi>,
then <sonuç>, derece (0..1)), ya da (2) veriyi önceden tanımlanmış sınıflara bölüntüleyebilir ya da (3)
veriyi bir takım kriterlere göre sonlu sayıda kümeye ayırır. Bu kurallar veri üzerinde belirli bir tekniğin
(algoritmanın) sonlu sayıda yinelenmesiyle elde edilir. Elde edilen bilginin kalitesi veri analizi için
kullanılan algoritmaya büyük ölçüde bağlıdır.
Veri madenciliği algoritmaları iki grupta toplanabilir (Sever vd. 2002). Bunlar doğrulamaya dayalı
algoritmalar ve keşfe dayalı algoritmalardır. Doğrulamaya dayalı veri madenciliği algoritmasında,
kullanıcı bir hipotez öne sürer ve sistem bu hipotezi kanıtlamaya çalışır. Doğrulamaya dayalı veri
madenciliği algoritmalarının en yaygın olarak kullanıldığı yerler, istatiksel ve çokboyutlu analizlerdir.
Öte yandan keşfe dayalı algoritmalar otomatik olarak yeni bilgi çıkarırlar. Aşağıda veri madenciliği
sistemlerinde kullanılan algoritmalardan önemli olanları incelenecektir.
1.2.1 Hipotez Testi Sorgusu
Hipotez testi sorgusu algoritması, doğrulamaya dayalı bir algoritmadır. Bir hipotez öne sürülür ve
seçilen veri kümesinde hipotez doğruluğu test edilir. Öne sürülen hipotez genellikle belirli bir örüntünün
veritabanındaki varlığıyla ilgili bir tahmindir (Sever vd. 2002). Bu tip bir analiz özellikle keşfedilmiş
bilginin genişletilmesi veya rötuşlanması işlemleri sırasında yararlıdır.
14
Hipotez ya mantıksal bir kural ya da mantıksal bir ifade ile gösterilir. Her iki biçimde de seçilen
veritabanındaki nitelik alanları kullanılır. X ve Y birer mantıksal ifade olmak üzere “IF X THEN Y”
biçiminde bir hipotez öne sürülebilir. Verilen hipotez seçilen veritabanında doğruluk ve destek kıstasları
baz alınarak sistem tarafından sınanır.
1.2.2 Sınıflama Sorgusu
Sınıflama sorgusu, yeni bir veri elemanını daha önceden belirlenmiş sınıflara atamayı amaçlar (Sever
vd. 2002). Veritabanında yer alan çoklular bir sınıflama fonksiyonu yardımıyla kullanıcı tarafından
belirlenmiş ya da karar niteliğinin bazı değerlerine göre anlamlı ayrık alt sınıflara ayırır. Bu yüzden
sınıflama, denetimli öğrenmeye (supervised learning) girer. Sınıflama algoritması bir sınıfı diğerinden
ayıran örüntüleri keşfeder. Sınıflama algoritmaları iki şekilde kullanılır.
1• Karar Değişkeni ile Sınıflama: Seçilen bir niteliğin aldığı değerlere göre sınıflama işlemi yapılır.
Seçilen nitelik karar değişkeni adını alır ve veritabanındaki çoklular karar değişkeninin değerlerine
göre sınıflara ayrılır. Bir sınıfta yer alan çoklular karar değişkeninin değeri açısından özdeştir.
2• Örnek ile Sınıflama : Bu biçimdeki sınıflamada veritabanındaki çoklular iki kümeye ayrılır.
Kümelerden biri pozitif, diğeri negatif çokluları içerir.
Yaygın kullanım alanları, banka kredisi onaylama işlemi, kredi kartı sahteciliği tesbiti ve sigorta risk
analizidir.
Koşul ve sonuç yan tümceleri kural içindeki işlevlerine göre daha önce tanımlanmıştı. Benzer şekilde,
bir ilişkinin içsel tanımı (ya da şeması) koşul ve karar niteliklerce karşılıklı dışlayan bir şekilde
bölütlenebilir. Böylece, dışsal tanım içindeki varlıklar karar niteliğinin alan değerlerine göre sınıflara
ayrılabilir. Her bir sınıf içindeki varlıkların ortak olarak paylaştığı koşul nitelik değerleri ise, o sınıfı
belirleyen özellikleri teşkil eder(Sever vd. 2002).
1.2.3 Güdümsüz Gruplama Sorgusu
Gruplama (clustering) algoritması veritabanını alt kümelere ayırır. Her bir kümede yer alan elemanlar
dahil oldukları grubu diğer gruplardan ayıran ortak özelliklere sahiptir. Bu yüzden kümeleme,
güdümsüz öğrenmeye girer. Güdümsüz (veya etiketsiz) gruplama, güdümlü (veya etiketli) sınıflama
için ön işlem olarak da çok sıkça kullanılır. Gruplama konusuna bilgi geri erişim disiplininde oldukça
fazla çalışılmıştır ve bu çalışmalar gömü adı altında toplanabilir. Tipik bir bilgi geri erişim sistemi için
gömü, terimlerin belli bir ilişkiye göre düzenlenmesidir. Gömü, dizinleme ve erişim hizmetlerinde
terimlerin kullanımına rehberlik eder. Bu özelliği ile bir yetke kütüğü olduğu söylenebilir. Gömü ile
amaçlanan; kullanıcı sorgusunu, sorguda kullanmadığı ama bilgi ihtiyacı ile ilişkili terimler ile
genişletmektir. Sorgu genişletmede kullanılacak terimler gömü ile belirlenir. Böylece sorgular
15
kullanıcının ifade şeklinden kısmen bağımsızlaştırılır ve sorguya eklenen terimler ile daha fazla ilgili
belgeye erişme imkanı ortaya çıkar. Bir gömünün performansı da dizinleme ve/veya erişim
aşamasında kullanıldığı ve kullanılmadığı durumlarda anma ve duyarlılık parametrelerinin
karşılaştırılması ile ölçülür. Bu alanda yapılan çalışmalar gömünün üretildiği derleme benzer
derlemlerde kullanılması şartıyla anma değerinde %20’lere yaklaşan artışlar elde edilebildiğini
göstermiştir (Sever vd. 2002).
1.2.4 Ardışık Örüntüler
Ardışık örüntü keşfi, bir zaman aralığında sıklıkla gerçekleşen olaylar kümelerini bulmayı amaçlar. Bir
ardışık örüntü örneği şöyle olabilir: Bir yıl içinde Orhan Pamuk’un “Benim Adım Kırmızı” romanını satın
alan insanların %70’i Buket Uzuner’in “Güneş Yiyen Çingene” adlı kitabını satın almıştır. Bu tip
örüntüler perakende satış, telekomünikasyon ve tıp alanlarında yararlıdır.
1.2.5 Eşleştirme Sorgusu
Eşleştirme sorguları, bir ilişkide bir niteliğin aldığı değerler arasındaki bağımlılıkları, anahtarda yer
almayan diğer niteliklere göre gruplama yapılmış verileri kullanarak bulur. Bir eşleştirme kuralı örneği
şöyle olabilir: Orhan Pamuk’un “Benim Adım Kırmızı” romanını satın alan insanların %40’ı aynı
alışverişte Buket Uzuner’in “Güneş Yiyen Çingene” adlı kitabını da satın almıştır. Bu örnekten de
görülebileceği gibi, sınıflama ile eşleştirme arasında çok yakın bir ilişki vardır (Ali vd.1997). Yaygın
kullanım alanları katalog tasarımı, mağaza ürün yerleşim planı, müşteri kesimleme, telekomünikasyon
vb.’dir (Sever vd. 2002).
1.2.6 Eşleştirme Algoritmaları
Geçmiş tarihli hareketleri analiz etmek, karar destek sistemlerinde karar verme aşamasında verilen
kararların kalitesini arttırmak için izlenen bir yaklaşımdır. Bununla birlikte, 1990’lı yılların başına kadar,
teknik yetersizlikten dolayı, kurumlarda satış yapıldığı anda değil belirli bir zaman aralığı bazında
(günlük, aylık, haftalık, yıllık) gerçekleşen satış hareketlerinin tamamına ilişkin genel veriler elektronik
ortamda tutulmaktaydı. Otomatik tanıma ve veri toplama uygulamalarındaki gelişme firmaların satış
noktalarında barkod/otomat kullanımını yaygınlaştırmıştır. Bu gelişme, bir harekete ait verilerin satış
hareketi oluştuğu anda toplanmasına ve elektronik ortama aktarılmasına olanak tanımıştır. Genellikle
büyük süpermarketlerde satış noktalarında otomat kullanımı yaygındır, bu nedenle oluşan veriye
market - sepeti verisi adı verilir. Market-sepeti verisinde yer alan bir tutanakta, hareket numarası,
biriciktir, hareket tarihi ve satın alınan ürünlere ilişkin veriler ( ürün kodu, miktar, fiyat ) yer alır. Başarılı
kuruluşlar bu tip bilgileri içeren veritabanlarını pazarlama alt yapısının önemli parçalarından biri olarak
görürler. Bu firmalar bilgi teknolojisine dayalı pazarlama sürecini, veri madenciliği ve veritabanı
metodlarından faydalanarak kurumsallaştırma çabasındadır.
16
Market-sepeti verisi üzerinde eşleştirme kurallarının çıkarımı problemi ilk olarak 1993 yılında ele
alınmıştır (Sever vd. 2002). Eşleştirme sorgusu, bir ilişkide bir niteliğin aldığı değerler arasındaki
bağımlılıkları, anahtarda yer almayan diğer niteliklere göre gruplama yapılmış verileri kullanarak bulur.
Keşfedilen örüntüler örneklemde sıklıkla birlikte geçen nitelik değerleri arasındaki ilişkiyi gösterir. Bir
eşleştirme kuralı örneği şöyle olabilir: Ekmek ve yağ satın alınan satış hareketlerinin %90’nında süt de
satın alınmıştır. Bu tür eşleştirme örüntüleri ancak, örüntüde yer alan öğelerin birden fazla harekette
tekrarlandığında potansiyel olarak mevcut olabilirler. Eşleştirme kurallarının çıkarımı katalog tasarımı,
müşterilerin satın alma alışkanlarına göre sınıflandırılması, mağaza ürün yerleşim planı gibi pek çok
uygulama alanında kullanılabilir. Gerçek hayattaki uygulamalarda veri madenciliği teknikleri
milyonlarca çoklu üzerinde uygulandığından eşleştirme sorgusu sırasında kullanılan algoritmalar hızlı
olmalıdır. Diğer veri madenciliği tekniklerinde olduğu gibi, eşleştirme sorguları etkinlik, ölçeklenebilirlik,
kullanılabilirlik ve anlaşılabilirlik gibi önemli ölçütleri karşılamalıdır.
17
2 METİN VERİ MADENCİLİĞİ
Veri madenciliği üzerindeki en eski çalışmalar ilişkisel, görev ile ilişkili ve veri ambarı verileri gibi
yapısal veriler üzerine yoğunlaşmıştır. Fakat gerçekte, elde edilebilir bilginin büyük bir çoğunluğu metin
veri tabanları (doküman veri tabanları) üzerinde saklanmaktadır. Bu veri tabanları, makaleler,
araştırma yazıları, kitaplar, sayısal kütüphaneler, e-posta mesajları ve web sayfaları gibi çeşitli
kaynaklardan, geniş ölçekli doküman koleksiyonlarından oluşmaktadır. Metin veri tabanları, elektronik
yayınlar, e-posta, CD_ROM’lar ve internet gibi elektronik formda elde edilebilir bilgilerin artması
nedeniyle çok hızlı büyümektedir (Bolat 2003).
Metin veri tabanları saklanan verilerin hemen hepsi ne tamamen yapısal, ne de tamamen yapısallıktan
uzak olan yarı yapısal verilerdir. Örneğin, bir doküman başlık, yazarlar, yayım tarihi, boyut, kategori vb.
olmak üzere çok az yapısal alan, fakat özet ve içerik gibi büyük boyutlarda yapısal olmayan metin
bileşenleri içerir. Son zamanlarda veri tabanı araştırmalarında yarı yapısal verilerin modellenmesi ve
uyarlanması üzerinde geniş ölçekli çalışmalar yapılmaktadır. Daha da ötesi, yapısal olmayan verileri
işlemek için metin indisleme metotları gibi bilgi kazanım teknikleri geliştirilmiştir.
Geleneksel bilgi kazanım teknikleri, metin verilerinin büyük boyutlarda artışı karşısında etkisiz
kalmaktadır. Tipik olarak, çoğu elde edilebilir dokumanın yalnızca küçük bir kısmı verilen kullanıcı ile
ilişkili olmaktadır. Dokümanların içerisinde ne bulunabileceğini bilmeden verilerin çözümlenmesi ve
kullanışlı bilginin çıkarılması için etkili sorgular oluşturmak oldukça zor olmaktadır. Kullanıcılar, farklı
dokümanları karşılaştırmak, önemlerine göre derecelendirmek ve ilişki kurmak veya çoklu dokümanlar
arasından örnekleri ve eğilimleri bulmak için bazı araçlara ihtiyaç duymaktadırlar. Böylece, metin
madenciliği veri madenciliği içerisinde esas temayı oluşturmakta ve git gide popüler olmaktadır.
Son zamanlarda elektronik olarak kullanılabilecek olan dijital bilgilerin bolluğu metinsel bilgilerin önemli
bir görev içerisine organize edilmesini sağlamıştır. Metin inceleme, metin verilerinden bilginin
keşfedilmesi amaçlı yeni bir teknolojidir. World Wide Web’de mevcut olan sayfaların sayısının hızlı bir
şekilde artışı ile, metin incelemesi enformasyonun ve bilginin yönetilmesinde anahtar bir rol oynamaya
başlamıştır ve bu nedenle de gittikçe daha fazla dikkat çekmektedir (Berry 2003).
2.1 Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması
2.1.1 Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı
“Bilgi çıkarımı nedir?”. Bilgi kazanımı yıllardır veri tabanı sistemleri ile paralel olarak geliştirilmektedir.
Yapısal veriler üzerinde sorgu ve işlembilgi işleme üzerine odaklanan veri tabanı sistemlerinin aksine
bilgi çıkarımı organizasyon ile ilgili olup, metin tabanlı dokümanlardan bilginin çıkarılmasıdır. Tipik bir
bilgi çıkartımı problemi anahtar kelimeler veya örnek dokumanlar vb. kullanıcı girişlerine bağlı olarak
18
ilişkili dokümanların bulunmasıdır. Tipik bilgi çıkartım sistemleri, çevrim içi kütüphane katalog
sistemleri ve çevrim içi doküman yönetim sistemlerini içerir.
Madem bilgi çıkartımı ve veri tabanı sistemlerinin her biri farklı tipte veriyi işlemektedirler; uyumluluk
kontrolü, geri kazanım, işlembilgi yönetimi ve güncelleme gibi bazı veri tabanı sistemi problemleri,
genellikle bilgi çıkartımı sistemlerinde bulunmazlar. Ayrıca yapısal olmayan dokümanlar, anahtar
kelimelere bağlı olarak yaklaşıklık taraması ve anlamlılık vb. gibi bazı ortak bilgi çıkartımı
problemlerine genellikle, geleneksel veri tabanı sistemlerinde rastlanmaz.
2.1.2 Metin Çıkartımı İçin Temel Ölçümler
“Varsayalım ki bir metin çıkartımı sistemi sorgu formundaki bir girişimize bağlı olarak birçok doküman
getirmiş olsun. Peki, sistemin doğru çalışıp çalışmadığını nasıl değerlendireceğiz?” Sorgu ile ilişkili
doküman kümesini [Relevant] olarak ve sonuçta elde edilen dokümanları ise [Retrieved] olarak
adlandıralım. Hem ilişkili hem de elde edilen dokümanları Venn şemasında görüldüğü gibi [Relevant] ∩
[Retrieved] olarak adlandıralım. Burada metin çıkarımının kalitesini değerlendirmek için iki temel
ölçümümüz bulunmaktadır(Nahm 2004).
Hassasiyet: Sorgu ile ilişkili elde edilen dokümanların, elde edilen dokümanlara olan oranının
yüzdesidir (örn. “doğru sonuçlar”).
[ Re levant ] [ Re trieved ]
hassasiyet = . (2.1)
[ Re trieved ]
Çağırma: Sorgu ile ilişkili elde edilen dokümanların, ilişkili olan dokümanlara olan oranının yüzdelik
ifadesidir.
[ Re levant ] [ Re trieved ]
cagirma = . (2.2)
[ Re levant ]
2.1.3 Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı
“Bilgi çıkarımı için hangi metotlar bulunmaktadır?” Tüm bilgi çıkarım sistemleri anahtar kelime tabanlı
ve/veya benzerlik tabanlı çıkarımı destekler. Anahtar kelime tabanlı bilgi çıkarımında, bir doküman
anahtar kelimelerden oluşan bir dizgi ile temsil edilir. Kullanıcı anahtar bir kelime veya “araç ve
tamirhaneler”, “çay ve kahve”, “Oracle’ın haricindeki veri tabanı sistemleri” gibi anahtar kelimelerden
oluşan bir küme ifadesi sağlar. İyi bir bilgi çıkarım sistemi bu tür sorgularda eş anlamlı sözcükleri de
dikkate almalıdır. Örneğin, “araba” kelimesi girildiğinde eş anlamlıları olan “araç” ve “otomobil” gibi
19
kelimeleri de dikkate almalıdır. Anahtar kelime tabanlı sistem iki önemli zorlukla karşı karşıya gelen
basit bir sistem modelidir. Bunların ilki eş anlam problemidir: örneğin “yazılım ürünü” gibi anahtar bir
kelime doküman gerçekten bir yazılım ürünü ile ilişkili olsa dokümanın her hangi bir bölümünde
bulunmayabilir. İkicisi ise, çokanlamlılıktır; aynı kelime içerik olarak farklı anlamlarda kullanılmış
olabilir.
Benzerlik tabanlı çıkarım sistemleri ortak anahtar kelimeler kümesini temel alarak benzer dokümanları
bulmaktadır. Bu tür bir çıkarımın çıktısı kelimelere yakınlığı, kelimelerin bağıl frekanslarını temel alan
bir ölçüm ile belirlenen ilişki derecesini temel almaktadır. Çoğu durumda, anahtar kelime kümeleri
arasındaki ilişkinin derecesinin hassasiyet ölçümünü belirlemek zor olmaktadır.
“Anahtar kelime ve benzerlik tabanlı bilgi çıkarım sistemleri nasıl çalışmaktadır?”. Bir metin çıkarım
sistemi bir “dur listesi” ile bir doküman kümesini ilişkilendirir. Bir “dur listesi” bir kelime kümesini “konu
ile ilişkisi olmayan” olarak addeder. Örneğin “bir”, “nin”, “için”, “ile” gibi kelimeler sıklıkla
karşılaşılmalarına rağmen “dur” kelimeleridir. Doküman kümeleri değiştikçe “dur” listeleri de
değişmektedir. Örneğin veri tabanı sistemleri bir gazete içerisinde önemli bir kelime olabilir. Bununla
beraber, veri tabanı sistemleri konferansında yayınlanan makaleler kümesi içerisinde bir “dur” kelimesi
olarak değerlendirilebilir.
Farklı kelimelerden oluşan bir grup, aynı kelime gövdesini paylaşabilir. Bir metin çıkarım sistemi, bir
grup içerisindeki kelimelerin diğer kelimelere olan küçük söz dizimsel değişimlerinden oluşan
kelimeleri tanımlama ihtiyacı duyar ve her grup için ortak kelime gövdesini derler. Örneğin, “drug”,
“drugged” ve “drugs” kelime grubu, aynı “drug” kelime gövdesini paylaşmakta ve aynı kelimenin farklı
bulunma durumlarını gösterebilmektedir.
“Bilgi çıkarımını gerçekleştirmek için bir dokümanı nasıl modelleyebiliriz?” Bir “d” doküman kümesi ve
“t” terim kümesi ile başlayarak, her dokümanı “t” boyutlu “Rt” uzayında “v” vektörü ile modelleyebiliriz.
“v” vektörünün “j.” koordinatı verilen dokuman için j. terimin ilişkisini ölçen bir sayıdır: bu değer eğer
dokuman terimi içermiyorsa genellikle 0, içeriyorsa sıfırdan farklıdır. Bu vektörde sıfırdan farlı girişler
için terim ağırlıklandırma tanımlamanın farklı yolları bulunur. Örneğin, eğer j. terime dokuman
içerisinde rastlanmış ise vj = 1 olarak tanımlanır veya ti teriminin dokuman içerisinde karşılaşılma
sayısı direk olarak kullanılarak vj terim frekansı, terimin karşılaşılma sayısının toplam terimlere oranı
kullanılarak göreli frekans değeri olarak kullanılabilir.
Veri Madenciliği veya Veri tabanlarında Bilgi Keşfi, verilerdeki yeni ve anlaşılabilir biçimlerin
tanımlanması işlemidir(Berry 2003). Veri inceleme yalnızca enformasyon veya kullanıcının halihazırda
sormayı bildiği sorulara yanıtlar aramakla kalmaz aynı zamanda veriler içerisine gömülmüş olan derin
bilgileri de keşfeder. Bunu yapmak için veri inceleme işleminde hesaplama teknikleri kullanılır, bunlar
genellikle bir öğrenme algoritması biçimindedir ve verideki potansiyel olarak yararlı biçimlerin
20
bulunması amacını taşır. Mevcut veri inceleme yaklaşımlarının büyük bölümü verilerin ilişkisel bir
tablosu içerisindeki biçimleri arar.
Metin inceleme veya metin verisi inceleme, yararlı veya ilginç biçimlerin, modellerin, yönlerin,
eğilimlerin veya kuralların yapılandırılmamış metinden bulunması işlemi, veri inceleme tekniklerinin
metinden bilginin otomatik olarak bulunması amaçlı veri inceleme tekniklerinin uygulanmasının
açıklanması amacıyla kullanılır. Genellikle metin inceleme işlemine, veri incelemenin doğal bir uzantısı
olarak bakılır (Nahm 2004). Bu durum, metin incelemenin bulunmasının, büyük ölçüde veri
incelemenin filizlendiği alanı temel alır.
Bununla birlikte, ya ilişkisel veri tabanlarında ya da veri depolarında mevcut olan iyi yapılandırılmış
koleksiyonlar üzerinde odaklanan veri incelemeden farklı olarak, metin inceleme çok daha az
yapılandırılmış olan verileri açığa çıkartır. Bugünün elektronik verilerinin büyük bölümü geleneksel
ilişkisel veritabanlarında bulunmaz, bunlar Web’de ve doğal dilli dokümanlarda “gizlenmiştir”. Bu
çalışmada geleneksel veri inceleme ve Enformasyon Çıkartılmasının (IE) entegrasyonunu temel alan
metin incelemesi için yapılan çalışmalardan sözedilecektir.
Bir IE sisteminin amacı doğal dilli metinler içerisindeki özel verilerin bulunmasıdır. Çıkartılacak olan
veriler tipik olarak, dokümandan alınan alt dizilerle doldurulacak olan bir yuvalar listesi belirleyen bir
şablonla verilir. IE bir dizi uygulama için yararlıdır, özellikle de son zamanlarda Internet’in ve web
dokümanlarının çoğalması göz önüne alındığında. Yakın zamandaki uygulamalar kurs ve araştırma
projesi ana sayfalarını, seminer duyurularını, daire kiralama ilanlarını, iş ilanlarını, coğrafi web
dokümanlarını, hükümet raporlarını ve tıbbi özetleri kapsamaktadır (Nahm 2004).
Geleneksel veri inceleme işleminde “incelenecek” olan enformasyonun halihazırda bir ilişkisel veri
tabanı biçiminde olduğu varsayılır. Ne yazık ki birçok uygulama için elektronik enformasyon
yapılandırılmış veri tabanlarından çok, yalnızca yapılandırılmamış doğal dilli dokümanlar halindedir. IE
metinsel dokümanların bir külliyatının daha yapılandırılmış bir veritabanına dönüştürülmesi sorununu
hedef alır ve böylece standart VTBK yöntemleri ile birleştirildiğinde metin incelemesinde
oynanabilecek olan açık bir rol ortaya koyar. Bu çalışmada, bir IE modülünün ham metin içerisindeki
özel veri bölümlerinin konumlandırılması ve sonuçta ortaya çıkan veritabanının kural incelemesi için
VTBK modülüne sağlanması amacıyla kullanımı anlatılmaktadır.
2.1.4 Metin Verilerinin Heterojenliği
İlişkisel veri tabanları ile karşılaştırıldığında, Internet üzerinde mevcut olan doğal dilli çoğunlukla
heterojen ve gürültülüdür. Birçok metinsel veri tabanı alanına yapılan girişler inceleme algoritmalarının
önemli düzenlilikleri keşfetmesine engel olabilecek küçük farklılıklar gösterebilir. Farklılıklar tipografik
hatalardan, yanlış yazımlardan, kısaltmalardan ve diğer kaynaklardan kaynaklanabilir.
21
Farklılıklar özellikle yapılandırılmamış veya yarı-yapılandırılmış dokümanlardan veya web sayfalardan
otomatik olarak çıkartılan verilerde ifade edilir. Örneğin, haber grubu postalarından otomatik olarak
çıkardığımız yerel iş olanakları konusundaki verilerde, Windows işletim sistemi değişik şekillerde
“Microsoft Windows”, “MS Windows”, “Windows 95/98/ME” vb. şekillerde adlandırılmaktadır(Nahm
2004).
Daha önce yapılmış olan işlerin bir bölümü benzer veya çoğaltılmış kayıtların tanımlanması sorununu
hedef almıştır, bu işlem kayıtların bağlantılandırılması, birleştirme/ayırma sorunu, çoğaltma algılaması
yumuşak veri tabanlarının sertleştirilmesi ve referans uyumlandırması olarak adlandırılmıştır. Tipik
olarak, sabit bir metinsel benzerlik ölçümü, iki değerin veya kaydın kopya olmak için yeterince benzer
olup olmadığının belirlenmesinde kullanılmıştır. Bu yaklaşımda, “Microsoft Windows”, “MS Windows”
ve “Windows 95/98/ME” işlem öncesi bir basamak olarak tek bir terim içerisine
haritalandırılmıştır(Nahm 2004).
Ataları ve ardılları veritabanı girişlerine yeterli benzerlik temelinde değerlendirilen “yumuşak

uyumlandırma” kurallarının keşfedilmesi yoluyla “kirli” verilerin direkt olarak bulunması biçimindeki
alternatif yöntemlerden ilerleyen sayfalarda anlatılacaktır. Metnin benzerliği standart “kelimeler
çantası” ölçümleri kullanılarak veya düzenleme-mesafe ölçümleri kullanılarak ölçülebilir; diğer standart
benzerlik ölçümleri nümerik ve ek veri türleri için kullanılabilir. Örneğin, “Windows bir iş için gerekli
becerilerin listesiyse, o zaman bu iş için IIS bilgisi de gereklidir” gibi yumuşak uyumlandırma kuralları
bir dizi iş ilanından keşfedilir. Bu durumda, “Windows” ve “IIS”, sırasıyla “MS Windows” veya “IIS
Hizmetleri” gibi benzer dizilere uyumlandırılabilir.
22
3 METİN SINIFLANDIRMA
Sınıf olmak için her kaydın belli ortak özellikleri olması gerekir. Ortak özelliklere sahip olan kayıtların
hangi özellikleriyle bu sınıfa girdiğini belirleyen algoritma, sınıflama algoritmasıdır. Sınıflama
algoritması, denetimli öğrenme kategorisine giren bir öğrenme biçimidir. Denetimli öğrenme, öğrenme
ve test verilerinin hem girdi hem de çıktıyı içerecek şekilde olan verileri kullanmasıdır.
Sınıflama sorgusuyla, bir kaydın önceden belirlenmiş bir sınıfa girmesi amaçlanmaktadır (Bolat 2003).
Bir kaydın önceden belirlenmiş bir gruba girebilmesi için sınıflama algoritması ile öğrenme verileri
kullanılarak hangi sınıfların var olduğu ve bu sınıflara girmek için bir kaydın hangi özelliklere sahip
olması gerektiği otomatik olarak keşfedilir. Test verileriyle de bu öğrenmenin testi yapılarak ortaya
çıkan kurallar optimum sayısına getirilir.
Sınıflama algoritmasının kullanım alanları sigorta risk analizi, banka kredi kartı sınıflaması, sahtecilik
tespiti, vb. alanlardır.
Metin Sınıflandırma, eldeki sınıflardan birine ait olduğu bilinen bir dokümanın, hangi sınıfa girdiğinin
bulunması işlemidir. Günlük hayatta bir gazete ya da bir kitap okunduğunda, bu metinlerde geçen
olaylar daha önceden bilinen birtakım olaylara bağlanır. Bir konunun nasıl anlaşıldığı da bu bilgilerin
kendi aralarında nasıl bağlandığına ve her konunun içine konduğu sınıflara bağlıdır. Otomatik metin
sınıflandırma işlemi de günlük hayattaki bu uygulamanın bilgisayar dünyasındaki karşılığıdır (Bolat
2003).
Metin süzme (MS), dokümanların sisteme girmesiyle birlikte denetlenmesi ve kullanıcı sorgusuna
uygun olanların seçilmesi işlemidir. MS uygun/uygun olmayan şeklinde karar verirken aslında
dokümanları belli sınıflara ayırır. Bu yüzden MS bir sınıflandırma işlemi olarak da görülebilir(Sever vd.
2002). Bu bakımdan ele alındığında dosyaların veya elektronik mektupların konularına göre önceden
belirlenmiş klasörlere taşınmasında, belirli bir konuya özgün çalışmalarda, konunun belirlenmesinde
ve yapısal aramalarda da kullanılabilir.
Bir çok alanda yeni metinlerin sınıflandırılmasında profesyonel insanlar rol alır. Metin sınıflandırma çok
zaman ve paraya mal olan bir işlemdir. Bundan dolayı otomatik metin süzme ve sınıflandırma
işlemlerinde hızla gelişen teknolojiye ve uygulamalara bir ilgi vardır. Bağlanım modelleri, en yakın
komşu sınıflandırıcıları, karar ağaçları, Bayesian sınıflandırıcıları, destek yöney makineleri, kural
öğrenme algoritmaları, ilgililik geri besleme ve yapay sinir ağları gibi pek çok istatistiksel, matematiksel
ve otomatik öğrenme teknikleri bu ilgiden kaynaklanmıştır.
23
3.1 Metin Madenciliğinin Ön Aşamaları ve Sınıflama
İster Metin Madenciliği, ister metin erişimi olsun, tüm bu konulara ait tekniklerin kullandıkları ortak
yöntemler vardır. Bu bölümde bu yöntemlerden bahsedilecektir.
3.1.1 Ayrıştırma
Metin veri madenciliğinde yapılan ilk işlem, karakter dizileri olan metinlerin öğrenme algoritmaları ve
sınıflandırma işlemleri için uygun bir hale getirilmesidir. Bunun için ilk önce metindeki XML (EXtensible
Markup Language) ve HTML (Hyper Text Markup Language) gibi her türlü etiket kelimesinin
çıkarılması gerekir. Ardından harf olmayan karakterler boşluklarla yer değiştirir. Tek harfli sözcükler
silinir. Bütün karakterler küçük harflere çevrilir (Tonta 2002).
3.1.2 Durdurma Kelimelerinin Çıkarılması
Önişlemle, kullanılacak sözcüklerin ortaya çıkmasından sonra, dokümanın içerisinde çokça geçen
fakat kendi başlarına bir anlamları olmayan ve dokümanlara fazla anlam katmayan (ve, sonra, ile...
gibi) durdurma kelimeleri çıkarılır. Durdurma kelimelerinin bilgi erişim sistemlerinde gerekli olmadığı,
bu sistemlerle ilgili çalışmalarının ilk günlerinden beri bilinmektedir. Bu kelimelerle yapılacak herhangi
bir sorgunun, eldeki veri kümesinin her elemanını sonuç olarak döndüreceğinden, bu kelimelerin ayrım
yaptırma güçleri zayıftır. Ayrıca durdurma kelimeleri, dokümanlarda çok fazla yer tutarak sistemin
hantallaşmasına neden olur. Bu kelimeler, her doküman kümesinde istatistiksel yöntemlerle
bulunabilse de, genelde tek bir durdurma kelimesi listesi kullanılır. Bu liste bir adres hesaplama
tablosunda (hash table) da tutulabilir.
3.1.3 Gövdeleme
Durdurma kelimelerinin çıkarılmasının ardından, her kelimenin eklerinin çıkarılmasıyla kelime kökleri
bulunur. Kelime köklerinin bulunması, kelimelerin biçimsel benzerlerinin bulunması anlamına gelir.
Böylece, koşucular, koşucu, koşmak, koş, koşuyorum gibi aynı anlam grubundaki kelimeler bir araya
getirilmiş olur. Kök bulmada karşılaşılabilecek iki sorun vardır; Birincisi, bu işlemde çok ileri giderek
birbirinden anlamca çok farklı kelimelerin aynı anlam grubuna bağlanmasıdır. Bu durumda sistem,
konuya uygun olmayan dokümanları da konuyla ilgili şeklinde yorumlayabilir. Diğer bir sorun da,
kelimelerin köklerine ulaşılmaya çalışılırken çok az ekin çıkarılması işlemidir. Bu durumda da sistem
konuya uygun dokümanları, “uygun olmayan” dokümanlar olarak algılayabilir.
24
Gövdelemeye yarayan pek çok farklı algoritma vardır. Bu yöntemlerden biri tüm dizin sözcüklerinin ve
köklerinin Tablo 3.1.’ deki gibi bir tabloda tutulmasıdır.
Tablo 3.1 Kelimelerin ve Köklerinin Bir Tabloda Tutulması
Gizlemek Gizle
Gizlenmek Gizle
Gizle Gizle
Bu yöntemin dezavantajı, çok fazla saklama alanına gereksinim duyması ve böyle bir tablonun
yaratılmasının zor olmasıdır.
Diğer bir yöntem de, eldeki dokümanlardan oluşturulan bir sözlüğün içindeki her kelimenin, her harfinin
tek tek ele alınarak ardıl farklılıklarının incelenmesiyle yapılır. Kökü bulunacak kelimenin sözlük içinde
farklı bir kelime olarak bulunabilen ilk n harfi, kelimenin kökü olarak alınır. Mesela sözlüğün içerisinde
koş ve koşucu kelimeleri olsun. Koşucu kelimesinin kökünü bulmak için, k, ko, koş kelimelerine ulaşılır.
Koş sözcüğünün sözlükte bir kelime olarak görülmesiyle kelimenin kökü bulunmuş olur.
Yukarıdaki yöntemler her dil için geçerli olan yöntemlerdir. Veri kümesi İngilizce metinlerden oluşan
çalışmalarda, Porter Stemmer algoritması, daha basit ve hızlı olmasına rağmen diğerleriyle
performans bakımından farkı olmaması nedeniyle, bu konu için en çok kullanılan algoritmadır(Bolat
2003).
3.1.4 Metin Gösterimi
Metinler sayısal ortamlarda saklanırken, en çok, doğal yazının sayısal ortamdaki şekli halinde
bulunur. Fakat metin halinde depolanan dokümanların üzerinde hesaplamaya dayanan
işlemler yapmak zor olduğu için, dokümanlar farklı gösterim şekillerine dönüştürülür.
Aşağıda bu gösterim şekillerinden birisi olan vektör uzayı modeli açıklanmıştır.
3.1.5 Vektör Uzayı Modeli
Bu konudaki en çok bilinen yöntem vektör uzayı modelidir. Bu modele sahip bir dokümanlar
kümesinde, her doküman MxN kelime vektörleriyle ifade edilir. M tüm dokümanlardaki her bir farklı
kelime ve N de elde bulunan tüm dokümanların sayısıdır. Bu vektördeki her girdi, bir kelimenin o
dokümandaki kullanılma sıklığını ifade eder. Mesela
A=(aik) (3.1)
25
ifadesinde A bir doküman matrisi, aik ise dokümanlar topluluğundaki her kelimenin içinde bulunduğu bir
sözlükte, i numaralı sırada bulunan kelimenin, k numaralı dokümandaki ağırlığını belirtir. Bu yöntem
modern bilgi erişiminin babası olarak kabul edilen Gerard Salton tarafından bilim dünyasına
sunulmuştur (Bolat 2003).
Metin sınıflama sistemleri bir dokümana ait kelimelerin frekanslarını kullanarak çalışır. Eğitim kümesi
elemanlarından çeşitli ağırlıklar bulur ve bu ağırlıkları sisteme yeni giren dokümanların kategorilerini
bulmakta kullanır. Vektör uzayı modelinde, yazılışları aynı fakat farklı anlamlara gelen kelimelerin
sorun yaratabileceği fikri akla gelebilir. Mesela “yüz” kelimesi, “yüzme”, “100” veya “insan yüzü”
anlamlarında kullanılmış olabilir. Bu sorun metin sınıflama tekniklerinde ortadan kalkar. Bunun sebebi;
sistem, ağırlıkları belirlerken, gerekirse “yüz” kelimesinin ağırlığını düşürür ve diğer kelimelerin
ağırlıklarını arttırır.
3.1.6 Boyut Küçültme
Her kelime, her dokümanda geçmediği için, yukarıda A ile gösterilen matris genellikle seyrek matristir.
Matristeki satır sayısı M, sözlükteki kelime sayısına eşit olduğu için M çok büyük bir sayı olabilir. Bu da
matrisin büyümesine ve işlemler sırasında gereksiz zaman ve iş kaybı anlamına gelir. Bu problemi
aşmak için farklı algoritmalar uygulanabilir (Bolat 2003).
3.1.6.1 Özellik Seçimi
Bütün boyut küçültme algoritmalarında, tüm dokümanlardaki kelimeler bir sözlüğün içinde toplanır.
Daha sonra küçültme algoritmalarından çıkan sonuçlara göre bu sözlükten bazı kelimeler çıkarılır.
Eldeki dokümanlar tekrar gözden geçirilerek sadece sözlükte bulunan kelimeler kullanılır.
3.1.6.2 Doküman Frekans Eşikleme
Bir kelimenin doküman frekansı, o kelimenin geçtiği doküman sayısıdır. Doküman frekans eşikleme,
sözlükteki her kelimenin doküman frekansını bulur ve belirli bir sayının altında doküman frekansına
sahip olan kelimeleri sözlükten çıkarır. Bu yöntem, belirli bir sayı altında dokümanda geçen kelimelerin
kümede belirleyici bir role sahip olmadığı ve kategori belirlemede yetersiz olduğu fikrine dayanır(Bolat
2003).
3.1.6.3 Bilgi Kazanımı Yöntemi
Bu yöntem, her kelimenin, varlığının ve yokluğunun, kategori seçimi üzerindeki etkilerine dayanır.
c1...cK dokümanın ait olabileceği muhtemel kategoriler olsun. Kelime w’nin bilgi kazanımı değeri IG(w,)
aşağıdaki formül ile bulunur.
26
K K
IG ( w)   P(c j ) log P (c j )  P ( w) P (c j | w) log P(c j | w)
j 1 j 1 (3.2)
__ __ __
 P( w) j 1 P(c j | w) log P (c j | w)
K
Burada
P (c j ) değeri bir dokümanın tüm kategoriler içinde cj kategorisine ait olma olasılığı,
P (w) değeri topluluktaki tüm dokümanlar içindeki bir dokümanın içinde w kelimesinin geçme
olasılığı,
P (c j | w) c j kategorisindeki dokümanlardan birinde en az bir kere w kelimesinin geçme olasılığı
__
P (c j | w) değeri de c j kategorisindeki dokümanlardan birinde hiç w kelimesinin bulunmaması
olasılığıdır.
Bilgi kazanımı değeri, koleksiyondaki her eğitim dokümanı kelimesi için hesaplanır ve belli bir değerin
altındaki kelimeler koleksiyondan çıkarılır.
3.1.6.4 χ 2 (chi kare) İstatistiği
χ2 istatistiği, kelime w ile kategori c j arasındaki bağımsızlığı ölçer ve şu şekilde gösterilir:
N *( AD  CB ) 2
χ  w, c j  
2
(3.3)
 A  C  *( B  D) *  A  B  *  C  D 
Burada;
A c j kategorisindeki içinde w kelimesi geçen doküman sayısı
B içinde w kelimesi geçen fakat c j kategorisine ait olmayan doküman sayısı
C c j kategorisine ait ve içinde w kelimesi geçmeyen doküman sayısı
D c j kategorisine ait olmayan ve içinde w kelimesi geçmeyen doküman sayısı

N koleksiyondaki toplam doküman sayısıdır.
χ2 istatistiğine dayanan iki ölçme yöntemi ise;
 w    j 1 P(c j ) χ 2  w, c j 
2 K
χ (3.4)
(4.1.5.3.2)
veya χ max  w 
2
 max j χ 2  w, c j  dir. (3.5)
27
Eğer χ2 istatistiği sonucunda ortaya çıkan değer belli bir limitin altındaysa, kelime w sözlükten
çıkarılır(Bolat 2003).
3.1.7 Yeniden Değiştirgeleme
Yeniden değiştirgeleme, eldeki özelliklerin yeniden yapılandırılması veya birleştirilmesiyle yeni

özellikler yaratılmasına dayanır. Bu yöntemde, kelimelerin arasında gizli bir ilişki olduğu kabul edilir ve
bu ilişkiyi ortaya çıkarmak için, Gizli Anlambilimsel Dizinleme (Latent Semantic Indexing) gibi birtakım
istatistiksel yöntemler kullanılır.
3.2. Ağırlıklandırma
Yukarıda belirtilen A matrisinin taşıdığı ağırlık değerlerinin belirlenmesinde pek çok yöntem
kullanılır.Fakat bu yöntemlerin hemen hemen hepsi iki önemli noktaya dayanır;
• Bir sözcük, bir dokümanın içinde ne kadar çok sayıda geçerse, o dokümanın bir kategoriye
atanmasında o kadar etkili olur.
• Bir sözcük ne kadar çok farklı dokümanda bulunursa, o sözcüğün ayırt edici özelliği o kadar
azdır.
Aşağıda kısaca açıklanacak olan bu yöntemlerde kullanılan temel değişkenler

fik , i indisli kelimenin k metni içerisindeki kullanım sayısı, N toplam doküman sayısı, M toplam sözcük
sayısı, ni bu sözcüğe sahip olan doküman sayısına karşılık gelir.
3.2.1 Boole Ayırma
En basit yaklaşım olan Boole ayırma, eğer kelime dokümanda varsa ağırlık değerini 1’e, eğer yoksa
0’a eşitler.
1 eğer fik > 0 

aik =   (3.6)
0 diğer durumlar 
3.2.2. Kelime Frekans Ağırlıklandırma
Diğer bir basit yöntem olan kelime frekans ağırlığında, ağırlık kelimenin doküman içerisindeki ham
frekansına eşitlenir.
aik = f ik (3.7)
28
3.2.3 tf x idf Ağırlıklandırma (Term Frequency x Inverse Document Frequency)
Yukarıdaki iki ağırlıklandırma yöntemi, sözcüğün tüm dokümanlar içerisindeki etkilerini incelemeden
ağırlık değerini belirliyordu. tf x idf yöntemi ise, eldeki tüm metinleri göz önüne alarak ağırlıklandırma
yapar. Bu yöntem, eğer bir kelime az sayıda dokümanda geçiyorsa, kelimenin o dokümanın
kategorisinin belirlenmesinde önemli olduğu, eğer bir kelime çok sayıda dokümanda kullanılıyorsa,
kelimenin ayırt edici gücünün az olduğu fikriyle açıklanabilir. Yeni ağırlık değeri,
aik = f ik *log( N / ni ) (3.8)

formülüyle hesaplanır.
3.2.4 tfc-Ağırlıklandırma (Term Frequency Component)
Uzun dokümanlar, içlerinde daha çok sözcük tuttuklarından, bu dokümanlarda pek çok farklı sözcüğün
geçmesi ve bu sözcüklerin frekanslarının da küçük dokümanlara göre daha fazla olma ihtimali fazladır.
tfc ağırlıklandırma [16] tf x idf nin bu ihtimal göz önüne alınarak bir düzgeleme işleminden
geçirilmesinden oluşur. tf x idf formülünde geçen, kelimenin tüm dokümanlarda kullanılma sayısı olan
ni sözlük tablosundan, her bir dokümanda kelimenin kullanılma sayıları ise doküman vektöründen
alınmıştır.
N
f ik ∗ log 
aik =  ni  (3.9)
2
M  N 
∑ f jk * log
n


j =1   j 
3.2.5 ltc Ağırlıklandırma (Logarithmic Term Component)
tcf nin biraz daha değiştirilmiş hali olan ltc ağırlıklandırma yöntemi, ham frekanslar yerine logaritma
kullanarak, frekanslardaki büyük değişiklerin etkilerini azaltır.
N
log( f ik + 1) ∗ log  (3.10)
aik =  ni 
2
M  N 
∑ log( f ik + 1) * log 

j =1 
  nj 
29
3.3 Metin Madenciliği Algoritmaları
Metinler vektör uzayına geçirilip gerekli ağırlık değerleri değişikliklerinin yapılmasının ardından, artık
üzerlerinde Metin Madenciliği algoritmaları kullanılabilir hale gelirler. Bu aşamada daha önce
kullanılmış birkaç algoritma açıklanacaktır. Bu açıklamalarda kullanılacak olan bazı gösterimler şu
şekildedir; d = (t1 ,..., tM ) sınıflara ayrılması gereken dokümanlar kümesi ve t ise o dokumandaki
terimlerden birisi,. c1 ,..., cK ise olası kategoriler olsun. Ayrıca d1 ,..., d N elimizdeki dokümanların
tamamı, y1 ,..., y N ise bu dokümanların ait olduğu sınıflar, N j de c j kategorisine giren dokümanların
sayısı olsun.
3.3.1 Rocchio Algoritması
Rocchio yönteminde, her kategori için, o kategoriye ait eğitim örneklerinin ortalaması alınarak
prototip bir doküman vektörü oluşturulur. Hangi kategoriye ait olduğu bulunmaya çalışılan dokümanın,
oluşturulan prototipe olan mesafesine bakılarak süzme işlemi gerçekleştirilir. Bu oldukça hızlı bir
şekilde eğitilebilen ve pekçok türevi olan bir yöntemdir. Bu tez çalışmasında kullanılan EHİ algoritması
da, Rocchio algoritmasının türevlerinden birisidir.
3.3.2 Naive Bayes
Naive Bayes yöntemi, bir dokümanın içindeki özellikleri birbirinden bağımsız düşünerek çalışır. Yani
bir dokümanın sözcüklerinin birbirleriyle olan kombinasyonları, Naive Bayes yönteminde önemli
değildir. Bu bağımsızlık fikri her ne kadar doğru değilmiş gibi görünse de, Naive Bayes büyük bir
doğruluk oranı gösterir. Naive Bayes, eğitim kümesi verilerinin ve yeni girilen dokümanın verilerinin her
birini tek tek kullanarak, yeni dokümandaki her sözcüğün kategoriyi etkileme ihtimallerini hesaplayarak
tahminde bulunmaya çalışır. Naive Bayes formülü olasılıklara dayanır(Bolat 2003).
P (c j ) P ( d | c j ) (3.11)
P (c j | d ) =
P(d )
P (c j ) değeri bir dokümanın tüm kategoriler içinde cj kategorisine ait olma olasılığıdır.
30
(4.10) formülünün payda kısmı kategoriden kategoriye değişmediği için çıkarılabilir. Ayrıca
dokümandaki tüm kelimeler birbirinden bağımsız olduğu fikri düşünüldüğü için,
M
P (d | c j ) = ∏ P (ti | c j ) olarak düşünülebilir. Bu durumda formül;
i =1
M
P (c j | d ) = P (c j )∏ P(ti | c j ) (3.12)
i =1
şekline dönüşür.
~
Burada P (c j ) değerinin yaklaşık hesaplanması olan P (c j ) değeri, c j kategorisine ait eğitim
dokümanlarının tüm dokümanlara olan oranıyla hesaplanabilir.
~ Nj (3.13)
P (c j ) =
N
Ayrıca
~ 1 + N ij
P (ti | c j ) = (3.14)
M + ∑ k =1 N kj
M
N ij değeri, i kelimesinin kullanıldığı c j kategorisine ait dokümanların sayısı, M ise kullanılan toplam
kelime sayısıdır.
3.3.3 Karar Ağacı
Bu yöntemde doküman vektörü d, eğitim kümesi dokümanlarıyla oluşturulan bir karar ağacıyla
karşılaştırılarak, kullanıcı için uygun ya da uygun olmadığı anlaşılır. Bu karar ağacının
oluşturulmasında farklı algoritmalar kullanılsa da, bu ağacın her yaprağı farklı bir kategoriyi temsil
eder. Kullanılan her algoritmanın amacı, yeni bir dokümanı en doğru biçimde bir kategoriye
atayabilecek karar ağacını oluşturmaktır (Sebatiani,2005). Aşağıda bu yöntemlerin en popülerlerinden
birisi olan, CART yöntemi açıklanacaktır.
3.3.3.1 Ağacı Oluşturma (CART)
CART, ikili karar ağaçları oluştururken eğitimde kullanılan her bir vektörü, içindeki elemanlarından
birini kullanarak, bir fonksiyon yardımıyla, ikiye ayırır. Bu yüzden, ilk karar verilmesi gereken, hangi
elemanın en iyi ayrıştırıcı olduğunun saptanmasıdır. En iyi ayrıştırıcı, kümeyi en türdeş biçimde
31
ayırabilen ayrıştırıcıdır. Dolayısıyla eğitim kümesindeki çeşitlemeyi en aza indirebilen ayrıştırıcı, en iyi
ayrıştırıcıdır. En iyi ayrıştırıcının, aşağıdaki değeri en yüksek seviyede vermesi gerekir.
Çeşitlilik (ayırmadan önce) –

[çeşitlilik (sol çocuk (left child)) +çeşitlilik(sağ çocuk (right child))]
En çok kullanılan çeşitlilik hesaplaması yöntemlerinden birisi, entropi yöntemidir.
∑ p (c
j =1
j | t ) log p (c j | t ) (3.15)
(4.14)
p (c j | t ) , c j kategorisine ait eğitim kümesi elemanının t boğumuna (node) gelme olasılığıdır. Bu

olasılık şu şekilde hesaplanabilir.
N j (t )
p (c j | t ) = (3.16)
N (T )
Burada,
N j (t ) , c j kategorisine ait olan dokümanlar sayısıdır.
N (T ) t boğumundaki toplam doküman sayısıdır.
Ağaçtaki her boğumda en iyi ayrıştırıcıyı bulmak için, doküman vektörünün her elemanı ele alınır.
Çeşitlilikteki azalmayı iyilik ölçütü alarak yapılan ikili aramayla, en iyi ayrım değeri bulunmaya çalışılır.
Çeşitliliği en aza indiren eleman, o boğum için ayrıştırıcı olarak atanır.
Bu işlem hiçbir küme daha fazla ayrılamayacak duruma gelene kadar devam eder. Bu ağacın en altta
kalan boğumları yaprak olarak adlandırılır ve her yaprak bir kategoriyle eşleştirilir. Fakat bir yaprağa
ulaşan her doküman, o yaprağa ait kategoriye girmek zorunda değildir. Bir dokümanın bir yaprağa
yanlış olarak gelme ihtimali hata oranıdır. Bir ağacın hata oranı E (T ) , her yaprağın hata oranlarının
ağırlıklı toplamıdır. Her yapraktaki hata oranı, yapılan yanlış sınıflamaların tüm sınıflamalardaki
oranıyla hesaplanabilir.
3.3.3.2 Ağacın Budanması
Eğitim kümesini kullanırken hata oranı en aza indirilmiş olsa da, yeni gelen verilerin kategorilere
atanmasında en iyi sonucu vermeyebilir. Ağaç tamamen eğitim kümesi elemanlarıyla örtüştüğü için,
ağacın yeni verilere uygun olması budanma ile sağlanır.
Budama işleminin amacı, her yaprak için en az ayırımcı güce sahip dalların çıkarılmasıdır. Bu dalları
bulmak için ağaç T ’nin ayarlanmış hata oranı bulunur.
32
Eα (T ) = E (T ) + α N yapraklar (T ) (3.17)
N yapraklar (T ) ağacın yapraklarının sayısı, ve α ise bir parametredir. Başka bir deney kümesi
kullanılarak, ağacın kendisi ve alt ağaçlarının tek tek ayarlanmış hata oranları bulunur. Sonuçta en iyi
sonucu veren ağaç kullanılır.
3.3.4 Destek Yöney Makineleri
Destek yöney makineleri, metin sınıflamada olduğu kadar diğer pek çok geniş alanda da başarı
göstermiştir. Vladimir Vapnik’in verilerin dağılımıyla ilgili olan yapısal risk enküçültmesi teorisine
dayanır. Destek yöney makineleri yöntemi sadece ikili sınıflamalar yapabildiği için bütün sistem çok
sayıdaki ikili kararların birleşmesinden oluşur(Bolat 2003).
Destek yöney makinesi d vektörünü -1 veya 1 olarak bir kategoriyle ilişkilendirmek için aşağıdaki
eşitliği kullanır;
N
s = wT φ (d ) + b = ∑ α i yi K ( d , d i ) + b (3.18)
i =1
ve
 1 eğer s > s0 
y= 
 − 1 diğerdurumlar 
Burada { d i } iN=1 eğitim kümesi dokümanları, { yi } iN=1 bu dokümanların ait oldukları kategorilerdir
( yi ∈ −1,1) . K (d , di ) değerine kernel adı verilir ve c’ninci dereceden bir polinom olarak gösterilir.
K (d , di ) = (d T di + 1)c (3.19)
Destek yöney makinelerinin eğitimindeki amaç, eğitim kümesindeki iki farklı eğitim kümesi elemanının
arasındaki en uzak mesafeden geçen w vektörünü bulmaktır. Aşağıda bu işlemlerin nasıl yapılabildiği
açıklanacaktır.
3.3.4.1. Ayrılabilir Durumlarda Destek Yöney Makineleri
Eldeki verilerin doğrusal olarak ayrılabildiği durumlarda, { d i } iN=1 için aşağıdaki gibi bir w vektörü ve de
bir skaler b bulunur.
33
wT φ (d ) + b ≥ 1 eğer yi = 1
(3.20)
wT φ (d ) + b ≤ −1 eğer yi = −1
Destek yöney makinesi, iki sınıf arasındaki uzaklığı en üst düzeye çıkarabilecek bir wT φ (d ) + b hiper
düzlemi (hyperplane) bulur.
2
En iyi hiperdüzlem, bulunacak en iyi w vektörünün w değerini en aza indirmekle bulunabilir.
En iyi w vektörü ,
N
∑ α y φ (d )
i =1
i i i
şeklinde φ (d ) ’ların doğrusal kombinasyonları şeklinde yazılabilir. Burada { α i } iN=1 ’nın bulunması da,
1 (3.21)
Λ T 1 − Λ T QΛ
2
nın en büyütülmesiyle gerçekleştirilir. Bu eşitlikte Λ ≥ 0 ve ΛT Y = 0 şartları aranır. Burada
Y = { yi ... y N } ve Q ise aşağıdaki elemanlara sahip bir simetrik matristir.
Qij = yi y j K (d i , d j ) = yi y jφ ( di )T φ (d j ) (3.22)
Sadece eğitim kümesinin karar verme sınırlarında olan α i değerleri sıfırdan büyük olur.
Karar verme
sınırları
Şekil 3.1 Doğrusal Olarak Ayrılabilen Destek Yöney Makineleri
34
3.3.4.2 Ayrılamaz Durumlarda Destek Yöney Makineleri
2
İki küme vektörlerinin doğrusal olarak ayrılamadığı durumlarda, ayrılabilir durumlarda kullanılan w
değeri, yerini
N
1
w + C ∑ ξi (3.23)
2
2 i =1
ifadesine bırakır. ξ i değerinin aşağıdaki şartları sağlaması gerekir:
wT φ (d ) + b ≥ 1 − ξ i eğer yi = 1
(3.24)
wT φ (d ) + b ≤ −1 + ξ i eğer yi = −1
w vektörünün boyutunun en büyütülmesinde ise, kullanıcı tarafından belirlenen bir C değeri ile aranan
şartlar aşağıdaki gibi değiştirilir:
0 ≤ Λ ≤ C1 ve ΛT Y = 0 (3.25)
3.3.5. Bayesian Ağları
Bayesian Ağları, pek çok değişken ve çok sayıdaki olasılığın geçerli olduğu bir uzayın
yoğunlaştırılmasıyla ilgilidir. Yönlendirilmiş çevrimsiz çizge (directed acyclic graph) (DAG) ile ilişkiler
tanımlanır. Her özellik X i , ağın içerisinde bir boğum olarak gösterilir. Her boğum arasındaki yay ise,
iki özelliğin birbirleriyle olasılıksal bağımlılıklarını gösterir. Yani iki boğum arasında bir yay olmaması,
bu iki boğumun birbirinden bağımsız olduğu anlamına gelir. Boğumlar, sadece alt boğumlarıyla ve bir
yayla bağlandıkları boğumlarla ilişkilendirilebilir. Her boğum kendisinin üstündeki Π ( X i ) boğumda

kendisi için saklanan olasılık değerlerini alır. Üst boğuma sahip olmayan boğumlar, sadece altlarındaki
Xi boğumları için önsel olasılık dağılımlarına sahiptir.
Bayes ağları, dokümanlar için düşünülecek olursa, dokümandaki her terim için bir ikili değer verilerek
dokümanın içinde hangi kelimelerin geçtiği ve hangilerinin geçmediği hakkında bir bilgi tutulabilir. Diğer
bir deyişle; Bayes ağının içindeki tüm boğumlar bir vektörün içinde toplanmış olur. Şekil 4.2.’de 6
terime sahip bir dokümanın Bayes ağ yapısı örneği gösterilmiştir. Bu örnekte, görülmesi beklenen
kelimeler arasındaki bağımlılık olasılıkları da belirtilmiştir. Eğer bu 6 boğumun aralarındaki ilişkiler ele
alınmazsa elimizde 26 =64-1=63 tane kelimeler arası bağıntı olasılığı olur. Diğer bir yöntem ile, ağ
içerisinde gösterilen bağlantılar kullanılarak, bu 6 kelime için şu dağılım gerçekleştirilebilir,
35
Bilgisayar
Astronomi X2
X1
Güneş Bilim Sistem Programlama

X3 X4 X5 X6
Şekil 3.2. Bayes Ağları
P( X 1 , X 2 , X 3 , X 4 , X 5 , X 6 ) =
P ( X 1 ).P ( X 2 ).P ( X 3 | X 1 ).P ( X 4 | X 1 , X 2 ).P ( X 5 | X 2 , X 3 ).P ( X 6 | X 2 , X 5 )
Buradan, dağılım çarpanlarının 1+1+2+4+4+4=16 olarak bulunulduğu ve bu sayının da kelimeler

arasında bağıntı olmaması düşünüldüğünde çıkan değerin çok altında olduğu görülebilir. Bayes
ağlarının da aralarında bağıntı olduğu bilinen kelimeler bir öğrenme algoritmasına gerek kalmadan
ağlar içerisine eklenebilir. Ayrıca Bayes ağları şekilsel olduğu için insanlar tarafından da kolaylıkla
anlaşılabilir. Bayes ağları oluşturulduktan sonra Naive Bayes yönteminde kullanılan hesaplamalarla en
iyi olasılık değerini veren kategori seçimi yapılabilir.
36
4 KÜMELEME ANALİZİ
Kümeleme algoritması denetimsiz öğrenme kategorisine giren bir algoritmadır. Kümeleme

algoritmasındaki amaç verileri alt kümelere ayırmaktır. Sınıflama algoritmasında olduğu gibi ortak
özellikleri olan veriler bir kümeye girer. Alt kümelere ayrılmak için keşfedilen kurallar yardımıyla bir
kaydın hangi alt kümeye girdiği kümeleme algoritması sayesinde bulunur(Jiawei 2001).
Kümeleme, fiziksel ya da soyut nesnelerin benzerliklerine göre gruplanmasıdır. Küme, benzer

nesnelerin oluşturduğu bir gruptur. Kümeleme analizi pratikte birçok aktivitede kullanılır. Desen
tanımlama, veri analizi, resim işleme, pazar araştırması bunların arasındadır. Kümeleyerek, datalar
arasındaki ilginç desenler yakalanabilir.
4.1 Kümeleme Analizi Uygulamaları
Pazarlamacıların kendi müşterileri arasındaki farklı grupları karakterize etmesini sağlayabilir. Biyolojide
bitki ve hayvan taksonomilerini genlere göre sınıflandırmada kullanılır. Yeryüzü incelemelerinde belli
toprak parçalarını tanımlamak için kullanılır. Aynı zamanda web deki dokümanları sınıflamakta
kullanılır.
Veri kümeleme çok hızlı bir gelişim içindedir. Uygulama alanları hızlı bir şekilde genişlemektedir. Yıllar
geçtikçe analiz edilecek veri miktarı da sürekli arttığı için çok kullanılacak bir yöntemdir.
Kümelemenin sınıflandırmadan farkı sınıflandırmadaki gibi önceden tanımlı sınıf etiketlerinin

olmamasıdır. Bu sebeple kümelemede, sınıflandırmadaki gibi örnekleyerek öğrenme yerine
gözlemleyerek öğrenme kavramı geçerlidir.
Genel olarak 2 tip kümeleme vardır:
1) Geleneksel Kümeleme
Nesnelerin geometrik yapısını baz alarak kümeleme yapar.
2) Kavramsal Kümeleme
2 parçadan oluşur:
Birincisi; nesneleri farklılıklarına göre gruplar
İkincisi; sınıflamada olduğu gibi o her sınıf için bir açıklama oluşturup, nesneleri bu açıklamaya göre
sınıflar.
Kümelemenin veri madenciliği alanında, daha çok geniş veritabanları üzerinde gruplama yapabilmek
için kullanılır. Kümeleme metotlarının ölçeklendirilmesi çok önemlidir. Ölçeklendirme, çok küçük veya
çok büyük veriler üzerinde de metodun yapısının değiştirilmeden kullanılabilmesidir.
37
Veri madenciliği alanında kümeleme yapabilmek için bazı gereksinimlerin sağlanmış olması gerekir.
• Ölçeklendirilebilme: Kümelendirme algoritması küçük çaplı nesneler üzerinde çalışabilmesine

rağmen büyük veriler üzerinde çok performanslı olmayabilir. Bu durumlarda ölçeklendirme
algoritmalarına ihtiyaç vardır.
• Değişik Nesne Tiplerine Göre Çalışabilme: Günümüzde birçok kümelendirme algoritması sayısal
veriler üzerinde çalışması için geliştirilmiştir. Ancak sayısal olmayan ve ikili veriler üzerinde de
çalışacak algoritmalara ihtiyaç gittikçe artmaktadır.
• Farklı Tipteki Nesneleri Ayırabilme: Birçok kümelendirme algoritması nesneler arasında Euclidean
ve Manhattan ölçütlerine göre ayrım yapabilmektedir. Bu tür algoritmalar benzer boyuttaki ve benzer
yoğunluktaki nesneleri ayırt edebilmektedir. Fakat çok değişik tipte, boyutlarda nesneler
olabileceğinden algoritmanın buna uygun olarak çalışması gerekmektedir.
• En Az Miktarda Alan Bilgisi Gerektirmesi: Birçok kümeleme algoritması kullanıcı girişlerine ihtiyaç
duyar. Kümeleme sonucu da bu parametrelere karşı hassastır ve bunlara göre değişiklik gösterir.
Algoritma sonucu parametrelere bu kadar bağımlı olmamalı ve sonuç bu derece hassas olmamalıdır.
Bu, parametreyi girecek kullanıcılar için büyük bir sıkıntıdır ve analizin sonucunu kontrol etmeyi
zorlaştırır.
• Çöp Veri Ayıklayabilme: Gerçek hayatta kullanılan birçok veritabanı; eksik, tanımlanmamış, ayrık
veriler içerir. Kümelendirme algoritmaları bu çöp verilerden dolayı kötü sonuçlar verebilir. Bu
sebeple, algoritma bu çöp verileri ayıklayabilmelidir.
• Algoritma, Verilen Parametrelerin Sırasına Duyarsız Olmalıdır: Bazı algoritmalarda girilen

parametrelerin sırası değiştiğinde algoritma sonucu bundan etkilenir. İstenmeyen bu durumun
oluşmaması için, algoritmada girilen parametrelerin sırası önemsiz olmalıdır.
• Yüksek Boyutluluk: Birçok algoritma 2 ya da 3 boyutlu veriler üzerinde iyi çalışır. İnsan gözü de en
çok 3 boyutlu veriyi anlayabilecek yapıdadır. Fakat kümeleme algoritması daha fazla boyutta
çalışabilmelidir.
• Kısıtlama Bazlı Kümeleme: Günümüz ihtiyaçlarına cevap verebilecek bir algoritma çeşitli
kısıtlamalarla çalışabilmelidir. Yani sonuca yansıyacak veriler filtrelenebilmelidir.
4.2 Kümeleme Analizinde Veri Tipleri
Günümüzde kümeleme algoritmaları genel olarak 2 tip veri yapısıyla çalışırlar.
• Veri Matrisi: Bu tip veri yapısında n tane nesne, p tane değişken olur. Örneğin nesneler; insanlar,
evler, araçları temsil ediyorsa, değişkenler; bir insanın yaş, boy, ağırlığını temsil etmektedir.
38
n x p boyutlu bir matris elde edilir. (4.1)
• Benzersizlik Matrisi: Nesnelerin, yine nesnelerle eşlenmesi söz konusudur. Nesnelerin özellikleri
bulunmaz.
(4.2)
Nesneler eşlendikten sonra, oluşturulan nesne gruplarının benzerlikleri karşılaştırılır.
İlk metot olan Veri Matrisi metodu, 2 modlu matris olarak da bilinir. (nesne, özellik)
İkinci metot olan Benzersizlik Matrisi de tek modlu matris olarak bilinir. (nesne)
Birçok algoritma 2. yapı ile çalışır. Eğer veriler ilk yapıdaki gibiyse, önce ikinci yapıdaki duruma çevrilir,
daha sonra işlenir.
4.2.1 Aralık Ölçekli Değişkenler
Tam olarak kesin belirlenmiş değerlerden çok, belli bir aralık şeklinde belirlenen verilerde geçerlidir.
Ölçümde kullanılan birim çok önemlidir. Birimin değişmesi, analizin sonucunu etkiler. Sonucun kafa
karıştırıcı olmaması için analize giren verilerin de standart olması gerekir (verilerin bir kısmı kg,
diğerleri gr. olmamalıdır). Standartlaştırmadan sonra Benzersizlik Matrisi ile analiz yapılır.
Bu analiz için 2 metot kullanılır:
1) Euclidian (4.3)
2) Manhattan (4.4)
4.2.2 İkili Değişkenler
Bir ikili değişkenin 0 ve 1 olmak üzere 2 durumu vardır. 0 yok, 1 var anlamında kullanılır. Aralık
ölçeklinin tersine, kesin ve net sonuçların olduğu analizlerde kullanılır. Örneğin; yolcu sigara içiyor mu?
39
Sorusunun karşılığı, eğer içiyorsa 1, içmiyorsa 0 dır. Yani örnekte cevap olarak bir aralık çıkmamakta,
kesin bir cevap alınmaktadır.
(4.5)
q: ortak olan 1 lerin sayısı,
r: ilk nesne için 1, ikinci nesne için 0 olanların sayısı
s: ilk nesne için 0, ikinci nesne için 1 olanların sayısı
4.2.3 Nominal (ada bağlı) , Ordinal (sıraya bağlı) ve Ondalıklı Değişkenler
Nominal değişkenler
İkili değişkenlere benzer ancak çok sayıda seçeneği olan değişkenlerdir. Örneğin renk değişkeni
nominal bir değişkense kırmızı, yeşil, mavi vs. seçenekleri belirlenir.
Nominal değer formülü:
(4.6)
p: toplam değişken sayısı
m: ortak 1 lerin sayısı
Ordinal Değişkenler
Nominal değişkenlerden farklı olarak sırasının önemli olmasıdır. Nominal gibi, belli alanları,
seçenekleri olur ve bunların sıraları önemlidir. Altın, gümüş, bronz veya Profesör, Öğretim
Üyesi, Asistan gibi.
(4.7)
Ondalıklı Değişkenler
Üstel olarak artan verilerin benzerliğinin bulunmasında kullanılır. Ör: Bakteri popülasyonunu artışı.
AeBt veya Ae-Bt (4.8.)
4.2.2 Karışık Tipteki Değişkenler
Birçok gerçek veritabanında değişik tipte veriler bulunur. ikili, nominal, ordinal. Bunların hepsinin bir
arada analiz edilmesi gerekir.
40
(4.9)
4.3 Ana Kümeleme Yöntemlerinin Kategorilendirilmesi
Birçok kümeleme algoritması vardır ve bunlar analiz edilecek olan verinin yapısına göre belirlenir.
Kümeleme metotları genel olarak şunlardır:
• Bölümlendirme Metodu: n tane nesnenin olduğu veritabanında, nesneler mantıksal gruplara

ayrılarak analiz edilir. Küçük ve orta boyutlu veritabanlarında birkaç grup olabilirken, veritabanının
büyüklüğü arttığında daha çok grup oluşabilir. Gruplandırma yapılırken değişik kriterler
değerlendirilebilir. Yapılan gruplandırma analizin kalitesine etki eder.
• Hiyerarşik Metot: Analiz etmeden önce nesneler, hiyerarşik bir yapıya göre düzenlenir. Veriyi
hiyerarşik bir yapıya çevirmek için değişik yöntemler kullanılır. Bunların arasında BIRCH ve CURE
yöntemleri bulunur.
• Yoğunluk Bazlı Metot: Birçok kümeleme yöntemi nesnelerin birbirleri arasındaki farklılıklarına göre
kümeleme yaparken, bu metot nesnelerin yoğunluğuna göre gruplama yapar. Yoğunluktan kasıt,
analiz edilen nesnelerin sayısıdır. Yoğunluk bazlı metotlara örnek olarak DBscan verilebilir.
• Grid Bazlı Metot: Nesneleri grid yapısı oluşturacak şekilde sayılarına göre sınıflandırır. Temel
avantajı hızlı tamamlanması ve nesnelerin sayısından bağımsız olmasıdır. Bu tipteki metotlara örnek
olarak Sting verilebilir.
• Model Bazlı Metot: Her küme için bir model belirlenir ve bu modele uyan veriler uygun kümeye
yerleştirilir.
4.3.1 Bölümlendirme Metodu
n tane nesnesi olan ve k sayıda küme tanımlanmış bir veritabanı düşünelim. Bu durumda
bölümlendirme metodu tüm nesneleri k adet kümeye ayıracaktır. Kümeler, nesneler arasındaki
benzersizliklere göre oluşturulur.
4.3.1.1 Klasik Bölümlendirme Metotları: k-means, k-medoids
k-means (orta değer)

Bu algoritma şu parametreleri alır:
k: kaç küme olacak
d: kaç nesne olacak
41
Bu nesneler benzersizliklerine göre kümeleme yapılıp geri verilir. Bu algoritmada kümeler arasındaki
benzerlik düşük olur.
Bu algoritma öncelikle rasgele şekilde k tane nesne seçer. Bunların her birinin orta değeri kendisidir.
Kalan nesnelerin tümünü bu seçilen nesnelere yakın olanlara göre kümelere dahil eder ve her
defasında yeni mean (orta değer) hesaplar.
Her nesnenin bir hata kriter değeri (E) vardır.
Algoritma: k-orta değer : k sayıda kümelendirme algoritması

Girişler: nesne sayısı (n) ve küme sayısı (k)
Çıkış: k sayıdaki minimum hata ile oluşturulmuş kümeler
Algoritma:
1. kabaca n tane nesne seç
2. tekrarla
3. değişken benzerliklerine göre grupları oluştur ve her grup için bir ortalama değer hesapla
4. bu ortalama değeri uygun olan kümelere yerleştir
5. yerleştirme bittikten sonra ortalama değerleri güncelle
6. bir değişiklik olmayana dek tekrarla
Bu metot ölçeklendirilebilir bir metottur ve çok geniş veritabanları üzerinde de uygulanabilir. Çünkü
karmaşıklığı oldukça azdır.
Şekil 4.1 k-mean metodu ile kümeleme
Şekilde bir nesne setinin k-mean metodu ile kümelenmesi gösterilmiştir. Her bir kümenin orta değeri
“+” ile işaretlenmiştir.
Aşağıdaki şekillerde k-means ile kümelenin adımları gösterilmiştir.
42
Şekil 4.2. Başlangıç Kümeleri
Şekil 4.3 Kümelerde Mesafelerin Ölçümü
43
Şekil 4.4.Kümelerde İlk çözümün oluşturulması
Şekil 4.5.Kümelerde Mesafeleri Merkeze Öteleme
44
SON ÇÖZÜM
Şekil 4.6.Küme Oluşturulması
k-medoids
Çok yüksek değerdeki nesneler, küme dağılımını olumsuz etkiler. Çünkü k-means tüm değerlere karşı
duyarlıdır. k-medoid de, k-means gibi tek tek hesaplamak yerine;
1. Her bir küme için kabaca bir temsilci nesne belirlenir (medoid)
2. Kalan her nesneyi bu medoid le karşılaştırır ve benzerliğine göre o nesne kümeye dahil edilir.
3. Bir kümedeki nesneyi alarak, daha yüksek kaliteyi elde edene dek kümeler arasında iteratif olarak
yer değiştirme yapılır
Şekil 4.7. k-metoids Kümeleme İşlemi

+ küme merkezi
__ yer değiştirmeden önce
--- yer değiştirmeden sonra
Algoritma:
1. k tane nesne seç (medoid)
2. tekrarla
3. nesneleri onlara en yakın medoidlere at
4. medoid olmayan rasgele bir nesne seçilir
5. bu nesne bir medoidmiş gibi ele alınıp toplam performans hesaplanır
45
6. eğer daha performanslı sonuç elde ediliyorsa diğeri yerine yeni medoid bu nesne olur (yer
değiştirilir)
(örneğin a kümesinden bir nesne seçerek b ve a kümeleriyle karşılaştır ve eğer daha kaliteli bir
duruma gelecekse yer değiştir.)
7. bir değişiklik olmayana dek tekrarla
k-medoids, k-means e göre çöp veriden daha az etkilenir.
4.3.1.2 Büyük Veritabanlarında k-medoid ten CLARA’ ya
Küçük ölçekli veritabanlarında kullanılan k-medoid yerine büyük veritabanlarında CLARA kullanılır.
Temel fikir, tüm veriyi değerlendirmek yerine, tüm veriyi temsil eden ufak bir kesit alınarak analiz
yapılmasıdır.
Bu kesit rasgele bir şekilde bulunur. Örneğin 1.000.000 luk bir kayıt dizisinde 100. , 1000. , 1300.,
150000. kayıtlar. CLARAN metodunun etkisi ve kalitesi, boyuta ve rasgele seçilen verilerin ne kadar iyi
seçildiğine bağlıdır.
CLARA metodu, alınan örnek verilere fazla bağlı olduğu için CLARANS adlı bir metot geliştirilmiştir.
CLARANS da örnek bir nesne alınır ve algoritma bir kez geliştirilir, algoritma tekrarlanırken nesne de
değiştirilir.
CLARANS metodu ile daha kaliteli bir sonuç elde edilir ancak n2 oranında daha maliyetli bir yoldur.
4.4 Grid Temelli Metodlar
Grid temelli kümeleme yaklaşımı çok çözümlü grid veri yapısını kullanır.Kümeleme yapılacak alanın
sonlu sayıda hücrelere bölünmesiyle oluşur. Ana avantajı genelde birbirinden bağımsız sayıda veri
nesnelerinde hızlı işlem zamanıdır.
Grid temelli yaklaşımın bazı genel örnekleri: STING, grid hücrelerindeki istatiksel bilgiyi araştırır;
Wavecluster,wavelet dönüşüm metodunu kullanan nesneleri kümeler; CLIQUE, yüksek boyutlu veri
alanlarını kümelemek için grid ve yoğunluk temelli yaklaşımı temsi eder.
4.4.1 STING (Statistical Information Grid- İstatiksel Bilgi Grid)
STING uzayı dikdörtgensel hücrelere bölen bir tekniktir. Bu hücreler hiyerarşik yapıdadır. Üst
seviyedeki bütün hücreler bir sonraki alt seviyede parçalanmış hücrelerden oluşur. Her bir grid
hücresindeki niteliklerle ilişkili istatiksel bilgi (örneğin mean, maksimum veya minumum değerler)
önişlenir veya tutulur.
46
Üst seviyede hücre istatiksel parametreleri, alt seviyedeki hücre istatiksel parametrelerden kolayca
hesaplanabilir. Bu parametreler şu şekildedir: bağımsız parametre, sayı (count); nitelik-bağımlı
parametreler, m (mean), s (standart sapma), min (minimum), max (maksimum) ve hücrelerin nitel
dağılımlarındaki dağılım tipi: normal, tek biçimli, üstel, veya hiçibiri(dağılım bilinmiyor) gibi. Veri ,
veritabanına kaydedilirken, en alt seviyede hücrelerdeki count, m, s, min ve max parametreleri direkt
olarak hesaplanır. Dağılım değeri eğer dağılım tipi biliniyorsa kullanıcı tarafından önceden
hesaplanabilir veya X2 testi gibi hipotez testleri tanımlanabilir. Üst seviyedeki dağılım tipi , aynı alt
seviyedeki hücrelerin birleştirilerek eşik filtreleme işleminden geçirilerek bulunabilir. Eğer alt seviye
hücrelerdeki dağılım birbiriyle uyuşmuyorsa, eşik testi boşa gider ve üst seviyedeki dağılım tipi hiçbiri
olur.
“İstatiksel bilgi, sorgu cevabı için nasıl yarar sağlar?” İlk olarak, sorgu-cevap işleminin başlayacağı
hiyerarşik yapıdaki seviye belirlenir. Bu katman genelde küçük sayıda hücre içerir. Katmandaki bütün
hücreler için, verilen sorguya ilgisine göre güven aralığı hesaplarız. İlgisiz hücrele ilerki adımlar için
silinir. Bu işlem en alt seviyeye ulaşılana kadar devam eder. Sorgu şartı sağlanırsa hücrelerdeki ilgili
bölgeler döndürülür. İlgili veri, sorgunun gereklerini yerine getirene kadar yeniden düzeltilir ve işlenir.
“STING diğer kümeleme metodlarına göre ne gibi avantajlar sağlar?” STING’in bazı avantajları: (1)
Grid tabanlı hesaplama sorgu bağımsızdır, tüm hücrelerdeki istatiksel bilgi grid hücredeki özet bilgileri
içerir, sorguya bağlı değildir; (2) Grid yapısı, paralel işleme ve güncelleştirmelere uygundur. (3)
Metodun verimi asıl avantajıdır: STING, hücrelerdeki istatiksel parametreleri hesaplamak için
veritabanına bir kere gider, kümeleri oluşturma zaman karmaşıklığı O(n)’dir, n nesnelerin toplam
sayısıdır. Hiyerarşik yapıyı oluşturduktan sonra, sorgu işleme zamanı O(g), g en alt seviyedeki hücre
sayısıdır. (genellikle n>g olur).
47
Şekil 4.8. STING Kümelemenin Hiyerarşik Yapısı
STING’in kalitesi grid yapısındaki en alt seviye taneciğe bağlıdır. Tanecikler hassas ise işlem maliyeti
artar, bununla beraber, en alt seviyedeki grid yapısının kalınlığı kümeleme analiz kalitesini azaltabilir.
STING, ana hücrenin çocuk ve komşuları ile ilişkilerini göz önünde bulundurmaz. Kümeleme sınırları
düşey veya yataydır, diagonal sınır yoktur. Bu kalite ve doğruluğu düşürür.
4.4.2 WaveCluster: Wavelet Dönüşümü Kullanarak Kümeleme
Wavecluster, çoklu çözüm kümeleme algoritmasıdır. İlk olarak veri uzayını çok boyutlu grid yapısına
dönüştürür. Sonra wavelet dönüşümü kulanarak yoğun bölgeleri bularak orjinal uzayda dönüşüm
yapar.
“Wavelet dönüşüm nedir?” Wavelet dönüşüm, işareti alt frekans bandlarına ayrıştıran bir işaret işleme
tekniğidir. Wavelet model, n defa dönüşüm yaparak bir boyutlu sinyali n boyutlu işaretlere
dönüştürebilir. Farklı çözüm seviyelerindeki göreceli mesafe verini wavelet dönüşümü sayesinde
saklanır. Bu doğal kümeleri daha çok ayrırt edilebilir hale getirir. İlgi alanındaki yoğun bölgeler
arayarak kümeler tanımlanabilir.
“Neden wavelet dönüşüm kümeleme için yararlıdır?”
48
Denetlemeden kümeleme sağlar. Nokta kümelerin olduğu bölgeleri vurgulayarak şapka şeklinde
filtreler kullanır. Aynı zamanda zayıf bilgileri küme sınırları dışına atar. Bu şu anlama gelir; veri
kümelerinde otomatik olarak belirler ve bölgelerde temizlik yapar. Wavelet dönüşüm sınır dışındaki
verileri otomatik olarak temizler.
Wavelet dönüşüm kümelerdeki farklı seviyedeki doğruluğu keşfeder. Örnek olarak Şekil 8.15’te iki
boyutlu bir uzay ve şekildeki bütün noktalar nesnedeki nitelik özellikleri tanımlar. Şekil 8.16’da farklı
çözünürlükte wavelet dönüşüm sonuçları gösterilmektedir. Tüm seviyeler alt 4 banda ayrılmış
durumdadır. Sol üst band her veri noktası üzerindeki ortalama komşuluğu; sağ üst band yatay
kenarları, sol alt band dikey kenarları, sağ alt band köşeleri vurgular.
Şekil 4.9. İki Boyutlu Yüzey Uzayı
Çözünürlük Düzeyleri a) Yüksek b) Orta c) Düşük

Şekil 4.10 Çokluçözünürlüklü Yüzey Uzayı
• Wavelet tabanlı kümeleme çok hızlıdır, hesaplama karmaşıklığı O(n), n veritabanındaki nesne
sayısıdır. Algoritmanın paralel kurulması mümkündür.
WaveCluster grid tabanlı ve yoğunluk tabanlı algoritmadır. İyi kümeleme gereksinimlerinin çoğunu
karşılar. Büyük veri kümelerini verimli ele alabilir, keyfi şekilli kümeleri keşfedebilir, sınırları başarıyla
tutabilir, giriş sırasına duyarsız, giriş parametrelerinin belirlenmesine gerek duymaz. Deneme
çalışmalarından, wavecluster’ın BIRCH, CLARANS ve DBSCAN’dan verim ve kümeleme kalitesi
49
olarak daha yüksek performans verdiği bulunmuştur. Ayrıca bu çalışmada wavecluster’ın 20 boyutta
veri tutma kapasitesi olduğu görülmüştür.
4.4.3 CLIQUE (Clustering High-Dimensional Space- Yüksek Boyutlu Alanda Kümeleme)
CLIQUE, yoğunluk tabanlı ve grid tabanlı kümelerin birleşmesinden oluşan bir algoritmadır. Büyük
veritabanlarında yüksek boyutlu veri kümelemek için yararlıdır.
• Verilen büyük kümeli çok boyutlu veri noktalarında, veri alanı genelde tek biçimli olmaz.
CLIQUE kümeleme, dağınık örüntülü veri kümelerinde seyrek ve kalabalık bölge alanlarını
tanımlar.
• Toplam veri noktalarının parçası giriş model parametresini aşarsa bölüm yoğundur. CLIQUE’da ,
küme bağlantılı yoğun bölümün maksimal bir kümesi olarak tanımlanır.
“CLIQUE nasıl çalışır” CLIQUE iki adımda çalışır.
İlk adımda CLIQUE, üst üste binmeyecek şekilde n-boyutlu diktörtgen şeklinde parçalara ayırır. Örnek
olarak Şekil 8.17’de yoğun diktörtgen bölümleri, yaşa göre maaş ve tatil(hafta) boyutları olarak
gösterilmiştir. Alt alanlar, yoğun bölümlerin kesişmesi durumunda bizim arama yapmak için aday
olması anlamına gelir.
“Neden CLIQUE arama alanını yüksek boyutta bölümleri kesişen alt alanlara daraltır? Aday arama
alanının tanımlanması Apriori özelliğine dayanır. Genelde özellik, arama alanındaki öncelikli bilgiyi
kullanır, böylece alan budanarak bölünür.
CLIQUE için uyarlanan özellik, şu şekilde açıklanır: Eğer k-boyutlu bölüm yoğun ise k-1 boyutlu bölme
bakılır. k-1 boyutlu bölümde youğunluk yoksa k-boyutlu bölümde de yoğunluk olmaz. Bu nedenle, k-1
boyutlu alanların yoğun bölümlerinden bulunan , k boyutlu alanların yoğun bölümleri içinde potansiyel
veya aday yoğunlukları üretebiliriz. Genelde sonuçlanan alan, orjinal alandan daha küçük olacaktır.
İkinci adımda, CLIQUE her küme için minimal bir tanımlama yapar. Her küme için maksimum bölge
tanımlanır. Maksimum bölge bağlantılı yoğun bölümlerin kümesini kapsar. Sonra her küme için minimal
kapsamı tanımlar.
“CLIQUE ne kadar verimli” CLIQUE otamatik olarak en yüksek boyutlu alt alanları bulduğu gibi her alt
alandaki yüksek yoğunlukta kümeleri de bulur. Girilen satırların sırasına duyarlıdır ve herhangi
geleneksel veri dağılımını tahmin edemez. Giriş boyutuna göre lineer ölçeklenir, verideki boyut sayısı
arttıkça iyi ölçeklenme özelliğine sahiptir. Basitlik masrafına göre kümeleme doğruluğu düşebilir.
50
4.5 Model Tabanlı Kümeleme Metodları
Model tabanlı kümeleme metodları, verilen veri ile bazı matematiksel modeller arasında uygunluğu
optimize etmeye çalışır. Bu metodlar genelde olasılık dağılımlarına göre varsayımlar üretir. Model
tabanlı kümeleme metodlarının 2 ana yaklaşımı vardır: İstatistiksel yaklaşım veya yapay zeka
yaklaşımı.
4.5.1 İstatistiksel Yaklaşım
Kavramsal kümeleme, verilen etiketlenmemiş nesne kümeleri ve nesnelerdeki sınıf şemaların

meydana gelmesi ile oluşan makine öğrenimli bir formdur. Benzer nesne gruplarını tanımlayan
geleneksel kümelemenin tersine, kavramsal kümeleme bir adım öne geçip her grup için karakteristik
tanımlamalar bulur. Kavramsal kümeleme iki adım işlemden oluşur: ilk kümeleme yapılır, sonra
nitelendirme. Kümeleme kalitesi nesneler için tek fonksiyon değildir. Bununla beraber kavramların
genellik ve basitlik gibi etkenleri de bir faktördür.
Tüm kavramsal kümeleme metodları istatistiksel yaklaşımı benimsemektedir. İstatistiksel yaklaşım,

olasılık ölçütlerini kullanarak konseptleri veya kümeleri belirler.
COBWEB, artışsal konsept kümelenin popüler ve basit bir metodudur. Giriş değişkenleri kategorik
nitelik-değer çiftleri tarafından tanımlanır. COBWEB, sınıflandırma ağacı formu içinde hiyerarşik
kümeleme oluşturur.
“Sınıflandırma Ağacı nedir? Karar ağacı ile aynı mıdır?” Şekil 8.18’de hayvan verileri için sınıflandırma
ağacı gösterilmiştir. Sınıflandırma ağacı karar ağacından farklıdır. Sınıflandırmadaki bütün düğümler
konsepte başvurur ve konseptin olasılık değerlerini ve koşullu olasılıkları içerir. Koşullu olasılık formülü
P(Ai = Vij | Ck ) Ai= Vij n itelik-değer çiftidir, Ck konsept sınıfıdır.(Sayım, her düğümde olasılıkların
hesaplanması için biriktirilir ve kaydedilir). Karar ağaçlarında ise düğüm yerine etiket dallar, olasılık
değerleri yerine lojik vardır. Verilen seviyedeki sınıf ağacındaki kardeş düğümler, bölünmüş formdur.
COBWEB, “category utility- katagori yararı” diye adlandırılan heuristik bir değerlendirme ölçümü
kullanır. CU (category utility) şu şekilde tanımlanır:
∑
n
k =1
[
P (C k ) ∑i ∑ j
P ( Ai = Vij C k ) 2 − ∑i ∑ j
P ( Ai = Vij
2
] (4.10)
n
n, düğüm sayısı; [C1 , C2 ,. . ., Cn ] konsept veya kategori ; CU, verilen bölmeden tahmin edilebilen
beklenen sayıda nitelik değerinde yükselme .
51
CU, sınıf içi benzerlik ve farklılık hakkında bilgi verir:
• Sınıf içi benzerlik olasılığı P(Ai = Vij | Ck ). Büyük değer olması halinde, sınıf üyelerinin nitelik-
değer çiftini paylaşma oranı büyük ve daha fazla tahmin edilebilir sınıf üyeleri çifti.
• Sınıf içi farklılık olasılığı P(Ck | Ai = Vij ). Büyük değer olması halinde, nitelik-değer çiftini
paylaşan sınıf üyeleri içinde az sayıda nesne; daha fazla tahmin edilebilir sınıf çifti.
COBWEB nasıl çalışır ona bakalım. COBWEB artışsal olarak nesneleri sınıflandırma ağacının içine
dahil eder.
“Yeni bir nesne verildiğinde , COBWEB nesneyi sınıflandırma ağacı içinde nereye ekler?” COBWEB
en iyi düğüm veya host’u bulana kadar ağaçta aşağı doğru ilerler ve ilerlerken değerleri günceller.
Karar verme işinde, geçici olarak nesneyi bütün düğümlere yerleştirir,yerleştirilen bölüm için CU
hesaplanır. En büyük değerde CU sonucu nesnenin yerini belirler.
“Eeğer nesne, ağaçta her bir konsepte uzaksa? Verilen nesne için yeni bir düğüm yaratmak daha
iyiyse? COBWEB, yeni bir düğüme oluşturulması için CU’yu ölçmektedir. Bu diğer var olan
düğümlerle karşılaştırılır. En yüksekteki değerle baraber yeni bir sınıf yaratılır,kaydedilir veya var olan
sınıfın içine kaydedilir. COBWEB bölüm içindeki sınıf sayılarını otomatik olarak ayarlar.
İki operatör, nesnelerin giriş sıralarına göre yüksek hassasiyet gösterir. COBWEB , bu hassasiyeti
düşürmek için 2 tane daha operatör kullanır. Bunlar birleştirme (merging) ve ayrıştırma (splitting) dır.
Nesne dahil edildiğinde iki en iyi düğüm bir sınıf içine yerleştirilir. Sonra COBWEB, en iyi düğümü
ayrıştırır. Bu kararlar CU’ya dayanır. Bu operatörler COBWEB’in direkt(bidirectional) arama yapmasını
sağlar.
“COBWEB’in sınırları nelerdir?” COBWEB’in sınır değeri vardır. İlk olarak , ayrık nitelikteki olasılık
dağılımları istatiksel olarak birbirinden bağımsız varsayılır. Bu varsayım her zaman doğru değildir,
nitelikler arasında genelde karşılıklı bir ilişki vardır. Kümelerin olasılık dağılımlarını temsil edilmesinden
dolayı , güncelleme saklamak pahalı bir iştir. Sınıflandırma ağacı dengeli bir ağaç olmadığı için zaman
ve alan karmaşıklığı giriş verilere bağlı olarak düşebilir.
CLASSIT, COBWEB ile benzer özelliktedir.
4.5.2 Yapay Sinir Ağları Yaklaşımı
Yapay zeka yaklaşımında kümeleme, her kümeyi bir örnekleyici olarak düşünür. Örnekleyici kümenin
bir prototipidir ve özel veri örnekleri olmak zorunda değildir. Yeni nesneler kümeyi dağıtabilir, örnekleri
52
çok benzerdir ve benzerlik uzaklık ölçütünü bağlıdır. Kümede işaret edilen nesnenin nitelikleri küme
örnekleyicisi tarafından tahmin edilebilir.
Bu bölümde kümeleme için iki önemli yapay sinir ağları yaklaşımını ele alacağız. İlk olarak rekabetçi
öğrenme(competitive learning), ikincisi self organizing feature map(kendi organize öz planlama ) .
Rekabetçi öğrenme hiyerarşik bir yapıya sahiptir. Şekil 4.10 , her daire bir yapay sinir ağı birimini
göstermektedir. Kazanan birim aktif olur(içi dolu daire), diğerleri etkisiz olur. Aktif birimlerin şekli üst
katman için giriş örüntüsü olur. İçerideki katman bağlantıları çekiniktir. Bu değerlere göre ağırlıklar
bulunur.
SOMs(self organizing feature map), bir kaç geçerli birimi yarıştırır. Ağırlık vektörleri bu geçerli
nesnelere göre oluşturulur ve kazanan veya aktif birimler ortaya çıkar. SOMs giriş nesnelerini topolojik
veya sıralı varsayar. SOMs çok boyutlu verilerin görülmesinde yararlıdır.
Şekil 4.10 Çok Düzeyli Öğrenme Yapısı
4.6 Sıradışılık Analizi
53
“Sıradışılık nedir?” Çoğu kez elde edilen veri nesneleri genel davranışa veya modele uymayabilir.
Bazı veri nesneleri geri kalan veri kümesinden tamamen farklı veya uyumsuz olabilir, buna sıradışılık
denir.
Sıradışılık ölçüm veya çalışma hatalarından ortaya çıkabilir. Çoğu veri madenciliği algoritması bu
hataları düşürebilir veya yok edebilir fakat bu işlem önemli ve saklı bilginin kaybına sebep olabilir.
Sıradışılık madenciliğinin geniş uygulamaları vardır. Sahtecilik tespiti için kullanılır.
Sıradışılık madenciliği şu şekilde tanımlanabilir: n tane veri noktası veya nesnesinden k tane sıradışılık
beklenir, ve en büyük k sayısını bulur. Sıradışılık madenciliğinin 2 alt problemi vardır: (1) ne verisi
verilen küme içerisinde uyuşmaz kararı, (2) sıradışıların belirlenmesi için verimli metodu bulmak.
Sıradışılık denetimi için bilgisayar tabanlı metodlar üzerinde duracağız. Üç çeşit yaklaşım olarak
sınflandırılabilir: istatistiksel yaklaşım, uzaklık tabanlı yaklaşım, sapma tabanlı yaklaşım.
4.6.1 İstatistiksel Tabanlı Sıradışılık Denetimi
İstatistiksel yaklaşım, dağılım veya olasılık modelini varsayar ve sonra uyumsuzluk testi(discordancy
test) yaparak sıradışılıkları tanımlar.
“Uyumsuzluk testi nasıl çalışır?” İki hipotezi inceler: çalışan hipotez; alternatif hipotez
Çalışan hipotez: H: n tane nesne için durum, F dağılım modeli; o i: F için büyük veya küçük anlamlı
olasılık; T uyumsuzluk testi için belirlenen dağılım; vi ,oi için T dağılımına göre bulunan istatistik değer
Önem olasılığı SP(vi)=Prob(T> vi) değerlendirilir.
H: oi Є F, i=1,2,…,n.
SP yeterli derecede küçükse oi uyumsuz olarak belirlenir ve çalışan hipotez reddedilir. Alternatif
hipotez, H , diğer dağılım modelinden, G, oi için uyarlanır.
Alternatif hipotez, testin gücünü belirler, çalışan hipotez tarafından reddedilen bir oi nesnesi gerçekten
sıradışı olabilir.Farklı tipte alternatif dağılımlar vardır.
• Esas alternatif dağılım: F dağılımından gelen tüm nesnelerdeki çalışana hipotez reddedilir, diğer
bir dağılım olan G alternatif hipotez olur.
H : oi Є G, i=1,2,…,n.
54
F ve G farklı dağılımlar olabilir veya aynı dağılım içinde farklı parametreler olabilir.
• Karma alternatif dağılım: Uyumsuz değerler F populasyonu için sıradışı olmaz. Fakat diğer bir
populasyon olan G tarafından bulaştırılır.
H : oi Є (1-λ)F+λG, i=1,2,…,n.
• Kayansayfa alternatif dağılım: F modelinden bağımsız olarak verilen parametrelere göre

meydana gelir, geri kalan nesneler değiştirilen parametrelerden meydana gelir.
Sıradışıları denetim için iki tip yöntem vardır.
Blok yöntem: Tüm şüpheli nesneler sıradışı veya hepsi tutarlı kabul edilir.
Ardışıl Yöntem: Tersyüz yöntemlerdir. Önce sıra dışılığa en az benzeyen nesne test edilir. Eğer sıra
dışılık bulunursa, geri kalan bütün uç değerler sıra dışı kabul edilir. Blok yöntemine göre daha etkilidir.
“İstatiksel yaklaşım sıra dışılık denetiminde ne kadar etkilidir?” Temel sakıncası testlerin tek bir nitelik
için olmasıdır. Çoğu veri madenciliğinde sıra dışılık bulma işi çok boyutlu alanlarda gerçekleşir. Bunu
ek olarak , istatiksel yaklaşım, veri kümelerinin parametreleri hakkında bilgi gerektirir, veri dağılımı gibi.
Veri dağılımı bilinmezse , istatiksel yaklaşım sıra dışılığı bulmayı garanti etmez.
4.6.2 Uzaklık-tabanlı Sıradışılık Denetimi
İstatiksel metodların bazı kısıtlamaları, uzaklık tabanlı sıradışılıklar notasyonunun ortaya çıkmasına
neden olmuştur.
“Uzaklık tabanlı sıradışılık nedir” S veri kümesinde, o uzaklıktaban(DB) nesnesi ve parametreleri p ve

d, DB(p,d), eğer nesnelerin en küçük parçası p, S kümesi içinde o’.
İstatiksel testler yerine, uzaklık tabanlı sıradışıları yeteri kadar komşusu olmayan nesneler olarak
düşünebiliriz, komşular verilen nesneye göre uzaklığı tanımlar. İstatistiksel tabanlı metodlarla
karşılaştırıldığında, uzaklık tabanlı sıradışı denetimi, farklı standart dağılımlar için uyumsuzluk testi
fikrinin genelleştirilmesidir. Uzaklık tabanlı sıradışı denetimi aşırı hesaplamadan kaçınır, aşırı
hesaplama gözlenen dağılımın standart dağılıma ve uyuşmazlık testine uyarlanması gibi işlerdir.
Uzaklık tabanlı sıradışılar madenciliği için bir kaç verimli algoritma geliştirilmiştir:
İndeks-tabanlı algoritma: Verilen veri seti için, indeks-tabanlı algoritma, çok boyutlu indeks yapısını
kullanır, R-ağaçları, k-d ağaçları gibi. Bütün o nesnelerindeki d yarıçapı etrafında komşuları araştırır.
M, sıradışının d-komşuluğunun maksimum nesne sayısı olsun. Bu nedenle, o nesnesinin M+1
komşusu bulunursa o’nun sıradışı olmadığı açıktır. Bu algoritmanın en kötü durum karmaşıklığı
55
O(k*n2)’dir, k boyut, n veri kümesi içindeki nesne sayısı. İndeks tabanlı algoritma k’nın artışına göre
ölçeklendirilir. Bununla birlikte karmaşıklık, arama zamanı ölçülmektedir, buna rağmen indeksi
oluşturmak kendi başına yoğun hesap gerektirir.
Gömülü-döngü algoritma: Bu algoritma, indeks tabanlı algoritma ile aynı karmaşıklığa sahiptir fakat
indeks yapısını oluşturmaktan kaçınır, I/O sayısını minimize etmeye çalışır.
Bellek tamponu iki parçaya böler ve veri setini birkaç lojik bloklara böler.
Hücre tabanlı algoritma: O(n2) karmaşıklığından kaçınmak için, bellek –odaklı veri setleri hücra
tabanlı algoritma geliştirilmiştir.Karmaşıklık O(ck+n) , c sabiti hücre sayısına bağlı sabit, k boyutluluktur.
d
Bu metodda , veri alanı uzunluğu olan hücrelere bölünür. Her hücre iki katman tarafından
2 k
çevrelenir. İlk katman bir hücre kalınlığında, diğeri [2 ]

k − 1 hücre kalınlığında olur. Algoritma, nesne-
nesne saymak yerine hücre hücre sayarak sıradışıları bulur. Verilen hücre için, hücredeki nesne
sayısı, hücrede ve ilk katmanda ve hücrede iki katmanda olmak üzere 3 değer sayar. cell_count_cell,
+1_layer_count_cell+ 2_layer_count.
“Bu metodda sıradışılar nasıl denetlenir?” M, komşuluğu d olan bir sıradışı için maksimum sıradışılar
sayısı olsun;
• Eğer cell, +1_layer_count_cell değeri M’den küçük veya eşitse, o nesnesi sıradışı olarak kabul
edilir.
• Eğer cell, +2_layer_count M’den küçük veya eşitse tüm nesneler sıradışı olarak kabul edilir.
Büyük veri kümeleri için uygundur çok boyutlu veriler için uygun değildir.
4.6.3 Sapma Tabanlı Sıradışılık Denetimi
Bu metod, istatistiksel testler ve uzaklık tabanlı ölçütleri kullanmaz.Grup içindeki nesnelerin

karakteristiklerini sorgulayarak sıradışıları tanımlar. Bu başlık altında iki teknik üzerinde durulacaktır.
Ardışıl-istisna tekniği:
Bu teknik, insanın bir serideki alışılmışın dışındaki nesneleri ayırt etmesini simüle etmiştir. n nesne için
S kümesi verilmiş olsun, sırasal alt kümelere ayrılsın, {S1 , S2,. . ., Sm}, 2≤ m ≤ n
S j −1 ⊂ S j eğer S j ⊆ S
56
Alt kümelerdeki farklılıklara değer biçilir. Teknik, alttaki anahtar terimleri içerir:
• İstisna küme: Sapmaların veya sıradışıların kümesidir.

• Farklılık fonksiyonu: Bu fonksiyon, nesneler arasındaki benzerliğin en düşük değerini döndürür.
1 n
∑ ( xi − x ) 2 ,
n i
(4.11)
• Asal fonksiyon: Verilen küme içerisindeki nesne sayısı

• Düzeltme faktörü: Bu fonksiyon her alt küme için sıralı olarak hesaplanır. Alt kümeleri silerek ne
kadar farklılık elde edilibildiğini hesaplar.
“Bu teknik nasıl çalışır” Sıralı olarak ayrılan alt kümelerde, sıralı olarak bulunan farklılıkları ilgili önceki
alt kümedeki farkı gözönüne alır.
OLAP Veri Küpü Tekniği:
Bu modelde, hücreye ait olan, tüm boyutlara göre değişim ve örüntü ölçümleri üzerinde durur.Örnek
olarak , atışlara ait veri küpü ve aylara göre satışlar görünümümüz var.Görsel öğeler yardımıyla Aralık
ayında satışların arttığını fark edelim. Zaman boyutunda bir istisna olduğu görülür. Aralık ayı içine drill-
down edildiğinde Aralık ayında benzer bir artış olduğunu gördünüz. Manuel olarak sıra dışılık denetimi
, eğer çok büyük bir arama alanında ise veya çok boyut taşıyan birkaç düzeyli kavram hiyerarşilerde
çok zor gerçekleşir.
57
5 OTOMATİK HABER METİNLERİ SINIFLANDIRMA UYGULAMASI
İçinde arama yapılacak bilgi miktarı ne kadar büyük olursa olsun eğer bilgiler iyi sınıflandırılmışsa
istenilen bilgiye erişim çok fazla zaman almamaktadır. Bunun en iyi örneği olarak ilişkisel veri tabanları
gösterilebilir. Günümüzde Internet bilginin en önemli kaynaklarından biri haline gelmiştir. Ancak
içindeki bilgilere erişmek her zaman o kadar kolay olamamaktadır. Bunun en önemli sebebi
Internet’teki bilgilerin iyi kategorize edilmemesidir. Bunun sebebi ise Internet’teki bilginin insanların
günlük doğal dillerini kullanarak oluşturulmuş olmasıdır. Ancak bu büyük bilgi hazinesinden öyle
kolayca vazgeçmek mümkün değildir. Internet’i daha verimli kullanabilmek için bu doğal dille yazılmış
metinlerin (web sayfalarının) kategorize edilmesi gerekmektedir. Internet’in ilk yıllarında bu işlemi
arama motorlarındaki uzman toplulukları tarafından elle gerçekleştirilmekteydi. Ancak Internet’teki
bilginin bugün ulaştığı boyut ve daha belki de daha önemlisi bilginin artış miktarı bu sınıflandırma
işleminin elle yapılmasını imkansız hale getirmiştir. İşte bu problemi çözebilmek için otomatik metin
sınıflandırma sistemleri ortaya çıkmaya başlamıştır. Bir metnin yazarını yazının çeşitli özelliklerinden
bulabilen sistemler, elektronik posta kutularına gelen bir mailin bizim tarafımızdan istenip istenmediğini
anlayan sistemler (spam mail belirleyiciler), web sayfalarını belirli kategorilere otomatik olarak atan
Google Directory bu tür sistemlere örnek olarak gösterilebilir.
Bu uygulamada Türkçe gazetelerin web sayfalarındaki haber metinlerinin otomatik olarak

sınıflandırlması konusundaki bir çalışma örnek olarak incelenmektedir(Amasyalı 2004).
5.1 Önerilen Sistem
Bu çalışmada Türkçe haber metinlerinin otomatik olarak sınıflandırılması için bir metod geliştirilmiştir.
Haber metinlerinin içindeki kelimelerin kendileri değil gövdeleri kullanılmıştır. Haber metinleri temel
olarak iki sınıflandırma türüyle sınıflara ayrılmıştır. Bunlardan ilki olan Naive Bayes yöntemi bu alanada
en çok başvurulan metodlardan birisidir. Bu metotta eğitimde kullanılan haber metinlerdeki kelimelerin
gövdelerinden bir sözlük oluşturulmuş ve sınıf olasılıkları bulunmuştur. Bu metodun genel akış
diyagramı Şekil 7.1’de gösterilmiştir.
58
Şekil 5.1 Naive Bayes’le Metin Sınıflandırma.
Kullanılan diğer temel sınıflandırma metodlarında ise metinlerin sayısallaştırılması

gerekmektedir. Metinlerin sayısallaştırılma süreci Şekil 5.2’de gösterilmiştir.
Şekil 5.2. Metinleri sayısallaştırılmaları ve Yapay Sinir ağıyla sınıflandırılmaları
59
5.2 Kullanılan Parser ve Gerekliliği
Sistemde metinlerdeki kelimelerin kendileri yerine gövdelerinin kullanıldığı daha önceden belirtilmişti.
Bunun sebebi Türkçe gibi eklemeli dillerde bir gövdenin sonuna birçok farklı ek alarak farklı biçimlerde
karşımıza çıkabilmesidir. Örneğin “araba” kelimesi ile “arabadan”, “arabayı”, “arabada”, ve “arabanın”
kelimeleri eğer parser olmasa ayrı ayrı kelimeler olarak görüleceklerdi. Bunun sonucu olarak hem
oluşturulan sözlük boyutu çok artacak hem de sınıflandırma başarısı düşecektir. Bu sebeplerden
kelimeler bir parser yardımıyla gövde ve eklerine ayrılmış, metinlerde sadece kelimelerin gövdeleri
bırakılmıştır. Bu çalışmada yeni bir parser oluşturmak yerine önceden geliştirilmiş bir parser
kullanılmıştır(İşler vd. 2001).
5.3 Karar mekanizmasında kullanılan yöntemler
Önceden bahsedildiği gibi iki temel sınıflandırma metodu kullanılmıştır. İlki Naive Bayes, diğerleri ise
MLP ve LVQ olmak üzere Yapay Sinir Ağlarının iki türüdür.
5.3.1 Destekleyici Öğrenme (Learning Vector Quantization-LVQ)
Destekleyici öğrenme Kohonen tarafından 1984 yılında geliştirilmiştir. Temel felsefesi n boyutlu bir
vektörü bir vektörler setine haritalamaktır (uydurmaktır). Burada, bir vektörün belirli sayıda vektörler ile
gösterimi amaçlanmaktadır. Öğrenme ile de girdi vektörünün hangi vektör seti tarafından temsil
edilmesi gerektiği bulunmak kastedilmektedir (Öztemel 2003). Bu metod, eğiticili ve yarışmalı bir
öğrenme türüdür. LVQ algoritmasında haritalanmak istenen bilgiyle aynı boyuttaki betimleyici vektör
rasgele olarak seçilir. Eğitim setinin her bir örneği için, bu örneğe en yakın olanı belirlenir ve eğer
örnekle betimleyici vektör aynı sınıftan ise betimleyici vektör o sınıfı daha iyi temsil etmesi için eğitim
örneğine yaklaştırılır. Eğer farklı sınıflardansalar uzaklaştırılır. Diğer bir ifadeyle her adımda betimleyici
vektörlerden biri kazanır ve eğer doğru sınıflandırma yapılmışsa ödüllendirilir, yanlış sınıflandırma
yapılmışsa cezalandırılır. Metodun algoritması aşağıda verilmiştir.
[ η ] öğrenme oranı
[ δ ] 2.öğrenme oranı
[n] maximum eğitim sayısı
[c] betimleyici vector sayısı
[ µ1 ,..., µ c ] betimleyici vektörler (centroids)
[x] eğitim datasından bir örnek
[S(x)] x vektörünün ait olduğu yada betimlediği sınıf
olmak üzere;
60
1. η , δ , n, µ1 ,..., µ c için ilk değer atamalarını gerçekleştir ,
2.Eğitim adımları
2.1 X eğitim datasını al
2.2 X e en yakın betimleyici vektörü bul
( µ k ): k ← arg min j x − µ j j=1..c
2.3 µ k nın güncellenmesi:

Eğer x doğru sınıfsa ( s(x)=s( µ k ) sınıfları aynı ise)
µ k ← µ k + η ( x − µ k ) ödüllendir x’e yaklaştır

değilse
µ k ← µ k − η ( x − µ k ) cezalandır x’den uzaklaştır
5.3.2 Naive Bayes
Naive Bayes Kolay uygulanabilir olduğu kadar üstün performansıyla da metin sınıflandırma
çalışmalarında en çok kullanılan metodlardan biri haline gelmiştir . Metodda önce tüm eğitim
verisindeki metinlerde kullanılan kelimelerden bir sözlük oluşturulur. Daha sonra her bir kelimenin her
bir sınıftaki tekrar sayıları(frekansı) bulunur. Sınıflandırılması isetenen yeni bir metin önceden
geldiğinde oluşturulan sözlükte var olan kelimelerin herbir sınıftaki frekansları bulunur. Bir metnin C
sınıfına dahil olma olasılığı C sınıfının eğitim setindeki oranıyla, metnin içindeki her bir kelimenin C
sınıfına ait olma olasılıkları çarpılarak bulunur.
5.4 Vektörel metinlerde boyut azaltma çalışmaları
Sayısallaştırma işlemi sonucunda elde edilen vektörler 2846 boyutludur. Birçok metin sınıflandırma
çalışmasında bu problemle karşılaşılmaktadır. Bu boyuttaki verilerle eğitim işlemi de test işlemi de
zaman alıcı işlemlerdir. Bu nedenle verinin daha az boyutta ifade edilmesi gerekmektedir. Bu
çalışmada yine metin sınıflandırma işlemlerinde en çok kullanılan boyut azaltma metodlarından olan
Information Gain Ölçümleri ve PCA kullanılmıştır.
5.4.1 Principle Component Anaysisl(PCA)
Verilerin birlikte değişimlerini en az miktarda kaybettikleri boyutları seçerek verilerin o boyutlar

üzerindeki izdüşümlerini bulan bir metoddur. Bu çalışmada 2846 boyuttan 50’den az sayıdaki boyuta
indirgeme yapılmıştır.
5.4.2 Informaiton Gain(IG)
61
Eğitim setindeki verilerin özelliklerinden hangilerinin daha belirleyici olduğunun bulunmasında
kullanılan bir ölçüttür. Örneğin Tablo 5.1’deki gibi bir eğitim seti için A özelliği, B özelliğine göre daha
ayırt edici bir özelliktir.
Tablo 5. 1: Eğitim Seti

A B Sınıf
X K S1
X M S1
Y K S2
Y M S2
Yukarıdaki eğitim setine göre A özelliği X olan örneklerin S1 sınıfından, Y olan örneklerin ise S2
sınıfından oldukları söylenebilir. Ancak B özelliği için böyle bir genelleme mümkün değildir. S eğitim
seti içindeki A özelliğinin Information Gain’i Denklem 5.1’deki şekilde bulunmaktadır.
(5.1)
5.5 Uygulama Sonuçları
Sistemin eğitilmesi için Türkçe gazetelerin web sitelerindeki 5 farklı konudan 10’ar adet haber metni
alınmıştır. Test işlemi içinse her bir sınıftan eğitim setinde olmayan 5’er adet makale alınmıştır.
Naive Bayes’le 25 test haberinin 19 tanesi doğru bir şekilde sınıflandırılmıştır. En yüksek sınıflandırma
oranları %100’lük başarı ile siyasi ve sağlık içerikli haberlerdir.
Tablo 6.2’de Uygulanan sınıflandırma metodları ve boyut azaltma metodlarıyla elde edilen
sınıflandırma başarıları gösterilmiştir. Sonuçlar LVQ ve MLP için en yüksek performansı elde ettikleri
yapılar için verilmiştir.
Tablo 5.2: Sınıflandırma Sonuçları

Ekonom
Sağlık
Siyasi
Toplam
Magazi
Spor
*25
test
n
*
i
Datasında
Naive Bayes 4 2 5 5 3 19
62
LVQ 2846 boyut 5 0 5 5 4 19
LVQ 50 boyutlu 4 5 5 0 5 19
InfoGain ile
LVQ 50 boyutlu 1 2 2 2 0 7
PCA ile
MLP 2846 boyut 3 0 4 2 2 11
MLP 50 boyutlu 3 2 2 0 1 8
InfoGain ile
MLP 50 boyut 1 1 2 2 2 8
PCA ile
5.6 Sonuç
Türkçe haber metinlerinin otomatik sınıflandırılması için yapılan bu çalışmada kelimelerin gövdeleri
kullanılarak metinlerin özellikleri ortaya çıkarılmıştır. İki temel tür sınıflandırma metodu kullanılnış olup
en yüksek performansa LVQ ve Naive Bayes metodlarının eriştiği görülmüştür. Boyut indirgeme
çalışmalarının ise performans arttırımına bir katkı sağlamadığı ancak işlem zamanını 50’de 1’e
düşürdüğü gözlemlenmiştir. Performansın daha iyileştirilmesi için metinlerin daha başka özelliklerinin
kullanılması, farklı sınıflandırma metodlarının kullanılması düşünülebilir.
63
KAYNAKÇA
1. Akpınar, H. Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği, 2000,

http://www.istanbul.edu.tr/isletme/dergi/nisan2000/1.HTM#_ftn1
2. Amasyalı M. ve Yıldırım, T. Otomatik Haber Metinleri Sınıflandırma, 2004
http://www.ce.yildiz.edu.tr/mygetfile.php?id=268
3. Alpaydın E., Zeki Veri Madenciliği:Ham Veriden Altın Bilgiye Ulaşma Yöntemleri, 2003
http://www.cmpe.boun.edu.tr/~ethem/files/papers/veri-maden_2k-notlar.doc
4. Aydoğan, F. E-Ticarette Veri Madenciliği Yaklaşımlarıyla Müşteriye Hizmet Sunan Akıllı Modüllerin
Tasarımı ve Gerçekleştirmi, Hacettepe Üniversitesi Yüksek Lisans Tezi, 2003
http://www.cs.hun.edu.tr/~fatih/RESEARCH/doc/tez.pdf
5. Berry, M. Survey of Text Mining : Clustering, Classification, and Retrieval (Hardcover) Springer; 1
edition, 2003
6. Bolat, M., Metin Filtrelemde En Hızlı İniş Metoduyla Optimal Sorgunun Bulunması, Başkent Üniversitesi
Fen Bilimleri Enstitüsü,Yüksek Lisans Tezi, 2003
7. Gündüz, G. , Adalı E. Web Kullanıcılarının Davranışları İçin Örüntü Bulma ve Modelleme, İTÜ
Dergisi/Mühendislik Cilt:3, Sayı:6, 15-24 Aralık 2004
8. Feldman R. and Sanger J., Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data,
Cambridge University Press, forthcoming 2006.
9. Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, 2001 Academic Pres
10. Margaret, H. Data Mining , Introductory and Anvanced Topics, Prentice Hall, 2002
11. Nahm, U. Text Mining With Information Extraction , 2004, http://www.cs.utexas.edu/ftp/pub/AI-Lab/tech-
reports/UT-AI-TR-04-311.pdf
12. Öztemel, E. Yapay Sinir Ağları, Papatya Yayıncılık Eğitim, 2003
13. Sebastiani F. ,Machine Learning in Automated Text Categorization, 2005
http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf
14. Sever, H. Ve Oğuz. B. Veri Tabanlarında Bilgi Keşfine Formel Bir Yaklaşım, 2002,
http://www.baskent.edu.tr/~sever/
15. Tonta, Y.. Bitirim, Y , Sever, H. Turkce Arama Motorlarinda Performans Degerlendirme, 2002,
http://www.baskent.edu.tr/~sever/
16. Varadarajan, S., Kasravi, K. ,Feldman R. Text-Mining: Application Development hallenges, 2006.
http://www.cs.biu.ac.il/~feldman/papers/TextMiningApplicationDevelopmentChallenge.pdf
17. http://www.ie.metu.edu.tr/~tayyar/Downloads/KXEN_Egitim_TR.pdf
64

VeriMadenciligi TextMininng

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

VeriMadenciligi TextMininng

Uploaded by

Copyright:

Available Formats

AHMET YESEVİ ÜNİVERSİTESİ

BİLİŞİM SİSTEMLERİ VE MÜHENDİSLİK FAKÜLTESİ

2 METİN VERİ MADENCİLİĞİ................................................................................................................

5 OTOMATİK HABER METİNLERİ SINIFLANDIRMA UYGULAMASI...................................................58

Anahtar Kelimeler: Metin madenciliği, metin sınıflandırma algoritmaları, metin kümeleme.

Proje hazırlama çalışmalarım sırasındaki yönlendirici önerilerinden ve gerekli kaynak teminindeki

Gerek bilimsel veritabanlarında gerekse de günlük iş aktiviteleri etrafında modellenmiş ticari

Veri Madenciliği için yapılan diğer tanımlardan bir kaçı şöyledir:

1.1 Veri Madenciliğinde Karşılaşılan Problemler

1.1.1 Veritabanı Boyutu

1.1.2 Gürültülü Veri

1.1.3 Boş Değerler

1.1.5 Artık Veri

1.1.6 Dinamik Veri

1.1.7 Farklı tipteki verileri ele alma

1.2 Veri Madenciliği Algoritmaları

1.2.1 Hipotez Testi Sorgusu

1.2.2 Sınıflama Sorgusu

1.2.3 Güdümsüz Gruplama Sorgusu

1.2.4 Ardışık Örüntüler

1.2.5 Eşleştirme Sorgusu

1.2.6 Eşleştirme Algoritmaları

2.1 Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması

2.1.1 Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı

2.1.2 Metin Çıkartımı İçin Temel Ölçümler

2.1.3 Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı

2.1.4 Metin Verilerinin Heterojenliği

Ataları ve ardılları veritabanı girişlerine yeterli benzerlik temelinde değerlendirilen “yumuşak

3.1.2 Durdurma Kelimelerinin Çıkarılması

Tablo 3.1 Kelimelerin ve Köklerinin Bir Tabloda Tutulması

3.1.4 Metin Gösterimi

3.1.5 Vektör Uzayı Modeli

3.1.6 Boyut Küçültme

3.1.6.1 Özellik Seçimi

3.1.6.2 Doküman Frekans Eşikleme

3.1.6.3 Bilgi Kazanımı Yöntemi

3.1.6.4 χ 2 (chi kare) İstatistiği

χ2 istatistiği, kelime w ile kategori c j arasındaki bağımsızlığı ölçer ve şu şekilde gösterilir:

A c j kategorisindeki içinde w kelimesi geçen doküman sayısı

B içinde w kelimesi geçen fakat c j kategorisine ait olmayan doküman sayısı

C c j kategorisine ait ve içinde w kelimesi geçmeyen doküman sayısı

D c j kategorisine ait olmayan ve içinde w kelimesi geçmeyen doküman sayısı

χ2 istatistiğine dayanan iki ölçme yöntemi ise;

3.1.7 Yeniden Değiştirgeleme

Yeniden değiştirgeleme, eldeki özelliklerin yeniden yapılandırılması veya birleştirilmesiyle yeni

Aşağıda kısaca açıklanacak olan bu yöntemlerde kullanılan temel değişkenler

3.2.1 Boole Ayırma

1 eğer fik > 0 

3.2.2. Kelime Frekans Ağırlıklandırma

aik = f ik *log( N / ni ) (3.8)

3.2.4 tfc-Ağırlıklandırma (Term Frequency Component)

3.2.5 ltc Ağırlıklandırma (Logarithmic Term Component)

3.3.1 Rocchio Algoritması

3.3.2 Naive Bayes

3.3.3 Karar Ağacı

3.3.3.1 Ağacı Oluşturma (CART)

Çeşitlilik (ayırmadan önce) –

En çok kullanılan çeşitlilik hesaplaması yöntemlerinden birisi, entropi yöntemidir.

p (c j | t ) , c j kategorisine ait eğitim kümesi elemanının t boğumuna (node) gelme olasılığıdır. Bu

3.3.3.2 Ağacın Budanması

3.3.4 Destek Yöney Makineleri

3.3.4.1. Ayrılabilir Durumlarda Destek Yöney Makineleri

bir skaler b bulunur.