Professional Documents
Culture Documents
1 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 2
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 3 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 4
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 5 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 6
1
Bilgi Keşfi Bilgi Keşfinin Aşamaları
işlemin %70’lik
Uygulama alanını inceleme
Veri madenciliği: Model Değerlendirme
Konuyla ilgili bilgi ve uygulama amaçları
bölümünü oluşturur
Veri Birleştirme
Veri Tabanları
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 7 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 8
Bilgi Keşfi Örnek: web kayıtları Bilgi Keşfi: Farklı Alanların Bileşimi
web sitesinin yapısını inceleme
verileri seçme: tarih aralığını belirleme Makine Görüntüleme
veri ayıklama, önişleme: gereksiz kayıtları silme Öğrenmesi
veri azaltma, veri dönüşümü: kullanıcı oturumları
belirleme Veri Madenciliği ve
veri madenciliği tekniği seçme: demetleme Bilgi Keşfi
veri madenciliği algoritması seçme: k-ortalama, EM,
DBSCAN...
Model değerlendirme/yorumlama: değişik kullanıcı İstatistik
grupları için sıkça izlenen yolu bulma Veritabanı
Uygulama alanları: öneri modelleri, kişiselleştirme, ön
belleğe alma
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 9 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 10
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 11 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 12
2
Veritabanı & Veri Madenciliği İşlemleri Sorgulama Örnekleri
Sorgulama Sorgulama Veritabanı uygulaması:
Tanımlı Tam tanımlı değil Soyadı Gündüz olan kredi kartı sahiplerini bul.
SQL yaygın sorgulama Bir ayda 2000 YTL’den fazla harcama yapan kredi kartı
sahiplerini bul.
dili yok
DVD satın alan tüm müşterileri bul.
Veri Veri Veri madenciliği uygulaması
Canlı veri Üzerinde işlem Riski az olan tüm kredi kartı başvurularını bul
yapılmayan veri (sınıflandırma)
Harcama alışkanlığı benzer olan kredi kartı sahiplerini
Çıkış Çıkış bul (demetleme)
Belirli Belirli değil DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme
kuralları)
verinin bir alt kümesi verinin bir alt kümesi
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
değil 13 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 14
Veri madenciliği ve bilgi keşfinin tanımı Veritabanı analizi ve karar verme desteği
Pazar araştırması
Veri madenciliğinin uygulama alanları
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 15 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 16
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 17 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 18
3
Pazar Araştırması (2) Sahtekarlık İncelemesi
Müşteri profili Sigorta, bankacılık,
telekominikasyon alanlarında
Hangi özellikteki müşterilerin hangi ürünleri
aldıkları (demetleme veya sınıflandırma) Geçmiş veri kullanılarak sahtekarlık
yapanlar için bir model oluşturma
Müşterilerin ihtiyaçlarını belirleme ve benzer davranış gösterenleri
Farklı müşterilerin o anki ilgisine yönelik ürünü belirleme
bulma Örnek:
Yeni müşterileri hangi faktörlerin etkilediğini Araba sigortası
bulma Sağlık Sigortası
Kredi kartı başvurusu
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 19 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 20
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 21 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 22
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 23 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 24
4
Veri Madenciliği Algoritmaları Veri Madenciliği Modelleri
amaç: veriyi belli bir modele uydurmak veri madenciliği
tanımlayıcı
En iyi müşterilerim kimler?
Hangi ürünler birlikte satılıyor? tanımlayıcı
kestirime dayalı
Hangi müşteri gruplarının alışveriş alışkanlıkları benzer?
kestirime dayalı sıralı
zaman demetleme özetleme bağıntı
Kredi başvuralarını risk gruplarına ayırma sınıflandırma eğri dizi
serileri kuralları
Şirketle çalışmayı bırakacak müşterileri öngörme uydurma
Borsa tahmini
seçim: veriye uyan en iyi modeli seçmek için kullanılan
kriter
arama: veri üzerinde arama yapmak için kullanılan
teknik
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 25 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 26
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 27 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 28
Kümesi Kullanımı:
8 Hayır Bekar 85K 1 Yeni bir dokümanın hangi dokümanlarla benzer olduğu
9 Hayır Evli 75K -1 Sınıflandırıcı terimlere göre arama yapıldığında bu terimleri içeren
10
10 Hayır Bekar 90K 1
Öğrenme
Kümesi
Model dokümanları bulma
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 29 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 30
5
Örnek: İlişkilendirme Kuralları Bulunan Örüntüler Önemli mi?
Veri kümesindeki nesneler arasındaki ilişkiyi Binlerce örüntü: Bir kısmı önemli
Veri madenciliği ile bulunan sonuç kümesi üzerinde
bulma
tekrar veri madenciliği uygulanacak kadar büyük
bir nesnenin (nesnelerin) varlığı ile diğer bir Bulunan örüntünün önemli olması için:
insanlar tarafından kolayca anlaşılabilir
nesnenin (nesnelerin) de varlığını tahmin
sınama verisi veya yeni veriler üzerinde belli oranda
edebilecek kurallar
geçerli
TID Nesneler
yararlı ve kullanılabilir
yeni
1 Ekmek, Kola, Süt
Bulunan
BulunanKurallar:
2 Bira, Ekmek
{Süt}
Kurallar: nesnel / öznel metrikler
{Süt}-->
-->{Kola}
{Kola}
3 Bira, Kola, Çocuk bezi, Süt {Çocuk
{Çocukbezi,
bezi,Süt}
Süt}-->
-->{Bira}
{Bira}
nesnel: örüntünün yapısına bağlı
4 Bira, Ekmek, Çocuk bezi, Süt öznel: kullanıcının yaklaşımına bağlı
5 Kola, Çocuk bezi, Süt
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 31 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 32
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 33 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 34
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 35 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 36
6
Veri Ambarları: Amaca Yönelik Veri ambarları: Birleştirilmiş
Müşteri, ürün, satış gibi belli konular için Veri kaynaklarının birleştirilmesiyle oluşturulur
düzenlenebilir Canlı veri tabanları, dosyalar
Verinin incelenmesi ve modellenmesi için Veri temizleme ve birleştirme teknikleri kullanılır
oluşturulur Değişik veri kaynakları arasındaki tutarlılık
Konuyla ilgili karar vermek için gerekli olmayan sağlanır
veriyi kullanmayarak konuya basit, özet bakış
sağlar
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 37 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 38
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 39 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 40
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 41 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 42
7
Veri Ambarı & Birleşmiş Veritabanları Veri Madenciliği & OLAP
Veritabanlarının birleştirilmesi: OLAP (On-Line Analytical Processing)
Farklı veritabanları arasında bir arabulucu katman Veri ambarlarının işlevi
Sorgulamalı Veriyi inceleme ve karar verme
Bir sorgulamayı her veritabanı için alt sorgulamalara ayır OLTP (On-Line Transaction Processing) saatler sürebilen işlemler
Sonucu birleştir
OLAP avantajları
Veri ambarı:
Daha geniş kapsamlı sonuçlar
Veri daha sonra kullanılmak üzere birleştirilip veri ambarında
saklanıyor Daha kısa süreli işlem
Alt Sorgulamalar OLAP dezavantajları
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 45 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 46
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 47 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 48
8
Veri Madenciliğinde Sorunlar (4) Veri Madenciliğinde Sorunlar (5)
Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik
Farklı tipte veriler üzerinde çalışabilme Kullanabilirlik ve ölçeklenebilirlik
Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir
Uygulama ortamı bilgisini kullanabilme Örnekleme yapabilme
Veri madenciliği ile elde edilen sonucu anlaşılır şekilde
Paralel ve dağıtık yöntemler
sunabilme
Artımlı veri madenciliği
Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 49 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 50
Uyarı
Veri madenciliği yöntemleri bilinçsiz olarak
kullanılmamalı
Veri madenciliği yöntemleri geçmiş olaylara
bakarak örüntüler bulur: Gelecekteki olaylar
geçmiştekilerle aynı değildir
İlişkiler her zaman nedenleri açıklamaz
David Heckerman’ın verdiği örnek (1997)
hamburger, hot-dog, barbecue sauce
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 51