You are on page 1of 9

Konular

„ Veri madenciliği ve bilgi keşfinin tanımı


VERİ MADENCİLİĞİ „ Veri madenciliğinin uygulama alanları
Giriş „ Veri kaynakları
„ Veri madenciliği modellerinin gruplanması
Yrd. Doç. Dr. Şule Gündüz Öğüdücü
„ Veri ambarları
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ „ Veri madenciliğinde sorunlar

1 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 2

Problem Tanımı Veri Madenciliği: Tarihçe


„ teknolojinin gelişimiyle bilgisayar ortamında „ Data Fisihing-Data Dredging: 1960-
ve veritabanlarında tutulan veri miktarının da „ istatistikçiler
artması
„ Data Mining: 1990-
„ bu veriyi nasıl kullanacağımızı bilmiyoruz
„ saklanan veriden bilgi elde etmek için bu veriyi „ veritabanı kullanıcıları, ticari
yorumlamamız gerekiyor „ Knowledge Discovery in Databases (KDD): 1989-
„ kullanıcıların beklentilerinin artması „ yapay zeka, makine öğrenmesi toplulukları
„ basit veritabanı sorgulama yöntemlerinin „ Data Archaeology, Information Harvesting,
yeterli olmaması
Information Discovery, Knowledge Extraction,...
„ Veri madenciliği yöntemleri fazla miktardaki
veri içinden yararlı bilgiyi bulmak için
kullanılır.

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 3 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 4

Bilgi Keşfi Veri Madenciliği Nedir?


„ Büyük veri kaynaklarından yararlı ve ilginç bilgiyi „ Teoride veri madenciliği bilgi keşfi işleminin
bulmak aşamalarından biridir.
„ Pratikte veri madenciliği ve bilgi keşfi eş anlamlı
„ Bulunan bilgi olarak kullanılır.
„ gizli „ Veri madenciliği teknikleri veriyi belli bir modele
„ önemli uydurur.
„ önceden bilinmeyen „ veri içindeki örüntüleri bulur
„ yararlı „ örüntü: veri içindeki herhangi bir yapı
„ Sorgulama ya da basit istatistik yöntemler veri
madenciliği değildir.

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 5 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 6

1
Bilgi Keşfi Bilgi Keşfinin Aşamaları
işlemin %70’lik
Uygulama alanını inceleme
„ Veri madenciliği: Model Değerlendirme
„
„ Konuyla ilgili bilgi ve uygulama amaçları
bölümünü oluşturur

Bilgi keşfinin „ Amaca uygun veri kümesi oluşturma: Veri seçme


Veri ayıklama ve önişleme
temel taşı
„

Veri Madenciliği „ Veri azaltma ve veri dönüşümü


„ incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi
belirleme, boyut azaltma,
Kullanım amaçlı Veri „ Veri madenciliği tekniği seçme
„ Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
Seçme „ Veri madenciliği algoritmasını seçme
Veri Ambarı „ Model değerlendirme ve bilgi sunumu
„ Bulunan bilginin yorumlanması
Veri Temizleme

Veri Birleştirme

Veri Tabanları
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 7 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 8

Bilgi Keşfi Örnek: web kayıtları Bilgi Keşfi: Farklı Alanların Bileşimi
„ web sitesinin yapısını inceleme
„ verileri seçme: tarih aralığını belirleme Makine Görüntüleme
„ veri ayıklama, önişleme: gereksiz kayıtları silme Öğrenmesi
„ veri azaltma, veri dönüşümü: kullanıcı oturumları
belirleme Veri Madenciliği ve
„ veri madenciliği tekniği seçme: demetleme Bilgi Keşfi
„ veri madenciliği algoritması seçme: k-ortalama, EM,
DBSCAN...
„ Model değerlendirme/yorumlama: değişik kullanıcı İstatistik
grupları için sıkça izlenen yolu bulma Veritabanı
„ Uygulama alanları: öneri modelleri, kişiselleştirme, ön
belleğe alma

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 9 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 10

İstatistik & Makine Öğrenmesi &


Veri Madenciliği Veri Madenciliğinin Amacı
„ İstatistik „ Yapmak istemediğimiz: Büyük
„ daha çok teoriye dayalı yaklaşımlar miktardaki veri içinde arama
bir varsayımın doğruluğunu araştırır
„
yapmak (Veritabanı yönetim
„ Makine Öğrenmesi
sistemleri bu işi yapıyor)
„ daha çok sezgisel yaklaşımlar
„ öğrenme işleminin başarımını artırmaya çalışır
„ Veri madenciliği ve bilgi keşfi „ Amaç: Aradığımız veri mevcutsa
„ teori ve sezgisel yaklaşımları birleştirir sonuçlarını anlamak
„ bilgi keşfinin tüm aşamalarını gerçekler: veri temizleme,
öğrenme, sonucu sunma, yorumlama,...
„ Aradaki ayrım net değil

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 11 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 12

2
Veritabanı & Veri Madenciliği İşlemleri Sorgulama Örnekleri
„ Sorgulama „ Sorgulama „ Veritabanı uygulaması:
„ Tanımlı „ Tam tanımlı değil „ Soyadı Gündüz olan kredi kartı sahiplerini bul.
„ SQL „ yaygın sorgulama „ Bir ayda 2000 YTL’den fazla harcama yapan kredi kartı
sahiplerini bul.
dili yok
„ DVD satın alan tüm müşterileri bul.
„ Veri „ Veri „ Veri madenciliği uygulaması
„ Canlı veri „ Üzerinde işlem „ Riski az olan tüm kredi kartı başvurularını bul
yapılmayan veri (sınıflandırma)
„ Harcama alışkanlığı benzer olan kredi kartı sahiplerini
„ Çıkış „ Çıkış bul (demetleme)
„ Belirli „ Belirli değil „ DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme
kuralları)
„ verinin bir alt kümesi „ verinin bir alt kümesi
www.cs.itu.edu.tr/~gunduz/courses/verimaden/
değil 13 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 14

Konular Veri Madenciliğinin Uygulama Alanları

„ Veri madenciliği ve bilgi keşfinin tanımı „ Veritabanı analizi ve karar verme desteği
Pazar araştırması
„ Veri madenciliğinin uygulama alanları „

„ Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet


„ Veri kaynakları analizi, çapraz pazar incelemesi

„ Veri madenciliği modellerinin gruplanması „ Risk analizi


„ Kalite kontrolu, rekabet analizi, öngörü
„ Veri ambarları „ Sahtekarlıkların saptanması
„ Veri madenciliğinde sorunlar „ Diğer Uygulamalar
„ Belgeler arası benzerlik (haber kümeleri, e-posta)
„ Sorgulama sonuçları

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 15 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 16

Problemler Pazar Araştırması (1)


„ Hangi promosyonu ne zaman uygulamalıyım? „ Veri madenciliği uygulamaları için veri kaynağı
Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları,
Hangi müşteri aldığı krediyi geri ödemeyebilir?
„
„ pazar anketleri
„ Bir müşteriye ne kadar kredi verilebilir? „ Hedef pazarlar bulma
Benzer özellikler gösteren müşterilerin bulunması:
„ Sahtekarlık olabilecek davranıslar hangileridir? „
benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
„ Hangi müşteriler yakın zamanda kaybedilebilir? „ Müşterilerin davranışlarında zaman içindeki değişiklik
„ Hangi müşterilere promosyon yapmalıyım? „ Tek kişilik banka hesabının ortak hesaba çevrilmesi:
evlilik
„ Hangi yatırım araçlarına yatırım yapmalıyım? „ Çapraz pazar incelemesi:
„ Ürün satışları arasındaki ilişkiyi bulma

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 17 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 18

3
Pazar Araştırması (2) Sahtekarlık İncelemesi
„ Müşteri profili „ Sigorta, bankacılık,
telekominikasyon alanlarında
„ Hangi özellikteki müşterilerin hangi ürünleri
aldıkları (demetleme veya sınıflandırma) „ Geçmiş veri kullanılarak sahtekarlık
yapanlar için bir model oluşturma
„ Müşterilerin ihtiyaçlarını belirleme ve benzer davranış gösterenleri
„ Farklı müşterilerin o anki ilgisine yönelik ürünü belirleme
bulma „ Örnek:
„ Yeni müşterileri hangi faktörlerin etkilediğini „ Araba sigortası
bulma „ Sağlık Sigortası
„ Kredi kartı başvurusu

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 19 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 20

Risk Analizi Konular


„ Finans planlaması ve bilanço değerlendirmesi „ Veri madenciliği ve bilgi keşfinin tanımı
nakit para akışı incelemesi ve kestirimi
„
„ Veri madenciliğinin uygulama alanları
„ talep incelemesi
„ zaman serileri incelemesi
„ Veri kaynakları
„ Kaynak planlaması „ Veri madenciliği modellerinin gruplanması
„ kaynakların incelenmesi ve uygun olarak dağıtılması „ Veri ambarları
„ Rekabet „ Veri madenciliğinde sorunlar
„ rakipleri ve pazar eğilimlerini takip etme
„ müşterileri sınıflara ayırma ve fiyat politikası belirleme

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 21 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 22

Veri Kaynakları Konular


„ Veri dosyaları „ Veri madenciliği ve bilgi keşfinin tanımı
„ İlişkisel veritabanı „ Veri madenciliğinin uygulama alanları
„ Veri ambarları „ Veri kaynakları
„ Gelişmiş veritabanları „ Veri madenciliği modellerinin gruplanması
„ nesneye dayalı „ Veri ambarları
veritabanları „ Veri madenciliğinde sorunlar
„ www

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 23 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 24

4
Veri Madenciliği Algoritmaları Veri Madenciliği Modelleri
„ amaç: veriyi belli bir modele uydurmak veri madenciliği
„ tanımlayıcı
„ En iyi müşterilerim kimler?
„ Hangi ürünler birlikte satılıyor? tanımlayıcı
kestirime dayalı
„ Hangi müşteri gruplarının alışveriş alışkanlıkları benzer?
„ kestirime dayalı sıralı
zaman demetleme özetleme bağıntı
„ Kredi başvuralarını risk gruplarına ayırma sınıflandırma eğri dizi
serileri kuralları
„ Şirketle çalışmayı bırakacak müşterileri öngörme uydurma
„ Borsa tahmini
„ seçim: veriye uyan en iyi modeli seçmek için kullanılan
kriter
„ arama: veri üzerinde arama yapmak için kullanılan
teknik
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 25 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 26

Veri Madenciliği İşlevleri Veri Madenciliği İşlevleri


„ Sınıflandırma: Veriyi önceden belirlenmiş „ Demetleme: Benzer verileri aynı grupta toplama
sınıflardan birine dahil eder. „ Gözetimsiz öğrenme
„ Gözetimli öğrenme „ Özetleme: Veriyi altgruplara ayırır. Her altgrubu temsil
edecek özellikler bulur.
„ Örüntü tanıma
„ Genelleştirme
„ Kestirim „ Nitelendirme
„ Eğri uydurma: Veriyi gerçel değerli bir „ İlişkilendirme kuralları
fonksiyona dönüştürür. „ Veriler arasındaki ilişkiyi belirler
„ Zaman serileri inceleme: Zaman içinde değişen „ Sıralı diziler: Veri içinde sıralı örüntüler bulmak için
verinin değerini öngörür. kullanılır.

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 27 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 28

Örnek: Sınıflandırma Örnek: Demetleme


rik rik kl
i
te
go
te
go

re f „ Doküman Demetleme:
ka ka nı
sı „ Amaç:
Tid Geri Medeni Gelir Dolan Geri Medeni Gelir Dolan
Ödeme Durum dırıcı Ödeme Durum dırıcı „ Döküman içinde geçen terimlere göre aynı konudaki
1 Evet Bekar 125K -1 Hayır Bekar 75K ? dokümanları gruplama
2 Hayır Evli 100K -1 Evet Evli 50K ?
„ Yaklaşım:
Hayır Evli 150K ?
3 Hayır Bekar 70K -1
Evet Boşanmış 90K ?
„ Her doküman içinde sık geçen terimleri bul. Bu
4 Evet Evli 120K -1
terimlerden ve ağırlıklarından yararlanarak bir benzerlik
5 Hayır Boşanmış 95K 1 Hayır Bekar 40K ?
ölçütü geliştir. Bu ölçüte göre demetleme yap
6 Hayır Evli 60K -1 Hayır Evli 80K ? Deneme
7 Evet Boşanmış 220K -1
10

Kümesi „ Kullanımı:
8 Hayır Bekar 85K 1 „ Yeni bir dokümanın hangi dokümanlarla benzer olduğu
9 Hayır Evli 75K -1 Sınıflandırıcı „ terimlere göre arama yapıldığında bu terimleri içeren
10
10 Hayır Bekar 90K 1
Öğrenme
Kümesi
Model dokümanları bulma

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 29 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 30

5
Örnek: İlişkilendirme Kuralları Bulunan Örüntüler Önemli mi?
„ Veri kümesindeki nesneler arasındaki ilişkiyi „ Binlerce örüntü: Bir kısmı önemli
Veri madenciliği ile bulunan sonuç kümesi üzerinde
bulma
„
tekrar veri madenciliği uygulanacak kadar büyük
„ bir nesnenin (nesnelerin) varlığı ile diğer bir „ Bulunan örüntünün önemli olması için:
„ insanlar tarafından kolayca anlaşılabilir
nesnenin (nesnelerin) de varlığını tahmin
sınama verisi veya yeni veriler üzerinde belli oranda
edebilecek kurallar „
geçerli
TID Nesneler
„ yararlı ve kullanılabilir
„ yeni
1 Ekmek, Kola, Süt
Bulunan
BulunanKurallar:
2 Bira, Ekmek
{Süt}
Kurallar: „ nesnel / öznel metrikler
{Süt}-->
-->{Kola}
{Kola}
3 Bira, Kola, Çocuk bezi, Süt {Çocuk
{Çocukbezi,
bezi,Süt}
Süt}-->
-->{Bira}
{Bira}
„ nesnel: örüntünün yapısına bağlı
4 Bira, Ekmek, Çocuk bezi, Süt „ öznel: kullanıcının yaklaşımına bağlı
5 Kola, Çocuk bezi, Süt

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 31 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 32

Bütün Önemli Örüntülerin


Bulunması Konular
„ Bütünlük: Önemli bütün örüntülerin bulunması „ Veri madenciliği ve bilgi keşfinin tanımı
„ Önemli bütün örüntüler bulunabilir mi? „ Veri madenciliğinin uygulama alanları
„ Eniyileme: Sadece önemli örüntüleri bulma „ Veri kaynakları
„ Sadece önemli örüntüler bulunabilir mi? „ Veri madenciliği modellerinin gruplanması
Bütün örüntüler bulunduktan sonra önemsiz olanların
„
„ Veri ambarları
ayıklanması
„ Sadece önemli örüntülerin bulunması „ Veri madenciliğinde sorunlar

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 33 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 34

İlgili Konular: Veri Ambarları Veri Ambarı


„ Çok fazla miktarda üzerinde işlem yapılan veri var „ Amaca yönelik
„ Çoğunlukla farklı veritabanlarında ve farklı ortamlarda „ Birleştirilmiş
Veri farklı formatlarda ve yerlerde (heterojen ve
Zaman değişkenli
„
„
dağıtık)
„ Değişken değil

„ Karar destek birimleri veriye sanal olarak tek bir


yerden ulaşabilmeli
„ Ulaşım hızlı olmalı

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 35 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 36

6
Veri Ambarları: Amaca Yönelik Veri ambarları: Birleştirilmiş
„ Müşteri, ürün, satış gibi belli konular için „ Veri kaynaklarının birleştirilmesiyle oluşturulur
düzenlenebilir „ Canlı veri tabanları, dosyalar
„ Verinin incelenmesi ve modellenmesi için „ Veri temizleme ve birleştirme teknikleri kullanılır
oluşturulur „ Değişik veri kaynakları arasındaki tutarlılık
„ Konuyla ilgili karar vermek için gerekli olmayan sağlanır
veriyi kullanmayarak konuya basit, özet bakış
sağlar

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 37 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 38

Veri Ambarları: Zaman Değişkenli Veri Ambarları: Değişken Değil


„ Zaman değişkeni canlı veri tabanlarına göre „ Canlı veritabanlarından alınmış verinin fiziksel
daha uzundur olarak başka bir ortamda saklanması
„ Canlı veri tabanları: Güncel veriler bulunur (en „ Canlı veritabanlarındaki değişimin veri
çok geçmiş 1 yıl) ambarlarını etkilememesi
„ Veri ambarları: Geçmiş hakkında bilgi verir
(geçmiş 5-10 yıl)

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 39 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 40

Veri Ambarı Mimarisi Veri Kaynakları


İstemci
„ İki yaklaşım:
İstemci
Sorgulama & „ sorgulamalı
İnceleme
„ veri ambarı

Metadata Veri Ambarı ?


Birleştirme
Kaynak Kaynak

Kaynak Kaynak Kaynak

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 41 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 42

7
Veri Ambarı & Birleşmiş Veritabanları Veri Madenciliği & OLAP
„ Veritabanlarının birleştirilmesi: „ OLAP (On-Line Analytical Processing)
„ Farklı veritabanları arasında bir arabulucu katman „ Veri ambarlarının işlevi
„ Sorgulamalı „ Veriyi inceleme ve karar verme
„ Bir sorgulamayı her veritabanı için alt sorgulamalara ayır „ OLTP (On-Line Transaction Processing) saatler sürebilen işlemler
„ Sonucu birleştir
„ OLAP avantajları
„ Veri ambarı:
„ Daha geniş kapsamlı sonuçlar
„ Veri daha sonra kullanılmak üzere birleştirilip veri ambarında
saklanıyor „ Daha kısa süreli işlem
Alt Sorgulamalar „ OLAP dezavantajları

Birleştirme Sorgu „ Kullanıcı neyi nasıl soracağını bilmesi gerekiyor


Sorgulama
„ Genelde veriden istatistiksel inceleme yapmak için kullanılır.

Sonuç OLAP NE sorusuna cevap verir, veri madenciliği NEDEN


Veri Ambarı
Sonuç Arabulucu
sorusuna cevap verir.

Veri Ambarı Kaynaklar


Birleştirilmiş veritabanları 43 44
www.cs.itu.edu.tr/~gunduz/courses/verimaden/ www.cs.itu.edu.tr/~gunduz/courses/verimaden/

Konular Veri Madenciliğinde Sorunlar (1)


„ Veri madenciliği ve bilgi keşfinin tanımı „ Güvenlik ve sosyal haklar
„ Veri madenciliğinin uygulama alanları „ Kullanıcı Arabirimi
„ Veri kaynakları „ Veri madenciliği yöntemi
„ Veri madenciliği modellerinin gruplanması „ Başarım ve ölçeklenebilirlik
„ Veri ambarları „ Veri kaynağı
„ Veri madenciliğinde sorunlar

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 45 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 46

Veri Madenciliğinde Sorunlar (2) Veri Madenciliğinde Sorunlar (3)


„ Gizlilik ve sosyal haklar „ Kullanıcı Arabirimi
„ Kişilere ait verilerin toplanarak, kişilerden „ Görüntüleme
habersiz ve izinsiz olarak kullanılması „ Sonucun anlaşılabilir ve yorumlanabilir hale
„ Veri madenciliği yöntemleri ile bulunan getirilmesi
sonuçların izinsiz olarak açıklanması „ Bilginin sunulması
(/paylaşılması) „ Etkileşim
„ Gizlilik ve veri madenciliği politikalarının „ Veri madenciliği ile elde edilen bilginin kullanılması
düzenlenmesi „ Veri madenciliği yöntemine müdahele etmek
„ Veri madenciliği yönteminin sonucuna müdahele
etmek

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 47 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 48

8
Veri Madenciliğinde Sorunlar (4) Veri Madenciliğinde Sorunlar (5)
„ Veri madenciliği yöntemi „ Başarım ve ölçeklenebilirlik
„ Farklı tipte veriler üzerinde çalışabilme „ Kullanabilirlik ve ölçeklenebilirlik
„ Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme „ Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir
„ Uygulama ortamı bilgisini kullanabilme „ Örnekleme yapabilme
Veri madenciliği ile elde edilen sonucu anlaşılır şekilde
Paralel ve dağıtık yöntemler
„
„
sunabilme
Artımlı veri madenciliği
Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç
„
„

verebilme) „ Parçala ve çöz


„ Değişen veya eklenen verileri kolayca kullanabilme
„ Örüntü değerlendirme: önemli örüntüleri bulma

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 49 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 50

Uyarı
„ Veri madenciliği yöntemleri bilinçsiz olarak
kullanılmamalı
„ Veri madenciliği yöntemleri geçmiş olaylara
bakarak örüntüler bulur: Gelecekteki olaylar
geçmiştekilerle aynı değildir
„ İlişkiler her zaman nedenleri açıklamaz
„ David Heckerman’ın verdiği örnek (1997)
„ hamburger, hot-dog, barbecue sauce

www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 51

You might also like