You are on page 1of 52

BBY 220 - Bilgi Eriim lkeleri

Gven KSE
Hacettepe niversitesi gkose@hacettepe.edu.tr yunus.hacettepe.edu.tr/~gkose/

Ders Plan
Giri, Bilgi Eriimin Tarihesi Bilgi Eriim Sorunu ve Kavramlar Bilgi Eriim Sistemlerinin Bileenleri:erik Belirteleri, Belgeler, Sorgular Eriim Fonksiyonlar: Boolean Model, Vektr Uzay Modeli, Dil Modeli Bilgi Eriim Sistemlerinde Etkinlik ve Performans Deerlendirme Arama Motorlar ve Bilgiye Eriim Arama Motorlarnda Web Tarama ve Dizinleme lemleri Link Analizi lgililik Geri Bildirimi Sorgu Geniletme Teknikleri Gizli Anlam Dizinleme ve Ontolojiler

Ders Kitab ve Yardmc Kaynaklar


Salton, G. and McGill, M.J. Introduction to Modern Information Retrieval. New York: McGraw-Hill, 1983. Baeza-Yates, R. and Ribeiro. Modern Information Retrieval, BaezaYates and Ribeiro, Addison Wesley, 1999. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schtze, Introduction to Information Retrieval, Cambridge University Press. 2008. (Tam Metin) Tonta, Y., Bitirim, Y. ve Sever, H. Trke Arama Motorlarnda Performans Deerlendirme. (Performance Evaluation of Turkish Search Engines). Ankara: Total Biliim Ltd. ti., 2002. xvi, 152 s. (ISBN 975 92923-0-0). (Tam Metin) Konuyla ilgili makaleler
3

Deerlendirme
Ara Snav (%40) Final (%60)

Bilgi Toplumuna Giden Yol

G Sre (yl) Tarm Devrimi insan 1000 Sanayi Devrimi makine 300 Bilgi Devrimi bilgi 100
Toffler (1981)
5

Bilginin Deien Rol


Tarm Toplumunda bilgi sorun zmede yardmc olan kritik bir girdi idi Sanayi Toplumunda ticari bir rn, en temel ekonomik kaynak, kalknmann can damar haline gelen bilgi zmn kendisi oldu. Bilgi Toplumunda ise yaratlabilecek, iletilebilecek, depolanabilecek snrsz bilgi giderek bir sorun haline gelmeye balad.
(http://discovery.cofc.edu/about.html).
6

Bilgi Teknolojisi Dnyay Nasl Deitiriyor?

Eli, aygttan aygta a balants Her aygt ve uygulamada kesin yerel mekan bilgisi de gml Mobil cihazlarla bilgiye zaman ve makandan bamsz eriim salanabiliyor

Source: Gage, 2002


7

Bilgi . . .
Bilgi depolama ortamlar
beyin, kltrel birikim, d ortamlar

Bilgi iletim ortam


datk alar: 14 saniyede Kongre Ktphanesinin ieriini bir yerden bir yere iletmek mmkn

Bilgi ileme ortamlar


beyin, bilgisayarlar, insanlardan daha akll makineler, yapay beyin
8

Depolama Maliyetleri
Depolama Fiyatlar (1992-2023) 1.000.000,0 100.000,0 10.000,0
Maliyet (USD)

Fiyatlar her yl %45 dyor

1 Gigabyte (USD) 1 Terabyte (USD)

1.000,0 100,0 10,0 1,0 0,1 0,0

421 USD

0,42 USD

19 92 19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 20 08 20 09 20 10 20 11 20 12 20 13 20 14 20 15 20 16 20 17 20 18 20 19 20 20 20 21 20 22 20 23
Yl
Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf

10

letim Maliyetleri

2010 8 Mbps = $19 1 Mbps = $2,4

Kaynak: ULAKBM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml)

11

Bilgi Patlamas - 2002


5 Exabyte (5 x 1018 byte)
2002de dnyada retilen yeni bilgi miktar (5 x 1018 byte)

5 Exabytelk bilgi = 37,000 yeni Kongre Ktphanesi! Yzey webde yaklak 100 milyar belge var (1670 Terabyte) var Derin webde 550 milyar belge var(d) (91857 Terabyte)
Kaynak: BrightPlanet & Lyman and Varian
12

Bir Exabyte (EB) ne kadar byk?


1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page.

Kilobyte (KB)

100 Kilobytes: A low-resolution photograph.

1,000,000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound.

100 Megabytes: 1 meter of shelved books.

Megabyte (MB)

500 Megabytes: A CD-ROM.

1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven.

Gigabyte (GB)

100 Gigabytes: A library floor of academic journals.

1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress.

Terabyte (TB)

400 Terabytes: National Climactic Data Center (NOAA) database.

1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries.

Petabyte (PB)

20 Petabytes: Production of hard-disk drives in 1995.


200 Petabytes: All printed material.

1,000,000,000,000,000,000 bytes OR 1018 bytes

Exabyte (EB)

2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings.
Kaynak: How much information 2003, Tablo 1.1

13

Bilgi Art
Tablo 1. 2002de dnyada retilen zgn dijital bilgi retimi. yimser tahminlerde bilginin dijital olarak tarand varsayld, alt tahminlerde dijital ieriin sktrld varsayld.
Depolama ortam 2002 st tahmin (Terabyte olarak)
1,634 420,254 5187130 103 TOPLAM 5,609,121

2002 Alt tahmin (Terabyte olarak)


327 76,69 3,416,230 51 3,416,281

19992000 st tahmin

19992000 Alt tahmin

% Deiim st tahminler
%36 %-3 %87 %28 %74.5

Kt Film Manyetik Optik

1,200 431,690 2,779,760 81 3,212,731

240 58,209 2,073,760 29 2,132,238

Kaynak: Lyman ve Varian

14

Bilgi Miktar
5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin ieriine eit) ABDde her yl 80 milyar fotoraf ekiliyor 2 milyar rntgen filmi ekiliyor Gnde 610 milyar e-posta mesaj gnderiliyor Her yl 15 trilyon sayfa yazclardan kt alnyor

15

5 Exabayt 161 Exabayt

http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf

16

Depolama Kapasitesi

http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf

17

Web 2.0 Nedir?

Source: http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html 18

Web 2.0 Tanm


Yaratcl artrmay, bilgi paylamn ve en nemlisi kullanclar arasndaki ibirliini amalayan Web teknolojisi ve web tasarm. Sosyal a siteleri, wikiler, gnlkler (blogs) ve folksonomiler gibi Web tabanl topluluklarn ve barndrlan hizmetlerin gelimesi ve evrimlemesi
Kaynak: http://en.wikipedia.org/wiki/Web_2.0
19

Web 2.0 zellikleri


Platform olarak Web Kullanc katlm yoluyla ortak akl Dinamik ierik Paketlenmi yazlm yerine hizmetler Hafif programlama modelleri Web standartlar ve leklenebilirlik Zengin kullanc deneyimi

aklk zgrlk
Kaynak: OReilly (2005); http://en.wikipedia.org/wiki/Web_2.0
20

Dijital Vatandalk Testi


1. Bunu okuyabilir misiniz? kdz n colleG? ms em? U2 cn lrn txtN 2. Ipodunuz (ocuklarnz ya da torunlarnzn deil) var m?

3. Wii denediniz mi? En ok hangi oyunu beendiniz?

4. Akll telefon kullanyor musunuz (yani, e-posta, video, fotoraf zellikleri vatandala Gmenler olan )? Yerliler kabul Fosiller 5. Annda mesaj (IM) kullanyor musunuz? Blog kullanyor musunuz? edilenler Blogdan ne reniyorsunuz? 6. Lonely Girl 15in kim olduunu biliyor musunuz? 7. TV olmadan TV programlarn2-7 izlemek iin popler yol nerebilir 0-1 8-10 11-12 misiniz? 8. Hi Starbucksta WiFi kullandnz m?

Sonradan

9. Mashup sitelerinin nemini biliyor musunuz? Mash Up yarmasna katldnz m?


10. MID ne demektir? 11. Sharepoint mi yoksa Wiki mi daha fazla ibirlii olana salar? Aralarndaki fark nedir?
21

Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age
21

Dijital Yerliler
Bilgiye hzl eriim Paralel ileme Metin yerine grafik Rastgele eriim (hipermetin) Srekli a zerinde Oyunlar

22

Dijital Gmenler

23

Dijital Gmenler Dijital Yerliler rnei


Dijital gmen-dijital yerli spektrumunda neredesiniz?

Dijital Gmenler

E-posta/adi Balantl olmay varsayar ve gerektirir posta steklere cevap verirler kavramyla mcadele Gezgin Wiki sosyal yazlm kullanrlar halinde; veya bloglar hakknda hibir fikri yok Kablosuz resim ve TV telefonlar holanrlar? Annda balantllk

Webe bal tanabilir MP3 alar

Bilgiyi kiiselletirm ek iin Mashuplar kullanyor; Uygulamalar iin Pipes kullanyor Webi kiiselletirm ek iin RSS kullanyor

DYler niin Sosyal Alardan DYler niin Sosyal Bookmarklar kullanrlar?


Kablosuz Tamamen bal.. harital el tamamen dijital bilgisayarlar birden ok grevi yapabilir tamamen gezgin (veri, grnt, ses) ...Uzunalar/plak nedir bilmezler

Kablosuz telefon bilgisayar oluyor (Eposta, Web IM . Video Dijital Yerli vs)
24

Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 24

Bilgi kaynaklar + nsanlarn bilgi kaynaklaryla ve birbirleriyle ilikileri


Googlen misyonu dnyann ieriini dzenlemek, sosyal alarnki ise dnyann insanlarn Bilgi eriim artk sadece bilgi kaynaklar merkezli olmamal, insanlar arasndaki ilikilere de odaklanmal (kaynak merkezli iliki merkezli yaklam) (Lagoze, 2000) Kiiselletirme Tavsiye sistemleri Standart ierikle kullancnn yaratt ieriin birletirilmesi Web 3.0: Social semantic Web

25

Bilgi Eriim Tanm

bilgi toplama, snflama, kataloglama, depolama, byk miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi ksa srede retme (veya gsterme) teknii ve sreci
26

Bilgi Eriim Sorunu


Wells, World Encyclopedia (1936) Bush, As we may think, Atlantic Monthly, (1945)
Memex (memory expansion)

bilgi eriim (IR) teriminin ilk kez kullanm (Calvin Mooers, 1952) Otomatik dizinleme KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960lar) Mantksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- ) Olaslk modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektr uzay modeli (Gerard Salton, 1961) statistiksel arlklandrma (tf*idf, 1970ler) Dil modelleri (Ponte-Croft, 1998) Performans lmleri
Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster, Salton, Blair-Maron, Harman)
27

Bilgi Eriimin Entellektel Temelleri

Sistem felsefesi Bilim felsefesi Dil felsefesi

28

Dil Felsefesi ve Bilgi Eriim


Bilgi dzenleme ve bilgi eriim de dil kullanmnn zel bir tr Sistematik dizinleme (J. Otto Kaiser) Dilbilimsel yaplar
Szdaar Anlambilim Szdizimi

Kataloglama, snflama, dizinleme


29

Snflama Kuram
Snflama dile dayanyor Dil belirsizlikler ieriyor Kavramlar zerinde anlama salamak zor Domates meyve mi sebze mi? Alternatif tp hangi konuya girer?
Felsefe? Din? Salk ve tp?

30

Bilgi Eriimin Temel kilemi

Hakknda bilgi bulmak iin bilmediin bir eyi tanmlama gerei (Hjerrpe)

31

deal Bilgi Eriim Sistemi


Kullanc asndan bakldnda ideal bir bilgi eriim sisteminin: 1) Derlem zerindeki btn bilgi ya da belgeye eriim salamas, 2) Arama sonularnn ok hzl bir biimde sunmas, 3) Eriilen btn sonularn gncel olmas, 4) Arama sonucu eriilen btn belgelerin sorgu ile ilgili olmas, 5) Derlem zerinde sorgu ile ilgili btn ilgili belgelere eriilebilmesi, 6) Sorgu ile en ilgili belgelerin eriim ktsnda en stte daha az ilgililerin ise daha alt sralarda yer almas gereksinimlerini yerine getirmesi beklenir.

32

deal Bilgi Eriim Sistemi


Ancak pratikte, kullanclarn bilgi ihtiyalarn ifade etmek iin setikleri terimlerle belgelerdeki terimlerin eletirilmesi mant zerinde alan gnmz popler bilgi eriim sistemlerinin bu gereksinimlerin tamamn ya da pek ounu ayn anda yerine getirmesinin imkansz olduu sylenebilir.
Baka bir deyile, bir ya da iki arama kelimesi ile kullanclar bilgi eriim sistemlerinin mucize yaratmasn beklemektedirler.

33

deal Bilgi Eriim Sistemi


Pratikte ideal bilgi eriim sistemini gerekletirmek olanaksz gibi grnse de, kullanc gereksinimlerini mmkn olduunca fazla karlayacak sistemlerin gelitirilmesi iin youn almalar yaplyor. Bunlardan bazlar: Farkl bilgi eriim sistemlerinin birletirilmesi (meta search), Kiiselletirilmi arama (personalized search), Anlamsal arama (semantic search), Web 3.0, Doal dil ileme aralarnn kullanlmas (Natural Language Processing) ve farkl diller iin yerelletirmeler Soru yantlama sistemleri (question answering) http://www.answers.com what is the capital of turkey? oklu ortam bilgi eriim sistemleri (multimedia retrieval) Konu tespit ve takip sistemleri (topic detection and tracking)

34

Bilgiye Eriim ve Veriye Eriim Arasndaki Fark

Bilgiye Eriim

Veriye Eriim

35

Bilgi Eriim Sistemleri levsel Mimarisi


n yz

arka yz

Bir bilgi eriim sisteminin temel bileenleri: 1. Bir belge derlemi (ya da bu belgeleri temsil eden ierik belirtelerini ieren tutanaklar), 2. Kullanclarn sorgu cmleleri, 3. Kullanclarn sorgu cmlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karlatrarak ilgili belgeleri belirlemek iin kullanlan bir eriim kural

n yz

(Tonta, Bitirim, ve Sever, 2002)


36

Bilgi Eriim Sistemleri levsel Mimarisi


Bilgi ihtiyac (veya kullanc sorgusu): Bilgi ihtiyac bir dz metinle (doal dille) ifade edilebilecei gibi dizin terimleri ve aralarndaki ilikiler ("ve", "veya", "ve-deil", "ise/eer", vb.) erevesinde de tanmlanabilir.

Eriim kts: Eldeki sorgu ifadesinin belgeler ile eletirilmesiyle oluturulur. Yani sistemin, belge derlemi (koleksiyonu) iinde sunulan sorgu ifadesi ile ilgili olduunu "dnd" belgeleri toplad havuza (ya da kmeye) eriim kts adn vermekteyiz. Eriim ktsndaki belgeler kullanc bilgi ihtiyacna yaknlk derecesine gre azalan srada sralanrlar.
Geri Bildirim: Sistem tarafndan dndrlen belge ktsnn kullancnn bilgi ihtiyacn karlamaktan uzak olduu durumlarda, kullanc geribildirim srecini balatarak daha kaliteli bir belge kts elde etmek isteyebilir.

37

Bilgiye Eriim Sreci

(Baeza-Yates ve Ribiero-Neto, 1999)


38

Belge Eriim Sisteminin Mantksal Dzenlemesi


Belgeler Kullanclar

Dizinleme

Gm Szlk

Sorgu formlasyonu

Dizin tutanaklar

Eriim kural

Formel sorgu cmlesi

Kaynak: Maron, 1984

39

Web in rnek Bilgi Eriim Mimarisi

40

erik Terimleri ve Belge Gsterimi

(Diner, 2004)

41

erik Terimleri ve Belge Gsterimi

(Baeza-Yates ve Ribiero-Neto, 1999)

42

Dze Metin Olmayan Belgelerde Durum Nedir?


Dz Metin (Plain Text): Dosya ierisinde karakterler yazldklar biimde (ASCII) olarak saklanrlar (*.txt). Dier Metin Biimleri: Karakterler dosya ierisinde zel bir biimde (format) tutulur. Bu tr verileri okumak iin zel uygulamalar gerekir. doc Word pdf Acrobat Reader xls Microsoft Excel ppt Microsoft Powerpoint Dz metin olmayan belgelerin dizinlenebilmesi iin dz metne evrilmesi gerekir (pars).
43

Dze Metin Olmayan Belgelerde Durum Nedir?

44

Metin n leme Nedir?

Belge dz metne evrilir, Metin ierisindeki tm noktalama ve zel iaretler karlr, Metin ierisindeki btn harfler kk harfe evrilir, Birden fazla olan boluklar atlr ve kelimeler ayklanr

45

Trke Durma Kelimeleri (Stop Words) Listesi

46

ngilizce Durma Kelimeleri Listesi

47

Durma Kelimeleri Listesi Nasl Oluturulur?


Elimizde bulunan 1000 adet belgeden kelimelerin kullanlma sklklar ile ilgili bir istatistik karlm. Buna gre baz kelimelerin sklklar u ekildedir: Ve 2542 adet Veya 2030 adet Bakent 1200 adet Ankara 950 adet Bilgisayar 12 adet Algoritma 3 adet

Durma kelimeleri neler olabilir?

48

Durma Kelimeleri Listesi Nasl Oluturulur?


Snrl alanlarda allyor ise alana zel durma kelimelerinin belirlenmesi gerekir. rnein, derlem bilgisayar grafii ile ilgili makalelerden oluuyorsa bilgisayar ve grafik gibi kelimelerin ayrt edici zellii yoktur. Eer derlem ok byk ise (nternet gibi) dil iin durma kelimeleri listesi elde edilmelidir.

49

Durma Kelimeleri Listesi Nasl Oluturulur?

X ekseni: tekil kelimeler Y ekseni: kelimenin getii dokman says

Hangi kelimeler durma kelimeleridir? (%80 kural)


50

Gvdeleme (stemming)
Kk: Kelimenin her trl ek (yapm ve ekim) karldktan sonra kalan anlaml blmdr. Kelime: yaptrmak Kk: yap Gvde: sim ve fiil kklerinden yapm ekleriyle tretilmi kelime. Kelime: Evli (ev-li), sevdirmek (sev-dir-mek).

51

Gvdeleme (stemming)
Gvdeleme: Belge ierisindeki ierik belirtelerinde (ya da kelimelerde) yapm eklerinin tutulup, ekim eklerinin karlmas anlamna gelir. erik belirtelerinde gvdeleme yaplmas sorgular ve belgeler arasndaki kesime olasln artrd iin bilgi eriimde baarma olumlu etkisi olduu dnlmektedir. rnein, 3 farkl belgede geen 3 kelime: D1 numarama, D2 numaras, D3 numaram olsun. Eer sorgu olarak numara kelimesi yollanrsa BES 3 dokman da eletiremez Gvdeleme yaplmas durumunda: D1 numara D2 numara D3 numara Sorgu numara
52

Gvdeleme (stemming) nasl yaplr?


Szlk tabanl yntemler Ek atma tabanl yntemler

53

You might also like