Professional Documents
Culture Documents
Gven KSE
Hacettepe niversitesi gkose@hacettepe.edu.tr yunus.hacettepe.edu.tr/~gkose/
Ders Plan
Giri, Bilgi Eriimin Tarihesi Bilgi Eriim Sorunu ve Kavramlar Bilgi Eriim Sistemlerinin Bileenleri:erik Belirteleri, Belgeler, Sorgular Eriim Fonksiyonlar: Boolean Model, Vektr Uzay Modeli, Dil Modeli Bilgi Eriim Sistemlerinde Etkinlik ve Performans Deerlendirme Arama Motorlar ve Bilgiye Eriim Arama Motorlarnda Web Tarama ve Dizinleme lemleri Link Analizi lgililik Geri Bildirimi Sorgu Geniletme Teknikleri Gizli Anlam Dizinleme ve Ontolojiler
Deerlendirme
Ara Snav (%40) Final (%60)
G Sre (yl) Tarm Devrimi insan 1000 Sanayi Devrimi makine 300 Bilgi Devrimi bilgi 100
Toffler (1981)
5
Eli, aygttan aygta a balants Her aygt ve uygulamada kesin yerel mekan bilgisi de gml Mobil cihazlarla bilgiye zaman ve makandan bamsz eriim salanabiliyor
Bilgi . . .
Bilgi depolama ortamlar
beyin, kltrel birikim, d ortamlar
Depolama Maliyetleri
Depolama Fiyatlar (1992-2023) 1.000.000,0 100.000,0 10.000,0
Maliyet (USD)
421 USD
0,42 USD
19 92 19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 20 08 20 09 20 10 20 11 20 12 20 13 20 14 20 15 20 16 20 17 20 18 20 19 20 20 20 21 20 22 20 23
Yl
Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf
10
letim Maliyetleri
11
5 Exabytelk bilgi = 37,000 yeni Kongre Ktphanesi! Yzey webde yaklak 100 milyar belge var (1670 Terabyte) var Derin webde 550 milyar belge var(d) (91857 Terabyte)
Kaynak: BrightPlanet & Lyman and Varian
12
Kilobyte (KB)
1,000,000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound.
Megabyte (MB)
1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven.
Gigabyte (GB)
1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress.
Terabyte (TB)
1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries.
Petabyte (PB)
Exabyte (EB)
2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings.
Kaynak: How much information 2003, Tablo 1.1
13
Bilgi Art
Tablo 1. 2002de dnyada retilen zgn dijital bilgi retimi. yimser tahminlerde bilginin dijital olarak tarand varsayld, alt tahminlerde dijital ieriin sktrld varsayld.
Depolama ortam 2002 st tahmin (Terabyte olarak)
1,634 420,254 5187130 103 TOPLAM 5,609,121
19992000 st tahmin
% Deiim st tahminler
%36 %-3 %87 %28 %74.5
14
Bilgi Miktar
5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin ieriine eit) ABDde her yl 80 milyar fotoraf ekiliyor 2 milyar rntgen filmi ekiliyor Gnde 610 milyar e-posta mesaj gnderiliyor Her yl 15 trilyon sayfa yazclardan kt alnyor
15
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
16
Depolama Kapasitesi
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
17
Source: http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html 18
aklk zgrlk
Kaynak: OReilly (2005); http://en.wikipedia.org/wiki/Web_2.0
20
4. Akll telefon kullanyor musunuz (yani, e-posta, video, fotoraf zellikleri vatandala Gmenler olan )? Yerliler kabul Fosiller 5. Annda mesaj (IM) kullanyor musunuz? Blog kullanyor musunuz? edilenler Blogdan ne reniyorsunuz? 6. Lonely Girl 15in kim olduunu biliyor musunuz? 7. TV olmadan TV programlarn2-7 izlemek iin popler yol nerebilir 0-1 8-10 11-12 misiniz? 8. Hi Starbucksta WiFi kullandnz m?
Sonradan
Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age
21
Dijital Yerliler
Bilgiye hzl eriim Paralel ileme Metin yerine grafik Rastgele eriim (hipermetin) Srekli a zerinde Oyunlar
22
Dijital Gmenler
23
Dijital Gmenler
E-posta/adi Balantl olmay varsayar ve gerektirir posta steklere cevap verirler kavramyla mcadele Gezgin Wiki sosyal yazlm kullanrlar halinde; veya bloglar hakknda hibir fikri yok Kablosuz resim ve TV telefonlar holanrlar? Annda balantllk
Bilgiyi kiiselletirm ek iin Mashuplar kullanyor; Uygulamalar iin Pipes kullanyor Webi kiiselletirm ek iin RSS kullanyor
Kablosuz telefon bilgisayar oluyor (Eposta, Web IM . Video Dijital Yerli vs)
24
Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 24
25
bilgi toplama, snflama, kataloglama, depolama, byk miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi ksa srede retme (veya gsterme) teknii ve sreci
26
bilgi eriim (IR) teriminin ilk kez kullanm (Calvin Mooers, 1952) Otomatik dizinleme KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960lar) Mantksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- ) Olaslk modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektr uzay modeli (Gerard Salton, 1961) statistiksel arlklandrma (tf*idf, 1970ler) Dil modelleri (Ponte-Croft, 1998) Performans lmleri
Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster, Salton, Blair-Maron, Harman)
27
28
Snflama Kuram
Snflama dile dayanyor Dil belirsizlikler ieriyor Kavramlar zerinde anlama salamak zor Domates meyve mi sebze mi? Alternatif tp hangi konuya girer?
Felsefe? Din? Salk ve tp?
30
Hakknda bilgi bulmak iin bilmediin bir eyi tanmlama gerei (Hjerrpe)
31
32
33
34
Bilgiye Eriim
Veriye Eriim
35
arka yz
Bir bilgi eriim sisteminin temel bileenleri: 1. Bir belge derlemi (ya da bu belgeleri temsil eden ierik belirtelerini ieren tutanaklar), 2. Kullanclarn sorgu cmleleri, 3. Kullanclarn sorgu cmlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karlatrarak ilgili belgeleri belirlemek iin kullanlan bir eriim kural
n yz
Eriim kts: Eldeki sorgu ifadesinin belgeler ile eletirilmesiyle oluturulur. Yani sistemin, belge derlemi (koleksiyonu) iinde sunulan sorgu ifadesi ile ilgili olduunu "dnd" belgeleri toplad havuza (ya da kmeye) eriim kts adn vermekteyiz. Eriim ktsndaki belgeler kullanc bilgi ihtiyacna yaknlk derecesine gre azalan srada sralanrlar.
Geri Bildirim: Sistem tarafndan dndrlen belge ktsnn kullancnn bilgi ihtiyacn karlamaktan uzak olduu durumlarda, kullanc geribildirim srecini balatarak daha kaliteli bir belge kts elde etmek isteyebilir.
37
Dizinleme
Gm Szlk
Sorgu formlasyonu
Dizin tutanaklar
Eriim kural
39
40
(Diner, 2004)
41
42
44
Belge dz metne evrilir, Metin ierisindeki tm noktalama ve zel iaretler karlr, Metin ierisindeki btn harfler kk harfe evrilir, Birden fazla olan boluklar atlr ve kelimeler ayklanr
45
46
47
48
49
Gvdeleme (stemming)
Kk: Kelimenin her trl ek (yapm ve ekim) karldktan sonra kalan anlaml blmdr. Kelime: yaptrmak Kk: yap Gvde: sim ve fiil kklerinden yapm ekleriyle tretilmi kelime. Kelime: Evli (ev-li), sevdirmek (sev-dir-mek).
51
Gvdeleme (stemming)
Gvdeleme: Belge ierisindeki ierik belirtelerinde (ya da kelimelerde) yapm eklerinin tutulup, ekim eklerinin karlmas anlamna gelir. erik belirtelerinde gvdeleme yaplmas sorgular ve belgeler arasndaki kesime olasln artrd iin bilgi eriimde baarma olumlu etkisi olduu dnlmektedir. rnein, 3 farkl belgede geen 3 kelime: D1 numarama, D2 numaras, D3 numaram olsun. Eer sorgu olarak numara kelimesi yollanrsa BES 3 dokman da eletiremez Gvdeleme yaplmas durumunda: D1 numara D2 numara D3 numara Sorgu numara
52
53