Harliyus Agustian t2 PKB

TUGAS PENALARAN KOMPUTER
Dosen Pengampu : Dra. Sri Hartati, M.Sc, Ph.D

Disusun Oleh :

Harliyus Agustian ( 13/356436/PPA/04409 )

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
PROGRAM S2 ILMU KOMPUTER
UNIVERSITAS GADJAH MADA
YOGYAKARTA
2014

Model Ruang Vektor
Pada sistem IR(I nformation Retrieval) [10], kemiripan antar dokumen didefinisikan berdasarkan
representasi bagof-words dan dikonversi ke suatu model ruang vektor (vector space model, VSM).
Model ini diperkenalkan oleh Salton [7] dan telah digunakan secara luas. Pada VSM, setiap dokumen
di dalam database dan query pengguna direpresentasikan oleh suatu vektor multi-dimensi [7, 8].
Dimensi sesuai dengan jumlah term dalam dokumen yang terlibat.
Pada model ini:
Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah
preprocessing dan mengandung t term index. Term-term ini membentuk suatu ruang vektor.
Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai real wij.
Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (w1, w2, ..., wtj) dan terdapat n
dokumen di dalam koleksi, yaitu j = 1, 2, ..., n.
Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan D2, satu query
pengguna Q1, dan tiga term T1, T2 dan T3 diperlihatkan pada gambar II.

Gambar 1. Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q1 [7]

Gambar II. Contoh matriks term-document untuk database dengan n dokumen dan t Term

Ukuran Kemiripan
Banyak terdapat model perhitungan similaritas yang dapat diterapkan. Namun, dalam tulisan ini,
akan dibahas beberapa model perhitungan similaritas yang sederhana dan sering digunakan, yaitu: Jaccard
index, Dice's coefficient, dan Cosine coefficient.
1. JACCARD SIMILARITY INDEX
Metode Jaccard Index atau Jaccard Similarity Coefficient diperkenalkan oleh Paul Jaccard, pada
tahun 1901. Metode ini menghitung kemiripan antara 2 set. Berikut adalah rumus Jaccard Index
[2] [5].
, =

=

+

Keterangan:
J(D,Q) : nilai similaritas antara set D dan set Q
|DQ| : banyaknya elemen yang sama antara set D dan set Q.
Elemen yang sama yang dimaksud adalah elemen yang terdapat baik pada set D
maupun pada set Q.
|DQ| : banyak seluruh elemen yang ada pada set D dan set Q
|D| : banyak elemen yang terdapat pada set D
|Q| : banyak elemen yang terdapat pada set Q

Maka : berdasarkan gambar II

, =
(
.

)
=1

2
=1
+
2
=1
(
.

)
=1

2. COSINE SIMILARITY INDEX
Cosine similarity adalah ukuran berbasis vektor kesamaan dari dua string [4]. Cosine Similarity
juga bisa disebut sebagai metrik kesamaan yang dapat digunakan untuk mengukur kesamaan
dua dokumen teks [6]. Dokumen dapat diwakili oleh vektor dimana setiap atribut mewakili
frekuensi sebuah kata yang muncul dalam dokumen. Ide dasar di balik cosine similarity adalah
untuk mengubah setiap string menjadi vektor di beberapa ruang dimensi tinggi sehingga string
yang sama dekat satu sama lain. Cosinus dari sudut antara dua vektor adalah ukuran seberapa
"mirip" mereka, yang pada gilirannya, adalah ukuran kesamaan string ini. Jika vektor adalah
satuan panjang, cosinus dari sudut antara mereka hanyalah dot product dari vektor.
Jika terdapat dua vektor dokumen D
j
dan query Q, serta t term diekstrak dari koleksi dokumen
maka nilai cosinus antara Dj dan Q didefinisikan sebagai :
, =
.
.

Keterangan:
D : vektor D
Q : vektor Q
|D| : besar dari vektor D
|Q| : besar dari vektor Q


, =
(
.

)
=1

2
=1
.
2
=1

3. DISE SIMILARITY INDEX
Dices coefficient yang dikenal juga dengan sebutan SrensenDice index merupakan metode
yang digunakan untuk membandingkan tingkat similaritas dari dua objek. Metode ini
dipublikasikan oleh Srensen dan Lee Raymond Dice pada 1948 dan 1945 secara berturut-turut
[3]. Rumus ini memiliki kesamaan dengan rumus Jaccard. Namun, perbedaannya terletak pada
adanya pencocokan dua kali pada rumus Dices coefficient. Berikut adalah rumus Dices
coefficient.
, =
2
+

Keterangan:
SD(D,Q) : nilai similaritas antara set D dan set Q dengan Dices coefficient
|DQ| : banyaknya elemen yang sama antara set D dan set Q.
Elemen yang sama yang dimaksud adalah elemen yang terdapat baik pada set D
maupun pada set Q.
|D| : banyak elemen yang terdapat pada set D
|Q| : banyak elemen yang terdapat pada set Q


, =
2 (
.

)
=1

2
=1
+
2
=1

Contoh:
Jika dua dokumen D1 = 2T1 + 6T2 + 5T3 dan D2 = 5T1 + 5T2 + 2T3 dan query Q1 = 0T1 +
0T2 + 2T3 sebagaimana diperlihatkan pada gambar II,

berikut ini adalah nilai cosine yang diperoleh:
1
,
1
=
(2.0 +6.0 +5.2 )
4 +36 +25 . (0 +0 +4)
=
10
65 .4
= 0.62

2
,
1
=
(5.0 +5.0 +2.2 )
25 +25 +4 . (0 +0 +4)
=
4
54 .4
= 0.27
Contoh di atas memperlihatkan bahwa sesuai dengan perhitungan cosinus, dokumen D1
lebih mirip dengan query daripada dokumen D2. Terlihat sudut antara D1 dan Q1 lebih
kecil daripada sudut antara D2 dan Q1.

berikut ini adalah nilai jaccard yang diperoleh:
1
,
1
=
2.0 +6.0 +5.2
4 +36 +25 +0 +0 +4 2.0 +6.0 +5.2
=
10
(65 + 4) 10
=
10
59
= 0.17

2
,
1
=
5.0 +5.0 +2.2
25 + 25 +4 +0 +0 +4 5.0 +5.0 +2.2
=
4
(54 + 4) 4
=
4
54
= 0.74
Pada jaccard dokumen D2 lebih mirip dengan query daripada dokumen D1.

berikut ini adalah nilai dice yang diperoleh:

1
,
1
=
2 2.0 +6.0 +5.2
4 +36 +25 +0 +0 +4
=
2 10
65 +4
=
20
69
= 0.29

2
,
1
=
2 5.0 +5.0 +2.2
25 +25 +4 +0 +0 +4
=
2 4
54 +4
=
8
58
= 0.14

Pada dice dokumen D1 lebih mirip dengan query daripada dokumen D2.
Daftar Pustaka
[1] Pal, K. Sankar & Shiu, Simon C. K, Foundations of Soft Case-based Reasoning, Wiley & Sons, Inc, New Jersey, 2004
[2] http://en.wikipedia.org/wiki/Jaccard_index diakses pada tanggal 14 April 2014
[3] http://en.wikipedia.org/wiki/Dice%27s_coefficient diakses pada tanggal 14 April 2014
[4] Tata, Sandeep, Patel M, Jignesh (2007) Estimating he Selectivity of tf-idf based Cosine Similarity Predicates, Sigmod
Record December 2007 Vol 36 No. 4
[6] http://mines.humanoriented.com/classes/2010/fall/csci568/portfolio_exports/bfindley/similarity.html
[5] http://journal.uii.ac.id/index.php/media-informatika/article/viewFile/26/22 diakses pada tanggal 14 April 2014
[7] Cios, Krzysztof J. Etc. (2007) Data Mining A Knowledge Discovery Approach, Springer
[8] Salton, Gerard (1983) Introduction to Modern Information Retrieval, McGraw Hill
[9] Polettini, Nicola (2004) The Vector Space Model in Information Retrieval Term Weighting Problem
[10] Husni, IR dan Klasifikasi, diktat kuliah, Teknik Informatika Universitas Trunojoyo

Harliyus Agustian t2 PKB

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Harliyus Agustian t2 PKB

Uploaded by

Copyright:

Available Formats

TUGAS PENALARAN KOMPUTER

Dosen Pengampu : Dra. Sri Hartati, M.Sc, Ph.D

You might also like