Professional Documents
Culture Documents
, =
(
.
)
=1
2
=1
+
2
=1
(
.
)
=1
2. COSINE SIMILARITY INDEX
Cosine similarity adalah ukuran berbasis vektor kesamaan dari dua string [4]. Cosine Similarity
juga bisa disebut sebagai metrik kesamaan yang dapat digunakan untuk mengukur kesamaan
dua dokumen teks [6]. Dokumen dapat diwakili oleh vektor dimana setiap atribut mewakili
frekuensi sebuah kata yang muncul dalam dokumen. Ide dasar di balik cosine similarity adalah
untuk mengubah setiap string menjadi vektor di beberapa ruang dimensi tinggi sehingga string
yang sama dekat satu sama lain. Cosinus dari sudut antara dua vektor adalah ukuran seberapa
"mirip" mereka, yang pada gilirannya, adalah ukuran kesamaan string ini. Jika vektor adalah
satuan panjang, cosinus dari sudut antara mereka hanyalah dot product dari vektor.
Jika terdapat dua vektor dokumen D
j
dan query Q, serta t term diekstrak dari koleksi dokumen
maka nilai cosinus antara Dj dan Q didefinisikan sebagai :
, =
.
.
Keterangan:
D : vektor D
Q : vektor Q
|D| : besar dari vektor D
|Q| : besar dari vektor Q
Maka : berdasarkan gambar II
, =
(
.
)
=1
2
=1
.
2
=1
3. DISE SIMILARITY INDEX
Dices coefficient yang dikenal juga dengan sebutan SrensenDice index merupakan metode
yang digunakan untuk membandingkan tingkat similaritas dari dua objek. Metode ini
dipublikasikan oleh Srensen dan Lee Raymond Dice pada 1948 dan 1945 secara berturut-turut
[3]. Rumus ini memiliki kesamaan dengan rumus Jaccard. Namun, perbedaannya terletak pada
adanya pencocokan dua kali pada rumus Dices coefficient. Berikut adalah rumus Dices
coefficient.
, =
2
+
Keterangan:
SD(D,Q) : nilai similaritas antara set D dan set Q dengan Dices coefficient
|DQ| : banyaknya elemen yang sama antara set D dan set Q.
Elemen yang sama yang dimaksud adalah elemen yang terdapat baik pada set D
maupun pada set Q.
|D| : banyak elemen yang terdapat pada set D
|Q| : banyak elemen yang terdapat pada set Q
Maka : berdasarkan gambar II
, =
2 (
.
)
=1
2
=1
+
2
=1
Contoh:
Jika dua dokumen D1 = 2T1 + 6T2 + 5T3 dan D2 = 5T1 + 5T2 + 2T3 dan query Q1 = 0T1 +
0T2 + 2T3 sebagaimana diperlihatkan pada gambar II,
berikut ini adalah nilai cosine yang diperoleh:
1
,
1
=
(2.0 +6.0 +5.2 )
4 +36 +25 . (0 +0 +4)
=
10
65 .4
= 0.62
2
,
1
=
(5.0 +5.0 +2.2 )
25 +25 +4 . (0 +0 +4)
=
4
54 .4
= 0.27
Contoh di atas memperlihatkan bahwa sesuai dengan perhitungan cosinus, dokumen D1
lebih mirip dengan query daripada dokumen D2. Terlihat sudut antara D1 dan Q1 lebih
kecil daripada sudut antara D2 dan Q1.
berikut ini adalah nilai jaccard yang diperoleh:
1
,
1
=
2.0 +6.0 +5.2
4 +36 +25 +0 +0 +4 2.0 +6.0 +5.2
=
10
(65 + 4) 10
=
10
59
= 0.17
2
,
1
=
5.0 +5.0 +2.2
25 + 25 +4 +0 +0 +4 5.0 +5.0 +2.2
=
4
(54 + 4) 4
=
4
54
= 0.74
Pada jaccard dokumen D2 lebih mirip dengan query daripada dokumen D1.
berikut ini adalah nilai dice yang diperoleh:
1
,
1
=
2 2.0 +6.0 +5.2
4 +36 +25 +0 +0 +4
=
2 10
65 +4
=
20
69
= 0.29
2
,
1
=
2 5.0 +5.0 +2.2
25 +25 +4 +0 +0 +4
=
2 4
54 +4
=
8
58
= 0.14
Pada dice dokumen D1 lebih mirip dengan query daripada dokumen D2.
Daftar Pustaka
[1] Pal, K. Sankar & Shiu, Simon C. K, Foundations of Soft Case-based Reasoning, Wiley & Sons, Inc, New Jersey, 2004
[2] http://en.wikipedia.org/wiki/Jaccard_index diakses pada tanggal 14 April 2014
[3] http://en.wikipedia.org/wiki/Dice%27s_coefficient diakses pada tanggal 14 April 2014
[4] Tata, Sandeep, Patel M, Jignesh (2007) Estimating he Selectivity of tf-idf based Cosine Similarity Predicates, Sigmod
Record December 2007 Vol 36 No. 4
[6] http://mines.humanoriented.com/classes/2010/fall/csci568/portfolio_exports/bfindley/similarity.html
[5] http://journal.uii.ac.id/index.php/media-informatika/article/viewFile/26/22 diakses pada tanggal 14 April 2014
[7] Cios, Krzysztof J. Etc. (2007) Data Mining A Knowledge Discovery Approach, Springer
[8] Salton, Gerard (1983) Introduction to Modern Information Retrieval, McGraw Hill
[9] Polettini, Nicola (2004) The Vector Space Model in Information Retrieval Term Weighting Problem
[10] Husni, IR dan Klasifikasi, diktat kuliah, Teknik Informatika Universitas Trunojoyo