Professional Documents
Culture Documents
CLUSTERING
1. PENDAHULUAN
Terdapat dua pendekatan dalam metode ini diantaranya adalah Hierarchical dan
Partitioning. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical
clustering merupakan pengelompokkan data dengan membuat suatu hirarki berupa
dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang
tidak pada hirarki yang berjauhan. Sedangkan Clustering dengan pendekatan partisi atau
sering disebut dengan partition-based clustering merupakan pengelompokkan data dengan
memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada.
2. PEMBAHASAN
Dengan mj adalah pusat kluster (mean vector) dalam kluster ke j. Proses dimulai dengan
mula-mula memilih secara random k buah dokumen sebagai pusat kluster awal.
Pada tahap awal, algoritma k-means memilih secara acak k buah data sebagai centroid.
Kemudian, jarak antara data dan centroid dihitung menggunakan Euclidian distance. Data
ditempatkan dalam cluster yang terdekat, dihitung dari titik tengah cluster. Centroid baru akan
ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan
centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen
(centroid dari semua cluster tidak berubah lagi). Data clustering menggunakan metode K-
Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut[5]:
2. Menentukan jumlah cluster. Sebagai contoh, jika terdapat 10.000 baris data di dalam
dataset dan 3 cluster perlu dibentuk, maka K=3 cluster awal pertama akan dibuat
dengan mengambil 3 record secara random dari dataset, sebagai cluster permulaan.
Setiap cluster awal yang dibentuk tersebut mempunyai hanya satu record data.
3. Setiap cluster yang terbentuk akan dihitung nilai rata-ratanya. Rata-rata dari suatu
cluster adalah rata-rata dari semua record yang terdapat di dalam cluster tersebut.
Ada dua cara pengalokasian data kembali ke dalam masing-masing cluster pada saat
proses iterasi (perulangan) clustering. Kedua cara tersebut adalah Hard K-means[5] dan Fuzzy
K-means[4,6,7]. Perbedaan kedua metode ini terletak pada asumsi yang dipakai sebagai dasar
pengalokasian.
Hard K-Means
Dalam metode ini pengalokasian data ke dalam masing-masing cluster didasarkan pada
perbandingan jarak antara data dengan centroid setiap cluster yang ada. Data dimasukkan
kedalam cluster yang terdekat dengan centroid. Pengalokasian ini dapat dirumuskan sebagai
berikut[5]:
Fuzzy K-means
Membership function untuk suatu data ke suatu cluster tertentu dihitung menggunakan rumus
sebagai berikut[4,6,7]:
m : Weighting Exponent
Beberapa permasalahan yang sering muncul pada saat menggunakan metode K-Means untuk
melakukan pengelompokan data adalah:
4. Pendeteksian outliers
6. Masalah overlapping
Hal-hal diatas perlu diperhatikan pada saat penggunaan K-means. Permasalahan pertama
umumnya disebabkan oleh perbedaan proses inisialisasi anggota masing-masing cluster.
Proses initialisasi yang sering digunakan adalah proses inisialisasi secara random. Dalam
suatu studi perbandingan[13], proses inisialisasi secara random mempunyai kecenderungan
untuk memberikan hasil yang lebih baik, walaupun dari segi kecepatan untuk converge
terbilang lebih lambat.
Permasalahan kedua merupakan masalah yang sering terjadi dalam metode K-Means.
Beberapa pendekatan telah digunakan dalam menentukan jumlah cluster yang paling tepat
untuk suatu dataset yang dianalisa termasuk di antaranya Partition Entropy (PE)[4] dan GAP
Statistics[10].
Permasalahan ketiga adalah kegagalan untuk converge, yang secara teori memungkinkan
untuk terjadi dalam kedua metode K-Means (Hard K-means dan Fuzzy K-means).
Kemungkinan ini akan semakin besar terjadi untuk metode Hard K-Means, karena setiap data
di dalam dataset dialokasikan secara tegas (hard) untuk menjadi bagian dari suatu cluster
tertentu. Perpindahan suatu data ke suatu cluster tertentu dapat mengubah karakteristik model
clustering sehingga dapat menyebabkan data yang telah dipindahkan tersebut lebih sesuai
untuk berada di cluster semula sebelum data tersebut dipindahkan. Demikian juga dengan
keadaan sebaliknya. Kejadian seperti ini akan mengakibatkan pemodelan tidak akan berhenti
dan kegagalan untuk converge akan terjadi. Namun, permasalahan tersebut kemungkinan
untuk terjadi padaFuzzy K-Means sangatlah kecil, karena setiap data dilengkapi dengan
membership function (Fuzzy K-Means) untuk menjadi anggota cluster yang ditemukan.
Permasalahan kelima adalah menyangkut bentuk cluster yang ditemukan. Berbeda dengan
metode data clustering lainnya, K-means umumnya tidak mengindahkan bentuk dari masing-
masing cluster yang mendasari model yang terbentuk, walaupun secara natural masing-
masing cluster umumnya berbentuk bundar[1].
Masalah overlapping merupakan masalah yang sering diabaikan karena pada umumnya
masalah ini sulit terdeteksi. Hal ini terjadi terutama untuk metode Hard K-Means dan Fuzzy
K-Means, karena secara teori, kedua metode ini tidak diperlengkapi feature untuk mendeteksi
apakah di dalam suatu cluster ada cluster lain yang kemungkinan tersembunyi.
Beberapa dataset yang mempunyai bentuk tertentu memerlukan suatu metode pemecahan
khusus yang disesuaikan dengan keadaan data tersebut.
3. KESIMPULAN
Salah satu teknik yang digunakan dalam clustering adalah dengan menggunakan algoritma
k-means. Namun, algoritma k-means hanya bisa digunakan untuk dataset yang atributnya
bernilai numerik. Padahal dalam kenyataannya ,suatu database dapat terdiri dari data-data
yang bernilai numerik maupun non-numerik. Selain itu K-means memiliki kelemahan dalam
penentuan titik pusat inisial klaster yang dilakukan secara random. Pada saat pembangkitan
awal titik pusat yang random tersebut mendekati solusi akhir pusat klaster, K-Means
mempunyai posibilitas yang tinggi untuk menemukan titik pusat klaster yang tepat.
Sebaliknya, jika awal titik pusat tersebut jauh dari solusi akhir pusat klaster, maka
kemungkinan besar hal ini menyebabkan hasil pengklasteran yang tidak tepat. Akibatnya K-
Means tidak menjamin hasil pengklasteran yang unik. Hal ini yang menyebabkan metode K-
Means sulit untuk mencapai optimum global, akan tetapi hanya minimum lokal.
Kelemahan algoritma K-means yang lain adalah hasil cluster yang diperoleh sangat
tergantung pada nilai centroid awal, sangat sensitif terhadap outliers, serta kurang scalable.
Selain itu, ada beberapa permasalahan yang perlu untuk diperhatikan dalam menggunakan
metode K-Means termasuk model clustering yang berbeda-beda, pemilihan model yang
paling tepat untuk dataset yang dianalisa, kegagalan untuk converge, pendeteksian outliers,
bentuk masing-masing cluster dan permasalahan overlapping.
Daftar Pustaka
[1] Agusta, Y. (2007). K-Means – Penerapan, Permasalahan dan Metode Terkait, STIMIK,
Bali, Indonesia.
[3] Frantzi K.T. and S. Annaniadou, Automatic Term Recognition Using Contextual Cues,
DELOS’03, www.ercim.org DELOS03/frantzi.pdf, 2003
[4] Bezdek, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algoritmss,
Plenum Press, New York.
[5] MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate
Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and
Probability, Berkeley, University of California Press, 1: 281-297.
[6] Miyamoto, S. and Agusta, Y. (1995). An Efficient Algorithm for L1 Fuzzy c-Means and
its Termination, Control and Cybernetics 24(4): 422-436.
[7] Miyamoto, S. and Agusta, Y. (1995). Algorithms for L1 and Lp Fuzzy C-Means and Their
Convergence, in C. Hayashi, N. Oshumi, K. Yajima, Y. Tanaka, H. H. Bock and Y. Baba
(eds), Data Science, Classification, and Related Methods, Springer-Verlag, Tokyo, Japan, pp.
295-302.
[8] Pena, J. M., Lozano, J. A. and Larranaga, P. (1999). An empirical comparison of four
initialization methods for the k-means algorithm. Pattern Recognition Lett., 20:1027-1040.
[10] Tibshirani, R., Walter, G. and Hastie, T. (2000). Estimating the Number of Clusters in a
Dataset using the Gap Statistics, Technical Report 208, Department of Statistics, Stanford
University, Standford, CA 94305, USA.
[11] Girolami, M. (2002). Mercel Kernel Based Clustering in Feature Space, IEEE
Transactions on Neural Networks, Vol. 13, No. 3, pp. 761-766.
[12] Miyamoto S. and Nakayama, Y. (2003). Algorithms of Hard C-Means Clustering Using
Kernel Functions in Support Vector Machines, Journal of Advanced Computational
Intelligence and Intelligent Informatics, Vol. 7, No. 1, pp. 19–24.
[13] Miyamoto, S. and Suizu, D. (2003). Fuzzy C-Means Clustering Using Kernel Functions
in Support Vector Machines, Journal of Advanced Computational Intelligence and Intelligent
Informatics, Vol. 7, No. 1, pp. 25–30.