You are on page 1of 34

Pengelompokan Jenis Tanah

Menggunakan Algoritma
Clustering K-Means
Nama
NPM
Pembimbing

: Farisa Arriyani
: 10104657
: Ibu Sulistyo Puspitodjati,
SSi., Skom., MSc.

Latar Belakang Masalah

Perkembangan pembangunan di negara Indonesia yang


meningkat dari tahun ke tahun
banyaknya proyek-proyek pembangunan jalan raya di berbagai
tempat
diperlukan pengetahuan mengenai struktur dan jenis tanah dari
wilayah yang akan dibangun.
Banyak faktor yang mempengaruhi pemilihan jenis penelitian
tanah yang diharapkan bisa memberikan data yang cukup akurat
Pengelompokkan data tanah dengan alat sondir sulit mengenali
beberapa objek tanah yang berbeda-beda tapi mempunyai sifat
serupa
terdapat objek-objek yang masuk ke dalam kelompok yang tidak
sesuai.
dibutuhkan pengetahuan mengenai jumlah kelompok yang benar
agar objek-objek tanah tersebut dapat dikelompokkan sesuai
dengan karakteristik yang dimilikinya

Pembatasan Masalah
penelitian

suatu data tanah dengan


menggunakan Pengklasteran k-Means dan
pendekatan bootstrapped method
Proses pengklasteran menggunakan
perangkat lunak Weka 3.5.7.
Data yang digunakan adalah data proyek
Ruas Jalan Pontianak-Tayan.
Jumlah klaster (k) yang dipakai dimulai dari 6,
7, 8, 9, dan 10 dan jumlah seed dimulai dari
1, 10, 20, dan 30.

Tujuan Penelitian
mengelompokkan

dan menemukan jumlah


klaster(kelas) yang paling tepat/ akurat terhadap
data tanah
menganalisa hasilnya untuk menentukan
parameter-parameter batasan(berdasarkan
karakteristik) pada masing-masing klaster untuk
mengklasifikasian tanah secara umum
Diharapkan penelitian ini dapat digunakan
sebagai landasan untuk tahapan pelabelan, atau
pengklasifikasian secara rinci pada
pengembangan selanjutnya

Penulisan
Bab

I
Bab II
Bab III
Bab IV
Bab V

: Pendahuluan
: Landasan Teori
: Metode Penelitian
: Hasil Penelitian
: Penutup

Tanah
material yang terdiri dari :
butiran mineral padat yang tidak tersementasi
(terikat secara kimia)
satu sama lain
bahan-bahan organik yang telah melapuk (yang berpartikel padat)
disertai zat cair & gas yang
mengisi ruang-ruang kosong di antara
partikelpartikel padat tersebut
untuk mendiskripsikan tanah dibutuhkan pengetahuan tentang :
- sifat-sifat asli tanah
- warna
- formasi batuannya
- tekstur
- ukuran butirnya
- konsistensi
Secara garis besar, tanah dibagi menjadi 3 bagian :
1. Tanah berbutir kasar: kerikil (gravel), pasir (sand)
2. Tanah berbutir halus: lanau( slit/sloam ), lempung (
clay ), lempung berat
( heavy clay )
3. tanah yang bersifat organik. Contoh: tanah gambut (peat soil)
Atribut Tanah : - kedalaman (depth(d) dalam satuan meter (m)
- tekanan konus (qc) dalam satuan (kg/cm2)
- jumlah hambatan (JH) dalam satuan (kg/cm2)
- Perlawanan gesek dalam satuan (kg/cm2)

Pengklasteran (Clustering)

pengelompokkan sejumlah data atau objek ke dalam klaster (group)


sehingga dalam setiap klaster akan berisi data yang semirip mungkin
Termasuk unsupervised learning
Data pada teknik pengklasteran tidak diketahui keluarannya
(outputnya atau labelnya)
digunakan fungsi kriteria: jumlah dari kesalahan kuadrat (sum of
squared-error, SSE) yang dapat mengukur kualitas klastering yang
dibuat
SSE

d p, m
i 1 pCi

p Ci = tiap data poin pada cluster i, mi = centroid dari cluster i, d =


jarak/ distances/ variance terdekat pada masing-masing cluster i.
mengoptimalkan nilai fungsi kriteria tersebut
Nilai SSE tergantung pada jumlah klaster dan bagaimana data
dikelompokkan ke dalam klaster-klaster. Semakin kecil nilai SSE
semakin bagus hasil klastering yang dibuat

Metode k-Means

Termasuk partitioning clustering


objek-objek dikelompokkan ke dalam k kelompok atau klaster
Untuk melakukan klastering ini, nilai k harus ditentukan terlebih
dahulu
Kluster-kluster tersebut mempunyai suatu nilai tengah / nilai
pusat yang disebut dengan centroid
menggunakan ukuran ketidakmiripan untuk mengelompokkan
objek.
Ketidakmiripan diterjemahkan dalam konsep jarak (distance (d))
Jika jarak dua objek atau data titik cukup dekat, maka dua objek
itu mirip. Semakin dekat berarti semakin tinggi kemiripannya
Tujuan dari k-Means : meminimalisir total dari jarak elemenelemen antar kluster (jarak antara suatu elemen dalam sebuah
kluster dengan nilai centroid kluster tersebut)

Algoritma k-Means
1.
2.
3.

Pilih jumlah klaster k yang diinginkan


Inisialisasi k pusat klaster (centroid) secara random/ acak
Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua
objek ditentukan berdasar jarak. Jarak yang dipakai pada algoritma kMeans adalah Euclidean distance (d).

d Euclidean x, y
4.

y
i i
i 1

x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan banyaknya n


atribut(kolom) antara 2 record.
Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang.
Pusat klaster adalah rata-rata (mean) dari semua data atau objek dalam
klaster tertentu.

Algoritma k-Means (Lanjutan)


Misal: untuk masing-masing klaster terdapat n poin-poin data (a1,b1,c1),
(a2,b2,c2), (a3,b3,c3),. . . , (an,bn,cn), dimana a,b,c merupakan jumlah
atribut (dimensi dari data), centroid dari poin-poin data tersebut adalah
nilai mean/ titik tengahnya yaitu

mk ai n, bi n, ci n
Sebagai contoh, poin-poin data (1,1,1), (1,2,1), (1,3,1), dan (2,1,1)
memiliki centroid yaitu
11 1 2 1 2 3 1 11 11
,
,
1.25,1.75,1.00
4
4
4

mk

Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru.
Jika pusat klaster sudah tidak berubah lagi, maka proses pengklasteran
selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster
tidak berubah lagi/ stabil atau tidak ada penurunan yang signifikan dari
nilai SSE (Sum of Squared Errors)

Contoh Algoritma k-Means


Tabel 1 Data point
Instances

Tentukan jumlah klaster k=2


Tentukan centroid awal secara
acak misal dari data disamping
m1 =(1,1), m2=(2,1)
Tempatkan tiap objek ke
klaster terdekat berdasarkan
nilai centroid yang paling dekat
selisihnya(jaraknya). Pada
tabel 2.Didapatkan hasil:
anggota cluster1 = {A,E,G},
cluster2={B,C,D,F,H}. Nilai
SSE yaitu :

1.
2.

3.

SSE d p, mi
i 1 pCi

Gambar 1 tampilan data awal

Contoh Algoritma kMeans(Lanjutan)


Tabel 2
4. Menghitung nilai centroid yang
baru :

m1 1 1 1 / 3, 3 2 1 / 3 1,2

m2 3 4 5 4 2 / 5, 3 3 3 2 1 / 5 3,6;2,4
5. Tugaskan lagi setiap objek
dengan memakai pusat klaster
yang baru. Pada tabel 3. Nilai
SSE yang baru :

Gambar Clusters dan centroid


setelah tahap pertama.

Contoh Algoritma kMeans(Lanjutan)


Tabel 3

Terdapat perubahan anggota


cluster yaitu cluster1={A,E,G,H},
cluster2={B,C,D,F}, maka cari
lagi nilai centroid yang baru yaitu
: m1=(1,25;1,75) dan
m2=(4;2,75)
Tugaskan lagi setiap objek
dengan memakai pusat klaster
yang baru. Pada tabel 4. Nilai
SSE yang baru :

Gambar Clusters dan centroid setelah tahap kedua.

Contoh Algoritma kMeans(Lanjutan)


Tabel 4

Dapat dilihat pada tabel 4.Tidak


ada perubahan anggota lagi
pada masing-masing cluster
Hasil akhir yaitu :
cluster1={A,E,G,H}, dan
cluster2={B,C,D,F} dengan nilai
SSE = 6,25 dan jumlah iterasi 3

Metode Bootstrapped

merupakan metoda berbasis-komputer yang sering


digunakan untuk menilai ketelitian dari banyak
penaksiran statistik yang dikembangkan oleh Efron
(1979)
Salah satu pendekatan yang digunakan untuk
menentukan jumlah cluster yang paling tepat saat
menggunakan metode k-means
melakukan sampling dengan perubahan terhadap data
asli secara berulang-ulang untuk membangun
beberapa set data palsu
Untuk masing-masing data set palsu, dihitung
perkiraan yang diharapkan

Algoritma Bootstrapped
1.

2.

3.
4.

5.
6.

pilah data(sample) menjadi dua set dengan ukuran


tertentu(random), misal 80%:20%. Yang 80% sebagai data
training(untuk memodel). Sedangkan yang 20% sebagai data
validasi.
pemodelan menggunakan k-means terhadap data training.
Catat persentase data yang menjadi bagian masing-masing
cluster dan cluster center/ SSE dari masing-masing cluster.
pemodelan menggunakan k-means terhadap data validasi.
Bandingkan persentase data yang menjadi bagian dari masingmasing cluster dan nilai SSE antara data training dan data
validasi.
Ulangi langkah 1-4 beberapa kali untuk menambah akurasi.
Model yang mempunyai perbedaan antara data training dan
data validasi data terkecil yang dipilih sebagai model (atau
jumlah kelompok ) yang paling tepat. perbedaan tersebut dicari
dengan nilai rata-rata perbedaan setiap pemodelan yang
dilakukan

Percobaan Menggunakan
Weka(Persiapan data/preprocess)

Menggunakan data tanah dari proyek Ruas Jalan


Pontianak-Tayan sebanyak 150 data (record) dan 8
atribut
Menghilangkan 3 atribut yang diperoleh dari hasil
perhitungan yaitu : Hambatan Pelekat (HP), Jumlah
Hambatan Pelekat (JHP), dan Hambatan Setempat
(HS)
Data mentah : 150 record dan 5 atribut
Data terdiri dari 4 atribut numerik (untuk clustering)
dan 1 atribut nominal (deskripsi tanah) untuk
pelabelan
Data disimpan dalam file .csv atau .arff

Percobaan Menggunakan Weka


(Lanjutan)

Gambar Tampilan data pada preprocess

Percobaan Menggunakan Weka


(Lanjutan)

Gambar Parameter-parameter pada filterisasi


filters.unsupervised.instance.Resample

Gambar Pilihan filterisasi filters.unsupervised.instance.Resample

Proses Clustering pada Weka

Percobaan dilakukan dengan 2 pendekatan :


1. Pendekatan Pertama : menggunakan metode bootstrapped
(membagi data menjadi data training dan data validasi dengan
jumlah atribut yang sama(5)) yaitu : 65%;35%, 70%;30%,
75%;25%, 80%;20%, 85%;15%
2. Pendekatan kedua : pengklasteran terhadap data utuh mentah
yaitu 150 record dan 4 atribut numerik serta 1 atribut nominal
Percobaan menggunakan mode use training set untuk
menentukan jumlah cluster dan classes to clusters evaluation
untuk pelabelan
jumlah klaster (k) yaitu dimulai dari 6 (berdasarkan jumlah kelas
pada data asli), kemudian 7, 8, 9, dan 10
Nilai seed yang dipilih adalah mulai dari 1, 10, 20, dan 30

Percobaan Menggunakan Weka


(Panel cluster pada Weka)

Percobaan Menggunakan Weka

Gambar Parameter-parameter
pada SimpleKMeans

Gambar Daftar algoritma pada


panel Choose

Gambar Contoh ignore attributes deskripsi tanah

Hasil Percobaan Pendekatan


Pertama

Output pada Pendekatan


Pertama (Pengklasteran
terhadap data training(65%)
dengan jumlah klaster(k=6)
dan seed 1)

Hasil Percobaan Pendekatan


Pertama (Lanjutan)

Output pada Pendekatan


Pertama (Pengklasteran
terhadap data validasi(35%)
dengan jumlah klaster(k=6)
dan seed 1)

Analisis Pendekatan Pertama

Analisis Pendekatan Pertama


(Lanjutan)

Hasil Percobaan
Pendekatan Kedua

Output pada Pendekatan


Kedua (Pengklasteran
terhadap data utuh(mentah)
dengan k=10 dan seed 1)

Analisis Pendekatan Kedua

Jarak antara anggota di dalam klaster atau WCV (Within Cluster Variation)
diasumsikan oleh nilai SSE sebesar 3.83, jumlah iterasi sebanyak 15, dan jarak
antar klaster atau BCV (Between Cluster Variation) yaitu :

29,1556 12,2 22,3333 4,7375 19,2 15,9 3,7053 24,8 26,1294 7,2533 2
37,4444 2,7619 5,6667 26,4375 3,7647 3,8125 12,7368 7,375 11,2353 56,1333 2
43,7778 4,1905 8,8333 40,6875 5,5882 5,5 18,9474 11,875 17,1765 64,7333 2
6,3333 1,4286 3,1667 14,25 1,8235 1,6875 6,2105 4,5 5,9412 8,6 2

107,1032 2 92,4793 2 133,754 2 41,275 2

11471,095 8552,421 17890,105 1703,601


39617,222

199,041

Analisis Pendekatan Kedua

(Lanjutan)

Gambar Visualisasi scatter plot pada


data tanah dengan k 10 dan seed 1

Gambar Jendela Instances Info

Analisis Pendekatan Kedua (Lanjutan)

Analisis Pendekatan Kedua

(Lanjutan)

Gambar Informasi terhadap data utuh(mentah) dengan k=10


dan seed 1 pada classes to clusters evaluation

Analisis Pendekatan Kedua

(Lanjutan)

Kesimpulan

perbandingan perbedaan antara data training dan data validasi


menghasilkan nilai SSE dan persentase instance terkecil berada pada
jumlah klaster/ kelompok (k=10) dan seed 1.
jumlah kelompok (k=10) diatas merupakan yang paling baik(akurat)
karena semakin kecil nilai SSE maka semakin baik pula hasil
pengklasteran yang dilakukan.
Jarak antar anggota di dalam klaster atau WCV (Within Cluster Variation)
sebesar 3.83 yang dilihat dari nilai SSE-nya
jumlah iterasi sebanyak 15
jarak antar klaster atau BCV (Between Cluster Variation) sebesar
199,041.
Pengelompokan jenis tanah didapat berdasarkan karakteristik pada
masing-masing kelompok(cluster 0 sampai 9) berdasarkan range tiaptiap atribut (kedalaman, tekanan konus(qc), jumlah hambatan, dan
perlawanan gesek).
Pelabelan(pemberian nama kelas) didapatkan hasil klaster 3,4,5, dan 7
tidak memiliki label. Sedangkan klaster 0 memiliki label Sand, klaster 1
slit/sloam, klaster 2 clay, klaster 6 Peat, klaster 8 Heavy Clay, dan klaster
9 Gravel yang didapatkan berdasarkan atribut nominal pada data.

Saran
menambah

jumlah percobaan menjadi 10 kali


atau lebih untuk pembagian data(sample)
menambah jumlah klaster lebih dari 10 serta
penggunaan seed yang berbeda-beda agar
hasil yang didapat menjadi lebih akurat.
menggabungkan algoritma k-means dengan
algoritma lainnya seperti misalnya algoritma
genetik (GA) untuk mendapatkan hasil yang
optimal.

You might also like