You are on page 1of 12

1. Pengertian Algoritma C4.

5
Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma
ini mempunyai input berupa training samples dan samples. Training
samples berupa data contoh yang akan digunakan untuk membangun
sebuah tree yang telah diuji kebenarannya. Sedangkan samplesmerupakan field-
field data yang nantinya akan digunakan sebagai parameter dalam melakukan
klasifikasi data (Sunjana, 2010)
Algoritma C 4.5 adalah salah satu metode untuk membuat decision
tree berdasarkan training data yang telah disediakan. Algoritma C 4.5 dibuat
oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga dibuat
oleh Quinlan (Quinlan, 1993). Beberapa pengembangan yang dilakukan pada
C4.5 adalah sebagai antara lain bisa mengatasi missing value, bisa
mengatasi continue data, danpruning.
2. Klasifikasi
Klasifikasi data merupakan suatu proses yang menemukan properti-
properti yang sama pada sebuah himpunan obyek di dalam sebuah basis data dan
mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model
klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan
model dari training set yang membedakan atribut ke dalam kategori atau kelas
yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan
atribut yang kelasnya belum diketahui sebelumnya. Teknik klasifikasi terbagi
menjadi beberapa teknik yang diantaranya adalah Pohon Keputusan.
3. Pohon Keputusan (Decision Tree)
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar
menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan
mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan
dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari
record pada kategori tertentu. Pohon keputusan juga berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon
variabel input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan
pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses
pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk
membagi kumpulan data yang besar menjadi himpunan-himpunan record yang
lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-
masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan
yang lain (Berry dan Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk
membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen
dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan
mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara
otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan
untuk memodelkan himpunan data yang belum terklasifikasi.
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon
keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record
terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan
mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan
untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik
yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon
keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel
dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat
sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main
tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur.
Salah satu atribut merupakan atribut yang menyatakan data solusi per item
data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan
dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah,
berawan, dan hujan (Basuki dan Syarif, 2003)
Proses pada pohon keputusan adalah mengubah bentuk data (tabel)
menjadi model pohon, mengubah model pohon menjadi rule, dan
menyederhanakan rule (Basuki dan Syarif, 2003).
4. Algoritma C4.5
Berikut ini algoritma dasar dari C4.5: Input : sampel training, label training,
atribut
 Membuat simpul akar untuk pohon yang dibuat
 Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul
akar, beri tanda (+)
 Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul
akar, beri tanda (-)
 Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar,
dengan label sesuai nilai yang terbanyak yang ada pada label training
 Untuk yang lain, Mulai
 A ------ atribut yang mengklasifikasikan sampel dengan hasil
terbaik (berdasarkan Gain rasio)
 Atribut keputusan untuk simpul akar ----- A
 Untuk setiap nilai, vi, yang mungkin untuk A
 Tambahkan cabang di bawah akar yang berhubungan
dengan A= vi
 Tentukan
sampel Svi sebagai subset dari sampel yang
mempunyai nilai vi untuk atrribut A
 Jika sampel Svi kosong
 Di bawah cabang tambahkan simpul daun
dengan label = nilai yang terbanyak yang ada
pada label training
 Yang lain tambah cabang baru di bawah
cabang yang sekarang C4.5 (sampel training,
label training, atribut-[A])
 Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan
jumlah path yang mungkin dapat dibangun dari root sampai leaf node.
Prinsip Kerja
Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu:
 Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi pohon
keputusan adalah mengkontruksi struktur data pohon yang dapat digunakan
untuk memprediksi kelas dari sebuah kasus atau record baru yang belum
memiliki kelas. C4.5 melakukan konstruksi pohon keputusan dengan
metode divide and conquer. Pada awalnya hanya dibuat node akar dengan
menerapkan algoritma divide and conquer. Algoritma ini memilih
pemecahan kasus-kasus yang terbaik dengan menghitung dan
membandingkangain ratio, kemudian node-node yang terbentuk di level
berikutnya, algoritma divide and conquer akan diterapkan lagi sampai
terbentuk daun-daun.
 Pembuatan aturan-aturan (rule set). Aturan-aturan yang terbentuk dari
pohon keputusan akan membentuk suatu kondisi dalam bentuk if-then.
Aturan-aturan ini didapat dengan cara menelusuri pohon keputusan dari akar
sampai daun. Setiap node dan syarat percabangan akan membentuk suatu
kondisi atau suatu if, sedangkan untuk nilai-nilai yang terdapat pada daun
akan membentuk suatu hasil atau suatu then.

5. Information Gain
Information gain adalah salah satu attribute selection measure yang digunakan
untuk memilih test attribute tiap node pada tree. Atribut dengan informasi gain
tertinggi dipilih sebagai test atribut dari suatu node (Sunjana, 2010). Dalam
prosesnya perhitungan gain bisa terjadi atau tidak suatu missing value.
6. Contoh kasus
Proses pengambilan keputusan dalam klasifikasi kelayakan motor bekas
yang akan dijual dikelompokkan menjadi beberapa kriteria yaitu :
Tabel 1. Format data akhir
No.Poli Jenis Mesi Rangk Body Cat Aki Aksesor Keputusa
si Motor n a is n
5017 BLADE Halu Mulus lecet baret soak semi perbaika
WU s modif n
4102 ABSOLUT Halu Mulus mulus kusa norm ori langsung
WU E REVO s m al jual
SPOKE
4819 REVO CW Halu keropo lecet ganti soak semi perbaika
WJ s s cat modif n
4743 REVO CW Halu Karat lecet kusa norm ori langsung
WH s m al jual
4540 REVO Halu Mulus lecet baret norm ori langsung
WC STANDAR s al jual
T
5148 BLADE Halu Karat mulus kusa norm semi perbaika
WQ s m al modif n
6183 ABSOLUT Halu Mulus lecet baret norm ori langsung
HU E REVO s al jual
CW
5569 REVO Halu Karat mulus mulu norm ori langsung
WO STANDAR s s al jual
T
4005 FIT X Kasar Karat penyo ganti norm ori perbaika
BP k cat al n
4929 ABSOLUT Halu Karat mulus mulu norm ori langsung
WS E REVO s s al jual
SPOKE
6412 ABSOLUT Halu Mulus mulus mulu norm ori langsung
WU E REVO s s al jual
SPOKE
6019 ABSOLUT Halu Mulus lecet baret norm ori langsung
BQ E REVO s al jual
CW
6383 FIT X Kasar Mulus mulus mulu norm ori perbaika
GW s al n
6920 ABSOLUT Halu Mulus lecet baret norm ori langsung
DT E REVO s al jual
SPOKE
6162 ABSOLUT Halu Mulus mulus mulu soak ori perbaika
WU E REVO s s n
SPOKE
4865 FIT X Halu Karat mulus mulu soak semi perbaika
BP s s modif n
4957 ABSOLUT Halu Mulus lecet baret norm ori langsung
BR E REVO s al jual
SPOKE
6509 ABSOLUT Halu Mulus mulus mulu norm semi langsung
BQ E REVO s s al modif jual
SPOKE
4540 BLADE Halu Mulus penyo ganti norm semi perbaika
GX s k cat al modif n
4384 ABSOLUT Halu Mulus lecet baret soak semi perbaika
US E REVO s modif n
SPOKE
4241 ABSOLUT Kasar Mulus mulus mulu norm full perbaika
GX E REVO s al modif n
SPOKE
5105 FS NEW Halu Karat penyo ganti soak ori perbaika
SUPRA s k cat n
FIT T
4983 BEAT Kasar Karat mulus kusa norm semi perbaika
BR m al modif n
6621 FIT X Kasar Mulus mulus kusa soak semi perbaika
FY m modif n
6792 FIT S Kasar keropo lecet baret soak full perbaika
BN s modif n
5281 ABSOLUT Halu keropo lecet baret soak ori perbaika
BR E REVO s s n
SPOKE
4340 REVO CW Kasar Mulus penyo ganti soak semi perbaika
WF k cat modif n
5175 REVO Halu keropo penyo ganti soak ori perbaika
WF STANDAR s s k cat n
T
4098 BLADE Halu Mulus mulus mulu norm semi langsung
WU s s al modif jual
4627 ABSOLUT Halu Mulus lecet kusa norm ori langsung
WW E REVO s m al jual
CW
5572 BEAT Halu Mulus lecet baret norm semi langsung
WU s al modif jual
6869 ABSOLUT Halu Mulus mulus kusa soak ori perbaika
AR E REVO s m n
CW
5798 ABSOLUT Halu Mulus mulus kusa norm semi perbaika
WS E REVO s m al modif n
DELUXE
6924 ABSOLUT Halu Mulus lecet kusa norm ori langsung
WS E REVO s m al jual
SPOKE
5387 ABSOLUT Halu Mulus lecet kusa norm ori langsung
WS E REVO s m al jual
SPOKE
Tahapan algoritma C4.5 untuk membangun pohon keputusan adalah sebagai
berikut :
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai.
3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai semua kasus pada
cabang memiliki kelas yang sama.
Berdasarkan tahapan dalam algoritma C4.5 maka diperoleh hasil seperti yang
terlihat pada penjelasan di bawah ini. Entropy (Aki, Normal and Bodi, Mulus and
Mesin, Halus)

Entropy(total) adalah menghitung nilai total keputusan perbaikan (2) dan langsung
jual (1), sedangkan 3 adalah jumlah keseluruhan kasus.
a. Atribut Rangka

Menghitung nilai Entropy atribut rangka berdasarkan dari tiap-tiap kelas


(karat, keropos dan mulus) pada atribut rangka.
b. Atribut Aksesoris

Menghitung nilai Entropy aksesoris berdasarkan atribut dari tiap-


tiap kelas (full modif, ori dan semi modif) pada atribut aksesoris.
Menghitung Nilai Gain tiap-tiap atribut menggunakan rumus (1):
Menghitung Nilai Gain tiap-tiap atribut Gain (Total, Rangka)

Gain(Total,Aksesoris)
Berdasarkan pohon keputusan terakhir yang terbentuk pada Gambar di
atas, maka aturan atau rule yang terbentuk adalah sebagai berikut
1. IF aki = soak, THEN keputusan = perbaikan
2. IF aki = normal AND bodi = lecet, THEN keputusan = langsung jual
3. IF aki = normal AND bodi = penyok, THEN keputusan = perbaikan
4. IF aki = normal AND bodi = mulus AND mesin = kasar, THEN
keputusan = perbaikan
5. IF aki = normal AND bodi = mulus AND mesin = halus AND cat =
mulus, THEN keputusan = langsung jual
6. IF aki = normal AND bodi = mulus AND mesin = halus AND cat =
kusam AND aksesoris = ori, THEN keputusan = langsung jual
7. IF aki = normal AND bodi = mulus AND mesin = halus AND cat =
kusam AND aksesoris = semi modif, THEN keputusan = perbaikan
Berdasarkan dari rule/knowledge yang dihasilkan terdapat beberapa
rule yang cukup sesuai dengan kejadian yang terjadi didalam menentukan
kelayakan motor bekas, di mana motor bekas yang memiliki kondisi bagus
akan langsung jual.

7. Implementasi pada aplikasi weka


1. Ubah semua data kedalam aplikasi Microsoft Excel
2. Buka aplikasi weka klik pada Tools kemudian Package Manager. Setelah itu
instal package bernama WekaExcel sehingga kita dapat langsung mengelola
data .XLXS tanpa perlu menggubahnya lagi

3. Jika sudah. Kemudian klik explorer


4. Pilih file yang akan kita olah datanya di weka dengan menekan tombol
Open file..

5. Kemudian pada klik tab classify lalu pilih alogaritma j48


6. Klik tombol start lalu klik kanan pada result list kemudian pilih
Visualize tree untuk menampilkan pohon keputusan

You might also like