Professional Documents
Culture Documents
TINJAUAN PUSTAKA
Humanisme Rasionalitas
Proses
Berpikir
Tingkah
Perilaku
a. Supervised Learning
b. Unsupervised Learning
Sistem Natural Language Processing atau NLP memiliki sebuah input data
berupa kumpulan dari beberapa kata yang menjadi sebuah kalimat dan akan
menghasilkan representasi yang terstruktur dengan tujuan untuk mencari sebuah
makna dari input data yang diberikan dan makna yang dihasilkan dari proses
tersebut dijadikan sebagai data output.
13
Syntactic Analysis
Merupakan sebuah proses analisis terhadap kumpulan kata - kata yang
ada di dalam sebuah kalimat untuk mengidentifikasi struktur gramatikal
yang terkandung dalam kalimat tersebut. Pada proses ini sebuah
kumpulan kata dilakukan proses transformasi menjadi sebuah struktur
yang dapat menggambarkan bagaimana kumpulan kata saling memiliki
keterkaitan antara kata yang lain.
Semantic Analysis
Merupakan proses yang digunakan untuk melakukan proses pengecekan
akhir dalam hal memeriksa kebenaran makna yang telah diberikan pada
setiap kata yang ada pada proses sebelumnya, dalam proses ini dilakukan
proses pengkoreksian relasi dan kesesuaian dengan berbagai kata yang
lainnya.
Discourse Integration
Makna dari sebuah kalimat bergantung kepada kumpulan kata yang ada
di dalam kalimat tersebut, misalnya Dia menginginkan itu kata itu
sangat bergantung pada konteks kalimat itu sendiri atau kalimat yang
lain.
Pragmatic Analysis
Merupakan sebuah proses untuk melakukan pemisahan atau penurunan
terhadap suatu kalimat yang ada untuk menghasilkan suatu interpretasi
makna yang sesuai, misal : closethewindow? seharusnya memiliki
intepretasi makna yang bersifat permintaan dibanding dengan sebuah
perintah.
Pada tahap berikutnya adalah pembentukan model data dan melakukan proses
klasifikasi teks dengan menggunakan algoritma dari Machine Learning untuk
diujicobakan dengan data yang baru. Proses yang sama dilakukan saat menerima
data yang baru yaitu dengan melakukan pembentukan sebuah feature kemudian
dilakukan proses feature selection lalu pada tahap selanjutnya melalui
implementasi algoritma Machine Learning akan terjadi adanya perhitungan dan
komparasi antar dua set data yaitu model data dengan data yang baru yang
kemudian akan keluar hasilnya berupa dokumen yang terklasifikasi.
Fokus utama dari algoritma ini adalah adanya penggunaan basis data kata
dasar dalam Bahasa Indonesia semakin lengkap daftar kata yang tersedia maka
semakin tinggi hasil akurasi yang diberikan jika menggunakan algoritma ini.
2.6. Stopwords
Pada proses Stopwords, kata - kata yang termasuk kata depan, kata hubung
dan sejenisnya akan dihilangkan, hal ini dikarenakan agar dapat melakukan
transformasi sebuah feature yaitu N-Gram dan juga menghilangkan noise data
sehingga komputasi menjadi lebih cepat. Berikut hasil modifikasi setelah sebuah
kalimat melakukan proses Stopwords :
Melakukan pembuangan kata hubung seperti : dan, tetapi, jika dll dan juga
kata - kata yang tidak berhubungan dan tidak memiliki makna seperti: loh,
nah, noh, bener, lo, gue dll.
Contoh :
Ternyata memang Andi suka sepakbola sejak lama
Menjadi :
andi suka sepakbola
Hal yang perlu dilakukan untuk menerapkan konsep transformasi feature ini
adalah dengan melakukan penjumlahan dari tiap - tiap nilai vektor yang sudah
ada yang berasal dari perhitungan jumlah kata yang muncul dari tiap - tiap
dokumen.
Penggabungan kata - kata yang memiliki makna yang sama atau konsep BOC
menurut Tckstrm (2005) terbukti dapat diimplementasi dengan baik dalam
sistem temu kembali informasi meskipun konsep ini dapat dikatakan cukup
sederhana. Namun konsep ini memiliki kelemahan yaitu sama halnya dengan
konsep Bag Of Word (BOW) model dimana keterkaitan atau relasi kontekstual
yang ada dalam suatu kata tidak diperhitungkan sama sekali.
2.8. N-Gram
N-Gram merupakan sebuah kata baru yang dihasilkan dari teknik
pemotongan sebuah String yang lebih panjang. Ciri khas yang dimiliki oleh
sebuah N-Gram adalah adanya beberapa kata yang bertumpang tindih dengan
kata yang lain sesuai dengan urutan dari susunan kata tersebut di dalam kalimat
(Permadi,2008).
Pemerintah
Unigram : p, e, m, e, r, i, n, t, a, h
Bigram : pe, em, me, er, ri, in, nt, ta, ah
Trigram : pem, eme, mer, eri, rin, int, nta, tah
a) Classification
Di dalam WEKA banyak algoritma yang mendukung untuk sebuah proses
klasifikasi sebuah objek serta dimudahkan dalam melakukan implementasi
secara langsung. User dapat melakukan load dataset, melakukan
pemilihan algoritma untuk klasifikasi, kemudian diberikan beberapa
representasi data yang mewakili hasil akurasi, tingkat kesalahan dari
proses klasifikasi.
b) Regression
Regression merupakan sebuah proses yang dapat melakukan suatu prediksi
terhadap berbagai pola yang sudah terbentuk sebelumnya yang dijadikan
sebagai model data, tujuan dari Regression adalah menciptakan suatu
variabel baru yang mewakili suatu representasi perkembangan data pada
21
c) Clustering
Clustering merupakan salah satu cabang konsep dari Unsupervised
Method dari Machine Learning yang bertujuan untuk melakukan
pengelompokkan data dan juga menjelaskan hubungan / relasi yang ada
diantara data tersebut dan memaksimalkan kesamaan antar satu kelas/
cluster tetapi meminimumkan kesamaan antar kelas/ cluster. Clustering
digunakan untuk analisa suatu data dan diharapkan menghasil suatu
representasi data Gambar 2.6 Fitursuatu
yang mewakili Visualisasi WEKA
pola yang terbentuk akibat relasi
yang ada antar data.
Di dalam WEKA tersedia beberapa pendekatan algoritma untuk
menangani permasalahan Clustering suatu data dan pada fitur ini juga
terdapat bagian kesimpulan dari proses Clustering data yang memberikan
secara garis besar perhitungan dan hasil yang diberikan dalam
implementasi algoritma Clustering.
d) Association Rules
Association Rule merupakan sebuah metode yang digunakan untuk
menemukan berbagai relasi antara banyaknya variabel yang terdapat di
dalam sebuah basis data dengan jumlah yang besar.
e) Visualization
WEKA memiliki fitur untuk memberikan sebuah representasi data
hasil sebuah proses Data Mining dalam bentuk gambar atau chart yang
juga dapat dilakukan pemilihan berbagai parameter yang mendukung
dalam membentuk representasi data yang ada dalam aplikasi WEKA.
f) Preprocessing Data
22
Teorema Nave Bayes yang juga merupakan hasil kombinasi antara Teorema
Nave dan Teorema Bayes, maka dari itu perlu adanya suatu penambahan yang
dapat memberikan suatu kelas dari sampel data yang akan dilakukan analisis
yang kemudian pengembangan implementasi rumus dasar Naive Bayes menjadi
seperti berikut :
Nilai yang terkandung di dalam Evidence adalah selalu tetap untuk setiap kelas
pada suatu data. Nilai - nilai yang mewakili Posterior yang nantinya akan
dilakukan proses perbandingan dengan nilai Posterior kelas yang lain untuk
menentukan hasil klasifikasi dari suatu sampel data.
penyederhanaan dari suatu proses permasalahan yang lebih kompleks dan rumit
menjadi lebih mudah untuk direpresentasikan oleh manusia sehingga
berpengaruh terhadap kemudahan dalam proses pengambilan sebuah keputusan.
Berikut contoh representasi gambar dari metode klasifikasi Decision Tree dan
terminologi yang menjelaskan representasi Decisiion Tree menurut Adityana
(2009) :
Keterangan :
Simpul yang menjadi parent dan memiliki child yang ada dibawahnya
27
5. Spring Context
Spring mendukung adanya pengaturan suatu API (Application
Programming Interface) dalam suatu aplikasi Java.
6. Spring Web MVC (Model View Controller)
Spring mendukung implementasi konsep MVC pada pengembangan
sebuah Web
7. Spring Core
Spring menyediakan fitur adanya pengaturan sebuah aplikasi dalam hal
Dependency Injection yang berarti adanya separasi pengaturan objek atau
komponen dan kelas yang akan diimplementasikan dalam sebuah aplikasi.
29
GambarJDBC
2.16 Konfigurasi
Framework JDBC dalam Spring-Boot
Di dalam Spring terdapat 4 package utama yaitu
core, datasource, object, dan support.
Pertama, org.springframework.jdbc.core yang memiliki beberapa
kelas yang mendukung dalam hal implementasi untuk akses data menuju
sebuah database salah satunya yaitu JDBCTemplate. Kelas tersebut
secara langsung mendefinisikan query SQL secara sederhana yaitu
INSERT, UPDATE, DELETE dan berbagai sintaks query yang lain.
Kedua, org.springframework.jdbc.datasource yang memiliki peran
dalam mendefinisikan sebuah database yang ingin dilakukan proses akses
terhadap data yang ada didalamnya, contoh implementasi diperlihatkan
pada gambar 2.15.
Ketiga, org.springframework.jdbc.object yang berfungsi untuk
menyediakan sebuah query yang bersifat store procedure artinya sebuah
kelompok query SQL yang disimpan pada sebuah katalog database dan
dapat dipanggil oleh sebuah aplikasi program dengan menggunakan
trigger tertentu.
31
keterangan :
D1...Dn Gambar 2.17 Matriks Dokumen
= Documents
F1...Fn = Feature N-Grams
Terdapat 2 bentuk representasi untuk menerapkan sistem VSM, yaitu
yang pertama melakukan perhitungan frekuensi dari tiap - tiap feature ke
dalam setiap masing - masing dokumen, yang kedua adalah menggunakan
boolean, apabila feature F1 muncul di dokumen D1 maka nilai yang muncul
adalah 1 sedangkan sebaliknya jika tidak ada akan menghasilkan nilai 0, dan
para peneliti menggunakan sistem yang pertama dengan menggunakan
frekuensi masing - masing feature.
2. Bag Of Concepts
Peneliti menggunakan sebuah tool untuk melakukan generate secara
langsung Bag Of Concepts yaitu Wikipedia Miner, dimana di dalam tool
ini mengadopsi teknik Natural Language Processing, Machine Learning
dan menjadikan Wikipedia sebagai Domain Pengetahuan dalam proses
klasifikasi. Berikut implementasi yang dilakukan dari algoritma yang
dilakukan oleh tool tersebut:
a. Candidate Selection : Proses ini membutuhkan input berupa N-
Gram yang dihasilkan dari teks yang sudah memiliki kategori
36