You are on page 1of 18

ANALISIS MULTIVARIAT

“ANALISIS GEROMBOL”

OLEH :

KELOMPOK 3

DWI WAHYU WIGATI (16030006)

RIFA’ATUL HAMDA (16030052)

ANNISA FITRI (16030064)

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS NEGERI PADANG

2019
ANALISIS GEROMBOL

A. Pengertian
Analisis gerombol adalah salah satu teknik analisis data yang digunakan untuk
mengelompokkan objek dalam satu gerombol sehingga diperoleh gerombol yang
memiliki objek objek dengan karakteristik yang sama sedangkan dengan
gerombol lain memiliki karakteristik yang berbeda.
Cluster atau ‘gerombol’ dapat diartikan ‘kelompok’ dengan demikian, pada
dasarnya analisis gerombol akan menghasilkan sejumlah gerombol (kelompok).
Analisis ini diawali dengan pemahaman bahwa sejumlah data tertentu
sebenarnya mempunyai kemiripan di antara anggotanya; karena itu,
dimungkinkan untuk mengelompokkan anggota-anggota yang ‘mirip’ atau
mempunyai karakteristik yang serupa tersebut dalam satu atau lebih dari satu
gerombol .
Analisis gerombol adalah analisis statistik peubah ganda yang digunakan
apabila ada n buah individu atau objek yang mempunyai p peubah dan n objek
tersebut ingin dikelompokkan ke dalam k kelompok berdasarkan sifat-sifat yang
diamati sehingga individu atau objek yang terletak dalam satu gerombol
memiliki kemiripan sifat yang lebih besar dibandingkan dengan individu yang
terletak dalam gerombol lain . Oleh karena itu, homogenitas yang tinggi antar
anggota dalam gerombol dan heterogenitas (perbedaan) yang tinggi antar
gerombol yang satu dengan yang lainnya merupakan dua hal yang harus dimiliki
sebuah gerombol .
Penggerombolan ini memberikan manfaat, antara lain untuk eksplorasi data,
reduksi data, dan pelapisan data. Eksplorasi data dilakukan untuk memperoleh
gambaran tentang informasi yang ada dalam himpunan data tersebut sampai pada
pembangkitan hipotesis untuk struktur populasinya. Reduksi data akan dapat
mewakili seluruh anggota gerombol dengan suatu ringkasan gerombol tertentu,
sedangkan pelapisan data akan berguna dalam penarikan sampel atau
penggolongan tipe objek.
Analisis gerombol telah dipergunakan dalam pemasaran, seperti pembentukan
segmen berdasarkan data demografi, psychographic profiles, mengenali test
market cities, menentukan pasar yang mirip di berbagai negara dan mencari
kelompok yang mirip dari pembaca majalah untuk membantu di dalam pemilihan
media/majalah.
B. Tujuan dan Manfaat Analisis Gerombol
Tujuan analisis gerombol adalah:
1. Mengetahui ada tidaknya perbedaan yang nyata (significant) antar kelompok
yang terbentuk, dalam hal ini gerombol yang dihasilkan.
2. Melihat profil serta kecenderungan-kecenderungan dari masing-masing
gerombol yang terbentuk
3. Menggabungkan beberapa objek ke dalam Kelompok berdasarkan sifat
kemiripan atau sifat ketidakmiripan antar objek
4. Melihat jarak antar gerombol yang terbentuk

Manfaat analisis gerombol antara lain:


1. Untuk eksplorasi data.
Eksplorasi data dilakukan untuk memperoleh gambaran tentang informasi
yang ada dalam himpunan data tersebut sampai pada pembangkitan hipotesis
untuk struktur populasinya.
2. Reduksi data.
Reduksi data akan dapat mewakili seluruh anggota gerombol dengan suatu
ringkasan gerombol tertentu.
3. Pelapisan data.
Pelapisan data akan berguna dalam penarikan sampel atau penggolongan
tipe objek
C. Asumsi
Asumsi yang harus dipenuhi pada analisis gerombol:
1. Sampel yang diambil benar-benar bisa mewakili populasi yang ada. Memang
tidak ada ketentuan jumlah sampel yang representatif, namun tetaplah
diperlukan sejumlah sampel yang cukup besar agar proses clustering bisa
dilakukan dengan benar.

2. Multikolinearitas, yaitu kemungkinan adanya korelasi antar objek. Sebaiknya


tidak ada atau seandainya ada, besar multikolinearitas tersebut tidaklah tinggi
(misal di atas 0,5). Jika sampai terjadi multikolinearitas, dianjurkan untuk
menghilangkan salah satu variabel dari dua variabel yang mempunyai korelasi
cukup besar
D. Variabel dan Jenis Data
Jenis Data yang digunakan dalam analisis gerombol berupa data kuantitatif,
tapi dalam analisis gerombol perbedaan data yang beravariasi dapat
menyebabkan bias dalam analisis (Santoso,2005). Maka dari itu, data yang
digunakan harus kuantitatif saja atau kualtitatif saja. Tapi yang paling umum
digunakan yaitu data kuantitatif atau metric, yaitu berupa skala interval dan rasio.
E. Contoh Penerapan
Data ini merupakan data karangan dengan judul Kemiskinan Berdasarkan Dimensi
Kualitas Kesehatan Dan Kualitas Ekonomi Beberapa Kota di Indonesia. Bertujuan untuk
mengelompokkan data .

No Kota X1 X2 X3 X4 X5 X6

1 Padang 43,63 28,67 82,2 1,53 2,74 62,51

2 Payakumbuh 34,95 17,71 95,7 2,5 1,92 49,08

3 Pariaman 35,95 17,35 52,7 2,7 5,54 54,94

4 Palembang 24,49 14,48 44,9 1,5 4,62 59,18

5 Jakarta 22,47 23,37 52,5 1,35 4,51 60,59

6 Bogor 25,91 46,05 48,2 1,87 2,54 48,79

7 Bandung 16,79 29,84 36,6 2,9 3,77 55,71

8 Bekasi 35,82 63,66 70 2,76 1,65 61,02

9 Bali 37,47 66,6 67,4 2,3 6,98 44,71


10 Medan 43,94 78,1 52,1 1,98 5,83 57,82

11 Maluku 43,31 23,45 42,4 1,8 1,7 64,21

12 Riau 26,57 22,06 50,3 0,98 2,54 67,49

13 Pekanbaru 46,54 27,1 56,9 2,55 2,4 44,89

14 Jambi 25,82 15,82 65,2 0,65 2,7 54,03

15 Aceh 27,99 43,14 51,6 1,84 6,12 57,62

16 Makassar 18,11 32,19 43,4 1,54 5,62 48,94

17 Malang 20 23,8 42,2 0,75 0,87 67,33

18 Banten 39,66 36,78 79 0,78 5,43 43,41

19 Manado 26,39 20,01 52,7 0,45 2,67 42,76

20 Banjarmasin 37,22 15,82 64,1 0,88 0,89 64,11

21 Surabaya 26,77 18,57 34,9 0,65 6,01 68,83

22 Surakarta 48,71 37,57 70,9 2,6 1,65 47,66

23 Tegal 21,43 18,06 34,7 1,95 1,99 43,05

24 Batam 46,23 21,68 72,8 1,5 2,35 49,1

25 Pontianak 20,93 31,57 41 0,78 1,83 44,14

26 Samarinda 28,34 36,62 42,2 0,58 1,55 53,61

27 Pare 20,35 62,76 56 0,48 6,02 58,74

28 Palu 20,81 68,49 63,4 0,98 0,39 69,66

29 Brebes 54,5 38,51 65,4 0,47 1,45 40,23

30 Lombok 37,8 77,36 88 0,23 0,41 77,46

31 Monokwari 38,71 57,7 36,2 0,53 0,55 60,86


Keterangan Variabel

X1 Presentase rumah tangga miskin yang luas lantai


bangunan tempat tinggalnya kurang dari 32 m2
X2 Presentase rumah tangga miskin yang jenis lantai
bangunan tempat tinggalnya terbuat dari tanah/kayu
berkualitas rendah per kota
X3 Presentase rumah tangga miskin yang sumber air
minumnya berasal dari sumur/mata air tidak
terlindung/sungai per kota
X4 Presentase rumah tangga miskin yang tidak
mempunyai jenis atap dari genteng per kota
X5 Presentase rumah tangga miskin yang tidak sanggup
membayar biaya pengobatan di puskesmas per kota
X6 Presentase rumah tangga miskin yang menggunakan
bahan bakar untuk memasak sehari-hari adalah kayu
bakar per kota

Langkah-langkah analisis gerombol:

1. Membakukan data
Karena data sudah memiliki satuan yang sama maka tidak perlu dibakukan
lagi
2. Uji Multikolinearitas
Asumsi yang harus dipenuhi yaitu tidak terjadi multikolinieritas.
Multikolinearitas dapat dilihat dari korelasi antar peubah.
Jika P-value < α=0,05 maka keputusan tolak 𝐻0 yang artinya ada korelasi.
Jika P-value > α=0,05 maka keputusan terima 𝐻0 yang artinya tidak ada
korelasi.
Stat => basic statistics => correlation
Lalu muncul gambar seperti berikut:
Lalu diperoleh:

Correlations: X1; X2; X3; X4; X5; X6

X1 X2 X3 X4 X5
X2 0,145
0,437

X3 0,513 0,204
0,003 0,271

X4 0,165 -0,046 0,072


0,374 0,805 0,699

X5 -0,169 0,039 -0,148 0,224


0,362 0,835 0,428 0,226

X6 -0,181 0,213 -0,019 -0,251 -0,179


0,331 0,249 0,919 0,174 0,336

Cell Contents: Pearson correlation


P-Value

Interpretasi :
Dari hasil otput minitab dapat dilihat bahwa, pada variabel X1 dengan X3 nilai
P-valuenya < α (0,05) menunjukkan bahwa terdapat korelasi antar peubah. Dengan
diketahui data tersebut bersifat multikolinearitas antar peubah. Maka dilakukan
analisis komponen utama terhadap data dengan tujuan untuk memperoleh data
yang tidak saling berkorelasi dengan tidak mengubah data asal.
3. Analisis Komponen Utama
Principal Component Analysis: X1; X2; X3; X4; X5; X6

Eigenanalysis of the Correlation Matrix

Eigenvalue 1,6859 1,4884 1,0750 0,7158 0,5912 0,4438


Proportion 0,281 0,248 0,179 0,119 0,099 0,074
Cumulative 0,281 0,529 0,708 0,828 0,926 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6


X1 0,660 -0,060 -0,129 0,073 -0,036 -0,734
X2 0,264 0,304 0,717 0,165 -0,529 0,129
X3 0,636 0,098 0,008 0,063 0,535 0,543
X4 0,196 -0,558 0,195 -0,755 -0,166 0,120
X5 -0,186 -0,463 0,602 0,304 0,494 -0,230
X6 -0,132 0,607 0,264 -0,549 0,400 -0,289

Interpretasi :
Dengan melihat nilai eigennya dapat ditentukan komponen utamanya yaitu
jika nilai eigennya besar dari 1. Atau bisa juga dilihat nilai comulativenya yaitu
jika nilai comulativenya lebih besar dari 80%. Komponen utama yang memenuhi
yaitu PC1, PC2, PC3 dan PC4. Berarti PC1-PC4 mampu mewakili total kergaman
data. Jadi hanya 4 score komponen utama yang digunakan dalam analisis
selanjutnya yaitu score1-score4.
4. Penggerombolan
Selanjutnya penggerombol dengan metode hierarki. Dalam hal ini, digunakan
software minitab untuk menemukan analisis gerombol tersebut. Untuk
mempermudah dalam penggerombolan kabupaten/kota berdasarkan dimensi
kualitas kesehatan dan ekonomi di Jawa Tengah masing-masing kabupaten/kota
dikodekan dengan angka-angka berurut seperti berikut:
No Kota
1 Padang
2 Payakumbuh
3 Pariaman
4 Palembang
5 Jakarta
6 Bogor
7 Bandung
8 Bekasi
9 Bali
10 Medan
11 Maluku
12 Riau
13 Pekanbaru
14 Jambi
15 Aceh
16 Makassar
17 Malang
18 Banten
19 Manado
20 Banjarmasin
21 Surabaya
22 Surakarta
23 Tegal
24 Batam
25 Pontianak
26 Samarinda
27 Pare
28 Palu
29 Brebes
30 Lombok
31 Monokwari
Cluster Analysis of Observations: SCORE1; SCORE2; SCORE3; SCORE4

Euclidean Distance, Single Linkage


Amalgamation Steps

Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 30 91,6217 0,51787 2 22 2 2
2 29 90,3840 0,59437 4 5 4 2
3 28 88,9806 0,68112 14 26 14 2
4 27 86,7409 0,81956 19 25 19 2
5 26 85,4821 0,89737 4 6 4 3
6 25 85,0188 0,92600 2 13 2 3
7 24 85,0093 0,92659 12 17 12 2
8 23 84,5683 0,95385 14 19 14 4
9 22 82,2927 1,09451 4 21 4 4
10 21 80,9080 1,18010 2 24 2 4
11 20 80,9044 1,18032 12 14 12 6
12 19 80,5840 1,20013 4 23 4 5
13 18 79,9010 1,24234 4 15 4 6
14 17 79,5099 1,26651 4 16 4 7
15 16 79,0550 1,29463 4 12 4 13
16 15 78,8010 1,31033 11 20 11 2
17 14 78,5872 1,32355 4 31 4 14
18 13 77,6666 1,38045 1 2 1 5
19 12 76,4425 1,45611 4 11 4 16
20 11 76,2438 1,46840 4 28 4 17
21 10 75,6289 1,50640 9 10 9 2
22 9 75,1271 1,53742 4 7 4 18
23 8 74,1478 1,59795 3 4 3 19
24 7 73,2791 1,65165 1 29 1 6
25 6 73,1468 1,65982 1 8 1 7
26 5 71,9761 1,73219 1 3 1 26
27 4 70,0143 1,85345 1 18 1 27
28 3 68,6825 1,93577 1 9 1 29
29 2 67,5255 2,00729 1 27 1 30
30 1 62,8972 2,29336 1 30 1 31

Final Partition
Number of clusters: 1

Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 31 148,950 2,09206 4,16622

Interpretasi :
Dari hasil output dapat dilihat tahap penggerombolan pertama jumlah
gerombol adalah 30. Dua objek yang dipasangkan pertama kali adalah objek 2 dan
22 karena pasangan ini memiliki koefisisen jarak paling kecil 0,51787 , dan nama
cluster barunya adalah 2. Pada tahap kedua objek yang memiliki koefisisen jarak
paling kecil kedua yaitu 0,59437 adalah objek 4 dan 5 dengan nama cluster
barunya 4. Demikian seterusnya, pada setiap klaster berkurang satu cluster
sehingga pada tahap terakhir semua objek menjadi satu claster.
Hasil dari tahap-tahap pembentukan gerombol di atas dapat disajikan dengan
Dendogramnya, seperti :
Dendrogram
Single Linkage; Euclidean Distance

2.29

1.53
Distance

0.76

0.00
1 2 22 13 24 29 8 3 4 5 6 21 23 15 16 12 17 14 26 19 25 31 11 20 28 7 18 9 10 27 30
Observations

Observasi : 31 Kota yang ada di Indonesia

Distance : Jarak Euclidean


N Rata-
Kota X1 X2 X3 X4 X5 X6
o rata
1 Padang 43,63 28,67 82,2 1,53 2,74 62,51 36,88
Payakumb 33,643
2 34,95 17,71 95,7 2,5 1,92 49,08
uh 33
28,196
3 Pariaman 35,95 17,35 52,7 2,7 5,54 54,94
67
Palemban 24,861
4 24,49 14,48 44,9 1,5 4,62 59,18
g 67
5 Jakarta 22,47 23,37 52,5 1,35 4,51 60,59 27,465
28,893
6 Bogor 25,91 46,05 48,2 1,87 2,54 48,79
33
24,268
7 Bandung 16,79 29,84 36,6 2,9 3,77 55,71
33
39,151
8 Bekasi 35,82 63,66 70 2,76 1,65 61,02
67
37,576
9 Bali 37,47 66,6 67,4 2,3 6,98 44,71
67
39,961
10 Medan 43,94 78,1 52,1 1,98 5,83 57,82
67
29,478
11 Maluku 43,31 23,45 42,4 1,8 1,7 64,21
33
28,323
12 Riau 26,57 22,06 50,3 0,98 2,54 67,49
33
30,063
13 Pekanbaru 46,54 27,1 56,9 2,55 2,4 44,89
33
14 Jambi 25,82 15,82 65,2 0,65 2,7 54,03 27,37
15 Aceh 27,99 43,14 51,6 1,84 6,12 57,62 31,385
24,966
16 Makassar 18,11 32,19 43,4 1,54 5,62 48,94
67
17 Malang 20 23,8 42,2 0,75 0,87 67,33 25,825
34,176
18 Banten 39,66 36,78 79 0,78 5,43 43,41
67
24,163
19 Manado 26,39 20,01 52,7 0,45 2,67 42,76
33
Banjarmas 30,503
20 37,22 15,82 64,1 0,88 0,89 64,11
in 33
21 Surabaya 26,77 18,57 34,9 0,65 6,01 68,83 25,955
34,848
22 Surakarta 48,71 37,57 70,9 2,6 1,65 47,66
33
20,196
23 Tegal 21,43 18,06 34,7 1,95 1,99 43,05
67
32,276
24 Batam 46,23 21,68 72,8 1,5 2,35 49,1
67
25 Pontianak 20,93 31,57 41 0,78 1,83 44,14 23,375
26 Samarinda 28,34 36,62 42,2 0,58 1,55 53,61 27,15
34,058
27 Pare 20,35 62,76 56 0,48 6,02 58,74
33
37,288
28 Palu 20,81 68,49 63,4 0,98 0,39 69,66
33
33,426
29 Brebes 54,5 38,51 65,4 0,47 1,45 40,23
67
46,876
30 Lombok 37,8 77,36 88 0,23 0,41 77,46
67
Monokwar
31 38,71 57,7 36,2 0,53 0,55 60,86
i 32,425
32,180 35,964 56,632 1,4309 3,0722 55,563
Rata-rata
97 19 26 68 58 87

Interpretasi :
Menggunakan Metode Hirearki dengan single linkage .Metode ini
mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu.Dari
hasil output diatas dapat dilihat bahwa dua objek yang dipasangkan pertama kali
adalah objek 2 dan 22. Objek kedua yang digabungkan adalah objek 4 dan 5
demikian seterusnya, sama dengan hasil cluster diatas. Bila kita ingin membagi
menjadi 4 gerombol maka diperoleh :
Gerombol I adalah objek 1, 2, 22, 13, 24, 29, 8, 3, 4, 5, 6, 21, 23, 15, 16, 12,
17, 14, 26, 19, 25, 31, 11, 20, 28, 7, 18 yang mempunyai jarak terdekat atau
memiliki karakteristik yang sama artinya Tingkat kemiskinan berdasarkan dimensi
kualitas kesehatan dan ekonomi di Kota tersebut memiliki kemiripan yang sama.
Gerombol II adalah objek 9 dan 10 yang mempunyai jarak terdekat atau
memiliki karakteristik yang sama artinya Tingkat kemiskinan berdasarkan dimensi
kualitas kesehatan dan ekonomi di Kota tersebut memiliki kemiripan yang sama.
Gerombol III adalah objek 27, artinya pemalang tidak memiliki kemiripan
dengan kota lainnya.
Gerombol IV adalah objek 30 yaitu Kota Lombok, artinya Kota Lombok tidak
memiliki kemiripan dengan kota lainnya.
Dari hasil penggerombolan tersebut terlihat bahwa ada 2 data yaitu (Kota Pare
dan Kota Lombok) yang tidak dapat dijadikan satu kelompok dengan data
manapun. Dengan kata lain Kota Pare dan Kota Lombok merupakan data oulier.

You might also like