You are on page 1of 46

LAPORAN TUGAS AKHIR

ANALISIS PEUBAH GANDA

KELOMPOK 2
M. Arief Eko Pratama (12.7261)
Nadya Amalia (12.7276)
Rivan Destyanugraha (12.7351)
Rizki Ramadhani Arif Trilana (12.7357)
Siska Ambarwati (12.7386)

SEKOLAH TINGGI ILMU STATISTIK


2016

Multivariat Inferensia : Uji Vektor Rata-Rata 1 Populasi


1. Data yang digunakan
Berikut adalah data yang digunakan sebagai input dalam melakukan analisis multivariat
inferensia uji vektor rata-rata 1 populasi :
Tabel 1. Angka Kematian Bayi dan Angka Kematian Balita tahun 2012 menurut
Provinsi di Indonesia.

Provinsi

AKB

AKAB
A

Aceh

47

52

Sumatera Utara

40

54

Sumatera Barat

27

34

Riau

24

28

Jambi

34

36

Sumatera Selatan

29

37

Lampung

30

38

DKI Jakarta

22

31

Jawa Barat

30

38

Jawa Tengah

32

38

DI Yogyakarta

25

30

Jawa Timur

30

34

Banten

32

38

Bali

29

33

Nusa Tenggara Barat

57

75

Nusa Tenggara Timur

45

58

Kalimantan Barat

31

37

Kalimantan Selatan

44

57

Kalimantan Timur

21

31

Sulawesi Selatan

25

37

Sumber : Data SDKI 2012

Terdapat 2 variabel yang akan digunakan dalam uji ini yakni Angka Kematian Bayi dan
Angka Kematian Anak/ Balita yang diukur pada tahun 2012. Jumlah observasi yang
digunakan adalah 20 provinsi yang merupakan provinsi dengan angka kepadatan penduduk
tertinggi di Indonesia. Tujuan dari uji ini adalah untuk membandingkan nilai AKB dan
AKABA Indonesia tahun 2012 dengan nilai terget MDGs yang telah direncanakan oleh
pemerintah Indonesia
Target MDGs ke-4 Indonesia adalah menurunkan angka kematian anak/ balita menjadi
sebesar 32 per 1000 kelahiran hidup. Sedangkan target MDGs ke-5 Indonesia adalah
meningkatkan kesehatan ibu, dimana salah satu indikator yang digunakan untuk mencapai
target ini adalah dengan menurunkan Angka Kematian Bayi atau menjadi 23 per 1000
kelahiran hidup. Dengan demikian, melalui uji ini kita bisa melihat apakah Indonesia (diukur

melalui ke-20 provinsi yang memiliki kepadatan penduduk tertinggi) telah mencapai target
MDGs ke-4 dan 5 atau belum.
2. Perhitungan

H 0 : AKB = 23
32
AKABA
H1:

( )( )
( )( )
AKB
23
32
AKABA

= 0.05
y 1
= 32.7
40.8
y 2

( )( )

(87.37895
107,6211

107,6211
144,800

Statistik Uji :
1

T 2 =n ( y 0 ) '

( y 0)

( 20 ) 32.723
40.832

'

)(

87.37895 107,6211
107,6211 144,800

) (32.723
40.832 )

37,7094
Daerah Tolak :
2
2
Tolak Ho jika T >T 2; 19

dimana,

T 22 ;19=

( n1 ) p
19.2
F p ;n p ( 0.05 )=
F ( 0.05 )=7.5041
18 2 ;18
( n p )

Keputusan :
Tolak Ho karena 37,7094 > 7.5041
3. Output/ Hasil Run R

(function R terlampir)
4. Kesimpulan

Dengan tingkat kepercayaan 95%, dapat dinyatakan bahwa Angka Kematian Bayi dan
Angka Kematian Balita Indonesia tahun 2012 belum memenuhi target MDGs yakni 23 dan 32
per 1000 kelahiran hidup.

Multivariat Inferensia : Uji Dua Sampel Berpasangan


1. Data yang digunakan
Tabel 2. Kandungan Mineral Dalam 3 Jenis Tulang Sebelum dan Sesudah Program
Eksperimen

BEFORE

AFTER (1 year)

Domina
nt
Radius

Dominan
t
Humerus

Domina
nt Ulna

Domina
nt
Radius

1,103
0,842
0,925
0,857
0,795
0,787
0,933
0,799
0,945
0,921
0,792
0,815
0,755
0,88
0,9
0,764
0,733
0,932
0,856
0,89
0,688
0,94
0,493
0,835

2,139
1,873
1,887
1,739
1,734
1,509
1,695
1,74
1,811
1,954
1,624
2,204
1,508
1,786
1,902
1,743
1,863
2,028
1,39
2,187
1,65
2,334
1,037
1,509

0,873
0,59
0,767
0,706
0,549
0,782
0,737
0,618
0,853
0,823
0,686
0,678
0,662
0,81
0,723
0,586
0,672
0,836
0,578
0,758
0,533
0,757
0,546
0,618

1,027
0,857
0,875
0,873
0,811
0,64
0,947
0,886
0,991
0,977
0,825
0,851
0,77
0,912
0,905
0,756
0,765
0,932
0,843
0,879
0,673
0,949
0,463
0,776

Domina
nt
Humer
us
2,268
1,718
1,953
1,668
1,643
1,396
1,851
1,742
1,931
1,933
1,609
2,352
1,47
1,846
1,842
1,747
1,923
2,19
1,242
2,164
1,573
2,13
1,041
1,442

Domina
nt Ulna
0,869
0,602
0,765
0,761
0,551
0,753
0,708
0,687
0,844
0,869
0,654
0,692
0,67
0,823
0,746
0,656
0,693
0,883
0,577
0,802
0,54
0,804
0,57
0,585

Sumber : Data courtesy of E. Hatfield

Terdapat 24 sampel observasi yang diteliti untuk melihat kandungan mineral dalam 3
jenis tulang yakni tulang dominant radius, dominant humerus, dan dominant ulna. Penelitian
tersebut dilakukan selama 1 tahun, kemudian kandungan mineral pada masing-masing sampel
dicatat sebelum dan sesudah sampel mendapat perlakuan khusus dalam suatu program
eksperimen. Uji 2 sampel berpasangan dapat diterapkan pada kasus ini untuk melihat apakah

ada perbedaan rata-rata kandungan mineral sebelum dan sesudah sampel mendapat perlakuan
khusus.
2. Perhitungan

( ) ()

1
0
H0: 2 = 0
0
3

( )()

1 0
H1: 2 0
3 0
= 0.05

[ ][ ]

d 1 0,000125
d = 0,007167
d=
2
d 3 0,015125

0,00232
0,0008
0,000642
S d = 0,0008
0,01062 0,00022
0,000642 0,00022 0,000944

Statistik Uji :

][

0,00232
0,0008
0,000642 0,000125
T 2 =24 [ 0,000125 0,007167 0,015125 ] 0,0008
0,01062 0,00022 0,007167
0,000642 0,00022 0,000944 0,015125
7,12369
Daerah Tolak :
2
2
Tolak Ho jika T >T 3 ;23

dimana,

T 23 ;23=

( n1 ) p
23.3
F p ;n p ( 0.05 )=
F ( 0.05 ) =10,095248
21 3 ;21
( n p )

Keputusan :
Gagal Tolak Ho, karena 7,12369 < 10,095248

3. Output Hasil Run R

4. Kesimpulan
Dengan tingkat kepercayaan 95%, belum cukup bukti untuk menyatakan bahwa
terdapat perbedaan kandungan mineral dalam ketiga jenis tulang setelah sampel mendapatkan
perlakuan khusus dari program eksperimen.

Multivariat Inferensia : Uji Dua Sampel Independen


1. Data yang digunakan
Tabel 3. Nilai AHH, AMH, RLS Provinsi Jawa Timur dan Jawa Tengah
Berdasarkan Kabupaten/Kota Tahun 2013

JAWA TIMUR
AHH
72,18
70,85
72,33
72,02
71,80
70,65
69,70
67,95
63,64
68,58
63,95
63,95
62,10
64,81
71,43
71,13
70,64
69,82
69,68
71,96
70,97
67,81

AMH
91,67
89,37
93,07
94,92
92,12
92,97
91,22
86,63
83,79
88,44
81,22
78,62
80,95
91,71
97,91
94,47
94,45
91,16
90,04
91,42
85,99
85,13

RLS
7,01
7,49
7,33
7,79
7,41
7,75
7,08
6,52
6,80
7,25
5,94
6,28
6,31
6,88
10,23
8,22
8,06
7,62
7,47
7,86
7,06
6,72

JAWA TENGAH
AHH
71,63
70,23
71,08
69,56
69,73
71,44
70,58
70,63
70,71
72,16
70,64
72,82
72,56
73,05
70,45
72,02
70,64
73,05
69,83
71,23
71,95
72,9

AMH
91,97
94,77
93,78
89,02
91,78
93,53
92,3
93,64
88,12
90,01
91,36
84,6
90,32
84,49
91,78
85,46
92,07
89,56
94,16
94,26
93,09
94,59

RLS
7,06
7,8
7,23
6,36
6,93
8,02
6,56
7,55
7,46
8,33
8,82
6,71
8,27
7,34
6,86
6,55
7,3
7,04
8,49
7,7
7,62
8,07

68,71
68,98
71,57
64,02
64,52
65,19
65,49
71,36
73,00
71,14
71,16
66,75
72,48
71,89
72,13
70,32

86,00
89,09
96,38
82,93
69,47
84,48
78,75
97,86
97,48
98,38
92,66
97,12
97,58
98,15
98,40
93,37

6,82
7,79
9,00
5,75
4,39
6,42
5,73
10,29
9,87
10,89
8,79
9,07
10,12
10,54
10,12
8,76

72,87
69,42
70,97
69,96
68,52
69,58
68,36
70,74
72,75
71,45
72,44
70,83
69,42

95,99
90,23
90,67
93,42
91,09
91,03
87,68
98,11
96,87
96,73
97,72
96,24
94,92

7,1
7,19
6,74
6,8
6,56
6,62
6,07
10,42
10,53
9,98
10,37
8,75
8,33

Sumber : BPS Provinsi Jawa Timur dan Jawa Tengah

Terdapat 38 kabupaten/ kota di Jawa Timur dan 35 kabupaten/ kota di Jawa Tengah
yang dijadikan sebagai unit observasi. Variabel yang digunakan adalah variabel yang menjadi
komponen pembangun IPM (Indeks Pembangunan Manusia) yakni Angka Harapan Hidup
(AHH), Angka Melek Huruf (AMH) dan Rata-rata Lama Sekolah (RLS).
2. Perhitungan

( )( )

11
21
H 0 : 12 = 22
13
23

( )( )

11
21
H 1 : 12 22
13
23
= 0.05

(Asumsi Varians Tidak Diketahui dan Varians Diasumsikan Sama)

[ ]

1,91165
x 1x 2= 2,01183
0,074
S p=

( n1 1 ) S 1( n21 ) S2
n1 +n22

Statistik Uji :

5,96358 8,6493 1,993773


= 8,6493
29,402
6,18298
1,99373 6,182981 1,9058

'

[ ][

][ ]

1,91165 5,96358 8,6493 1,993773 1,91165


2
T = 2,01183 8,6493
29,402
6,18298 2,01183 =21,50994
0,074 1,99373 6,182981 1,9058 0,074
Daerah Tolak :
2

Tolak Ho jika T >T

2
3 ;71

( n1 +n2 2 ) p
2
T
=
F p ; n +n p1) ( 0.05 )=8,450519
3
;23
dimana,
( n1 +n 2 p1 ) (
1

Keputusan :
Tolak Ho karena 21,50994 > 8,450519
3. Output/ Hasil Run R

4. Kesimpulan
Dengan tingkat kepercayaan 95%, cukup bukti untuk menyatakan bahwa rata-rata
ketiga komponen IPM Provinsi Jawa Tengah berbeda dengan Provinsi Jawa Timur.

ONE-WAY MANOVA
1. Data yang digunakan

Tabel 4. Nilai AHH, AMH, RLS Provinsi Jawa Timur, Jawa Tengah dan Jawa Barat
Berdasarkan Kabupaten/Kota Tahun 2013

JAWA TIMUR
AHH
72,18
70,85
72,33
72,02
71,80
70,65
69,70
67,95
63,64
68,58

AMH
91,67
89,37
93,07
94,92
92,12
92,97
91,22
86,63
83,79
88,44

JAWA TENGAH
RLS
7,01
7,49
7,33
7,79
7,41
7,75
7,08
6,52
6,80
7,25

AHH
71,63
70,23
71,08
69,56
69,73
71,44
70,58
70,63
70,71
72,16

AMH
91,97
94,77
93,78
89,02
91,78
93,53
92,3
93,64
88,12
90,01

RLS
7,06
7,8
7,23
6,36
6,93
8,02
6,56
7,55
7,46
8,33

JAWA BARAT
AHH
70,20
67,90
66,80
69,37
66,51
68,80
67,73
68,11
66,04
67,38

AMH
96,77
98,03
98,02
98,80
99,03
98,98
98,71
97,04
93,26
96,03

RLS
8,01
6,97
6,88
8,49
7,39
7,35
7,68
7,52
6,90
7,27

63,95
63,95
62,10
64,81
71,43
71,13
70,64
69,82
69,68
71,96
70,97
67,81
68,71
68,98
71,57
64,02
64,52
65,19
65,49
71,36
73,00
71,14
71,16
66,75
72,48
71,89
72,13
70,32

81,22
78,62
80,95
91,71
97,91
94,47
94,45
91,16
90,04
91,42
85,99
85,13
86,00
89,09
96,38
82,93
69,47
84,48
78,75
97,86
97,48
98,38
92,66
97,12
97,58
98,15
98,40
93,37

5,94
6,28
6,31
6,88
10,23
8,22
8,06
7,62
7,47
7,86
7,06
6,72
6,82
7,79
9,00
5,75
4,39
6,42
5,73
10,29
9,87
10,89
8,79
9,07
10,12
10,54
10,12
8,76

70,64
72,82
72,56
73,05
70,45
72,02
70,64
73,05
69,83
71,23
71,95
72,9
72,87
69,42
70,97
69,96
68,52
69,58
68,36
70,74
72,75
71,45
72,44
70,83
69,42

91,36
84,6
90,32
84,49
91,78
85,46
92,07
89,56
94,16
94,26
93,09
94,59
95,99
90,23
90,67
93,42
91,09
91,03
87,68
98,11
96,87
96,73
97,72
96,24
94,92

8,82
6,71
8,27
7,34
6,86
6,55
7,3
7,04
8,49
7,7
7,62
8,07
7,1
7,19
6,74
6,8
6,56
6,62
6,07
10,42
10,53
9,98
10,37
8,75
8,33

68,13
67,74
69,89
67,74
67,80
70,45
69,23
66,59
69,25
70,36
70,13
69,04
70,16
73,6
69,82
70,80
66,89

98,23
86,11
92,54
97,19
93,45
94,94
99,17
94,22
99,05
99,74
99,74
98,24
98,60
99,0
99,82
99,79
98,41

8,06
6,25
6,98
7,71
7,42
8,84
8,14
7,51
9,82
9,37
10,63
10,14
10,85
11,0
10,76
8,89
8,19

Sumber : BPS Provinsi Jawa Timur, Jawa Tengah, & Jawa Barat

Terdapat 38 kabupaten/ kota di Jawa Timur, 35 kabupaten/ kota di Jawa Tengah dan 27
kabupaten/ kota di Jawa Barat yang dijadikan sebagai unit observasi. Variabel yang
digunakan adalah variabel yang menjadi komponen pembangun IPM (Indeks Pembangunan
Manusia) yakni Angka Harapan Hidup (AHH), Angka Melek Huruf (AMH) dan Rata-rata
Lama Sekolah (RLS).

2. Tujuan
Untuk menguji signifikansi perbedaan rata-rata secara bersamaan antara ketiga provinsi
(Jawa Barat, Jawa Tengah dan Jawa Timur) terhadap komponen IPM.

3. Hipotesis
Ho : Jateng=Jatim =Jabar

H 1 : ik jk for at least one ij and at least one variable k


= 0.05

4. Output/ Hasil Run R


Manova dengan Uji Wilks

Manova dengan Uji Pillai

Manova dengan Uji Roy

5. Kesimpulan
Dari output diatas, dapat dilihat bahwa dengan alpha 5% atau 0.05, uji Pillai, Wilks, dan
Roy menghasilkan keputusan yang sama yakni Tolak Ho. Artinya, dengan tingkat
kepercayaan 95% dapat dinyatakan bahwa terdapat perbedaan vektor rata-rata dalam ketiga
komponen IPM (AHH, AMH, dan RLS) menurut wilayah di tiga provinsi.

TWO-WAY MANOVA
1. Data yang digunakan
Tabel 5. Nilai AHH, AMH, RLS Provinsi Jawa Timur, Jawa Tengah dan Jawa Barat
Berdasarkan Kabupaten/Kota Tahun 2013
JAWA TIMUR

JAWA TENGAH

Lab
el

AHH

AMH

RLS

72,18

91,67

70,85

89,37

JAWA BARAT

AHH

AMH

RLS

Label

AHH

AMH

RLS

7,01

Lab
el
2

71,63

91,97

7,06

70,20

96,77

8,01

7,49

70,23

94,77

7,8

67,90

98,03

6,97

72,33

93,07

7,33

71,08

93,78

7,23

66,80

98,02

6,88

72,02

94,92

7,79

69,56

89,02

6,36

69,37

98,80

8,49

71,80

92,12

7,41

69,73

91,78

6,93

66,51

99,03

7,39

70,65

92,97

7,75

71,44

93,53

8,02

68,80

98,98

7,35

69,70

91,22

7,08

70,58

92,3

6,56

67,73

98,71

7,68

67,95

86,63

6,52

70,63

93,64

7,55

68,11

97,04

7,52

63,64

83,79

6,80

70,71

88,12

7,46

66,04

93,26

6,90

68,58

88,44

7,25

72,16

90,01

8,33

67,38

96,03

7,27

63,95

81,22

5,94

70,64

91,36

8,82

68,13

98,23

8,06

63,95

78,62

6,28

72,82

84,6

6,71

67,74

86,11

6,25

62,10

80,95

6,31

72,56

90,32

8,27

69,89

92,54

6,98

64,81

91,71

6,88

73,05

84,49

7,34

67,74

97,19

7,71

71,43

97,91

10,23

70,45

91,78

6,86

67,80

93,45

7,42

71,13

94,47

8,22

72,02

85,46

6,55

70,45

94,94

8,84

70,64

94,45

8,06

70,64

92,07

7,3

69,23

99,17

8,14

69,82

91,16

7,62

73,05

89,56

7,04

66,59

94,22

7,51

69,68

90,04

7,47

69,83

94,16

8,49

69,25

99,05

9,82

71,96

91,42

7,86

71,23

94,26

7,7

70,36

99,74

9,37

70,97

85,99

7,06

71,95

93,09

7,62

70,13

99,74

10,63

67,81

85,13

6,72

72,9

94,59

8,07

69,04

98,24

10,14

68,71

86,00

6,82

72,87

95,99

7,1

70,16

98,60

10,85

68,98

89,09

7,79

69,42

90,23

7,19

73,6

99,0

11,0

71,57

96,38

9,00

70,97

90,67

6,74

69,82

99,82

10,76

64,02

82,93

5,75

69,96

93,42

6,8

70,80

99,79

8,89

64,52

69,47

4,39

68,52

91,09

6,56

66,89

98,41

8,19

65,19

84,48

6,42

69,58

91,03

6,62

65,49

78,75

5,73

68,36

87,68

6,07

71,36

97,86

10,29

70,74

98,11

10,42

73,00

97,48

9,87

72,75

96,87

10,53

71,14

98,38

10,89

71,45

96,73

9,98

71,16

92,66

8,79

72,44

97,72

10,37

66,75

97,12

9,07

70,83

96,24

8,75

72,48

97,58

10,12

69,42

94,92

8,33

71,89

98,15

10,54

72,13

98,40

10,12

70,32

93,37

8,76

Sumber : BPS Provinsi Jawa Timur, Jawa Tengah, & Jawa Barat

Terdapat 38 kabupaten/ kota di Jawa Timur, 35 kabupaten/ kota di Jawa Tengah dan 27
kabupaten/ kota di Jawa Barat yang dijadikan sebagai unit observasi. Label 1 menunjukkan
daerah Kota dan label 2 menunjukkan daerah Kabupaten yang dijadikan sebagai unit interaksi
(interaction).
2. Tujuan

Untuk mengetahui apakah terdapat perbedaan vektor rata-rata antara tiga komponen
IPM berdasarkan ketiga Provinsi (Jawa Barat, Jawa Tengah, Jawa Timur) dan kategori
wilayah kabupaten atau kota.
3. Hipotesis
Ho 12 : 11= 12= 21= 22= 31= 32= 41= 42=0
H 1 : At least one lk 0
= 0.05
4. Hasil/ Output Run R
Uji Wilks

Uji Pillai

Uji Roy

5. Kesimpulan
Dari output di atas dapat dilihat bahwa dengan alpha 5%, Uji Pillai, Wilks dan Roy
menghasilkan keputusan gagal Tolak Ho. Artinya, dengan tingkat keyakinan 95%, dapat
dinyatakan bahwa tidak ada interaksi antara ketiga provinsi diatas dengan jenis wilayah
kabupaten/ kota, artinya nilai komponen IPM berdasarkan kategori kabupaten/ kota tidak
berbeda walaupun berada di tiga provinsi yang berbeda.

TESTING EQUALITY OF COVARIANCE MATRICES


1. Data yang digunakan

Data yang digunakan adalah data komponen IPM (Jawa Timur dan Jawa Tengah) tahun
2013 yang terdapat pada tabel 4.
2. Hipotesis
Ho: jatim= jateng = jabar
H 1 : at least two of of the covariances matrices are not equal
= 0.05
3. Hasil/ Output Run R

4. Kesimpulan
Dari output diatas terlihat bahwa dengan alpha 5% atau 0.05, uji kesamaan matriks
kovarian dengan menggunakan uji Chi-Square menghasilkan keputusan Tolak Ho karena nilai
statistik chi-squarenya > nilai daerah tolak. Artinya, dengan tingkat kepercayaan 95%, dapat
dinyatakan bahwa varians dari setiap provinsi adalah sama.

PRINCIPAL COMPONENT ANALYSIS (PCA)


1. Data yang digunakan
Dalam rangka meningkatkan kualitas hidup manusia, seluruh negara lewat
PBB telah merumuskan target-target pembangunan universal yang disebut sebagai
Millenium Development Goals (MDGs) hingga tahun 2015. Memasuki tahun 2016,
PBB kembali mencanangkan target-target pembangunan baru untuk terus memelihara
dan meningkatkan pencapaian MDGs yang selanjutnya disebut sebagai Sustainable
Development Goals (SDGs). Salah satu target yang ingin dicapai di dalam SDGs ialah
menjamin kesehatan dan kesejahteraan untuk seluruh manusia di segala umur. Salah
satu indikator untuk mengukur target tersebut adalah Angka Kematian Bayi (AKB).
Berkurangnya AKB menunjukkan kualitas kesehatan penduduk negara tersebut semakin
baik.

Mengingat estimasi AKB merupakan hal penting untuk menunjang


pembangunan, maka pada bagian ini akan digunakan data faktor-faktor yang
memengaruhi AKB per kabupaten/kota di Provinsi Jawa Timur pada tahun 2013. Data
diperoleh dari publikasi Badan Pusat Statistik Provinsi Jawa Timur tahun 2013-2014.
Variabel yang digunakan diambil berdasarkan penelitian Sunaryo et al. (2012), berupa:
X1: Persentase jumlah penolong kelahiran dari tenaga medis (%)
X2: Rata-rata lama pemberian Air Susu Ibu (ASI) eksklusif (bulan),
X3: Rata-rata lama sekolah (tahun),
X4: Persentase rumah tangga yang memiliki sumber air minum bersih (%),
X5: Persentase rumah tangga yang memiliki fasilitas jamban yang layak (%),
X6: Persentase penduduk miskin (%), dan
X7: Produk Domestik Regional Bruto (PDRB) per kapita (Rp).
Selanjutnya data dapat dilihat pada tabel 6 berikut.
Tabel 6. Faktor-faktor yang Memengaruhi AKB Provinsi Jawa Timur
Berdasarkan Kabupaten/Kota Tahun 2013

Kabupaten
X1
X2
X3
X4
X5
X6
X7
Pacitan
97,77 3,54
7,01 62,69 45,7 16,73
17184,50
Ponorogo
96,6
3,27
7,49 80,07 60,1 11,92
14064,70
Trenggalek
96,91 3,43
7,33 49,95 50,6 13,56
16092,90
Tulungagung
96,11 4,06
7,79 62,91 64,3 9,07
23047,40
Blitar
99,18 3,72
7,41 66,11 57,8 10,57
19143,50
Kediri
97,87 3,33
7,75 69,81
62
13,23
16477,40
Tabel 6 (lanjutan). Faktor-faktor yang Memengaruhi AKB Provinsi Jawa Timur
Berdasarkan Kabupaten/Kota Tahun 2013

Kabupaten
Malang
Lumajang
Jember
Banyuwangi
Bondowoso
Situbondo
Probolinggo
Pasuruan
Sidoarjo
Mojokerto
Jombang
Nganjuk
Madiun
Magetan
Ngawi
Bojonegoro
Tuban
Lamongan

X1
95,09
99,12
86,84
94,24
80,77
92,17
91
90,52
99,6
98,85
100
98,73
98,62
99,18
98,72
93,93
99,12
97,62

X2
3,55
2,97
3,31
3,6
3,1
2,95
3,73
2,99
4,81
4,15
3,18
3,4
4,08
3,38
4,32
3,97
2,87
2,91

X3
7,08
6,52
6,8
7,25
5,94
6,28
6,31
6,88
10,23
8,22
8,06
7,62
7,47
7,86
7,06
6,72
6,82
7,79

X4
80,65
66,13
70,62
74,02
65,89
47,14
62,66
59,28
92,89
74,45
66,69
79,19
75,75
87,12
73,47
75,6
78,86
81,1

X5
58,4
44,2
43,9
55,9
15,7
34
22,8
47,3
80,7
73,4
67,1
59,1
67,2
76
52,4
51
61,7
80

X6
11,48
12,14
11,68
9,61
15,29
13,65
21,21
11,26
6,72
10,99
11,17
13,6
12,45
12,19
15,45
16,02
17,23
16,18

X7
23470,20
19177,50
19082,40
29848,30
15665,20
18023,30
18540,90
54368,70
57457,50
45137,70
19360,00
15066,10
16808,80
18079,70
14446,80
39202,90
34322,00
19394,60

Gresik
Bangkalan
Sampang
Pamekasan
Sumenep
Kota Kediri
Kota Blitar
Kota Malang
Kota Probolinggo
Kota Pasuruan
Kota Mojokerto
Kota Madiun
Kota Surabaya
Kota Batu

99,56
94,79
63,21
84,34
70,51
100
100
100
92,51
100
100
100
98,72
100

3,78
2,05
1,14
1,58
3,83
4,18
3
3,77
1,9
2,84
4,42
4,1
3,64
2,21

9
5,75
4,39
6,42
5,73
10,29
9,87
10,89
8,79
9,07
10,12
10,54
10,12
8,76

85,58
76,15
69,34
90,96
63,38
54,45
62,93
87,43
83,16
90,38
72,95
90,12
98,81
98,9

86,6
27,5
37,4
36,2
26,6
79,1
86,7
73,5
60,7
63,6
74,4
84,1
71,4
88,5

13,94
23,23
27,08
18,53
21,22
8,23
7,42
4,87
8,55
7,6
6,65
5,02
6
4,77

67765,20
20841,00
15301,30
11976,60
23898,40
288696,20
28956,80
50927,30
29319,00
25131,40
32600,40
48188,90
116206,40
46273,80

2. Pengujian asumsi.
Normal multivariat.
Mardia's Multivariate Normality Test
--------------------------------------data : x.pca
g1p
: 43.42744
chi.skew
: 275.0405
p.value.skew : 3.768908e-22
g2p
: 86.2469
z.kurtosis
: 6.383246
p.value.kurt : 1.733733e-10
chi.small.skew : 302.5729
p.value.small : 1.907002e-26
Result
: Data are not multivariate normal.
---------------------------------------

Pengujian di atas menggunakan fungsi mardiaTest() pada package


MVN di R. Hasil pengujian menunjukkan data tidak berdistribusi multivariat

normal. Dari Q-Q Plot di atas terlihat bahwa ketidaknormalan disebabkan oleh
adanya outlier. Kemudian, akan diidentifikasi observasi manakah yang

merupakan outlier dengan fungsi chisq.plot() pada package mvoutlier di R


yang menggunakan jarak Mahalanobis dalam penghitungannya.

X1 X2 X3 X4 X5 X6
X7
Kota Kediri 100.00 4.18 10.29 54.45 79.1 8.23 288696.2
Sampang
63.21 1.14 4.39 69.34 37.4 27.08 15301.3
Sumenep
70.51 3.83 5.73 63.38 26.6 21.22 23898.4
Pamekasan
84.34 1.58 6.42 90.96 36.2 18.53 11976.6
Bondowoso
80.77 3.10 5.94 65.89 15.7 15.29 15665.2
Kota Surabaya 98.72 3.64 10.12 98.81 71.4 6.00 116206.4

Dari pengujian di atas diperoleh 6 observasi yang merupakan outlier


seperti tertera pada hasil di atas. Untuk mengatasi masalah ini, observasi
tersebut tidak akan disertakan dalam analisis lebih lanjut. Kemudian data yang
telah dihilangkan outlier nya kembali diuji dan terbukti data telah berdistribusi
normal multivariat.
Mardia's Multivariate Normality Test
--------------------------------------data : x.pca
g1p
: 19.0372
chi.skew
: 101.5317
p.value.skew : 0.09356032
g2p
: 64.83368
z.kurtosis
: 0.462043
p.value.kurt : 0.6440505
chi.small.skew : 113.6329
p.value.small : 0.0173398
Result
: Data are multivariate normal.
---------------------------------------

Korelasi antar variabel yang kuat (Multikolinieritas)


Untuk mengetahui korelasi antar variabel, akan digunakan fungsi cor()
di R. Hasil fungsi dapat dilihat pada tabel berikut.

X1
X2
X3
X4
X5
X6
X7

X1 X2 X3 X4 X5 X6 X7
1.00 0.23 0.56 0.41 0.68 -0.35 0.17
0.23 1.00 0.29 -0.01 0.21 -0.18 0.20
0.56 0.29 1.00 0.53 0.80 -0.79 0.56
0.41 -0.01 0.53 1.00 0.60 -0.37 0.44
0.68 0.21 0.80 0.60 1.00 -0.67 0.50
-0.35 -0.18 -0.79 -0.37 -0.67 1.00 -0.42
0.17 0.20 0.56 0.44 0.50 -0.42 1.00

Dapat dilihat pada tabel diatas nilai korelasi dengan highlight merah
menandakan korelasi yang tinggi sedangkan warna kuning berkorelasi sedang.
Oleh karena itu, dapat dibuktikan terdapat korelasi antar variabel yang cukup
kuat sehingga data tersebut layak untuk dilakukan analisis PCA.
3.

PCA

Standard deviations:
[1] 1.9388760 1.0076706 0.9276167 0.8130557 0.6279243 0.4140347 0.3716366
Rotation:
PC1
PC2
PC3
PC4
PC5
PC6
X1 -0.3499358 0.115680954 -0.69070052 0.1691727 -0.409184926 0.35714591
X2 -0.1648998 0.888996942 0.11052264 0.2665313 0.306289727 -0.04955292
X3 -0.4771792 0.040339084 0.05515516 -0.2422506 0.005581358 0.30176347
X4 -0.3528937 -0.431457444 -0.03682228 0.5318367 0.619152363 0.12515664
X5 -0.4730096 -0.061878840 -0.16660452 -0.0309518 -0.117741272 -0.85304882
X6 0.4041363 0.005037241 -0.16003134 0.6698333 -0.253920058 -0.15391281
X7 -0.3332487 -0.068302426 0.67301743 0.3304110 -0.526341235 0.10901599
PC7
X1 -0.25197370
X2 -0.05449226
X3 0.78603622
X4 -0.07804181
X5 0.04650281
X6 0.52363847
X7 -0.18230913

Berdasarkan hasil pengujian asumsi sebelumnya, selanjutnya dilakukan


analisis komponen utama (principal component analysis) yang bertujuan untuk
mereduksi dimensi data dan dalam kasus data ini dapat dimanfaatkan untuk mengatasi
multikolinieritas seperti yang telah ditunjukkan sebelumnya. Tabel di atas menunjukkan

hasil dari pca menggunakan fungsi prcomp() di R, yaitu standar deviasi dari setiap
komponen (PC1-PC7) dan nilai loading dari setiap variabel per komponen.
Importance of components:
PC1 PC2 PC3
PC4
PC5
PC6
PC7
Standard deviation
1.939 1.0077 0.9276 0.81306 0.62792 0.41403 0.37164
Proportion of Variance 0.537 0.1451 0.1229 0.09444 0.05633 0.02449 0.01973
Cumulative Proportion 0.537 0.6821 0.8050 0.89945 0.95578 0.98027 1.00000

Tabel dan grafik di


atas

menampilkan

keragaman kumulatif dari setiap komponen. Hal tersebut menggambarkan kemampuan


setiap komponen dalam menjelaskan keragaman dari data sehingga dapat ditentukan
berapa komponen yang selanjutnya akan dipakai. Salah satu cara menentukannya
adalah dengan melihat keragaman kumulatif jika sudah lebih dari 80 persen (Johnson
dan Wichern, 2002). Dari tabel dan plot tersebut terlihat bahwa tiga komponen utama
(PC1 PC3) sudah mampu menjelaskan 80,50% keragaman data, sehingga PCA telah
mereduksi dimensi data dari tujuh variabel ke tiga komponen berikut.
PC1

PC2

PC3

X1 -0.3499358 0.115680954 -0.69070052


X2 -0.1648998 0.888996942 0.11052264
X3 -0.4771792 0.040339084 0.05515516
X4 -0.3528937 -0.431457444 -0.03682228
X5 -0.4730096 -0.061878840 -0.16660452
X6 0.4041363 0.005037241 -0.16003134
X7 -0.3332487 -0.068302426 0.67301743

Tiga grafik biplot di atas merupakan


proyeksi tiap komponen terhadap
variabel menurut nilai loadingnya.
Dapat dilihat bahwa tiap biplot menjelaskan posisi tiap pengamatan dilihat dari tiga
dimensi faktor. Misalkan pengamatan ke 38 (Kota Batu) dapat dilihat dengan baik
pada biplot PC1 PC2.

4. Kesimpulan
PCA mereduksi 7 variabel faktor yang memengaruhi AKB menjadi 3
komponen yang mampu menggambarkan 80,5% keragaman dari keseluruhan data.

CLUSTERING
1. Data yang digunakan
TPT (Tingkat Pengangguran Terbuka) Tahun 2015
TPAK (Tingkat Partisipasi Angkatan Kerja) Tahun 2015
Persentase kegiatan seminggu terakhir bekerja (bekerja/angkatan kerja) Tahun
2015
Risiko kejadian kejahatan per 100.000 penduduk Tahun 2015
Persentase penyelesaian tindak pidana Tahun 2015
Sumber data : bps.go.id
2. Analisis dan Kesimpulan
Dendogram

Analisis :
Dari ketiga dendogram tersebut terlihat bahwa Kalimantan Utara dan Sulawesi
Barat berada pada satu ranting dendogram. Hal itu disebabkan karena adanya
missing data pada tabel.
Sementara pada cluster dendogram metode complete dan average, Provinsi
Sulawesi Utara, Gorontalo, Sulawesi Tengah, Sumatra Barat, Jambi, Sumatra
Selatan, D I Y, Sumatra Utara, Kepulauan Riau, Kalimantan Timur, Bengkulu,

Papua Barat berada pada ranting dengan pola yang sama. Hal ini menunjukkan
perbedaan yang tidak signifikan pada distance antara kedua metode tersebut
untuk provinsi tersebut di atas. Meskipun begitu pada dendogram metode
single, provinsi tersebut di atas juga mengelompok dalam satu ranting yang
sama namun letaknya di sebelah kanan.
Dendogram di atas menggunakan penghitungan distance metode Euclidean,
sehingga hasilnya mungkin akan berbeda jika menggunakan metode lain

seperti canberra, maximum, manhattan, binary, atau minkowski.


Dendogram dengan pengelompokan

Analisis :
Gambar di atas membuktikan bahwa apabila dibuat empat klaster berdasar
data, beberapa provinsi akan tetap mengelompok meskipun menggunakan

metode yang berbeda.


K-Means Klastering
4 Klaster

Berikut adalah pengelompokan provinsi berdasar klasternya:


Sumatera Utara
Sumatera Barat
1
1
Riau
Bangka-Belitung
1
1
Kepulauan Riau
DKI Jakarta
1
1
Kalimantan Timur
Sulawesi Utara
1
1
Sulawesi Selatan
Papua Barat
1
1
Aceh
Jawa Barat
2
2
Banten Kalimantan Utara
2
2
Maluku
Jambi
2
3
Sumatera Selatan
Bengkulu
3
3
DIY
Sulawesi Tengah
3
3
Gorontalo
Lampung
3
4
Jawa Tengah
Jawa Timur
4
4
Bali Nusa Tenggara Barat
4
4
Nusa Tenggara Timur Kalimantan Barat
4
4
Kalimantan Tengah Kalimantan Selatan
4
4
Sulawesi Tenggara
Sulawesi Barat

4
Maluku Utara
4

4
Papua

Jika dilakukan klaster berdasar metode k-means dua provinsi yang mengalami
missing data dapat bergabung dengan provinsi lain (Kalimantan Utara dan

Sulawesi Barat).
3 Klaster

Berikut adalah pengelompokan provinsi berdasar klasternya:


Aceh
Riau
1
1
DKI Jakarta
Jawa Barat
1
1
Banten Kalimantan Timur
1
1
Sulawesi Utara
Maluku
1
1
Papua Barat
Sumatera Utara
1
2
Sumatera Barat
Jambi
2
2
Sumatera Selatan
Bengkulu
2
2
Kepulauan Riau
DIY
2
2
Sulawesi Tengah Sulawesi Selatan
2
2
Gorontalo
Lampung
2
3
Bangka-Belitung
Jawa Tengah
3
3
Jawa Timur
Bali
3
3
Nusa Tenggara Barat Nusa Tenggara Timur

3
3
Kalimantan Barat Kalimantan Tengah
3
3
Kalimantan Selatan Kalimantan Utara
3
3
Sulawesi Tenggara
Sulawesi Barat
3
3
Maluku Utara
Papua
3
3

Terdapat perbedaan klaster antara klaster 3 dan 4. Meskipun perbedaan

tersebut tidak terlalu signifikan.


Pairs

Terdapat hubungan yang kuat negatif antara TPT dan Persentase kegiatan seminggu
terakhir bekerja. Semakin tinggi TPT, persentase kegiatan seminggu terakhir
bekerja semakin kecil.

FACTOR ANALYSIS
1. Data yang digunakan
Data yang digunakan dalam kasus ini adalah data indikator-indikator IPM (Indeks
Pembangunan Indonesia) pada tahun 2011 untuk setiap provinsi di Indonesia (tidak termasuk
Kalimantan Utara). Jumlah observasinya adalah 33 observasi dengan jumlah variabel
sebanyak lima variabel. Indikator yang digunakan sebagai variabel diantaranya adalah :
AHH : Angka Harapan Hidup
PDRB : PDRB per kapita setiap provinsi di Indonesia
AMH : Angka Melek Huruf, yang merupakan rata-rata angka melek huruf laki-laki

dan perempuan di setiap provinsi


Konsumsi : Konsumsi masyarakat akan makanan dan non-makanan

Rata-rata Lama sekolah : merupakan rata-rata lama sekolah yang ditempuh

penduduk di suatu provinsi.


Berikut adalah sebagian data yang digunakan dalam kasus ini:

Provinsi
Aceh
Sumatera
Utara
Sumatera
Barat
Riau
Kepulauan
Riau
Jambi

AH
konsum lamasekol
H
PDRB AMH si
ah
69,2 6652,0
1
8 95,84 554055
8,85
67,6 9515,6
9
2 96,83 564565
8,8
67,8 8370,6
4
5
96,2 640348
8,4
70,3 9154,3
7
7 97,61 754634
8,6
70,0
9 5292,7 97,67 586786
8
68,5 7157,4
6
7 95,52 519312
7,8

2. Analisis dan Kesimpulan


Untuk menentukan jumlah faktor yang dapat terbentuk dari data tersebut, dilakukan
pengamatan terhadap Screeplot. Dari hasil program R, diperoleh Screeplotnya adalah sebagai
berikut:

Berdasarkan Screeplot tersebut, kurva mulai bergerak mendatar setelah angka 2


sehingga dapat disimpulkan bahwa dapat dihasilkan dua faktor untuk data tersebut.
Kemudian dilakukan perhitungan korelasi antar variabelnya sehingga dihasilkan matriks
korelasi yang terdapat di bawah ini :

AHH
PDRB
AMH
Konsumsi
lamaseko
lah

AHH

PDRB

AMH

Konsumsi

1.000000
0
0.370395
2
0.385715
8
0.402341
5
0.440228
5

0.370395
2
1.000000
0
0.214419
6
0.899392
2
0.624207
5

0.385715
8
0.214419
6
1.000000
0
0.121438
3
0.164341
9

0.402341
5
0.899392
2
0.121438
3
1.000000
0
0.705986
5

Lamaseko
lah
0.4402285
0.6242075
0.1643419
0.7059865
1.0000000

Dari hasil pengamatan, terdapat beberapa variabel yang memiliki korelasi atau
hubungan yang tinggi, diantaranya adalah hubungan antara variabel Konsumsi dengan PDRB
dengan korelasi sebesar 0,899. Kemudian hubungan antara lamasekolah dengan konsumsi
serta hubungan antara lamasekolah dengan PDRB yang diberi tanda merah pada matriks.

Dari matriks tersebut, adanya hubungan yang kuat antar beberapa variabel akan
memungkinkan data untuk bisa dilakukan analisis faktor. Namun, untuk lebih jauh, akan
dilakukan beberapa pengujian terhadap data untuk membuktikan apakah data tersebut cocok
untuk dianalisis dengan menggunakan analisis faktor. Pengujian dilakukan dengan
menggunakan Kaiser-Meyer-Olkin test dengan hasil nilainya adalah sebesar 0,67395.
Daripengujian juga dihasilkan nilai Measure of Sampling Adequate untuk maisng-masing
variabel yang nilainya juga lebih dari 0,5. Hal tersebut berarti variabel-variabel tersebut
masih bisa diprediksi dan dapat dianalisis lebih lanjut. Seperti yang terlihat di tabel bahwa
nilai uji Bartlett menunjukkan tingkat signifikasi yang signifikan yaitu sebesar 0,000. Dari

semua pengujian tersebut, dapat disimpulkan bahwa terdapat hubungan linier yang cukup
kuat antar variabel dalam data, sehingga dapat dilakukan analisis faktor lebih lanjut.
KaiserMeyer-Olkin

0,673593

Measure of Sampling Adequate


Konsu
lamasekol
AHH
PDRB
AMH
msi
ah
0,764
0,642
0,484
7
2
4
0,615
0,8447
Bartlett's Test of
Sphericity
X-squared
Df
p-value

82,996
10
1,29x10-13

Analisis Faktor yang dilakukan dalam program R menggunakan jumlah faktor sebanyak
2 (m=2) sesuai dengan hasil pengamatan Scree plot. Metode yang digunakan adalah
Maksimum Likelihood dengan tanpa rotasi. Hasilnya adalah sebagai berikut:
FACTOR ANALYSIS
m=2
rotation=none
method=MLE
Variable
AHH
PDRB
AMH
konsumsi
lamasekolah
Cumulative Variance

F1
F2
h2
u2
0,60
3
0,378
0,507
0,493
0,52
7
0
0,278
0,722
0,77
1
0,478
0,824
0,176
0,71
1 -0,699
0,995
0,005
0,78
1
0,621
0,995
0,005
0,47
1
0,72

F1 dan F2 merupakan faktor 1 dan faktor 2. H2 merupakan nilai communalitiy untuk


setiap variabel. Sedangkan u2 merupakan nilai faktor spesifik yang mana nilainya diperoleh
dari perhitungan 1-communality. Dari hasil loading faktor untuk setiap variabel, dapat
dikelompokkan variabel-variabel yang memiliki nilai korelasi yang tinggi dalam setiap faktor
sebagai sebuah faktor. Faktor pertama terdiri dari variabel lamasekolah yang memiliki nilai

korelasi paling tinggi yaitu sebesar 0,781. Diikuti variabel AMH, konsumsi dan AHH. Faktor
kedua terdiri dari satu variabel yaitu lamasekolah yang memiliki nilai korelasi yang tinggi.
Hasil ini tidak dapat digunakan karena terdapat variabel yang tidak konsisten nilai
korelasinya dan ada variabel yang nilai korelasi antar faktornya identik atau hampir sama.
Contohnya adalah variabel ke-4, lamasekolah yang punya nilai korelasi tinggi untuk kedua
faktor.
Oleh karena itu, dilakukan perhitungan ulang dengan menggunakan rotasi Varimax
dengan hasil sebagai berikut:
m=2
rotation=vari
max
MLE
Variable
AHH
PDRB
AMH
konsumsi
lamasekolah
Cumulative
Variance

F1
F2
h2
u2
0,378
0,368 0,507
0,493
0,891
0,171 0,278
0,722
0,12
0,996 0,824
0,176
0,995
0 0,995
0,005
0,7
0,13 0,995 0,005
0,484

0,72

Hasil perhitungan nilai loading faktor dengan menggunakan rotasi Varimax


menghasilkan hasil yang lebih baik dibanding sebelumnya. Nilai korelasi antar variabel sudah
lebih konsisten walaupun masih terdapat satu variabel yang memiliki nilai loading yang
identik untuk kedua faktor, variabel tersebut adalah Angka Harapan hidup. Nilai loading
untuk faktor 1 untuk variabel ini adalah sebesar 0,378 dan loading pada faktor 2 adalah
sebesar 0,368. Sedangkan variabel lainnya sudah memiliki loading yang cukup tinggi untuk
direduksi ke dalam faktor. Faktor pertama terdiri dari variabel PDRB, konsumsi dan
lamasekolah. PDRB dan konsumsi saling berkaitan dan bisa diberi label faktor ekonomi,
sedangkan variabel lamasekolah dalam faktor pertama tidak terlalu berkaitan dengan bidang
ekonomi. Kemudia faktor kedua terdiri dari satu variabel yaitu Angka Melek huruf yang
dapat diberi label sebagai faktor pendidikan.
Angka Harapan hidup yang memiliki loading faktor identik untuk kedua faktor tidak
dapat dikelompokkan kedalam faktor manapun. Kesimpulan sementara yang dapat diambil
dari hal tersebut adalah bahwa faktor tersebut mungkin seharusnya menjadi sebuah faktor
tersendiri sebagai faktor ketiga. Namun, dalam perhitungan menggunakan program R, tidak
dapat dilakukan perhitungan analisis faktor dengan menggunakan 3 buah faktor (m=3)

dikarenakan jumlah 3 faktor tersebut terlalu banyak untuk variabel dalam data yang
jumlahnya hanya 5 variabel. Mungkin hal tersebut bisa dilakukan jika digunakan lebih dari 5
variabel dalam data untuk dianalisis.

CLASSIFICATION (Reglog dan KNN)


a. Regresi Logistik
I. Data
Data yang digunakan adalah data The Contraceptive Use Data diperoleh dari
http://data.princeton.edu/wws509/datasets/cuse.raw. Memperlihatkan distribusi
dari 1607 wanita menikah dan wanita usia subur yang diwawancarai pada Fiji
Fertility Survey.

Variabel :
a. Age, dibagi menjadi 4 kategori : 1 (<25), 2 (25-29), 3 (30-39), 4(40-49)
b. Edu, dibagi menjadi 2 kategori : low dan high
c. Desire, keinginan untuk punya anak lagi : yes or no
d. Cuse, Menggunakan atau tidak alat kontrasepsi : yes or no
e. N, frekuensi

II.

Proses
1. Bagi data jadi 2, data training dan testing

2. Dummy in R

Reference sel untuk masing-masing variabel adalah <25 untuk variabel umur,
high untuk variabel pendidikan dan no untuk variabel keinginan untuk punya
anak lagi, mereka terpilih menjadi sel referensi karena muncul lebih awal
daripada kategori lainnya ( R mengikuti alphabet order).
3. Cari model
a. Simple model (model aditif sederhana di mana penggunaan kontrasepsi
tergantung pada usia, pendidikan dan keinginan punya anak lagi dan
frekuensi)

b. Model 2
(interaksi antara
usia
dan
keinginan
untuk punya
anak lagi)

c. Model 3 (interaksi antara pendidikan tinggi

dengan
keinginan
untuk punya
anak lagi)
4. Select model
Dipilih model
dengan
Akaike's
information
criterion
(AIC)
yang paling
rendah, yaitu model 3 dengan
nilai AIC 38.503.
5. Testing model
Output :

Model yang diperoleh dari data train dapat memberikan akurasi sekitar 71.42% ketika
diujikan ke data testing yang telah dibentuk sebelumnya.
b. KNN
a. Data yang digunakan
Data yang digunakan adalah Data User Modeling Dataset dari UCI Machine
Learning Repository. Data ini terdiri dari dua jenis data, data training dan data
testing. Data training berisi 258 observasi dan data testing berisi 145 observasi.
Masing masing data tersebut memiliki 6 variabel antara lain :
1. STG - The degree of study time for goal object materails
2. SCG - The degree of repetition number of user for goal object materails
3. STR - The degree of study time of user for related objects with goal object
4. LPR - The exam performance of user for related objects with goal object
5. PEG - The exam performance of user for goal objects
6. UNS - The knowledge level of user

Head dari dataset training dan testing

b. Proses
1. Bangun Prediction Model
Bisa diperoleh keakuratannya berdasarkan table berikut :

Sehingga diperoleh pengukuran akurasi sebesar :

2. Nilai k diubah-ubah dengan harapan akan mendapatkan nilai akurasi yang


lebih baik. Dilakukan 10 kali looping untuk nilai k.

Karena mengandung randomisasi maka untuk setiap kali running algoritma maka
akan menghasilkan hasil yang berbeda. Grafik diatas merupakan salah satu hasil
running dari algortima berdasarkan jumlah k nya.
3. Evaluasi peforma model

Dari crosstab ini dapat dilihat bahwa 26.2% observasi diprediksi secara akurat bahwa
tingkat pengetahuan penggunanya tinggi (high), 31.7% tepat diprediksi rendah (low), 15.9%
akurat diprediksi menengah (middle) dan 4.8% tepat diprediksi sangat rendah (very low).
Secara keseluruhan model dapat memprediksi secara akurat 78.6%. Untuk meningkatkan
keakuratan bisa melakukan running algoritma berkali kali untuk menemukan model yang
lebih tepat sehingga dapat meningkatkan akurasi.

LAMPIRAN
1. Function Uji Vektor Rata-Rata 1 Populasi
Varians Tidak Diketahui

HotellingsT2 <- function(x, rata, alfa)


UseMethod("HotellingsT2")
HotellingsT2.count <- function(x,mu,sig) {
#masukkan data, nilai mu, dan nilai signifikansi
##nilai t2
varY <- var(x)
d <- matrix(NA,ncol = ncol(x),nrow = 1)
for (i in 1:ncol(x)) {
d[i] <- mean(x[,i]) - mu[i]
}

t2 <- nrow(x) * d %*% solve(varY) %*% t(d)


chsq <- qchisq(1 - sig,ncol(x))
T2table <- ncol(x)*(nrow(x)-1)*qf(1-sig,ncol(x),nrow(x)-ncol(x))/(nrow(x)ncol(x))
res = FALSE
if (t2 > T2table) {
res = TRUE
}
list(
mu = mu,
Thitung = t2,
ChSqTabel = T2table,
result = res
)
}
HotellingsT2.default <- function(x,rata,alfa)
{
y <- as.matrix(x)
rata <- t(as.matrix(rata))
test1 <- HotellingsT2.count(y,rata,alfa)
test1$t.squared <- format(round(as.numeric(test1$Thitung),4),
nsmall=4)
test1$c.squared <- format(round(as.numeric(test1$ChSqTabel),4),
nsmall=4)
class(test1) <- "HotellingsT2"
test1
}
print.HotellingsT2 <- function(x, ...)
{
cat("==========================================
========================\n\n")
cat("T Hotelling 1 Population\n\n")
cat("H0: mu = [ ")
cat(paste(x$mu," "))
cat("]\n")
cat("H1: mu != [ ")
cat(paste(x$mu," "))
cat("]\n\n")
cat("Test:\n")
r1 <- cbind(" T-Squared",x$t.squared)
r2 <- cbind("T-2 Table", x$c.squared)
cat(cbind(r1,"\n",r2))
cat("\n\nDecision: ")
if (x$result)
cat("T-Squared > Hotelling's T2 Table, Reject H0\n")
else
cat("T-Squared < Hotelling's T2 Table, Fail to Reject H0\n")
cat("\n=========================================
=========================\n")
}

Varians Diketahui
HotellingsT2Var <- function(x, rata, var, alfa)
UseMethod("HotellingsT2Var")
HotellingsT2Var.count <- function(x,mu,sigma,sig) {
d <- as.matrix(colMeans(x) - mu)
z2 <- nrow(x) * (t(d) %*% solve(sigma) %*% d)
ch <- qchisq(1 - sig,2)
res = FALSE
if(z2>ch)
res=TRUE
list(z2 = z2,
chitabel = ch,
result = res)
}
HotellingsT2Var.default <- function(x,miu,var,sig)
{
x <- as.matrix(x)
miu <- as.matrix(miu)
var <- as.matrix(var)
test2 <- HotellingsT2Var.count(x,miu,var,sig)
test2$t.squared <- format(round(as.numeric(test2$z2),4), nsmall=4)
test2$c.squared <- format(round(as.numeric(test2$chitabel),4),
nsmall=4)
class(test2) <- "HotellingsT2Var"
test2
}

2. Function Uji Dua Sampel Berpasangan

t_hotelling_paired <- function(x, h0, alpha){


data <- as.matrix(data)
m <- ncol(data)
n <- nrow(data)
tmp <- m/2
tmp1 <- (m/2)+1
d <- matrix(nrow=n, ncol=tmp)
for (i in 1:tmp){
for (j in 1:n){
d[j,i] <- data[j,i]- data[j,(tmp+i)] } }
m <- ncol(d)
mean_d <- matrix(nrow = m , ncol = 1)
for (i in 1:nrow(mean_d)) {
mean_d[i] <- mean(d[,i]) }
selisih <- matrix(nrow = n , ncol = m)
for (i in 1:n){
for (j in 1:m){
selisih[i,j] <- d[i,j]- mean_d[j] } }
s <- matrix(nrow = m , ncol = m)
for (i in 1:nrow(s)) {
for (j in 1:ncol(s)) {
s[i, j] <- t(selisih[, i]) %*% selisih[, j] } }
s <- s/(n-1)

s_invers <- solve(s)


selisih_mean <- t(mean_d)-h0
T2 <- n %*% selisih_mean %*% s_invers %*% t(selisih_mean)
p <- ncol(d)
F <- qf(1-alpha,p,n-p)
nilai_kritis <- ((n-1)*p*F)/(n-p)
if(T2 > nilai_kritis){
cat("==========================================
=====================\n\n")
cat("T-Squared 2 Paired Observation\n\n")
cat("H0: d = [ 0 0 ]\n")
cat("H1: d != [ 0 0 ]\n\n")
cat("Test:\n")
cat(paste("\nT-Squared: ",T2,"\nT-2 Table:",nilai_kritis,"\nDecision: Reject
H0, T-Squared >
Hotelling's T-2 Table \n") ,sep="")
cat("==========================================
=====================\n\n")
}
else{
cat("\n\n========================================
======================\n")
cat("T Hotelling 2 Paired Observation\n\n")
cat("H0: d = [ 0 0 ]\n")
cat("H1: d != [ 0 0 ]\n\n")
cat("Test:\n")
cat(paste("\nT-Squared: ",T2,"\nT-2 Table:",nilai_kritis,"\n\nDecision:
Failed to Reject H0,
T-squared < Hotelling's T-2 Table\n") ,sep="")
cat("\n=================
============================================\n
\n")
}}

3. Function Uji 2 Sampel Independen


Varians Tidak Diketahui, Asumsi Varians Sama
HotellingsT2VarS <- function(x1, x2, alfa)
UseMethod("HotellingsT2VarS")

HotellingsT2VarS.count <- function(x1,x2,alfa) {


n1 <- nrow(x1)
p1 <- ncol(x1)
n2 <- nrow(x2)
p2 <- ncol(x2)
x.bar.1 <- mean(x1)
x.bar.2 <- mean(x2)
s1 <- var(x1)
s2 <- var(x2)
sp <- (1 / (n1 + n2 - 2)) * (((n1 - 1) * s1) + ((n2 - 1) * s2))

x.bar.d <- x.bar.1 - x.bar.2


t.sq <- (n1 * n2 / (n1 + n2)) * (t(x.bar.d) %*% solve(sp) %*% x.bar.d)
c.sq <- ((n1 + n2 - 2) * p1) / (n1 + n2 - p1 - 1) * qf((1 - alfa),p1,(n1 + n2 p1 - 1))
res <- FALSE
if (t.sq > c.sq)
{ res <- TRUE }
list(t.squared = t.sq,
c.squared = c.sq,
result = res)
}
HotellingsT2VarS.default <- function(x1,x2,alfa)
{
x1.conv <- as.matrix(x1)
x2.conv <- as.matrix(x2)
test3 <- HotellingsT2VarS.count(x1.conv,x2.conv,alfa)
test3$t.squared <- format(round(as.numeric(test3$t.squared),4),
nsmall=4)
test3$c.squared <- format(round(as.numeric(test3$c.squared),4),
nsmall=4)
class(test3) <- "HotellingsT2VarS"
test3
}
print.HotellingsT2VarS <- function(x, ...)
{
cat("==========================================
========================\n\n")
cat("T Hotelling 2 Independent Population\nVariance Unknown, Assumed
Same\n\n")
cat("H0: mu1 = mu2\n")
cat("H1: mu1 != mu2\n\n")
cat("Test:\n")
r1 <- cbind(" T-Squared", x$t.squared)
r2 <- cbind("Chi-2 Tab", x$c.squared)
cat(as.matrix(cbind(r1,"\n",r2)))
cat("\n\nDecision: ")
if (x$result)
cat("T-Squared > Chi Square Q, Reject H0\n")
else
cat("T-Squared < Chi Square Q, Fail to Reject H0\n")
cat("\n=========================================
=========================\n")
}

Varians Tidak Diketahui, Asumsi Varians Berbeda


HotellingsT2VarD <- function(x1, x2, alfa)
UseMethod("HotellingsT2VarD")
HotellingsT2VarD.count <- function(mat1, mat2, alfa) {
xbar1 <- colMeans(mat1)
xbar2 <- colMeans(mat2)
S1 <- var(mat1)

S2 <- var(mat2)
n1 <- nrow(mat1)
n2 <- nrow(mat2)
1 / n1 * S1
T2 <- as.numeric(t(xbar1 - xbar2) %*% solve((S1 / n1) + (S2 / n2)) %*%
(xbar1 - xbar2))
CsquareTabel <- qchisq(1 - alfa, df = ncol(mat1))
if (T2 > CsquareTabel) {
res = TRUE
} else { res = FALSE }
list(Thitung = T2,
Ttabel = CsquareTabel,
result = res) }
HotellingsT2VarD.default <- function(x1,x2,alfa)
{
x1.conv <- as.matrix(x1)
x2.conv <- as.matrix(x2)
test4 <- HotellingsT2VarD.count(x1.conv,x2.conv,alfa)
test4$t.squared <- format(round(as.numeric(test4$Thitung),4),
nsmall=4)
test4$c.squared <- format(round(as.numeric(test4$Ttabel),4), nsmall=4)
class(test4) <- "HotellingsT2VarD"
test4
}
print.HotellingsT2VarD <- function(x, ...)
{
cat("==========================================
========================\n\n")
cat("T Hotelling 2 Population\nVariance Unknown, Assumed
Different\n\n")
cat("H0: mu1 = mu2\n")
cat("H1: mu1 != mu2\n\n")
cat("Test:\n")
r1 <- cbind(" T-Squared",x$t.squared)
r2 <- cbind("T-2 Table", x$c.squared)
cat(as.matrix(cbind(r1,"\n",r2)))
cat("\n\nDecision: ")
if (x$result)
cat("T-Squared > Hotelling's T2 Table, Reject H0\n")
else
cat("T-Squared < Hotelling's T2 Table, Fail to Reject H0\n")
cat("\n=========================================
=========================\n")
}

4. Function Uji Manova Satu Arah (One-Way Manova)


gabungan <- read.csv(file =
"C:/Users/Lenovo/Music/independengabungan.csv", header=TRUE, sep=",")
Y <- gabungan[,c(1:3)]
provinsi <- c(gabungan[,4])

X2 <- data.frame(Y ,provinsi)


ManRes <- manova(cbind(AHH, AMH, RLS) ~ provinsi, data=X2 )
summary(ManRes, test="Wilks")
summary(ManRes, test="Pillai")
summary(ManRes, test="Roy")
summary.aov(ManRes)

5. Function Uji Manova Dua Arah (Two-Way Manova)

gabungan <- read.csv(file =


"C:/Users/Lenovo/Music/independengabungan2.csv", header=TRUE, sep=",")
Y <- gabungan[,c(1:3)]
provinsi <- c(gabungan[,4])
kota <- c(gabungan[,5])
X3 <- data.frame(Y,provinsi,kota)
manTW2<-manova(cbind(AHH, AMH, RLS)~provinsi*kota,data=X3)
summary(manTW2,test = "Pillai")
summary(manTW2,test = "Wilks")
summary(manTW2,test = "Roy")
summary.aov(manTW2)

6. Function Equality of Covariances Matrices


TestingForEqualityofCovarianceMatrix <- function(use, alpha){
col1 <- c(use[,1])
g <- max(col1)
p <- ncol(use)-1
#Get the element in each population store in list result
result <- vector("list",g)
for(i in 1:g) {
a<-use[,1]==i
result[[i]] <- use[a,-1] }
#Get n for each population
n <- c(rep(0,g))
for(i in 1:g ) {
n[i] <- nrow(result[[i]]) }
#covarians matrix
matrixcov <- vector("list",g)
for(i in 1:g) {
matrixcov[[i]] <- cov(result[[i]]) }
#Calculate Spooled
sum = 0
for(i in 1:g) {
sum = sum + (n[i]-1)*matrixcov[[i]] }
Spooled<-sum*(1/sum(n-1))
#Calculate A (likelihood ratio)
detS <- c(rep(0,g))
for(i in 1:g){
detS[i] <- det(matrixcov[[i]]) }
sum.a = 1
for(i in 1:g) {
sum.a = sum.a*(detS[i]/det(Spooled))^((n[i]-1)/2) }
A <- sum.a

#calculate M
summ = 0
for(i in 1:g) {
summ = summ + (n[i]-1)*log(detS[i]) }
M<-(sum(n-1))*log(det(Spooled))-summ
#Box's Test
u <- (sum(1/(n-1))-(1/sum(n-1)))*(((2*(p^2))+(3*p)-1)/(6*(p+1)*(g-1)))
C <- (1-u)*M
#criticalvalue
v <- 0.5*p*(p+1)*(g-1)
critvalue <- qchisq((1-alpha),v)
}

7. PCA (Principal Component Analysis)

pca <- read.csv("~/Tingkat 4KS2/APG/tugas akhir/pca.csv", row.names=1,


sep=";")
View(pca)
x.pca <- pca[,-1]
row.names(x.pca) <- c(1:38)
colnames(x.pca) <- c("X1","X2","X3","X4","X5","X6","X7")
View(x.pca)
library(MVN)
mardiaTest(x.pca,qqplot = TRUE)
library(mvoutlier)
tes <- chisq.plot(x.pca)
out <- tes$outliers
x.pca <- x.pca[-out,]
mardiaTest(x.pca,qqplot = TRUE)
round(cor(x.pca), 2)
plot(x.pca)
AKB_pca <- prcomp(x.pca, scale = TRUE)
AKB_pca
summary(AKB_pca)
plot(AKB_pca)
plot(AKB_pca,type="l", lwd=2)
biplot(AKB_pca,choices = c(1,2))
biplot(AKB_pca,choices = c(1,3))
biplot(AKB_pca,choices = c(2,3))

8. Clustering
data<-read.csv(file = "D:/kuliah/tugas/factor analy/kejahatan dan tenaga
kerja.csv",header = T)
data<-data.frame(data)
data2<-data[,-1]
rownames(data2)<-data[,1]
data2sc<-scale(data2)
distData<-dist(data2)
res1 <- hclust(distData , method="single")
plot(res1)
rect.hclust(res1,k=4)
res2 <- hclust(distData , method="complete")
plot(res2)
rect.hclust(res2,k=4)
res3 <- hclust(distData , method="average")

plot(res3)
rect.hclust(res3,k=4)
library(fpc)
kMres<-kmeans(data2sc,centers = 4)
kMres$cluster
kMres
plotcluster(data2sc,kMres$cluster)
pairs(data2sc,col=c(1:4)[kMres$cluster])
kMres2<-kmeans(data2sc,centers = 3)
plotcluster(data2sc,kMres2$cluster)
pairs(data2sc,col=c(1:3)[kMres2$cluster])

9. Factor Analysis

getwd()
setwd("C:/Users/Acer/Documents/R")
dat<-read.csv2("apg fa.csv")
head(dat)
dat<-dat[-1]
dat<-as.matrix(dat)
cordat<-cor(dat)
library(corrplot)
corrplot(cor(dat), order = "hclust", tl.col='black', tl.cex=.75)
Screeplotdata <- prcomp(dat,scale=T)
screeplot(Screeplotdata, type="lines", col=6)
kmo <- function(x) {
x <- subset(x, complete.cases(x)) # Omit missing values
r <- cor(x) # Correlation matrix
r2 <- r^2 # Squared correlation coefficients
i <- solve(r) # Inverse matrix of correlation matrix
d <- diag(i) # Diagonal elements of inverse matrix
p2 <- (-i/sqrt(outer(d, d)))^2 # Squared partial correlation coefficients
diag(r2) <- diag(p2) <- 0 # Delete diagonal elements
KMO <- sum(r2)/(sum(r2)+sum(p2))
MSA <- colSums(r2)/(colSums(r2)+colSums(p2))
return(list(KMO=KMO, MSA=MSA)) }
kmo(dat)
Bartlett.sphericity.test <- function(x) {
method <- "Bartlett's test of sphericity"
data.name <- deparse(substitute(x))
x <- subset(x, complete.cases(x)) # Omit missing values
n <- nrow(x)
p <- ncol(x)
chisq <- (1-n+(2*p+5)/6)*log(det(cor(x)))
df <- p*(p-1)/2
p.value <- pchisq(chisq, df, lower.tail=FALSE)
names(chisq) <- "X-squared"
names(df) <- "df"
return(structure(list(statistic=chisq, parameter=df, p.value=p.value,
method=method, data.name=data.name), class="htest")) }

Bartlett.sphericity.test(dat)
#rotation=none
factanal(dat, 2, rotation="none", method="mle")
fac<-factanal(dat, factor=2, rotation = "varimax", method="mle")
colnames(fac$loadings)<-c("ekonomi", "Pendidikan")
print(loadings(fac), digits=3, sort=T)
#another factanal code
#get missing loading value
library(GPArotation)
far <- fa(dat, nfactors=2,rotate="quartimax", fm="ml")
far

10. Classification
a. Regresi Logistik

cuse <- read.table("http://data.princeton.edu/wws509/datasets/cuse.dat",


header=TRUE)
datause <- datareglog
colnames(datause) <- c("age", "edu", "desire", "cuse", "n")
train <- datause[1:28,]
test <- datause[29:32,]
#create factor
datause$age <- factor(datause$age)
levels(datause$age)<- c("<25", "25-29", "30-39", "40-49")
datause$edu<-factor(datause$edu)
levels(datause$edu)<- c("low", "high")
datause$desire<-as.factor(datause$desire)
levels(datause$desire)<- c("yes", "no")
datause$cuse<-as.factor(datause$cuse)
levels(datause$cuse)<- c("no", "yes")
contrasts(datause$edu)
#Cek Missing Value
sapply(cuse,function(x) sum(is.na(x)))
#Show dummy
contrasts(datause$age)
contrasts(datause$edu)
contrasts(datause$desire)
contrasts(datause$cuse)
#Model Fitting
#model 1
lrfit1 <- glm( cuse ~ age + edu + desire + n , family =
binomial(link="logit"),data = train)
summary(lrfit1)
noMore <- train$desire == "no" #base
hiEduc <- train$edu == "high" #base
#Model 2 interaction between age and desire for no more children

lrfit2 <- glm( cuse ~ age * noMore + hiEduc + n, family=binomial(link =


"logit"),data = train)
summary(lrfit2)
#Model 3
lrfit3 <- glm(cuse ~ age + noMore * hiEduc + n , family=binomial(link =
"logit"), data=train )
summary(lrfit3)
#test model
levels(test$cuse) <- c(0,1)
predict(object = lrfit3,type = 'response')
fitted.results <- predict(lrfit3,type='response')
fitted.results <- ifelse(fitted.results > 0.5,1,0)
misClasificError <- mean(fitted.results != test$cuse )
print(paste('Accuracy',1-misClasificError))

b. K Nearest Neighbors (KNN)

library(class)
train_label <- train_knn[,6]
test_label <- test_knn[,6]
Model <- knn(train = train_knn[,-6], test = test_knn[,-6], cl = train_label,
k = 10)
table(prediction,test_label)
mean(prediction==test_label)
Accuracy <- rep(0,10)
k <- 1:10
for(x in k){
prediction <- knn(train = train_knn[,-6], test = test_knn[,-6], cl =
train_label, k = x)
Accuracy[x]<- mean(prediction==test_label)
}
plot(k,Accuracy, type = "b")
#peforma model
library(gmodels)
CrossTable(x = test_label,y = Model, prop.chisq = FALSE)

You might also like