You are on page 1of 7

Rivan Destyanugraha 12.

7351 Tugas Review Jurnal Analisis Regresi 3KS1


Dalam konteks analisis regresi linier, terdapat dua jenis regresi linier, yaitu regresi linier
sederhana dan regresi linier berganda. Dimana konsep regresi linier berganda dibangun di atas teori
dasar regresi linier sederhana. Maka, perlu dipahami konsep-konsep dasar dari regresi linier sederhana
sebelum memasuki regresi linier berganda. Berdasar hal tersebut, jurnal ini membahas konsep dasar
regresi linier sederhana dan menjelaskan mengenai regresi linier berganda.
Pertama, dibahas mengenai regresi linier sederhana. Regresi linier sederhana bertujuan untuk
menggambarkan hubungan yang linier atau segaris antara variabel hasil atau terkait (biasanya
disimbolkan dengan y) dengan variabel penjelas atau bebas yang disimbolkan dengan x. Untuk melihat
apakah antara variabel x dengan variabel y berhubungan secara linier atau tidak, akan lebih mudah jika
data yang tersedia digambarkan ke dalam diagram titik atau scatter diagram. Jika data membentuk pola
hubungan yang linier, maka hubungannya dapat digambarkan ke dalam persamaan:
=+

(1)

Jika data adalah sampel tertentu dari suatu populasi, persamaan (1) dapat diestimasi dengan
persamaan:
= +

(2)

dimana
: nilai estimasi dari variabel bebas Y, yaitu nilai tertentu yang dihasilkan dari suatu nilai dari variabel
bebas x
a : nilai estimasi dari nilai dari populasi, dimana a menyatakan intersep dari garis yang diestimasi,
yaitu nilai Y ketika x = 0.
b : nilai estimasi dari nilai dari populasi, dimana b menyatakan nilai gradien (kemiringan) atau
koefisien regresi dari garis yang diestimasi ataupun dapat dikatakan sebagai rata-rata perubahan y dalam
setiap perubahan nilai x.
Parameter a selanjutnya disebut intercept dan parameter b selanjutnya disebut slope.
Selanjutnya, dari parameter a dan parameter b dapat diestimasi standard error-nya, dapat ditentukan
selang kepercayaan (confidence interval)-nya, dan, jika dibutuhkan, dapat digambarkan selang
kepercayaan dari titik ataupun garis regresinya.
Untuk menguji apakah parameter slope bernilai nol atau tidak, dapat diuji dengan menggunakan
uji-t, dengan statistik ujinya:

= ()

Review of Journal Further statistics in dentistry Part 6: Multiple linear regression


by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

(3)

2
dimana pendekatan tersebut mengikuti distribusi-t dengan derajat bebas n-2. Jika terbukti terdapat
hubungan (atau slope yang diuji terbukti signifikan), garis regresinya dapat digunakan untuk
mengestimasi nilai variabel hasil (y) berdasarkan data nilai variabel bebas (x) yang tersedia.
Koefisien korelasi menjelaskan ukuran hubungan linier antar dua variabel. Nilai korelasi dalam
populasi (), diestimasi dalam sampel dengan r. Nilai koefisien korelasi antara 1 1, dan tanda
positif negatifnya menandakan arah kemiringan dari garis regresinya. Untuk mengetahui hubungan
linier antar variabel, dapat dilakukan uji signifikansi dengan hipotesis nol = 0. Namun karena
terdapat hubungan matematis antara koefisien korelasi dan slope dari garis regresi, dapat juga dikatakan
jika slope signifikan tidak sama dengan nol, maka koefisien korelasinya juga akan tidak sama dengan
nol.
Kesesuaian model regresi atau persamaan regresi dapat diinvestigasi dengan menghitung
kuadrat dari estimasi koefisien korelasi (r2). Nilai tersebut menggambarkan proporsi variabilitas y yang
dijelaskan oleh hubungan linier antara x dan y. Biasanya dikalikan dengan 100 dan dijelaskan dalam
persentase.
Regresi linier berganda merupakan perluasan dari regresi linier sederhana dengan lebih dari
satu variabel penjelas yang dimasukkan ke dalam model. Pada regresi linier berganda, biasanya
difokuskan dalam penentuan apakah variabel penjelas tertentu, xi , memiliki pengaruh yang signifikan
pada y setelah memasukkan pengaruh dari variabel penjelas lain. Selanjutnya, dapat diketahui pengaruh
gabungan dari variabel penjelas sebanyak k tersebut pada variabel y, dengan membentuk model yang
sesuai yang dapat digunakan untuk mengestimasi nilai y.
Persamaan regresi linier berganda dalam populasi dideskripsikan sebagai:
= + 1 1 + 2 2 + +

(4)

Persamaan tersebut diestimasi dalam sampel dengan:


= + 1 1 + 2 2 + +

(5)

dimana
: nilai estimasi dari variabel terikat Y, untuk sekumpulan nilai tertentu dari variabel penjelas
1 , 2 , , .
a : konstanta (intersep), nilai estimasi dari .
: hasil estimasi koefisien regresi parsial (rata-rata perubahan y untuk setiap perubahan unit ,
menyesuaikan untuk nilai x lain), mengestimasi nilai dalam populasi.

Review of Journal Further statistics in dentistry Part 6: Multiple linear regression


by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

3
Pada saat ini, jarang sekali regresi linier berganda dikerjakan secara manual, lebih sering
dikerjakan lewat komputer. Untuk mencari selang kepercayaan 95% untuk dapat dihitung dengan
0,05 ( ), dimana 0,05 adalah nilai dari distribusi-t yang bersesuaian dengan peluang 0,05 dua
ekor (two-tail probability) dan ( ) adalah estimasi standard error dari .
Pendekatan kesesuaian model pada regresi linier berganda sama dengan pada regresi linier
sederhana, menggunakan R2 atau sering disebut koefisien determinasi dimana R2 menggambarkan
proporsi dari total variabilitas y yang dijelaskan oleh hubungan linier y dengan semua x, dan memberi
indikasi kesesuaian model. Namun, tidak cocok untuk membandingkan nilai R2 dari persamaan regresi
berganda yang memiliki jumlah variabel penjelas yang berbeda. Karena nilai R2 akan membesar untuk
model tersebut jika mengandung variabel penjelas yang lebih besar. Maka, digunakanlah adjusted- R2
sebagai pengganti R2 biasa.
Output dari program komputer untuk analisis regresi berganda biasanya akan menyertakan
tabel Analysis of Variance (ANOVA). Tabel ANOVA digunakan untuk menilai apakah paling sedikit
satu dari variabel penjelas memiliki hubungan linier yang signifikan dengan variabel terikatnya.
Hipotesis nol nya adalah semua koefisien regresi parsial dalam model adalah nol. Tabel ANOVA
membagi varians total dari variabel terikat ke dua komponen; yang terkait dengan hubungan antara y
dengan semua x dan varians residual. Dua varians ini dibandingkan dalam tabel dengan menghitung
rasionya dimana rasio tersebut mengikuti distribusi-F sehingga P-value nya dapat ditentukan. Jika Pvalue nya kecil, dapat dikatakan hipotesis nol nya benar.
Jika hasil dari uji-F adalah signifikan yang mengindikasikan paling sedikit satu dari variabel
penjelas memiliki hubungan yang independen dengan variabel hasil, maka penting untuk menentukan
variabel bebas mana yang merupakan variabel yang berpengaruh bagi hasil. Tiap koefisien regresi
dalam model dapat diuji dengan statistik uji yang mengikuti distribusi-t dengan derajat bebas n k 1,
dimana n adalah ukuran sampel dan k adalah jumlah variabel penjelas dalam model. Statistik uji ini
sama dengan statistik uji pada regresi linier sederhana, yaitu rasio dari koefisien estimasi dengan
standard error-nya.
Output komputer mengandung tabel yang biasanya menunjukkan nilai konstanta dan koefisien
parsial regresi yang telah diestimasi dengan standard error-nya, nilai statistik uji dari masing-masing
koefisien, dan P-value nya. Dari informasi ini, persamaan regresi nya dapat dibentuk, dan keputusan
dapat dibuat mengenai variabel penjelas mana yang berhubungan signifikan secara independen dengan
hasil. Jika persamaan digunakan untuk prediksi, maka analisis dapat dijalankan kembali dengan
menggunakan variabel penjelas yang signifikan saja. Sehingga persemaan regresi berganda baru dapat
dibentuk, yang mungkin menghasilkan nilai koefisien parsial regresi yang berbeda dari sebelumnya.

Review of Journal Further statistics in dentistry Part 6: Multiple linear regression


by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

4
Penting dalam membentuk model, tidak memasukkan terlalu banyak variabel penjelas dalam
model. Sehingga, pada umumnya disepakati bahwa model yang baik harus melibatkan tidak lebih dari
n/10 variabel penjelas, dimana n adalah jumlah sampel yang terlibat.
Pendekatan yang biasa dilakukan untuk membentuk model adalah memasukkan variabel
penjelas yang signifikan terkait dengan variabel hasil ketika masing-masing variabel diuji terpisah. Jadi,
jika variabel penjelas adalah biner, maka yang mungkin akan dilakukan adalah uji-t dua sampel untuk
menentukan apakah nilai rata-rata dari variabel hasil berbeda dalam dua kategori dari variabel penjelas.
Jika variabel penjelas adalah kontinu, maka slope yang signifikan dalam analisis regresi linier sederhana
akan memberi saran bahwa variabel ini harus dimasukkan ke dalam model regresi berganda.
Jika tujuan dari analisis regresi berganda adalah memperoleh pemahaman dari hubungan antara
variabel hasil dengan penjelas dan pengetahuan akan pengaruh independen dari masing-masing variabel
tersebut, maka masukkan semua variabel yang relevan ke dalam model merupakan salah satu cara untuk
memproses. Namun, terkadang tujuan dari analisis adalah memperoleh model yang paling cocok yang
dapat digunakan untuk memprediksi variabel hasil. Maka, pendekatan yang digunakan untuk situasi ini
adalah memasukkan semua variabel penjelas yang relevan ke dalam model, amati mana yang signifikan,
dan diperoleh model regresi berganda yang padat dengan mengulang analisis hanya menggunakan
variabel yang signifikan.
Pendekatan alternatifnya adalah prosedur pemilihan otomatis, biasanya ditawarkan oleh banyak
paket program statistik. Satu dari cara otomatis yang dapat dipilih :

All subsets selection : setiap kombinasi dari variabel penjelas diselidiki dan yang menghasilkan
kesesuaian paling baik, yang digambarkan oleh nilai dari beberapa kriteria misal adjusted R2,
dipilih.

Forwards (step-up) selection : langkah pertamanya membuat model sederhana dengan satu
variabel penjelas yang memberikan nilai R2 tertinggi ketika dibandingkan dengan semua model
lain dengan satu variabel. Selanjutnya, variabel kedua ditambahkan ke model yang sudah ada
jika variabel tersebut lebih baik dibanding variabel lain dalam menjelaskan variabilitas yang
tersiasa dan menghasilkan model yang secara signifikan lebih baik (mengikuti beberapa
kriteria) dibanding langkah sebelumnya. Proses ini terus diulang hingga penambahan variabel
lebih lanjut tidak secara signifikan meningkatkan kualitas model.

Backwards (step-down) selection : langkah pertama membuat model full yang memasukkan
semua variabel. Langkah selanjutnya menghilangkan variabel yang paling sedikit berpengaruh
signifikan dari model, dan mempertahankan model yang telah dikurangi jika tidak memburuk
secara signifikan (berdasar kriteria tertentu) dibanding model pada langkah sebelumnya. Proses
ini terus diulang hingga penghapusan variabel lebih lanjut tidak secara signifikan merugikan.

Review of Journal Further statistics in dentistry Part 6: Multiple linear regression


by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

Stepwise selection : merupakan gabungan dari cara forward selection dan backward selection.
Intinya merupakan forward selection, tetapi mengizinkan variabel yang telah masuk ke dalam
model untuk dihapus, dengan memeriksa semua variabel yang telah masuk yang masih
dibutuhkan.
Penting untuk dicatat bahwa prosedur pemilihan otomatis ini mungkin mengarah ke model yang

berbeda, terutama jika terdapat variabel penjelas yang berkorelasi kuat, misal pada kasus kolinearitas.
Pada kasus ini, akan dijumpai masalah dalam penentuan model ataupun model yang dihasilkan tidak
masuk akal. Maka penting, untuk menerapkan logika umum dan mampu untuk menyesuaikan model
dalam konteks biologis dan/atau klinis ketika memilih model yang paling cocok.
Dimungkinkan bagi suatu variabel kategorik masuk ke dalam model regresi berganda. Jika
variabel penjelas bersifat biner atau dikotomi, maka kode numerik dipilih untuk dua respon, biasanya 0
dan 1. Contohnya adalah jenis kelamin. Variabel dummy ini dimasukkan ke dalam model layaknya
variabel numerik biasa. Koefisien parsial regresi dari variabel dummy diinterpretasikan sebagai ratarata perubahan y pada setiap perubahan unit dari variabel dummy, setelah menyesuaikan variabel
penjelas lain dalam model. Begitu juga perbedaan rata-rata nilai y dalam dua variabel penjelas
mengindikasikan rata-rata untuk satu variabel penjelas lebih besar dari variabel lainnya.
Jika dua kategori dari variabel penjelas merepresentasikan perlakuan yang berbeda, maka
diperlukan pendekatan yang disebut analysis of covariance untuk memasukkan variabel tersebut ke
dalam persamaan regresi berganda. Dengan analisis regresi berganda, dapat diukur pengaruh dari
perlakuan pada variabel hasil, setelah menyesuaikan variabel penjelas lain dalam model.
Ketika variabel penjelas kualitatif, memiliki respon lebih dari 2 kategori, dan kategori nya dapat
diberi kode numerik pada skala interval, maka variabel ini dapat diperlakukan seperti variabel numerik
untuk pemakaian regresi berganda. Namun, jika kategorinya tidak dapat diinterpretasikan dalam
kerangka aritmatika, maka harus dibuat (k 1) variabel dummy biner harus dibuat, dimana k adalah
jumlah kategori dari variabel nominal. Kategori dasar dipilih terhadap semua kategori yang akan
dibandingkan, kemudian setiap variabel dummy dibuat yang dapat membedakan satu kategori yang
diinginkan dari kategori dasar.
Dimungkinkan untuk membentuk model regresi linier berganda yang menghubungkan
sejumlah variabel penjelas ke variabel terikat yang biner. Namun, karena variabel terikatnya tidak
berdistribusi normal dan tidak dapat diinterpretasikan jika nilai estimasinya bukan 0 atau 1, analisis
regresi berganda tidak dapat digunakan. Untuk itu, digunakanlah transformasi khusus yang diambil dari
nilai peluang, p, salah satu dari dua hasil dari variabel terikatnya, yang kemudian disebut transformasi

logistik atau logit, dimana () = [1]. Proses perulangan khusus, disebut maximum
likelihood, digunakan untuk estimasi koefisien dari model menggantikan metode kuadrat-terkecil.
Review of Journal Further statistics in dentistry Part 6: Multiple linear regression
by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

6
Menghasilkan persamaan regresi logistik berganda, atau biasa disingkat regresi logistik, berbentuk
:
= [

]
1

= + 1 1 + 2 2 + +

(6)

dimana P adalah nilai yang diestimasi oleh p, proporsi sukses dari yang diamati.
Dimungkinkan untuk melakukan uji signifikansi pada koefisien persamaan logistik untuk
menentukan variabel penjelas mana yang penting mempengaruhi hasil yang dicari. Estimasi dari
koefisien, selang kepercayaan yang relevan, statistik uji, dan P-value biasanya termuat dalam tabel
seperti output pada regresi berganda.
Perlu diketahui bahwa pangkat dari tiap koefisien diinterpretasikan sebagai odds ratio dari hasil
ketika nilai dari variabel penjelas yang terkait ditambah satu, setelah menyesuaikan variabel penjelas
lain dalam model. Odds ratio dapat dilihat sebagai estimasi dari relative risk jika peluang hasil yang
diharapkan rendah. Relative risk bernilai satu menandakan dua perlakuan sama efektifnya, sedangkan
jika dua menandakan perlakuan yang satu dua kali lebih efektif dibanding perlakuan kedua.
Model logistik dapat juga digunakan untuk memprediksi peluang hasil, untuk nilai tertentu
dimana nilainya diketahui untuk seluruh variabel penjelas. Lebih lanjut lagi, persentase dari masingmasing sampel diestimasi dengan benar dengan model sebagai sukses atau gagal misal, dapat
ditunjukkan dalam tabel klasifikasi, sebagai cara menilai sejauh mana model dapat digunakan untuk
prediksi.
Asumsi yang menjadi dasar analisis regresi perlu diuji dalam regresi, baik linier maupun
berganda, untuk menjamin model yang digunakan valid. Asumsi yang paling mudah dinyatakan dalam
suatu nilai adalah residual yang ditentukan oleh program komputer dalam analisis regresi. Residual
adalah perbedaan nilai obervasi dengan nilai yang dibentuk model.
Asumsi yang dimaksud adalah :

Residual berdistribusi normal. Mudah sekali dicek dengan melihat histogram dari residual,
dimana distribusinya harus simetris sekitar rata-rata nol.

Residual memiliki variabilitas yang konstan untuk semua nilai fitted y. Paling mudah dicek
dengan membuat plot residual terhadap nilai estimasi, y, dimana hasilnya harus memproduksi
titik-titik yang acak dan harus tidak menunjukkan efek corong.

Hubungan antara y dan setiap variabel penjelas adalah linier. Paling mudah dilihat dengan
membuat plot residual terhadap nilai variabel penjelas, dimana plot hasilnya harus
menghasilkan titik-titik yang acak.

Review of Journal Further statistics in dentistry Part 6: Multiple linear regression


by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

Observasi harus bersifat independen. Asumsi ini terpenuhi jika setiap sampel direpresentasikan
hanya sekali.
Jika terdapat kekhawatiran tentang asumsi, yang paling penting adalah linieritas dan

independensi, transformasi dapat dilakukan baik terhadap y, atau salah satu atau beberapa x, atau
keduanya, dan persamaan regresi berganda yang baru dapat ditentukan.

Review of Journal Further statistics in dentistry Part 6: Multiple linear regression


by A. Petrie, J. S. Bulman, dan J. F. Osborn
http://www.nature.com/bdj/journal/v193/n12/full/4801659a.html

You might also like