You are on page 1of 18

Analisis korespondensi adalah suatu ilmu yang mempelajari hubungan anatara dua atau lebih

peubah kualitatif, yaitu dengan teknik eksplorasi data secara grafik untuk table kontingensi
dan data kategori multivariate.
Berdasarkan kegunaannya, analisis korespondensi dan analisis komponen utama memiliki
kesamaan, yaitu suatu metode yang digunakan untuk mereduksi dimensi data menjadi
dimensi yang lebih kecil dan sederhana. Sedangkan letak perbedaannya adalah bahwa analisis
komponen utama lebih tepat untuk data dengan skala pengukuran kontinu sedangkan analisis
korespondensi lebih tepat digunakan untuk data kategori.
Analisis hubungan menggambarkan secara grafik profil baris dan profil kolom dari suatu
matrik data dari table kontingensi dua arah sebagai titik-titik pada ruang vector berdimensi
dua.

6.5 Analisis Korespondensi
Pengantar
Analisis korespondensi adalah teknik eksplorasi data yang analitik dirancang untuk
menganalisis tabel dua arah dan multi-cara sederhana yang berisi beberapa ukuran
korespondensi antara baris dan kolom. Sebagai lawan uji hipotesis tradisional yang dirancang
untuk memverifikasi hipotesis apriori tentang hubungan antara variabel, eksplorasi analisis
data yang digunakan untuk mengidentifikasi hubungan sistematis antara variabel ketika tidak
ada (atau kurang lengkap) harapan yang apriori sebagai sifat dari hubungan tersebut.
Analisis korespondensi juga merupakan (multivariat) data yang deskriptif teknik analitik.
Bahkan statistik yang paling umum digunakan untuk penyederhanaan data mungkin tidak
memadai untuk deskripsi atau pemahaman dari data. Penyederhanaan data memberikan
informasi yang berguna tentang data, tapi itu tidak harus mengorbankan informasi yang
berharga. Analisis korespondensi sangat menyederhanakan data yang kompleks dan
memberikan penjelasan rinci dari hampir setiap bit informasi dalam data, menghasilkan
analisis, sederhana namun lengkap.
Analisis korespondensi memiliki beberapa fitur yang membedakannya dari teknik analisis
data lain. Sebuah fitur penting dari analisis korespondensi adalah perawatan multivariat data
melalui pertimbangan simultan dari beberapa variabel kategori. Sifat multivariat analisis
korespondensi dapat mengungkapkan hubungan yang tidak akan terdeteksi dalam
serangkaian perbandingan bijaksana sepasang variabel. Fitur lain yang penting adalah
tampilan grafis dari baris dan kolom di biplots poin, yang dapat membantu dalam mendeteksi
hubungan struktural antara kategori variabel dan objek (yaitu, kasus). Akhirnya, analisis
korespondensi memiliki persyaratan data yang sangat fleksibel. Satu-satunya data yang ketat
persyaratan adalah data matriks persegi panjang dengan non-negatif entri. Analisis
korespondensi yang paling efektif jika kondisi berikut ini terpenuhi:
- Matriks data cukup besar, sehingga inspeksi visual atau analisis statistik sederhana tidak
dapat mengungkapkan struktur
- Variabel adalah homogen, sehingga masuk akal untuk menghitung jarak statistik antara
baris atau kolom.
- Matriks data adalah apriori "amorf", yaitu., Strukturnya tidak diketahui atau kurang
dipahami.
Sebuah keuntungan yang berbeda dari analisis korespondensi lebih dari metode lain yang
menghasilkan tampilan grafis bersama adalah bahwa hal itu menghasilkan dua dual display
yang baris dan kolom geometri memiliki interpretasi yang sama, analisis dan deteksi
memfasilitasi hubungan. Dalam pendekatan multivariat lain untuk representasi data grafis,
dualitas ini tidak hadir.
Singkatnya, analisis korespondensi (CA) dapat didefinisikan sebagai kasus khusus dari
analisis komponen utama (PCA) dari baris dan kolom dari sebuah tabel, terutama berlaku
untuk tabulasi silang. Namun CA dan PCA digunakan di bawah keadaan yang berbeda.
Analisis komponen utama digunakan untuk tabel yang terdiri dari pengukuran kontinyu,
sedangkan analisis korespondensi diterapkan untuk tabel kontingensi (yaitu. Lintas-tabulasi).
Tujuan utamanya adalah untuk mengubah tabel informasi numerik menjadi tampilan grafis,
di mana setiap baris dan setiap kolom digambarkan sebagai sebuah titik.
Prosedur biasa untuk menganalisis tabulasi silang adalah untuk menentukan probabilitas
hubungan global antara baris dan kolom. Pentingnya asosiasi diuji dengan uji Chi-square,
tetapi tes ini tidak memberikan informasi tentang asosiasi yang signifikan antara individu
baris-kolom pasang matriks data. Analisis korespondensi menunjukkan bagaimana variabel-
variabel yang terkait, bukan hanya bahwa ada hubungan.
Dasar Konsep dan Definisi
Ada konsep-konsep dasar tertentu dalam analisis korespondensi: yang dijelaskan di bawah.
Primitif matriks
Matriks data asli, N (I, J), atau tabel kontingensi, disebut matriks primitif atau meja primitif.
Elemen-elemen dari matriks ini adalah n
ij.

Profil
Sementara menafsirkan cross-tabulasi, masuk akal sedikit untuk membandingkan frekuensi
dalam setiap sel. Setiap baris dan kolom masing-masing memiliki nomor yang berbeda dari
responden, yang disebut basis responden. Sebagai perbandingan adalah penting untuk
mengurangi baik baris atau kolom ke basis yang sama.
Pertimbangkan sebuah tabel kontingensi N (I, J) dengan I baris (i = 1, 2, I) dan kolom J (j =
1,2, ..., J) memiliki frekuensi n
il.
Frekuensi marjinal dinotasikan dengan n dan n
i

+ j



Total frekuensi diberikan oleh

Baris profil
Profil dari setiap baris i adalah vektor dari kepadatan bersyarat:


Set lengkap dari profil baris dapat dilambangkan oleh I J matriks R.
Matriks Profil Row
BARIS KOLOM TOTAL
1 2 J
1.
2.
3.
.
Saya




.


............


............


............

.


............


1
1
1

1

Kolom massa


1
Kolom Profil
Profil dari masing-masing kolom j adalah vektor dari kepadatan bersyarat .
Set lengkap profil kolom dapat dinotasikan oleh (i 0) matriks C.
Matriks Profil Kolom
BARIS KOLOM BARIS MASSAL
1 2 J
1.
2.
3.
.
Saya




.


............


............


............

.


............







Kolom massa 1 ... 1 1 1
Rata-rata profil baris = N
+ j
/ N (J = 1, 2, .... J)
Rata-rata kolom profil = N
i

+
/ N (I = 1, 2, ..., saya.)
Misa
Konsep lain yang mendasar dalam analisis korespondensi adalah konsep massa. Massa dari
baris
ke-i
=
Marjinal frekuensi baris
ke
i / Total Agung
= N
+ i
/ n
Demikian pula massa dari kolom
ke-j
=
Marjinal frekuensi
ke
j kolom total / Agung
= N
j

+
/ n
Korespondensi matriks
Matriks korespondensi P didefinisikan sebagai tabel asli N dibagi oleh besar Total n, P = (1 /
n) N. Jadi, setiap sel dari matriks korespondensi diberikan oleh frekuensi sel dibagi dengan
grand total.
Matriks korespondensi menunjukkan bagaimana satu unit massa adalah didistribusikan di
seluruh sel. Baris dan total kolom dari matriks korespondensi adalah massa dan massa baris
kolom, masing-masing.
Awan Poin N (I) dan N (J)
Awan titik N (I) adalah himpunan dari unsur poin i e I, yang koordinat merupakan komponen
dari profil dan yang massanya
Awan titik N (J) adalah himpunan dari unsur poin j e J, yang koordinat-koordinatnya adalah
komponen profil dan yang massanya adalah n
j

+
/ n
+ +.

Jarak
Sebuah varian dari jarak Euclidean, yang disebut jarak Euclidean berbobot, digunakan untuk
mengukur dan dengan demikian menggambarkan jarak antara titik profil. Di sini, bobot
mengacu pada pembobotan diferensial dari dimensi ruang dan tidak bobot profil.
Jarak antara dua baris i dan i ' diberikan oleh

Dalam mode simetris, jarak antara dua kolom j dan j ' diberikan oleh

Jarak yang diperoleh disebut jarak Chi-square. Jarak Chi-square berbeda dari jarak Euclidean
biasa di masing-masing persegi dibobot dengan kebalikan dari frekuensi yang sesuai untuk
setiap istilah.
Pembagian setiap istilah kuadrat dengan frekuensi yang diharapkan adalah "varians -
standarisasi" dan mengkompensasi untuk varians yang lebih besar dalam frekuensi tinggi dan
varians yang lebih kecil pada frekuensi rendah. Jika tidak ada standardisasi seperti itu
dilakukan, perbedaan antara proporsi yang lebih besar akan cenderung menjadi besar dan
dengan demikian mendominasi perhitungan jarak, sedangkan perbedaan antara proporsi yang
lebih kecil akan cenderung kebanjiran. Faktor bobot yang digunakan untuk menyamakan
perbedaan-perbedaan ini.
Pada dasarnya, alasan untuk memilih jarak Chi-square adalah bahwa hal itu memenuhi
prinsip kesetaraan distribusi, dinyatakan sebagai berikut:
- Jika dua baris i dan i ' I N (I, J) adalah proporsional dan jika mereka digantikan oleh satu-
satunya, yang merupakan jumlah, kolom-demi-kolom, maka jarak antar kolom yang tidak
berubah dalam N (J).
- Jika dua kolom j dan j ' J N (I, J) adalah proporsional dan jika mereka diganti oleh hanya
satu, yang jumlah, baris-demi-baris, maka jarak antar baris tidak berubah dalam N (I).
Kelembaman
Inersia adalah istilah yang dipinjam dari "momen inersia" dalam mekanika. Sebuah objek
fisik memiliki pusat gravitasi (atau centroid). Setiap partikel dari objek memiliki massa m
tertentu dan d jarak tertentu dari pusat massa tersebut. Momen inersia benda adalah kuantitas
2
md menyimpulkan atas semua partikel yang membentuk objek.
Momen inersia =
Konsep ini memiliki analogi dalam analisis korespondensi. Ada awan poin profil dengan
menambahkan massa sampai 1. Titik-titik memiliki (yaitu, profil rata-rata.) Centroid dan
jarak (Chi-square jarak) antara poin profil. Setiap titik profil berkontribusi pada inersia dari
seluruh awan. Inersia dari titik profil dapat dihitung dengan rumus berikut.
Untuk profil
ke
baris i,
Inersia =
dimana r adalah rasio
ij
n
w
/ n
i +
dan adalah
n. j
/ n
Inersia dari kolom
ke-j
profil dihitung sama.
Inersia total dari tabel kontingensi diberikan oleh:
Jumlah inersia
yang merupakan statistik Chi-kuadrat dibagi oleh n?
Pengurangan dimensi
Cara lain untuk melihat analisis korespondensi adalah mempertimbangkan itu sebagai metode
untuk membusuk inersia keseluruhan dengan mengidentifikasi sejumlah kecil dimensi di
mana penyimpangan dari nilai-nilai yang diharapkan dapat diwakili. Hal ini mirip dengan
tujuan analisis faktor, di mana varians total terurai, sehingga sampai pada yang lebih rendah -
representasi dimensi variabel yang memungkinkan seseorang untuk merekonstruksi sebagian
dari matriks varians / kovarians dari variabel.
Kriteria untuk Pengurangan dimensi
Dalam analisis korespondensi, kita pada dasarnya mencari dimensi subruang rendah, yang
sedekat mungkin ke set dari poin profil dalam ruang dimensi tinggi benar. . Misalkan S
menunjukkan setiap ruang bagian kandidat. Untuk i: titik profil
th,
kita dapat menghitung
jarak Chi-square antara titik profil dan S, dinotasikan dengan d
i
(S). Ukuran tertimbang dari
jarak dari titik profil dan subruang diberikan oleh:
r
i
[d
i
(S)]
2.

Jarak dari semua profil ke S subruang diberikan oleh:
E r
i
[d
i
(S)]
2.

Tujuan dari analisis korespondensi adalah untuk menemukan yang subruang S meminimalkan
kriteria di atas.
Kriteria yang digunakan untuk reduksi dimensi menyiratkan bahwa inersia dari awan dalam
subruang yang optimal adalah maksimal, tapi itu tetap akan kurang dari itu di ruang yang
benar. Apa yang hilang dalam proses ini adalah pengetahuan tentang seberapa jauh dan di
mana arah profil kebohongan dari subruang ini. Apa yang diperoleh adalah pandangan dari
profil, yang dinyatakan tidak akan mungkin. Rasio inersia dalam ruang bagian ke keseluruhan
inersia memberikan ukuran ketepatan representasi dari awan dalam ruang bagian tersebut.
Analisis Korespondensi menentukan sumbu utama inersia dan untuk setiap sumbu nilai eigen
yang sesuai, yang sama dengan inersia dari awan dalam arah sumbu. Sumbu faktorial
pertama adalah baris dalam arah yang inersia dari awan adalah maksimum. Sumbu faktorial
kedua adalah, di antara semua baris yang tegak lurus terhadap sumbu faktorial pertama, satu
di arah yang inersia dari awan adalah maksimum. Sumbu faktorial ketiga adalah, di antara
semua baris yang tegak lurus terhadap sumbu faktorial kedua pertama dan kedua, baris dalam
arah yang inersia dari awan adalah maksimal, dan seterusnya. Subruang yang optimal adalah
subruang yang direntang oleh sumbu utama. Inersia dari profil sepanjang sumbu utama
disebut inersia Utama.
Geometris, inersia utama adalah rata-rata tertimbang dari Chi-kuadrat jarak dari centroid ke
proyeksi dari profil baris pada sumbu utama masing-masing. Ini adalah ukuran absolut dari
dispersi dari profil baris dalam arah sumbu itu. Setiap inersia pokok dapat diuraikan menjadi
komponen-komponen karena setiap profil baris (atau profil kolom). Baris, yang berkontribusi
sangat ke sumbu utama, sebagian besar menentukan orientasi dan identitas dari sumbu utama
yang sesuai.
Cosinus vektor deviasi profil baris 'dari centroid dan sumbu utama menggambarkan
bagaimana erat setiap vektor terletak profil atau berkorelasi dengan sumbu utama. Jadi,
mereka mengukur seberapa baik tampilan mendekati posisi sejati profil itu.
Nilai-nilai eigen ( i), sesuai dengan urutan sumbu utama adalah dalam urutan penurunan
besarnya:

1>

2>

3>.
. . . > L
k

Baris dan Analisis Kolom
Analisis baris dari matriks terdiri dalam menempatkan profil baris dalam ruang multidimensi
dan menemukan dimensi subruang rendah, yang datang paling dekat dengan poin profil.
Profil baris diproyeksikan ke suatu subruang untuk interpretasi antar-profil posisi. Demikian
pula, analisis profil kolom melibatkan menempatkan profil kolom dalam ruang multidimensi
dan menemukan dimensi subruang rendah, yang datang paling dekat dengan poin profil.
Baris dan kolom analisis sangat erat terhubung. Jika analisis dilakukan baris, kolom analisis
juga ipso facto dilakukan, dan sebaliknya. Kedua analisis tersebut setara dalam arti bahwa
masing-masing memiliki inersia total yang sama, dimensi yang sama dan dekomposisi yang
sama inersia ke inertias utama sepanjang sumbu utama.
Kontribusi baris dan Kolom untuk Inersia
- Inersia total meja mengkuantifikasi berapa banyak variasi hadir dalam profil baris atau
kolom dalam profil.
- Setiap baris dan kolom masing-masing membuat kontribusi terhadap inersia total,
masing-masing disebut inersia baris dan kolom inersia. Inersia utama baris (atau kolom)
poin adalah inersia dari baris (atau kolom) poin diproyeksikan ke sumbu. Jadi, setiap baris
atau kolom membuat kontribusi terhadap inersia utama. Komponen inersia baris atau
kolom inersia sepanjang sumbu utama disebut inersia utama.
Kontribusi ini dapat dinyatakan dalam istilah relatif:
- Kontribusi dari suatu baris (atau kolom) kc - sumbu, relatif terhadap inersia utama yang
sesuai. Ini adalah kontribusi relatif dari baris (kolom) dengan komposisi dari oc|uoq -
sumbu, biasanya dinotasikan dengan RKPT (o), yang memungkinkan untuk
mendiagnosis yang menunjuk memainkan peran utama dalam orientasi sumbu utama.
- Kontribusi dari baris (kolom) kc - sumbu, relatif terhadap titik yang sesuai inersia itu. Ini
disebut kontribusi dari titik ke sumbu eksentrisitas. Dinotasikan sebagai COR (o). Hal ini
memungkinkan mendiagnosis posisi setiap titik apakah itu baik atau buruk diwakili
diwakili pada sumbu tertentu
Maksimum jumlah dimensi
Karena jumlah frekuensi di kolom harus sama dengan total baris, dan jumlah seluruh baris
sama dengan total kolom, ada dalam arti hanya (nomor, J, dari olumns - 1) entri independen
di setiap baris , dan (nomor, saya, baris - 1) entri independen dalam setiap kolom dari tabel
kontingensi. Dengan demikian, jumlah maksimum nilai eigen yang dapat diambil dari sebuah
tabel dua arah adalah sama dengan minimum [jumlah kolom dikurangi 1, dan jumlah baris
dikurangi 1]. Jika kita memilih untuk mengambil (yaitu, menafsirkan) jumlah maksimum
dimensi yang dapat diekstrak, maka kita dapat mereproduksi persis semua informasi yang
terdapat dalam tabel.
Interpretasi analisis korespondensi
Interpretasi hasil analisis korespondensi terdiri interpretasi hasil numerik dan grafis faktor,
yang dihasilkan oleh CA. Yang pertama menyiratkan pemilihan sumbu signifikan dan poin
penting.
Pemilihan Axes Signifikan
Berapa banyak sumbu yang signifikan dan harus disimpan untuk analisis lebih lanjut atau
penafsiran? Berikut signifikan berarti 'yang diperlukan untuk mempelajari secara rinci' -
bukan dalam hal uji signifikansi statistik. Dua jenis sumbu faktor yang dipertimbangkan:
sumbu faktor rangka Pertama dan Kedua sumbu rangka faktor. Sumbu faktor urutan pertama
dianggap berdasarkan kontribusi untuk varians total (atau inersia), sedangkan sumbu urutan
kedua faktor dianggap berdasarkan kontribusi untuk eksentrisitas, yaitu. COS
2
.
Isu-isu analisis korespondensi nilai eigen untuk min [(I, J) -1] sumbu faktor; nilai eigen
peringkat dalam urutan penurunan besarnya.
Faktor rangka sumbu Pertama:
Jumlah (signifikan) sumbu, M, dapat ditentukan oleh salah satu aturan berikut:
1. Jumlah inersia yang dijelaskan oleh sumbu M pertama melebihi batas tertentu, biasanya
80% dari inersia total.
2. Pilih semua sumbu yang melebihi nilai eigen
Faktor rangka sumbu kedua:
Setelah memilih sumbu urutan faktor pertama, urutan kedua sumbu faktor dipilih sebagai
berikut:
Misalkan M
/
pangkat menjadi sumbu faktor yang titik i N (I) dan atau j N (J) ada, sehingga
COS
2
(i) > k
atau
COS
2
(j) k >
di mana k = 0,25 biasanya.
Dengan demikian, jumlah sumbu yang dipilih untuk interpretasi = M + M
/.

Aturan untuk menafsirkan sumbu faktorial dengan poin individu
Bersifat menerangkan poin
Bersifat menerangkan adalah sebuah titik yang mutlak kontribusi PKHT (i) (untuk i c I) atau
PKHT (j) (untuk j c J) adalah jelas lebih tinggi daripada kontribusi dari titik lain. Poin i c
saya yang kontribusinya lebih tinggi dari rata-rata dari kontribusi seluruh dianggap sebagai
bersifat menerangkan. Poin bersifat membeberkan dapat dipilih sesuai dengan salah satu
kriteria berikut:
- RKPT (i) > RKPT otooto dari semua titik
- Poin i c aku diperintahkan oleh kontribusi mereka terhadap PKT (i ), Dalam urutan
menurun. Kemudian, jumlah {E PKHT (i) > p} dipotong sebesar nilai terendah i
0
c saya
sedemikian rupa sehingga jumlah dipotong adalah hal > Set adalah himpunan
titik-titik yg menjelaskan. Prosedur yang sama diikuti untuk J.
Dijelaskan poin
Poin dijelaskan oleh ou|uooooq titik variabel i dari N (I) [atau j N (J)],. Yang
kontribusinya untuk eksentrisitas adalah lebih besar dari ambang batas tertentu. Kontribusi
untuk eksentrisitas tersebut adalah sama dengan kuadrat koefisien korelasi (COS
2
).
Biasanya ambang 0,25 digunakan.
Sebuah j point dapat titik dijelaskan (oleh ou|u) tanpa titik bersifat menerangkan.
Misalkan titik saya memiliki kontribusi mutlak 40% dan korelasi kuadrat dari 0,15 sampai
sumbu. Ini berarti bahwa hal tersebut berperan kuat untuk penciptaan sumbu, tapi mungkin
berpartisipasi dalam pembangunan sumbu lainnya.
Jadi, dua set koefisien dihitung untuk setiap sumbu. Koefisien ini berlaku untuk baris dan
kolom dari matriks data.
Kontribusi absolut, yang menunjukkan proporsi varians (yaitu., Inersia) dijelaskan oleh setiap
variabel dalam hubungan satu sama sumbu utama. Proporsi ini dihitung sehubungan dengan
set variabel keseluruhan.
Korelasi kuadrat, yang menunjukkan bagian dari varians dari variabel dijelaskan oleh sumbu
utama.
Interpretasi dari kontribusi mutlak berlawanan dengan kontribusi relatif (COS
2
). Yang
terakhir ini menunjukkan sejauh mana setiap kategori baris dan kolom setiap kategori
digambarkan oleh sumbu. Kontribusi terhadap inersia, di sisi lain, menunjukkan sejauh mana
orientasi geometrik dari sumbu ditentukan oleh kategori variabel tunggal
Kualitas representasi
Kualitas representasi dari titik dalam sistem koordinat, yang didefinisikan oleh nomor yang
dipilih dimensi, didefinisikan sebagai rasio dari kuadrat jarak dari titik tersebut dari asal
dalam jumlah yang dipilih dimensi, selama jarak kuadrat dari asal di ruang yang didefinisikan
dengan jumlah maksimum dimensi. Hal ini juga sama dengan jumlah dari COS
2
.
Kualitas = COS
2

Sebuah kualitas yang rendah berarti bahwa saat ini jumlah dimensi tidak mewakili baik
kolom masing-masing atau titik baris.
Tambahan elemen
Fitur yang paling membedakan dari analisis korespondensi adalah kemungkinan
memperkenalkan elemen-elemen tambahan (variabel atau objek) ke dalam grafis faktor.
Unsur-unsur tambahan tidak memberikan kontribusi terhadap orientasi sumbu faktorial,
namun kontribusi relatif mereka terhadap sumbu faktorial dan koordinat mereka dihitung
dengan analisis korespondensi. Sebuah cara sederhana untuk memikirkan titik tersebut adalah
bahwa mereka memiliki posisi dalam ruang penuh, tetapi tidak ada massa.
Tambahan poin adalah baris tambahan dan kolom dari sebuah tabel kontingensi, yang
memiliki profil yang bermakna dan yang ada di ruang penuh baris dan kolom profil. Mereka
dapat diproyeksikan ke dimensi subruang rendah dan posisi mereka relatif terhadap elemen
aktif dapat ditentukan.
Kontribusi relatif dari titik tambahan untuk eksentrisitas sumbu (yaitu, COS
2
) dapat
digunakan untuk menilai apakah titik tambahan terletak pada tingkat lebih besar atau lebih
kecil dalam plot daripada keluar dari itu.. Prosedur ini digunakan:
- Untuk menekan titik tertentu dalam analisis faktor grafis dan kemudian kembali
memperkenalkan sebagai titik tambahan. Hal ini biasanya dilakukan ketika suatu titik
tertentu adalah outlier
- Untuk mengklasifikasikan elemen, yang deskripsi dalam hal profil, hilang atau tidak
lengkap. Dalam hal bahwa unsur-unsur data yang diperkirakan dan kemudian titik-titik ini
kembali diperkenalkan sebagai elemen pelengkap ke grafis.
- Untuk membandingkan matriks-matriks serupa data untuk dua titik waktu yang berbeda
atau untuk dua negara atau wilayah yang berbeda, dll
Outlier poin
Outlier poin wabah analisis korespondensi. Kadang-kadang, profil baris atau kolom yang
jarang terjadi di set poin yang memiliki peran kecil dalam penentuan sumbu tatanan yang
lebih tinggi. Situasi ini dapat dilihat dengan mudah dengan mempertimbangkan kontribusi
titik terhadap sumbu. Ketika suatu titik memiliki kontribusi besar (RKPT), pada koordinat
utama besar dengan sumbu utama besar, itu disebut outlier. Poin outlier harus diperlakukan
sebagai variabel tambahan.
Grafis
Seperti dalam analisis komponen utama, hasil analisis korespondensi disajikan pada grafik
yang mewakili konfigurasi poin dalam pesawat proyeksi, dibentuk oleh sumbu utama
pertama diambil dua pada suatu waktu. Ini adalah adat untuk merangkum baris dan kolom
koordinat dalam sebuah plot tunggal. Namun, penting untuk diingat bahwa dalam plot seperti
itu, seseorang hanya bisa menafsirkan jarak antara titik baris, dan jarak antara titik kolom,
tapi tidak jarak antara titik baris dan kolom poin. Namun, adalah sah untuk menafsirkan
posisi relatif dari satu titik satu set sehubungan dengan semua titik dari himpunan lainnya
Tampilan gabungan dari baris dan kolom poin menunjukkan hubungan antara suatu titik dari
satu set dan semua titik set yang lain, bukan antara poin individu di antara setiap set. Kecuali
dalam kasus khusus, adalah sangat berbahaya untuk menafsirkan kedekatan dua titik yang
berbeda sesuai dengan set poin.
Beberapa kunci untuk menafsirkan peta faktorial adalah:
- Poin dekat asal memiliki distribusi profil dibedakan sebagai konsekuensi dari asal
ditempatkan di pusat gravitasi dari kedua awan N (I) dan N (J).
- Titik-titik, yang tidak memberikan kontribusi dasarnya inersia setiap sumbu, yang hampir
identik dengan profil rata-rata.
- Poin awan (atau set) terletak jauh dari asal, tapi dekat satu sama lain memiliki profil
serupa
- Geometris, profil baris tertentu akan tertarik ke posisi di subruang nya yang sesuai
dengan kategori kolom variabel penting dalam bahwa profil baris.
- Ketika analisis korespondensi memiliki lebih dari dua dimensi. Kedekatan dengan
sepasang sumbu dapat hilang apabila sumbu lainnya (ditambahkan) diplot.
- Ini adalah adat untuk merangkum baris dan kolom koordinat dalam sebuah plot tunggal.
Namun, penting untuk diingat bahwa dalam plot seperti itu, seseorang hanya bisa
menafsirkan jarak antara titik baris, dan jarak antara titik kolom, tapi tidak jarak antara
titik baris dan kolom poin. Tidak dapat ditafsirkan. Tampilan gabungan koordinat
menunjukkan hubungan antara titik dari satu set dan semua titik dari himpunan lain dan
tidak antara titik individual antara setiap set.
- Titik A membuat kontribusi yang tinggi untuk inersia dari sumbu utama dalam dua cara-
ketika memiliki jarak besar dari barycenter, bahkan jika memiliki massa kecil, atau ketika
ia memiliki massa yang besar, tetapi jarak kecil. Mengingat semua hal ini, perlu bahwa
hasil numerik dari analisis korespondensi, yaitu. Massa. Kontribusi absolut (RKPT) dan
COS kontribusi relatif
2
semua diperhitungkan untuk menafsirkan hasil analisis
korespondensi.
Matematika Analisis Korespondensi
Catatan
Tabel kontingensi N (saya 0)
Baris massal jumlah baris = / grand total =
i +
n / n
Kolom massa jumlah kolom = / grand total = n
+ j
/ n
Korespondensi matriks didefinisikan sebagai tabel asli (atau matriks) N dibagi dengan n
grand total.

Matriks profil baris juga dapat didefinisikan sebagai baris dari matriks korespondensi P
dibagi dengan jumlah masing-masing baris (yaitu massa baris), yang dapat ditulis sebagai:
Matriks baris = D profil
r

-1
P
di mana D
r
adalah matriks diagonal massa baris.
Matriks profil kolom terdiri dari kolom-kolom dari matriks korespondensi P dibagi dengan
jumlah masing-masing kolom.
Matriks profil kolom = D
c

- 1
P
di mana D
c
adalah matriks diagonal dari massa kolom.
Masalah analisis korespondensi adalah untuk menemukan pendekatan rendah-dimensi dengan
matriks data asli yang mewakili kedua baris dan kolom profil
R = D
r

-1
P
C = D
c

- 1
P
Dalam subruang k-dimensi rendah, di mana k adalah kurang dari saya atau J. Kedua k-
dimensi subruang (satu untuk profil baris dan satu untuk profil kolom) memiliki
korespondensi geometris yang memungkinkan kita untuk mewakili kedua baris dan kolom di
layar yang sama.
Karena kita ingin grafis mewakili jarak antara baris (atau kolom) profil, kita mengarahkan
konfigurasi poin di pusat gravitasi dari kedua set. Centroid dari himpunan titik-titik dalam
ruang baris adalah vektor kolom massa. Centroid dari himpunan titik dalam ruang kolom
adalah r, vektor massa baris. Ini adalah profil kolom rata-rata.
Untuk melakukan analisis sehubungan dengan pusat gravitasi, P adalah berpusat "simetris"
dengan baris dan kolom, yaitu, P -. Rc
T
sehingga korespondensi ke profil rata-rata kedua set
poin. Solusi untuk menemukan representasi dari kedua set poin adalah dekomposisi nilai
singular dari matriks yaitu residu standar, J matriks Saya ocvov unsur-unsur:

Dekomposisi nilai singular (SVD) didefinisikan sebagai penguraian dari suatu matriks J
Eoo Sebuah sebagai produk dari tiga matriks
A = U V I
T

(1)
di mana I matriks adalah matriks diagonal dari bilangan positif dalam urutan menurun:

1

>

> 2
... ...
n >
0
(2)
di mana k adalah rank dari A, dan kolom dari matriks U dan V adalah ortonormal, yaitu,
U
T
U = saya V
T
V = I
(3)
dimana U
T
adalah transpos dari U, dan V
T
adalah transpos dari V.

1,

2,
... ...,
k
disebut nilai-nilai singular.
Kolom U (u
1,
u
2,
... ..., u
k)
adalah vektor tunggal disebut kiri.
Kolom dari V (v
1,
v
2,
... ..., v
k)
disebut vektor yang tepat tunggal.
Pertimbangkan satu set I poin di J-dimensi ruang, di mana koordinat berada di baris dari
matriks Y dengan massa, m
1
m
2,
... ...,
aku
ditugaskan ke poin masing-masing, di mana ruang
ini disusun oleh Euclidean tertimbang (dengan bobot dimensi q
1,
q
2,
... ..., q
J
terkait dengan
dimensi masing-masing). Dengan kata lain, jarak antara dua titik, misalnya x dan y, adalah
sama dengan
[(X - y)
T
D
q
(x - y)]


(4)
Misalkan D
m
dan D
q
menjadi matriks diagonal dari massa titik dan bobot masing-masing
dimensi
Misalkan m adalah vektor dari titik messes (kami telah diasumsikan bahwa ):
Saya
T
m = saya
dimana I adalah vektor yang.
Setiap konfigurasi rendah-dimensi dari titik-titik dapat diturunkan secara langsung dari
dekomposisi nilai singular dari matriks:

(5)
mana adalah centroid dari baris Y.
Menerapkan dekomposisi nilai tunggal untuk persamaan di atas, kita menemukan bahwa
koordinat titik-titik utama dari baris (proyeksi yaitu profil baris ke sumbu utama) yang
terkandung dalam matriks berikut:
F = D


m
I U
(6)
Koordinat titik-titik dalam sebuah ou|uov dimensi optimal terkandung dalam oc|uoq
kolom pertama. Sumbu utama ruang ini yang terkandung dalam matriks
A = D
q
-

V
Di sini, kita memiliki dua kasus khusus dari hasil umum di atas, yaitu Row masalah dan
Kolom.. Masalah-masalah ini melibatkan pengurangan dimensi dari profil baris dan profil
kolom, di mana setiap rangkaian titik memiliki massa terkait dan Chi-square jarak. Kedua
masalah ini mengurangi untuk dekomposisi nilai singular dari matriks yang sama residu
standar.
Baris masalah
Masalah baris terdiri dari satu set profil saya di deretan
r
= D
-1
P dengan massa r dalam
matriks diagonal D
r
dalam ruang dengan jarak yang ditentukan oleh matriks diagonal D
r

-1.

Centroid dari profil baris dapat diturunkan sebagai berikut
T
r D
r
-
1
P = I
T
P = c
T

dimana c
T
adalah vektor baris dari kolom massa
Matriks A dalam (Persamaan 5) dapat ditulis sebagai
A = D
r

1 / 2
(D
r

-1
P-IC
T)
D
c

-1 / 2

(7)
yang dapat ditulis kembali sebagai
A = D
r

-1 / 2
(P-yc
T)
D
r

-1 / 2

(8)
Kolom masalah
Masalah kolom terdiri dari satu set profil J dalam kolom-kolom P D
c-1
dengan massa c
dalam diagonal dari D
c
dalam ruang dengan jarak yang ditentukan oleh matriks diagonal D
r

-
1.

Dengan mentranspose matriks P D
c-1
profil kolom, kita memperoleh
c

-1
P D
T.
Centroid dari
profil ini adalah (Yaitu vektor baris dari massa baris).
Matriks dalam Persamaan (5)

(9)
dapat ditulis sebagai


Ini adalah transpos dari matriks diturunkan untuk A, masalah baris.. Ini mengikuti bahwa baik
baris dan kolom masalah dapat diselesaikan dengan dekomposisi nilai singular dari matriks
yang sama residual standar:

(10)
Unsur-unsur matriks ini J ooo adalah:

(11)
Hal ini dapat dengan mudah dilihat bahwa titik berat dari profil ini adalah:
(Vektor baris massa r)
Matriks dalam Persamaan 5 dengan demikian direduksi menjadi

(12)

Hal ini dapat dengan mudah dilihat bahwa matriks A adalah transpos dari matriks yang
diturunkan untuk masalah baris. Hasil ini menyiratkan bahwa kedua masalah baris dan kolom
adalah masalah dipecahkan dengan menghitung dekomposisi nilai singular dari matriks yang
sama (yaitu matriks dari residu standar).

(13)
elemen yang adalah:

(14)
Maka dari Persamaan (10) bahwa statistik Chi-square dapat didekomposisi menjadi saya 0
komponen dalam bentuk:

Jumlah kuadrat dari elemen A adalah inersia total dari tabel kontingensi.
Jumlah inersia =
yang merupakan statistik chi-kuadrat dibagi oleh n.
Jadi, ada k = min [Aku -1, -1 J] dimensi dalam larutan. Kuadrat dari nilai tunggal yaitu A
nilai eigen dari A
T
atau AA
T
juga menguraikan inersia total. Ini dilambangkan dengan
dan disebut inertias utama.
Koordinat utama masalah baris adalah:
I
(15)
atau dalam notasi skalar:

(16)
Koordinat utama dari kolom diperoleh dari:
I
atau dalam notasi skalar:

Koordinat standar dari baris-barisnya adalah koordinat utama dibagi dengan nilai masing-
masing tunggal, yaitu
X = F I
-1
=
(17)
atau dalam notasi skalar

Koordinat standar dari kolom adalah koordinat utama dibagi dengan nilai masing-masing
tunggal:
Y = G I
-1
= D
c

-1 / 2
V
(18)
yaitu

Setiap inersia utama
k
adalah didekomposisi menjadi komponen untuk setiap baris i:

atau dalam notasi matriks

(19)
Kontribusi dari baris ke inersia utama
k
adalah sama dengan:

Untuk baris
ke
i, komponen inersia untuk semua sumbu k jumlah sampai dengan inersia baris
dari baris
ke-i:


Sisi kiri dari persamaan di atas adalah identik dengan jumlah kuadrat elemen-elemen pada
baris
ke-i
dari A

atau

(20)
Ada k = min [I -1, -1 J] dimensi dalam larutan. Kuadrat dari nilai-nilai singular dari A,
dilambangkan oleh nilai-nilai singular disebut.
Koordinat utama dari baris diperoleh menggunakan [Persamaan (6)], untuk masalah baris.

(21)
atau dalam notasi skalar:

Demikian pula koordinat utama dari kolom diperoleh dengan menggunakan Persamaan (6),
untuk masalah kolom.

(22)
yaitu

Koordinat standar dari baris-barisnya adalah koordinat utama dibagi dengan nilai masing-
masing tunggal:

(23)
yaitu

Koordinat standar dari kolom adalah koordinat utama dibagi dengan nilai masing-masing
tunggal:

yaitu

You might also like