Istatistik Ders

İleri İstatistik Teknikleri
? Neden “ileri” teknikler?

⇒Amaç: Eldeki “veriyi”
“bilgiye” dönüştürebilmek
- Veri vs. Bilgi
İstatistiksel Yöntemler
• Betimleyici (Descriptive) Yöntemler
⇒Verili herhangi bir dağılımı bir ya da birden
çok katsayıda anlatabilmek
- Örn: şirkettekilerin yaş ortalaması
• Açıklayıcı (Explanatory) Yöntemler
⇒Bir veri setinde olası ilişkileri sergilemek
- Örn: Şirkettekilerin ayakkabı
numaralarıyla aldıkları maaş
arasındaki ilişki
Betimleyici Yöntemler
• Amaç: Eldeki dağılımı en iyi şekilde temsil
etmek
• Araçlar:
– Ortalama:
– Medyan: X
– Mod:
Betimleyici Yöntemler
• Veeee....
• Varyans/Standart Sapma:
( x −x ) 2
s2 =∑
n
• Neden:
İki Dağılımın Hikayesi
Dağılım:
Dağılım: 0,6,12
6,6,6
Ortalama: 6
Ortalama: 6 Medyan: 6
Medyan: 6 Mod: 6
Mod: 6
Std: Sapma: 6
Std. Sapma: 0
Amaç: Görünenin Ötesine Bakabilmek

Açıklayıcı Analizler
• Amaç: Verili bir sette olası ilişkileri
keşfetmek ya da öngörülen hipotezleri test
etmek
Görünen....
Genel
70
60
50
40
Genel
30
20
10
0
10 20 30 40 50 60 70 80 90 100
Görünenin Arkası....
70
60
50
40
Kadınlar
Erkekler
Genel
30
20
10
0
10 20 30 40 50 60 70 80 90 100
Genel Ortalama: 51, Std. Sapma: 22

Kadınlar Ortalama: 46, Std. Sapma: 23
Erkekler Ortalama: 46, Std. Sapma: 21
Örnek: Internet Kullanımı
500
400
300
200
100
Std. Dev = 14,30
Mean = 9,1
0 N = 761,00
2,5 12,5 22,5 32,5 42,5 52,5
7,5 17,5 27,5 37,5 47,5 57,5
Total hours spent on line last week-Hours

Ve Görünenin Arkası...
Erkekler Kadınlar
400 100
80
300
60
200
40
100
20
Std. Dev = 15,42 Std. Dev = 8,36
Mean = 9,8 Mean = 6,3
0 N = 602,00 0 N = 158,00
2,5 12,5 22,5 32,5 42,5 52,5 2,5 12,5 22,5 32,5 42,5 52,5
7,5 17,5 27,5 37,5 47,5 57,5 7,5 17,5 27,5 37,5 47,5 57,5
Total hours spent on line last week-Hours Total hours spent on line last week-Hours
Açıklayıcı Analizler
• Amaç: İlk bakışta görül(e)meyen
ilişkileri sergileyip ilişkisel açıklamalar
getirmek
• Y= f(x)
ie: İnternet kullanımı= f(cinsiyet)
ie: Yaşam biçimi= f(gelir)
ie: Tüketim kalıpları= f(yaşam biçimi)
Örnek: Gelişmişlik ve Yaşam
Kalitesi
• BM verilerinden elde edilen bir tablo...
• Araştırma sorusu: Gelişmişlik ve Yaşam
Kalitesi arasındaki ilişki
• İşlemleştirme:
– Gelişmişlik: Kişi Başına Düşen GSMH
– Yaşam Kalitesi: Çocuk ölümleri
Gruplanmış Veri
•
GMSH Gruplanmış
En düşük Düşük Orta Yüksek En Yüksek
Çocuk ÖlümOranı En düşük 3,23 44,44 53,85 82,76
Düşük 12,90 25,00 33,33 7,69 6,90
Yüksek 16,13 25,00 22,22 30,77 6,90
En yüksek 67,74 50,00 7,69 3,45
Scatterplot
200
100
Infant Deaths
0
0 10000 20000 30000 40000
GNP pc
Sorular
• Grafiği ne kadar temsil ediyor?
• Ne gibi çıkarımlar yapabiliyoruz?
• “Forecasting” yapılabiliyor mu?
• İlişkinin “boyutu” ve “yönü” ölçülebiliyor
mu?
Ne Kadar Yeterli?
Amaç: Daha iyi analiz, daha iyi
veri
• Covariance (kovaryans)
1
cov( x, y ) = ∑ ( xi − x )( yi − y )
n
• Correlation Coefficient (korelasyon)
cov( x, y )
corr ( x, y ) =
σxσy
1
σx2 =
n
∑( xi −x ) 2
1
σy2 = ∑( yi − y ) 2
n
Sonuçlar
• Covariance:
2115,318
• Correlation:
-0,60165
Çıkarılacak Sonuç Ne?
Amaç: Nedensel İlişkileri
Göstermek
• Y= f(x)
• X, Y’nin belirleyicisi mi?
• X, Y’yi ne kadar belirliyor?
• X, Y’yi ne yönde belirliyor?
Regresyon Analizi
• Y= f(x)
• Y= a+bx
• Regresyon Denklemi:
yi =α + βxi + ui
Scatterplot
200
100
Infant Deaths
0 Rsq = 0,3620
0 10000 20000 30000 40000
GNP pc
Regresyon Katsayılarının
Hesaplanması
cov( x, y )
βˆ xy =
σx
1
σ = ∑( xi − x )
2
x
2
n
α
ˆ = y − βx
Regresyon Analizi Sonuçları
Coefficients
Unstandardized Coefficients Standardized Coefficients t Sig.
Model B Std. Error Beta
1 (Constant) 75,04 4,79 15,67 0,00
GNP pc 0,00 0,00 -0,60 -7,11 0,00
a Dependent Variable: Infant Deaths
yi = 75.04 + −0.0034 xi + ui
Regresyon Analizinin Açılımları
• Çoklu Regresyon
yi =α + β1 x1i + β2 x2 i + β3 x3i + ui
• Kukla Değişkenli Regresyon (Dummy Variable)

yi =α + β1 x1i + β2 Di + β3 Di x3i + ui
•Binomial/Multinomial Regression
Regresyon Analizinin
dezavantajları
• Arkasında çok ciddi üç varsayım vardır.
• Regresyon analizi sadece “interval” ya da
“ratio” ölçümleme düzeyinde yapılır
• “Do not use any mathematical model
without understanding it”
Kümeleme ve Birleştirme
Analizleri
• Bütün olgular birbiriyle ilişkilidir. Aradaki ilişkinin
0 olduğu yerde bile...
• Birleştirme analizlerinin amacı olguların
birbirleriyle olan ilişkilerinden yola çıkarak işimizi
kolaylaştırmaktır
• 1. Değişken sayısını azaltabilirler
• 2. Vaka sayısını azaltabilirler
• 3. Boyut sayısını azaltabilirler
Faktör Analizi: Değişken Sayısını
Azaltmak
• Analize tabi bütün değişkenler birbiriyle
ilişkili.
• Bu değişkenlerin bazıları birbirleriyle daha
kuvvetli ilişki sahibi.
• Kuvvetli ilişki sahibi değişkenleri
birleştirerek aza indirmek mümkün.
• Değişkenlerarası korelasyon matrisi
kullanılarak “faktör”ler inşa ediliyor
Faktör Analizi
Total Variance Explaine d
Extraction Sums of Squared

Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Component Total Variance e% Total Variance e%
1 4,258 85,166 85,166 4,258 85,166 85,166
2 ,549 10,990 96,156
3 ,121 2,412 98,568
4 5,825E-02 1,165 99,733
5 1,335E-02 ,267 100,000
Extraction Method: Principal Component Analysis.
a
Co mp o n e n t M atr ix
Compone
nt
1
F Life Expectancy -,988
M Life Expectancy -,985
Infant Deaths ,962
Lýve Birth Rate ,900
Death Rate ,759
Extraction Method: Principal Component Analysis.
a. 1 components extracted.
“Case” Sayısı Azaltmak:
Clustering
• Verili değişkenler bazında analize alınan
“case”ler birbirlerine benzerler
• Bu benzerlik bir ya da daha fazla boyutta
olabilir
• Benzerliklerden yola çıkarak “clusters”
oluşturmak mümkün
• Benzerlikler metric mesafelerle ölçülüyor
Cluster Analysis I
Final Cluste r Ce nte rs
Cluster
1 2 3 4
Lýve Birth Rate 45,47 43,21 36,20 16,58
Death Rate 19,24 13,53 9,33 8,76
Infant Deaths 140,78 102,85 61,40 14,17
M Life Expectancy 44,22 51,75 60,49 69,52
F Life Expectancy 46,57 54,63 64,39 75,80
Cluster Analysis II
Case Number
Name Cluster Distance
1 Albania 4 18,8
2 Bulgaria 4 5,4
3 Czechoslovakia 4 6,0
4 Former_E,_Germany4 8,8
5 Hungary 4 8,2
6 Poland 4 4,0
7 Romania 4 14,0
8 Y ugoslavia 4 6,8
9 USSR 4 10,4
10 Byelorussian_SSR 4 3,7
11 Ukrainian_SSR 4 5,5
12 Argentina 4 13,3
13 Bolivia 2 10,0
14 Brazil 3 8,7
15 Chile 4 8,1
16 Columbia 3 24,0
17 Ecuador 3 6,0
18 Guyana 3 9,9
19 Paraguay 3 20,4
20 Peru 2 18,7
Cluster Analysis III
Numbe r of Case s in e ach Cluste r

Cluster 1 11,000
2 15,000
3 26,000
4 45,000
Valid 97,000
Missing ,000
Boyut Sayısını Azaltmak: MDS
• Analizde gözönünde tuttuğumuz her
değişken bir “boyut” sayılabilir.
• İki-üç boyuttan fazlasını “visualize” etmek
kolay değil.
• Değişkenler arasındaki uzaklıktan yola
çıkılarak bu boyut sayısı azaltılabilir.
• Değişkenler arasındaki uzaklıklar metric
olarak ölçülebilir
MDS
MDS
0,5
Peru
0,4
0,3
Romania Hungary
0,2
Bulgaria
Y ugoslavia
Czechoslovakia
Former_E,_Germany
Ukrainian_SSR
Poland
Brazil
0,1
Y
USSR Byelorussian_SSR
Guyana Argentina
0
Ecuador0 Albania
-2 -1,5 -1 -0,5 0,5 1 1,5 2
Bolivia
Columbia
-0,1 Chile
-0,2
Paraguay
-0,3
X
• “İstatistiksel araçlarınız ne kadar güçlü, ne
kadar gelişmiş olursa olsun, unutmamanız
gereken tek şey var:
• Bu verileri okuma yazması olmayan
demiryolu bekçileri topladı”
Sir John Maynard Keynes
Kaynaklar:
İrfan Yolcubal – 1. İstatistik ve Olasılık Ders Notları, Kocaeli

Üniversitesi, Jeoloji Müh. Bölümü
mf.kou.edu.tr/jeoloji/yolcubal/ istatistik/istatistik_giris.pdf
İrfan Erdoğan - Ampirik tasarım ve istatistik yöntem semineri

www.anatoliajournal.com/akademik/birinciseminer.ppt

Istatistik Ders

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Istatistik Ders

Uploaded by

Copyright:

Available Formats

İleri İstatistik Teknikleri

? Neden “ileri” teknikler?

Amaç: Görünenin Ötesine Bakabilmek

Genel Ortalama: 51, Std. Sapma: 22

Total hours spent on line last week-Hours

• Kukla Değişkenli Regresyon (Dummy Variable)

Extraction Sums of Squared

Final Cluste r Ce nte rs

Numbe r of Case s in e ach Cluste r

İrfan Yolcubal – 1. İstatistik ve Olasılık Ders Notları, Kocaeli

İrfan Erdoğan - Ampirik tasarım ve istatistik yöntem semineri

You might also like