You are on page 1of 75

İleri İstatistik Teknikleri

? Neden “ileri” teknikler?


⇒Amaç: Eldeki “veriyi”
“bilgiye” dönüştürebilmek
- Veri vs. Bilgi
İstatistiksel Yöntemler
• Betimleyici (Descriptive) Yöntemler
⇒Verili herhangi bir dağılımı bir ya da birden
çok katsayıda anlatabilmek
- Örn: şirkettekilerin yaş ortalaması
• Açıklayıcı (Explanatory) Yöntemler
⇒Bir veri setinde olası ilişkileri sergilemek
- Örn: Şirkettekilerin ayakkabı
numaralarıyla aldıkları maaş
arasındaki ilişki
Betimleyici Yöntemler
• Amaç: Eldeki dağılımı en iyi şekilde temsil
etmek
• Araçlar:
– Ortalama:
– Medyan: X
– Mod:
Betimleyici Yöntemler
• Veeee....
• Varyans/Standart Sapma:

( x −x ) 2
s2 =∑
n
• Neden:
İki Dağılımın Hikayesi
Dağılım:
Dağılım: 0,6,12
6,6,6
Ortalama: 6
Ortalama: 6 Medyan: 6
Medyan: 6 Mod: 6
Mod: 6
Std: Sapma: 6
Std. Sapma: 0

Amaç: Görünenin Ötesine Bakabilmek


Açıklayıcı Analizler
• Amaç: Verili bir sette olası ilişkileri
keşfetmek ya da öngörülen hipotezleri test
etmek
Görünen....

Genel

70

60

50

40

Genel

30

20

10

0
10 20 30 40 50 60 70 80 90 100
Görünenin Arkası....
70

60

50

40
Kadınlar
Erkekler
Genel
30

20

10

0
10 20 30 40 50 60 70 80 90 100

Genel Ortalama: 51, Std. Sapma: 22


Kadınlar Ortalama: 46, Std. Sapma: 23
Erkekler Ortalama: 46, Std. Sapma: 21
Örnek: Internet Kullanımı

500

400

300

200

100
Std. Dev = 14,30
Mean = 9,1
0 N = 761,00
2,5 12,5 22,5 32,5 42,5 52,5
7,5 17,5 27,5 37,5 47,5 57,5

Total hours spent on line last week-Hours


Ve Görünenin Arkası...
Erkekler Kadınlar
400 100

80
300

60

200

40

100
20
Std. Dev = 15,42 Std. Dev = 8,36
Mean = 9,8 Mean = 6,3
0 N = 602,00 0 N = 158,00
2,5 12,5 22,5 32,5 42,5 52,5 2,5 12,5 22,5 32,5 42,5 52,5
7,5 17,5 27,5 37,5 47,5 57,5 7,5 17,5 27,5 37,5 47,5 57,5

Total hours spent on line last week-Hours Total hours spent on line last week-Hours
Açıklayıcı Analizler
• Amaç: İlk bakışta görül(e)meyen
ilişkileri sergileyip ilişkisel açıklamalar
getirmek

• Y= f(x)
ie: İnternet kullanımı= f(cinsiyet)
ie: Yaşam biçimi= f(gelir)
ie: Tüketim kalıpları= f(yaşam biçimi)
Örnek: Gelişmişlik ve Yaşam
Kalitesi
• BM verilerinden elde edilen bir tablo...
• Araştırma sorusu: Gelişmişlik ve Yaşam
Kalitesi arasındaki ilişki
• İşlemleştirme:
– Gelişmişlik: Kişi Başına Düşen GSMH
– Yaşam Kalitesi: Çocuk ölümleri
Gruplanmış Veri
•   

GMSH Gruplanmış
En düşük Düşük Orta Yüksek En Yüksek
Çocuk ÖlümOranı En düşük 3,23 44,44 53,85 82,76
Düşük 12,90 25,00 33,33 7,69 6,90
Yüksek 16,13 25,00 22,22 30,77 6,90
En yüksek 67,74 50,00 7,69 3,45
Scatterplot
200

100
Infant Deaths

0
0 10000 20000 30000 40000

GNP pc
Sorular
• Grafiği ne kadar temsil ediyor?
• Ne gibi çıkarımlar yapabiliyoruz?
• “Forecasting” yapılabiliyor mu?
• İlişkinin “boyutu” ve “yönü” ölçülebiliyor
mu?

Ne Kadar Yeterli?
Amaç: Daha iyi analiz, daha iyi
veri
• Covariance (kovaryans)

1
cov( x, y ) = ∑ ( xi − x )( yi − y )
n
• Correlation Coefficient (korelasyon)
cov( x, y )
corr ( x, y ) =
σxσy
1
σx2 =
n
∑( xi −x ) 2

1
σy2 = ∑( yi − y ) 2
n
Sonuçlar
• Covariance:
2115,318
• Correlation:
-0,60165
Çıkarılacak Sonuç Ne?
Amaç: Nedensel İlişkileri
Göstermek
• Y= f(x)
• X, Y’nin belirleyicisi mi?
• X, Y’yi ne kadar belirliyor?
• X, Y’yi ne yönde belirliyor?
Regresyon Analizi
• Y= f(x)
• Y= a+bx
• Regresyon Denklemi:

yi =α + βxi + ui
Scatterplot
200

100
Infant Deaths

0 Rsq = 0,3620
0 10000 20000 30000 40000

GNP pc
Regresyon Katsayılarının
Hesaplanması
cov( x, y )
βˆ xy =
σx
1
σ = ∑( xi − x )
2
x
2

n
α
ˆ = y − βx
Regresyon Analizi Sonuçları

Coefficients
Unstandardized Coefficients Standardized Coefficients t Sig.
Model B Std. Error Beta
1 (Constant) 75,04 4,79 15,67 0,00
GNP pc 0,00 0,00 -0,60 -7,11 0,00
a Dependent Variable: Infant Deaths

yi = 75.04 + −0.0034 xi + ui
Regresyon Analizinin Açılımları
• Çoklu Regresyon

yi =α + β1 x1i + β2 x2 i + β3 x3i + ui

• Kukla Değişkenli Regresyon (Dummy Variable)


yi =α + β1 x1i + β2 Di + β3 Di x3i + ui

•Binomial/Multinomial Regression
Regresyon Analizinin
dezavantajları
• Arkasında çok ciddi üç varsayım vardır.
• Regresyon analizi sadece “interval” ya da
“ratio” ölçümleme düzeyinde yapılır
• “Do not use any mathematical model
without understanding it”
Kümeleme ve Birleştirme
Analizleri
• Bütün olgular birbiriyle ilişkilidir. Aradaki ilişkinin
0 olduğu yerde bile...
• Birleştirme analizlerinin amacı olguların
birbirleriyle olan ilişkilerinden yola çıkarak işimizi
kolaylaştırmaktır
• 1. Değişken sayısını azaltabilirler
• 2. Vaka sayısını azaltabilirler
• 3. Boyut sayısını azaltabilirler
Faktör Analizi: Değişken Sayısını
Azaltmak
• Analize tabi bütün değişkenler birbiriyle
ilişkili.
• Bu değişkenlerin bazıları birbirleriyle daha
kuvvetli ilişki sahibi.
• Kuvvetli ilişki sahibi değişkenleri
birleştirerek aza indirmek mümkün.
• Değişkenlerarası korelasyon matrisi
kullanılarak “faktör”ler inşa ediliyor
Faktör Analizi
Total Variance Explaine d

Extraction Sums of Squared


Initial Eigenvalues Loadings
% of Cumulativ % of Cumulativ
Component Total Variance e% Total Variance e%
1 4,258 85,166 85,166 4,258 85,166 85,166
2 ,549 10,990 96,156
3 ,121 2,412 98,568
4 5,825E-02 1,165 99,733
5 1,335E-02 ,267 100,000
Extraction Method: Principal Component Analysis.

a
Co mp o n e n t M atr ix

Compone
nt
1
F Life Expectancy -,988
M Life Expectancy -,985
Infant Deaths ,962
Lýve Birth Rate ,900
Death Rate ,759
Extraction Method: Principal Component Analysis.
a. 1 components extracted.
“Case” Sayısı Azaltmak:
Clustering
• Verili değişkenler bazında analize alınan
“case”ler birbirlerine benzerler
• Bu benzerlik bir ya da daha fazla boyutta
olabilir
• Benzerliklerden yola çıkarak “clusters”
oluşturmak mümkün
• Benzerlikler metric mesafelerle ölçülüyor
Cluster Analysis I

Final Cluste r Ce nte rs

Cluster
1 2 3 4
Lýve Birth Rate 45,47 43,21 36,20 16,58
Death Rate 19,24 13,53 9,33 8,76
Infant Deaths 140,78 102,85 61,40 14,17
M Life Expectancy 44,22 51,75 60,49 69,52
F Life Expectancy 46,57 54,63 64,39 75,80
Cluster Analysis II
Case Number
Name Cluster Distance
1 Albania 4 18,8
2 Bulgaria 4 5,4
3 Czechoslovakia 4 6,0
4 Former_E,_Germany4 8,8
5 Hungary 4 8,2
6 Poland 4 4,0
7 Romania 4 14,0
8 Y ugoslavia 4 6,8
9 USSR 4 10,4
10 Byelorussian_SSR 4 3,7
11 Ukrainian_SSR 4 5,5
12 Argentina 4 13,3
13 Bolivia 2 10,0
14 Brazil 3 8,7
15 Chile 4 8,1
16 Columbia 3 24,0
17 Ecuador 3 6,0
18 Guyana 3 9,9
19 Paraguay 3 20,4
20 Peru 2 18,7
Cluster Analysis III

Numbe r of Case s in e ach Cluste r


Cluster 1 11,000
2 15,000
3 26,000
4 45,000
Valid 97,000
Missing ,000
Boyut Sayısını Azaltmak: MDS
• Analizde gözönünde tuttuğumuz her
değişken bir “boyut” sayılabilir.
• İki-üç boyuttan fazlasını “visualize” etmek
kolay değil.
• Değişkenler arasındaki uzaklıktan yola
çıkılarak bu boyut sayısı azaltılabilir.
• Değişkenler arasındaki uzaklıklar metric
olarak ölçülebilir
MDS
MDS

0,5
Peru

0,4

0,3

Romania Hungary
0,2
Bulgaria
Y ugoslavia
Czechoslovakia
Former_E,_Germany
Ukrainian_SSR
Poland
Brazil
0,1
Y

USSR Byelorussian_SSR

Guyana Argentina
0
Ecuador0 Albania
-2 -1,5 -1 -0,5 0,5 1 1,5 2
Bolivia
Columbia
-0,1 Chile

-0,2

Paraguay

-0,3
X
• “İstatistiksel araçlarınız ne kadar güçlü, ne
kadar gelişmiş olursa olsun, unutmamanız
gereken tek şey var:
• Bu verileri okuma yazması olmayan
demiryolu bekçileri topladı”
Sir John Maynard Keynes
Kaynaklar:

İrfan Yolcubal – 1. İstatistik ve Olasılık Ders Notları, Kocaeli


Üniversitesi, Jeoloji Müh. Bölümü
mf.kou.edu.tr/jeoloji/yolcubal/ istatistik/istatistik_giris.pdf

İrfan Erdoğan - Ampirik tasarım ve istatistik yöntem semineri


www.anatoliajournal.com/akademik/birinciseminer.ppt

You might also like