Professional Documents
Culture Documents
( x −x ) 2
s2 =∑
n
• Neden:
İki Dağılımın Hikayesi
Dağılım:
Dağılım: 0,6,12
6,6,6
Ortalama: 6
Ortalama: 6 Medyan: 6
Medyan: 6 Mod: 6
Mod: 6
Std: Sapma: 6
Std. Sapma: 0
Genel
70
60
50
40
Genel
30
20
10
0
10 20 30 40 50 60 70 80 90 100
Görünenin Arkası....
70
60
50
40
Kadınlar
Erkekler
Genel
30
20
10
0
10 20 30 40 50 60 70 80 90 100
500
400
300
200
100
Std. Dev = 14,30
Mean = 9,1
0 N = 761,00
2,5 12,5 22,5 32,5 42,5 52,5
7,5 17,5 27,5 37,5 47,5 57,5
80
300
60
200
40
100
20
Std. Dev = 15,42 Std. Dev = 8,36
Mean = 9,8 Mean = 6,3
0 N = 602,00 0 N = 158,00
2,5 12,5 22,5 32,5 42,5 52,5 2,5 12,5 22,5 32,5 42,5 52,5
7,5 17,5 27,5 37,5 47,5 57,5 7,5 17,5 27,5 37,5 47,5 57,5
Total hours spent on line last week-Hours Total hours spent on line last week-Hours
Açıklayıcı Analizler
• Amaç: İlk bakışta görül(e)meyen
ilişkileri sergileyip ilişkisel açıklamalar
getirmek
• Y= f(x)
ie: İnternet kullanımı= f(cinsiyet)
ie: Yaşam biçimi= f(gelir)
ie: Tüketim kalıpları= f(yaşam biçimi)
Örnek: Gelişmişlik ve Yaşam
Kalitesi
• BM verilerinden elde edilen bir tablo...
• Araştırma sorusu: Gelişmişlik ve Yaşam
Kalitesi arasındaki ilişki
• İşlemleştirme:
– Gelişmişlik: Kişi Başına Düşen GSMH
– Yaşam Kalitesi: Çocuk ölümleri
Gruplanmış Veri
•
GMSH Gruplanmış
En düşük Düşük Orta Yüksek En Yüksek
Çocuk ÖlümOranı En düşük 3,23 44,44 53,85 82,76
Düşük 12,90 25,00 33,33 7,69 6,90
Yüksek 16,13 25,00 22,22 30,77 6,90
En yüksek 67,74 50,00 7,69 3,45
Scatterplot
200
100
Infant Deaths
0
0 10000 20000 30000 40000
GNP pc
Sorular
• Grafiği ne kadar temsil ediyor?
• Ne gibi çıkarımlar yapabiliyoruz?
• “Forecasting” yapılabiliyor mu?
• İlişkinin “boyutu” ve “yönü” ölçülebiliyor
mu?
Ne Kadar Yeterli?
Amaç: Daha iyi analiz, daha iyi
veri
• Covariance (kovaryans)
1
cov( x, y ) = ∑ ( xi − x )( yi − y )
n
• Correlation Coefficient (korelasyon)
cov( x, y )
corr ( x, y ) =
σxσy
1
σx2 =
n
∑( xi −x ) 2
1
σy2 = ∑( yi − y ) 2
n
Sonuçlar
• Covariance:
2115,318
• Correlation:
-0,60165
Çıkarılacak Sonuç Ne?
Amaç: Nedensel İlişkileri
Göstermek
• Y= f(x)
• X, Y’nin belirleyicisi mi?
• X, Y’yi ne kadar belirliyor?
• X, Y’yi ne yönde belirliyor?
Regresyon Analizi
• Y= f(x)
• Y= a+bx
• Regresyon Denklemi:
yi =α + βxi + ui
Scatterplot
200
100
Infant Deaths
0 Rsq = 0,3620
0 10000 20000 30000 40000
GNP pc
Regresyon Katsayılarının
Hesaplanması
cov( x, y )
βˆ xy =
σx
1
σ = ∑( xi − x )
2
x
2
n
α
ˆ = y − βx
Regresyon Analizi Sonuçları
Coefficients
Unstandardized Coefficients Standardized Coefficients t Sig.
Model B Std. Error Beta
1 (Constant) 75,04 4,79 15,67 0,00
GNP pc 0,00 0,00 -0,60 -7,11 0,00
a Dependent Variable: Infant Deaths
yi = 75.04 + −0.0034 xi + ui
Regresyon Analizinin Açılımları
• Çoklu Regresyon
yi =α + β1 x1i + β2 x2 i + β3 x3i + ui
•Binomial/Multinomial Regression
Regresyon Analizinin
dezavantajları
• Arkasında çok ciddi üç varsayım vardır.
• Regresyon analizi sadece “interval” ya da
“ratio” ölçümleme düzeyinde yapılır
• “Do not use any mathematical model
without understanding it”
Kümeleme ve Birleştirme
Analizleri
• Bütün olgular birbiriyle ilişkilidir. Aradaki ilişkinin
0 olduğu yerde bile...
• Birleştirme analizlerinin amacı olguların
birbirleriyle olan ilişkilerinden yola çıkarak işimizi
kolaylaştırmaktır
• 1. Değişken sayısını azaltabilirler
• 2. Vaka sayısını azaltabilirler
• 3. Boyut sayısını azaltabilirler
Faktör Analizi: Değişken Sayısını
Azaltmak
• Analize tabi bütün değişkenler birbiriyle
ilişkili.
• Bu değişkenlerin bazıları birbirleriyle daha
kuvvetli ilişki sahibi.
• Kuvvetli ilişki sahibi değişkenleri
birleştirerek aza indirmek mümkün.
• Değişkenlerarası korelasyon matrisi
kullanılarak “faktör”ler inşa ediliyor
Faktör Analizi
Total Variance Explaine d
a
Co mp o n e n t M atr ix
Compone
nt
1
F Life Expectancy -,988
M Life Expectancy -,985
Infant Deaths ,962
Lýve Birth Rate ,900
Death Rate ,759
Extraction Method: Principal Component Analysis.
a. 1 components extracted.
“Case” Sayısı Azaltmak:
Clustering
• Verili değişkenler bazında analize alınan
“case”ler birbirlerine benzerler
• Bu benzerlik bir ya da daha fazla boyutta
olabilir
• Benzerliklerden yola çıkarak “clusters”
oluşturmak mümkün
• Benzerlikler metric mesafelerle ölçülüyor
Cluster Analysis I
Cluster
1 2 3 4
Lýve Birth Rate 45,47 43,21 36,20 16,58
Death Rate 19,24 13,53 9,33 8,76
Infant Deaths 140,78 102,85 61,40 14,17
M Life Expectancy 44,22 51,75 60,49 69,52
F Life Expectancy 46,57 54,63 64,39 75,80
Cluster Analysis II
Case Number
Name Cluster Distance
1 Albania 4 18,8
2 Bulgaria 4 5,4
3 Czechoslovakia 4 6,0
4 Former_E,_Germany4 8,8
5 Hungary 4 8,2
6 Poland 4 4,0
7 Romania 4 14,0
8 Y ugoslavia 4 6,8
9 USSR 4 10,4
10 Byelorussian_SSR 4 3,7
11 Ukrainian_SSR 4 5,5
12 Argentina 4 13,3
13 Bolivia 2 10,0
14 Brazil 3 8,7
15 Chile 4 8,1
16 Columbia 3 24,0
17 Ecuador 3 6,0
18 Guyana 3 9,9
19 Paraguay 3 20,4
20 Peru 2 18,7
Cluster Analysis III
0,5
Peru
0,4
0,3
Romania Hungary
0,2
Bulgaria
Y ugoslavia
Czechoslovakia
Former_E,_Germany
Ukrainian_SSR
Poland
Brazil
0,1
Y
USSR Byelorussian_SSR
Guyana Argentina
0
Ecuador0 Albania
-2 -1,5 -1 -0,5 0,5 1 1,5 2
Bolivia
Columbia
-0,1 Chile
-0,2
Paraguay
-0,3
X
• “İstatistiksel araçlarınız ne kadar güçlü, ne
kadar gelişmiş olursa olsun, unutmamanız
gereken tek şey var:
• Bu verileri okuma yazması olmayan
demiryolu bekçileri topladı”
Sir John Maynard Keynes
Kaynaklar: