Professional Documents
Culture Documents
ÖLÇME ve
DEĞERLENDİRME
Ölçme bir tanımlama işlevidir. Geniş anlamda ölçme belli bir nesnenin belli bir özelliğe sahip olup
olmadığının, sahipse olma derecesinin sayı sembolleriyle ifade edilmesidir. Örneğin; belli bir
gündeki sıcaklığın kaç derece ya da bir çocuğun boyunun kaç cm olduğunu belirtmek birer
ölçmedir.
Belli bir özelliğe sahip olup olmama ya da sahip oluş derecesi bakımından bireyler arasında farklar
vardır. Fark kavramı ölçme için temeldir. Bir anlamda ölçme farktan doğmuştur. Bütün insanlar aynı
zekâ düzeyinde olsaydı, aynı uzunlukta olsaydı ölçme diye bir şey söz konusu olamazdı.
Doğrudan ölçme: Doğrudan ölçmede, ölçme konusu olan nitelik dolaysız olarak ölçülür. Örneğin;
boy ve ağırlık kendileriyle aynı türden bir birimle ölçülür. Uzunluk aynı türden iki nesne yan yana
konulurak ölçülür. İki ağırlığı dengelemekle de ağırlık ölçülebilir.
Dolaylı ölçme: Bazı nitelikler doğrudan ölçülemez. Doğrudan ölçülemeyen nitelikler, onlarla ilgili
olduğu sanılan başka bir nitelik gözlenerek dolaylı olarak ölçülür. Örneğin; zekâ ve başarıyı ölçmek
için testteki sorulardan yararlanınız.
Sıralama ölçekleri: Bu tür ölçekler de nesneler belli niteliklere sahip oluş miktarları açısından
sıraya konarak elde edilir. Bu ölçekte nesneler bir özelliğe en çok sahip olandan en az olana ya da
en az sahip olandan en çok olana doğru sıralanır. Bu sıralama ile bir öğrencinin boy uzunluğu yada
başarı oranı açısından grup içinde kaçıncı olduğu belirlenebilir.
Eşit aralıklı ölçekler: Nesnelerin belli bir özelliğe sahip olma dereceleri bakımından eşit aralıkla
sıralandığı düşünülürse eşit aralıklı ölçeğe geçilmiş olunur. Bu ölçeklerde değişmez bir birim vardır.
Ölçek başlangıç noktasından itibaren her iki yana doğru bu birimle eşit olarak bölünmüştür.
Örneğin; sıcaklık ölçmede kullanılan termometreler, eşit aralıklı ölçek esasına göre geliştirilmiştir.
Oranlı ölçekler: Aralıklı ölçek üzerinde sıfır noktası yerine doğal ya da gerçek sıfır noktası
konulabilirse elde edilen ölçeğe oranlı ölçek adı verilir. Bu tip ölçekler daha çok fiziksel bilimlerde
kullanılır. Örneğin; metre, kilogram gibi ölçme araçları bu tür ölçek esasına uygun olarak
geliştirilmiştir.
Değerlendirme: Klâsik tanımıyla değerlendirme gözlem sonuçlarının bir ölçütle veya ölçütler
takımıyla kıyaslanıp bir karara varılması işidir.
Eğitimde de öğrenciler eğitim programı ve öğretimin kalitesi gibi pek çok konu hakkında karara
varılır. Bu kararlar değerlendirme sonucunda elde edilir. Yukarıdaki tanımda geçen gözlem
sonuçlarının elde edilmesi ölçme yoluyla olur. Değerlendirme sonucunda varılan kararın isabetlilik
derecesi ölçme sonuçlarının geçerlilik ve güvenirliliğine bağlıdır. Değerlendirme sonunda varılan
kararın isabetliliği derecesine etki eden diğer etken ölçütün ölçme amacına uygunluğudur.
SÖZLÜ YOKLAMALAR
Soruların ve cevapların sözlü olarak ifade edildiği sınav türüdür. Bu tür sınavların temel özellikleri
şunlardır:
• Uygulaması çok zaman alır.
• Farklı soruların hazırlanması gerekmektedir.
• Her sorunun güçlük düzeyi farklı olmalıdır.'
Öğretmenin yaklaşımından, soruların güçlük düzeyinden ve sınavın yapıldığı ortamdan
(öğrencilerin huzurunda) kaynaklanan nedenlerden dolayı psikolojik faktörler etkili olabilir.
• Puanlama güvenirliği düşüktür.
• Öğrencinin kişilik özellikleri puanı etkiler.
• Sözlü ifade yeteneği, etkili konuşabilme gibi özellikler öğretmeni etkileyebilir.
• Puanlara hata karıştığı için güvenirliği ve geçerliği düşüktür.
• Her öğrenciye farklı soru sorulmalıdır.
• Öğrencilerin kendilerini rahat hissedebilecekleri psikolojik ortamı gerektirir.
• Daha çok analiz, sentez ve değerlendirme düzeyinde sorular sorulmalıdır.
Yazılı yoklamanın alternatifi olan bir sınav türüdür. Özellikle alt düzey hedeflerin ölçülmesinde
kullanılır. Bu tür testlerde bilme düzeyindeki, kısmen de kavrama düzeyindeki davranışlar ölçülür.
(Bu aynı zamanda kısa cevaplı testin en önemli sınırlılığıdır
çünkü öğrenmeyi hatırlamaya ve ezbere yöneltir.) Cevabı bir kelime, rakam veya en çok bir
cümle ile verilebilen sınavlardır. Kısa cevaplı bir test maddesi direkt soru cümlesi olarak ya da
eksik cümleli (doldurmalı test) olarak sorulabilir. Daha çok ilköğretimin ilk sınıflarında kullanılır.
Özellikleri
• Daha fazla sayıda soru sorulabilir.
• Hazırlanması ve cevaplanması kolaydır.
• Öğretimin her basamağında kullanılabilir.
• Puanlaması kolay ve objektiftir.
• Şans başarısı yüksektir. Doğru cevabı bulma şansı 1/2 (%50) dir. Doğru-yan-lış testi eğitimde
kullanılan testler içerisinde şans başarısının en yüksek olduğu testtir. Aynı zamanda öğrenme
eksikliğini belirlemede ve öğretimin değerlendirilmesi amacıyla yapılan öğre-meleri izlemeye
dayalı değerlendirmede kullanılması uygun değildir.
Sınavda geniş öğrenme konulan ölçülmek isteniyorsa kullanılır. (Çok sayıda soru sorularak, konulan
temsil gücü sağlanır-kapsam geçerliği sağlanır).
EŞLEŞTİRMELİ TESTLER
Eşleştirmeli testler, çoktan seçmeli testlerin farklı bir biçimidir. İki bölümde verilen bilgiler,
kelimeler, numaralar, semboller eşleştirilir. Öğrencilerin bilgiler, nesneler, olaylar hakkında ilişki
kurma güçleri ölçülür.
Bir ölçme aracına (yazılı yoklama sözlü yoklama, çoktan seçmeli test, boşluk doldurma vb.)
karışabilecek hata kaynakları
• Öğrencinin sınava tutumu, istekliliği, yorgunluğu, hastalığı
• Puanlamayı yapan kişinin yanlılığı, dikkatsizliği ve kişilik özellikleri
• Ölçme aracının ölçülen hedef-davranış-ları ölçmeye uygunluğu '
• Ölçmenin yapıldığı ortamdan (ısı, ışık, havalandırma gürültü, kopya çekme olanağı vb.)
kaynaklanan nedenler
• Ölçme aracından (soruların anlaşılmaması, karmaşık sorular, okunamama vb.) kaynaklanın hatalar
1. Geçerlilik: Geçerlilik bir ölçme aracının ölçmeyi amaçladığı özelliği, başka herhangi bir
özellikle karıştırmadan, doğru ve tam olarak ölçülebilmesidir. Geçerlilik ölçülmek istenen
değişkenin, ölçülebilmiş olma derecesidir. Doğrudan ölçmelerde geçerlik, dolaylı ölçmelere göre
daha yüksektir.
Güvenirlik geçerlik birbirinden tamamen ayrı iki kavram olup elde edilen istatistik değerleri
arasında hiçbir ilişkisi yoktur. Ancak her ikisinin birlikte olmasıyla ölçek anlam bulur. Örneğin;
ölçeğin güvenilir olması onun geçerliğini garantilemez.
a. İçerik geçerliği: Ölçme aracının tanımlanan davranış tepki evrenini yeterince temsil
edebilmesidir. İçerik geçerliği ölçülen konudaki tüm boyutlarda oluşan tepki evrenini ölçeğin
temsil etme gücüdür.
b. Yüzeysel geçerlik: Ölçme aracının hangi değişkeni ölçtüğü hakkındaki uzman görüşüdür.
Geçerlik seviyesini sayısal değerle belirtme olanağı yoktur. Yalnızca kanaatlere göre kabul söz
konusudur. Yüzeysel geçerlik ölçme aracının hangi değişkeni ölçtüğünü değil, ölçer gibi
göründüğünü belirler.
d. Yapı geçerliği: Soyut kavramlara yönelik ölçmelerde önce ölçülen kavramı tanımlayan
kuramlardan biri tercih edilir. Böylece ölçülmek istenen kavramın yapısı belirlenir. Bu kuramsal
yapıya göre gözlenebilir değişkenler ortaya konur. Son olarak gözlenebilir değişkenleri
ifadelendiren maddeler yazılarak ölçek hazırlanır. Ölçek geliştirildiğinde maddelerin hangi
etkenleri temsilen yazıldığını araştırmacı bilmektedir. Yani teorik yapıya bağlı ölçek yapısı
belirlenir. Ölçeğin uygulanmasından elde edilen veriler "etken analizi" istatistik tekniği ile işlenir.
e. Ayırt etme gücü: Bir maddenin ayırt etme gücü ölçülen değişken bakımından birimler arası
farklılığı ne ölçüde ortaya çıkarabildiği ile ilgilidir. Ölçmenin temel amacı ölçülen nesneler-deki
farkı yakalayabilmek olduğuna göre ayırt etme gücü ayrı bir önem kazanır. Bir maddeye herkes
aynı yanıtı vermiş ise diğer özellikleri ve önemi ne olursa olsun kimseyi diğerinden ayırt etmediği
için maddeyi ölçekte tutmanın bir anlamı yoktur. Ayırt etme gücü zayıf maddelerin ayıklanması
ile ölçek daha kısa ama daha etkili bir hale getirilmiş olur. Maddelerin ayırt etme gücünün analizi
için bireylerin, ölçekten aldıkları toplam puanı belirlenir ve bu toplam puana göre en büyükten en
küçüğe doğru sıralanır. Ayırt etme gücünü belirleme tekniklerindeki temel yaklaşım testin
toplamında yüksek puan alanların incelenen madde de yüksek puan almaları gereğinin karşılanıp
karşılanmadığıdır. Aynı şekilde ölçeğin toplamında düşük puan alanlar grubunda yer alan
bireylerin madde puanlarında düşük olması gerekir.
2. Güvenirlik: Bir ölçme aracıyla farklı zamanlarda elde edilen ve aynı nesnelerle ilgili olan bir
grup ölçümle ikinci grup ölçüm arasındaki tutarlılık eğilimine o aracın güvenirliği denir. Güvenirlik
aynı değişkenin bağımsız ölçümleri arasındaki kararlılıktır.
Aynı süreçlerin izlenmesi ve aynı ölçütlerin kullanılması ile aynı sonuçların alınmasıdır.
Güvenirliğin yüksek olabilmesi, ölçmede izlenen süreçler ile kullanılan ölçütlerin ayrıntılı olarak
belirlenebilmesine bağlıdır. Dolaylı ölçmelerin yaygın olarak kullanıldığı sosyal bilimlerde
güvenirliği yükseltmek için çok sayıda ölçüt kullanılmaya çalışılır. Madde veya soru sayısı arttırılır.
Böylece güvenirliği yüksek sonuçlar alınabilir.
HATA TÜRLERİ
a. Sabit hatalar: Her ölçme için miktarı değişmeyen hatalara sabit hatalar denir. Bir manavın
terazisinin tarttığı her nesneyi ağırlığından 100 gr fazla gösterdiğini ya da bir öğretmenin
okuduğu her sınav kağıdına 5 puan fazla verdiğini kabul edelim. Bu durumda ölçümler gerçek
ölçümler olmayacak, hatalı ölçümler olacaktır. Yalnız bu hatalar her bir ölçme için aynı yönde
etkili olacaktır. Ve hata miktarı her bir ölçme için değişmeyecektir. Sabit hatalar bireysel
ölçümleri ve ölçümlerin ortalamasını gerçekte olduğundan büyük ya da küçük gösterir.
b. Sistemli hatalar: Bir öğretmenin yalnızca kız öğrencilerin kâğıtlarına 10 puan fazla verdiğini
düşünelim. Bu hatalar her ölçme için yorumlanabilir niteliktedir ve sistemlidir. Ancak tüm
ölçümler için sabit değildir (Örneğin; erkek öğrenciler). Puanlayıcı yanlılıklarını gösteren hatalar
sistemlidir.
c. Rastgele hatalar: Bu tür hatalar rastgele ortaya çıkan ve ne yönde etki ettiği yorumlana-
mayan hatalardır. Bu hatalar çoğu kez, bilinmeyen nedenlere bağlıdır. Nedenleri iyi bilinmeyen
ve ölçme sonuçlarına rastlantıyla karışan hatalardır.
ölçmelerde tutarlılık: Bir ölçme aracıyla farklı zamanlarda elde edilen ve aynı nesnelerle ilgili olan
bir grup ölçümle ikinci grup ölçüm arasındaki tutarlılık eğilimine o aracın güvenirliği denir.
Birbirini izleyen ölçmelerde bireyin grup içindeki pozisyonundaki tutarlılık, yani grup içindeki
sıranın değişmezliği aranır. Aynı nesnelerle ilgili iki ölçüm arasındaki korelâsyon hesaplanır.
Bulunan korelâsyon kat sayısı, güvenirlik kat sayısı olarak adlandırılır.
Yapılan ölçümlerdeki değişme, standart kayma olarak ifade edilir. Bu ölçmelerdeki gerçek hata
payını gösterir. Bu durumda ona, ölçmenin standart hatası denir.
Güvenirliği etkileyen etkenler: Güvenirlik bir testin kendiliğinden sahip olduğu bir nitelik
değildir. O ancak bir testin, bir gruba uygulanmasıyla sahip olduğu bir niteliktir. Bir testten alınan
puanların güvenirliğine bir çok etken etki eder. Bazıları şunlardır:
Testin uzunluğu: Bir testin içerdiği madde sayısı, testin güvenirliği ile doğrudan bağlantılıdır.
Güvenilirliği etkileyen diğer etkenlerin tümü kontrol edilmişse ve teste sonradan katılan sorular,
öncekiler gibi aynı davranışlarla ilgiliyse, soru sayısı arttırılarak testin güvenirliği arttırılabilir.
Örneğin; öğretmenlerin yaptığı bir iki soruluk yoklamalardan ya da 10 - 15 maddelik doğru -
yanlış testlerinden alınan puanlar tek bir puan için toplanmadıkça güvenilir olmaz. Bu yüzden
belirtilen sınavlardan birkaçı birlikte tek bir sınav gibi değerlendirilmelidir.Test içeriğinin
benzerliği: Ölçütleri davranış ve konu açısından homojen olan bir testten alınan puanlar,
heterojen bir testten alınan puanlardan daha güvenilir olur. Örneğin; 100 maddelik bir sosyoloji
testi, 100 maddelik sosyal bilimler testinden daha güvenilirdir. Konulan sıkıca örülmüş olan
derslerde (matematik - yabancı dil) geliştirilen testler konuları sıkıca örülmemiş olan derslerde
geliştirilen testlerden daha güvenilir sonuçlar verir. Ayırt edici maddelerden oluşan bir testin
güvenilirliği daha yüksek olur. Bir maddenin ayırt etme gücü, o maddenin içerdiği düşüncenin
sağlamlığına, onun anlamının açıklığına, çoktan seçmeli maddelerde doğru yanıtın yeterli yetersiz
bilgiye sahip olan öğrenciler için çekici gelmesine de bağlıdır.
Puanlamadaki nesnellik: Bir testin güvenirliğini, onun puanlamasının nesnel olup olmayışı
büyük ölçüde etkiler. Bir testten alınan puan, puanlayıcıya ya da puanlanan zamana göre
değişmiyorsa o testin puanlama güvenirliği yüksektir. Puanlama güvenilirliği yüksek olan bir
testin güvenirliği de yüksek olur.
Puanlama güvenirliği, puanlamanın nesnel olmasına ve puanlayıcının öznel kanısının puanlamaya
etki etmemesine bağlıdır. Bu nedenle objektif testler en yüksek puanlama güvenirliğine sahiptir.
Uygulama koşullan: Testin uygulamasında ana kural, uygulama koşullarının her öğrenci için
aynı olmasıdır.
Testten alınan puan güvenirliği, uygulama koşullarının elverişsizliğinden ya da koşulların her
öğrenci için ayn olmasından dolayı düşebilir. Testin uygulandığı koşullar ışık, ısı, havalandırma
gibi değişkenler bakımından elverişli olmalıdır.
Testin uygulanmasındaki önemli bir konuda kopya sorunudur. Testin hazırlanması, çoğaltılması,
saklanması aşamalarında gizlilik ilkesine kesinlikle uyulmalıdır.
Uygulama sırasında öğrenciler birbirinin yanıtlarını görmeyecek düzende oturtulmalıdır. Testi
uygulayanlar yansız davranmalı, onların yanıtlarını etkileyecek herhangi bir işaret ya da
davranıştan kaçınmalıdır.
Sınava giren öğrencinin dinlenmiş ve somlar yanıtlamaya güdülenmiş olması istenir. Doğru
yanıtını bilmediği maddelerde tahmine giden öğren çilerden şanslı olanlar puanlarını
arttırabilirler.
Teste tâbi tutulan öğrencinin test puanının değişmesine neden olan bireysel etkenler
dört grup altında incelenebilir.
1. Bireyin sürekli ve genel karakteristikleri
Bu tür etkenler bireyin yalnızca belli bir zaman da olmuş olduğu belli bir testteki, puanın değiş
meşine değil, herhangi bir zamanda alacağı herhangi bir testteki puanında değişmesine ne den
olur. Örneğin; hızlı okuma ve okunduğun anlama yeteneği... Testte bulunan problemleri
benzerlerini daha önce çözmüş olma gibi.
2. Bireyin sürekli ve özel karakteristiği: Bunlar yalnızca belli bir testle ilgili olan etkenlerdi
Örneğin; testte bulunan bir okuma parçasını daha önce okumuş olma gibi.
3. Bireyin geçici ve genel karakteristiği: Herhangi bir testten alınacak puanı etkileyen
etkenlere denir. Sınav yerindeki ısı, ışık, ve havalandırma durumu v.b.
4. Bireyin geçici ve özel karakteristikleri: Bunlar belli bir zamanda alınan belli bir testteki
puana etki eden etkenlerdir. En çok hataya etki eden etmenlerdir. Örneğin; özel bir testin neden
olduğu güdülenme eksikliğidir.
Bir testin güvenirliği, o testin uygulandığı grubun ölçülen özellik bakımından homojen ve
heterojen olmasına bağlıdır. Güvenirliği aynı kişilerin bir testten aldıkları puanların tutarlılığı ya
da test sonuçlarına göre kişilerin grup içindeki sıralarının değişmezliği olarak tanımlanır.
Güvenirlik, geçerlik için gerekli koşuldur. Bir testin güvenirliği düşük ise geçerliği de düşüktür.
Ancak güvenirliği yüksek olan bir testin geçerliği yüksek olmayabilir. Hatta düşük olabilir.
Güvenirliği düşük bir testin geçerliği ne denli uğraşılırsa uğraşılsın belli bir sınırın üstüne
çıkarılamaz.
Kullanışlılık
Bir ölçme aracının sahip olması istenilen üçüncü nitelik kullanışlılıktır. Bir testin kullanışlılığı onun
geliştirilmesi, çoğaltılması, uygulanması ve puanlanmasının kolay ve ekonomik olması demektir.
Çoğu kez testin kullanışlılığı ilk plânda düşünülüp onun geçerlilik ve güvenirliği dikkate alınmaz.
Böyle yapılması doğru değildir. Bir testin güvenirlik ve geçerliği ön plânda tutulmalıdır. Geçerlik
ve güvenirlikten vazgeçmeden kullanışlık işleri karşılanmaya çalışılmalıdır.
Hazırlanan testin ya da soruların sınava giren her öğrenciye bir nüsha düşecek biçimde
çoğaltılması testin kullanışlılığını artırır. Ancak bu da olanaklara bağlıdır. Basılan testlerde
soruların okunması ve birbirlerinden ayn bir bütün olarak algılanması kolay olmalıdır. Basımı kötü
ve nerdeyse soruları birbirlerine karışmış olan bir test kullanışlılığından çok şey yitirir. Bu nedenle
testler uygulanmadan önce okunamayan ya da yanlış yazılan yerler olup olmadığı bakımından
büyük bir özenle gözden geçirilmelidir. Kopya çekmeyi engellemek için sınav yapılırken olanaklar
ölçüsünde fazla gözcü kullanılmamalıdır. Bir testin kullanışlılığını artıran etkenlerden biri de o
testin uygulanabildiği alanın genişliğidir. Üzerinde durulacak bir başka nokta testin
puanlamasındaki kolaylıktır. Bu konuya iki yönden bakılabilir.
l.Mod; ölçümler arasında tekrarı en fazla olanıdır. Mod bir vasat ölçüsü olarak grubun
performansını yansıtır. Sınıflama ölçeğindeki veriler için kullanılması en uygun istatistiksel
işlemdir. Bazen dağılımın iki veya daha çok modu olabilir. Bu durumdan dağılıma iki modlu, üç
modlu gibi isimler verilir.
2. Ortanca; ortanca sıralanmış bir dizi ölçüm arasında, tam ortada bulunan ölçümdür. Bir başka
anlatımla üzerinde ve altında ayn sayıda ölçüm olan bir vasat ölçüsüdür. Puanlar sıralandıktan
sonra puanlan iki % 50 lik dilime ayıran değerdir.
Örneğin; 1, 3, 5,7,9vell ölçümlerine ait ortanca 6 dır. 6 ne üçüncü kişinin ne de dördüncü kişinin
aldığı puandır. Bu durumda ortaya yakın olan 3.ve 4. kişilerin puanlan toplanıp ikiye bölünür.
Böylece ortanca bulur.
Veri sayısı tek olduğunda ise direkt olarak ortadaki veri ortanca olarak alınır.