Geçerlilik Nedir?

Ölçme değerlendirme içinde en çok kullandığımız ama bazen en zor açıkladığımız kavramlardan biri “geçerlilik”. Sınav hazırlarken, rubrik oluştururken ya da bir etkinliği değerlendirirken ister istemez içimizden şu soru geçer: “Ben gerçekten ölçmek istediğim şeyi mi ölçüyorum?” İşte geçerlilik tam da bu sorunun bilimsel karşılığıdır. En sade anlatımıyla: Geçerlilik bir ölçme aracının ölçmek istediğimiz şeyi ne kadar doğru ve uygun şekilde ölçtüğüne dair topladığımız kanıtların bütünüdür. Yani ölçme aracına “geçerli” etiketi yapıştırıp bırakmak mümkün değil; geçerlilik bir süreçtir sürekli desteklenmesi gereken bir delil birikimidir.

Örneğin matematik dersinde problem çözme becerisini ölçmek istiyoruz ama soruların büyük kısmı ezbere dayalı tanım ve formül sorularından oluşuyor. Böyle bir durumda ölçtüğümüz şey artık problem çözme değildir. Tam tersine öğrencinin gerçek performansını görmek isterken ölçme aracının içine istemeden başka beceriler sızabilir. Mesela uzun metin kullanırsak okuduğunu anlama; çok teknik çizimler kullanırsak görsel yorumlama; evde yapılabilecek bir proje istersek aile desteği. Bu örneklerin hepsi ölçtüğümüz şey ile ölçmek istediğimiz şey arasında kayma olduğunda geçerliliğin zarar gördüğünü gösterir.

Bilimsel literatürde geçerlilikle ilgili “kapsam”, “yapı”, “ölçüt” gibi alanlardan söz edilir ama bunları ayrı türler gibi düşünmek yerine bir bütünün parçaları olarak görmek daha doğru (Yapı Geçerliliği tüm geçerlilik türlerini kapsar mı? Bu soruyla ilgili yıllardır süregelen bir tartışma mevcut).

Hepsi geçerliliğe dair farklı delil kaynaklarıdır.
– Sorular kazanımları temsil ediyor mu?
– Ölçmek istediğimiz beceriyi gerçekten yakalıyor mu?
– Başka güvenilir ölçütlerle tutarlı ilişkiler kuruyor mu?
Bu sorulara verdiğimiz yanıtlar geçerlilik kanıtlarımızı oluşturur.

Geçerliliğin en önemli boyutlarından biri de ölçme sonucunun nasıl kullanılacağıdır. Bilimsel kuruluşların (AERA, APA, NCME) ortak vurguladığı nokta şudur: Bir ölçme aracı belirli bir amaç için geçerli olabilirken başka bir amaç için geçerli olmayabilir. Örneğin sınıf içi geri bildirim amaçlı kullanılan bir kısa sınav öğrenmeyi izlemek için çok faydalıdır fakat yıl sonu “geçti-kaldı” kararını vermek için yeterli geçerlilik delili sunmayabilir. Yani geçerlilik hem ölçme aracının niteliği hem de sonucun kullanım amacıyla ilgilidir.

Sınıf içindeki küçük ayrıntılar bile geçerliliği etkiler. Örneğin soru çok uzun olduğunda matematik yerine okuma becerisi ölçmek, talimatları belirsiz verdiğimizde öğrencinin ne yapacağını kendince yorumlaması, rubrik kriterleri açık olmadığında öğrencilerin neyin beklendiğini tahmin etmeye çalışması… Bunlar basit ama etkili örneklerdir. Bu yüzden geçerlilik yalnızca “teknik bir ölçme kavramı” değil öğretmenin öğrenciyi doğru anlama çabasının bir parçasıdır.

Sonuç olarak geçerliliği şöyle toparlayabiliriz:
Ölçmek istediğimiz şeyle gerçekten ölçtüğümüz şey ne kadar örtüşüyorsa geçerlilik o kadar güçlüdür. Güçlü geçerlilik öğrencinin hakkını korur, öğretmenin kararlarını sağlamlaştırır ve değerlendirmenin güvenilirliğini artırır. En nihayetinde geçerlilik ölçmeye duyduğumuz saygının ve öğrenciyi doğru değerlendirme isteğimizin bir yansımasıdır.

Sizce KPSS geçerliliği yüksek bir sınav mı?

Ya da öğretmenlik alımlarında 2025 yılından itibaren uygulanacak olan MEB-AGS mi geçerliliği yüksek bir sınav yoksa eski sistem KPSS mi? ( Doktora Yeterlik sözlü sınav sorusu  🙂 )

İLGİLİ yAZILAR