Otomatik Puanlama
Otomatik puanlama artık sadece “makine öğrenci cevabına bakıyor benzer cevaplara benzer not veriyor” gibi yüzeysel bir işlem değil. Özellikle yapay zekâ tabanlı modellerle birlikte sistemin içindeki teknik yapı oldukça karmaşık ve katmanlı hale geldi. Eğitimde kullanılan modern otomatik puanlama sistemleri genellikle şu dört temel yaklaşımın bir karışımıdır:
-
Kural Tabanlı Puanlama (Rule-Based Scoring)
-
Makine Öğrenimi Tabanlı Puanlama (Machine Learning-Based Scoring)
-
Doğal Dil İşleme Tabanlı Puanlama (NLP-Based Scoring)
-
Büyük Dil Modeli Tabanlı Puanlama (LLM-Based Scoring)
Her biri sınıf içinde farklı avantajlar sağlar ve teknik temelleri de farklıdır.
1. Kural Tabanlı Puanlama (Rule-Based Systems)
Bu sistemler en eski ve en öngörülebilir otomatik puanlama yaklaşımıdır.
🔧 Teknik olarak nasıl çalışır?
-
Öğrenci cevabı belirlenen kalıplarla (regex, anahtar kelime eşleştirme, boolean kurallar) karşılaştırılır.
-
Cevap belirli anahtar ifadeleri içeriyorsa +1 puan içermiyorsa 0 puan verilir.
-
Doğru yanıt kümeleri sistem tarafından önceden kodlanır.
📌 Avantaj: Çok hızlıdır ve öngörülebilir.
📌 Dezavantaj: Öğrencinin yenilikçi (!) cevaplarını anlayamaz yorum gerektiren sorularda yetersizdir.
2. Makine Öğrenimi Tabanlı Puanlama (Traditional ML)
Burada model etiketlenmiş öğrenci cevaplarından öğrenir.
🔧 Teknik işleyiş:
-
Öğrencilerin cevapları özellikler (features) haline getirilir.
-
Model ilişkiyi öğrenir ve yeni cevaplar için puan tahmin eder.
Kullanılan ML algoritmalarına örnekler:
-
Logistic Regression
-
Random Forest
-
SVM (Support Vector Machines)
-
Gradient Boosting
Bu yöntemler özellikle kısa yazılı cevaplarda oldukça başarılıdır.
💡 Önemli teknik detay:
ML tabanlı sistemlerde özellik çıkarımı (feature extraction) kritik öneme sahiptir. Özellikler şunlar olabilir:
-
kelime sayısı
-
özgün kelime sayısı
-
n-gram yapıları
-
belirli matematiksel kelime listeleri
-
hata tipleri
-
bağlam içi kelime yoğunluğu
Bu yaklaşımın dezavantajı çok fazla manuel özellik mühendisliği gerektirmesidir.
3. NLP Tabanlı Puanlama (Neural NLP Models)
Bu sistemler metni sadece kelime olarak değil anlam olarak işler. Kullanılan altyapılar:
-
Word Embeddings (Word2Vec, GloVe, FastText)
-
RNN / LSTM / GRU
-
CNN tabanlı metin modelleri
-
Transformer tabanlı orta ölçekli modeller
🧠 Sistem nasıl çalışır?
-
Cevap vektörlere dönüştürülür.
-
Model bu vektörleri kullanarak puan tahmini yapar.
-
Öğrenci cevabındaki anlam ilişkilerini, bağlamı ve mantığı çözer.
Bu yaklaşım öğrencinin “akıl yürütme zincirini” değerlendirmede makine öğrenmesinden daha iyidir. Fakat yine de yüksek veri gereksinimi vardır.
4. LLM Tabanlı Puanlama (Large Language Model Scoring)
Bugün en güncel yöntem budur. GPT-4, Claude, Mistral gibi modeller açık uçlu matematik ve fen sorularını puanlamada çok başarılı sonuçlar üretmektedir.
🔧 Teknik işleyiş:
-
Model soru + doğru çözüm yolu + rubrik ile birlikte prompt edilir.
-
Öğrenci cevabı modele verilir.
-
Model yanıtı rubriğe göre değerlendirir.
-
Ardından puan + geri bildirim üretir.
Bu yaklaşımın en büyük farkı: Özellik çıkarmaya gerek yoktur. Model zaten dilin ve mantığın yapısını içsel olarak öğrenmiştir.
💡 LLM’ler sadece puan vermez;
-
hatalı düşünme adımlarını gösterir,
-
kısmî puanlar hesaplar,
-
geri bildirim yazar,
-
çözüm yolundaki mantık kopukluklarını analiz eder.
Bu özellikler klasik sistemlerin hiçbiriyle mümkün değildir.
Otomatik Puanlamada Kullanılan Teknik Değerlendirme Kriterleri
Sistemlerin doğruluğu şu metriklerle ölçülür:
-
Lineer Korelasyon (r)
-
Kappa Katsayısı (Cohen’s Kappa, Quadratic Weighted Kappa)
-
Exact Match Accuracy
-
Adjacent Accuracy (±1 tolerans)
-
Inter-Rater Agreement (öğretmenler arası tutarlılık)
-
RMSE / MAE (sayısal puan hatası)
LLM tabanlı sistemler son yıllarda insan puanlayıcılarla aynı veya daha iyi tutarlılık göstermeye başladı.
Otomatik Puanlamada Önemli Teknik Tartışmalar
1. Adalet ve Yanlılık (Bias)
Sistem bazı öğrenci gruplarını dezavantajlı duruma sokabilir. Bu yüzden DIF analizine benzer otomatik yanlılık testleri yapılır.
2. Veri gizliliği
Öğrenci cevaplarının LLM’lerde güvenli işlenmesi önemli bir tartışma alanıdır.
3. Rubrik temelli mi? serbest değerlendirme mi?
-
Bazı modeller sıkı rubrik ister.
-
Bazıları (örneğin GPT-5 ailesi) rubriksiz bile isabetli puan verebiliyor.
4. Model açıklanabilirliği (XAI)
Özellikle ML ve LLM modellerinde kararın “neden” alındığını şeffaf şekilde göstermek zor olabilir.
Sonuç: Otomatik Puanlama Artık Bir Yazılım Değil Bir Ölçme Yaklaşımıdır
Bugünkü sistemler:
-
yanıtı anlamlandırıyor,
-
mantık zincirini inceliyor,
-
rubriğe göre puanlıyor,
-
geri bildirim üretiyor,
-
performans raporu çıkarabiliyor.
Bu nedenle otomatik puanlama artık teknik bir yazılım bileşeni değil; ölçme-değerlendirme süreçlerinin ayrılmaz bir parçası haline gelmiştir.







