Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Oxford Ekibi Yapay Zeka Testlerini İnceliyor Oxford Üniversitesi’nden bir ekip, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü bir çalışmada, yapay zeka (YZ) modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini inceledi. Araştırmacılara göre, bu testlerin çoğu ne ölçtüğünü açıkça tanımlamıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor….

Mehmet Arslan 06 Kasım 2025

0 Yorum Yapıldı

Bağlantı kopyalandı!

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Oxford Ekibi Yapay Zeka Testlerini İnceliyor

Oxford Üniversitesi’nden bir ekip, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü bir çalışmada, yapay zeka (YZ) modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini inceledi. Araştırmacılara göre, bu testlerin çoğu ne ölçtüğünü açıkça tanımlamıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Testlerin Yanıltıcı Olabileceğine Dikkat Çekiliyor

Oxford İnternet Enstitüsü’nden kıdemli araştırmacı Adam Mahdi, yapılan testlerin yanıltıcı olabileceğine dikkat çekerek, “Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” açıklamasında bulundu. Aynı şekilde, başka bir yazar olan Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” şeklinde uyarılarda bulundu.

Matematikte İyi Görünen Modellerin Aslında Durumu

Örnek olarak GSM8K adlı test ele alındığında, yapay zekaların matematik problemlerini çözme kabiliyetini ölçtüğü belirtiliyor. Ancak Mahdi’ye göre, doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor. Mahdi, “Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez” ifadelerini kullandı.

Daha Güvenilir Testler İçin Öneriler Sunuluyor

Araştırmacılar, testlerin “yapı geçerliliği” sorununa dikkat çekiyor ve yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu. Bu öneriler arasında ölçülen eylemin kapsamının açıkça tanımlanması, gerçek becerileri temsil edecek görev setleri hazırlanması ve sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar bulunuyor.

Gerçek Dünyaya Dayalı Yeni Testler Geliştiriliyor

Son dönemde, bazı araştırma grupları YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı. Örneğin, OpenAI yapay zekanın farklı mesleklerdeki başarısını ölçen bir test serisi yayımlarken, AI Safety Center direktörü Dan Hendrycks ve ekibi uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi.

Yapay Zeka Sistemlerinin Değerlendirilmesinde Yeni Adımlar

Adam Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı. Yapılan araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.