DünyaDünya'dan bir haber olun!Okumaya Başla
24°C
19 April 2025
Teknoloji

OpenAI’ın Yeni Yapay Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla ‘Halüsinasyon’ Görüyor (Kullanırken İki Kez Kontrol Edin)

  • Nisan 19, 2025
  • 2 min read
OpenAI’ın Yeni Yapay Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla ‘Halüsinasyon’ Görüyor (Kullanırken İki Kez Kontrol Edin)

OpenAI’ın kısa müddet evvel tanıttığı yeni yapay zekâ modelleri o3 ve o4-mini her ne kadar özellikleri ile beğenilmiş olsalar da eski modellerdeki can sıkıcı bir sorunla geldi.

Ortaya çıkan ayrıntılara nazaran bu iki yeni modelin gerçek dışı bilgiler üretme eğilimi, evvelki modellere kıyasla artmış durumda. OpenAI’ın kendi testlerine nazaran bu yeni modeller, hem eski “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini’den hem de GPT-4o üzere daha klâsik modellerden daha fazla ‘halüsinasyon’ görüyor.

Daha da dikkat cazibeli olan ise bu artışın sebebinin şimdi tam olarak anlaşılamamış olması. OpenAI yayınladığı teknik raporda bu sorunun tahlili için daha fazla araştırmaya muhtaçlık duyduklarını kabul etmiş durumda.

Teknik bilgiler neler söylüyor?

OpenAI’ın şirket içi testlerine nazaran o3 modeli, beşerlerle ilgili bilgileri kıymetlendiren PersonQA testinde soruların %33’ünde halüsinasyon gördü. Bu oran, o1 ve o3-mini’nin sırasıyla %16 ve %14,8 olan halüsinasyon oranlarının neredeyse iki katı. O4-mini ise bu alanda %48 ile daha da berbat bir performans sergiledi.

Üçüncü parti testlerde de benzeri sonuçlar ortaya çıktı. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin yanıt verirken büsbütün gerçek dışı süreç adımları uydurma eğiliminde olduğunu ortaya koydu.

Transluce’un kurucularından ve eski OpenAI çalışanı Neil Chowdhury’ye nazaran bu durumun sebebi modellerin eğitiminde kullanılan yollar olabilir lakin net bir sebebe dayandırmak şu etapta güç.

Gücüne kuşku yok, pekala ya inancına?

o3 modeli her ne kadar birtakım misyonlarda, bilhassa de kodlama ve matematikte başarılı sonuçlar verse de sık sık yanlışlı sonuçlar üretmesi ya da gerçekte olmayan kaynaklar sunması üzere önemli sıkıntılara sahip.

Öte yandan mevcut hâliyle GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı yakalayarak hâlâ güçlü bir alternatif.

ChatGPT ile ilgili başka içeriklerimiz:

Şimdilik OpenAI cephesinden bahse dair açıklama ve iyileştirmeler gelmesini beklemekten diğer yapabileceğimiz bir şey yok lakin iki yeni model o3 ve o4-mini’yi kullanıyorsanız, çıktılarınıza körü körüne inanmamanızı ve dikkatle denetim etmenizi tavsiye ediyoruz.

About Author

Web Rehber

Leave a Reply

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir