GPT-4.5: Halüsinasyon oranlarının azalmasıyla iyileştirilmiş doğruluk

GPT-4.5'in halüsinasyon oranının özellikle düşük olduğu herhangi bir alan var mı?

Openai'nin en son modeli olan GPT-4.5, seleflerine kıyasla halüsinasyon oranlarında önemli bir azalma göstermektedir. Genellikle yaklaşık%37'lik bir halüsinasyon oranı gösterirken, performansının oldukça iyi olduğu belirli alanlar ve değerlendirmeler vardır.

Halüsinasyon Azaltma Teknikleri

GPT-4.5, denetimli ince ayar (SFT) ve daha düşük halüsinasyon oranına katkıda bulunan insan geri bildiriminden (RLHF) takviye öğrenimi dahil olmak üzere yeni denetim teknikleri kullanır [1] [3]. Bu yöntemler, gerçek verilerde topraklanmış bilgiler üretmesini sağlayarak modelin doğruluğunu ve güvenilirliğini artırmaya yardımcı olur.

Belirli alanlarda performans

- Personqa Değerlendirmesi: Bir modelin insanlarla ilgili soruları doğru bir şekilde cevaplama yeteneğini test eden PersonQA veri kümesinde, GPT-4.5, yaklaşık%19'luk bir halüsinasyon oranı gösterir. Bu genel oranından daha düşüktür ve bireyler hakkında gerçek bilgileri içeren alanlarda GPT-4.5'in daha az halüsinasyon ile iyi performans gösterdiğini gösterir [3].

-Dil ile ilgili görevler: GPT-4.5, yazılı ve programlama görevlerinde mükemmeldir, pratik problem çözme konusunda ayrıntılı açıklamalar ve yardım sunar. Bu görevler için spesifik halüsinasyon oranları ayrıntılı olmasa da, modelin gelişmiş model tanıması ve daha geniş bilgi tabanı daha doğru ve güvenilir çıktılara katkıda bulunur [1] [5].

- Diğer modellerle karşılaştırma: O1 akıl yürütme modeli gibi bazı değerlendirmelerde GPT-4.5'in halüsinasyon oranı daha yüksektir (O1 için% 37'ye karşı% 44). Bununla birlikte, GPT-4.5, özel akıl yürütme görevlerinden ziyade daha genel amaçlı uygulamalar için tasarlanmıştır [5].

Genel olarak, GPT-4.5'in halüsinasyon oranı, PersonQA veri kümesinde olduğu gibi kapsamlı bir şekilde eğitildiği ve değerlendirildiği alanlarda özellikle düşüktür. Bununla birlikte, performansı farklı görevler ve değerlendirmeler arasında değişebilir ve AI modellerindeki halüsinasyonları azaltmada devam eden zorlukları yansıtır.

Alıntılar:
[1] https://top foursads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and//
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates ve-does-not-use-specific-data-from-files-asencted/809849
[5] https://www.channelnewsasia.com/business/openai-rolls out-gpt-45-some-users-users-xpand-acces-sex-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-200k-context-claude-21-139386