GPT-4.5'e karşı GPT-4O: Halüsinasyon Azaltma ve Doğruluk Karşılaştırması

GPT-4.5'in performansı, halüsinasyonlar açısından GPT-4O ile nasıl karşılaştırılır?

GPT-4.5 ve GPT-4O, her biri selefleri üzerinde belirgin iyileştirmeler olan Openai tarafından geliştirilen gelişmiş dil modelleridir. Performanslarını halüsinasyonlar açısından karşılaştırırken, GPT-4.5, GPT-4O'ya kıyasla halüsinasyon oranlarında önemli bir azalma göstermektedir.

GPT-4.5'te halüsinasyon azalması

-Halüsinasyon oranı: GPT-4.5, PersonQA veri kümesinde test edildiğinde yaklaşık% 19'luk bir halüsinasyon oranına sahiptir, bu da GPT-4O'nun yaklaşık% 52 oranında önemli bir iyileşmedir [2] [5]. Bu azalma, GPT-4.5'in gerçek verilere dayanmayan bilgiler üretmeye daha güvenilir ve daha az eğilimli olduğunu göstermektedir.
-İyileştirme teknikleri: GPT-4.5'teki halüsinasyonların azalması, denetimli ince ayar (SFT) ve insan geri bildiriminden (RLHF) takviye öğrenimi gibi geleneksel yöntemlerle birlikte yeni denetim tekniklerine bağlanır [1]. Bu yöntemler, modelin olgusal doğruluğunu ve güvenilirliğini artırmaya yardımcı olur.

Performans Karşılaştırması

-Doğruluk: PersonQA veri kümesindeki doğruluk açısından, GPT-4.5, GPT-4O'nun%28'ine kıyasla%78 daha yüksek bir doğruluk elde etmektedir [2] [5]. Bu, GPT-4.5'in sadece daha az halüsinasyon yapmadığını, aynı zamanda daha doğru yanıtlar da sağladığını göstermektedir.
- Genel güvenilirlik: Daha düşük halüsinasyon oranı ve GPT-4.5'in daha yüksek doğruluğu, kesin ve güvenilir bilgi gerektiren uygulamalar için daha güvenilir bir seçim haline getirir. Bununla birlikte, her iki model de adalet ve önyargı değerlendirmeleri gibi bazı değerlendirmelerde benzer şekilde performans gösterir [5].

Özetle, GPT-4.5, halüsinasyon azaltma ve doğruluk açısından GPT-4O'dan daha iyi performans gösterir, bu da hassas ve gerçek bilgi gerektiren görevler için daha güvenilir bir seçenek haline getirir. Bununla birlikte, her iki modelin de farklı alanlar ve değerlendirmelerde güçlü ve zayıf yönleri vardır.

Alıntılar:
[1] https://top foursads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64ewhxla6c5098d1/gpt-4-5_system_card_2272025.
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-do-to-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o- Which-is-the-Better/746991
[7] https://mashable.com/article/openai-gpt-4-5-reelease-do-to-tret
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-bigest-defferences-to-conder