GPT-4.5とGPT-4OはどちらもOpenAIによって開発された高度な言語モデルであり、それぞれが前任者よりもはっきりと改善されています。幻覚の観点からパフォーマンスを比較すると、GPT-4.5はGPT-4Oと比較して幻覚率の大幅な減少を示しています。
GPT-4.5の幻覚の減少
- 幻覚率:GPT-4.5のPersonQAデータセットでテストされた場合、GPT-4.5の幻覚率は約19%です。この削減は、GPT-4.5がより信頼性が高く、実際にデータに基づいていない情報を生成する傾向が低いことを示しています。
- 改善技術:GPT-4.5の幻覚の減少は、監視された微調整(SFT)や人間のフィードバック(RLHF)からの補強学習などの従来の方法と組み合わされた新しい監督技術に起因します[1]。これらの方法は、モデルの事実上の正確性と信頼性を高めるのに役立ちます。
###パフォーマンスの比較
- 精度:PersonQAデータセットの精度の観点から、GPT-4.5は、GPT-4Oの28%[2] [5]と比較して、78%の精度が高くなります。これは、GPT-4.5の幻覚が少ないだけでなく、より正確な応答も提供することを示唆しています。
- 全体的な信頼性:GPT-4.5の幻覚率が低く、精度が高いほど、正確で信頼できる情報を必要とするアプリケーションには、より信頼できる選択肢となります。ただし、両方のモデルは、公平性やバイアス評価などの特定の評価で同様に機能します[5]。
要約すると、GPT-4.5は幻覚の削減と精度の点でGPT-4Oを上回り、正確で事実の情報を必要とするタスクのより信頼性の高いオプションとなっています。ただし、両方のモデルには、さまざまなドメインと評価にわたる長所と短所があります。
引用:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_272025025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-giggest-differences to-sonsider