Openaiの最新モデルであるGPT-4.5は、前任者と比較して幻覚率の大幅な減少を示しています。通常、約37%の幻覚率を示していますが、そのパフォーマンスが特に優れている特定のドメインと評価があります。
###幻覚削減技術
GPT-4.5は、監視された微調整(SFT)や人間のフィードバック(RLHF)からの強化学習を含む新しい監督技術を採用しており、幻覚率の低下に寄与しています[1] [3]。これらの方法は、実際にデータに基づいた情報を生成することにより、モデルの精度と信頼性を改善するのに役立ちます。
###特定のドメインでのパフォーマンス
-PersonQA評価:PersonQAデータセットでは、人々に関する質問に正確に答えるモデルの能力をテストしているため、GPT-4.5は約19%の幻覚率を示しています。これは全体的なレートよりも低く、個人に関する事実情報を含むドメインでは、GPT-4.5が幻覚が少ないとうまく機能することを示しています[3]。
- 言語関連のタスク:GPT-4.5は、書面とプログラミングのタスクに優れており、実際の問題解決において詳細な説明と支援を提供します。これらのタスクの特定の幻覚率は詳細ではありませんが、モデルのパターン認識の改善とより広い知識ベースは、より正確で信頼性の高い出力に貢献します[1] [5]。
- 他のモデルとの比較:O1推論モデルなどの特定の評価では、GPT-4.5の幻覚率は高くなります(O1の場合は37%対44%)。ただし、GPT-4.5は、専門的な推論タスクではなく、より汎用アプリケーション用に設計されています[5]。
全体として、GPT-4.5の幻覚率は、PersonQAデータセットなど、広範囲に訓練および評価されているドメインで特に低くなっています。ただし、そのパフォーマンスは、AIモデルの幻覚を減らす際の継続的な課題を反映して、さまざまなタスクと評価によって異なる場合があります。
引用:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explaine_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work--now-hallucinates-does-not- use-specific-data-from-structed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-table-diffusion-200k-context-context-context-context-21-139386