GPT-4.5和GPT-4O都是由OpenAI开发的高级语言模型,每个模型都比其前辈都有明显的改进。在比较幻觉方面的性能时,GPT-4.5表明与GPT-4O相比,幻觉率显着降低。
###幻觉减少GPT-4.5
- 幻觉率:在PersonQA数据集上进行测试时,GPT-4.5的幻觉速率约为19%,这比GPT-4O的速率大约改善约52%[2] [5]。这种减少表明,GPT-4.5更可靠,并且不太容易生成未在事实数据中扎根的信息。
- 改进技术:GPT-4.5中幻觉的减少归因于新的监督技术与传统方法相结合,例如监督的微调(SFT)(SFT)和从人类反馈(RLHF)中学习的增强学习[1]。这些方法有助于增强模型的事实准确性和可靠性。
###性能比较
- 准确性:就PersonQA数据集的准确性而言,GPT-4.5的准确性更高78%,而GPT-4O的28%[2] [5]。这表明GPT-4.5不仅幻觉较少,而且还提供了更准确的响应。
- 总体可靠性:GPT-4.5的较低幻觉率和更高的准确性使其成为需要精确和值得信赖信息的应用程序更可靠的选择。但是,这两个模型在某些评估中的表现相似,例如公平和偏见评估[5]。
总而言之,GPT-4.5在降低幻觉和准确性方面优于GPT-4O,这使其成为需要精确和事实信息的任务的更可靠的选择。但是,这两个模型都有其在不同领域和评估之间的优势和劣势。
引用:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b581ba4b50f0a6c50a6c5098d1/gpt-gpt-4-5_5_system_card_card_card_card_227205.pdff
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_rate_is_a_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-do-to-they-they-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-rease-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider