Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon GPT-4.5的幻觉率特别低吗


GPT-4.5的幻觉率特别低吗


GPT-4.5是OpenAI的最新模型,与其前任相比,幻觉率显着降低。尽管它通常显示出约37%的幻觉速度,但在某些特定领域和评估中,其性能明显更好。

###减少幻觉技术

GPT-4.5采用了新的监督技术,包括受到监督的微调(SFT)和从人类反馈(RLHF)学习,这有助于其较低的幻觉率[1] [3]。这些方法通过确保在事实数据中生成基础的信息来帮助提高模型的准确性和可靠性。

###特定域中的性能

- PersonQA评估:在PersonQA数据集中,该数据集测试了模型准确回答有关人员问题的能力,GPT-4.5显示幻觉速度约为19%。这低于其总体速率,并表明在涉及有关个人的事实信息的领域中,GPT-4.5的性能很好,幻觉较少[3]。

- 与语言相关的任务:GPT-4.5在书写和编程任务方面擅长,提供详细的解释和实践解决方案的帮助。尽管这些任务的特定幻觉率尚未详细详细介绍,但模型的改进模式识别和更广泛的知识库有助于更准确,更可靠的输出[1] [5]。

- 与其他模型进行比较:在某些评估中,例如O1推理模型,GPT-4.5的幻觉率更高(O1的37%比44%)。但是,GPT-4.5设计用于更通用的应用程序,而不是专门的推理任务[5]。

总体而言,在经过广泛培训和评估的域,例如在PersonQA数据集中,GPT-4.5的幻觉率尤为低。但是,其性能在不同的任务和评估中可能会有所不同,这反映了减少AI模型幻觉的持续挑战。

引用:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-work-now-hallucinates-and-now-now-now-now-now-not-us----------------------------from-from-from-files-as-sinstructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-woust-gpt-45-some-paying-some-paying-users-users-expand-access-access-next-next-week-496131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-claude-21-139386