GPT-4.5在故障排除问题上的准确性,尤其是在多模式故障排除和病毒学等复杂领域,在可用信息中没有明确详细介绍。但是,与其前辈相比,GPT-4.5在某些领域显示出改善。例如,它在识别模式和绘制连接方面表现更好,这可能会增强其故障排除功能[5]。
在特定评估方面,GPT-4.5通常在拒绝不安全的内容和某些与安全有关的评估中与GPT-4O和O1相当[1] [4]。但是,在回答问题的准确性方面,GPT-4.5在某些数据集中显示出显着改善。例如,在评估幻觉和准确性的PersonQA数据集中,GPT-4.5的精度为0.78,幻觉速率为0.19,表现优于GPT-4O和O1 [1] [4]。
在公平和偏见的评估中,GPT-4.5的性能与GPT-4O相似,但在为明确的问题提供无偏见的答案时,O1的表现优于[1] [4]。尽管GPT-4.5在处理冲突的消息并遵守安全说明方面表现出了改进,但在可用数据中,它的总体准确性并未直接与GPT-4O和O1直接比较[1] [4]。
通常,GPT-4.5能够识别模式和绘制连接的能力可以提高其在故障排除任务中的性能,但是该域中的特定比较是有限的。行业观察者注意到某些任务的改进,例如数据提取,其中GPT-4.5通过更准确地提取字段来优于GPT-4O [7]。但是,可用信息中未提供专门用于故障排除问题的详细比较。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_other_others_provide_more_corre_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b581ba4b50f0a6c50a6c5098d1/gpt-gpt-4-5_5_system_card_card_card_card_card_227205.pdff
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-5-orion-ai-model-reare
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-is-an-odd-model-question-istrice/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-rich-is-the-better/746991