Точность GPT-4.5 при устранении неполадок и сравнения производительности

Как точность GPT-4.5 в вопросах по устранению неполадок по сравнению с точностью GPT-4O и O1

Точность GPT-4.5 в вопросах по устранению неполадок, особенно в сложных областях, таких как мультимодальное устранение неисправностей и вирусология, явно не подробно описана в доступной информации. Тем не менее, GPT-4.5 показал улучшения в определенных областях по сравнению с его предшественниками. Например, он работает лучше при распознавании шаблонов и соединений на рисунке, что потенциально может улучшить свои возможности для устранения неполадок [5].

С точки зрения конкретных оценок, GPT-4.5 обычно работает наравне с GPT-4O и O1 в отказе от небезопасного содержания и в некоторых связанных с безопасностью оценок [1] [4]. Однако, когда дело доходит до точности в ответе на вопросы, GPT-4.5 показал значительные улучшения в определенных наборах данных. Например, в наборе данных PersonQA, который оценивает галлюцинации и точность, GPT-4.5 достигает точности 0,78 и уровня галлюцинации 0,19, превосходя GPT-4O и O1 [1] [4].

В справедливости и оценках предвзятости GPT-4.5 выполняет аналогично GPT-4O, но опережает O1 в предоставлении непредвзятых ответов на однозначные вопросы [1] [4]. В то время как GPT-4.5 продемонстрировал улучшения в обработке конфликтующих сообщений и соблюдения инструкций по безопасности, его общая точность в вопросах по устранению неполадок конкретно не сравнивается напрямую с GPT-4O и O1 в доступных данных [1] [4].

В целом, способность GPT-4.5 распознавать закономерности и нарисовать соединения может повысить его производительность в задачах по устранению неполадок, но конкретные сравнения в этом домене ограничены. Отраслевые наблюдатели отмечали улучшения в определенных задачах, таких как извлечение данных, где GPT-4.5 превосходит GPT-4O, более точно извлекая поля [7]. Тем не менее, подробные сравнения специально для вопросов по устранению неполадок не представлены в доступной информации.

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_redeled_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-cenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991