Точність GPT-4.5 у порівнянні усунення несправностей та продуктивності

Як точність GPT-4.5 щодо усунення несправностей порівнюється з точністю GPT-4O та O1

Точність GPT-4.5 з усунення несправностей, особливо у складних областях, таких як багатомодальна усунення несправностей та вірусологія, не чітко детально описана у наявній інформації. Однак GPT-4.5 показав поліпшення в певних областях порівняно з його попередниками. Наприклад, він працює краще у розпізнаванні шаблонів та малювання з'єднань, що потенційно може потенційно покращити його можливості усунення несправностей [5].

З точки зору конкретних оцінок, GPT-4.5, як правило, працює нарівні з GPT-4O та O1 у відмові від небезпечного вмісту та в деяких оцінках, пов'язаних з безпекою [1] [4]. Однак, якщо мова йде про точність відповіді на запитання, GPT-4.5 показав значні вдосконалення в певних наборах даних. Наприклад, у наборі даних Personqa, який оцінює галюцинації та точність, GPT-4,5 досягає точності 0,78 та швидкості галюцинації 0,19, перевершуючи GPT-4O та O1 [1] [4].

У справедливості та упереджених оцінках GPT-4.5 виконує аналогічно GPT-4O, але перевершує O1 у наданні неупереджених відповідей на однозначні питання [1] [4]. Незважаючи на те, що GPT-4.5 продемонстрував вдосконалення в обробці суперечливих повідомлень та дотримання інструкцій щодо безпеки, його загальна точність у вирішенні проблем конкретно не порівнюється безпосередньо з GPT-4O та O1 у наявних даних [1] [4].

Загалом, здатність GPT-4.5 розпізнавати закономірності та малювати з'єднання може підвищити його продуктивність у вирішенні проблем, але конкретні порівняння в цьому домені обмежені. Оглядачі галузі відзначають вдосконалення певних завдань, таких як видобуток даних, де GPT-4.5 перевершує GPT-4O шляхом витягування полів більш точно [7]. Однак детальні порівняння, спеціально для усунення несправностей, не надаються в наявній інформації.

Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_relage_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_syste
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991