Gpt-4.5 вдосконалення в обробці конфліктних інструкцій та поліпшень безпеки

Як порівнюється продуктивність GPT-4.5

GPT-4.5 демонструє покращену продуктивність у обробці суперечливих інструкцій порівняно з попередніми версіями, особливо завдяки його посиленому дотриманню ієрархії інструкцій. Ця ієрархія дозволяє моделі визначати пріоритет системних повідомлень над входами користувачів, пом'якшуючи ризики від суперечливих підказок. В оцінках GPT-4.5, як правило, перевершує GPT-4O у сценаріях, коли системи системи та користувачів конфліктують, що свідчить про кращу здатність дотримуватися інструкцій з безпеки та уникати обдурених змагальних підказок [1] [5].

Ключові вдосконалення в обробці конфліктних інструкцій

1. Наприклад, у сценарії, коли модель доручається не давати відповіді на математичне запитання, GPT-4.5 працює краще, ніж GPT-4O, хоча і не так добре, як GPT-4O1 [1].

2. Пом'якшення оперативних ін'єкцій: Визначаючи пріоритетні системи системи, GPT-4.5 знижує ризик оперативних ін'єкцій та інших атак, які можуть змінити його інструкції з безпеки. Це має вирішальне значення для підтримки цілісності моделі та запобігання неправильному використанню [1] [5].

3. Реалістичні сценарії: У більш реалістичних сценаріях, як, наприклад, коли виступає в якості репетитора з математики, GPT-4.5 краще протистояти спробам обдурити його в наданні несанкціонованої інформації. Однак його продуктивність не є ідеальною і може змінюватися залежно від конкретного контексту та інструкцій, що надаються [1].

4. Незважаючи на те, що він добре справляється з відмовою від небезпечного вмісту, він може переробити більше, ніж попередні моделі, що вказує на обережний підхід до поводження з неоднозначними або потенційно ризикованими підказками [1].

Загалом, GPT-4.5 пропонує значні вдосконалення в обробці конфліктних інструкцій, більш тісно дотримуючись системних рекомендацій та зменшуючи вплив змагальних входів користувачів. Однак, як і всі моделі AI, він не застрахований від усіх форм маніпуляцій і продовжує розвиватися з постійними оцінками та оновленнями безпеки [1] [5].

Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-commared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-resoninging