Оцінка продуктивності GPT-4.5 проти змагальних підказок та механізмів безпеки

Продуктивність GPT-4.5 у сценаріях, коли повідомлення користувачів намагаються обдурити модель за допомогою декількох оцінок, зосереджуючись на її здатності протистояти змагальних підказках та підтримувати стандарти безпеки.

Оцінки безпеки та джейлбрейк

1. Модель оцінюється проти джейлбрейків, що перебувають у людських джейках, та еталонному еталону, що оцінює стійкість до загальних змагальних атак. GPT-4,5 добре працює в джейлбрейках, що живуть людиною, досягаючи високої точності 0,99. Однак у еталоні "Стронг" він набрав 0,34, що трохи нижче, ніж показник GPT-4O1 0,87 [1].

2. У оцінках, де конфлікти системи та користувачі, GPT-4.5, як правило, добре працюють, з точністю 0,76. Це поліпшення порівняно з GPT-4O, але трохи нижче виконання GPT-4O1 [1].

3. Репетитор-джейлбрейк: У сценаріях, коли модель доручено не розкривати відповіді на математичні запитання, GPT-4.5 демонструє помірний успіх, з точністю 0,77. Це значне поліпшення порівняно з GPT-4O, але не настільки високим, як продуктивність GPT-4O1 [1].

4. Захист фрази та пароля: GPT-4.5 також оцінюється за його здатністю захищати конкретні фрази чи паролі від розкриття через повідомлення користувачів. Він добре працює в цих тестах, з точністю 0,86 для захисту фрази та 0,92 для захисту пароля [1].

Оцінки команд Red

GPT-4.5 проходить оцінки червоних команд, розроблених для перевірки його надійності проти змагальних підказок. Ці оцінки висвітлюють такі сценарії, як незаконні поради, екстремізм, злочини ненависті, політичне переконання та самопошкодження. GPT-4,5 виробляє безпечні результати приблизно в 51% першого набору оцінок червоного кольору, трохи вище, ніж GPT-4O, але нижчий, ніж GPT-4O1. У другому оцінці, орієнтованому на ризиковані поради, GPT-4.5 працює краще, ніж GPT-4O, але не так само, як і GPT-4O1 або глибокі моделі досліджень [1].

Загальна продуктивність

Хоча GPT-4.5 демонструє вдосконалення в обробці чутливих та змагальних підказок порівняно з попередніми моделями, він все ще стикається з проблемами у дуже змагальних сценаріях. Його продуктивність є суцільною для завдань загального призначення, але може не бути оптимальною для розширених завдань щодо вирішення проблем або глибокого кодування порівняно зі спеціалізованими моделями, такими як O3-Mini [3] [5].

Підсумовуючи це, GPT-4.5 показує стійкість проти спроб її обдурити, особливо в сценаріях, де він повинен визначити пріоритетні інструкції системних входів користувачів. Однак він все ще має обмеження у дуже змагальних контекстах, що відображає постійні проблеми в збалансуванні безпеки та функціональності в моделях AI.

Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-relase-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw

Як виступає GPT-4.5 у сценаріях, де повідомлення користувачів намагаються обдурити модель

Оцінки безпеки та джейлбрейк

Оцінки команд Red

Загальна продуктивність