Оценка производительности GPT-4.5 в отношении состязательных подсказок и механизмов безопасности

Производительность GPT-4.5 в сценариях, в которых пользовательские сообщения пытаются обмануть модель, оценивается с помощью нескольких оценок, сосредоточив внимание на ее способности противостоять состязательным подсказкам и поддерживать стандарты безопасности.

Оценки безопасности и джейлбрейки

1. Оценки джейлбрейка: эти тесты измеряют, насколько хорошо GPT-4.5 сопротивляется попыткам обойти свои механизмы безопасности. Модель оценивается по джейлбрейкам с человеческим, и контрольным показателем сильного разрешения, который оценивает сопротивление общим состязательным атакам. GPT-4.5 хорошо работает в джейлбрейках с человеком, достигая высокой точности 0,99. Тем не менее, в эталонном эталоне Strongreject он набирает 0,34, что немного ниже, чем балл GPT-4O1 0,87 [1].

2. Оценка иерархии инструкций. Чтобы смягчить оперативные атаки впрыска, GPT-4.5 обучается следовать иерархии инструкций, определять приоритеты системных сообщений по сообщениям пользователей. В оценках, где системные и пользовательские сообщения конфликтуют, GPT-4.5 обычно работает хорошо, с точностью 0,76. Это улучшение по сравнению с GPT-4O, но немного ниже производительности GPT-4O1 [1].

3. Турок-джейлбрейки: в сценариях, где модель инструментально не раскрывать ответы на вопросы по математике, GPT-4.5 показывает умеренный успех, с точностью 0,77. Это значительное улучшение по сравнению с GPT-4O, но не так высоко, как производительность GPT-4O1 [1].

4. Фраза и защита паролей: GPT-4.5 также оценивается по ее способности защищать определенные фразы или пароли от раскрытия через сообщения пользователей. Он хорошо работает в этих тестах, с точностью 0,86 для защиты фразы и 0,92 для защиты пароля [1].

Red Teaming Оценки

GPT-4.5 проходит красные оценки команды, предназначенные для проверки его надежности против состязательных подсказок. Эти оценки охватывают сценарии, такие как незаконные советы, экстремизм, преступления на почве ненависти, политическое убеждение и самоповреждение. GPT-4.5 производит безопасные результаты примерно в 51% от первого набора Red Teaming Estal, немного выше, чем GPT-4O, но ниже, чем GPT-4O1. Во второй оценке, посвященной рискованным советам, GPT-4.5 работает лучше, чем GPT-4O, но не так же хорошо, как GPT-4O1 или глубокие модели исследований [1].

Общая производительность

В то время как GPT-4.5 демонстрирует улучшения в обработке чувствительных и состязательных подсказок по сравнению с более ранними моделями, он по-прежнему сталкивается с проблемами в очень состязательных сценариях. Его производительность является прочной для задач общего назначения, но может быть не оптимальной для передовых задач решения проблем или глубокого кодирования по сравнению со специализированными моделями, такими как O3-Mini [3] [5].

Таким образом, GPT-4.5 показывает устойчивость к попыткам обмануть ее, особенно в сценариях, где он должен расставить приоритеты в системных инструкциях по вводу пользователей. Тем не менее, он по -прежнему имеет ограничения в очень состязательных контекстах, отражая постоянные проблемы в балансировке безопасности и функциональности в моделях ИИ.

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-ingineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significally_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-tout
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW

Как GPT-4.5 работает в сценариях, где пользовательские сообщения пытаются обмануть модель

Оценки безопасности и джейлбрейки

Red Teaming Оценки

Общая производительность