Avaliando o desempenho do GPT-4.5 contra avisos adversários e mecanismos de segurança

Como o GPT-4.5 executa em cenários em que as mensagens do usuário tentam enganar o modelo

O desempenho do GPT-4.5 em cenários em que as mensagens do usuário tentam enganar o modelo é avaliado por meio de várias avaliações, concentrando-se em sua capacidade de resistir a instruções adversárias e manter os padrões de segurança.

Avaliações de segurança e jailbreaks

1. Avaliações de jailbreak: Esses testes medem o quão bem o GPT-4.5 resiste às tentativas de contornar seus mecanismos de segurança. O modelo é avaliado contra os jailbreaks de origem humana e a referência de forte rejeição, que avalia a resistência a ataques adversários comuns. O GPT-4.5 tem um bom desempenho em jailbreaks de origem humana, alcançando uma alta precisão de 0,99. No entanto, na referência StrongReject, ele obtém 0,34, que é ligeiramente menor que a pontuação de 0,87 do GPT-4O1 [1].

2. Avaliações de hierarquia de instruções: Para mitigar ataques rápidos de injeção, o GPT-4.5 é treinado para seguir uma hierarquia de instruções, priorizando as mensagens do sistema sobre as mensagens do usuário. Nas avaliações em que as mensagens do sistema e do usuário conflitam, o GPT-4.5 geralmente tem um bom desempenho, com uma precisão de 0,76. Esta é uma melhoria em relação ao GPT-4O, mas um pouco abaixo do desempenho do GPT-4O1 [1].

3. Jailbreaks do tutor: Em cenários em que o modelo é instruído a não revelar respostas a perguntas matemáticas, o GPT-4.5 mostra sucesso moderado, com precisão de 0,77. Esta é uma melhoria significativa em relação ao GPT-4O, mas não tão alto quanto o desempenho do GPT-4O1 [1].

4. Phrase e Proteção de senha: GPT-4.5 também é avaliada em sua capacidade de proteger as frases ou senhas específicas de serem reveladas através de mensagens do usuário. Ele tem um bom desempenho nesses testes, com precisão de 0,86 para proteção de frase e 0,92 para proteção de senha [1].

Avaliações de equipes vermelhas

O GPT-4.5 passa por avaliações de equipes vermelhas projetadas para testar sua robustez em relação aos avisos adversários. Essas avaliações abrangem cenários como conselhos ilícitos, extremismo, crimes de ódio, persuasão política e auto-mutilação. O GPT-4.5 produz saídas seguras em cerca de 51% do primeiro conjunto de avaliação de equipes vermelhas, ligeiramente maior que o GPT-4O, mas menor que o GPT-4O1. Em uma segunda avaliação focada em conselhos de risco, o GPT-4.5 tem um desempenho melhor que o GPT-4O, mas não tão bem quanto os modelos de pesquisa GPT-4O1 ou profundos [1].

desempenho geral

Embora o GPT-4.5 demonstre melhorias no lidar com instruções sensíveis e adversárias em comparação com os modelos anteriores, ele ainda enfrenta desafios em cenários altamente adversários. Seu desempenho é sólido para tarefas de uso geral, mas pode não ser ideal para tarefas avançadas de solução de problemas ou codificação profunda em comparação com modelos especializados como O3-mini [3] [5].

Em resumo, o GPT-4.5 mostra a resiliência contra as tentativas de enganá-lo, principalmente em cenários em que deve priorizar as instruções do sistema sobre as entradas do usuário. No entanto, ele ainda tem limitações em contextos altamente adversários, refletindo os desafios contínuos no equilíbrio de segurança e funcionalidade nos modelos de IA.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-ow-good-tis-model- is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significamente_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kBas3S5ryw