GPT-4.5: desempenho aprimorado para lidar com instruções conflitantes

Como o desempenho do GPT-4.5 se compara às versões anteriores no lidar com instruções conflitantes

O GPT-4.5 demonstra um desempenho aprimorado no manuseio de instruções conflitantes em comparação com as versões anteriores, principalmente por meio de sua hierarquia aprimorada de instruções. Esse recurso permite que o modelo priorize as mensagens do sistema sobre as entradas do usuário, atenuando os riscos associados a injeções rápidas e outros ataques que podem substituir as instruções de segurança.

Nas avaliações que envolvem tipos de mensagens conflitantes, o GPT-4.5 geralmente supera o GPT-4O. O modelo é treinado para seguir as instruções na mensagem de maior prioridade, que ajuda em cenários em que o sistema e as mensagens do usuário conflitam. Por exemplo, em um cenário em que o modelo é instruído a não doar a resposta a uma pergunta de matemática, o GPT-4.5 mostra melhor adesão a essas instruções do sistema em comparação com o GPT-4O, embora não supere o GPT-4O1 em todas as avaliações [1].

Além disso, o GPT-4.5 foi avaliado em cenários em que deve proteger as frases ou senhas específicas de serem reveladas por meio de prompts do usuário. Nessas avaliações, o GPT-4.5 tem um bom desempenho, indicando sua capacidade de manter a segurança e seguir as instruções do sistema, mesmo quando confrontadas com entradas de usuário conflitantes [1].

No entanto, enquanto o GPT-4.5 melhora os modelos anteriores ao lidar com instruções conflitantes, ele ainda enfrenta desafios em certos cenários complexos. O desempenho do modelo nas avaliações de equipes vermelhas, que simulam o aviso adversário, mostra que ele pode produzir saídas inseguras em alguns casos, embora geralmente tenha um desempenho melhor que o GPT-4O nesses testes desafiadores [1].

No geral, os aprimoramentos do GPT-4.5 no manuseio de instruções conflitantes o tornam uma escolha mais confiável para aplicações que exigem aderência estrita às diretrizes de segurança e instruções do sistema.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettallative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-ow-good-tis-model- is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significamente_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-Rlease
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning