Aprimoramentos do GPT-4.5 no manuseio de instruções conflitantes e melhorias de segurança

Como o desempenho do GPT-4.5 se compara às versões anteriores no lidar com instruções conflitantes

O GPT-4.5 demonstra um desempenho aprimorado no manuseio de instruções conflitantes em comparação com as versões anteriores, particularmente através de sua aderência aprimorada a uma hierarquia de instruções. Essa hierarquia permite que o modelo priorize as mensagens do sistema sobre as entradas do usuário, atenuando os riscos de prompts conflitantes. Nas avaliações, o GPT-4.5 geralmente supera o GPT-4O em cenários em que as mensagens do sistema e do usuário conflitam, indicando uma melhor capacidade de seguir as instruções de segurança e evitar ser enganado por avisos adversários [1] [5].

Melhorias -chave no lidar com instruções conflitantes

1. Avaliação da hierarquia de instruções: o GPT-4.5 mostra uma precisão aprimorada nas seguintes instruções do sistema sobre as mensagens do usuário. Por exemplo, em um cenário em que o modelo é instruído a não doar a resposta a uma pergunta de matemática, o GPT-4.5 tem um desempenho melhor que o GPT-4O, embora não tão bem quanto o GPT-4O1 [1].

2. Mitigação de injeções imediatas: Ao priorizar as mensagens do sistema, o GPT-4.5 reduz o risco de injeções imediatas e outros ataques que podem substituir suas instruções de segurança. Isso é crucial para manter a integridade do modelo e impedir o uso indevido [1] [5].

3. Cenários realistas: em cenários mais realistas, como quando atuam como tutor de matemática, o GPT-4.5 é melhor em resistir a tentativas de enganá-lo para fornecer informações não autorizadas. No entanto, seu desempenho não é perfeito e pode variar dependendo do contexto e das instruções específicas fornecidas [1].

4. Avaliações de segurança: O GPT-4.5 passa por avaliações de segurança rigorosas para garantir que não atenda aos pedidos de conteúdo prejudicial. Embora tenha um bom desempenho ao recusar o conteúdo inseguro, pode se refundir mais do que os modelos anteriores, indicando uma abordagem cautelosa para lidar com instruções ambíguas ou potencialmente arriscadas [1].

No geral, o GPT-4.5 oferece melhorias significativas para lidar com instruções conflitantes, aderindo mais de perto às diretrizes do sistema e reduzindo o impacto das entradas do usuário adversário. No entanto, como todos os modelos de IA, não é imune a todas as formas de manipulação e continua a evoluir com avaliações e atualizações de segurança em andamento [1] [5].

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettallative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-ow-good-tis-model- is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significamente_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-Rlease
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning