GPT-4.5 Hierarquia de instruções: priorizando mensagens do sistema para segurança e segurança

Como o GPT-4.5 prioriza as mensagens do sistema sobre as mensagens do usuário

O GPT-4.5 prioriza as mensagens do sistema sobre as mensagens do usuário por meio de uma hierarquia de instruções, projetada para mitigar o risco de injeções rápidas e outros ataques que podem substituir as instruções de segurança do modelo. Essa hierarquia classifica as mensagens em dois tipos principais: mensagens do sistema e mensagens do usuário. As mensagens do sistema são essencialmente instruções ocultas que orientam o comportamento da IA, enquanto as mensagens do usuário são as entradas fornecidas pelos usuários.

No GPT-4.5, quando as mensagens do sistema e do usuário conflitam, o modelo é treinado para seguir as instruções na mensagem do sistema sobre as que estão na mensagem do usuário. Isso é conseguido supervisionando o modelo em exemplos em que esses tipos de mensagens estão em conflito. O modelo aprende a priorizar as mensagens do sistema para garantir a adesão às diretrizes de segurança e evitar saídas indesejadas.

Por exemplo, se um usuário tentar enganar o modelo para fornecer informações prejudiciais, a mensagem do sistema poderá instruir o modelo a recusar essas solicitações. A capacidade do GPT-4.5 de aderir a essa hierarquia ajuda a manter os padrões de segurança e impedir que o modelo seja manipulado para gerar conteúdo não permitido.

Essa abordagem é crucial para garantir que o GPT-4.5 se comporte de forma consistente com as diretrizes de segurança e éticas pretendidas, mesmo quando confrontadas com as tentativas de ignorar essas regras por meio de entradas de usuário inteligentemente criadas. Ao priorizar as mensagens do sistema, o OpenAI visa aprimorar a confiabilidade e a segurança do modelo em vários aplicativos [1] [2].

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everhthing-system-messages-how-to-use-them-real-world-experimes-prompt-injeção-protetores
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-der-users-and-even-plus-users-it- literalmente a-gives-you-5-messages-in-5-6-Hours-t-Free-Free-Users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-to--plus-and-team-users-next-wext-wek-then-to-enterprise-and-edu-users-the-f-seguindo a semana seguinte
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-montnths/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effect_prompt_for_summarize_gpt4/