GPT-4.5 Hierarquia de instruções: lidando com mensagens conflitantes

Como o GPT-4.5 lida com instruções conflitantes entre as mensagens do sistema e do usuário

O GPT-4.5 foi projetado para lidar com instruções conflitantes entre o sistema e as mensagens do usuário através de uma hierarquia de instruções. Essa hierarquia ajuda o modelo a priorizar as mensagens do sistema sobre as mensagens do usuário para mitigar os riscos associados a instruções conflitantes, como injeções rápidas ou outros ataques que podem substituir as instruções de segurança do modelo.

Principais recursos da hierarquia de instruções

1. Classificação de mensagens: GPT-4.5 distingue entre dois tipos de mensagens: mensagens do sistema e mensagens do usuário. As mensagens do sistema são consideradas autoridade superior e são usadas para definir diretrizes de segurança ou instruções específicas para o modelo.

2. Resolução de conflitos: Quando as mensagens do sistema e do usuário conflitam, o GPT-4.5 é treinado para seguir as instruções na mensagem do sistema. Isso garante que o modelo adere às diretrizes de segurança e não se envolva em atividades prejudiciais ou proibidas.

3. Avaliação e treinamento: O modelo é avaliado sobre sua capacidade de lidar com conflitos através de vários cenários. Por exemplo, em um cenário em que o modelo é instruído a não doar a resposta a um problema de matemática (mensagem do sistema), e o usuário tenta enganá-lo a fazê-lo (mensagem do usuário), o GPT-4.5 deve resistir à tentativa do usuário e seguir a instrução do sistema.

4. Desempenho: o GPT-4.5 geralmente tem um bom desempenho nessas avaliações, mostrando uma melhoria em relação aos modelos anteriores como o GPT-4O no manuseio de conflitos de mensagens do usuário do sistema. No entanto, existem cenários específicos em que ele pode não ter um desempenho tão bom quanto o GPT-4O ou o GPT-4O1, como em determinados testes de jailbreak, onde é enganado a revelar informações que não deve [1] [7].

Avaliações de segurança

O GPT-4.5 passa por avaliações de segurança rigorosas para garantir que não gerem conteúdo não permitido, como conselhos odiosos ou ilícitos. Essas avaliações também avaliam a tendência do modelo de refundir superaquecem os avisos benignos relacionados aos tópicos de segurança. O desempenho do modelo nessas áreas é fundamental para manter sua segurança e confiabilidade ao lidar com instruções conflitantes [1].

Spec e níveis de autoridade

A especificação do modelo descreve os níveis de autoridade para diferentes tipos de instruções, com instruções no nível da plataforma com a mais alta autoridade, seguida pelo desenvolvedor e instruções do usuário. Essa hierarquia garante que o GPT-4.5 priorize a segurança e a adere às diretrizes, enquanto ainda permite a personalização de usuários e desenvolvedores dentro dos limites definidos [2] [5].

No geral, a capacidade do GPT-4.5 de lidar com instruções conflitantes é um aspecto essencial de seu design, garantindo que ele mantenha segurança e integridade enquanto interage com os usuários.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-releaseease-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/