Como o GPT-4.5 lida com mensagens conflitantes com hierarquia de instruções e ajuste fino

Que técnicas específicas o GPT-4.5 usa para lidar com mensagens conflitantes

O GPT-4.5 emprega várias técnicas para lidar com mensagens conflitantes, principalmente por meio de seu sistema de hierarquia de instruções. Essa hierarquia estabelece uma ordem prioritária para mensagens, garantindo que as mensagens do sistema sejam priorizadas sobre mensagens do usuário, histórico de conversas e saídas de ferramentas [1] [2].

Hierarquia de instruções

1. Mensagens do sistema vs. mensagens do usuário: GPT-4.5 é treinado para seguir as instruções nas mensagens do sistema sobre mensagens de usuário conflitantes. Isso é crucial em cenários em que as entradas do usuário podem tentar substituir as diretrizes de segurança ou as regras de formatação definidas pelo sistema [1] [2].

2. Resolução de conflitos: o modelo é avaliado em sua capacidade de resolver conflitos entre diferentes tipos de mensagens. Por exemplo, se uma mensagem do sistema instruir o modelo a não revelar uma frase ou senha específica, e uma mensagem do usuário tenta enganar o modelo para fazê-lo, o GPT-4.5 foi projetado para aderir às instruções da mensagem do sistema [1].

3. Treinamento e avaliação: o GPT-4.5 passa por um extenso treinamento e avaliação para garantir que ele possa lidar com cenários complexos em que o sistema e as mensagens do usuário conflitam. Isso inclui cenários em que o modelo deve escolher entre seguir uma instrução do sistema ou uma solicitação do usuário que o contradiz [1] [2].

Tuneamento fino supervisionado (SFT)

O GPT-4.5 também utiliza o ajuste fino supervisionado (SFT), que envolve o treinamento do modelo em exemplos específicos em que mensagens conflitantes estão presentes. Essa técnica ajuda a melhorar a capacidade do modelo de reconhecer e priorizar as instruções do sistema sobre as entradas do usuário, aprimorando seu desempenho no tratamento de cenários conflitantes [3].

novas técnicas de alinhamento

Além disso, o GPT-4.5 incorpora novas técnicas de alinhamento que aumentam sua compreensão das preferências e intenções humanas. Essas técnicas ajudam o modelo a interpretar melhor o contexto e a intenção por trás das mensagens do sistema e do usuário, permitindo que ele tome decisões mais informadas ao lidar com conflitos [5].

No geral, a abordagem do GPT-4.5 para lidar com mensagens conflitantes combina métodos de treinamento avançados com uma hierarquia estruturada de instruções para garantir que o modelo priorize a segurança e a adesão às diretrizes do sistema.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-ow-good-tis-model- is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducting-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significamente_and/