GPT-4.5: Lidando com instruções conflitantes e adaptabilidade

O GPT-4.5 pode se adaptar a novos tipos de instruções conflitantes em que não foi treinado

O GPT-4.5 foi projetado para lidar com instruções conflitantes através de uma hierarquia de instruções, que prioriza as mensagens do sistema sobre as mensagens do usuário para mitigar riscos, como injeções rápidas e outros ataques que substituem as instruções de segurança [1]. No entanto, se o GPT-4.5 pode se adaptar a novos tipos de instruções conflitantes em que não foi treinado é uma questão complexa.

Treinamento e avaliação

O GPT-4.5 foi treinado usando novas técnicas de supervisão combinadas com métodos tradicionais como ajuste fino supervisionado (SFT) e aprendizado de reforço com o feedback humano (RLHF) [1]. Esses métodos visam melhorar o alinhamento do modelo com a intenção do usuário e sua capacidade de seguir as instruções com mais precisão. O modelo foi avaliado em vários cenários em que o sistema e as mensagens do usuário conflitam, mostrando melhorias em relação aos modelos anteriores como o GPT-4O [1].

Adaptabilidade a novas instruções conflitantes

Embora o GPT-4.5 demonstre melhor desempenho em lidar com tipos conhecidos de instruções conflitantes, sua capacidade de se adaptar a tipos totalmente novos de conflitos depende de vários fatores:

1. Capacidades de generalização: o treinamento do GPT-4.5 inclui escala de aprendizado sem supervisão, o que aumenta sua capacidade de generalizar e entender contextos mais amplos [1]. Isso poderia ajudá -lo a reconhecer padrões em novas instruções conflitantes.

2. Hierarquia de instruções: A hierarquia de instruções do modelo foi projetada para priorizar as mensagens do sistema, o que ajuda a manter a segurança e a adesão a regras predefinidas. No entanto, se novas instruções conflitantes caíram fora do escopo dessa hierarquia, o modelo poderá lutar para se adaptar sem treinamento ou ajuste fino adicionais.

3. Engenharia e andaimes imediatos: os usuários podem empregar técnicas avançadas de solicitação ou andaimes para orientar o modelo para entender e seguir novas instruções. Essa abordagem pode ajudar a provocar comportamentos além do que o modelo foi explicitamente treinado para [1].

4. Limitações e avaliações de segurança: Apesar das melhorias, o GPT-4.5 ainda enfrenta desafios ao lidar com cenários complexos ou novos. As avaliações de segurança mostraram que, embora o modelo tenha um bom desempenho em tarefas conhecidas, sempre existe o risco de não seguir as instruções em contextos imprevistos [1].

Conclusão

Embora o GPT-4.5 seja mais capaz do que seus antecessores no lidar com instruções conflitantes, sua adaptabilidade a tipos totalmente novos de conflitos é limitada por seus dados e design de treinamento. Pode exigir estratégias adicionais de ajuste fina ou criativo para lidar efetivamente a lidar com novos cenários. As interações de pesquisa e usuário em andamento com o GPT-4.5 fornecerão mais informações sobre seus recursos e limitações nessa área.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthrópica.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-wear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significamente_and/