GPT-4.5: Técnicas de alinhamento avançado para desempenho aprimorado de IA

Que novas técnicas de alinhamento foram desenvolvidas para o GPT-4.5

Para o GPT-4.5, o OpenAI desenvolveu novas técnicas de alinhamento escalável que permitem o treinamento de modelos maiores e mais poderosos usando dados derivados de modelos menores. Essas técnicas são projetadas para melhorar a capacidade do modelo de entender as necessidades e a intenção humanas, melhorando sua direção, nuances e recursos de conversação naturais.

Técnicas de alinhamento -chave

1. Alinhamento escalável: essa abordagem envolve o uso de modelos menores para gerar dados de treinamento de alta qualidade para modelos maiores. Esse método acelera o processo de treinamento e melhora a capacidade do modelo de seguir instruções sutis. No entanto, também introduz o risco de ampliar vieses ou erros presentes nos modelos menores [4] [5].

2. Combinação de métodos tradicionais: o GPT-4.5 foi treinado usando uma combinação de novas técnicas de supervisão, juntamente com métodos tradicionais, como ajuste fino supervisionado (SFT) e aprendizado de reforço com o feedback humano (RLHF). A SFT envolve aprender com exemplos marcados com humanos, que é eficaz, mas pode ser lento e caro. O RLHF classifica os resultados baseados em preferências humanas, que às vezes podem levar ao excesso de ajuste, tornando a IA excessivamente cautelosa ou menos criativa [4] [5] [7].

3. Entendimento aprimorado das necessidades humanas: As novas técnicas de alinhamento se concentram em ensinar ao modelo uma maior compreensão das necessidades e intenções humanas. Isso é crucial, pois os modelos resolvem problemas mais complexos e interagem com os usuários de maneiras mais sutis [1] [3] [5].

Impacto de novas técnicas

As novas técnicas de alinhamento no GPT-4.5 resultaram em várias melhorias:

- Interação natural: os testadores internos relatam que o GPT-4.5 parece mais natural e intuitivo, especialmente ao lidar com consultas emocionalmente carregadas. Ele pode oferecer conselhos, frustração difusa ou simplesmente ouvir o usuário conforme necessário [1] [3].
- Intuição e criatividade estética: o modelo mostra uma intuição e criatividade estética mais fortes, tornando -a particularmente útil para tarefas como escrita criativa e design [1] [3].
- Alucinações reduzidas: o GPT-4.5 exibe menos alucinações devido a avanços na aprendizagem não supervisionada, o que melhora sua precisão do modelo mundial e pensamento associativo [5] [6].

No geral, essas técnicas visam tornar o GPT-4.5 mais responsivo, eficiente e alinhado com a intenção do usuário, além de abordar alguns dos desafios associados à escala de grandes modelos de linguagem.

Citações:
[1] https://www.lesswrong.com/postss/fqajgqcpmgehkoee6/openai-releases-chatgpt-4-5
[2] https://arxiv.org/html/2502.11681v2
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-ow-good-tis-model- is
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://www.zdnet.com/article/openai-finally-unveils-gpt-4-5-heres-what-it-can-do/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-Rlease
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/