GPT-4.5: Técnicas de alineación avanzada para un rendimiento de IA mejorado

¿Qué nuevas técnicas de alineación se desarrollaron para GPT-4.5?

Para GPT-4.5, OpenAI desarrolló nuevas técnicas de alineación escalables que permiten el entrenamiento de modelos más grandes y poderosos que utilizan datos derivados de modelos más pequeños. Estas técnicas están diseñadas para mejorar la capacidad del modelo para comprender las necesidades humanas y la intención, mejorando sus capacidades de dominabilidad, matices y conversación natural.

Técnicas de alineación clave

1. Alineación escalable: este enfoque implica el uso de modelos más pequeños para generar datos de entrenamiento de alta calidad para modelos más grandes. Este método acelera el proceso de entrenamiento y mejora la capacidad del modelo para seguir instrucciones matizadas. Sin embargo, también introduce el riesgo de amplificar los sesgos o errores presentes en los modelos más pequeños [4] [5].

2. Combinación de métodos tradicionales: GPT-4.5 fue entrenado utilizando una combinación de nuevas técnicas de supervisión junto con métodos tradicionales como ajuste superior (SFT) y el aprendizaje de refuerzo de la retroalimentación humana (RLHF). SFT implica aprender de ejemplos marcados con humanos, que es efectivo pero que puede ser lento y costoso. RLHF clasifica los resultados basados en las preferencias humanas, lo que a veces puede conducir a un sobreajuste, lo que hace que la IA sea demasiado cautelosa o menos creativa [4] [5] [7].

3. Comprensión mejorada de las necesidades humanas: las nuevas técnicas de alineación se centran en enseñar al modelo una mayor comprensión de las necesidades y la intención humanas. Esto es crucial ya que los modelos resuelven problemas más complejos e interactúan con los usuarios de formas más matizadas [1] [3] [5].

Impacto de nuevas técnicas

Las nuevas técnicas de alineación en GPT-4.5 han dado como resultado varias mejoras:

- Interacción natural: los probadores internos informan que GPT-4.5 se siente más natural e intuitivo, especialmente en el manejo de consultas con carga emocional. Puede ofrecer consejos, frustración difusa o simplemente escuchar al usuario según sea necesario [1] [3].
- Intuición estética y creatividad: el modelo muestra una intuición estética y creatividad más fuertes, lo que lo hace particularmente útil para tareas como la escritura creativa y el diseño [1] [3].
- Alucinaciones reducidas: GPT-4.5 exhibe menos alucinaciones debido a los avances en el aprendizaje no supervisado, lo que mejora la precisión del modelo mundial y el pensamiento asociativo [5] [6].

En general, estas técnicas tienen como objetivo hacer que GPT-4.5 sea más receptivo, eficiente y alineado con la intención del usuario, al tiempo que aborda algunos de los desafíos asociados con la escala de modelos de idiomas grandes.

Citas:
[1] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-chatgpt-4-5
[2] https://arxiv.org/html/2502.11681v2
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-dow-mood-this-model-is
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://www.zdnet.com/article/openai-finally-unveils-gpt-4-5-heres-what-it-can-do/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/