Cómo GPT-4.5 maneja mensajes contradictorios con jerarquía de instrucciones y ajuste fino

¿Qué técnicas específicas utiliza GPT-4.5 para manejar mensajes conflictivos?

GPT-4.5 emplea varias técnicas para manejar mensajes conflictivos, particularmente a través de su sistema de jerarquía de instrucciones. Esta jerarquía establece un orden de prioridad para los mensajes, asegurando que los mensajes del sistema se prioricen sobre los mensajes del usuario, el historial de conversaciones y las salidas de herramientas [1] [2].

Jerarquía de instrucciones

1. Mensajes del sistema versus mensajes de usuario: GPT-4.5 está capacitado para seguir las instrucciones en mensajes del sistema a través de mensajes de usuario conflictivos. Esto es crucial en los escenarios en los que las entradas del usuario pueden intentar anular las pautas de seguridad o las reglas de formateo establecidas por el sistema [1] [2].

2. Resolución de conflictos: el modelo se evalúa sobre su capacidad para resolver conflictos entre diferentes tipos de mensajes. Por ejemplo, si un mensaje del sistema instruye al modelo que no revele una frase o contraseña específica, y un mensaje de usuario intenta engañar al modelo para que lo haga, GPT-4.5 está diseñado para adherirse a las instrucciones del mensaje del sistema [1].

3. Capacitación y evaluación: GPT-4.5 sufre una amplia capacitación y evaluación para garantizar que pueda manejar escenarios complejos donde los mensajes del sistema y el usuario entran en conflicto. Esto incluye escenarios en los que el modelo debe elegir entre seguir una instrucción del sistema o una solicitud de usuario que lo contradice [1] [2].

Supervisado ajustado (SFT)

GPT-4.5 también utiliza ajustes finos supervisados (SFT), que implica capacitar el modelo en ejemplos específicos donde hay mensajes conflictivos presentes. Esta técnica ayuda a mejorar la capacidad del modelo para reconocer y priorizar las instrucciones del sistema sobre las entradas del usuario, mejorando su rendimiento en el manejo de escenarios conflictivos [3].

Nuevas técnicas de alineación

Además, GPT-4.5 incorpora nuevas técnicas de alineación que mejoran su comprensión de las preferencias e intención humanas. Estas técnicas ayudan al modelo a interpretar mejor el contexto y la intención detrás de los mensajes del sistema y del usuario, lo que le permite tomar decisiones más informadas al manejar conflictos [5].

En general, el enfoque de GPT-4.5 para manejar mensajes conflictivos combina métodos de entrenamiento avanzados con una jerarquía estructurada de instrucciones para garantizar que el modelo priorice la seguridad y la adherencia a las pautas del sistema.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-dow-mood-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-lengthing-andestructure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantanty_and/