GPT-4.5 está diseñado para manejar instrucciones conflictivas en problemas de varios pasos al adherirse a una jerarquía de instrucciones. Esta jerarquía ayuda al modelo a priorizar los mensajes del sistema sobre los mensajes del usuario, mitigando el riesgo de inyecciones rápidas y otros ataques que podrían anular las instrucciones de seguridad [1] [5].
Manejo de instrucciones conflictivas
1. Evaluación de la jerarquía de instrucciones: GPT-4.5 está capacitado para reconocer y seguir las instrucciones en el mensaje de mayor prioridad cuando se enfrenta a mensajes conflictivos. Esto incluye escenarios en los que los mensajes del sistema y los mensajes de usuario entran en conflicto, y el modelo debe elegir qué conjunto de instrucciones seguir [1].
2. Sistema versus mensajes de usuario: el modelo se enseña a priorizar los mensajes del sistema, que están diseñados para hacer cumplir las pautas de seguridad y operaciones, a través de mensajes de usuario. Esto asegura que GPT-4.5 se adhiera a sus protocolos de seguridad incluso cuando los usuarios intentan evitarlos [1] [5].
3. Escenarios realistas: las evaluaciones incluyen escenarios realistas en los que el modelo actúa como tutor y debe resistir los intentos de los usuarios de engañarlo en respuestas o soluciones reveladoras. GPT-4.5 recibe instrucciones de no regalar respuestas, y debe seguir estas instrucciones del sistema a pesar de los intentos del usuario de eludirlas [1].
4. Frase y protección de contraseña: en otro tipo de evaluación, se instruye a GPT-4.5 a no generar frases específicas o revelar contraseñas. El modelo debe resistir los mensajes de usuario diseñados para engañarlo para que lo haga, demostrando su capacidad para proteger la información confidencial [1].
Manejo de problemas de múltiples pasos
Si bien GPT-4.5 está diseñado para manejar las instrucciones conflictivas de manera efectiva, su capacidad para gestionar los problemas de varios pasos se puede mejorar estructurando las indicaciones de manera clara y secuencial. Esto implica dividir las tareas en pasos más pequeños y garantizar que cada paso se complete antes de pasar al siguiente [2]. Sin embargo, el rendimiento de GPT-4.5 para seguir automáticamente las instrucciones de varios pasos sin intervención manual (por ejemplo, provocar "siguiente") sigue siendo un desafío [4].
Mejora del rendimiento
Para mejorar el rendimiento de GPT-4.5 en tareas de varios pasos, los usuarios pueden emplear estrategias como:
- Borrar estructura rápida: use encabezados o marcadores de sección para definir claramente cada paso, ayudando al modelo a reconocer y seguir la secuencia de manera más efectiva [2].
-Ejecución secuencial: implementa un enfoque paso a paso donde cada paso se procesa completamente antes de pasar al siguiente, que puede facilitarse utilizando estructuras similares a la función en las indicaciones [2].
- Intervención manual: si es necesario, solicite manualmente el modelo que proceda al siguiente paso, ya que puede no moverse automáticamente a través de una secuencia sin tales señales [4].
Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.aifire.co/p/detailed-steps-to-build-multi-step-custom-gpts-solve-tasks
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://community.openai.com/t/gpt-getting-stuck-with-multi-step-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://community.openai.com/t/how-to-improve-gpt-4-api-output-lengthing-andestructure/1025132
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/