GPT-4.5 Jerarquía de instrucciones: Priorización de mensajes del sistema por seguridad y seguridad

¿Cómo prioriza GPT-4.5 los mensajes del sistema sobre los mensajes de usuario?

GPT-4.5 prioriza los mensajes del sistema sobre los mensajes de usuario a través de una jerarquía de instrucciones, que está diseñada para mitigar el riesgo de inyecciones rápidas y otros ataques que podrían anular las instrucciones de seguridad del modelo. Esta jerarquía clasifica los mensajes en dos tipos principales: mensajes del sistema y mensajes de usuario. Los mensajes del sistema son esencialmente instrucciones ocultas que guían el comportamiento de la IA, mientras que los mensajes de usuario son las entradas proporcionadas por los usuarios.

En GPT-4.5, cuando el sistema y los mensajes de usuario entran en conflicto, el modelo está capacitado para seguir las instrucciones en el mensaje del sistema sobre aquellos en el mensaje del usuario. Esto se logra supervisando el modelo en ejemplos donde estos tipos de mensajes están en conflicto. El modelo aprende a priorizar los mensajes del sistema para garantizar la adherencia a las pautas de seguridad y para evitar salidas no deseadas.

Por ejemplo, si un usuario intenta engañar al modelo para que proporcione información dañina, el mensaje del sistema puede instruir al modelo a rechazar tales solicitudes. La capacidad de GPT-4.5 para adherirse a esta jerarquía ayuda a mantener los estándares de seguridad y evitar que el modelo sea manipulado para generar contenido no permitido.

Este enfoque es crucial para garantizar que GPT-4.5 se comporte de manera consistente con sus pautas éticas y de seguridad previstas, incluso cuando se enfrenta a intentos de omitir estas reglas a través de entradas de usuarios inteligentemente diseñadas. Al priorizar los mensajes del sistema, OpenAI tiene como objetivo mejorar la confiabilidad y seguridad del modelo en varias aplicaciones [1] [2].

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-them-real-world-experiments-prompt-inyection-protectors
[3] https://platform.openai.com/docs/guides/prompt-ingineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-users-and-even-plus-users-it-literally-barely-gives-you-5-messages-in-5-6-hours-to-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rollingout-to-plus-and-team-users-next-week-then-to-enterprise-and-edu- users- the following week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_eficiente_prompt_for_summarizing_gpt4/