GPT-4.5 demuestra mejoras específicas sobre GPT-4O en el manejo de mensajes conflictivos a través de su jerarquía de instrucciones mejorada. Esta característica permite al modelo priorizar los mensajes del sistema sobre los mensajes de usuario, mitigando el riesgo de inyecciones rápidas y otros ataques que podrían anular las instrucciones de seguridad. Aquí están las mejoras clave:
1. Esto ayuda al modelo a manejar mejor los escenarios en los que las entradas de los usuarios pueden intentar evitar los protocolos de seguridad.
2. Resolución de conflictos: GPT-4.5 generalmente supera a GPT-4O en evaluaciones que involucran conflictos entre el sistema y los mensajes de usuario. Esta mejora es crucial para mantener la seguridad y el cumplimiento de las pautas en escenarios de conversación complejos.
3. Tutor Jailbreaks: en un escenario específico donde el modelo actúa como tutor de matemáticas, GPT-4.5 recibe instrucciones de no revelar la respuesta a una pregunta matemática. Si bien GPT-4.5 no supera a GPT-4O en esta evaluación particular (la precisión de GPT-4O es mayor), todavía demuestra solidez en la resistencia a los intentos de engañarla para que proporcione información no autorizada.
4. Frase y protección de contraseña: GPT-4.5 muestra un fuerte rendimiento en la protección de frases o contraseñas específicas de ser reveladas a través de indicaciones del usuario. Esto indica una mejor capacidad para mantener la confidencialidad y cumplir con las pautas de seguridad en comparación con algunos modelos anteriores.
En general, las mejoras de GPT-4.5 en el manejo de mensajes conflictivos son parte de sus mejoras más amplias en seguridad, matices y colaboración, lo que lo hace más efectivo para mantener interacciones seguras y apropiadas [1] [3].
Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.techtarget.com/whatis/feature/gpt-4o-explaned-everything-you-need-to- know
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://www.businessinsider.com/openai-sam-altman-releases-gpt-4-5-emotionally-intelligent-model-2025-2
[6] https://litslink.com/blog/gpt-4o-alt-you-should-know-bout-the-update-and-new-tools
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/