GPT-4.5: rendimiento mejorado en el manejo de instrucciones conflictivas

¿Cómo se compara el rendimiento de GPT-4.5 con versiones anteriores en el manejo de instrucciones conflictivas?

GPT-4.5 demuestra un rendimiento mejorado en el manejo de instrucciones conflictivas en comparación con versiones anteriores, particularmente a través de su jerarquía de instrucciones mejorada. Esta característica permite al modelo priorizar los mensajes del sistema sobre las entradas del usuario, mitigando los riesgos asociados con inyecciones rápidas y otros ataques que podrían anular las instrucciones de seguridad.

En evaluaciones que involucran tipos de mensajes conflictivos, GPT-4.5 generalmente supera a GPT-4O. El modelo está capacitado para seguir las instrucciones en el mensaje de mayor prioridad, que ayuda en escenarios en los que los mensajes del sistema y el usuario entran en conflicto. Por ejemplo, en un escenario en el que el modelo recibe instrucciones de no regalar la respuesta a una pregunta matemática, GPT-4.5 muestra una mejor adherencia a estas instrucciones del sistema en comparación con GPT-4O, aunque no supera a GPT-4O1 en todas las evaluaciones [1].

Además, GPT-4.5 se ha evaluado en escenarios en los que debe proteger frases o contraseñas específicas de ser reveladas a través de indicaciones del usuario. En estas evaluaciones, GPT-4.5 funciona bien, lo que indica su capacidad para mantener la seguridad y seguir las instrucciones del sistema incluso cuando se enfrentan a entradas contradictorias del usuario [1].

Sin embargo, si bien GPT-4.5 mejora los modelos anteriores en el manejo de instrucciones conflictivas, todavía enfrenta desafíos en ciertos escenarios complejos. El rendimiento del modelo en evaluaciones de equipo rojo, que simulan la solicitud adversaria, muestra que puede producir resultados inseguros en algunos casos, aunque generalmente funciona mejor que GPT-4O en estas pruebas desafiantes [1].

En general, las mejoras de GPT-4.5 en el manejo de instrucciones conflictivas lo convierten en una opción más confiable para las aplicaciones que requieren un cumplimiento estricto a las pautas de seguridad e instrucciones del sistema.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-dow-mood-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diferences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-razoning