Mejoras GPT-4.5 en el manejo de instrucciones conflictivas y mejoras de seguridad

¿Cómo se compara el rendimiento de GPT-4.5 con versiones anteriores en el manejo de instrucciones conflictivas?

GPT-4.5 demuestra un rendimiento mejorado en el manejo de instrucciones conflictivas en comparación con versiones anteriores, particularmente a través de su mayor adherencia a una jerarquía de instrucciones. Esta jerarquía permite que el modelo priorice los mensajes del sistema sobre las entradas del usuario, mitigando los riesgos de las indicaciones conflictivas. En las evaluaciones, GPT-4.5 generalmente supera a GPT-4O en escenarios en los que los mensajes del sistema y el usuario entran en conflicto, lo que indica una mejor capacidad para seguir las instrucciones de seguridad y evitar ser engañados por las indicaciones adversas [1] [5].

Mejoras clave en el manejo de instrucciones conflictivas

1. Evaluación de la jerarquía de instrucciones: GPT-4.5 muestra una precisión mejorada en las siguientes instrucciones del sistema sobre los mensajes de usuario. Por ejemplo, en un escenario en el que el modelo recibe instrucciones de no regalar la respuesta a una pregunta matemática, GPT-4.5 funciona mejor que GPT-4O, aunque no tan bien como GPT-4O1 [1].

2. Mitigación de inyecciones rápidas: al priorizar los mensajes del sistema, GPT-4.5 reduce el riesgo de inyecciones rápidas y otros ataques que podrían anular sus instrucciones de seguridad. Esto es crucial para mantener la integridad del modelo y prevenir el mal uso [1] [5].

3. Escenarios realistas: en escenarios más realistas, como cuando actúa como tutor de matemáticas, GPT-4.5 es mejor para resistir los intentos de engañarlo para que proporcione información no autorizada. Sin embargo, su rendimiento no es perfecto y puede variar según el contexto específico y las instrucciones proporcionadas [1].

4. Evaluaciones de seguridad: GPT-4.5 sufre evaluaciones de seguridad rigurosas para garantizar que no cumpla con las solicitudes de contenido dañino. Si bien funciona bien en rechazar contenido inseguro, puede reafundir más que los modelos anteriores, lo que indica un enfoque cauteloso para manejar indicaciones ambiguas o potencialmente riesgosas [1].

En general, GPT-4.5 ofrece mejoras significativas en el manejo de instrucciones conflictivas al cumplir más estrechamente a las pautas del sistema y reducir el impacto de las entradas de los usuarios adversos. Sin embargo, como todos los modelos de IA, no es inmune a todas las formas de manipulación y continúa evolucionando con evaluaciones y actualizaciones de seguridad continuas [1] [5].

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-dow-mood-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diferences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-razoning