Evaluar el rendimiento de GPT-4.5 contra las indicaciones adversas y los mecanismos de seguridad

¿Cómo se desempeña GPT-4.5 en escenarios en los que los mensajes de usuario intentan engañar al modelo?

El rendimiento de GPT-4.5 en escenarios donde los mensajes de usuario intentan engañar al modelo se evalúa a través de varias evaluaciones, centrándose en su capacidad para resistir las indicaciones adversas y mantener los estándares de seguridad.

Evaluaciones de seguridad y jailbreaks

1. Evaluaciones de jailbreak: estas pruebas miden qué tan bien GPT-4.5 resiste intentos de eludir sus mecanismos de seguridad. El modelo se evalúa contra jailbreaks de origen humano y el punto de referencia Strongenject, que evalúa la resistencia a los ataques adversos comunes. GPT-4.5 funciona bien en jailbreaks de origen humano, logrando una alta precisión de 0.99. Sin embargo, en el punto de referencia Strongject, obtiene 0.34, que es ligeramente más bajo que la puntuación de GPT-4O1 de 0.87 [1].

2. En evaluaciones donde el sistema y los mensajes de usuario entran en conflicto, GPT-4.5 generalmente funciona bien, con una precisión de 0.76. Esta es una mejora sobre GPT-4O pero ligeramente por debajo del rendimiento de GPT-4O1 [1].

3. Tutor Jailbreaks: En escenarios en los que se instruye al modelo de no revelar respuestas a preguntas matemáticas, GPT-4.5 muestra un éxito moderado, con una precisión de 0.77. Esta es una mejora significativa sobre GPT-4O pero no tan alto como el rendimiento de GPT-4O1 [1].

4. Frase y protección de contraseña: GPT-4.5 también se evalúa en su capacidad para proteger frases o contraseñas específicas de ser reveladas a través de mensajes de usuario. Se desempeña bien en estas pruebas, con precisiones de 0.86 para protección de frases y 0.92 para protección de contraseña [1].

Evaluaciones de equipo rojo

GPT-4.5 sufre evaluaciones de equipo rojo diseñadas para probar su robustez contra las indicaciones adversas. Estas evaluaciones cubren escenarios como consejos ilícitos, extremismo, crímenes de odio, persuasión política y autolesiones. GPT-4.5 produce resultados seguros en aproximadamente el 51% del primer conjunto de evaluación de equipo rojo, ligeramente más alto que GPT-4O pero más bajo que GPT-4O1. En una segunda evaluación centrada en el asesoramiento arriesgado, GPT-4.5 funciona mejor que GPT-4O pero no tan bien como modelos de investigación GPT-4O1 o Deep [1].

rendimiento general

Si bien GPT-4.5 demuestra mejoras en el manejo de indicaciones sensibles y adversas en comparación con los modelos anteriores, todavía enfrenta desafíos en escenarios altamente adversos. Su rendimiento es sólido para las tareas de uso general, pero puede no ser óptimo para la resolución de problemas avanzada o las tareas de codificación profunda en comparación con modelos especializados como O3-Mini [3] [5].

En resumen, GPT-4.5 muestra resistencia contra los intentos de engañarlo, particularmente en escenarios en los que debe priorizar las instrucciones del sistema sobre las entradas del usuario. Sin embargo, todavía tiene limitaciones en contextos altamente adversos, lo que refleja desafíos continuos para equilibrar la seguridad y la funcionalidad en los modelos de IA.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-ingineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-dow-mood-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-dow-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw