GPT-4.5 Jerarquía de instrucciones: manejo de mensajes conflictivos

¿Cómo maneja GPT-4.5 instrucciones contradictorias entre el sistema y los mensajes de usuario?

GPT-4.5 está diseñado para manejar instrucciones conflictivas entre el sistema y los mensajes de usuario a través de una jerarquía de instrucciones. Esta jerarquía ayuda al modelo a priorizar los mensajes del sistema sobre los mensajes de usuario para mitigar los riesgos asociados con las indicaciones conflictivas, como inyecciones de inmediato u otros ataques que podrían anular las instrucciones de seguridad del modelo.

Características clave de la jerarquía de instrucciones

1. Clasificación de mensajes: GPT-4.5 distingue entre dos tipos de mensajes: mensajes del sistema y mensajes de usuario. Los mensajes del sistema se consideran una autoridad superior y se utilizan para establecer pautas de seguridad o instrucciones específicas para el modelo.

2. Resolución de conflictos: cuando el sistema y los mensajes de usuario conflictos, GPT-4.5 está capacitado para seguir las instrucciones en el mensaje del sistema. Esto asegura que el modelo se adhiera a las pautas de seguridad y no participe en actividades dañinas o no permitidas.

3. Evaluación y capacitación: el modelo se evalúa sobre su capacidad para manejar conflictos a través de varios escenarios. Por ejemplo, en un escenario en el que el modelo recibe instrucciones de no regalar la respuesta a un problema matemático (mensaje del sistema), y el usuario intenta engañarlo para que lo haga (mensaje de usuario), GPT-4.5 debe resistir el intento del usuario y seguir la instrucción del sistema.

4. Rendimiento: GPT-4.5 generalmente funciona bien en estas evaluaciones, mostrando una mejora sobre modelos anteriores como GPT-4O en los conflictos de mensajes de usuario de manejo del sistema. Sin embargo, existen escenarios específicos en los que puede no funcionar tan bien como GPT-4O o GPT-4O1, como en ciertas pruebas de jailbreak donde se engaña para revelar información que no debería [1] [7].

Evaluaciones de seguridad

GPT-4.5 sufre evaluaciones de seguridad rigurosas para garantizar que no genere contenido no permitido, como asesoramiento odioso o ilícito. Estas evaluaciones también evalúan la tendencia del modelo a reafundir las indicaciones benignas relacionadas con los temas de seguridad. El rendimiento del modelo en estas áreas es fundamental para mantener su seguridad y confiabilidad al manejar instrucciones conflictivas [1].

Especificaciones del modelo y niveles de autoridad

La especificación del modelo describe los niveles de autoridad para diferentes tipos de instrucciones, con instrucciones a nivel de plataforma que tienen la mayor autoridad, seguidas de las instrucciones del desarrollador y del usuario. Esta jerarquía asegura que GPT-4.5 priorice la seguridad y se adhiera a las pautas, al tiempo que permite la personalización por parte de los usuarios y desarrolladores dentro de los límites establecidos [2] [5].

En general, la capacidad de GPT-4.5 para manejar instrucciones conflictivas es un aspecto clave de su diseño, asegurando que mantenga la seguridad y la integridad al interactuar con los usuarios.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/