Comprender la jerarquía de instrucciones de GPT-4.5 para mitigar los riesgos de inyección rápida

La jerarquía de instrucciones de GPT-4.5 está diseñada para mitigar el riesgo de inyecciones rápidas estableciendo un orden de prioridad claro para diferentes tipos de instrucciones. Esta jerarquía asegura que los mensajes del sistema, que desarrollan los desarrolladores, tengan prioridad sobre los mensajes de usuario y otras entradas. Así es como funciona y cómo ayuda a prevenir ataques de inyección rápidos:

Comprender las inyecciones de inmediato

Los ataques de inyección inmediata ocurren cuando los usuarios maliciosos manipulan los modelos de IA al proporcionar entradas que anulen las instrucciones del sistema originales. Esto puede conducir a un comportamiento no deseado, como revelar información confidencial o realizar acciones no autorizadas [2] [3].

La jerarquía de instrucciones

La jerarquía de instrucciones en GPT-4.5 prioriza las instrucciones en función de su fuente e importancia. Clasifica las entradas en varios tipos, generalmente incluyendo:
- Mensajes del sistema: estas son las instrucciones de mayor prioridad establecidas por los desarrolladores. Definen las tareas y restricciones principales que el modelo debe seguir.
- Mensajes de usuario: estas son entradas proporcionadas por los usuarios y se consideran más bajas en prioridad que los mensajes del sistema.
- Historial de conversación y salidas de herramientas: estos también pueden influir en el modelo, pero generalmente son de menor prioridad que los mensajes de usuario [1] [3].

Mitigando inyecciones de inmediato

Para mitigar ataques de inyección inmediatos, la jerarquía de instrucciones asegura que GPT-4.5 se adhiera a los siguientes principios:
- Priorización: el modelo prioriza los mensajes del sistema a través de las entradas del usuario. Si un usuario intenta inyectar un indicador que contradice las instrucciones del sistema, el modelo predeterminará la guía original [3] [5].
- Detección de indicaciones desalineadas: GPT-4.5 está capacitado para identificar e ignorar las indicaciones que entran en conflicto con las instrucciones del sistema. Por ejemplo, si un usuario ingresa "olvida todas las instrucciones anteriores", el modelo lo reconocerá como un mensaje desalineado y responderá en consecuencia [3].
-Ignoración selectiva de instrucciones de menor prioridad: el modelo está diseñado para ignorar selectivamente las instrucciones de menor prioridad cuando entran en conflicto con las de mayor prioridad. Esto asegura que el modelo mantenga su comportamiento previsto incluso cuando se enfrenta a entradas maliciosas [7].

Entrenamiento y evaluación

GPT-4.5 está capacitado utilizando técnicas que enfatizan la jerarquía de instrucciones, como la generación de datos sintéticos y la destilación de contexto. Estos métodos ayudan al modelo a aprender a priorizar las instrucciones de manera efectiva y resistir las entradas maliciosas [6] [7]. El rendimiento del modelo se evalúa en escenarios en los que los mensajes del sistema entran en conflicto con las entradas del usuario, asegurando que se adhiera a la jerarquía de instrucciones y mantenga sus características de seguridad [5].

En general, la jerarquía de instrucciones en GPT-4.5 mejora la seguridad del modelo al garantizar que siga las instrucciones previstas establecidas por los desarrolladores, incluso frente a las entradas contradictorias o maliciosas de los usuarios. Este enfoque es crucial para construir sistemas de IA confiables que puedan funcionar de manera segura en aplicaciones del mundo real.

Citas:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-inject-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/Jasny/protecting-gainst-prompt-inyection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-promppt-injections-and-Jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2

¿Cómo mitiga la jerarquía de instrucciones de GPT-4.5 el riesgo de inyecciones rápidas?

Comprender las inyecciones de inmediato

La jerarquía de instrucciones

Mitigando inyecciones de inmediato

Entrenamiento y evaluación