De instructiehiërarchie van GPT-4.5 is ontworpen om het risico van snelle injecties te verminderen door een duidelijke prioriteitsvolgorde voor verschillende soorten instructies in te stellen. Deze hiërarchie zorgt ervoor dat systeemberichten, die door ontwikkelaars zijn ingesteld, voorrang hebben op gebruikersberichten en andere ingangen. Hier is hoe het werkt en hoe het helpt om snelle injectieaanvallen te voorkomen:
Begrijpen snelle injecties
Snelle injectieaanvallen treden op wanneer kwaadaardige gebruikers AI -modellen manipuleren door inputs te bieden die de oorspronkelijke systeeminstructies overschrijven. Dit kan leiden tot onbedoeld gedrag, zoals het onthullen van gevoelige informatie of het uitvoeren van ongeautoriseerde acties [2] [3].De instructiehiërarchie
De instructiehiërarchie in GPT-4.5 geeft prioriteit aan instructies op basis van hun bron en belang. Het categoriseert inputs in verschillende typen, meestal inclusief:- Systeemberichten: dit zijn de instructies met de hoogste prioriteit die door ontwikkelaars zijn ingesteld. Ze definiëren de primaire taken en beperkingen die het model moet volgen.
- Gebruikersberichten: dit zijn ingangen die door gebruikers worden verstrekt en worden in prioriteit als lager beschouwd dan systeemberichten.
- Gespreksgeschiedenis en tooluitgangen: deze kunnen ook het model beïnvloeden, maar zijn over het algemeen lager in prioriteit dan gebruikersberichten [1] [3].
Beperking van snelle injecties
Om snelle injectieaanvallen te verminderen, zorgt de instructiehiërarchie ervoor dat GPT-4.5 zich hecht aan de volgende principes:- Prioritisering: het model geeft prioriteit aan systeemberichten boven gebruikersinvoer. Als een gebruiker probeert een prompt te injecteren die de systeeminstructies in tegenspraak heeft, zal het model standaard de oorspronkelijke richtlijnen [3] [5] zijn.
- Detectie van verkeerd uitgelijnde aanwijzingen: GPT-4.5 is getraind om aanwijzingen te identificeren en te negeren die in strijd zijn met de systeeminstructies. Als een gebruiker bijvoorbeeld "vergeet alle eerdere instructies", zal het model dit herkennen als een verkeerd uitgelijnde prompt en dienovereenkomstig reageren [3].
-Selectief negeren van instructies met een lagere prioriteit: het model is ontworpen om selectief instructies met lagere prioriteit te negeren wanneer ze in strijd zijn met hogere prioriteiten. Dit zorgt ervoor dat het model zijn beoogde gedrag handhaaft, zelfs wanneer het wordt geconfronteerd met kwaadaardige inputs [7].
Training en evaluatie
GPT-4.5 wordt getraind met behulp van technieken die de instructiehiërarchie benadrukken, zoals het genereren van synthetische gegevens en context-destillatie. Deze methoden helpen het model te leren prioriteit te geven aan instructies effectief en om kwaadaardige inputs te weerstaan [6] [7]. De prestaties van het model worden geëvalueerd in scenario's waar systeemberichten in strijd zijn met gebruikersinputs, zodat deze zich aan de instructiehiërarchie houdt en zijn beveiligingsfuncties onderhoudt [5].Over het algemeen verbetert de instructiehiërarchie in GPT-4.5 de beveiliging van het model door ervoor te zorgen dat het de beoogde instructies volgt die door ontwikkelaars zijn ingesteld, zelfs in het licht van conflicterende of kwaadaardige gebruikersinvoer. Deze aanpak is cruciaal voor het bouwen van betrouwbare AI-systemen die veilig kunnen werken in echte toepassingen.
Citaten:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-Injection-types-prevention-eamples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instructie-hiërarchie
[4] https://dev.to/jasny/protecting-against-prompt-injection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-prompt-injections-en-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instructie-hiërarchie/
[8] https://arxiv.org/html/2311.11538v2