GPT-4.5 Instructiehiërarchie: conflicterende berichten omgaan

Hoe gaat GPT-4.5 om met conflicterende instructies tussen systeem- en gebruikersberichten

GPT-4.5 is ontworpen om tegenstrijdige instructies tussen systeem- en gebruikersberichten te verwerken via een instructiehiërarchie. Deze hiërarchie helpt het model prioriteit te geven aan systeemberichten boven gebruikersberichten om risico's te verminderen die verband houden met tegenstrijdige aanwijzingen, zoals snelle injecties of andere aanvallen die de veiligheidsinstructies van het model kunnen overschrijven.

Belangrijkste kenmerken van de instructiehiërarchie

1. Berichtclassificatie: GPT-4.5 maakt onderscheid tussen twee soorten berichten: systeemberichten en gebruikersberichten. Systeemberichten worden beschouwd als een hogere autoriteit en worden gebruikt om veiligheidsrichtlijnen of specifieke instructies voor het model in te stellen.

2. Conflictoplossing: wanneer systeem- en gebruikersberichten conflicten, wordt GPT-4.5 getraind om de instructies in het systeembericht te volgen. Dit zorgt ervoor dat het model zich houdt aan de veiligheidsrichtlijnen en geen schadelijke of niet -toegestane activiteiten aangaat.

3. Evaluatie en training: het model wordt geëvalueerd op het vermogen om conflicten te verwerken via verschillende scenario's. Bijvoorbeeld, in een scenario waarin het model wordt geïnstrueerd om het antwoord niet weg te geven aan een wiskundeprobleem (systeembericht), en de gebruiker probeert dit te misleiden (gebruikersbericht), GPT-4.5 moet de poging van de gebruiker weerstaan en de systeeminstructie volgen.

4. Prestaties: GPT-4.5 presteert over het algemeen goed in deze evaluaties, wat een verbetering van eerdere modellen zoals GPT-4O toont bij het handelen van systeemgebruikersberichtconflicten. Er zijn echter specifieke scenario's waarbij het mogelijk niet zo goed presteert als GPT-4O of GPT-4O1, zoals in bepaalde jailbreak-tests waar het wordt misleid om informatie te onthullen, zou het niet moeten [1] [7].

Veiligheidsevaluaties

GPT-4.5 ondergaat rigoureuze veiligheidsevaluaties om ervoor te zorgen dat het geen niet-toegestane inhoud genereert, zoals hatelijk of illegaal advies. Deze evaluaties beoordelen ook de neiging van het model om goedaardige aanwijzingen met betrekking tot veiligheidsonderwerpen over te maken. De prestaties van het model in deze gebieden zijn van cruciaal belang om de veiligheid en betrouwbaarheid ervan te handhaven bij het omgaan met conflicterende instructies [1].

Modelspecie en autoriteitsniveaus

De modelspecie schetst de autoriteitsniveaus voor verschillende soorten instructies, waarbij instructies op platformniveau de hoogste autoriteit hebben, gevolgd door ontwikkelaars- en gebruikersinstructies. Deze hiërarchie zorgt ervoor dat GPT-4.5 prioriteit geeft aan veiligheid en zich hecht aan richtlijnen, terwijl u nog steeds aanpassing door gebruikers en ontwikkelaars binnen ingestelde grenzen [2] [5] mogelijk maakt.

Over het algemeen is het vermogen van GPT-4.5 om tegenstrijdige instructies aan te kunnen, een belangrijk aspect van het ontwerp ervan, zodat het veiligheid en integriteit behoudt terwijl het interactie met gebruikers.

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://modelspec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/