GPT-4.5 is ontworpen om tegenstrijdige instructies te verwerken via een instructiehiërarchie, die prioriteit geeft aan systeemberichten boven gebruikersberichten om risico's zoals snelle injecties en andere aanvallen die de veiligheidsinstructies voordoen te verminderen [1]. Of GPT-4.5 zich echter kan aanpassen aan nieuwe soorten tegenstrijdige instructies waarop het niet is getraind, is een complexe vraag.
Training en evaluatie
GPT-4.5 is getraind met behulp van nieuwe toezichtstechnieken in combinatie met traditionele methoden zoals begeleide verfijning (SFT) en versterking leren van menselijke feedback (RLHF) [1]. Deze methoden zijn gericht op het verbeteren van de afstemming van het model met de intentie van de gebruikers en het vermogen om instructies nauwkeuriger te volgen. Het model is geëvalueerd op verschillende scenario's waarbij systeem- en gebruikersberichten conflicten, wat verbeteringen toont ten opzichte van eerdere modellen zoals GPT-4O [1].
Aanpassingsvermogen aan nieuwe conflicterende instructies
Hoewel GPT-4.5 betere prestaties vertoont bij het omgaan met bekende soorten conflicterende instructies, hangt het vermogen om zich aan te passen aan volledig nieuwe soorten conflicten af van verschillende factoren:
1. Generalisatiemogelijkheden: de training van GPT-4.5 omvat het schalen van zonder toezicht, wat het vermogen vergroot om bredere contexten te generaliseren en te begrijpen [1]. Dit kan het mogelijk helpen patronen te herkennen in nieuwe conflicterende instructies.
2. Instructiehiërarchie: de instructiehiërarchie van het model is ontworpen om prioriteit te geven aan systeemberichten, wat helpt bij het handhaven van veiligheid en naleving van vooraf gedefinieerde regels. Als er echter nieuwe tegenstrijdige instructies buiten het bestek van deze hiërarchie vallen, kan het model moeite hebben om zich aan te passen zonder extra training of verfijning.
3. Snelle engineering en steigers: gebruikers kunnen geavanceerde promoting -technieken of steiger gebruiken om het model te begeleiden naar begrip en het volgen van nieuwe instructies. Deze benadering kan helpen bij het opwekken van gedrag dan waarvoor het model expliciet is getraind voor [1].
4. Beperkingen en veiligheidsevaluaties: ondanks verbeteringen staat GPT-4.5 nog steeds voor uitdagingen bij het omgaan met complexe of nieuwe scenario's. Veiligheidsevaluaties hebben aangetoond dat hoewel het model goed presteert bij bekende taken, er altijd een risico bestaat dat het geen instructies volgt in onvoorziene contexten [1].
Conclusie
Hoewel GPT-4.5 beter in staat is dan zijn voorgangers bij het omgaan met conflicterende instructies, wordt het aanpassingsvermogen aan volledig nieuwe soorten conflicten beperkt door de trainingsgegevens en het ontwerp. Het kan aanvullende verfijning of creatieve aanwijzingsstrategieën vereisen om nieuwe scenario's effectief af te handelen. Het lopende onderzoeks- en gebruikersinteracties met GPT-4.5 zullen meer inzichten bieden in zijn mogelijkheden en beperkingen op dit gebied.
Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearlyhere
[6] https://community.openai.com/t/gpt-4o-not-follow-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantant_and/