GPT-4.5: Verbeterde prestaties bij het omgaan met conflicterende instructies

Hoe verhouden de prestaties van GPT-4.5 zich tot eerdere versies bij het omgaan met conflicterende instructies

GPT-4.5 vertoont verbeterde prestaties bij het omgaan met conflicterende instructies in vergelijking met eerdere versies, met name door de verbeterde instructiehiërarchie. Met deze functie kan het model prioriteit geven aan systeemberichten boven gebruikersinvoer, het verminderen van risico's die verband houden met snelle injecties en andere aanvallen die de veiligheidsinstructies kunnen overschrijven.

In evaluaties met conflicterende berichtentypen presteert GPT-4.5 over het algemeen beter dan GPT-4O. Het model is getraind om de instructies in het bericht met de hoogste prioriteit te volgen, die helpt bij scenario's waarbij systeem- en gebruikersberichten conflicten. Bijvoorbeeld, in een scenario waarin het model wordt geïnstrueerd om het antwoord niet op een wiskundevraag weg te geven, toont GPT-4.5 een betere naleving van deze systeeminstructies in vergelijking met GPT-4O, hoewel het GPT-4O1 niet in alle evaluaties overtroffen [1].

Bovendien is GPT-4.5 geëvalueerd in scenario's waarbij het specifieke zinnen of wachtwoorden moet beschermen tegen onthulde via gebruikersprompts. In deze evaluaties presteert GPT-4.5 goed, wat wijst op het vermogen om de beveiliging te behouden en systeeminstructies te volgen, zelfs wanneer ze worden geconfronteerd met tegenstrijdige gebruikersinvoer [1].

Hoewel GPT-4.5 eerdere modellen verbetert bij het omgaan met conflicterende instructies, staat het echter nog steeds voor uitdagingen in bepaalde complexe scenario's. De prestaties van het model in rode teamevaluaties, die tegenstanders simuleren, laat zien dat het in sommige gevallen onveilige output kan produceren, hoewel het over het algemeen beter presteert dan GPT-4O in deze uitdagende tests [1].

Over het algemeen maken de verbeteringen van GPT-4.5 bij het omgaan met conflicterende instructies het een betrouwbaardere keuze voor toepassingen die strikte naleving van veiligheidsrichtlijnen en systeeminstructies vereisen.

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good- this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differenties-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantant_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-lit
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasering