GPT-4.5 Verbeteringen bij het omgaan met conflicterende instructies en veiligheidsverbeteringen

Hoe verhouden de prestaties van GPT-4.5 zich tot eerdere versies bij het omgaan met conflicterende instructies

GPT-4.5 vertoont verbeterde prestaties bij het omgaan met conflicterende instructies in vergelijking met eerdere versies, met name door de verbeterde therapietrouw van een instructiehiërarchie. Met deze hiërarchie kan het model prioriteit geven aan systeemberichten boven gebruikersinputs, waardoor risico's worden verminderd door tegenstrijdige aanwijzingen. In evaluaties presteert GPT-4.5 over het algemeen beter dan GPT-4O in scenario's waarbij systeem- en gebruikersberichten conflicten, wat een betere mogelijkheid aangeeft om veiligheidsinstructies te volgen en te voorkomen dat hij wordt bedrogen door tegenstanders [1] [5].

Belangrijkste verbeteringen bij het omgaan met conflicterende instructies

1. Instructiehiërarchie Evaluatie: GPT-4.5 toont een verbeterde nauwkeurigheid in de volgende systeeminstructies over gebruikersberichten. Bijvoorbeeld, in een scenario waarin het model wordt geïnstrueerd om het antwoord niet op een wiskundevraag weg te geven, presteert GPT-4.5 beter dan GPT-4O, hoewel niet zo goed als GPT-4O1 [1].

2. Mitigatie van snelle injecties: door prioriteit te geven aan systeemberichten, vermindert GPT-4.5 het risico van snelle injecties en andere aanvallen die de veiligheidsinstructies ervan kunnen overschrijven. Dit is cruciaal voor het handhaven van de integriteit van het model en het voorkomen van misbruik [1] [5].

3. Realistische scenario's: in meer realistische scenario's, zoals wanneer het optreden als een wiskundetutor, is GPT-4.5 beter in het weerstaan van pogingen om het te misleiden om ongeautoriseerde informatie te verstrekken. De prestaties ervan zijn echter niet perfect en kunnen variëren, afhankelijk van de specifieke context en de gegeven instructies [1].

4. Veiligheidsevaluaties: GPT-4.5 ondergaat rigoureuze veiligheidsevaluaties om ervoor te zorgen dat het niet voldoet aan verzoeken om schadelijke inhoud. Hoewel het goed presteert in het weigeren van onveilige inhoud, kan het meer dan eerdere modellen overreferen, wat duidt op een voorzichtige benadering voor het hanteren van dubbelzinnige of potentieel risicovolle aanwijzingen [1].

Over het algemeen biedt GPT-4.5 aanzienlijke verbeteringen in het omgaan met conflicterende instructies door zich nader te houden aan systeemrichtlijnen en de impact van tegenstanders te verminderen. Zoals alle AI -modellen, is het echter niet immuun voor alle vormen van manipulatie en blijft het evolueren met voortdurende veiligheidsevaluaties en updates [1] [5].

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good- this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differenties-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantant_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-lit
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasering