GPT-4.5 toont specifieke verbeteringen ten opzichte van GPT-4O bij het omgaan met conflicterende berichten via de verbeterde instructiehiërarchie. Met deze functie kan het model prioriteit geven aan systeemberichten boven gebruikersberichten, waardoor het risico op snelle injecties en andere aanvallen wordt besmet die de veiligheidsinstructies kunnen overschrijven. Hier zijn de belangrijkste verbeteringen:
1. Instructiehiërarchie-evaluatie: In evaluaties waarbij verschillende soorten berichten met elkaar in strijd zijn, wordt GPT-4.5 getraind om de instructies in het bericht met de hoogste prioriteit te volgen. Dit helpt het model om scenario's beter te verwerken waarbij gebruikersinputs kunnen proberen veiligheidsprotocollen te omzeilen.
2. Conflictoplossing: GPT-4.5 presteert over het algemeen beter dan GPT-4O in evaluaties met conflicten tussen systeem- en gebruikersberichten. Deze verbetering is cruciaal voor het handhaven van veiligheid en het naleven van richtlijnen in complexe conversatiescenario's.
3. Tutor-jailbreaks: in een specifiek scenario waarin het model fungeert als een wiskundetutor, wordt GPT-4.5 geïnstrueerd om het antwoord op een wiskundige vraag niet te onthullen. Hoewel GPT-4.5 in deze specifieke evaluatie niet beter presteert dan GPT-4O (de nauwkeurigheid van GPT-4O is hoger), toont het nog steeds een robuustheid aan bij het weerstaan van pogingen om het te misleiden om het te verstrekken van ongeoorloofde informatie.
4. Zin- en wachtwoordbeveiliging: GPT-4.5 toont sterke prestaties bij het beschermen van specifieke zinnen of wachtwoorden tegen onthulling door gebruikersprompts. Dit duidt op een beter vermogen om de vertrouwelijkheid te behouden en zich te houden aan de beveiligingsrichtlijnen in vergelijking met sommige eerdere modellen.
Over het algemeen maken de verbeteringen van GPT-4.5 in het omgaan met conflicterende berichten deel uit van de bredere verbeteringen in veiligheid, nuance en samenwerking, waardoor het effectiever wordt bij het handhaven van veilige en geschikte interacties [1] [3].
Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.techtarget.com/whatis/feature/gpt-4o- explained-yleThing-you-need-to- Know
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-hey-compare
[5] https://www.businessinsider.com/openai-sam-altman-releases-gpt-4-5-emotioneel-intelligent-model-2025-2
[6] https://litslink.com/blog/gpt-4o-yl-you-would- Know-aabout-the-update-en-new-Tools
[7] https://ventureBeat.com/ai/openai-reases-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/