Evaluatie van de prestaties van GPT-4.5 tegen tegenstanders en veiligheidsmechanismen

Hoe presteert GPT-4.5 in scenario's waarin gebruikersberichten proberen het model te misleiden

De prestaties van GPT-4.5 in scenario's waarin gebruikersberichten proberen het model te misleiden, wordt geëvalueerd door verschillende beoordelingen, gericht op het vermogen om tegenstanders te weerstaan en de veiligheidsnormen te handhaven.

Veiligheidsevaluaties en jailbreaks

1. Jailbreak-evaluaties: deze tests meten hoe goed GPT-4.5 zich resisteert dat pogingen zijn veiligheidsmechanismen omzeilen. Het model wordt geëvalueerd tegen de jailbreaks van de mens en de StrongReject-benchmark, die weerstand tegen gemeenschappelijke tegenstanders beoordeelt. GPT-4.5 presteert goed in jailbreaks door mensen, waardoor een hoge nauwkeurigheid van 0,99 wordt bereikt. In de StrongReject-benchmark scoort het echter 0,34, wat iets lager is dan de score van GPT-4O1 van 0,87 [1].

2. Instructiehiërarchie-evaluaties: om snelle injectieaanvallen te verminderen, is GPT-4.5 getraind om een hiërarchie van instructies te volgen, die prioriteit geeft aan systeemberichten boven gebruikersberichten. In evaluaties waarbij systeem- en gebruikersberichten conflicten, presteert GPT-4.5 over het algemeen goed, met een nauwkeurigheid van 0,76. Dit is een verbetering ten opzichte van GPT-4O maar iets onder de prestaties van GPT-4O1 [1].

3. Tutor-jailbreaks: in scenario's waarin het model wordt geïnstrueerd om geen antwoorden op wiskundevragen te onthullen, toont GPT-4.5 matig succes, met een nauwkeurigheid van 0,77. Dit is een significante verbetering ten opzichte van GPT-4O maar niet zo hoog als de prestaties van GPT-4O1 [1].

4. Zin- en wachtwoordbeveiliging: GPT-4.5 wordt ook geëvalueerd op het vermogen om specifieke zinnen of wachtwoorden te beschermen tegen onthulde via gebruikersberichten. Het presteert goed in deze tests, met nauwkeurigheid van 0,86 voor uitdrukkingbescherming en 0,92 voor wachtwoordbeveiliging [1].

Red Teaming Evaluations

GPT-4.5 ondergaat rode teamevaluaties die zijn ontworpen om zijn robuustheid te testen op tegenstanders. Deze evaluaties hebben betrekking op scenario's zoals illegaal advies, extremisme, haatmisdrijven, politieke overtuiging en zelfbeschadiging. GPT-4.5 produceert veilige output in ongeveer 51% van de eerste rode teamevaluatieset, iets hoger dan GPT-4O maar lager dan GPT-4O1. In een tweede evaluatie gericht op risicovol advies presteert GPT-4.5 beter dan GPT-4O, maar niet zo goed als GPT-4O1 of diepe onderzoeksmodellen [1].

Algemene prestaties

Hoewel GPT-4.5 verbeteringen vertoont in het omgaan met gevoelige en tegenstanders in vergelijking met eerdere modellen, staat het nog steeds voor uitdagingen in zeer tegenstanders. De prestaties ervan zijn solide voor taken voor algemene doeleinden, maar zijn mogelijk niet optimaal voor geavanceerde probleemoplossing of diepe coderingstaken in vergelijking met gespecialiseerde modellen zoals O3-Mini [3] [5].

Samenvattend toont GPT-4.5 veerkracht tegen pogingen om het te misleiden, met name in scenario's waarin het prioriteit moet geven aan systeeminstructies boven gebruikersinvoer. Het heeft echter nog steeds beperkingen in zeer tegenstanders, hetgeen de voortdurende uitdagingen weerspiegelt bij het in evenwicht brengen van veiligheid en functionaliteit in AI -modellen.

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good- this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantant_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-reelase-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw