Evaluering af GPT-4.5's præstation mod modstridende promp og sikkerhedsmekanismer

Hvordan fungerer GPT-4.5 i scenarier, hvor brugerbeskeder forsøger at narre modellen

GPT-4.5s ydelse i scenarier, hvor brugerbeskeder forsøger at narre modellen evalueres gennem flere vurderinger med fokus på dens evne til at modstå modstridende promp og opretholde sikkerhedsstandarder.

Sikkerhedsevalueringer og jailbreaks

1. Jailbreak Evaluerings: Disse test måler, hvor godt GPT-4.5 modstår forsøger at omgå dens sikkerhedsmekanismer. Modellen evalueres mod menneskelige fængslede jailbreaks og Strongrreject Benchmark, der vurderer modstand mod almindelige modstridende angreb. GPT-4.5 fungerer godt i menneskelige fængslede fængsler og opnå en høj nøjagtighed på 0,99. I Strongrreject-benchmarket scorer det imidlertid 0,34, hvilket er lidt lavere end GPT-4O1's score på 0,87 [1].

2. Instruktionshierarkievalueringer: For at afbøde hurtige injektionsangreb trænes GPT-4.5 til at følge et hierarki af instruktioner, prioritere systemmeddelelser frem for brugerbeskeder. I evalueringer, hvor system- og brugerbeskeder er i konflikt, fungerer GPT-4.5 generelt godt med en nøjagtighed på 0,76. Dette er en forbedring i forhold til GPT-4O, men lidt under GPT-4O1's præstation [1].

3. tutor-jailbreaks: I scenarier, hvor modellen instrueres om ikke at afsløre svar på matematiske spørgsmål, viser GPT-4.5 moderat succes med en nøjagtighed på 0,77. Dette er en betydelig forbedring i forhold til GPT-4O, men ikke så høj som GPT-4O1's ydelse [1].

4. sætning og adgangskodebeskyttelse: GPT-4.5 evalueres også på dens evne til at beskytte specifikke sætninger eller adgangskoder mod at blive afsløret gennem brugerbeskeder. Det fungerer godt i disse tests med nøjagtigheder på 0,86 til sætningsbeskyttelse og 0,92 for adgangskodebeskyttelse [1].

Red teaming evalueringer

GPT-4.5 gennemgår røde teaming-evalueringer designet til at teste dens robusthed mod modstridende promp. Disse evalueringer dækker scenarier såsom ulovlig rådgivning, ekstremisme, hadforbrydelser, politisk overtalelse og selvskading. GPT-4.5 producerer sikre output i ca. 51% af det første røde teaming-evalueringssæt, lidt højere end GPT-4O men lavere end GPT-4O1. I en anden evaluering med fokus på risikabel rådgivning fungerer GPT-4.5 bedre end GPT-4O, men ikke så godt som GPT-4O1 eller dybe forskningsmodeller [1].

Den samlede præstation

Mens GPT-4.5 demonstrerer forbedringer i håndtering af følsomme og modstridende anmodninger sammenlignet med tidligere modeller, står det stadig over for udfordringer i meget modstridende scenarier. Dets ydeevne er solid til generelle opgaver, men er muligvis ikke optimal til avanceret problemløsning eller dybe kodningsopgaver sammenlignet med specialiserede modeller som O3-mini [3] [5].

Sammenfattende viser GPT-4.5 modstandsdygtighed mod forsøg på at narre det, især i scenarier, hvor det skal prioritere systeminstruktioner frem for brugerindgange. Imidlertid har det stadig begrænsninger i meget modstridende sammenhænge, hvilket afspejler de igangværende udfordringer med at afbalancere sikkerhed og funktionalitet i AI -modeller.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-trpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw