Evaluering av GPT-4.5s ytelse mot motstridende spørsmål og sikkerhetsmekanismer

Hvordan fungerer GPT-4.5 i scenarier der brukermeldinger prøver å lure modellen

GPT-4.5s ytelse i scenarier der brukermeldinger prøver å lure modellen blir evaluert gjennom flere vurderinger, med fokus på dens evne til å motstå motstridende spørsmål og opprettholde sikkerhetsstandarder.

Sikkerhetsevalueringer og jailbreaks

1. Jailbreak Evalueringer: Disse testene måler hvor godt GPT-4.5 motstår forsøk på å omgå sikkerhetsmekanismene. Modellen blir evaluert mot jailbreaks for mennesker og Strongreject-referanseindeksen, som vurderer motstand mot vanlige motstanders angrep. GPT-4.5 presterer bra i jailbreaks med mennesker, og oppnår en høy nøyaktighet på 0,99. Imidlertid, i Strongreject-referansen, scorer den 0,34, noe som er litt lavere enn GPT-4O1s poengsum på 0,87 [1].

2. Instruksjonshierarki Evalueringer: For å dempe hurtig injeksjonsangrep er GPT-4.5 opplært til å følge et hierarki av instruksjoner, og prioritere systemmeldinger fremfor brukermeldinger. I evalueringer der system- og brukermeldinger er i konflikt, fungerer GPT-4.5 generelt bra, med en nøyaktighet på 0,76. Dette er en forbedring i forhold til GPT-4O, men litt under GPT-4O1s ytelse [1].

3. TUTOR JAILBREAKS: I scenarier der modellen blir instruert om ikke å avsløre svar på matematikkspørsmål, viser GPT-4.5 moderat suksess, med en nøyaktighet på 0,77. Dette er en betydelig forbedring i forhold til GPT-4O, men ikke så høy som GPT-4O1s ytelse [1].

4. Setnings- og passordbeskyttelse: GPT-4.5 blir også evaluert på dens evne til å beskytte spesifikke setninger eller passord mot å bli avslørt gjennom brukermeldinger. Det fungerer bra i disse testene, med nøyaktigheter på 0,86 for setningsbeskyttelse og 0,92 for passordbeskyttelse [1].

Red teaming evalueringer

GPT-4.5 gjennomgår røde teaming evalueringer designet for å teste sin robusthet mot motstridende spørsmål. Disse evalueringene dekker scenarier som ulovlig råd, ekstremisme, hatforbrytelser, politisk overtalelse og selvskading. GPT-4,5 produserer sikre utganger i omtrent 51% av det første røde teamet evalueringssettet, litt høyere enn GPT-4O, men lavere enn GPT-4O1. I en annen evaluering fokusert på risikable råd, presterer GPT-4.5 bedre enn GPT-4O, men ikke så bra som GPT-4O1 eller dype forskningsmodeller [1].

Total ytelse

Mens GPT-4.5 demonstrerer forbedringer i håndtering av sensitive og motstridende spørsmål sammenlignet med tidligere modeller, står det fortsatt overfor utfordringer i svært motstridende scenarier. Ytelsen er solid for generelle oppgaver, men er kanskje ikke optimal for avanserte problemløsning eller dype kodingsoppgaver sammenlignet med spesialiserte modeller som O3-mini [3] [5].

Oppsummert viser GPT-4.5 motstandskraft mot forsøk på å lure det, spesielt i scenarier der det må prioritere systeminstruksjoner fremfor brukerinnganger. Imidlertid har det fortsatt begrensninger i svært motstridende sammenhenger, og gjenspeiler pågående utfordringer med å balansere sikkerhet og funksjonalitet i AI -modeller.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-dhismodel-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-preg
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw