Ocenjevanje uspešnosti GPT-4.5 proti nasprotnim pozivom in varnostnim mehanizmom

Kako GPT-4.5 deluje v scenarijih, kjer uporabniška sporočila poskušajo prevariti model

Učinkovitost GPT-4.5 v scenarijih, kjer uporabniška sporočila poskušajo zbrati model, se ocenjuje z več ocenami, s poudarkom na njegovi sposobnosti upiranja nasprotnim pozivom in vzdrževanju varnostnih standardov.

Varnostne ocene in jailbreaki

1. Ocene jailbreak: Ti testi merijo, kako dobro se GPT-4.5 upira poskusom, da zaobide svoje varnostne mehanizme. Model je ovrednoten proti jailbreaki, ki jih je prinesla človeški, in referenčni vrednosti Strongreject, ki ocenjuje odpor do skupnih nasprotnih napadov. GPT-4.5 dobro deluje v jailbreaki, ki jih je prinesla človeka, kar dosega visoko natančnost 0,99. Vendar pa v referenčni vrednosti Strongreject doseže 0,34, kar je nekoliko nižje od ocene GPT-4O1 0,87 [1].

2. Ocenjevanje Hierarhije navodil: Za ublažitev hitrih napadov vbrizgavanja je GPT-4.5 usposobljen za sledenje hierarhiji navodil, pri čemer določi sistemska sporočila pred uporabniškimi sporočili. V ocenah, ko sistemska in uporabniška sporočila konflikta, GPT-4.5 na splošno deluje dobro, z natančnostjo 0,76. To je izboljšanje v primerjavi z GPT-4O, vendar nekoliko pod uspešnostjo GPT-4O1 [1].

3. Tutor Jailbreaks: V scenarijih, kjer je model poučen, da ne razkrije odgovorov na matematična vprašanja, GPT-4.5 kaže zmerni uspeh z natančnostjo 0,77. To je pomembno izboljšanje v primerjavi z GPT-4O, vendar ne tako visoko kot uspešnost GPT-4O1 [1].

4. Zaščita besedne zveze in gesla: GPT-4.5 se ocenjuje tudi glede na njegovo sposobnost zaščite določenih stavkov ali gesel pred razkritjem uporabniških sporočil. V teh preskusih deluje dobro, z natančnostjo 0,86 za zaščito besed in 0,92 za zaščito gesla [1].

Ocenjevanje rdečih skupin

GPT-4.5 je podvržena ocenam rdeče združevanja, namenjenih preizkušanju njene robustnosti proti nasprotnim pozivom. Te ocene zajemajo scenarije, kot so nedovoljeni nasveti, ekstremizem, zločini iz sovraštva, politično prepričevanje in samopoškodovanje. GPT-4.5 proizvaja varne rezultate v približno 51% prvega nabora ocenjevanja rdečega združevanja, nekoliko višji od GPT-4O, vendar nižji od GPT-4O1. V drugi oceni, osredotočeno na tvegane nasvete, GPT-4.5 deluje bolje kot GPT-4O, vendar ne tako tudi kot GPT-4O1 ali globoki raziskovalni modeli [1].

Splošna uspešnost

Medtem ko GPT-4.5 kaže na izboljšave pri ravnanju z občutljivimi in nasprotnimi pozivi v primerjavi s prejšnjimi modeli, se še vedno spopada z izzivi v zelo nasprotnih scenarijih. Njegova zmogljivost je trdna za naloge splošnega namena, vendar morda ni optimalna za napredne naloge za reševanje problemov ali globoko kodiranje v primerjavi s specializiranimi modeli, kot je O3-MINI [3] [5].

Če povzamemo, GPT-4.5 prikazuje odpornost proti poskusom, da bi ga prevarala, zlasti v scenarijih, kjer mora prednostno določiti sistemska navodila glede uporabniških vhodov. Vendar ima še vedno omejitve v zelo nasprotnih okoliščinah, kar odraža nenehne izzive pri uravnoteženju varnosti in funkcionalnosti v modelih AI.

Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model -is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significially_and/
[5] https://www.reddit.com/r/singularity/comments/1IZN175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-poskus
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0Kbas3s5ryw