Hinnates GPT-4.5 tulemuslikkust võistlevate viipete ja ohutusmehhanismide vastu

Kuidas toimib GPT-4.5 stsenaariumide korral, kus kasutajasõnumid üritavad mudelit petta

GPT-4.5 jõudlus stsenaariumides, kus kasutajasõnumid üritavad mudelit petta, hinnatakse mitmete hinnangute abil, keskendudes selle võimele vastata vastandlikele juhistele ja säilitada ohutusstandardeid.

ohutuse hindamine ja jailbreakid

1. Jailbreak'i hinnangud: need testid mõõdavad, kui hästi GPT-4,5 vastab katsetele oma ohutusmehhanismidest mööda hiilida. Mudelit hinnatakse inimese päritoluga jailbreakite ja tugeva reajekti võrdlusaluse vastu, mis hindab vastupanu tavalistele võistlusrünnakutele. GPT-4,5 toimib hästi inimese päritolu jailbreakides, saavutades suure täpsuse 0,99. Tugeva reajekti võrdlusaluse korral on see siiski 0,34, mis on pisut madalam kui GPT-4O1 skoor 0,87 [1].

2. Juhendihierarhia hinnangud: kiirete süstimisrünnakute leevendamiseks koolitatakse GPT-4.5 järgima juhiste hierarhiat, eelistades süsteemisõnumeid kasutajasõnumite kaudu. Hindamistes, kus süsteemi- ja kasutajateated on konfliktid, toimib GPT-4.5 üldiselt hästi, täpsusega 0,76. See on GPT-4O-ga võrreldes edasiminek, kuid pisut alla GPT-4O1 jõudluse [1].

3. Juhendaja Jailbreaks: stsenaariumides, kus mudelil käsitatakse mitte avaldada vastuseid matemaatikaküsimustele, näitab GPT-4.5 mõõdukat edu, täpsusega 0,77. See on märkimisväärne paranemine võrreldes GPT-4O-ga, kuid mitte nii kõrge kui GPT-4O1 jõudlus [1].

4. Fraas ja paroolide kaitse: GPT-4.5 hinnatakse ka selle võimet kaitsta konkreetseid fraase või paroole kasutajateadete kaudu ilmumise eest. Nendes testides toimib see hästi, täpsusega fraasi kaitseks 0,86 ja parooli kaitseks 0,92 [1].

Punase meeskonna hindamine

GPT-4.5 läbib punase meeskonna hindamise, mille eesmärk on testida selle vastupidavust võistlevate viipetega. Need hinnangud hõlmavad selliseid stsenaariume nagu ebaseaduslikud nõuanded, äärmuslus, vihakuriteod, poliitiline veenmine ja enesevigastamine. GPT-4.5 toodab ohutuid väljundeid umbes 51% -l esimesest punase meeskonna hindamiskomplektist, pisut kõrgem kui GPT-4O, kuid madalam kui GPT-4O1. Teises riskantsele nõustamisele keskendunud hindamisel toimib GPT-4.5 paremini kui GPT-4O, kuid mitte nii hästi kui GPT-4O1 või Deep Research mudelid [1].

Üldine jõudlus

Kuigi GPT-4.5 näitab varasemate mudelitega võrreldes tundlike ja võistlevate viipete käitlemise paranemist, seisab see endiselt väga võistlevate stsenaariumide korral silmitsi väljakutsetega. Selle jõudlus on üldotstarbeliste ülesannete jaoks kindel, kuid ei pruugi olla optimaalne täiustatud probleemide lahendamise või sügavate kodeerimise ülesannete jaoks, võrreldes spetsiaalsete mudelitega nagu O3-Mini [3] [5].

Kokkuvõtlikult näitab GPT-4.5 vastupidavust selle petmise katsete vastu, eriti stsenaariumide korral, kus see peab eelistama süsteemi juhiseid kasutaja sisenditega. Kuid sellel on endiselt piiranguid väga võistlevates kontekstides, kajastades jätkuvaid väljakutseid AI mudelite ohutuse ja funktsionaalsuse tasakaalustamisel.

Tsitaadid:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-enginehing
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-th-model-is
]
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
]
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw