GPT-4.5 patobulinimai tvarkant prieštaringas instrukcijas ir saugos patobulinimus

Kaip „GPT-4.5“ našumas palyginamas su ankstesnėmis versijomis tvarkant prieštaringas instrukcijas

GPT-4.5 rodo geresnį veikimą tvarkant prieštaringas instrukcijas, palyginti su ankstesnėmis versijomis, ypač dėl to, kad jos sustiprina instrukcijų hierarchiją. Ši hierarchija leidžia modeliui nustatyti prioritetus sistemos pranešimams, o ne vartotojo įvestims, mažinant riziką nuo prieštaringų raginimų. Vertinimuose GPT-4.5 paprastai pralenkia GPT-4O scenarijus, kuriuose sistemos ir vartotojo pranešimai prieštarauja, nurodant geresnę gebėjimą vykdyti saugos instrukcijas ir vengti, kad juos apgaudinėja prieštaringos raginimai [1] [5].

Pagrindiniai patobulinimai tvarkant prieštaringas instrukcijas

1. Instrukcijų hierarchijos vertinimas: GPT-4.5 rodo geresnį tikslumą atliekant šių sistemos instrukcijas, susijusias su vartotojo pranešimais. Pavyzdžiui, scenarijuje, kai modeliui nurodoma neatsisakyti atsakymo į matematikos klausimą, GPT-4.5 veikia geriau nei GPT-4o, nors ir ne taip gerai, kaip GPT-4O1 [1].

2. Greitų injekcijų mažinimas: Prioritetų nustatymo sistemos pranešimams, GPT-4.5 sumažina greitų injekcijų ir kitų atakų, kurios galėtų nepaisyti jo saugos instrukcijų, riziką. Tai labai svarbu išlaikyti modelio vientisumą ir užkirsti kelią piktnaudžiavimui [1] [5].

3. Realistiški scenarijai: realistiškesniuose scenarijuose, pavyzdžiui, kai veikiant matematikos dėstytojui, GPT-4.5 geriau priešinasi bandymams apgauti, kad pateiktų neteisėtą informaciją. Tačiau jo našumas nėra tobulas ir gali skirtis priklausomai nuo konkretaus konteksto ir pateiktų instrukcijų [1].

4. Saugos vertinimai: GPT-4.5 yra griežtai vertinami saugos vertinimai, siekiant užtikrinti, kad jis neatitinka kenksmingo turinio užklausų. Nors jis gerai atsisako nesaugaus turinio, jis gali per daug daugiau nei ankstesnių modelių, tai rodo atsargų požiūrį į dviprasmiškus ar potencialiai rizikingus raginimus [1].

Apskritai, „GPT-4.5“ siūlo reikšmingą patobulinimą tvarkant prieštaringas instrukcijas, atidžiau laikantis sistemos gairių ir sumažinant prieštaringų vartotojų įvesties poveikį. Tačiau, kaip ir visi AI modeliai, jis nėra apsaugotas nuo visų formų manipuliacijos ir toliau vystosi atliekant nuolatinius saugos vertinimus ir atnaujinimus [1] [5].

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-os-model-is
[4] https://www.techtarget.com/searchenterpriseai/TIP/GPT-35-VS-GPT-4 Didžiausi-diferences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18Monbs/gpt_4_has_been_toned_down_downfithy_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-easoning