GPT-4.5 veiklos įvertinimas atsižvelgiant į prieštarinius raginimus ir saugos mechanizmus

Kaip GPT-4.5 veikia scenarijuose, kur vartotojo pranešimai bando apgauti modelį

„GPT-4.5“ atlikimas scenarijuose, kai vartotojo pranešimai bando apgauti modelį, vertinamas atliekant keletą įvertinimų, sutelkiant dėmesį į jo sugebėjimą atsispirti prieštaringoms raginimams ir išlaikyti saugos standartus.

Saugos vertinimai ir „Jailbreaks“

1. „Jailbreak“ vertinimai: Šie bandymai matuoja, kaip GPT-4.5 priešinasi bandymams apeiti jo saugos mechanizmus. Modelis įvertinamas atsižvelgiant į žmonių šaltinius ir „StrongReject“ etaloną, kuris įvertina atsparumą įprastoms prieštaringoms atakoms. GPT-4.5 gerai veikia žmogaus šaltiniuose kalėjimuose, pasiekdamas aukštą 0,99 tikslumą. Tačiau „StrongReject“ etalone jis įvertina 0,34, kuris yra šiek tiek mažesnis nei GPT-4O1 balas yra 0,87 [1].

2. Instrukcijų hierarchijos vertinimai: Norėdami sušvelninti greitų injekcijų atakų, GPT-4.5 mokomas laikytis instrukcijų hierarchijos, prioritetų nustatymo sistemos pranešimams, o ne vartotojo pranešimams. Vertinimuose, kuriuose konfliktuoja sistemos ir vartotojo pranešimai, GPT-4.5 paprastai veikia gerai, o tikslumas yra 0,76. Tai yra patobulinimas, palyginti su GPT-4o, tačiau šiek tiek mažesnis už GPT-4O1 našumą [1].

3. Dėstytojo „Jailbreaks“: scenarijuose, kur modeliui nurodoma neatskleisti atsakymų į matematikos klausimus, GPT-4.5 rodo vidutinę sėkmę, o tikslumas yra 0,77. Tai yra reikšmingas pagerėjimas, palyginti su GPT-4o, bet ne taip aukštas kaip GPT-4O1 veikimas [1].

4. Frazė ir slaptažodžio apsauga: GPT-4.5 taip pat įvertinamas pagal jos sugebėjimą apsaugoti konkrečias frazes ar slaptažodžius nuo vartotojo pranešimų. Šiuose bandymuose jis gerai veikia, kai frazės apsaugos tikslumas yra 0,86 ir 0,92 už slaptažodžio apsaugą [1].

„Red Teaming“ vertinimai

„GPT-4.5“ atlieka „Raudonųjų komandų“ vertinimus, skirtus patikrinti jo tvirtumą prieš prieštaringus raginimus. Šie vertinimai apima tokius scenarijus kaip neteisėtas patarimas, ekstremizmas, neapykantos nusikaltimai, politiniai įtikinėjimai ir savęs žalojimas. GPT-4.5 sukuria saugius išėjimus maždaug 51% pirmojo „Red Teaming“ įvertinimo rinkinio, šiek tiek didesnio nei GPT-4O, bet mažesnis nei GPT-4O1. Antrame vertinime, kurio tikslas-rizikingi patarimai, GPT-4.5 veikia geriau nei GPT-4O, bet ne taip gerai, kaip GPT-4O1 ar giliųjų tyrimų modeliai [1].

Bendras našumas

Nors GPT-4.5, palyginti su ankstesniais modeliais, demonstruoja patobulintus jautrius ir priešingus raginimus, tačiau jis vis dar susiduria su iššūkiais labai prieštaringais scenarijais. Jo našumas yra tvirtas atliekant bendrosios paskirties užduotis, tačiau gali būti ne optimali atliekant pažangias problemas sprendžiant ar gilias kodavimo užduotis, palyginti su specializuotais modeliais, tokiais kaip O3-Mini [3] [5].

Apibendrinant galima pasakyti, kad GPT-4.5 rodo atsparumą bandymams jį apgauti, ypač scenarijuose, kuriuose jis turi prioritetą nustatyti sistemos instrukcijoms, o ne vartotojo įvestis. Tačiau jis vis dar turi apribojimų labai prieštaringose aplinkose, atspindinčiuose nuolatinius iššūkius, susijusius su saugos ir funkcionalumo pusiausvyros AI modeliais.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-enngineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-os-model-is
[4] https://www.reddit.com/r/openai/comments/18Monbs/gpt_4_has_been_toned_down_downfithy_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW