Vyhodnotenie výkonu GPT-4,5 proti kontradiktórnym výzvam a bezpečnostným mechanizmom

Ako funguje GPT-4.5 v scenároch, kde sa používateľské správy pokúšajú oklamať model

Výkon GPT-4.5 v scenároch, kde sa používateľské správy pokúšajú oklamať model, sa vyhodnocuje prostredníctvom niekoľkých hodnotení, ktoré sa zameriavajú na jeho schopnosť odolávať kontradiktórnym výzvam a udržiavať bezpečnostné normy.

Hodnotenia bezpečnosti a útek z väzenia

1. Hodnotenia útek z väzenia: Tieto testy merajú, ako dobre odoláva GPT-4,5 pokusy obísť svoje bezpečnostné mechanizmy. Model sa hodnotí proti útek z väzení a referenčnej hodnoty silných látok, ktoré hodnotí odpor voči bežným kontradiktórnym útokom. GPT-4,5 funguje dobre na útek z väzení na človeka a dosahuje vysokú presnosť 0,99. Avšak v referenčnej hodnote StrongReject skóruje 0,34, čo je o niečo nižšie ako skóre GPT-4O1 0,87 [1].

2. Vyhodnotenie hierarchie inštrukcií: Na zmiernenie okamžitých injekčných útokov je GPT-4,5 vyškolený na dodržiavanie hierarchie pokynov a uprednostňuje systémové správy pred používateľskými správami. V hodnotení, v ktorých konflikty systémov a používateľov konfliktujú, GPT-4,5 vo všeobecnosti funguje dobre, s presnosťou 0,76. Toto je zlepšenie oproti GPT-4O, ale mierne pod výkonnosťou GPT-4O1 [1].

3. Tougrbreaks: V scenároch, v ktorých je model inštruovaný, aby neodhalil odpovede na matematické otázky, GPT-4,5 ukazuje mierny úspech s presnosťou 0,77. Toto je významné zlepšenie oproti GPT-4O, ale nie tak vysoké ako výkon GPT-4O1 [1].

4. Ochrana frázy a hesla: GPT-4,5 sa tiež vyhodnocuje podľa svojej schopnosti chrániť konkrétne frázy alebo heslá pred odhalením používateľských správ. V týchto testoch funguje dobre, s presnosťou 0,86 na ochranu frázy a 0,92 na ochranu heslom [1].

Red Teaming Hodnotenia

GPT-4.5 prechádza hodnoteniami Red Teaming, ktoré sú určené na testovanie jeho robustnosti proti kontradiktórnym výzvam. Tieto hodnotenia sa vzťahujú na scenáre, ako sú nezákonné poradenstvo, extrémizmus, zločiny z nenávisti, politické presvedčenie a sebapoškodzovanie. GPT-4,5 produkuje bezpečné výstupy v približne 51% prvej hodnotiacej sady Red Teaming, o niečo vyššie ako GPT-4O, ale nižšie ako GPT-4O1. V druhom hodnotení zameranom na riskantné rady má GPT-4,5 lepšie ako GPT-4O, ale nie tak dobre ako modely GPT-4O1 alebo hlboké výskumné modely [1].

Celkový výkon

Zatiaľ čo GPT-4,5 demonštruje zlepšenia zaobchádzania s citlivými a kontradiktórnymi výzvami v porovnaní s predchádzajúcimi modelmi, stále čelí výzvam vo vysoko kontradiktórnych scenároch. Jeho výkon je solídny pre úlohy všeobecného účelu, ale nemusí byť optimálny pre pokročilé riešenie problémov alebo hlboké kódovacie úlohy v porovnaní so špecializovanými modelmi, ako sú O3-Mini [3] [5].

Stručne povedané, GPT-4.5 ukazuje odolnosť proti pokusom o oklamanie, najmä v scenároch, kde musí uprednostňovať pokyny na systém pred vstupmi používateľov. Stále však má obmedzenia vo vysoko kontradiktópskych kontextoch, čo odráža pretrvávajúce výzvy pri vyrovnávaní bezpečnosti a funkčnosti v modeloch AI.

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-ingineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-hishis-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signifgencieantly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW