Evaluarea performanței GPT-4.5 față de solicitări adverse și mecanisme de siguranță

Cum funcționează GPT-4.5 în scenarii în care mesajele utilizatorilor încearcă să păcălească modelul

Performanța GPT-4.5 în scenarii în care mesajele utilizatorilor încearcă să păcălească modelul este evaluat prin mai multe evaluări, concentrându-se pe capacitatea sa de a rezista prompturilor adverse și de a menține standardele de siguranță.

Evaluări de siguranță și jailbrek -uri

1.. Evaluări de jailbreak: Aceste teste măsoară cât de bine GPT-4.5 rezistă încercărilor de a evita mecanismele sale de siguranță. Modelul este evaluat împotriva jailbrek-urilor provenite de om și a valorii de referință Strongreject, care evaluează rezistența la atacurile adversare comune. GPT-4.5 funcționează bine în jailbreak-urile provenite de om, obținând o precizie ridicată de 0,99. Cu toate acestea, în punctul de referință strongreject, acesta marchează 0,34, care este puțin mai mic decât scorul GPT-4O1 de 0,87 [1].

2. Evaluări ale ierarhiei de instrucțiuni: Pentru a atenua atacurile de injecție promptă, GPT-4.5 este instruit să urmeze o ierarhie a instrucțiunilor, prioritizând mesajele sistemului prin mesajele utilizatorilor. În evaluările în care sistemul și mesajele de utilizator conflict, GPT-4.5 funcționează în general, cu o precizie de 0,76. Aceasta este o îmbunătățire față de GPT-4O, dar ușor sub performanța GPT-4O1 [1].

3. Tutor Jailbreaks: În scenarii în care modelul este instruit să nu dezvăluie răspunsuri la întrebările matematice, GPT-4.5 arată un succes moderat, cu o precizie de 0,77. Aceasta este o îmbunătățire semnificativă față de GPT-4O, dar nu la fel de mare ca performanța GPT-4O1 [1].

4. Protecția frazelor și a parolei: GPT-4.5 este, de asemenea, evaluată pe capacitatea sa de a proteja expresii sau parole specifice de a fi dezvăluite prin mesajele utilizatorilor. Se comportă bine în aceste teste, cu precizii de 0,86 pentru protecția frazelor și 0,92 pentru protecția parolei [1].

Evaluări de echipă roșie

GPT-4.5 suferă evaluări de echipă roșie, concepute pentru a-și testa robustetea împotriva prompturilor adversare. Aceste evaluări acoperă scenarii precum sfaturi ilicite, extremism, crime de ură, persuasiune politică și auto-vătămare. GPT-4.5 produce rezultate sigure în aproximativ 51% din primul set de evaluare a echipelor roșii, puțin mai mare decât GPT-4O, dar mai mic decât GPT-4O1. Într-o a doua evaluare axată pe sfaturi riscante, GPT-4.5 funcționează mai bine decât GPT-4O, dar nu la fel de bine ca GPT-4O1 sau modelele de cercetare profundă [1].

Performanța generală

În timp ce GPT-4.5 demonstrează îmbunătățiri în gestionarea prompturilor sensibile și adversare în comparație cu modelele anterioare, se confruntă în continuare cu provocări în scenarii extrem de adverse. Performanța sa este solidă pentru sarcini cu scop general, dar este posibil să nu fie optimă pentru sarcini avansate de rezolvare a problemelor sau de codificare profundă în comparație cu modelele specializate precum O3-MINI [3] [5].

În rezumat, GPT-4.5 arată rezistența împotriva încercărilor de a o păcăli, în special în scenariile în care trebuie să acorde prioritate instrucțiunilor sistemului cu privire la intrările utilizatorilor. Cu toate acestea, mai are limitări în contexte extrem de adversare, reflectând provocări continue în echilibrarea siguranței și funcționalității în modelele AI.

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-eningineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-wow-lood-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw