GPT-4.5: performanță îmbunătățită în gestionarea instrucțiunilor conflictuale

Cum se compară performanța GPT-4.5 cu versiunile anterioare în gestionarea instrucțiunilor conflictuale

GPT-4.5 demonstrează o performanță îmbunătățită în gestionarea instrucțiunilor conflictuale în comparație cu versiunile anterioare, în special prin ierarhia sa de instrucțiuni îmbunătățite. Această caracteristică permite modelului să acorde prioritate mesajelor sistemului asupra intrărilor utilizatorilor, atenuarea riscurilor asociate cu injecții prompte și alte atacuri care ar putea înlocui instrucțiunile de siguranță.

În evaluările care implică tipuri de mesaje conflictuale, GPT-4.5 depășește în general GPT-4O. Modelul este instruit să urmeze instrucțiunile din mesajul cu cea mai mare prioritate, care ajută în scenarii în care sistemul și mesajele utilizatorilor intră în conflict. De exemplu, într-un scenariu în care modelul este instruit să nu dea răspunsul la o întrebare de matematică, GPT-4.5 arată o mai bună aderență la aceste instrucțiuni de sistem în comparație cu GPT-4O, deși nu depășește GPT-4O1 în toate evaluările [1].

În plus, GPT-4.5 a fost evaluat în scenarii în care trebuie să protejeze expresii sau parole specifice de a fi dezvăluite prin prompturile utilizatorului. În aceste evaluări, GPT-4.5 funcționează bine, ceea ce indică capacitatea sa de a menține securitatea și de a urma instrucțiunile sistemului chiar și atunci când se confruntă cu intrări conflictuale ale utilizatorilor [1].

Cu toate acestea, în timp ce GPT-4.5 îmbunătățește modelele anterioare în gestionarea instrucțiunilor conflictuale, se confruntă în continuare cu provocări în anumite scenarii complexe. Performanța modelului în evaluările de echipă roșie, care simulează solicitarea adversă, arată că poate produce rezultate nesigure în unele cazuri, deși în general funcționează mai bine decât GPT-4O în aceste teste provocatoare [1].

În general, îmbunătățirile GPT-4.5 în gestionarea instrucțiunilor conflictuale îl fac o alegere mai fiabilă pentru aplicațiile care necesită respectarea strictă a ghidurilor de siguranță și a instrucțiunilor de sistem.

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-comparad
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-wow-lood-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-AI-Model-Release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning