Îmbunătățiri GPT-4.5 în gestionarea instrucțiunilor conflictuale și a îmbunătățirilor siguranței

Cum se compară performanța GPT-4.5 cu versiunile anterioare în gestionarea instrucțiunilor conflictuale

GPT-4.5 demonstrează o performanță îmbunătățită în gestionarea instrucțiunilor conflictuale în comparație cu versiunile anterioare, în special prin aderarea sa sporită la o ierarhie de instrucțiuni. Această ierarhie permite modelului să acorde prioritate mesajelor sistemului prin intrările utilizatorilor, atenuând riscurile din prompturi conflictuale. În evaluări, GPT-4.5 depășește în general GPT-4O în scenarii în care sistemul și mesajele de utilizator intră în conflict, ceea ce indică o mai bună capacitate de a urmări instrucțiunile de siguranță și de a evita să fie păcălit de solicitări adverse [1] [5].

Îmbunătățiri cheie în gestionarea instrucțiunilor conflictuale

1.. Evaluarea ierarhiei de instrucțiuni: GPT-4.5 arată o precizie îmbunătățită în următoarele instrucțiuni de sistem cu privire la mesajele utilizatorului. De exemplu, într-un scenariu în care modelul este instruit să nu dea răspunsul la o întrebare matematică, GPT-4.5 funcționează mai bine decât GPT-4O, deși nu la fel de bine ca GPT-4O1 [1].

2.. Atenuarea injecțiilor prompte: Prin prioritizarea mesajelor sistemului, GPT-4.5 reduce riscul de injecții prompte și alte atacuri care ar putea înlocui instrucțiunile sale de siguranță. Acest lucru este crucial pentru menținerea integrității modelului și pentru prevenirea utilizării greșite [1] [5].

3. Scenarii realiste: În scenarii mai realiste, cum ar fi atunci când acționează ca îndrumător de matematică, GPT-4.5 este mai bun pentru a rezista încercărilor de a-l păcăli în furnizarea de informații neautorizate. Cu toate acestea, performanța sa nu este perfectă și poate varia în funcție de contextul specific și de instrucțiunile furnizate [1].

4. Evaluări de siguranță: GPT-4.5 suferă evaluări riguroase de siguranță pentru a se asigura că nu respectă cererile de conținut dăunător. În timp ce se comportă bine în refuzul conținutului nesigur, poate depăși mai mult decât modelele anterioare, ceea ce indică o abordare prudentă pentru gestionarea prompturilor ambigue sau potențial riscante [1].

În general, GPT-4.5 oferă îmbunătățiri semnificative în gestionarea instrucțiunilor conflictuale, respectând mai îndeaproape orientările sistemului și reducerea impactului intrărilor adversare ale utilizatorilor. Cu toate acestea, la fel ca toate modelele AI, nu este imun la toate formele de manipulare și continuă să evolueze cu evaluări și actualizări în curs de siguranță [1] [5].

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-comparad
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-wow-lood-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-AI-Model-Release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning