GPT-4.5: migliorate prestazioni nella gestione delle istruzioni contrastanti

In che modo le prestazioni di GPT-4.5 si confrontano con le versioni precedenti nella gestione delle istruzioni contrastanti

GPT-4.5 dimostra prestazioni migliorate nella gestione delle istruzioni contrastanti rispetto alle versioni precedenti, in particolare attraverso la sua gerarchia di istruzioni migliorate. Questa funzione consente al modello di dare la priorità ai messaggi di sistema sugli input dell'utente, mitigando i rischi associati a iniezioni rapide e altri attacchi che potrebbero prevalere sulle istruzioni di sicurezza.

Nelle valutazioni che coinvolgono tipi di messaggi contrastanti, GPT-4.5 generalmente supera GPT-4O. Il modello è addestrato a seguire le istruzioni nel messaggio più prioritario, che aiuta negli scenari in cui i messaggi di sistema e utente sono in conflitto. Ad esempio, in uno scenario in cui il modello viene incaricato di non regalare la risposta a una domanda matematica, GPT-4.5 mostra una migliore aderenza a queste istruzioni del sistema rispetto a GPT-4O, sebbene non supera GPT-4O1 in tutte le valutazioni [1].

Inoltre, GPT-4.5 è stato valutato in scenari in cui deve proteggere frasi o password specifiche da essere rivelate tramite istruzioni degli utenti. In queste valutazioni, GPT-4.5 funziona bene, indicando la sua capacità di mantenere la sicurezza e seguire le istruzioni del sistema anche di fronte a input utente contrastanti [1].

Tuttavia, mentre GPT-4.5 migliora i modelli precedenti nella gestione delle istruzioni contrastanti, affronta ancora sfide in alcuni scenari complessi. Le prestazioni del modello nelle valutazioni di teaming rosso, che simulano i suggerimenti contraddittimi, mostrano che in alcuni casi può produrre output non sicuri, sebbene generalmente funzionino meglio di GPT-4O in questi test impegnativi [1].

Nel complesso, i miglioramenti di GPT-4.5 nella gestione delle istruzioni contrastanti lo rendono una scelta più affidabile per le applicazioni che richiedono una rigorosa aderenza alle linee guida di sicurezza e alle istruzioni di sistema.

Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettakative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-ragioning