Miglioramenti GPT-4.5 nella gestione delle istruzioni contrastanti e dei miglioramenti della sicurezza

In che modo le prestazioni di GPT-4.5 si confrontano con le versioni precedenti nella gestione delle istruzioni contrastanti

GPT-4.5 dimostra prestazioni migliorate nella gestione delle istruzioni contrastanti rispetto alle versioni precedenti, in particolare attraverso la sua maggiore aderenza a una gerarchia di istruzioni. Questa gerarchia consente al modello di dare la priorità ai messaggi di sistema rispetto agli input dell'utente, mitigando i rischi da istruzioni contrastanti. Nelle valutazioni, GPT-4.5 generalmente supera GPT-4O in scenari in cui i messaggi di sistema e utente sono in conflitto, indicando una migliore capacità di seguire le istruzioni di sicurezza ed evitare di essere ingannato da istruzioni contraddittorie [1] [5].

miglioramenti chiave nella gestione delle istruzioni contrastanti

1. Valutazione della gerarchia delle istruzioni: GPT-4.5 mostra una migliore precisione nelle seguenti istruzioni di sistema sui messaggi dell'utente. Ad esempio, in uno scenario in cui il modello viene chiesto di non regalare la risposta a una domanda matematica, GPT-4.5 funziona meglio di GPT-4O, sebbene non così come GPT-4O1 [1].

2. Mitigazione di iniezioni prompt: dando la priorità ai messaggi di sistema, GPT-4.5 riduce il rischio di iniezioni prompt e altri attacchi che potrebbero prevalere sulle sue istruzioni di sicurezza. Ciò è cruciale per mantenere l'integrità del modello e prevenire l'abuso [1] [5].

3. Scenari realistici: in scenari più realistici, come quando agisce come tutor di matematica, GPT-4.5 è migliore nel resistere ai tentativi di indurlo a fornire informazioni non autorizzate. Tuttavia, le sue prestazioni non sono perfette e possono variare a seconda del contesto specifico e delle istruzioni fornite [1].

4. Valutazioni di sicurezza: GPT-4.5 subisce rigorose valutazioni di sicurezza per garantire che non rispetti le richieste di contenuto dannoso. Mentre si comporta bene nel rifiutare il contenuto non sicuro, può sovraccaricare più dei modelli precedenti, indicando un approccio cauto per la gestione di istruzioni ambigue o potenzialmente rischiose [1].

Nel complesso, GPT-4.5 offre miglioramenti significativi nella gestione delle istruzioni contrastanti aderendo più da vicino alle linee guida del sistema e riducendo l'impatto degli input degli utenti contraddittori. Tuttavia, come tutti i modelli di intelligenza artificiale, non è immune a tutte le forme di manipolazione e continua a evolversi con valutazioni e aggiornamenti di sicurezza in corso [1] [5].

Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettakative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-ragioning