GPT-4.5 è progettato per gestire istruzioni contrastanti tra i messaggi di sistema e utente attraverso una gerarchia di istruzioni. Questa gerarchia aiuta il modello a dare priorità ai messaggi di sistema sui messaggi dell'utente per mitigare i rischi associati a istruzioni contrastanti, come iniezioni prompt o altri attacchi che potrebbero sovrascrivere le istruzioni di sicurezza del modello.
Caratteristiche chiave della gerarchia delle istruzioni
1. Classificazione dei messaggi: GPT-4.5 distingue tra due tipi di messaggi: messaggi di sistema e messaggi utente. I messaggi di sistema sono considerati un'autorità superiore e vengono utilizzati per impostare linee guida di sicurezza o istruzioni specifiche per il modello.
2. Risoluzione dei conflitti: quando i messaggi di sistema e utente sono conflitti, GPT-4.5 è addestrato per seguire le istruzioni nel messaggio di sistema. Ciò garantisce che il modello aderisca alle linee guida per la sicurezza e non si impegni in attività dannose o non consentite.
3. Valutazione e formazione: il modello viene valutato sulla sua capacità di gestire i conflitti attraverso vari scenari. Ad esempio, in uno scenario in cui il modello viene incaricato di non regalare la risposta a un problema di matematica (messaggio di sistema) e l'utente cerca di ingannarlo nel farlo (messaggio utente), GPT-4.5 deve resistere al tentativo dell'utente e seguire le istruzioni di sistema.
4. Prestazioni: GPT-4.5 si comporta bene in queste valutazioni, mostrando un miglioramento rispetto ai modelli precedenti come GPT-4O nella gestione dei conflitti di messaggi del sistema-utente. Tuttavia, ci sono scenari specifici in cui potrebbe non funzionare così come GPT-4O o GPT-4O1, come in alcuni test di jailbreak in cui è indotto a rivelare informazioni che non dovrebbe [1] [7].
valutazioni di sicurezza
GPT-4.5 subisce rigorose valutazioni di sicurezza per garantire che non generi contenuti non consentiti, come consigli odiosi o illeciti. Queste valutazioni valutano anche la tendenza del modello a in eccesso di istruzioni benigne relative agli argomenti di sicurezza. Le prestazioni del modello in queste aree sono fondamentali per mantenere la sua sicurezza e affidabilità durante la gestione delle istruzioni contrastanti [1].
Specifiche del modello e livelli di autorità
La specifica del modello delinea i livelli di autorità per diversi tipi di istruzioni, con istruzioni a livello di piattaforma che hanno la massima autorità, seguite da istruzioni per sviluppatori e utente. Questa gerarchia garantisce che GPT-4.5 dà la priorità alla sicurezza e aderisca alle linee guida, consentendo comunque la personalizzazione da parte di utenti e sviluppatori all'interno dei confini impostati [2] [5].
Nel complesso, la capacità di GPT-4.5 di gestire istruzioni in conflitto è un aspetto chiave del suo design, garantendo che mantenga sicurezza e integrità mentre interagisce con gli utenti.
Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/