Gerarchia di istruzioni GPT-4.5: dare la priorità ai messaggi di sistema per sicurezza e sicurezza

In che modo GPT-4.5 dà la priorità ai messaggi di sistema sui messaggi dell'utente

GPT-4.5 dà la priorità ai messaggi di sistema sui messaggi dell'utente attraverso una gerarchia di istruzioni, progettata per mitigare il rischio di iniezioni rapide e altri attacchi che potrebbero sovrascrivere le istruzioni di sicurezza del modello. Questa gerarchia classifica i messaggi in due tipi principali: messaggi di sistema e messaggi utente. I messaggi di sistema sono istruzioni essenzialmente nascoste che guidano il comportamento dell'intelligenza artificiale, mentre i messaggi dell'utente sono gli input forniti dagli utenti.

In GPT-4.5, quando i messaggi di sistema e i messaggi utente, il modello è addestrato a seguire le istruzioni nel messaggio di sistema su quelle nel messaggio utente. Ciò si ottiene supervisionando il modello su esempi in cui questi tipi di messaggi sono in conflitto. Il modello impara a dare la priorità ai messaggi di sistema per garantire l'adesione alle linee guida di sicurezza e per prevenire output indesiderati.

Ad esempio, se un utente tenta di indurre il modello a fornire informazioni dannose, il messaggio di sistema può indicare al modello di rifiutare tali richieste. La capacità di GPT-4.5 di aderire a questa gerarchia aiuta a mantenere gli standard di sicurezza e impedire che il modello venga manipolato in un contenuto non consentito.

Questo approccio è cruciale per garantire che GPT-4.5 si comporti in modo coerente con le sue linee guida per la sicurezza e l'etica, anche di fronte ai tentativi di bypassare queste regole attraverso input utente abilmente realizzati. Dare la priorità ai messaggi di sistema, Openi mira a migliorare l'affidabilità e la sicurezza del modello in varie applicazioni [1] [2].

Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-sem-real-world-experiments-prompt-iniection-rotectors
[3] https://platform.openai.com/docs/guides/promppt-ingenineering
[4] https://community.openai.com/t/whys-gpt-4o-insanel-limited-to-free-users-and-even- users-it-literalmente-farely-s- yessages-in-5-6-hOurs-to-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-out-to-plus-keam-users-next-week-then-to-enterprise-and-edu-users-the-following-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficienti