GPT-4.5 è progettato per gestire istruzioni contrastanti attraverso una gerarchia di istruzioni, che dà la priorità ai messaggi di sistema sui messaggi dell'utente per mitigare i rischi come iniezioni prompt e altri attacchi di prevalenza di istruzioni di sicurezza [1]. Tuttavia, se GPT-4.5 può adattarsi a nuovi tipi di istruzioni contrastanti su cui non è stato addestrato è una domanda complessa.
formazione e valutazione
GPT-4.5 è stato addestrato utilizzando nuove tecniche di supervisione combinate con metodi tradizionali come la messa a punto supervisionato (SFT) e l'apprendimento del rinforzo dal feedback umano (RLHF) [1]. Questi metodi mirano a migliorare l'allineamento del modello con l'intento dell'utente e la sua capacità di seguire le istruzioni in modo più accurato. Il modello è stato valutato in vari scenari in cui i messaggi di sistema e utente sono in conflitto, mostrando miglioramenti rispetto ai modelli precedenti come GPT-4O [1].
Adattabilità a nuove istruzioni contrastanti
Mentre GPT-4.5 dimostra migliori prestazioni nella gestione di tipi noti di istruzioni contrastanti, la sua capacità di adattarsi a tipi completamente nuovi di conflitti dipende da diversi fattori:
1. Capacità di generalizzazione: la formazione di GPT-4.5 include il ridimensionamento dell'apprendimento senza supervisione, che migliora la sua capacità di generalizzare e comprendere contesti più ampi [1]. Ciò potrebbe potenzialmente aiutarlo a riconoscere i modelli in nuove istruzioni contrastanti.
2. Gerarchia di istruzioni: la gerarchia delle istruzioni del modello è progettata per dare la priorità ai messaggi di sistema, che aiutano a mantenere la sicurezza e l'adesione alle regole predefinite. Tuttavia, se nuove istruzioni contrastanti non rientrano nell'ambito di questa gerarchia, il modello potrebbe avere difficoltà ad adattarsi senza addestramento aggiuntivo o perfezionamento.
3. Ingegneria e impalcatura rapida: gli utenti possono impiegare tecniche di suggerimento avanzate o impalcature per guidare il modello verso la comprensione e le seguenti istruzioni. Questo approccio può aiutare a suscitare comportamenti al di là di ciò che il modello è stato esplicitamente addestrato per [1].
4. Limitazioni e valutazioni della sicurezza: nonostante i miglioramenti, GPT-4.5 deve ancora affrontare sfide nella gestione di scenari complessi o nuovi. Le valutazioni della sicurezza hanno dimostrato che mentre il modello funziona bene su compiti noti, c'è sempre il rischio che non riesca a seguire le istruzioni in contesti imprevisti [1].
Conclusione
Mentre GPT-4.5 è più capace dei suoi predecessori nella gestione delle istruzioni contrastanti, la sua adattabilità a tipi completamente nuovi di conflitti è limitata dai suoi dati di addestramento e dal design. Potrebbe richiedere ulteriori messaggi di perfezionamento o strategie di suggerimento creative per gestire efficacemente nuovi scenari. La ricerca in corso e le interazioni degli utenti con GPT-4.5 forniranno maggiori approfondimenti sulle sue capacità e limitazioni in questo settore.
Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-lear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/