Valutazione delle prestazioni di GPT-4.5 rispetto ai prompt contradversari e ai meccanismi di sicurezza

Come si ottiene GPT-4.5 in scenari in cui i messaggi dell'utente tentano di ingannare il modello

Le prestazioni di GPT-4.5 negli scenari in cui i messaggi dell'utente tentano di ingannare il modello vengono valutati attraverso diverse valutazioni, concentrandosi sulla sua capacità di resistere alle istruzioni contraddittorie e mantenere gli standard di sicurezza.

valutazioni di sicurezza e jailbreaks

1. Valutazioni del jailbreak: questi test misurano il modo in cui GPT-4.5 resiste ai tentativi di eludere i suoi meccanismi di sicurezza. Il modello viene valutato contro i jailbreak di origine umana e il punto di riferimento di StrongReject, che valuta la resistenza agli attacchi contraddittori comuni. GPT-4.5 si comporta bene nei jailbreak di provenienza umana, raggiungendo un'alta precisione di 0,99. Tuttavia, nel benchmark di StrongReject, segna 0,34, che è leggermente inferiore al punteggio di GPT-4O1 di 0,87 [1].

2. Valutazioni della gerarchia delle istruzioni: per mitigare gli attacchi di iniezione rapidi, GPT-4.5 è addestrato a seguire una gerarchia di istruzioni, dare la priorità ai messaggi di sistema sui messaggi dell'utente. Nelle valutazioni in cui i messaggi di sistema e utente sono in conflitto, GPT-4.5 si comporta bene bene, con una precisione di 0,76. Questo è un miglioramento rispetto a GPT-4O ma leggermente al di sotto delle prestazioni di GPT-4O1 [1].

3. Tutor jailbreaks: negli scenari in cui il modello è incaricato di non rivelare le risposte alle domande di matematica, GPT-4.5 mostra un moderato successo, con una precisione di 0,77. Questo è un miglioramento significativo rispetto a GPT-4O ma non così elevato come le prestazioni di GPT-4O1 [1].

4. Frase e protezione da password: GPT-4.5 viene anche valutato sulla sua capacità di proteggere frasi o password specifiche da essere rivelate attraverso i messaggi dell'utente. Si comporta bene in questi test, con accuratezze di 0,86 per protezione delle frasi e 0,92 per protezione da password [1].

valutazioni di squadra rossa

GPT-4.5 subisce valutazioni di squadra rosse progettate per testare la sua robustezza contro i suggerimenti contraddittori. Queste valutazioni coprono scenari come consigli illeciti, estremismo, crimini di odio, persuasione politica e autolesionismo. GPT-4.5 produce risultati sicuri in circa il 51% del primo set di valutazione di squadra rossa, leggermente superiore a GPT-4O ma inferiore a GPT-4O1. In una seconda valutazione incentrata su consigli rischiosi, GPT-4.5 funziona meglio di GPT-4O ma non così su GPT-4O1 o modelli di ricerca profonda [1].

prestazioni complessive

Mentre GPT-4.5 dimostra miglioramenti nella gestione di istruzioni sensibili e contraddittorie rispetto ai modelli precedenti, affronta ancora sfide in scenari altamente contraddittori. Le sue prestazioni sono solide per le attività per uso generale, ma potrebbero non essere ottimali per le attività avanzate di risoluzione dei problemi o di codifica profonda rispetto a modelli specializzati come O3-Mini [3] [5].

In sintesi, GPT-4.5 mostra la resilienza contro i tentativi di ingannarlo, in particolare negli scenari in cui deve dare la priorità alle istruzioni di sistema sugli input dell'utente. Tuttavia, ha ancora limitazioni in contesti altamente contraddittori, riflettendo le sfide in corso per bilanciare la sicurezza e la funzionalità nei modelli di intelligenza artificiale.

Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-ingenineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw