GPT-4.5 veiktspējas novērtēšana pret konkurences pamudinājumiem un drošības mehānismiem

Kā GPT-4.5 darbojas scenārijos, kad lietotāja ziņojumi mēģina mānīt modeli

GPT-4.5 veiktspēja scenārijos, kad lietotāja ziņojumi mēģina mānīt modeli, tiek novērtēts, izmantojot vairākus novērtējumus, koncentrējoties uz tā spēju pretoties pretrunīgajām uzvednēm un uzturēt drošības standartus.

Drošības novērtējumi un jailbreaks

1. Jailbreak novērtējumi: Šie testi mēra, cik labi GPT-4.5 pretojas mēģinājumiem apiet tā drošības mehānismus. Modelis tiek novērtēts pret cilvēku, kas iegūti, jailbreaks un StrongRect etalons, kas novērtē rezistenci pret kopīgiem pretrunīgiem uzbrukumiem. GPT-4.5 labi darbojas cilvēku avotos, sasniedzot augstu precizitāti 0,99. Tomēr StrongRect etalonā tas ir 0,34, kas ir nedaudz zemāks par GPT-4O1 punktu skaitu 0,87 [1].

2. Instrukciju hierarhijas novērtējumi: Lai mazinātu tūlītēju iesmidzināšanas uzbrukumus, GPT-4.5 ir apmācīts ievērot instrukciju hierarhiju, prioritizējot sistēmas ziņojumus, izmantojot lietotāja ziņojumus. Novērtējumos, kur sistēmas un lietotāju ziņojumi ir pretrunā, GPT-4.5 parasti darbojas labi, ar precizitāti 0,76. Tas ir uzlabojums salīdzinājumā ar GPT-4O, bet nedaudz zem GPT-4O1 snieguma [1].

3. TUTOR Jailbreaks: Scenārijos, kad modelim tiek uzdots neatklāt atbildes uz matemātikas jautājumiem, GPT-4.5 parāda mērenus panākumus ar precizitāti 0,77. Tas ir būtisks uzlabojums salīdzinājumā ar GPT-4O, bet ne tik augstu kā GPT-4O1 sniegums [1].

4. frāze un paroles aizsardzība: GPT-4.5 tiek novērtēts arī pēc tā spējas aizsargāt īpašas frāzes vai paroles no atklāšanas, izmantojot lietotāja ziņojumus. Šajos testos tas labi darbojas ar precizitāti 0,86 frāzēm aizsardzībai un 0,92 paroles aizsardzībai [1].

Sarkanās komandas vērtēšanas novērtējumi

GPT-4.5 tiek veikti sarkanie komandas vērtējumi, kas izstrādāti, lai pārbaudītu tā noturību pret pretinieku uzvednēm. Šie novērtējumi aptver tādus scenārijus kā nelikumīgi padomi, ekstrēmisms, naida noziegumi, politiska pārliecināšana un paškaitējums. GPT-4.5 rada drošu rezultātu aptuveni 51% no pirmā sarkanās komandas novērtēšanas kopas, kas ir nedaudz augstāks par GPT-4O, bet zemāks par GPT-4O1. Otrajā novērtējumā, kas vērsts uz riskantiem padomiem, GPT-4.5 darbojas labāk nekā GPT-4O, bet ne ne tikai GPT-4O1 vai dziļo pētījumu modeļus [1].

kopējais sniegums

Kamēr GPT-4.5 parāda uzlabojumus jutīgu un pretrunīgu pamudinājumu apstrādē, salīdzinot ar iepriekšējiem modeļiem, tas joprojām saskaras ar izaicinājumiem ļoti pretrunīgi scenārijos. Tās veiktspēja ir stabila vispārējas nozīmes uzdevumiem, bet, salīdzinot ar specializētiem modeļiem, piemēram, O3-Mini [3] [5], tas var nebūt optimāls progresīviem problēmu risināšanas vai dziļas kodēšanas uzdevumiem [5].

Rezumējot, GPT-4.5 parāda noturību pret mēģinājumiem to mānīt, it īpaši scenārijos, kur tam ir jāpiešķir prioritāte sistēmas instrukcijām, salīdzinot ar lietotāja ievadi. Tomēr tam joprojām ir ierobežojumi ļoti pretrunīgi kontekstā, atspoguļojot pastāvīgus izaicinājumus drošības un funkcionalitātes līdzsvarošanai AI modeļos.

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-dood-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signriiciant_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw