A GPT-4.5 teljesítményének értékelése az egymással szembeni utasítások és a biztonsági mechanizmusok ellen

Hogyan teljesít a GPT-4.5 olyan forgatókönyvekben, amikor a felhasználói üzenetek megpróbálják becsapni a modellt

A GPT-4.5 teljesítménye olyan forgatókönyvekben, amikor a felhasználói üzenetek megpróbálják becsapni a modellt, több értékeléssel értékelik, összpontosítva annak képességére, hogy ellenálljon a versenytársaknak és fenntartja a biztonsági előírásokat.

Biztonsági értékelések és jailbreaks

1. Jailbreak értékelések: Ezek a tesztek megmérik, hogy a GPT-4.5 mennyire ellenáll a biztonsági mechanizmusainak megkerülésére. A modellt az emberi forrásból származó jailbreaks és az erős referencia-referenciaértékek alapján értékelik, amely felméri a közös versenytársakkal szembeni rezisztenciát. A GPT-4.5 jól teljesít az emberi forrásból származó jailbreak-ben, nagy pontosságot elérve 0,99. A StrongRecject referenciaértékében azonban 0,34-es pontszámot mutat, ami valamivel alacsonyabb, mint a GPT-4O1 0,87-es pontszáma [1].

2. Oktatási hierarchia értékelések: Az azonnali injekciós támadások enyhítéséhez a GPT-4.5 képzett az utasítások hierarchiájának követésére, a rendszerüzenetek prioritása a felhasználói üzenetekkel szemben. Azon értékelésekben, ahol a rendszer és a felhasználói üzenetek konfliktusok, a GPT-4.5 általában jól teljesít, pontossággal 0,76. Ez javulást jelent a GPT-4O-hoz képest, de valamivel alacsonyabb a GPT-4O1 teljesítménye alatt [1].

3. Tutor Jailbreaks: olyan forgatókönyvekben, amikor a modellt arra utasítják, hogy ne tegyen fel válaszokat a matematikai kérdésekre, a GPT-4.5 mérsékelt sikert mutat, pontossággal 0,77. Ez jelentős javulás a GPT-4O-hoz képest, de nem olyan magas, mint a GPT-4O1 teljesítménye [1].

4. kifejezés és jelszavak védelme: A GPT-4.5-et szintén kiértékeljük annak képességén, hogy megvédje a konkrét kifejezéseket vagy jelszavakat a felhasználói üzenetek révén. Jól teljesít ezekben a tesztekben, 0,86 pontossággal a mondatvédelem és a jelszóvédelem 0,92 pontosságával [1].

Red Csatlakozási Értékelések

A GPT-4.5 vörös csoportos értékeléseken megy keresztül, amelyek célja a robusztusság elleni küzdelem elleni küzdelem. Ezek az értékelések olyan forgatókönyveket fednek le, mint a tiltott tanácsok, a szélsőségesség, a gyűlölet-bűncselekmények, a politikai meggyőzés és az önkárosodás. A GPT-4,5 biztonságos eredményeket eredményez az első vörös csoportos értékelési készlet kb. 51% -ában, valamivel magasabb, mint a GPT-4O, de alacsonyabb, mint a GPT-4O1. A kockázatos tanácsokra összpontosító második értékelésben a GPT-4.5 jobban teljesít, mint a GPT-4O, de nem olyan jól, mint a GPT-4O1 vagy a mély kutatási modellek [1].

Általános teljesítmény

Míg a GPT-4.5 javulást mutat az érzékeny és egymással versengő utasítások kezelésében a korábbi modellekhez képest, mégis kihívásokkal kell szembenéznie az erősen versengő forgatókönyvekben. Teljesítménye szilárd az általános célú feladatokhoz, de lehet, hogy nem optimális a fejlett problémamegoldó vagy mély kódolási feladatokhoz, mint a speciális modellek, például az O3-MINI [3] [5].

Összefoglalva: a GPT-4.5 ellenálló képességet mutat be a becsapási kísérletekkel szemben, különösen a forgatókönyvekben, ahol a rendszer utasításait prioritást élveznie kell a felhasználói bemenetekhez képest. Ennek ellenére továbbra is korlátozások vannak az erősen versengő kontextusban, tükrözve a biztonság és a funkcionalitás kiegyensúlyozásának folyamatos kihívásait az AI modellekben.

Idézetek:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/proppt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-here-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/GPT_4_HAS_BEEN_TONED_DOWN_SIGNIFIFIFICANDENCH_AND/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-reease-how-try-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw