GPT-4.5 fejlesztések az ütköző utasítások és a biztonsági javítások kezelésében

Hogyan hasonlítja össze a GPT-4.5 teljesítményét az ütköző utasítások kezelésében a korábbi verziókkal

A GPT-4.5 azt mutatja, hogy jobb teljesítményt nyújt az ellentmondásos utasítások kezelésében a korábbi verziókhoz képest, különösen az oktatási hierarchia fokozott betartása révén. Ez a hierarchia lehetővé teszi a modell számára, hogy a rendszerüzeneteket a felhasználói bemenetekkel szemben rangsorolja, enyhítve a kockázatokat az ellentmondásos utasításoktól. Az értékelések során a GPT-4.5 általában felülmúlja a GPT-4O-t olyan forgatókönyvekben, ahol a rendszer és a felhasználói üzenetek konfliktusok, jelezve, hogy jobban képesek követni a biztonsági utasításokat, és elkerülik, hogy az ellenfél utasítások becsapják [1] [5].

Kulcsfontosságú fejlesztések az ütköző utasítások kezelésében

1. Az utasítások hierarchia értékelése: A GPT-4.5 javított pontosságot mutat a rendszer utasításaiban a felhasználói üzeneteknél. Például egy olyan forgatókönyvben, amikor a modellt arra utasítják, hogy ne adja el a választ egy matematikai kérdésre, a GPT-4.5 jobban teljesít, mint a GPT-4O, bár nem olyan jól, mint a GPT-4O1 [1].

2. Az gyors injekciók enyhítése: A rendszerüzenetek prioritása révén a GPT-4.5 csökkenti az azonnali injekciók és egyéb támadások kockázatát, amelyek felülírhatják annak biztonsági utasításait. Ez elengedhetetlen a modell integritásának fenntartása és a visszaélés megelőzéséhez [1] [5].

3. Reális forgatókönyvek: Reálisabb forgatókönyvekben, mint például a matematikai oktatóként való fellépés, a GPT-4.5 jobban ellenzi a jogosulatlan információk szolgáltatásának becsapásának kísérleteit. Teljesítménye azonban nem tökéletes, és a konkrét kontextustól és az adott utasításoktól függően változhat [1].

4. Biztonsági értékelések: A GPT-4.5 szigorú biztonsági értékeléseket végez annak biztosítása érdekében, hogy ez nem felel meg a káros tartalom iránti kérelmeknek. Miközben jól teljesít a nem biztonságos tartalom megtagadásában, több, mint a korábbi modellek túlfuttathatja, jelezve a kétértelmű vagy potenciálisan kockázatos utasítások kezelésének óvatos megközelítését [1].

Összességében a GPT-4.5 jelentős javulást kínál az ütköző utasítások kezelésében azáltal, hogy szorosabban betartja a rendszer iránymutatásait és csökkenti a versengő felhasználói bemenetek hatását. Ugyanakkor, mint az összes AI modell, ez nem immunis a manipuláció minden formájától, és tovább fejlődik a folyamatban lévő biztonsági értékelésekkel és frissítésekkel [1] [5].

Idézetek:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-here-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-t-t--consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/GPT_4_HAS_BEEN_TONED_DOWN_SIGNIFIFIFICENCH_AND/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-reelease
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning