GPT-4.5 Utasítási hierarchia: Konfliccing üzenetek kezelése

Hogyan kezeli a GPT-4.5 az ütköző utasításokat a rendszer és a felhasználói üzenetek között

A GPT-4.5 célja az, hogy a rendszer és a felhasználói üzenetek közötti ellentmondásos utasításokat egy utasítási hierarchián keresztül kezelje. Ez a hierarchia segíti a modellt a rendszerüzenetek prioritássá tétele a felhasználói üzenetekhez képest, hogy enyhítsék az ellentmondásos utasításokkal kapcsolatos kockázatot, például az azonnali injekciókat vagy más támadásokat, amelyek felülbírálhatják a modell biztonsági utasításait.

Az utasítási hierarchia legfontosabb jellemzői

1. üzenet osztályozás: A GPT-4.5 megkülönbözteti a két típusú üzenetet: Rendszerüzenetek és felhasználói üzenetek. A rendszerüzeneteket magasabb hatalomnak tekintik, és a biztonsági irányelvek vagy a modell konkrét utasításainak meghatározására használják.

2. Konfliktusmegoldás: Amikor a rendszer és a felhasználói üzenetek konfliktusok, a GPT-4.5-et kiképzik a rendszerüzenet utasításainak követésére. Ez biztosítja, hogy a modell betartsa a biztonsági irányelveket, és nem vesz részt káros vagy tiltott tevékenységekben.

3. Értékelés és képzés: A modellt különféle forgatókönyvek révén értékelik a konfliktusok kezelésére. Például egy olyan forgatókönyvben, amikor a modellt arra utasítják, hogy ne adja el a választ egy matematikai problémára (rendszerüzenet), és a felhasználó megpróbálja becsapni ezt (felhasználói üzenet), a GPT-4.5-nek ellen kell állnia a felhasználó kísérletének, és követnie kell a rendszer utasítását.

4. Teljesítmény: A GPT-4.5 általában jól teljesít ezekben az értékelésekben, javulást mutatva a korábbi modellekkel szemben, mint például a GPT-4O a rendszer-felhasználó üzenetkonfliktusok kezelésében. Vannak azonban olyan konkrét forgatókönyvek, ahol nem teljesít olyan jól, mint a GPT-4O vagy a GPT-4O1, például bizonyos jailbreak-tesztekben, ahol becsapják a feltárási információkat, nem szabad [1] [7].

Biztonsági értékelések

A GPT-4.5 szigorú biztonsági értékelésen megy keresztül annak biztosítása érdekében, hogy ne generáljon tiltott tartalmat, például gyűlöletes vagy tiltott tanácsokat. Ezek az értékelések felmérik a modell hajlamát arra is, hogy a biztonsági témákhoz kapcsolódó jóindulatú utasításokat túlfuthassanak. A modell teljesítménye ezeken a területeken kritikus fontosságú annak biztonságának és megbízhatóságának fenntartása szempontjából, amikor az ütköző utasításokat kezeli [1].

Modell Spec és Hatóság szintje

A modell specifikációja felvázolja a különféle típusú utasítások hatóságait, a platformszintű utasításokkal, amelyeknek a legmagasabb a legmagasabb, majd a fejlesztői és a felhasználói utasítások. Ez a hierarchia biztosítja, hogy a GPT-4.5 prioritást élvez a biztonsághoz és betartja az iránymutatásokat, miközben lehetővé teszi a felhasználók és a fejlesztők testreszabását a meghatározott határokon belül [2] [5].

Összességében a GPT-4.5 az ütköző utasítások kezelésére való képessége a tervezés kulcsfontosságú szempontja, biztosítva, hogy fenntartsa a biztonságot és az integritást, miközben kölcsönhatásba lép a felhasználókkal.

Idézetek:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controveral-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-reelease-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/