GPT-4.5: Az ütköző utasítások és az alkalmazkodóképesség kezelése

Képes-e alkalmazkodni a GPT-4.5 az új típusú, egymással ellentmondó utasításokhoz

A GPT-4.5 célja az, hogy az ellentmondásos utasításokat egy utasítási hierarchián keresztül kezelje, amely a rendszerüzeneteket a felhasználói üzenetekhez képest prioritássá teszi a kockázatok csökkentése érdekében, például az azonnali injekciók és más támadások felülbíráló biztonsági utasításait [1]. Komplex kérdés azonban, hogy a GPT-4.5 képes-e alkalmazkodni az új típusú ellentmondásos utasításokhoz, amelyeken még nem képzettek.

Képzés és értékelés

A GPT-4.5-et új felügyeleti technikákkal, a hagyományos módszerekkel, például a felügyelt finomhangolással (SFT) és az emberi visszacsatolásból (RLHF) kombinált hagyományos módszerekkel kombinálva képzték [1]. Ezeknek a módszereknek a célja, hogy javítsák a modell összehangolását a felhasználói szándékkal és annak képességét, hogy pontosabban kövesse az utasításokat. A modellt olyan különféle forgatókönyvek alapján értékelték, amelyekben a rendszer és a felhasználói üzenetek konfliktusok, amelyek javulást mutatnak a korábbi modellekhez képest, mint például a GPT-4O [1].

alkalmazkodóképesség az új, ellentmondásos utasításokhoz

Míg a GPT-4.5 jobb teljesítményt mutat az ismert típusú ellentmondásos utasítások kezelésében, a teljesen új típusú konfliktusokhoz való alkalmazkodás képessége számos tényezőtől függ:

1. Általánosítási képességek: A GPT-4.5 képzése magában foglalja a felügyelet nélküli tanulás méretezését, amely javítja annak képességét, hogy általánosítsa és megértse a szélesebb körű összefüggéseket [1]. Ez potenciálisan segíthet abban, hogy felismerje a mintákat az új, ellentmondásos utasításokban.

2. Oktatási hierarchia: A modell utasítási hierarchiája célja a rendszerüzenetek rangsorolása, amely elősegíti a biztonság és az előre meghatározott szabályok betartását. Ha azonban az új, ellentmondásos utasítások ezen a hierarchián kívül esnek, akkor a modell küzdhet az alkalmazkodáshoz további edzés vagy finomhangolás nélkül.

3. Gyors tervezés és állványok: A felhasználók fejlett felszólítási technikákat vagy állványokat alkalmazhatnak, hogy a modellt az új utasítások megértéséhez és követéséhez vezessék. Ez a megközelítés elősegítheti a magatartás kiváltását azon túl, hogy a modell kifejezetten kiképzett [1].

4. Korlátozások és biztonsági értékelések: A javulások ellenére a GPT-4.5 továbbra is kihívásokkal néz szembe a komplex vagy új forgatókönyvek kezelésében. A biztonsági értékelések kimutatták, hogy míg a modell jól teljesít az ismert feladatokon, mindig fennáll annak a veszélye, hogy nem követi az utasításokat előre nem látható kontextusban [1].

Következtetés

Noha a GPT-4.5 jobban képes, mint elődei az ütköző utasítások kezelésében, adaptálhatóan a konfliktusok teljesen új típusú konfliktusokhoz való alkalmazkodóképességét korlátozza az edzési adatok és a tervezés. Szükség lehet további finomhangolásra vagy kreatív stratégiákra az új forgatókönyvek hatékony kezelésére. A GPT-4.5-rel a folyamatban lévő kutatási és felhasználói interakciók több betekintést nyújtanak annak képességeibe és korlátaiba ezen a területen.

Idézetek:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in---lange-ganguage-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significans_and/