Hogyan kezeli a GPT-4.5 az ellentmondó üzeneteket az oktatás hierarchiájával és a finomhangolással

Milyen konkrét technikákat használ a GPT-4.5 az ütköző üzenetek kezelésére

A GPT-4.5 számos technikát alkalmaz az ütköző üzenetek kezelésére, különösen az utasítási hierarchia rendszerén keresztül. Ez a hierarchia meghatározza az üzenetek prioritási sorrendjét, biztosítva, hogy a rendszerüzenetek prioritást élvezhessenek a felhasználói üzenetek, a beszélgetés előzményei és az eszközkimenetek felett [1] [2].

Oktatási hierarchia

1. Rendszerüzenetek és felhasználói üzenetek: A GPT-4.5-et arra képzik, hogy a rendszerüzenetek utasításait kövesse az ütköző felhasználói üzenetek felett. Ez elengedhetetlen a forgatókönyvekben, amikor a felhasználói bemenetek megkísérelhetik felülbírálni a biztonsági irányelveket vagy a rendszer által beállított formázási szabályokat [1] [2].

2. Konfliktusmegoldás: A modellt a különféle típusú üzenetek közötti konfliktusok megoldásának képessége alapján értékelik. Például, ha egy rendszerüzenet arra utasítja a modellt, hogy ne tárjon fel egy adott kifejezést vagy jelszót, és egy felhasználói üzenet megkísérel becsapni a modellt, akkor a GPT-4.5-et úgy tervezték, hogy betartsa a rendszerüzenet utasításait [1].

3. Képzés és értékelés: A GPT-4.5 kiterjedt képzésen és értékelésen megy keresztül annak biztosítása érdekében, hogy képes kezelni az összetett forgatókönyveket, ahol a rendszer és a felhasználói üzenetek konfliktusok. Ez magában foglalja a forgatókönyveket, amikor a modellnek választania kell a rendszer utasításainak vagy a felhasználó kérésének követése között, amely ellentmond annak [1] [2].

felügyelt finomhangolás (SFT)

A GPT-4.5 szintén felhasználja a felügyelt finomhangolást (SFT), amely magában foglalja a modell képzését olyan példákra, ahol ellentmondásos üzenetek vannak. Ez a technika elősegíti a modell képességének javítását a rendszer utasításainak felismerésére és rangsorolására a felhasználói bemenetekkel szemben, javítva annak teljesítményét az ütköző forgatókönyvek kezelésében [3].

Új igazítási technikák

Ezenkívül a GPT-4.5 új igazítási technikákat tartalmaz, amelyek javítják az emberi preferenciák és a szándék megértését. Ezek a technikák segítenek a modellnek a rendszer és a felhasználói üzenetek mögött álló kontextus és szándék jobb értelmezésében, lehetővé téve a konfliktusok kezelésekor megalapozottabb döntések meghozatalát [5].

Összességében a GPT-4.5 az ütköző üzenetek kezelésére szolgáló megközelítése ötvözi a fejlett edzési módszereket egy strukturált utasítások hierarchiájával, hogy a modell prioritást élvez a biztonság és a rendszer irányelveinek betartása érdekében.

Idézetek:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-here-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api- output-gotth-d-strukture/1025132
[5] https://venturebeat.com/ai/openai-reases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significans_and/