Kaip „GPT-4.5“ tvarko prieštaringus pranešimus su instrukcijų hierarchija ir tikslinimu

Kokius konkrečius metodus GPT-4.5 naudoja tvarkant prieštaringus pranešimus

GPT-4.5 naudojami keli metodai prieštaringiems pranešimams tvarkyti, ypač per jo instrukcijų hierarchijos sistemą. Ši hierarchija nustato prioritetinę pranešimų tvarką, užtikrinant, kad sistemos pranešimams būtų teikiama pirmenybė, palyginti su vartotojo pranešimais, pokalbių istorija ir įrankių išėjimais [1] [2].

Instrukcijų hierarchija

1. Sistemos pranešimai ir vartotojo pranešimai: GPT-4.5 yra mokomas vykdyti instrukcijas sistemos pranešimuose per prieštaringus vartotojo pranešimus. Tai labai svarbu scenarijuose, kai vartotojo įvestys gali bandyti nepaisyti sistemos saugos gairių ar sistemos nustatytų taisyklių [1] [2].

2. Konfliktų sprendimas: modelis įvertinamas pagal jo sugebėjimą išspręsti konfliktus tarp skirtingų tipų pranešimų. Pavyzdžiui, jei sistemos pranešimas nurodo modeliui neatskleisti konkrečios frazės ar slaptažodžio, o vartotojo pranešimas bando apgauti modelį tai padaryti, GPT-4.5 yra skirtas laikytis sistemos pranešimo instrukcijų [1].

3. Mokymai ir vertinimas: GPT-4.5 yra išsamiai mokomi ir vertinami, kad būtų užtikrinta, jog jis gali tvarkyti sudėtingus scenarijus, kuriuose prieštarauja sistemos ir vartotojo pranešimai. Tai apima scenarijus, kai modelis turi pasirinkti iš sistemos instrukcijos ar vartotojo prašymo, kuris prieštarautų [1] [2].

prižiūrimas tikslinimas (SFT)

GPT-4.5 taip pat naudoja prižiūrimą derinimą (SFT), kuris apima modelio mokymą konkrečiuose pavyzdžiuose, kur yra prieštaringų pranešimų. Ši technika padeda pagerinti modelio gebėjimą atpažinti ir nustatyti prioritetus sistemos instrukcijoms, o ne vartotojo įvestis, pagerinant jo našumą tvarkant prieštaringus scenarijus [3].

Nauji derinimo būdai

Be to, GPT-4.5 apima naujus derinimo metodus, kurie sustiprina jo supratimą apie žmogaus nuostatas ir ketinimus. Šie metodai padeda modeliui geriau interpretuoti tiek sistemos, tiek vartotojo pranešimų kontekstą ir ketinimus, leidžiančius jam priimti labiau pagrįstus sprendimus tvarkant konfliktus [5].

Apskritai, GPT-4.5 požiūris į prieštaringų pranešimų tvarkymą derina pažangius mokymo metodus su struktūrizuota instrukcijų hierarchija, siekiant užtikrinti, kad modeliui būtų suteikta prioritetas saugai ir laikymosi sistemos gairėms.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-os-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-outptpth-length--Trocture/1025132
[5] https://ventureebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with Lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18Monbs/gpt_4_has_been_toned_down_downfithy_and/