GPT-4.5: prieštaringų instrukcijų tvarkymas ir pritaikomumas

Ar GPT-4.5 gali prisitaikyti prie naujų prieštaringų instrukcijų rūšių

„GPT-4.5“ yra skirtas tvarkyti prieštaringas instrukcijas per instrukcijų hierarchiją, kuria prioritetą teikia sistemos pranešimai, o ne vartotojo pranešimai, siekiant sušvelninti riziką, pavyzdžiui, greitų injekcijų ir kitų atakų, kurios viršija saugos instrukcijas [1]. Tačiau tai, ar GPT-4.5 gali prisitaikyti prie naujų prieštaringų instrukcijų rūšių, ji nebuvo apmokyta, yra sudėtingas klausimas.

Mokymai ir vertinimas

GPT-4.5 buvo apmokytas naudojant naujus priežiūros metodus kartu su tradiciniais metodais, tokiais kaip prižiūrimas tikslinimas (SFT) ir sustiprinimo mokymasis iš žmonių atsiliepimų (RLHF) [1]. Šiais metodais siekiama pagerinti modelio derinimą su vartotojo ketinimu ir jo sugebėjimu tiksliau vadovautis instrukcijomis. Modelis buvo įvertintas įvairiais scenarijais, kuriuose prieštarauja sistemos ir vartotojo pranešimai, rodantys ankstesnių modelių, tokių kaip GPT-4O, patobulinimus [1].

prisitaikymas prie naujų prieštaringų instrukcijų

Nors GPT-4.5 rodo geresnį atlikimą tvarkant žinomas prieštaringų instrukcijų rūšis, jos sugebėjimas prisitaikyti prie visiškai naujų tipų konfliktų priklauso nuo kelių veiksnių:

1. Apibendrinimo galimybės: GPT-4.5 mokymai apima neprižiūrimą mokymąsi, kuris padidina jo sugebėjimą apibendrinti ir suprasti platesnius kontekstus [1]. Tai gali padėti atpažinti naujų prieštaringų instrukcijų modelius.

2. Instrukcijų hierarchija: Modelio instrukcijų hierarchija yra skirta prioritetui nustatyti sistemos pranešimus, kurie padeda išlaikyti saugą ir laikytis iš anksto nustatytų taisyklių. Tačiau jei naujos prieštaringos instrukcijos nepatenka į šios hierarchijos taikymo sritį, modelis gali stengtis prisitaikyti be papildomo mokymo ar derinimo.

3. Reikia inžinerijos ir pastolių: vartotojai gali naudoti patobulintus raginimo metodus ar pastolius, kad nukreiptų modelį į supratimą ir naujų instrukcijų laikymąsi. Šis požiūris gali padėti išsiaiškinti elgesį, viršijantį tai, ką modelis buvo aiškiai apmokytas [1].

4. Apribojimai ir saugos vertinimai: Nepaisant patobulinimų, GPT-4.5 vis dar susiduria su iššūkiais tvarkant sudėtingus ar naujus scenarijus. Saugos vertinimai parodė, kad nors modelis gerai atlieka žinomas užduotis, visada rizikuojama, kad jis nesilaikys instrukcijų nenumatytuose kontekstuose [1].

Išvada

Nors GPT-4.5 yra pajėgesnis nei jo pirmtakai, tvarkant prieštaringas instrukcijas, jo pritaikomumą iki visiškai naujų konfliktų tipų riboja jo mokymo duomenys ir dizainas. Tam gali prireikti papildomų tobulinimo ar kūrybinio raginimo strategijų, kad būtų galima efektyviai tvarkyti naujus scenarijus. Vykstantys tyrimai ir vartotojų sąveika su GPT-4.5 suteiks daugiau įžvalgų apie jos galimybes ir apribojimus šioje srityje.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-fing-fing--large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-psple-and-clear instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18Monbs/gpt_4_has_been_toned_down_downfithy_and/