GPT-4.5: konfliktējošu instrukciju un pielāgošanās spējas apstrāde

Vai GPT-4.5 var pielāgoties jauniem pretrunīgiem norādījumiem, kas nav apmācīti

GPT-4.5 ir paredzēts, lai apstrādātu konfliktējošas instrukcijas, izmantojot instrukciju hierarhiju, kurā prioritāte tiek piešķirta sistēmas ziņojumiem, salīdzinot ar lietotāja ziņojumiem, lai mazinātu riskus, piemēram, tūlītējas injekcijas un citi uzbrukumi, kas pārsniedz drošības instrukcijas [1]. Tomēr tas, vai GPT-4.5 var pielāgoties jauniem konfliktējošām instrukcijām, kas nav apmācītas, ir sarežģīts jautājums.

Apmācība un novērtēšana

GPT-4.5 ir apmācīts, izmantojot jaunas uzraudzības metodes apvienojumā ar tradicionālajām metodēm, piemēram, uzraudzītu precizēšanu (SFT) un pastiprināšanas mācīšanos no cilvēku atsauksmēm (RLHF) [1]. Šo metožu mērķis ir uzlabot modeļa saskaņošanu ar lietotāja nodomu un spēju precīzāk ievērot instrukcijas. Modelis ir novērtēts dažādos scenārijos, kad sistēmas un lietotāja ziņojumi ir konflikti, parādot uzlabojumus salīdzinājumā ar iepriekšējiem modeļiem, piemēram, GPT-4O [1].

Pielāgojamība jaunām konfliktējošām instrukcijām

Kaut arī GPT-4.5 demonstrē labāku sniegumu, apstrādājot zināmus pretrunīgu instrukciju veidus, tā spēja pielāgoties pilnīgi jauniem konfliktu veidiem ir atkarīga no vairākiem faktoriem:

1. Generalizācijas iespējas: GPT-4.5 apmācība ietver neuzraudzītas mācīšanās mērogošanu, kas uzlabo tās spēju vispārināt un izprast plašāku kontekstu [1]. Tas potenciāli varētu palīdzēt tai atpazīt jaunos pretrunīgos norādījumus modeļus.

2. Instrukciju hierarhija: modeļa instrukciju hierarhija ir paredzēta, lai prioritizētu sistēmas ziņojumus, kas palīdz saglabāt drošību un ievērot iepriekš noteiktus noteikumus. Tomēr, ja jaunas pretrunīgas instrukcijas neattiecas uz šīs hierarhijas darbības jomu, modelim varētu būt grūti pielāgoties bez papildu apmācības vai precizēšanas.

3. Uzvednes inženierija un sastatnes: lietotāji var izmantot uzlabotas pamudināšanas metodes vai sastatnes, lai vadītu modeli uz izpratni un ievērot jaunas instrukcijas. Šī pieeja var palīdzēt izraisīt uzvedību, kas pārsniedz to, ko modelis tika skaidri apmācīts [1].

4. Ierobežojumi un drošības novērtējumi: Neskatoties uz uzlabojumiem, GPT-4.5 joprojām saskaras ar izaicinājumiem sarežģītu vai jaunu scenāriju risināšanā. Drošības novērtējumi ir parādījuši, ka, lai arī modelis labi veic zināmus uzdevumus, vienmēr pastāv risks, ka tas neatbilst norādījumiem neparedzētos kontekstos [1].

Secinājums

Kaut arī GPT-4.5 ir spējīgāks nekā tā priekšgājēji, rīkojoties ar konfliktējošām instrukcijām, tā pielāgošanās spējai pilnīgi jauniem konfliktu veidiem ierobežo tā apmācības dati un dizains. Tas var prasīt papildu precizēšanu vai radošas pamudināšanas stratēģijas, lai efektīvi apstrādātu jaunus scenārijus. Pašreizējā pētījumu un lietotāju mijiedarbība ar GPT-4.5 sniegs lielāku ieskatu par tā iespējām un ierobežojumiem šajā jomā.

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-fling-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-heere
[6] https://community.openai.com/t/gpt-4o-not-folling-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signrificanty_and/