GPT-4.5: ravnanje z navodili in prilagodljivostjo nasprotujoča si navodila

Ali se lahko GPT-4.5 prilagodi novim vrstam nasprotujočih si navodil, na katerih ni bil usposobljen

GPT-4.5 je zasnovan tako, da obravnava nasprotujoča si navodila s pomočjo hierarhije navodil, ki daje prednost sistemskim sporočilom nad uporabniškimi sporočili, da ublaži tveganja, kot so hitra injekcije in drugi napadi, ki prevladujejo v varnostnih navodilih [1]. Vendar, ali se lahko GPT-4.5 prilagodi novim vrstam nasprotujočih si navodil, na katerih ni bil usposobljen, je zapleteno vprašanje.

Trening in ocena

GPT-4.5 je bil usposobljen z novimi nadzornimi tehnikami v kombinaciji s tradicionalnimi metodami, kot so nadzorovano natančno nastavitev (SFT) in učenje okrepitve iz človeških povratnih informacij (RLHF) [1]. Te metode so namenjene izboljšanju poravnave modela z namenom uporabnikov in njegovo sposobnost natančnejšega upoštevanja navodil. Model je bil ovrednoten na različnih scenarijih, v katerih sistemska in uporabniška sporočila konflikta, kar kaže na izboljšave v primerjavi s prejšnjimi modeli, kot je GPT-4O [1].

Prilagodljivost novim nasprotujočim si navodilom

Medtem ko GPT-4.5 kaže na boljšo uspešnost pri ravnanju z znanimi vrstami nasprotujočih si navodil, je njegova sposobnost prilagajanja povsem novim vrstam konfliktov odvisna od več dejavnikov:

1. Sposobnosti posploševanja: usposabljanje GPT-4.5 vključuje spreminjanje nenadzorovanega učenja, ki povečuje njegovo sposobnost posploševanja in razumevanja širših kontekstov [1]. To bi mu lahko pomagalo prepoznati vzorce v novih nasprotujočih si navodilih.

2. Hierarhija pouka: Hierarhija navodil modela je zasnovana tako, da daje prednost sistemskim sporočilom, kar pomaga pri ohranjanju varnosti in spoštovanja vnaprej določenih pravil. Če pa nova nasprotujoča si navodila, ki niso v nasprotju s tem hierarhije, bi se model morda boril za prilagoditev brez dodatnega usposabljanja ali natančne nastavitve.

3. Hitro inženiring in odri: Uporabniki lahko uporabijo napredne tehnike ali odri za spodbujanje, da bi model usmerjali k razumevanju in upoštevanju novih navodil. Ta pristop lahko pomaga pri vedenju, ki presega tisto, za kar je bil model izrecno usposobljen [1].

4. Omejitve in varnostne ocene: Kljub izboljšavam se GPT-4.5 še vedno spopada z izzivi pri ravnanju s kompleksnimi ali novimi scenariji. Varnostne ocene so pokazale, da čeprav model dobro opravlja znane naloge, vedno obstaja tveganje, da v nepredvidenih okoliščinah ne upošteva navodil [1].

Sklep

Medtem ko je GPT-4.5 bolj sposoben od svojih predhodnikov pri ravnanju z nasprotujočimi si navodili, je njegova prilagodljivost povsem novim vrstam konfliktov omejena s podatki o usposabljanju in oblikovanjem. Za učinkovito ravnanje z novimi scenariji bo morda potrebno dodatno natančno prilagoditev ali kreativno spodbujanje strategij. Neprekinjene raziskave in interakcije uporabnikov z GPT-4.5 bodo zagotovile več vpogleda v njegove zmogljivosti in omejitve na tem področju.

Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983C85A201A962f/original/Aligment-faking-in-Large-Language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-re
[6] https://community.openai.com/t/gpt-4o-not-folling-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significially_and/