Kā GPT-4.5 apstrādā konfliktējošus ziņojumus ar instrukciju hierarhiju un precizēšanu

Kādas īpašas metodes GPT-4.5 izmanto, lai apstrādātu konfliktējošus ziņojumus

GPT-4.5 izmanto vairākas metodes, lai apstrādātu konfliktējošus ziņojumus, jo īpaši ar savu instrukciju hierarhijas sistēmu. Šī hierarhija nosaka ziņojumu prioritāru secību, nodrošinot, ka sistēmas ziņojumi tiek prioritāte salīdzinājumā ar lietotāja ziņojumiem, sarunu vēsturi un rīka izvadi [1] [2].

instrukciju hierarhija

1. Sistēmas ziņojumi pret lietotāja ziņojumiem: GPT-4.5 ir apmācīts ievērot instrukcijas sistēmas ziņojumos, salīdzinot ar pretrunīgiem lietotāja ziņojumiem. Tas ir ļoti svarīgi scenārijos, kad lietotāja ievadi varētu mēģināt ignorēt sistēmas noteiktos drošības vadlīnijas vai formatēšanas noteikumus [1] [2].

2. Konfliktu risināšana: modelis tiek novērtēts pēc tā spējas atrisināt konfliktus starp dažāda veida ziņojumiem. Piemēram, ja sistēmas ziņojums uzdod modelim neatklāt konkrētu frāzi vai paroli, un lietotāja ziņojums mēģina pievilināt modeli to darīt, GPT-4.5 ir paredzēts, lai ievērotu sistēmas ziņojuma instrukcijas [1].

3. Apmācība un novērtēšana: GPT-4.5 iziet plašu apmācību un novērtēšanu, lai nodrošinātu, ka tā var rīkoties ar sarežģītiem scenārijiem, kad sistēmas un lietotāja ziņojumi ir konflikti. Tas ietver scenārijus, kad modelim jāizvēlas starp sistēmas instrukcijas sekošanu vai lietotāja pieprasījumu, kas tam ir pretrunā [1] [2].

uzraudzīta precizēšana (SFT)

GPT-4.5 izmanto arī uzraudzītu precizēšanu (SFT), kas ietver modeļa apmācību konkrētiem piemēriem, kur ir pretrunīgi ziņojumi. Šis paņēmiens palīdz uzlabot modeļa spēju atpazīt un noteikt prioritātes sistēmas instrukcijām salīdzinājumā ar lietotāju ieejām, uzlabojot tā veiktspēju, rīkojoties konfliktējošos scenārijos [3].

Jaunas izlīdzināšanas paņēmieni

Turklāt GPT-4.5 ir iekļautas jaunas izlīdzināšanas metodes, kas uzlabo tā izpratni par cilvēku vēlmēm un nodomu. Šīs metodes palīdz modelim labāk interpretēt kontekstu un nodomu aiz sistēmas un lietotāja ziņojumiem, ļaujot tam pieņemt informētākus lēmumus, rīkojoties ar konfliktiem [5].

Kopumā GPT-4.5 pieeja konfliktējošo ziņojumu apstrādei apvieno uzlabotas apmācības metodes ar strukturētu instrukciju hierarhiju, lai nodrošinātu, ka modelis prioritizē sistēmas pamatnostādņu drošību un ievērošanu.

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-dood-this-model-is
.
[5] https://venturebeat.com/ai/openai-reaseses-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signrificanty_and/