GPT-4.5 uporablja več tehnik za obravnavo nasprotujočih si sporočil, zlasti s svojim hierarhijskim sistemom pouka. Ta hierarhija vzpostavlja prednostno vrstni red sporočil, s čimer zagotavlja, da so sistemska sporočila prednostno prednostno pred uporabniškimi sporočili, zgodovino pogovorov in izhodov orodij [1] [2].
Hierarhija pouka
1. sistemska sporočila proti uporabniškim sporočilom: GPT-4.5 je usposobljen, da sledi navodilom v sistemskih sporočilih glede nasprotujočih si uporabniških sporočil. To je ključnega pomena v scenarijih, kjer lahko uporabniški vhodi poskušajo preglasiti varnostne smernice ali oblikovanje pravil, ki jih določa sistem [1] [2].
2. Reševanje konfliktov: Model je ocenjen glede njegove sposobnosti reševanja konfliktov med različnimi vrstami sporočil. Na primer, če sistemsko sporočilo uvršča model, naj ne razkrije določene fraze ali gesla, uporabniško sporočilo pa poskuša model za to, da to stori, je GPT-4.5 zasnovan tako, da drži navodila sistemskega sporočila [1].
3. Usposabljanje in ocenjevanje: GPT-4.5 je doživel obsežno usposabljanje in ocenjevanje, da se zagotovi, da lahko obvladuje zapletene scenarije, v katerih sistemska in uporabniška sporočila konflikta. To vključuje scenarije, kjer mora model izbirati med sistemom ali uporabnikovo zahtevo, ki ji nasprotuje [1] [2].
Nadzorovano natančno nastavitev (SFT)
GPT-4.5 uporablja tudi nadzorovano natančno nastavitev (SFT), ki vključuje usposabljanje modela o določenih primerih, kjer so prisotna nasprotujoča si sporočila. Ta tehnika pomaga izboljšati sposobnost modela, da prepozna in določi prednostna navodila za sistemsko vnose uporabnikov, pri čemer izboljša njegovo uspešnost pri ravnanju z nasprotujočimi si scenariji [3].
Nove tehnike poravnave
Poleg tega GPT-4.5 vključuje nove tehnike poravnave, ki izboljšujejo njegovo razumevanje človeških preferenc in namere. Te tehnike pomagajo modelu bolje razlagati kontekst in namero tako sistemskimi kot uporabniškimi sporočili, kar mu omogoča, da sprejema bolj informirane odločitve pri obravnavi konfliktov [5].
Na splošno pristop GPT-4.5 k ravnanju s konfliktnimi sporočili združuje napredne metode usposabljanja s strukturirano hierarhijo navodil, da se zagotovi, da model daje prednost varnosti in spoštovanju sistemskih smernic.
Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745V1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model -is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-Length-and-sucture/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significially_and/