GPT-4.5 Juhendhierarhia: Süsteemisõnumite tähtsustamine ohutuse ja turvalisuse tagamiseks

Kuidas eelistab GPT-4.5 süsteemisõnumeid kasutajasõnumite kaudu

GPT-4.5 esitleb süsteemisõnumeid kasutajasõnumite kaudu juhiste hierarhia kaudu, mille eesmärk on leevendada kiirete süstimiste ja muude rünnakute riski, mis võivad mudeli ohutusjuhiseid alistada. See hierarhia jaotab sõnumid kahte peamist tüüpi: süsteemisõnumid ja kasutajasõnumid. Süsteemisõnumid on sisuliselt varjatud juhised, mis suunavad AI käitumist, samas kui kasutajateated on kasutajate sisendid.

GPT-4,5-s, kui süsteemi- ja kasutajateated on konfliktid, koolitatakse mudelit süsteemisõnumi juhiseid järgima kasutajasõnumi nende suhtes. See saavutatakse mudeli juhendamisel näidete kohta, kus seda tüüpi sõnumid on vastuolus. Mudel õpib süsteemisõnumeid tähtsustama, et tagada ohutusjuhiste järgimine ja soovimatute väljundite vältimiseks.

Näiteks kui kasutaja üritab mudelit kahjuliku teabe pakkumiseks petta, saab süsteemisõnum juhendada mudelit keelduda sellistest taotlustest. GPT-4.5 võime sellest hierarhiast kinni pidada aitab säilitada ohutusstandardeid ja takistada mudeli manipuleerimist keelatud sisu tekitamiseks.

See lähenemisviis on ülioluline tagada, et GPT-4.5 käitub järjekindlalt selle kavandatud ohutuse ja eetiliste juhistega, isegi kui nad seisavad silmitsi katsetega neist reeglitest mööda minna nutikalt meisterdatud kasutaja sisendite kaudu. Süsteemisõnumite tähtsustades on OpenAi eesmärk parandada mudeli usaldusväärsust ja turvalisust erinevates rakendustes [1] [2].

Tsitaadid:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://platform.openai.com/docs/guides/prompt-enginehing
]
]
[6] https://arxiv.org/html/2408.10943v1
]
]