GPT-4.5 Juhendhierarhia: Vastuoluliste sõnumite käsitsemine

Kuidas saab GPT-4.5 süsteemi ja kasutajateadete vahel vastuolulisi juhiseid

GPT-4.5 on mõeldud käsuhierarhia kaudu süsteemi ja kasutajasõnumite vaheliste vastuoluliste juhiste käsitlemiseks. See hierarhia aitab mudelil tähtsustada süsteemisõnumeid kasutajasõnumite kaudu, et leevendada vastuoluliste viipetega seotud riske, näiteks kiireid süste või muid rünnakuid, mis võivad mudeli ohutusjuhiseid alistada.

Juhendihierarhia põhifunktsioonid

1. Sõnumi klassifikatsioon: GPT-4.5 eristab kahte tüüpi sõnumeid: süsteemisõnumeid ja kasutajasõnumeid. Süsteemisõnumeid peetakse kõrgemaks autoriteeti ja neid kasutatakse mudeli ohutusjuhiste või konkreetsete juhiste seadmiseks.

2. Konfliktide lahendamine: kui süsteemi- ja kasutajateated konfliktid, koolitatakse GPT-4.5 süsteemisõnumi juhiseid järgima. See tagab, et mudel järgib ohutusjuhiseid ega tegele kahjulike ega keelatud tegevustega.

3. Hindamine ja koolitus: mudelit hinnatakse selle võimet käsitleda konflikte erinevate stsenaariumide kaudu. Näiteks stsenaariumi korral, kus mudelil käsitatakse mitte anda vastust matemaatikaprobleemile (süsteemisõnum) ja kasutaja üritab seda teha (kasutaja teade), peab GPT-4.5 vastu pidama kasutaja katsele ja järgima süsteemi juhiseid.

4. jõudlus: GPT-4.5 toimib nendes hinnangutes üldiselt hästi, näidates paranemist varasemate mudelitega nagu GPT-4O süsteemikasutaja sõnumite konfliktide käitlemisel. Siiski on olemas konkreetsed stsenaariumid, kus see ei pruugi toimida, samuti GPT-4O või GPT-4O1, näiteks teatud jailbreak-testides, kus see on petetud teabe paljastamiseks, ei tohiks see [1] [7].

ohutuse hindamine

GPT-4.5 läbib rangeid ohutushinnanguid, tagamaks, et see ei tekita keelatud sisu, näiteks vihkavaid või ebaseaduslikke nõuandeid. Need hinnangud hindavad ka mudeli kalduvust ületada ohutusteemadega seotud healoomulisi juhiseid. Mudeli jõudlus nendes piirkondades on konfliktsete juhiste käitlemisel kriitilise tähtsusega oma ohutuse ja usaldusväärsuse säilitamiseks [1].

mudeli spetsifikatsioon ja autoriteedi tasemed

Mudeli spetsifikatsioon kirjeldab eri tüüpi juhiste autoriteedi taset, kusjuures platvormi tasemel juhised on kõrgeim autoriteet, millele järgnevad arendaja ja kasutusjuhendid. See hierarhia tagab, et GPT-4.5 seab ohutuse ja järgib suuniseid, võimaldades samas kasutajate ja arendajate kohandamist seatud piirides [2] [5].

Üldiselt on GPT-4.5 võimega toime tulla vastuoluliste juhistega selle kujundamise peamine aspekt, tagades, et see säilitab kasutajatega suhtlemise ajal ohutuse ja terviklikkuse.

Tsitaadid:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-mazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
]
]
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_geting_worse/