GPT-4.5 näitab spetsiifilisi parandusi GPT-4O võrreldes vastuoluliste sõnumite käitlemisel selle täiustatud juhendamishierarhia kaudu. See funktsioon võimaldab mudelil eelistada süsteemisõnumeid kasutajasõnumite kaudu, leevendades kiirete süstide ja muude rünnakute riski, mis võivad ohutusjuhised alistada. Siin on peamised parandused:
1. Juhendi hierarhia hindamine: hindamistes, kus eri tüüpi sõnumid on üksteisega vastuolus, koolitatakse GPT-4.5 järgima juhiseid kõrgeima prioriteediga sõnumis. See aitab mudelil stsenaariume paremini hakkama saada, kus kasutajate sisendid võivad proovida ohutusprotokollidest mööda minna.
2. Konfliktide lahendamine: GPT-4.5 edestab üldiselt GPT-4O hindamistes, mis hõlmavad konflikte süsteemi ja kasutajateadete vahel. See paranemine on ülioluline, et säilitada ohutuse ja suuniste järgimine keerukates vestlusstsenaariumides.
3. Juhendaja Jailbreaks: konkreetse stsenaariumi korral, kus mudel toimib matemaatikaõpetajana, käsitatakse GPT-4.5-l mitte avaldada vastust matemaatikaküsimusele. Kuigi GPT-4.5 ei edesta GPT-4O-d selles konkreetses hindamises (GPT-4O täpsus on suurem), näitab see siiski vastupidavust, et seista vastu katsetele, et see peksma sellele volitamata teavet.
4. Fraas ja paroolide kaitse: GPT-4.5 näitab tugevat jõudlust konkreetsete fraaside või paroolide kaitsmisel kasutajajuhtide kaudu ilmumise eest. See näitab paremat võimet säilitada konfidentsiaalsust ja järgida turvajuhiseid võrreldes mõne varasema mudeliga.
Üldiselt on GPT-4.5 parandused vastuoluliste sõnumite käitlemisel osa selle laiemast ohutuse, nüansi ja koostöö täiustusest, muutes selle tõhusamaks ohutute ja sobivate koostoimete säilitamisel [1] [3].
Tsitaadid:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://openai.com/index/introducing-gpt-4-5/
]
]
]
[7] https://venturebeat.com/ai/openai-releaseses-gpt-4-5/
]