GPT-4.5 Täiustused konfliktiliste juhiste ja ohutuse täiustamise käitlemisel

Kuidas võrrelda GPT-4.5 jõudlust varasemate versioonidega vastuoluliste juhiste käsitlemisel

GPT-4.5 demonstreerib paremat tulemuslikkust vastuoluliste juhiste käitlemisel võrreldes varasemate versioonidega, eriti selle suurenenud järgimise kaudu juhendamishierarhiast. See hierarhia võimaldab mudelil tähtsustada süsteemisõnumeid kasutaja sisenditega, leevendades vastuoluliste viigite riske. Hindamistes edestab GPT-4,5 üldiselt GPT-4O stsenaariumides, kus süsteemi- ja kasutajateated on konfliktid, osutades paremale võimele järgida ohutusjuhiseid ja vältida võistlevate viipete petmist [1] [5].

Vastuoluliste juhiste käsitlemisel võtmeparandused

1. Juhendi hierarhia hindamine: GPT-4.5 näitab paremat täpsust süsteemijuhiste järgimisel kasutajasõnumite kaudu. Näiteks stsenaariumi korral, kus mudelile antakse vastust matemaatikaküsimusele, toimib GPT-4.5 paremini kui GPT-4O, ehkki mitte nii hästi kui GPT-4O1 [1].

2. kiire süstimise leevendamine: süsteemisõnumite tähtsustades vähendab GPT-4.5 kiirete süstimiste ja muude rünnakute riski, mis võivad selle ohutusjuhised alistada. See on ülioluline mudeli terviklikkuse säilitamiseks ja väärkasutamise ärahoidmiseks [1] [5].

3. Realistlikud stsenaariumid: Realistlikumate stsenaariumide korral, näiteks matemaatika juhendajana tegutsedes, on GPT-4.5 parem vastu panna katsetele seda loata teavet pakkuda. Selle jõudlus pole siiski täiuslik ja võib sõltuvalt konkreetsest kontekstist ja juhistest varieeruda [1].

4. Ohutushinnangud: GPT-4.5 läbib rangeid ohutushinnanguid, et tagada, et see ei vasta kahjuliku sisu taotlustele. Ehkki see toimib ohtlikust sisust keeldumisel hästi, võib see ületada rohkem kui varasemad mudelid, osutades ettevaatlikule lähenemisele mitmetähenduslike või potentsiaalselt riskantsete viigimise käsitlemiseks [1].

Üldiselt pakub GPT-4.5 olulisi parandusi vastuoluliste juhiste käsitlemisel, järgides tihedamalt süsteemijuhiseid ja vähendades võistlevate kasutaja sisendite mõju. Nagu kõik AI -mudelid, ei ole see aga immuunne kõigi manipuleerimise vormide suhtes ja areneb jätkuvalt pidevate ohutushinnangute ja värskendustega [1] [5].

Tsitaadid:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-th-model-is
]
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
]
]
]