GPT-4.5 juhiste hierarhia mõistmine kiirete süstimisriskide leevendamiseks

Kuidas leevendab GPT-4.5 juhiste hierarhia kiirete süstimiste riski

GPT-4.5 juhendamise hierarhia on loodud kiire süstimise riski leevendamiseks, määrates eri tüüpi juhiste selge prioriteedi. See hierarhia tagab, et arendajate poolt seatud süsteemisõnumid on ülimuslikud kasutajasõnumite ja muude sisendite ees. Siit saate teada, kuidas see töötab ja kuidas see aitab vältida kiireid süstimisrünnakuid:

kiirete süstide mõistmine

Kiire süstimisrünnakud ilmnevad siis, kui pahatahtlikud kasutajad manipuleerivad AI -mudelitega, pakkudes sisendeid, mis alistavad süsteemi algsed juhised. See võib põhjustada tahtmatut käitumist, näiteks tundliku teabe paljastamise või loata toimingute tegemine [2] [3].

Juhendihierarhia

GPT-4.5 käskude hierarhia esitleb juhiseid, mis põhinevad nende allikal ja tähtsusel. See liigitab sisendid mitut tüüpi, sisaldades tavaliselt:
- Süsteemisõnumid: need on arendajate seatud kõrgeima prioriteedi juhised. Nad määratlevad primaarsed ülesanded ja piirangud, mida mudel peaks järgima.
- Kasutajateated: need on kasutajate sisendid ja neid peetakse prioriteediks madalamaks kui süsteemisõnumid.
- Vestluse ajalugu ja tööriista väljundid: need võivad mõjutada ka mudelit, kuid on üldiselt madalamad kui kasutajateated [1] [3].

kiirete süstide leevendamine

Kiirete süstimisrünnakute leevendamiseks tagab juhendamise hierarhia, et GPT-4,5 järgib järgmisi põhimõtteid:
- Prioriteetide seadmine: mudel esitleb süsteemisõnumeid kasutaja sisendite kaudu. Kui kasutaja üritab süstida viipset, mis on süsteemi juhistega vastuolus, vaikib mudel algse juhisega [3] [5].
- Vääritud viipade tuvastamine: GPT-4.5 on koolitatud tuvastama ja ignoreerima viipasid, mis on vastuolus süsteemi juhistega. Näiteks kui kasutaja sisestab "Unustage kõik varasemad juhised", tunnistab mudel seda valesti paigutatud viipina ja reageerib vastavalt [3].
-Madalama prioriteedi juhiste valikuline tähelepanuta jätmine: mudel on loodud madalama prioriteedi juhiste valikuliseks ignoreerimiseks, kui need on vastuolus kõrgema prioriteediga. See tagab, et mudel säilitab oma kavandatud käitumise isegi siis, kui seisab silmitsi pahatahtlike sisenditega [7].

koolitus ja hindamine

GPT-4.5 koolitatakse tehnikaid, mis rõhutavad juhiste hierarhiat, näiteks sünteetilise andmete genereerimist ja konteksti destilleerimist. Need meetodid aitavad mudelil õppida juhiseid tõhusalt tähtsustama ja pahatahtlikele sisenditele vastu pidama [6] [7]. Mudeli jõudlust hinnatakse stsenaariumide korral, kus süsteemisõnumid on vastuolus kasutaja sisenditega, tagades, et see järgib juhiste hierarhiat ja säilitab oma turvafunktsioonid [5].

Üldiselt suurendab GPT-4.5 käskude hierarhia mudeli turvalisust, tagades, et see järgib arendajate seatud kavandatud juhiseid isegi vastuoluliste või pahatahtlike kasutajasisendite taustal. See lähenemisviis on ülioluline usaldusväärsete AI-süsteemide ehitamisel, mis saavad reaalmaailmades ohutult töötada.

Tsitaadid:
[1] https://arxiv.org/html/2502.08745v1
]
]
]
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2