A GPT-4.5 utasítási hierarchiájának megértése az azonnali injekciós kockázatok enyhítésére

A GPT-4.5 oktatási hierarchiáját úgy tervezték, hogy enyhítse az azonnali injekciók kockázatát azáltal, hogy egyértelmű prioritási megrendelést hoz létre a különféle utasításokhoz. Ez a hierarchia biztosítja, hogy a fejlesztők által beállított rendszerüzenetek elsőbbséget élveznek a felhasználói üzenetek és más bemenetek felett. Így működik, és hogyan segít megelőzni az azonnali injekciós támadásokat:

A gyors injekciók megértése

Azonnali injekciós támadások akkor fordulnak elő, amikor a rosszindulatú felhasználók az AI modelleket manipulálják azáltal, hogy olyan bemeneteket biztosítanak, amelyek felülbírálják az eredeti rendszer utasításait. Ez nem szándékos viselkedéshez vezethet, például érzékeny információk feltárása vagy jogosulatlan tevékenységek végrehajtása [2] [3].

Az utasítási hierarchia

A GPT-4.5 utasítási hierarchia forrásuk és fontosságuk alapján rangsorolja az utasításokat. A bemeneteket több típusba sorolja, általában:
- Rendszerüzenetek: Ezek a fejlesztők által a legfontosabb prioritási utasítások. Meghatározzák azokat az elsődleges feladatokat és korlátokat, amelyeket a modellnek be kell tartania.
- Felhasználói üzenetek: Ezek a felhasználók által biztosított bemenetek, és prioritásban alacsonyabbnak tekintik, mint a rendszerüzenetek.
- Beszélgetés előzményei és szerszámkibocsátásai: Ezek befolyásolhatják a modellt is, de általában alacsonyabbak a prioritásban, mint a felhasználói üzenetek [1] [3].

A gyors injekciók enyhítése

Az azonnali injekciós támadások enyhítése érdekében az oktatási hierarchia biztosítja, hogy a GPT-4.5 betartja a következő alapelveket:
- prioritási lehetőségek: A modell a rendszerüzeneteket rangsorolja a felhasználói bemenetekkel szemben. Ha a felhasználó megkísérel egy olyan prompt befecskendezését, amely ellentmond a rendszer utasításainak, akkor a modell alapértelmezés szerint az eredeti útmutatásra [3] [5].
- Az eltérő utasítások észlelése: A GPT-4.5 képzettséggel rendelkezik a rendszer utasításaival való ütközés azonosítására és figyelmen kívül hagyására. Például, ha egy felhasználói bemenetek "elfelejtik az összes korábbi utasítást", akkor a modell ezt tévesen elrendezett promptként fogja felismerni, és ennek megfelelően reagál [3].
-Az alacsonyabb prioritású utasítások szelektív figyelmen kívül hagyása: A modell célja, hogy szelektíven figyelmen kívül hagyja az alacsonyabb prioritási utasításokat, amikor ütköznek a magasabb prioritással. Ez biztosítja, hogy a modell fenntartja a tervezett viselkedést még akkor is, ha rosszindulatú bemenetekkel szembesül [7].

Képzés és értékelés

A GPT-4.5-et olyan technikákkal képzik, amelyek hangsúlyozzák az oktatási hierarchiát, mint például a szintetikus adatok előállítása és a kontextus desztillációja. Ezek a módszerek segítenek a modellnek megtanulni az utasítások hatékony prioritása és ellenállása a rosszindulatú bemeneteknek [6] [7]. A modell teljesítményét olyan forgatókönyvekben értékelik, amelyekben a rendszerüzenetek ütköznek a felhasználói bemenetekkel, biztosítva, hogy betartsa az utasítások hierarchiáját és fenntartja annak biztonsági jellemzőit [5].

Összességében a GPT-4.5 utasítás-hierarchia javítja a modell biztonságát azáltal, hogy biztosítja, hogy az követi a fejlesztők által tervezett utasításokat, még az ütköző vagy rosszindulatú felhasználói bemenetekkel szemben is. Ez a megközelítés elengedhetetlen a megbízható AI rendszerek felépítéséhez, amelyek biztonságosan működhetnek a valós alkalmazásokban.

Idézetek:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/proppt-injection-types-prevenion-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-gainst-prompt-inject-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-prompt-injections-and-tawbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2

Hogyan enyhíti a GPT-4.5 oktatási hierarchiája a gyors injekciók kockázatát

A gyors injekciók megértése

Az utasítási hierarchia

A gyors injekciók enyhítése

Képzés és értékelés