GPT-4.5 Instrukciju hierarhija: Sistēmas ziņojumu prioritāšu noteikšana drošībai un drošībai

Kā GPT-4.5 prioritizē sistēmas ziņojumus, izmantojot lietotāja ziņojumus

GPT-4.5 par prioritāti izvirza sistēmas ziņojumus, izmantojot lietotāja ziņojumus, izmantojot instrukciju hierarhiju, kas ir paredzēta, lai mazinātu tūlītēju injekciju un citu uzbrukumu risku, kas varētu ignorēt modeļa drošības norādījumus. Šī hierarhija klasificē ziņojumus divos galvenajos tipos: sistēmas ziņojumos un lietotāja ziņojumos. Sistēmas ziņojumi būtībā ir slēptas instrukcijas, kas virza AI uzvedību, savukārt lietotāju ziņojumi ir lietotāju sniegtās ieejas.

GPT-4.5, kad sistēmas un lietotāja ziņojumu konflikts, modelis ir apmācīts ievērot instrukcijas sistēmas ziņojumā virs lietotāja ziņojuma. Tas tiek panākts, pārraugot modeli par piemēriem, kad šāda veida vēstījumi ir pretrunā. Modelis iemācās noteikt prioritāti sistēmas ziņojumiem, lai nodrošinātu drošības vadlīniju ievērošanu un novērstu nevēlamus rezultātus.

Piemēram, ja lietotājs mēģina pievilināt modeli par kaitīgas informācijas sniegšanu, sistēmas ziņojums var uzdot modelim atteikties no šādiem pieprasījumiem. GPT-4.5 spēja ievērot šo hierarhiju palīdz saglabāt drošības standartus un neļaut modelim manipulēt, lai ģenerētu neatļautu saturu.

Šī pieeja ir būtiska, lai nodrošinātu, ka GPT-4.5 izturas konsekventi ar paredzētajām drošības un ētiskajām vadlīnijām, pat ja tā saskaras ar mēģinājumiem apiet šos noteikumus, izmantojot gudri izstrādātas lietotāja ieejas. Prioritizējot sistēmas ziņojumus, Openai mērķis ir uzlabot modeļa uzticamību un drošību dažādās lietojumprogrammās [1] [2].

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-them-real-world-experiments-Prompt-injection-Protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
.
.
[6] https://arxiv.org/html/2408.10943v1
.
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effufice_prompt_for_summarizing_gpt4/