GPT-4.5 Instrukcijos hierarchija: Sistemos pranešimų prioritetas saugai ir saugai

Kaip GPT-4.5 teikia pirmenybę sistemos pranešimams, o ne vartotojo pranešimams

GPT-4.5 teikia pirmenybę sistemos pranešimams, o ne vartotojo pranešimams, naudojant instrukcijų hierarchiją, kuri yra skirta sušvelninti greitų injekcijų ir kitų atakų, kurios gali nepaisyti modelio saugos instrukcijų, riziką. Ši hierarchija klasifikuoja pranešimus į du pagrindinius tipus: sistemos pranešimus ir vartotojo pranešimus. Sistemos pranešimai iš esmės yra paslėptos instrukcijos, kuriomis vadovaujasi AI elgesys, o vartotojų pranešimai yra vartotojų pateiktos įvestys.

„GPT-4.5“, kai konfliktuoja sistemos ir vartotojo pranešimai, modelis mokomas laikytis sistemos pranešimo instrukcijos, susijusios su vartotojo pranešimu. Tai pasiekiama prižiūrint modelį pavyzdžiuose, kuriuose konfliktuoja šios žinios. Modelis išmoksta prioritetuoti sistemos pranešimus, kad užtikrintų saugos gairių laikymąsi ir užkirstų kelią nepageidaujamoms išvestims.

Pavyzdžiui, jei vartotojas bando apgauti modelį, kad pateiktų kenksmingą informaciją, sistemos pranešimas gali nurodyti modeliui atsisakyti tokių užklausų. GPT-4.5 gebėjimas laikytis šios hierarchijos padeda išlaikyti saugos standartus ir užkirsti kelią modeliui manipuliuoti į neginčijamą turinį.

Šis požiūris yra labai svarbus užtikrinant, kad GPT-4.5 elgiasi nuosekliai pagal numatytas saugos ir etines gaires, net kai susidūrę su bandymais apeiti šias taisykles per sumaniai parengtą vartotojo indėlį. Prioritetų nustatymo sistemos pranešimams, „Openai“ siekia pagerinti modelio patikimumą ir saugumą įvairiose programose [1] [2].

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-sesages-how-to-use-them-realld-world-experiments-prompt injection-proctors
[3] https://platform.openai.com/docs/guides/prompt-enngineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-tofree-users-and-even-plus-users-t-Literally-Barely-gives-you-5-sessages-in-5-6-6 valandos-be USERS/769852
[5] https://9meters.com/technology/AI/GPT-4-5-BEGINS-ROLLINGO-OUT-To-Plus-and-team-users-next-week-fe-To-enterprise-and-Edu-users--se-the-Senterning Week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-res-release-gpt-4-5-within-weeks gpt-5-within-monts/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_fficfict_prompt_for_summarizing_gpt4/