GPT-4.5 Hierarhija navodil: Prednostna sistemska sporočila za varnost in varnost

Kako GPT-4.5 daje prednost sistemskim sporočilom prek uporabniških sporočil

GPT-4.5 daje prednost sistemskim sporočilom prek uporabniških sporočil s pomočjo hierarhije navodil, ki je zasnovana tako, da ublaži tveganje za hitre injekcije in druge napade, ki bi lahko preglasili varnostna navodila modela. Ta hierarhija razvršča sporočila v dve glavni vrsti: sistemska sporočila in uporabniška sporočila. Sistemska sporočila so v bistvu skrita navodila, ki vodijo vedenje AI, medtem ko so uporabniška sporočila vhodi, ki jih nudijo uporabniki.

V GPT-4.5, ko sistemska in uporabniška sporočila konflikta, je model usposobljen, da sledi navodilom v sistemskem sporočilu nad tistimi v uporabniškem sporočilu. To dosežemo z nadzorom modela na primerih, kjer so te vrste sporočil v konfliktu. Model se nauči prednostno določiti sistemska sporočila, da se zagotovi spoštovanje varnostnih smernic in prepreči neželene izhode.

Na primer, če uporabnik poskuša model prevariti v zagotavljanje škodljivih informacij, lahko sistemsko sporočilo model naroči, naj zavrne takšne zahteve. Sposobnost GPT-4.5, da se drži te hierarhije, pomaga pri ohranjanju varnostnih standardov in preprečuje, da bi se model manipuliral z ustvarjanjem nerazločenih vsebin.

Ta pristop je ključnega pomena za zagotavljanje, da se GPT-4.5 obnaša dosledno s predvidenimi varnostnimi in etičnimi smernicami, tudi ko se sooča s poskusi zaobide teh pravil s pametno izdelanimi vhodi uporabnikov. Z določitvijo prednosti sistemskih sporočil je OpenAI namenjen izboljšanju zanesljivosti in varnosti modela v različnih aplikacijah [1] [2].

Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-ause-them-real-world-experiments-prompt-iniction-Protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limid- to-free-Users-and-even-aplus-Users-it-literally-Barely-Gives-you-5-Messages-in-5-6-uri-the-Free-users/79852
[5] https://9meters.com/technology/ai/gpt-4-5-gens-rolling-out-to-aplus-in-team-users-next-week-then-th to-en-in-and-edu-uporabnik-the-the-the-whoek-week
[6] https://arxiv.org/html/2408.10943V1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effice_promp_for_summarizing_gpt4/