GPT-4.5 je zasnovan tako, da obravnava nasprotujoča si navodila med sistemskimi in uporabniškimi sporočili s pomočjo hierarhije navodil. Ta hierarhija pomaga modelu prednostno določiti sistemska sporočila nad uporabniškimi sporočili, da ublaži tveganja, povezana z nasprotujočimi si pozivi, kot so hitri injekciji ali drugi napadi, ki bi lahko nadzirali varnostna navodila modela.
Ključne značilnosti hierarhije navodil
1. Klasifikacija sporočil: GPT-4.5 razlikuje med dvema vrstama sporočil: sistemska sporočila in uporabniška sporočila. Sistemska sporočila se štejejo za višji organ in se uporabljajo za določanje varnostnih smernic ali posebnih navodil za model.
2. Reševanje konfliktov: Kadar je sistemska in uporabniška sporočila konflikt, je GPT-4.5 usposobljen, da sledi navodilom v sistemskem sporočilu. To zagotavlja, da se model drži varnostnih smernic in ne sodeluje v škodljivih ali prepovedanih dejavnostih.
3. Ocenjevanje in usposabljanje: Model je ovrednoten glede svoje sposobnosti ravnanja z konfliktom z različnimi scenariji. Na primer, v scenariju, v katerem je model navodila, da odgovora ne daje matematičnemu problemu (sistemsko sporočilo), in uporabnik ga poskuša privabiti (uporabniško sporočilo) se mora GPT-4.5 upreti poskusu uporabnika in slediti navodilom sistema.
4. Učinkovitost: GPT-4.5 na splošno deluje dobro v teh ocenah, kar kaže na izboljšanje v prejšnjih modelih, kot je GPT-4O, pri ravnanju s sporami o sistemu uporabnika. Vendar pa obstajajo posebni scenariji, v katerih morda ne bo deloval tako dobro kot GPT-4O ali GPT-4O1, na primer na nekaterih testih iz jailbreaksa, kjer je nagajanje v razkrivanje informacij, ki jih ne bi smelo [1] [7].
Varnostne ocene
GPT-4.5 se podvrže strogim varnostnim ocenam, da zagotovi, da ne ustvarja prepovedane vsebine, kot so sovražni ali nedovoljeni nasveti. Te ocene ocenjujejo tudi nagnjenost modela po pretiravanju benignih pozivov, povezanih z varnostnimi temami. Učinkovitost modela na teh območjih je ključnega pomena za ohranjanje njegove varnosti in zanesljivosti pri ravnanju s nasprotujočimi si navodili [1].
Specifikacije modela in ravni avtoritete
Specifikacija modela opisuje ravni pooblastil za različne vrste navodil, pri čemer imajo navodila na ravni platforme najvišjo avtoriteto, ki jim sledijo razvijalci in navodila za uporabnike. Ta hierarhija zagotavlja, da GPT-4.5 daje prednost varnosti in se drži smernic, hkrati pa še vedno omogoča prilagajanje uporabnikov in razvijalcev znotraj nastavljenih meja [2] [5].
Na splošno je sposobnost GPT-4.5, da obravnava nasprotujoča si navodila, ključni vidik njegovega oblikovanja, ki zagotavlja, da ohranja varnost in integriteto med interakcijo z uporabniki.
Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943V1
[5] https://bgr.com/tech/chatgpt-ai--finally-start-Covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1IZN175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exm/gpt4_has_only_been_getting_worse/