Izboljšave GPT-4.5 pri ravnanju z nasprotujočimi si navodili in izboljšavami varnosti

Kako se uspešnost GPT-4.5 primerja s prejšnjimi različicami pri ravnanju

GPT-4.5 prikazuje izboljšano delovanje pri ravnanju s nasprotujočimi si navodilih v primerjavi s prejšnjimi različicami, zlasti s povečanim spoštovanjem hierarhije pouka. Ta hierarhija omogoča modelu, da prednostno določi sistemska sporočila nad uporabniškimi vhodi, kar ublaži tveganja zaradi nasprotujočih si pozivov. V ocenah GPT-4.5 na splošno presega GPT-4O v scenarijih, ko se sistemska in uporabniška sporočila spopada, kar kaže na boljšo sposobnost upoštevanja varnostnih navodil in prepreči, da bi ga nagajili nasprotni pozivi [1] [5].

Ključne izboljšave pri ravnanju z nasprotujočimi si navodili

1. Ocenjevanje hierarhije navodil: GPT-4.5 kaže izboljšano natančnost v naslednjih sistemskih navodilih za uporabniška sporočila. Na primer, v scenariju, kjer je model poučen, da odgovora ne daje matematičnega vprašanja, GPT-4.5 deluje bolje kot GPT-4O, čeprav ne tako dobro kot GPT-4O1 [1].

2. Zmanjševanje hitrih injekcij: GPT-4.5 z določanjem prednostnih sistemov zmanjšuje tveganje za takojšnje injekcije in druge napade, ki bi lahko preglasili njena varnostna navodila. To je ključnega pomena za ohranjanje celovitosti modela in preprečevanje zlorabe [1] [5].

3. Realistični scenariji: V bolj realističnih scenarijih, na primer pri igranju kot matematični učitelj, se GPT-4.5 bolje upira poskusom, da bi ga prevarali v zagotavljanje nepooblaščenih informacij. Vendar njegova zmogljivost ni popolna in se lahko razlikuje glede na določen kontekst in navodila [1].

4. Varnostne ocene: GPT-4.5 se podvrže strogim varnostnim ocenam, da se zagotovi, da ne ustreza zahtevam za škodljivo vsebino. Čeprav deluje dobro pri zavračanju nevarnih vsebin, lahko pretirava z več kot prejšnjimi modeli, kar kaže na previden pristop k ravnanju z dvoumnimi ali potencialno tveganimi pozivi [1].

Na splošno GPT-4.5 ponuja znatne izboljšave pri ravnanju z navodili za nasprotujoča si, tako da se bolj drži sistemskih smernic in zmanjša vpliv nasprotnih uporabniških vhodov. Vendar, tako kot vsi modeli AI, ni imun na vse oblike manipulacije in se še naprej razvija s stalnimi ocenami varnosti in posodobitvami [1] [5].

Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-Crared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model -is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1IZN175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significially_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-rease
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-penai-reasoning