GPT-4.5 uzlabojumi, apstrādājot konfliktējošās instrukcijas un drošības uzlabojumus

Kā GPT-4.5 veiktspēja ir salīdzināma ar iepriekšējām versijām, apstrādājot pretrunīgas instrukcijas

GPT-4.5 parāda uzlabotu veiktspēju, apstrādājot konfliktējošas instrukcijas, salīdzinot ar iepriekšējām versijām, jo īpaši, uzlabojot instrukciju hierarhiju. Šī hierarhija ļauj modelim prioritizēt sistēmas ziņojumus, salīdzinot ar lietotāja ieejām, mazinot pretrunīgo uzvedņu riskus. Novērtējumā GPT-4.5 parasti pārspēj GPT-4O scenārijos, kur sistēmas un lietotāju ziņojumi ir konflikti, norādot uz labāku spēju ievērot drošības norādījumus un izvairīties no tā, ka viņus vilto pretrunīgas uzvednes [1] [5].

Galvenie uzlabojumi konfliktējošu instrukciju apstrādē

1. Instrukciju hierarhijas novērtējums: GPT-4.5 parāda uzlabotu precizitāti, sekojot sistēmas instrukcijām, salīdzinot ar lietotāja ziņojumiem. Piemēram, scenārijā, kurā modelim tiek uzdots neatsniegt atbildi uz matemātikas jautājumu, GPT-4.5 darbojas labāk nekā GPT-4O, kaut arī ne tik labi, kā GPT-4O1 [1].

2. Ātru injekciju mazināšana: Prioritāšu noteikšana sistēmas ziņojumos GPT-4.5 samazina ātru injekciju un citu uzbrukumu risku, kas varētu ignorēt tās drošības norādījumus. Tas ir ļoti svarīgi, lai saglabātu modeļa integritāti un novērstu nepareizu izmantošanu [1] [5].

3. Reālistiski scenāriji: reālistiskākos scenārijos, piemēram, darbojoties kā matemātikas pasniedzējs, GPT-4.5 labāk pretojas mēģinājumiem to pievilināt nesankcionētas informācijas sniegšanā. Tomēr tā veiktspēja nav perfekta un var mainīties atkarībā no konkrētā konteksta un sniegtā instrukcijām [1].

4. Drošības novērtējumi: GPT-4.5 tiek veikti stingri drošības novērtējumi, lai pārliecinātos, ka tas neatbilst kaitīga satura pieprasījumiem. Lai arī tas labi darbojas, atteicoties no nedroša satura, tas var pārmērīgi izmantot vairāk nekā iepriekšējos modeļus, norādot uz piesardzīgu pieeju neviennozīmīgu vai potenciāli riskantu uzvedņu apstrādei [1].

Kopumā GPT-4.5 piedāvā ievērojamus uzlabojumus konfliktējošo instrukciju apstrādē, ciešāk ievērojot sistēmas vadlīnijas un samazinot pretrunīgu lietotāju ieeju ietekmi. Tomēr, tāpat kā visi AI modeļi, tas nav imūns pret visiem manipulācijas veidiem un turpina attīstīties ar pastāvīgiem drošības novērtējumiem un atjauninājumiem [1] [5].

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-dood-this-model-is
.
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signrificanty_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning