Ierarhia instrucțiunilor GPT-4.5: gestionarea mesajelor conflictuale

Cum gestionează GPT-4.5 instrucțiunile conflictuale între mesajele sistemului și utilizatorului

GPT-4.5 este conceput pentru a gestiona instrucțiuni conflictuale între mesajele sistem și utilizator printr-o ierarhie de instrucțiuni. Această ierarhie ajută modelul să acorde prioritate mesajelor sistemului prin mesajele utilizatorilor pentru a atenua riscurile asociate cu solicitări conflictuale, cum ar fi injecții prompte sau alte atacuri care ar putea înlocui instrucțiunile de siguranță ale modelului.

Caracteristici cheie ale ierarhiei de instrucțiuni

1. Clasificarea mesajelor: GPT-4.5 distinge între două tipuri de mesaje: mesaje de sistem și mesaje de utilizator. Mesajele de sistem sunt considerate autoritate superioară și sunt utilizate pentru a stabili orientări de siguranță sau instrucțiuni specifice pentru model.

2. Rezoluția conflictelor: Când sistemul și mesajele de utilizator Conflict, GPT-4.5 este instruit să urmeze instrucțiunile din mesajul sistemului. Acest lucru asigură că modelul respectă orientările de siguranță și nu se implică în activități dăunătoare sau respinse.

3. Evaluare și instruire: Modelul este evaluat pe capacitatea sa de a gestiona conflictele prin diferite scenarii. De exemplu, într-un scenariu în care modelul este instruit să nu dea răspunsul la o problemă de matematică (mesaj de sistem), iar utilizatorul încearcă să-l păcălească să facă acest lucru (mesaj de utilizator), GPT-4.5 trebuie să reziste încercării utilizatorului și să urmeze instrucțiunea sistemului.

4. Performanță: GPT-4.5 se comportă bine în aceste evaluări, arătând o îmbunătățire față de modelele anterioare precum GPT-4O în manipularea conflictelor de mesaje ale sistemului de sistem. Cu toate acestea, există scenarii specifice în care s-ar putea să nu funcționeze la fel de bine ca GPT-4O sau GPT-4O1, cum ar fi în anumite teste de jailbreak, unde este păcălit să dezvăluie informații pe care nu ar trebui [1] [7].

Evaluări de siguranță

GPT-4.5 suferă evaluări riguroase de siguranță pentru a se asigura că nu generează conținut respins, cum ar fi sfaturi urâte sau ilicite. Aceste evaluări evaluează, de asemenea, tendința modelului de a depăși prompturi benigne legate de subiectele de siguranță. Performanța modelului în aceste domenii este esențială pentru menținerea siguranței și fiabilității acestuia atunci când se gestionează instrucțiunile conflictuale [1].

Model Spec și niveluri de autoritate

Modelul specific prezintă nivelurile autorității pentru diferite tipuri de instrucțiuni, instrucțiunile la nivel de platformă având cea mai înaltă autoritate, urmată de instrucțiuni pentru dezvoltatori și utilizatori. Această ierarhie asigură că GPT-4.5 prioritizează siguranța și respectă orientările, permițând totuși personalizarea de către utilizatori și dezvoltatori în limitele stabilite [2] [5].

În general, capacitatea GPT-4.5 de a gestiona instrucțiunile conflictuale este un aspect cheie al proiectării sale, asigurându-se că menține siguranța și integritatea în timp ce interacționează cu utilizatorii.

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-wezy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/