GPT-4.5: Gestionarea instrucțiunilor conflictuale și rezolvarea problemelor în mai multe etape

Cum gestionează GPT-4.5 instrucțiunile conflictuale în problemele cu mai multe etape

GPT-4.5 este conceput pentru a gestiona instrucțiunile conflictuale în problemele în mai multe etape, respectând o ierarhie de instrucțiuni. Această ierarhie ajută modelul să acorde prioritate mesajelor sistemului prin mesajele utilizatorilor, atenuând riscul de injecții prompte și alte atacuri care ar putea înlocui instrucțiunile de siguranță [1] [5].

Manipularea instrucțiunilor conflictuale

1.. Evaluarea ierarhiei de instrucțiuni: GPT-4.5 este instruit să recunoască și să urmeze instrucțiunile din mesajul cu cea mai mare prioritate atunci când se confruntă cu mesaje conflictuale. Aceasta include scenarii în care mesajele de sistem și mesajele de utilizator în conflict, iar modelul trebuie să aleagă ce set de instrucțiuni să urmeze [1].

2. Sistem vs. Mesaje de utilizator: Modelul este învățat să acorde prioritate mesajelor de sistem, care sunt concepute pentru a aplica ghidurile de siguranță și operaționale, prin mesajele utilizatorilor. Acest lucru asigură că GPT-4.5 respectă protocoalele sale de siguranță chiar și atunci când utilizatorii încearcă să le ocolească [1] [5].

3. Scenarii realiste: Evaluările includ scenarii realiste în care modelul acționează ca îndrumător și trebuie să reziste încercărilor utilizatorilor de a -l păcăli să dezvăluie răspunsuri sau soluții. GPT-4.5 este instruit să nu dea răspunsuri și trebuie să urmeze aceste instrucțiuni de sistem, în ciuda încercărilor utilizatorilor de a le evita [1].

4. Protecția frazei și a parolei: într-un alt tip de evaluare, GPT-4.5 este instruit să nu producă fraze specifice sau să dezvăluie parole. Modelul trebuie să reziste la mesajele utilizatorilor concepute pentru a -l păcăli în acest sens, demonstrându -și capacitatea de a proteja informațiile sensibile [1].

Manevrarea problemelor în mai multe etape

În timp ce GPT-4.5 este conceput pentru a gestiona în mod eficient instrucțiunile conflictuale, capacitatea sa de a gestiona problemele în mai multe etape poate fi îmbunătățită prin structurarea prompturilor într-o manieră clară și secvențială. Aceasta implică ruperea sarcinilor în pași mai mici și asigurarea finalizării fiecărei etape înainte de a trece la următoarea [2]. Cu toate acestea, performanța GPT-4.5 în urmărirea automată a instrucțiunilor în mai multe etape, fără o intervenție manuală (de exemplu, solicitarea „următorului”) rămâne o provocare [4].

Îmbunătățirea performanței

Pentru a îmbunătăți performanța GPT-4.5 în sarcini în mai multe etape, utilizatorii pot utiliza strategii precum:

- Structura promptă clară: utilizați anteturi sau markeri de secțiune pentru a defini clar fiecare pas, ajutând modelul să recunoască și să urmeze secvența mai eficient [2].
-Execuție secvențială: Implementați o abordare pas cu pas în care fiecare etapă este procesată complet înainte de a trece la următoarea, care poate fi facilitată folosind structuri asemănătoare funcției în prompturi [2].
- Intervenție manuală: Dacă este necesar, solicitați manual modelul să treacă la pasul următor, deoarece este posibil să nu se deplaseze automat printr -o secvență fără astfel de indicii [4].

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://community.openai.com/t/how-to-deal-with-wezy-gpt-4/689286
[4] https://community.openai.com/t/gpt-getting-stuck-with-multi-tap-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/