GPT-4.5 er designet til at håndtere modstridende instruktioner i multi-trinsproblemer ved at overholde et instruktionshierarki. Dette hierarki hjælper modellen med at prioritere systemmeddelelser frem for brugerbeskeder og afbøde risikoen for hurtige injektioner og andre angreb, der kan tilsidesætte sikkerhedsinstruktioner [1] [5].
Håndtering af modstridende instruktioner
1. Instruktionshierarkievaluering: GPT-4.5 er uddannet til at genkende og følge instruktionerne i den højeste prioriterede meddelelse, når de står over for modstridende meddelelser. Dette inkluderer scenarier, hvor systemmeddelelser og brugerbeskeder er i konflikt, og modellen skal vælge, hvilket sæt instruktioner der skal følges [1].
2. System vs. brugerbeskeder: Modellen læres at prioritere systemmeddelelser, der er designet til at håndhæve sikkerheds- og operationelle retningslinjer over brugerbeskeder. Dette sikrer, at GPT-4.5 overholder dens sikkerhedsprotokoller, selv når brugerne forsøger at omgå dem [1] [5].
3. realistiske scenarier: Evalueringer inkluderer realistiske scenarier, hvor modellen fungerer som tutor og skal modstå forsøg fra brugerne til at narre det til at afsløre svar eller løsninger. GPT-4.5 instrueres om ikke at give væk svar, og det skal følge disse systeminstruktioner på trods af brugerforsøg på at omgå dem [1].
4. sætning og adgangskodebeskyttelse: I en anden type evaluering instrueres GPT-4.5 om ikke at udsende specifikke sætninger eller afsløre adgangskoder. Modellen skal modstå brugerbeskeder designet til at narre den til at gøre det og demonstrere sin evne til at beskytte følsomme oplysninger [1].
Multi-trins-håndtering
Mens GPT-4.5 er designet til at håndtere modstridende instruktioner effektivt, kan dens evne til at styre multi-trinsproblemer forbedres ved at strukturere prompter på en klar, sekventiel måde. Dette involverer at bryde opgaver i mindre trin og sikre, at hvert trin afsluttes, før du flytter til det næste [2]. Imidlertid forbliver GPT-4.5s ydelse i automatisk efter flertrinstringinstruktioner uden manuel indgriben (f.eks. Medvirkende til "Next") en udfordring [4].
Forbedring af ydelsen
For at forbedre GPT-4.5's ydelse i multi-trin-opgaver kan brugerne anvende strategier såsom:
- Klar hurtig struktur: Brug overskrifter eller sektionsmarkører til klart at definere hvert trin, hjælpe modellen med at genkende og følge sekvensen mere effektivt [2].
-Sekventiel udførelse: Implementere en trin-for-trin-tilgang, hvor hvert trin behandles fuldt ud, før du flytter til det næste, hvilket kan lettes ved at bruge funktionslignende strukturer i prompter [2].
- Manuel indgriben: Om nødvendigt beder modellen manuelt om at gå videre til det næste trin, da den muligvis ikke automatisk bevæger sig gennem en sekvens uden sådanne signaler [4].
Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
)
[3] https://community.openai.com/t/How-to-Deal-with-Lazy-GPT-4/689286
[4] https://community.openai.com/t/gpt-getting-stuck-with-multi-trep-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
)
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/