GPT-4.5 är utformad för att hantera motstridiga instruktioner i flerstegsproblem genom att följa en instruktionshierarki. Denna hierarki hjälper modellen att prioritera systemmeddelanden framför användarmeddelanden, vilket minskar risken för snabba injektioner och andra attacker som kan åsidosätta säkerhetsinstruktionerna [1] [5].
Hantera motstridiga instruktioner
1. Utvärdering av hierarki: GPT-4.5 utbildas för att känna igen och följa instruktionerna i det högsta prioriterade meddelandet när de möter motstridiga meddelanden. Detta inkluderar scenarier där systemmeddelanden och användarmeddelanden konflikter, och modellen måste välja vilken uppsättning instruktioner som ska följas [1].
2. System kontra användarmeddelanden: Modellen lärs sig att prioritera systemmeddelanden, som är utformade för att upprätthålla säkerhets- och driftsriktlinjer, över användarmeddelanden. Detta säkerställer att GPT-4,5 följer sina säkerhetsprotokoll även när användare försöker kringgå dem [1] [5].
3. Realistiska scenarier: Utvärderingar inkluderar realistiska scenarier där modellen fungerar som handledare och måste motstå försök från användare att lura det till att avslöja svar eller lösningar. GPT-4.5 instrueras att inte ge bort svar, och det måste följa dessa systeminstruktioner trots användarförsök att kringgå dem [1].
4. Fraser och lösenordsskydd: I en annan typ av utvärdering instrueras GPT-4.5 att inte mata ut specifika fraser eller avslöja lösenord. Modellen måste motstå användarmeddelanden som är utformade för att lura det att göra det, vilket visar dess förmåga att skydda känslig information [1].
Flerstegsproblemhantering
Medan GPT-4.5 är utformad för att hantera motstridiga instruktioner effektivt, kan dess förmåga att hantera flera steg problem förbättras genom att strukturera instruktioner på ett tydligt, sekventiellt sätt. Detta handlar om att dela upp uppgifter i mindre steg och se till att varje steg är slutförd innan du flyttar till nästa [2]. GPT-4,5: s prestanda i automatiskt efter flerstegsinstruktioner utan manuell intervention (t.ex. uppmaning av "Nästa") förblir en utmaning [4].
Förbättra prestanda
För att förbättra GPT-4.5: s prestanda i flera stegs uppgifter kan användare använda strategier som:
- Klar snabb struktur: Använd rubriker eller sektionsmarkörer för att tydligt definiera varje steg, hjälpa modellen att känna igen och följa sekvensen mer effektivt [2].
-Sekventiell exekvering: Implementera en steg-för-steg-strategi där varje steg behandlas helt innan du flyttar till nästa, vilket kan underlättas genom att använda funktionsliknande strukturer i instruktioner [2].
- Manuell intervention: Om nödvändigt uppmanar manuellt modellen att fortsätta till nästa steg, eftersom den kanske inte automatiskt rör sig genom en sekvens utan sådana signaler [4].
Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://community.openai.com/t/gpt-etting-stuck-with-multi-step-instruktioner/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
]
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_geting_worse/