GPT-4.5 använder flera tekniker för att hantera motstridiga meddelanden, särskilt genom dess instruktionshierarkisystem. Denna hierarki upprättar en prioriterad ordning för meddelanden, vilket säkerställer att systemmeddelanden prioriteras framför användarmeddelanden, konversationshistorik och verktygsutgångar [1] [2].
Instruktionshierarki
1. Systemmeddelanden kontra användarmeddelanden: GPT-4.5 är utbildad för att följa instruktionerna i systemmeddelanden över motstridiga användarmeddelanden. Detta är avgörande i scenarier där användarinsatser kan försöka åsidosätta säkerhetsriktlinjer eller formateringsregler som fastställts av systemet [1] [2].
2. Konfliktlösning: Modellen utvärderas på dess förmåga att lösa konflikter mellan olika typer av meddelanden. Till exempel, om ett systemmeddelande instruerar modellen att inte avslöja en specifik fras eller lösenord, och ett användarmeddelande försöker lura modellen att göra det, är GPT-4.5 utformad för att följa systemmeddelandets instruktioner [1].
3. Utbildning och utvärdering: GPT-4.5 genomgår omfattande utbildning och utvärdering för att säkerställa att den kan hantera komplexa scenarier där system- och användarmeddelanden konfliktar. Detta inkluderar scenarier där modellen måste välja mellan att följa en systeminstruktion eller en användares begäran som motsäger den [1] [2].
Övervakad finjustering (SFT)
GPT-4.5 använder också övervakad finjustering (SFT), som innebär att utbilda modellen i specifika exempel där motstridiga meddelanden finns. Denna teknik hjälper till att förbättra modellens förmåga att känna igen och prioritera systeminstruktioner framför användarinsatser, vilket förbättrar dess prestanda vid hantering av motstridiga scenarier [3].
Nya justeringstekniker
Dessutom innehåller GPT-4.5 nya justeringstekniker som förbättrar dess förståelse för mänskliga preferenser och avsikt. Dessa tekniker hjälper modellen att bättre tolka sammanhanget och avsikten bakom både system- och användarmeddelanden, vilket gör att den kan fatta mer informerade beslut vid hantering av konflikter [5].
Sammantaget kombinerar GPT-4.5: s strategi för att hantera motstridiga meddelanden avancerade träningsmetoder med en strukturerad hierarki av instruktioner för att säkerställa att modellen prioriterar säkerhet och efterlevnad av systemriktlinjerna.
Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
]
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/