GPT-4.5: Beheer van conflicterende instructies en probleemoplossing in meerdere stappen

Hoe gaat GPT-4.5 om met conflicterende instructies bij problemen met meerdere stappen?

GPT-4.5 is ontworpen om tegenstrijdige instructies in meerstappenproblemen aan te kunnen door zich te houden aan een instructiehiërarchie. Deze hiërarchie helpt het model prioriteit te geven aan systeemberichten boven gebruikersberichten, waardoor het risico op snelle injecties en andere aanvallen wordt besmet die de veiligheidsinstructies kunnen overschrijven [1] [5].

omgaan met conflicterende instructies

1. Instructiehiërarchie Evaluatie: GPT-4.5 is getraind om de instructies in het bericht met de hoogste prioriteit te herkennen en te volgen wanneer ze worden geconfronteerd met tegenstrijdige berichten. Dit omvat scenario's waarbij systeemberichten en gebruikersberichten conflicten, en het model moet kiezen welke set instructies te volgen [1].

2. Systeem versus gebruikersberichten: het model wordt geleerd om prioriteit te geven aan systeemberichten, die zijn ontworpen om veiligheid en operationele richtlijnen af te dwingen, over gebruikersberichten. Dit zorgt ervoor dat GPT-4.5 zich hecht aan zijn veiligheidsprotocollen, zelfs wanneer gebruikers proberen ze te omzeilen [1] [5].

3. Realistische scenario's: evaluaties omvatten realistische scenario's waarbij het model als een tutor fungeert en pogingen van gebruikers moet weerstaan om het te misleiden om antwoorden of oplossingen te onthullen. GPT-4.5 wordt geïnstrueerd om geen antwoorden weg te geven, en het moet deze systeeminstructies volgen, ondanks gebruikerspogingen om ze te omzeilen [1].

4. Zinnen- en wachtwoordbeveiliging: in een ander type evaluatie wordt GPT-4.5 geïnstrueerd om geen specifieke zinnen uit te voeren of wachtwoorden te onthullen. Het model moet weerstand bieden aan gebruikersberichten die zijn ontworpen om dit te doen, wat het vermogen aantoont om gevoelige informatie te beschermen [1].

Multi-stappen probleembehandeling

Hoewel GPT-4.5 is ontworpen om conflicterende instructies effectief aan te kunnen, kan het vermogen om meerstappenproblemen te beheren worden verbeterd door aanwijzingen op een duidelijke, opeenvolgende manier te structureren. Dit omvat het breken van taken in kleinere stappen en ervoor zorgen dat elke stap is voltooid voordat u naar de volgende gaat [2]. De prestaties van GPT-4.5 in het volgen van multi-step-instructies zonder handmatige interventie (bijvoorbeeld aanwijzingen "volgende") blijft een uitdaging [4].

De prestaties verbeteren

Om de prestaties van GPT-4.5 in multi-step-taken te verbeteren, kunnen gebruikers strategieën gebruiken zoals:

- Duidelijke snelle structuur: gebruik headers of sectiemarkers om elke stap duidelijk te definiëren, waardoor het model de reeks effectiever herkent en volgt [2].
-Sequentiële uitvoering: implementeer een stapsgewijze aanpak waarbij elke stap volledig wordt verwerkt voordat u naar de volgende gaat, die kan worden vergemakkelijkt door functieachtige structuren in prompts te gebruiken [2].
- Handmatige interventie: indien nodig, indien nodig, vraag het model handmatig om door te gaan naar de volgende stap, omdat het mogelijk niet automatisch door een reeks gaat zonder dergelijke signalen [4].

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.aifire.co/p/detailed-teps-to-build-multi-step-custom-gpts-solve-tasks
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://community.openai.com/t/gpt-geting-with-multi-step-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://community.openai.com/t/how-to-improve-gpt-4-api output-lengte-and-structure/1025132
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/