Hoe GPT-4.5 omgaat met conflicterende berichten met instructiehiërarchie en verfijning

Welke specifieke technieken gebruikt GPT-4.5 om tegenstrijdige berichten aan te kunnen

GPT-4.5 gebruikt verschillende technieken om tegenstrijdige berichten aan te kunnen, met name via zijn instructiehiërarchiesysteem. Deze hiërarchie stelt een prioriteitsvolgorde voor berichten vast en zorgt ervoor dat systeemberichten prioriteit krijgen op gebruikersberichten, gespreksgeschiedenis en tooluitgangen [1] [2].

instructiehiërarchie

1. Systeemberichten versus gebruikersberichten: GPT-4.5 is getraind om instructies in systeemberichten te volgen over conflicterende gebruikersberichten. Dit is cruciaal in scenario's waarbij gebruikersinputs kunnen proberen de veiligheidsrichtlijnen te negeren of regels op te formatteren die zijn ingesteld door het systeem [1] [2].

2. Conflictoplossing: het model wordt geëvalueerd op het vermogen om conflicten tussen verschillende soorten berichten op te lossen. Als een systeembericht bijvoorbeeld het model instrueert om geen specifieke zin of wachtwoord te onthullen, en een gebruikersbericht probeert het model te misleiden, is GPT-4.5 ontworpen om zich te houden aan de instructies van het systeembericht [1].

3. Training en evaluatie: GPT-4.5 ondergaat uitgebreide training en evaluatie om ervoor te zorgen dat het complexe scenario's kan verwerken waarbij systeem- en gebruikersberichten conflicten. Dit omvat scenario's waarbij het model moet kiezen tussen het volgen van een systeeminstructie of het verzoek van een gebruiker die het tegenspreekt [1] [2].

Supervised Fine-Tuning (SFT)

GPT-4.5 maakt ook gebruik van begeleide verfijning (SFT), waarbij het model wordt getraind op specifieke voorbeelden waar conflicterende berichten aanwezig zijn. Deze techniek helpt het vermogen van het model te verbeteren om systeeminstructies te herkennen en prioriteren boven gebruikersinvoer, waardoor de prestaties bij het omgaan met conflicterende scenario's [3].

Nieuwe uitlijningstechnieken

Bovendien bevat GPT-4.5 nieuwe uitlijningstechnieken die het begrip van menselijke voorkeuren en intentie vergroten. Deze technieken helpen het model de context en intentie achter zowel systeem- als gebruikersberichten beter te interpreteren, waardoor het beter geïnformeerde beslissingen kan nemen bij het omgaan met conflicten [5].

Over het algemeen combineert de benadering van GPT-4.5 voor het omgaan met conflicterende berichten geavanceerde trainingsmethoden met een gestructureerde hiërarchie van instructies om ervoor te zorgen dat het model prioriteit geeft aan veiligheid en naleving van systeemrichtlijnen.

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good- this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api output-lengte-and-structure/1025132
[5] https://ventureBeat.com/ai/openai-reases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantant_and/