Hvordan GPT-4.5 håndterer motstridende meldinger med instruksjonshierarki og finjustering

Hvilke spesifikke teknikker bruker GPT-4.5 for å håndtere motstridende meldinger

GPT-4.5 bruker flere teknikker for å håndtere motstridende meldinger, spesielt gjennom instruksjonshierarkisystemet. Dette hierarkiet etablerer en prioritert ordre for meldinger, og sikrer at systemmeldinger prioriteres fremfor brukermeldinger, samtalehistorikk og verktøyutganger [1] [2].

Instruksjonshierarki

1. Systemmeldinger kontra brukermeldinger: GPT-4.5 er opplært til å følge instruksjonene i systemmeldinger over motstridende brukermeldinger. Dette er avgjørende i scenarier der brukerinnganger kan forsøke å overstyre sikkerhetsretningslinjer eller formatering av regler satt av systemet [1] [2].

2. Konfliktløsning: Modellen blir evaluert på sin evne til å løse konflikter mellom forskjellige typer meldinger. For eksempel, hvis en systemmelding instruerer modellen ikke å avsløre en spesifikk setning eller passord, og en brukermelding prøver å lure modellen til å gjøre det, er GPT-4.5 designet for å følge systemmeldingens instruksjoner [1].

3. Trening og evaluering: GPT-4.5 gjennomgår omfattende opplæring og evaluering for å sikre at den kan håndtere komplekse scenarier der system- og brukermeldinger er i konflikt. Dette inkluderer scenarier der modellen må velge mellom å følge en systeminstruksjon eller en brukers forespørsel som motsier den [1] [2].

Overvåket finjustering (SFT)

GPT-4.5 bruker også overvåket finjustering (SFT), som innebærer å trene modellen på spesifikke eksempler der motstridende meldinger er til stede. Denne teknikken bidrar til å forbedre modellens evne til å gjenkjenne og prioritere systeminstruksjoner fremfor brukerinnganger, og forbedrer ytelsen i håndtering av motstridende scenarier [3].

Nye justeringsteknikker

I tillegg inkluderer GPT-4.5 nye justeringsteknikker som forbedrer forståelsen av menneskelige preferanser og intensjoner. Disse teknikkene hjelper modellen bedre å tolke konteksten og intensjonen bak både system- og brukermeldinger, slik at den kan ta mer informerte beslutninger når de håndterer konflikter [5].

Totalt sett kombinerer GPT-4.5s tilnærming til håndtering av motstridende meldinger avanserte treningsmetoder med et strukturert hierarki av instruksjoner for å sikre at modellen prioriterer sikkerhet og overholdelse av systemretningslinjene.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-dhismodel-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/