GPT-4.5 Instruksjonshierarki: Håndtering av motstridende meldinger

Hvordan håndterer GPT-4.5 motstridende instruksjoner mellom system- og brukermeldinger

GPT-4.5 er designet for å håndtere motstridende instruksjoner mellom system og brukermeldinger gjennom et instruksjonshierarki. Dette hierarkiet hjelper modellen med å prioritere systemmeldinger fremfor brukermeldinger for å dempe risikoer forbundet med motstridende spørsmål, for eksempel hurtige injeksjoner eller andre angrep som kan overstyre modellens sikkerhetsinstruksjoner.

Nøkkelfunksjoner i instruksjonshierarkiet

1. Meldingsklassifisering: GPT-4.5 skiller mellom to typer meldinger: Systemmeldinger og brukermeldinger. Systemmeldinger anses som høyere autoritet og brukes til å angi sikkerhetsretningslinjer eller spesifikke instruksjoner for modellen.

2. Konfliktløsning: Når system- og brukermeldinger er i konflikt, blir GPT-4.5 opplært til å følge instruksjonene i systemmeldingen. Dette sikrer at modellen holder seg til sikkerhetsretningslinjer og ikke driver med skadelige eller ikke tillatte aktiviteter.

3. Evaluering og trening: Modellen blir evaluert på sin evne til å håndtere konflikter gjennom forskjellige scenarier. For eksempel, i et scenario der modellen blir instruert om ikke å gi bort svaret på et matematikkproblem (systemmelding), og brukeren prøver å lure det til å gjøre det (brukermelding), må GPT-4.5 motstå brukerens forsøk og følge systeminstruksjonen.

4. Ytelsen: GPT-4.5 fungerer generelt bra i disse evalueringene, og viser en forbedring i forhold til tidligere modeller som GPT-4O i håndtering av systembruker-meldingskonflikter. Imidlertid er det spesifikke scenarier der det kanskje ikke fungerer så bra som GPT-4O eller GPT-4O1, for eksempel i visse jailbreak-tester der det lures til å avsløre informasjon, skal den ikke [1] [7].

Sikkerhetsevalueringer

GPT-4.5 gjennomgår strenge sikkerhetsevalueringer for å sikre at den ikke genererer ikke tillatt innhold, for eksempel hatefulle eller ulovlige råd. Disse evalueringene vurderer også modellens tendens til å overskrive godartede spørsmål knyttet til sikkerhetsemner. Modellens ytelse på disse områdene er avgjørende for å opprettholde sin sikkerhet og pålitelighet når man håndterer motstridende instruksjoner [1].

Modellspesifikasjoner og autoritetsnivåer

Modellspesifikasjonen skisserer myndighetsnivåene for forskjellige typer instruksjoner, med instruksjoner på plattformnivå som har den høyeste autoritet, etterfulgt av utvikler- og brukerinstruksjoner. Dette hierarkiet sikrer at GPT-4.5 prioriterer sikkerhet og overholder retningslinjer mens de fremdeles tillater tilpasning av brukere og utviklere innenfor faste grenser [2] [5].

Totalt sett er GPT-4.5s evne til å håndtere motstridende instruksjoner et sentralt aspekt av designen, og sikre at den opprettholder sikkerhet og integritet mens du samhandler med brukere.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.
[6] https://fortune.com/2025/02/14/sam-oLTMAN-OMENII-PLANS-GPT-5-RELEASE----timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_geting_worse/