GPT-4.5: Håndtering av motstridende instruksjoner og tilpasningsevne

Kan GPT-4.5 tilpasse seg nye typer motstridende instruksjoner den ikke har blitt opplært på

GPT-4.5 er designet for å håndtere motstridende instruksjoner gjennom et instruksjonshierarki, som prioriterer systemmeldinger fremfor brukermeldinger for å dempe risikoer som hurtig injeksjoner og andre angrep som overstyrer sikkerhetsinstruksjoner [1]. Hvorvidt GPT-4.5 kan tilpasse seg nye typer motstridende instruksjoner den ikke har blitt opplært på, er imidlertid et sammensatt spørsmål.

Trening og evaluering

GPT-4.5 har blitt opplært ved hjelp av nye tilsynsteknikker kombinert med tradisjonelle metoder som overvåket finjustering (SFT) og forsterkningslæring fra menneskelig tilbakemelding (RLHF) [1]. Disse metodene tar sikte på å forbedre modellens tilpasning med brukerens intensjon og dens evne til å følge instruksjonene mer nøyaktig. Modellen er evaluert på forskjellige scenarier der system- og brukermeldinger er i konflikt, og viser forbedringer i forhold til tidligere modeller som GPT-4O [1].

Tilpasningsevne til nye motstridende instruksjoner

Mens GPT-4.5 viser bedre ytelse i håndtering av kjente typer motstridende instruksjoner, avhenger dens evne til å tilpasse seg helt nye typer konflikter av flere faktorer:

1. Generaliseringsevner: GPT-4.5s trening inkluderer skalering av ikke-overvåket læring, noe som forbedrer dens evne til å generalisere og forstå bredere kontekster [1]. Dette kan potensielt hjelpe det med å gjenkjenne mønstre i nye motstridende instruksjoner.

2. Instruksjonshierarki: Modellens instruksjonshierarki er designet for å prioritere systemmeldinger, noe som hjelper til med å opprettholde sikkerhet og overholdelse av forhåndsdefinerte regler. Imidlertid, hvis nye motstridende instruksjoner faller utenfor omfanget av dette hierarkiet, kan modellen slite med å tilpasse seg uten ytterligere trening eller finjustering.

3. Rask prosjektering og stillas: Brukere kan bruke avanserte spørsmål om teknikker eller stillas for å lede modellen mot forståelse og følge nye instruksjoner. Denne tilnærmingen kan bidra til å fremkalle atferd utover det modellen eksplisitt ble trent for [1].

4. Begrensninger og sikkerhetsevalueringer: Til tross for forbedringer, står GPT-4.5 fremdeles overfor utfordringer i håndtering av komplekse eller nye scenarier. Sikkerhetsevalueringer har vist at mens modellen presterer godt på kjente oppgaver, er det alltid en risiko for at den ikke klarer å følge instruksjonene i uforutsette sammenhenger [1].

Konklusjon

Mens GPT-4.5 er mer dyktig enn forgjengerne i håndtering av motstridende instruksjoner, er dens tilpasningsevne til helt nye typer konflikter begrenset av treningsdata og design. Det kan kreve ytterligere finjustering eller kreative spørsmål om strategier for effektivt å håndtere nye scenarier. Den pågående forsknings- og brukerinteraksjonene med GPT-4.5 vil gi mer innsikt i dens evner og begrensninger på dette området.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.antropic.com/m/983c85a201a962f/original/alignment-faking-in-large-fanguage-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/opena-gpt-4-5-narly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/