GPT-4.5: Håndtering af modstridende instruktioner og tilpasningsevne

Kan GPT-4.5 tilpasse sig nye typer af modstridende instruktioner, som det ikke er blevet trænet på

GPT-4.5 er designet til at håndtere modstridende instruktioner gennem et instruktionshierarki, der prioriterer systemmeddelelser frem for brugerbeskeder for at afbøde risici som hurtige injektioner og andre angreb tilsidesættende sikkerhedsinstruktioner [1]. Hvorvidt GPT-4.5 kan tilpasse sig nye typer modstridende instruktioner, er det ikke blevet trænet på, et komplekst spørgsmål.

Uddannelse og evaluering

GPT-4.5 er blevet trænet ved hjælp af nye tilsynsteknikker kombineret med traditionelle metoder som overvåget finjustering (SFT) og forstærkningslæring fra menneskelig feedback (RLHF) [1]. Disse metoder sigter mod at forbedre modellens tilpasning til brugerens intention og dens evne til at følge instruktionerne mere præcist. Modellen er blevet evalueret på forskellige scenarier, hvor system- og brugerbeskeder er i konflikt med forbedringer i forhold til tidligere modeller som GPT-4O [1].

Tilpasningsevne til nye modstridende instruktioner

Mens GPT-4.5 demonstrerer bedre ydeevne i håndtering af kendte typer af modstridende instruktioner, afhænger dens evne til at tilpasse sig helt nye typer konflikter af flere faktorer:

1. generaliseringsfunktioner: GPT-4.5s træning inkluderer skalering af uovervåget læring, hvilket forbedrer dens evne til at generalisere og forstå bredere kontekster [1]. Dette kan potentielt hjælpe det med at genkende mønstre i nye modstridende instruktioner.

2. Instruktionshierarki: Modelens instruktionshierarki er designet til at prioritere systemmeddelelser, som hjælper med at opretholde sikkerhed og overholdelse af foruddefinerede regler. Men hvis nye modstridende instruktioner falder uden for dette hierarkiområde, kan modellen muligvis kæmpe for at tilpasse sig uden yderligere træning eller finjustering.

3. hurtig teknik og stilladser: Brugere kan anvende avancerede tilskyndelsesteknikker eller stilladser til at vejlede modellen mod forståelse og efter nye instruktioner. Denne tilgang kan hjælpe med at fremkalde adfærd ud over, hvad modellen eksplicit blev trænet til [1].

4. Begrænsninger og sikkerhedsevalueringer: På trods af forbedringer står GPT-4.5 stadig over for udfordringer i håndtering af komplekse eller nye scenarier. Sikkerhedsevalueringer har vist, at selvom modellen fungerer godt på kendte opgaver, er der altid en risiko for, at den ikke følger instruktionerne i uforudsete sammenhænge [1].

Konklusion

Mens GPT-4.5 er mere i stand end sine forgængere i at håndtere modstridende instruktioner, er dens tilpasningsevne til helt nye typer konflikter begrænset af dens træningsdata og design. Det kan kræve yderligere finjustering eller kreative tilskyndelsesstrategier til effektivt at håndtere nye scenarier. Den igangværende forskning og brugerinteraktioner med GPT-4.5 vil give mere indsigt i dens kapaciteter og begrænsninger på dette område.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-trpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/