GPT-4.5: Hantera motstridiga instruktioner och anpassningsförmåga

Kan GPT-4,5 anpassa sig till nya typer av motstridiga instruktioner som den inte har utbildats på

GPT-4.5 är utformad för att hantera motstridiga instruktioner genom en instruktionshierarki, som prioriterar systemmeddelanden framför användarmeddelanden för att mildra risker som snabba injektioner och andra attacker som åsidosätter säkerhetsinstruktioner [1]. Huruvida GPT-4,5 kan anpassa sig till nya typer av motstridiga instruktioner har det inte utbildats på är en komplex fråga.

Utbildning och utvärdering

GPT-4.5 har tränats med nya övervakningstekniker i kombination med traditionella metoder som övervakad finjustering (SFT) och förstärkningslärande från mänsklig feedback (RLHF) [1]. Dessa metoder syftar till att förbättra modellens anpassning till användarens avsikt och dess förmåga att följa instruktionerna mer exakt. Modellen har utvärderats på olika scenarier där system- och användarmeddelanden konflikter, vilket visar förbättringar jämfört med tidigare modeller som GPT-4O [1].

Anpassningsförmåga till nya motstridiga instruktioner

Medan GPT-4.5 visar bättre prestanda vid hantering av kända typer av motstridiga instruktioner, beror dess förmåga att anpassa sig till helt nya typer av konflikter på flera faktorer:

1. Generaliseringsfunktioner: GPT-4,5: s utbildning inkluderar skalning oövervakad lärande, vilket förbättrar dess förmåga att generalisera och förstå bredare sammanhang [1]. Detta kan potentiellt hjälpa det att känna igen mönster i nya motstridiga instruktioner.

2. Instruktionshierarki: Modellens instruktionshierarki är utformad för att prioritera systemmeddelanden, vilket hjälper till att upprätthålla säkerhet och efterlevnad av fördefinierade regler. Men om nya motstridiga instruktioner faller utanför räckvidden för denna hierarki, kan modellen kämpa för att anpassa sig utan ytterligare träning eller finjustering.

3. Snabbteknik och byggnadsställningar: Användare kan använda avancerade uppmaningstekniker eller byggnadsställningar för att vägleda modellen mot förståelse och följa nya instruktioner. Detta tillvägagångssätt kan hjälpa till att framkalla beteenden utöver vad modellen uttryckligen tränades för [1].

4. Begränsningar och säkerhetsutvärderingar: Trots förbättringar står GPT-4.5 fortfarande möter utmaningar när det gäller att hantera komplexa eller nya scenarier. Säkerhetsutvärderingar har visat att även om modellen presterar väl på kända uppgifter, finns det alltid en risk för att den inte följer instruktionerna i oförutsedda sammanhang [1].

Slutsats

Medan GPT-4.5 är mer kapabel än sina föregångare vid hantering av motstridiga instruktioner, är dess anpassningsförmåga till helt nya typer av konflikter begränsad av dess träningsdata och design. Det kan kräva ytterligare finjusterings- eller kreativa uppmaningsstrategier för att effektivt hantera nya scenarier. De pågående forsknings- och användarinteraktioner med GPT-4,5 kommer att ge mer insikt i dess kapacitet och begränsningar inom detta område.

Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instruktioner/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/