GPT-4.5 Instruktionshierarki: Håndtering af modstridende meddelelser

Hvordan håndterer GPT-4.5 modstridende instruktioner mellem system- og brugerbeskeder

GPT-4.5 er designet til at håndtere modstridende instruktioner mellem system- og brugerbeskeder gennem et instruktionshierarki. Dette hierarki hjælper modellen med at prioritere systemmeddelelser frem for brugerbeskeder for at afbøde risici forbundet med modstridende prompter, såsom hurtige injektioner eller andre angreb, der kan tilsidesætte modellens sikkerhedsinstruktioner.

Nøglefunktioner i instruktionshierarkiet

1. Meddelelsesklassificering: GPT-4.5 skelner mellem to typer meddelelser: Systemmeddelelser og brugerbeskeder. Systemmeddelelser betragtes som højere myndighed og bruges til at indstille sikkerhedsretningslinjer eller specifikke instruktioner til modellen.

2. Konfliktløsning: Når system- og brugerbeskeder er i konflikt, trænes GPT-4.5 til at følge instruktionerne i systemmeddelelsen. Dette sikrer, at modellen overholder sikkerhedsretningslinjerne og ikke deltager i skadelige eller ikke -tilladte aktiviteter.

3. Evaluering og træning: Modellen evalueres om dens evne til at håndtere konflikter gennem forskellige scenarier. F.eks. I et scenarie, hvor modellen instrueres om ikke at give væk svaret på et matematikproblem (systemmeddelelse), og brugeren forsøger at narre den til at gøre det (brugermeddelelse), skal GPT-4.5 modstå brugerens forsøg og følge systeminstruktionen.

4. Performance: GPT-4.5 fungerer generelt godt i disse evalueringer, hvilket viser en forbedring i forhold til tidligere modeller som GPT-4O i håndtering af systembrugermeddelelseskonflikter. Der er dog specifikke scenarier, hvor det muligvis ikke fungerer så godt som GPT-4O eller GPT-4O1, såsom i visse jailbreak-tests, hvor det bliver narret til at afsløre information, det ikke burde [1] [7].

Sikkerhedsevalueringer

GPT-4.5 gennemgår strenge sikkerhedsevalueringer for at sikre, at den ikke genererer ikke tilladt indhold, såsom hadefuldt eller ulovligt råd. Disse evalueringer vurderer også modellens tendens til at overrefuse godartede prompter relateret til sikkerhedsemner. Modellens ydelse i disse områder er kritisk for at opretholde dens sikkerhed og pålidelighed, når man håndterer modstridende instruktioner [1].

Model spec og autoritetsniveauer

Modelspecifikationen skitserer myndighedsniveauerne for forskellige typer instruktioner, hvor instruktioner på platformniveau har den højeste autoritet, efterfulgt af udvikler og brugerinstruktioner. Dette hierarki sikrer, at GPT-4.5 prioriterer sikkerhed og overholder retningslinjer, mens de stadig tillader tilpasning af brugere og udviklere inden for faste grænser [2] [5].

Generelt er GPT-4.5s evne til at håndtere modstridende instruktioner et vigtigt aspekt af dets design, hvilket sikrer, at det opretholder sikkerhed og integritet, mens du interagerer med brugerne.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/How-to-Deal-with-Lazy-GPT-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-i-will-finally-start-covering-controversial-topics/
)
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/