Hvordan GPT-4.5 håndterer modstridende beskeder med instruktionshierarki og finjustering

Hvilke specifikke teknikker bruger GPT-4.5 til at håndtere modstridende meddelelser

GPT-4.5 anvender flere teknikker til at håndtere modstridende meddelelser, især gennem dets instruktionshierarkisystem. Dette hierarki fastlægger en prioriteret rækkefølge for meddelelser, der sikrer, at systemmeddelelser prioriteres frem for brugerbeskeder, samtalehistorie og værktøjsudgange [1] [2].

Instruktionshierarki

1. Systemmeddelelser vs. brugerbeskeder: GPT-4.5 er uddannet til at følge instruktionerne i systemmeddelelser over modstridende brugermeddelelser. Dette er afgørende i scenarier, hvor brugerinput kan forsøge at tilsidesætte sikkerhedsretningslinjer eller formateringsregler, der er fastsat af systemet [1] [2].

2. Konfliktløsning: Modellen evalueres om dens evne til at løse konflikter mellem forskellige typer meddelelser. For eksempel, hvis en systemmeddelelse instruerer modellen om ikke at afsløre en bestemt sætning eller adgangskode, og en brugermeddelelse forsøger at narre modellen til at gøre det, er GPT-4.5 designet til at overholde systemmeddelelsens instruktioner [1].

3. Uddannelse og evaluering: GPT-4.5 gennemgår omfattende træning og evaluering for at sikre, at det kan håndtere komplekse scenarier, hvor system- og brugerbeskeder er i konflikt. Dette inkluderer scenarier, hvor modellen skal vælge mellem at følge en systeminstruktion eller en brugers anmodning, der modsiger den [1] [2].

Overvåget finjustering (SFT)

GPT-4.5 bruger også overvåget finjustering (SFT), som involverer træning af modellen til specifikke eksempler, hvor modstridende meddelelser er til stede. Denne teknik hjælper med at forbedre modellens evne til at genkende og prioritere systeminstruktioner frem for brugerinput og forbedre dens ydelse i håndtering af modstridende scenarier [3].

Nye justeringsteknikker

Derudover indeholder GPT-4.5 nye tilpasningsteknikker, der forbedrer dens forståelse af menneskelige præferencer og intention. Disse teknikker hjælper modellen bedre med at fortolke konteksten og intentionen bag både system- og brugerbeskeder, hvilket giver den mulighed for at tage mere informerede beslutninger, når man håndterer konflikter [5].

Generelt kombinerer GPT-4.5s tilgang til håndtering af modstridende meddelelser avancerede træningsmetoder med et struktureret hierarki af instruktioner for at sikre, at modellen prioriterer sikkerhed og overholdelse af systemretningslinjer.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-mprove-trpt-4-api-output-længde-and-struktur/1025132
[5] https://venturebeat.com/ai/openai-release-thils-th
[6] https://community.openai.com/t/How-to-Deal-with-Lazy-GPT-4/689286
[7] https://openai.com/index/introducing-trpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/