GPT-4.5 vs. GPT-4O: Nøgleforbedringer i håndtering af modstridende meddelelser

Hvilke specifikke forbedringer har GPT-4.5 over GPT-4O i håndtering af modstridende meddelelser

GPT-4.5 demonstrerer specifikke forbedringer i forhold til GPT-4O ved håndtering af modstridende meddelelser gennem dets forbedrede instruktionshierarki. Denne funktion gør det muligt for modellen at prioritere systemmeddelelser frem for brugerbeskeder og afbøde risikoen for hurtige injektioner og andre angreb, der kan tilsidesætte sikkerhedsinstruktioner. Her er de vigtigste forbedringer:

1. Instruktionshierarkievaluering: I evalueringer, hvor forskellige typer meddelelser er i konflikt med hinanden, trænes GPT-4.5 til at følge instruktionerne i den højeste prioriterede meddelelse. Dette hjælper modellen med bedre at håndtere scenarier, hvor brugerindgang kan forsøge at omgå sikkerhedsprotokoller.

2. Konfliktløsning: GPT-4.5 overgår generelt GPT-4O i evalueringer, der involverer konflikter mellem system- og brugerbeskeder. Denne forbedring er afgørende for at opretholde sikkerhed og overholdelse af retningslinjer i komplekse samtale -scenarier.

3. tutor-jailbreaks: I et specifikt scenarie, hvor modellen fungerer som matematiklærer, instrueres GPT-4.5 om ikke at afsløre svaret på et matematikspørgsmål. Mens GPT-4.5 ikke overgår GPT-4O i denne særlige evaluering (GPT-4Os nøjagtighed er højere), demonstrerer den stadig robusthed i at modstå forsøg på at narre det til at give uautoriseret information.

4. sætning og adgangskodebeskyttelse: GPT-4.5 viser stærk ydeevne til beskyttelse af specifikke sætninger eller adgangskoder mod at blive afsløret gennem brugeroptagelser. Dette indikerer en bedre evne til at opretholde fortrolighed og overholde sikkerhedsretningslinjer sammenlignet med nogle tidligere modeller.

Generelt er GPT-4.5's forbedringer i håndtering af modstridende meddelelser en del af dens bredere forbedringer i sikkerhed, nuance og samarbejde, hvilket gør det mere effektivt til at opretholde sikre og passende interaktioner [1] [3].

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
)
[3] https://openai.com/index/introducing-trpt-4-5/
)
)
)
[7] https://venturebeat.com/ai/openai-release-tile-th
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/