GPT-4.5 Instrukcijos hierarchija: prieštaringų pranešimų tvarkymas

Kaip GPT-4.5 tvarko prieštaringas instrukcijas tarp sistemos ir vartotojo pranešimų

GPT-4.5 yra skirtas tvarkyti prieštaringas instrukcijas tarp sistemos ir vartotojo pranešimų per instrukcijų hierarchiją. Ši hierarchija padeda modeliui nustatyti prioritetą sistemos pranešimams, o ne vartotojo pranešimams, siekiant sušvelninti riziką, susijusią su prieštaringais raginimais, pavyzdžiui, raginimais, tokiais kaip greitos injekcijos ar kitos atakos, kurios gali nepaisyti modelio saugos instrukcijų.

pagrindinės instrukcijų hierarchijos savybės

1. Pranešimų klasifikacija: GPT-4.5 išskiria dviejų tipų pranešimus: sistemos pranešimai ir vartotojo pranešimai. Sistemos pranešimai laikomi aukštesnėmis autoritetais ir naudojami nustatant saugos gaires ar konkrečias modelio instrukcijas.

2. Konfliktų sprendimas: Kai konfliktuoja sistemos ir vartotojo pranešimai, GPT-4.5 yra mokomas vykdyti sistemos pranešimo instrukcijas. Tai užtikrina, kad modelis laikysis saugos gairių ir neužsiima kenksminga ar neleista veikla.

3. Vertinimas ir mokymas: modelis įvertinamas pagal jo sugebėjimą tvarkyti konfliktus per įvairius scenarijus. Pvz., Scenarijuje, kai modeliui nurodoma neatsisakyti atsakymo į matematikos problemą (sistemos pranešimas), o vartotojas bando jį apgauti, kad tai darytų (vartotojo pranešimas), GPT-4.5 turi atsispirti vartotojo bandymui ir vykdyti sistemos instrukcijas.

4. Našumas: GPT-4.5 paprastai atlieka gerai atliekant šiuos vertinimus, parodydamas, kad pagerėjo ankstesni modeliai, tokie kaip „GPT-4o“ tvarkant sistemos vartotojo pranešimų konfliktus. Tačiau yra specifinių scenarijų, kai jis gali ne taip gerai, kaip GPT-4O ar GPT-4O1, pavyzdžiui, atliekant tam tikrus „jailbreak“ testus, kuriuose jis apgaudinėja informaciją, ji neturėtų [1] [7].

Saugos vertinimai

GPT-4.5 atliekamas griežtas saugos įvertinimas, siekiant užtikrinti, kad jis nesukurtų neleistino turinio, pavyzdžiui, neapykantos ar neteisėtos patarimo. Šie vertinimai taip pat įvertina modelio polinkį į per daug gerybinius raginimus, susijusius su saugos temomis. Modelio našumas šiose srityse yra labai svarbus norint išlaikyti savo saugumą ir patikimumą tvarkant prieštaringas instrukcijas [1].

modelio specifikacijos ir valdžios lygiai

„Model Spec“ apibūdina įvairių tipų instrukcijų autoritetų lygius, o platformos lygio instrukcijos turi aukščiausią autoritetą, po to-kūrėjo ir vartotojo instrukcijos. Ši hierarchija užtikrina, kad GPT-4.5 teikia pirmenybę saugai ir laikosi gairių, tuo pačiu leidžia vartotojams ir kūrėjams pritaikyti nustatytas ribas [2] [5].

Apskritai, GPT-4.5 gebėjimas tvarkyti prieštaringas instrukcijas yra pagrindinis jo dizaino aspektas, užtikrinantis, kad jis palaiko saugumą ir sąžiningumą, sąveikaudamas su vartotojais.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/hhow-to-deal-with Lazy-GPT-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans gpt-5-release-imelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/