Jak GPT-4.5 zpracovává konfliktní zprávy s hierarchií instrukcí a doladění

Jaké konkrétní techniky používají GPT-4.5 k zpracování konfliktních zpráv

GPT-4.5 využívá několik technik pro zpracování protichůdných zpráv, zejména prostřednictvím systému hierarchie instrukcí. Tato hierarchie stanoví pořadí priority pro zprávy a zajišťuje, že systémové zprávy jsou upřednostňovány před zprávami uživatele, historií konverzace a výstupy nástrojů [1] [2].

Hierarchie instrukcí

1. Systémové zprávy vs. Zprávy uživatele: GPT-4.5 je vyškolen, aby dodržoval pokyny v systémových zprávách o konfliktních zprávách uživatelů. To je zásadní ve scénářích, kde by se uživatelské vstupy mohly pokusit přepsat bezpečnostní pokyny nebo pravidla formátování stanovená systémem [1] [2].

2. Řešení konfliktů: Model je hodnocen podle jeho schopnosti řešit konflikty mezi různými typy zpráv. Pokud například systémová zpráva instruuje model, aby neodhalil konkrétní frázi nebo heslo, a uživatelská zpráva se pokouší oklamat model k tomu, GPT-4.5 je navržen tak, aby dodržoval pokyny systémové zprávy [1].

3.. Školení a hodnocení: GPT-4.5 podléhá rozsáhlému školení a hodnocení, aby se zajistilo, že zvládne složité scénáře, kde je konflikt systémových a uživatelských zpráv. To zahrnuje scénáře, ve kterých si musí model vybrat mezi dodržováním systémové instrukce nebo žádostí uživatele, který je v rozporu s [1] [2].

Dohled nad jemnou tuningem (SFT)

GPT-4.5 také využívá pod dohledem jemného doladění (SFT), které zahrnuje školení modelu na konkrétních příkladech, kde jsou přítomny protichůdné zprávy. Tato technika pomáhá zlepšit schopnost modelu rozpoznávat a upřednostňovat systémové pokyny oproti uživatelským vstupům a zvyšuje její výkon při řešení protichůdných scénářů [3].

Nové techniky zarovnání

GPT-4.5 navíc zahrnuje nové techniky vyrovnání, které zvyšují pochopení lidských preferencí a záměru. Tyto techniky pomáhají modelu lépe interpretovat kontext a záměr za systémovými i uživatelskými zprávami, což mu umožňuje při manipulaci s konflikty více informovanější rozhodnutí [5].

Celkově přístup GPT-4.5 k manipulaci s konfliktními zprávami kombinuje pokročilé tréninkové metody se strukturovanou hierarchií pokynů, aby se zajistilo, že model upřednostňuje bezpečnost a dodržování systémových pokynů.

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-Model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-utput-length-and-structure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-dere-with--4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toded_down_significaly_and/