Ako GPT-4,5 zvláda protichodné správy s hierarchiou výučby a doladením

Aké konkrétne techniky používa GPT-4.5 na zvládnutie konfliktných správ

GPT-4,5 využíva niekoľko techník na zvládnutie konfliktných správ, najmä prostredníctvom systému hierarchie výučby. Táto hierarchia stanovuje prioritné poradie správ, zabezpečuje, aby boli systémové správy prioritné pred používateľskými správami, históriou konverzácie a výstupom nástrojov [1] [2].

výučba hierarchia

1. Systémové správy verzus používateľské správy: GPT-4.5 je vyškolený na dodržiavanie pokynov v systémových správach v súvislosti s protichodnými používateľskými správami. Je to rozhodujúce v scenároch, kde sa vstupy používateľov môžu pokúsiť prepísať bezpečnostné pokyny alebo pravidlá formátovania stanovené systémom [1] [2].

2. Riešenie konfliktov: Model sa hodnotí podľa jeho schopnosti vyriešiť konflikty medzi rôznymi typmi správ. Napríklad, ak systémová správa poveruje model, aby neodhalil špecifickú frázu alebo heslo, a správa používateľa sa pokúša oklamať model, aby to urobil, GPT-4.5 je navrhnutý tak, aby dodržiaval pokyny systémovej správy [1].

3. Tréning a hodnotenie: GPT-4.5 prechádza rozsiahlym školením a hodnotením, aby sa zabezpečilo, že dokáže zvládnuť zložité scenáre, v ktorých konflikty systémov a používateľov. Zahŕňa to scenáre, v ktorých si model musí vybrať medzi dodržiavaním systému systému alebo žiadosťou používateľa, ktorá je v rozpore s [1] [2].

Dohľad nad jemným doladením (SFT)

GPT-4.5 tiež využíva pod dohľadom doladenia (SFT), ktoré zahŕňa školenie modelu na konkrétne príklady, v ktorých sú prítomné protichodné správy. Táto technika pomáha zlepšovať schopnosť modelu rozpoznať a uprednostňovať systémové pokyny pred vstupmi používateľov a zlepšuje jeho výkon pri riešení protichodných scenárov [3].

Nové techniky zarovnania

GPT-4.5 navyše obsahuje nové techniky zarovnania, ktoré zvyšujú jeho chápanie ľudských preferencií a zámeru. Tieto techniky pomáhajú modelu lepšie interpretovať kontext a zámer za systémami a používateľmi, čo mu umožňuje robiť informovanejšie rozhodnutia pri riešení konfliktov [5].

Celkovo sa prístup GPT-4.5 k riešeniu protichodných správ kombinuje pokročilé metódy školenia so štruktúrovanou hierarchiou pokynov, aby sa zabezpečilo, že model uprednostňuje bezpečnosť a dodržiavanie pokynov systému.

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-hishis-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output--dength-and-structure/1025132
[5] https://venturebeat.com/ai/openai-releases--gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/