GPT-4.5: Riešenie protichodných pokynov a prispôsobivosti

Môže sa GPT-4,5 prispôsobiť novým typom protichodných pokynov, na ktorých nebola vyškolená

GPT-4.5 je navrhnutý tak, aby zvládal konfliktné pokyny prostredníctvom hierarchie inštrukcií, ktorá uprednostňuje systémové správy pred používateľskými správami, aby sa zmiernili riziká, ako sú rýchle injekcie a ďalšie útoky, ktoré prechádzajú bezpečnostné pokyny [1]. Zložitá otázka je však zložitá otázka, či sa GPT-4,5 dokáže prispôsobiť novým typom protichodných pokynov, na ktorých nebola vyškolená.

školenie a hodnotenie

GPT-4,5 bol vyškolený pomocou nových techník dohľadu v kombinácii s tradičnými metódami, ako je jemné doladenie pod dohľadom (SFT) a posilňovacie učenie sa od ľudskej spätnej väzby (RLHF) [1]. Cieľom týchto metód je zlepšiť vyrovnanie modelu s úmyslom používateľa a jeho schopnosťou presnejšie postupovať podľa pokynov. Model bol vyhodnotený v rôznych scenároch, v ktorých konflikty systémov a používateľov konfliktujú, čo ukazuje vylepšenia oproti predchádzajúcim modelom, ako je GPT-4O [1].

Adaptabilita na nové konfliktné pokyny

Zatiaľ čo GPT-4.5 demonštruje lepší výkon pri riešení známych typov konfliktných pokynov, jeho schopnosť prispôsobiť sa úplne novým typom konfliktov závisí od niekoľkých faktorov:

1. Zovšeobecnenie: školenie GPT-4,5 zahŕňa škálovanie bez dozoru, ktoré zvyšuje jeho schopnosť zovšeobecniť a porozumieť širším kontextom [1]. To by mohlo potenciálne pomôcť rozpoznať vzorce v nových konfliktných pokynoch.

2. Výučba Hierarchia: Hierarchia inštrukcií modelu je navrhnutá tak, aby uprednostňovala systémy, čo pomáha pri udržiavaní bezpečnosti a dodržiavania preddefinovaných pravidiel. Ak však nové konfliktné pokyny spadajú mimo rozsah tejto hierarchie, model by sa mohol snažiť prispôsobiť sa bez ďalšieho tréningu alebo doladenia.

3. Prámové inžinierstvo a lešenie: Používatelia môžu využívať pokročilé techniky vyvolania alebo lešenie na usmernenie modelu smerom k porozumeniu a dodržiavaniu nových pokynov. Tento prístup môže pomôcť vyvolať správanie nad rámec toho, čo bol model výslovne vyškolený pre [1].

4. Obmedzenia a hodnotenia bezpečnosti: Napriek vylepšeniu GPT-4,5 stále čelí výzvam pri riešení zložitých alebo nových scenárov. Hodnotenia bezpečnosti ukázali, že zatiaľ čo model funguje dobre pri známych úlohách, vždy existuje riziko, že sa nedodržiava pokyny v nepredvídaných kontextoch [1].

Záver

Zatiaľ čo GPT-4,5 je schopnejšia ako jej predchodcovia pri riešení protichodných pokynov, jeho prispôsobivosť na úplne nové typy konfliktov je obmedzená údajmi a dizajnom odbornej prípravy. Môže si vyžadovať ďalšie stratégie doladenia alebo kreatívneho vyvolania na efektívne zvládnutie nových scenárov. Prebiehajúce výskumné a interakcie používateľov s GPT-4.5 poskytnú viac pohľadov na jeho schopnosti a obmedzenia v tejto oblasti.

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-faaking-in-large-Language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-5-early-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/