GPT-4.5: Manipulace s konfliktními pokyny a přizpůsobivost

Může se GPT-4.5 přizpůsobit novým typům konfliktních pokynů, na kterých nebyl vyškolen

GPT-4.5 je navržen tak, aby zpracovával konfliktní pokyny prostřednictvím hierarchie instrukcí, která upřednostňuje systémové zprávy před uživatelskými zprávami, aby zmírnila rizika, jako jsou rychlé injekce a další útoky, které převažují bezpečnostní pokyny [1]. Ať už se však GPT-4.5 může přizpůsobit novým typům protichůdných pokynů, na kterých nebyl vyškolen, je složitá otázka.

školení a hodnocení

GPT-4.5 byl vyškolen pomocí nových technik dohledu v kombinaci s tradičními metodami, jako je pod dohledem jemného doladění (SFT) a posílení učení z lidské zpětné vazby (RLHF) [1]. Cílem těchto metod je zlepšit vyrovnání modelu s úmyslem uživatele a jeho schopnost přesněji dodržovat pokyny. Model byl vyhodnocen v různých scénářích, kde se konflikuje systémové a uživatelské zprávy, což ukazuje na zlepšení oproti předchozím modelům, jako je GPT-4o [1].

Adaptabilita novým konfliktním pokynům

Zatímco GPT-4.5 prokazuje lepší výkon při manipulaci s známými typy konfliktních pokynů, jeho schopnost přizpůsobit se zcela novým typům konfliktů závisí na několika faktorech:

1. Generalizační schopnosti: Školení GPT-4.5 zahrnuje škálování učení bez dozoru, což zvyšuje jeho schopnost zobecnit a porozumět širším kontextům [1]. To by mohlo potenciálně pomoci rozpoznat vzorce v nových protichůdných pokynech.

2. Hierarchie instrukcí: Hierarchie instrukcí modelu je navržena tak, aby upřednostňovala systémové zprávy, což pomáhá udržovat bezpečnost a dodržování předdefinovaných pravidel. Pokud však nové konfliktní pokyny nespadnou mimo rozsah této hierarchie, může se model snažit přizpůsobit se bez dalšího školení nebo doladění.

3. rychlé inženýrství a lešení: Uživatelé mohou používat pokročilé techniky výzvy nebo lešení, aby mohli model vést k porozumění a dodržování nových pokynů. Tento přístup může pomoci vyvolat chování nad rámec toho, na co byl model výslovně vyškolen pro [1].

4. Omezení a hodnocení bezpečnosti: Navzdory zlepšením GPT-4.5 stále čelí výzvám při řešení složitých nebo nových scénářů. Hodnocení bezpečnosti ukázala, že zatímco model funguje dobře na známých úkolech, vždy existuje riziko, že nedodrží pokyny v nepředvídaných kontextech [1].

Závěr

Zatímco GPT-4.5 je schopnější než jeho předchůdci při řešení protichůdných pokynů, jeho přizpůsobivost zcela nové typy konfliktů je omezena jeho údaji o školení a designu. Může to vyžadovat další jemné nebo kreativní výzvy k efektivnímu zpracování nových scénářů. Probíhající výzkum a interakce uživatelů s GPT-4.5 poskytne více vhled do jeho schopností a omezení v této oblasti.

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983C85A201A962F/original/alignment-faking-in-large-Language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-early-here
[6] https://community.openai.com/t/GPT-4O-not-folling-Simp- and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toded_down_significaly_and/