DeepSeek-R1: A nyelvkeverés leküzdése a megerősítés tanulásával és a finomhangolás felügyelete révén

Hogyan kezeli a DeepSeek-R1 a nyelvkeverési problémákat

A DeepSeek-R1 a nyelvkeverési problémákkal foglalkozik egy többlépcsős edzési folyamaton keresztül, amely ötvözi a megerősítés tanulását (RL) a felügyelt finomhangolással (SFT). Kezdetben a modell egy bázis verzióval (DeepSeek-V3-Base) kezdődik, amelyet finoman beállítva egy kis "hidegindító" adatok felhasználásával, amely elősegíti a különféle nyelvek és kontextusok megértésének strukturált alapjának létrehozását [1] [2] [2] [2] [2] ].

A modell ezután tiszta RL technikákat alkalmaz az érvelési képességek javítására. A képzés során azonban megfigyelték, hogy a nyelvkeverés bekövetkezhet, különösen az angol vagy a kínai nyelven kívüli nyelveken történő lekérdezések kezelése esetén. Például a DeepSeek-R1 az angol nyelven alapértelmezés szerint érvelés és válaszok esetén, még akkor is, ha a bemenet egy másik nyelven van [5] [6]. Ennek enyhítésére a modell az elutasító mintavételt használja a sikeres RL futtatásokból származó szintetikus képzési adatok előállításához, amelyet ezután egyesülnek a különféle domainek magas színvonalú felügyelt adatokkal. Ez a folyamat elősegíti a modell különböző nyelvekhez való alkalmazkodóképességének javítását, és csökkenti a nyelvek keverésének valószínűségét a válaszokban [1] [4].

Ezenkívül a folyamatban lévő kutatás célja a mélyszegély-R1 optimalizálása a jobb teljesítmény érdekében a nyelv szélesebb körében, miközben a vegyes nyelvi bemenetek hatékony kezelésének jelenlegi korlátozásaival foglalkozik. A jövőbeni frissítések várhatóan finomítják annak képességeit ezen a területen, javítva annak reagálását és pontosságát, amikor a felhasználókkal különféle nyelvi kontextusban lépnek kapcsolatba [2] [5].

Idézetek:
[1] https://www.vellum.ai/blog/the-thraining-of-deepseek-r1-and-ways-touse-it
[2] https://adasci.org/mastering-llms-deason-sapbility-with-reepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_aw_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1