Deepseek-R1: surmonter le mélange de langue par l'apprentissage du renforcement et le réglage fin supervisé

Comment Deepseek-R1 gère-t-il les problèmes de mélange de langage

Deepseek-R1 résout les problèmes de mélange de langues grâce à un processus de formation en plusieurs étapes qui combine l'apprentissage du renforcement (RL) avec un réglage fin supervisé (SFT). Initialement, le modèle commence par une version de base (profonde-base-V3) qui est affinée à l'aide d'un petit ensemble de données "de démarrage à froid", qui aide à établir une base structurée pour comprendre diverses langues et contextes [1] [2 ].

Le modèle utilise ensuite des techniques RL pures pour améliorer ses capacités de raisonnement. Cependant, pendant la formation, il a été observé que le mélange de langues pouvait se produire, en particulier lors de la gestion des requêtes dans des langues autres que l'anglais ou le chinois. Par exemple, Deepseek-R1 peut par défaut en anglais pour le raisonnement et les réponses même si l'entrée est dans une autre langue [5] [6]. Pour atténuer cela, le modèle utilise un échantillonnage de rejet pour générer des données de formation synthétiques à partir de exécutions RL réussies, qui est ensuite fusionnée avec des données supervisées de haute qualité à partir de divers domaines. Ce processus permet d'améliorer l'adaptabilité du modèle à différentes langues et réduit la probabilité de mélange des langues dans les réponses [1] [4].

En outre, la recherche en cours vise à optimiser Deepseek-R1 pour de meilleures performances dans une gamme plus large de langues tout en abordant efficacement ses limites actuelles dans la gestion des entrées mixtes. Les mises à jour futures devraient affiner ses capacités dans ce domaine, améliorant sa réactivité et sa précision lors de l'interaction avec les utilisateurs dans divers contextes linguistiques [2] [5].

Citations:
[1] https://www.vellum.ai/blog/the-training-of-epseek-r1-and-ways-to-use-it
[2] https://adasci.org/mastering-llms-asoning-capability-with-deepseek-r1//
[3] https://www.reddit.com/r/localllama/comments/1igr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activité
[8] https://arxiv.org/html/2501.17030v1