Deepseek-r1: superando a mistura de idiomas através da aprendizagem de reforço e ajuste fino supervisionado

Como o DeepSeek-R1 lida com problemas de mistura de linguagem

Deepseek-r1 aborda questões de mistura de idiomas por meio de um processo de treinamento em várias etapas que combina o aprendizado de reforço (RL) com o ajuste fino supervisionado (SFT). Inicialmente, o modelo começa com uma versão base (Deepseek-V3-Base) que é ajustada usando um pequeno conjunto de dados de "partida a frio", que ajudam a estabelecer uma base estruturada para entender diversas linguagens e contextos [1] [2 ].

O modelo então emprega técnicas puras de RL para aprimorar seus recursos de raciocínio. No entanto, durante o treinamento, observou -se que a mistura de idiomas poderia ocorrer, principalmente ao lidar com consultas em outros idiomas que não o inglês ou o chinês. Por exemplo, o Deepseek-R1 pode padrão para o inglês para raciocínio e respostas, mesmo que a entrada esteja em outro idioma [5] [6]. Para mitigar isso, o modelo utiliza amostragem de rejeição para gerar dados de treinamento sintético a partir de execuções bem-sucedidas da RL, que são mescladas com dados supervisionados de alta qualidade de vários domínios. Esse processo ajuda a melhorar a adaptabilidade do modelo a diferentes idiomas e reduz a probabilidade de misturar linguagens nas respostas [1] [4].

Além disso, a pesquisa em andamento tem como objetivo otimizar o Deepseek-R1 para um melhor desempenho em uma gama mais ampla de idiomas, abordando suas limitações atuais no manuseio de entradas de língua mista de maneira eficaz. Espera -se que atualizações futuras refinem seus recursos nessa área, aumentando sua capacidade de resposta e precisão ao interagir com os usuários em diversos contextos linguísticos [2] [5].

Citações:
[1] https://www.vellum.ai/blog/the-trening-ofdeeek-r1-and-ways-to-use-it
[2] https://adasci.org/mastering-llms-reasoning-capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1