DeepSeek-R1 : 강화 학습 및 감독 된 미세 조정을 통한 언어 믹싱 극복

DeepSeek-R1은 언어 혼합 문제를 어떻게 처리합니까?

DeepSeek-R1은 강화 학습 (RL)과 감독 된 미세 조정 (SFT)을 결합한 다단계 교육 프로세스를 통해 언어 혼합 문제를 해결합니다. 처음 에이 모델은 소규모 "콜드 스타트"데이터 세트를 사용하여 미세 조정되는 기본 버전 (DeepSeek-V3-Base)으로 시작하여 다양한 언어와 컨텍스트를 이해하기위한 구조화 된 기반을 구축하는 데 도움이됩니다 [1] [2. ].

그런 다음이 모델은 순수한 RL 기술을 사용하여 추론 기능을 향상시킵니다. 그러나 훈련 중에 특히 영어 나 중국어 이외의 언어로 쿼리를 처리 할 때 언어 믹싱이 발생할 수 있음이 관찰되었습니다. 예를 들어, DeepSeek-R1은 입력이 다른 언어로 된 경우에도 추론과 응답을 위해 영어로 기본값을받을 수 있습니다 [5] [6]. 이를 완화하기 위해이 모델은 거부 샘플링을 사용하여 성공적인 RL 실행에서 합성 교육 데이터를 생성 한 다음 다양한 도메인의 고품질 감독 데이터와 병합됩니다. 이 과정은 모델의 다른 언어에 대한 적응성을 향상시키고 응답에서 언어를 혼합 할 가능성을 줄입니다 [1] [4].

또한 진행중인 연구는 더 넓은 범위의 언어에 걸쳐 더 나은 성능을 위해 DeepSeek-R1을 최적화하는 동시에 혼합 언어 입력을 효과적으로 처리하는 데있어 현재의 한계를 해결하는 것을 목표로합니다. 향후 업데이트는이 분야의 기능을 개선하여 다양한 언어 적 맥락에서 사용자와 상호 작용할 때 응답 성과 정확성을 향상시킬 것으로 예상됩니다 [2] [5].

인용 :
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://adasci.org/mastering-llms-rissoning-capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1