DeepSeek-R1-Zero는 강화 학습을 통해 추론 능력의 상당한 발전을 보여 주면서 몇 가지 주목할만한 한계가 있습니다.
** 언어 믹싱 및 일관성 문제 : 주요 과제 중 하나는 언어, 특히 영어와 중국어를 혼합하는 출력을 생성하는 모델의 경향입니다. 이로 인해 특히 입력 쿼리가 단일 언어 일 때 [1] [4]에있을 때는 일관성이 없거나 이해하기 어려운 응답이 발생합니다.
** 가독성 불량 : 모델 출력의 가독성이 종종 손상됩니다. 사용자는 서식 및 명확성에 관한 문제를보고하여 모델이 제공 한 추론 프로세스 또는 최종 답변을 따르기가 어렵습니다 [3] [5].
** 감독 된 미세 조정 부족 : DeepSeek-R1-Zero는 초기 감독 된 미세 조정없이 개발되었으며, 이는 완전히 연마되고 인간적으로 정렬 된 출력을 생성하는 능력을 제한합니다. 이러한 개선의 부재는 감독 된 학습 기술을 포함하는 모델에 비해 신뢰할만한 반응을 초래할 수있다 [1] [3].
** 끝없는 반복 :이 모델은 때때로 반응에서 반복적 인 행동을 나타내며, 이는 전반적인 사용자 경험과 의사 소통의 효과를 방해 할 수 있습니다 [5] [7].
** 코딩 작업의 성능 변동성 : DeepSeek-R1-Zero는 추론 작업에서 강력한 성능을 보여 주지만 코딩 문제에 대해 잘 수행하지 않으므로 모든 작업 유형에 따라 기능이 강력하지 않을 수 있습니다 [1] [2].
이러한 한계는 추가 개발 노력을 불러 일으켜 DeepSeek-R1의 생성으로 이어졌으며, 이는 감독 된 기술을 통합하고 전반적인 성능을 향상시켜 이러한 단점을 해결하는 것을 목표로합니다.
인용 :[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[2] https://arxiv.org/html/2501.12948v1
[3] https://www.gocodeo.com/post/deepseek-r1-and-deepseek-r1-zero
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://huggingface.co/deepseek-ai/deepseek-r1-zero
[6] https://adasci.org/mastering-llms-reasoning-capability-with-deepseek-r1/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://arxiv.org/pdf/2501.12948.pdf