Deepseek-r1-zéro: avancées et limitations de raisonnement et de performance

Quelles sont les principales limites de Deepseek-R1-Zero

DeepSeek-R1-Zero, while demonstrating significant advancements in reasoning capabilities through reinforcement learning, has several notable limitations:

**Language Mixing and Coherence Issues: One of the primary challenges is the model's tendency to produce outputs that mix languages, particularly English and Chinese. Il en résulte des réponses qui peuvent être incohérentes ou difficiles à comprendre, en particulier lorsque la requête d'entrée est dans une seule langue [1] [4].

** Une mauvaise lisibilité: la lisibilité des sorties du modèle est souvent compromise. Users have reported issues with formatting and clarity, making it hard to follow the reasoning process or the final answers provided by the model[3][5].

**Lack of Supervised Fine-Tuning: DeepSeek-R1-Zero was developed without any initial supervised fine-tuning, which limits its ability to generate fully polished and human-aligned outputs. Cette absence de raffinement peut conduire à des réponses moins fiables par rapport aux modèles qui intègrent des techniques d'apprentissage supervisées [1] [3].

** Répétition sans fin: le modèle présente parfois un comportement répétitif dans ses réponses, qui peuvent nuire à l'expérience utilisateur globale et à l'efficacité de la communication [5] [7].

** Variabilité des performances sur les tâches de codage: bien que Deepseek-R1-Zero montre des performances solides dans les tâches de raisonnement, il fonctionne mal sur les défis de codage, ce qui indique que ses capacités peuvent ne pas être aussi robustes sur tous les types de tâches [1] [2].

Ces limitations ont provoqué de nouveaux efforts de développement, conduisant à la création de Deepseek-R1, qui vise à répondre à ces lacunes en incorporant des techniques supervisées et en améliorant les performances globales.

Citations:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-oo1
[2] https://arxiv.org/html/2501.12948v1
[3] https://www.gocodeo.com/post/deepseek-r1-andeepseek-r1-zero
[4] https://myedgech.com/deepseek-r1-r-r/
[5] https://huggingface.co/deepseek-ai/deepseek-r1-zero
[6] https://adasci.org/mastering-llms-asoning-capability-with-deepseek-r1/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://arxiv.org/pdf/2501.12948.pdf