Deepseek-R1 utilise une approche sophistiquée pour gérer des conversations multiples complexes, combinant l'apprentissage du renforcement (RL) avec un processus de formation structuré. Ce modèle est conçu pour améliorer ses capacités de raisonnement et améliorer la cohérence de ses réponses sur plusieurs interactions.
Processus de formation en plusieurs étapes
1. Phase de démarrage à froid: Initialement, Deepseek-R1 est affiné en utilisant des données de haute qualité, ce qui aide à établir une base solide pour la clarté et la cohérence dans ses réponses. Cette phase aborde des problèmes communs tels que la mauvaise lisibilité et les sorties en langage mixte [1] [3].
2. Apprentissage par renforcement: le cœur de la formation de Deepseek-R1 implique un RL pur, permettant au modèle d'apprendre par essais et erreurs. Cette méthode améliore ses compétences en résolution de problèmes et ses capacités de raisonnement, ce qui le rend moins dépend des ensembles de données étiquetés étendus [2] [3].
3. Échantillonnage de rejet: Près de la convergence de RL, le modèle utilise l'échantillonnage de rejet pour générer des données synthétiques en sélectionnant les meilleurs exemples à partir de séries réussies précédentes. Cette étape augmente la diversité et la qualité des données de formation, affinant davantage les capacités du modèle [1].
4. Stade RL final: Après avoir intégré des données synthétiques et supervisées dans divers domaines, Deepseek-R1 subit une phase d'apprentissage de renforcement finale qui garantit qu'elle peut généraliser efficacement à travers différentes invites et scénarios. Cette étape est cruciale pour maintenir les performances dans les applications du monde réel [1].
Gestion des conversations multi-virages
L'architecture de Deepseek-R1 lui permet de maintenir le contexte à travers plusieurs virages dans une conversation. En ajoutant des messages précédents de l'utilisateur et de l'assistant, il peut suivre efficacement l'historique du dialogue. Par exemple, lorsqu'un utilisateur pose une question suivie d'une autre enquête connexe, Deepseek-R1 peut faire référence aux échanges antérieurs pour fournir des réponses pertinentes et cohérentes [1] [3].
Performance Insights
Malgré ses forces, les premières versions de Deepseek-R1 ont été confrontées à des défis avec des réponses répétitives dans les conversations multiples. Cependant, les améliorations continues de sa méthodologie de formation ont considérablement amélioré sa capacité à gérer des dialogues complexes sans perdre de contexte ou de cohérence [3] [4].
En résumé, le processus de formation en plusieurs étapes de Deepseek-R1 et le cadre d'apprentissage par renforcement lui permettent de gérer efficacement des conversations multi-tour complexes en s'appuyant sur une base solide de données de qualité et en affiner ses capacités de raisonnement grâce à l'apprentissage itératif.
Citations:[1] https://www.vellum.ai/blog/the-training-of-epseek-r1-and-ways-to-use-it
[2] https://arxiv.org/html/2501.12948v1
[3] https://felloai.com/2025/01/deepseek-r1-the-open-source-ai-thats-beating-google-and-openai/
[4] https://www.reddit.com/r/localllama/comments/1i7fjqm/deepseek_r1_is_unusable_imho/
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://api-docs.deepseek.com/guides/multi_round_chat
[8] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-source-easoning-20-ramachandran-xakme