Deepseek R1: révolutionner le raisonnement avec l'apprentissage du renforcement

Comment l'approche d'apprentissage du renforcement de Deepseek R1 améliore-t-elle ses capacités de raisonnement

Deepseek R1 améliore ses capacités de raisonnement grâce à une nouvelle approche d'apprentissage par renforcement (RL) qui diverge à partir des méthodes traditionnelles de réglage fin (SFT). Cette stratégie innovante permet au modèle de développer des compétences de raisonnement indépendamment et efficacement.

Cadre d'apprentissage par renforcement

Deepseek R1 utilise l'optimisation des politiques relatives de groupe (GRPO), un cadre RL basé sur des règles qui permet au modèle d'apprendre des essais et des erreurs sans s'appuyer sur des ensembles de données pré-étiquetés. Cette approche permet au modèle d'explorer un vaste espace de solution, découvrant des modèles de raisonnement et des stratégies uniques qui pourraient ne pas être présents dans les données de formation supervisées [1] [2] [4]. En incitant le raisonnement pendant le processus RL, Deepseek R1 peut générer des chaînes de pensée cohérentes et s'engager dans l'auto-vérification et la réflexion, qui sont essentielles pour la résolution de problèmes complexes [4].

Processus de formation en plusieurs étapes

La formation de Deepseek R1 est divisée en plusieurs phases:

1. Phase de démarrage à froid: Le modèle commence par une petite quantité de données supervisées de haute qualité collectées auprès de son prédécesseur, Deepseek R1-Zero. Cette phase aide à atténuer les problèmes tels que la mauvaise lisibilité et le mélange de langage qui ont été observés dans les modèles antérieurs [1] [2].

2. RL axé sur le raisonnement: Après le début du froid, le modèle suit une formation RL axée sur le raisonnement. Cette phase se concentre sur l'amélioration des capacités dans des domaines spécifiques comme le codage, les mathématiques et la logique, où des solutions claires peuvent être définies à l'aide de règles de récompense [3] [4].

3. Fonctionment avec de nouvelles données: Après la formation RL initiale, de nouvelles données supervisées sont générées par un échantillonnage de rejet en fonction du point de contrôle RL. Ces données sont ensuite utilisées pour un réglage fin, permettant au modèle d'affiner ses capacités de raisonnement entre diverses tâches [1] [2].

Résultats des performances

Le résultat de ce processus de formation rigoureux est un modèle qui atteint des niveaux de performance comparables aux principaux modèles comme O1-1217 d'OpenAI sur les tâches de raisonnement. Par exemple, Deepseek R1 a démontré des améliorations significatives des repères, les taux de réussite passant de 15,6% à 71% sur les tâches AIME 2024, présentant ses capacités de raisonnement améliorées [1] [2].

En résumé, l'approche d'apprentissage en renforcement de Deepseek R1 favorise non seulement le raisonnement indépendant, mais améliore également l'efficacité de résolution de problèmes en minimisant la dépendance à des ensembles de données supervisés étendus. Cela le positionne comme un outil puissant dans le paysage des modèles de grands langues.

Citations:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgech.com/deepseek-r1-r-r/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-utformming-open-ai-s-o1-at-95-unsless-cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-epseek-r1-and-ways-to-use-it