Optimisation de la politique relative du groupe (GRPO) dans Deepseek R1: Amélioration du raisonnement d'IA

Quel rôle l'algorithme d'optimisation de la politique relative du groupe (GRPO) joue-t-il dans la formation de Deepseek R1

L'algorithme d'optimisation de la politique relative du groupe (GRPO) joue un rôle essentiel dans la formation de Deepseek R1, améliorant ses capacités de raisonnement grâce à une approche d'apprentissage par renforcement (RL) rationalisé.

Aperçu de GRPO

GRPO est un nouvel algorithme d'apprentissage de renforcement qui modifie les méthodes traditionnelles telles que l'optimisation de la politique proximale (PPO) en éliminant le besoin d'un modèle de fonction de valeur séparé, qui simplifie le processus de formation et réduit l'utilisation de la mémoire. Au lieu de s'appuyer sur un modèle de critique pour évaluer les sorties, GRPO utilise des comparaisons statistiques entre plusieurs sorties générées pour évaluer les performances par rapport aux moyennes de groupe [1] [3]. Cette méthode permet au modèle d'apprendre plus efficacement en se concentrant sur les avantages basés sur le groupe plutôt que sur les évaluations de sortie individuelles.

Processus de formation à Deepseek R1

Dans le contexte de Deepseek R1, GRPO facilite l'apprentissage de renforcement à grande échelle sans avoir besoin d'un réglage fin supervisé. Le modèle génère plusieurs solutions candidates pour chaque invite et calcule les récompenses en fonction de leur précision et de leur adhésion aux formats spécifiés. Ce système de récompense basé sur des règles garantit que le processus de formation est à la fois économe en ressources et évolutif [2] [4]. L'absence de données supervisées permet à Deepseek R1 de développer de manière autonome les capacités de raisonnement grâce à l'interaction avec son environnement, conduisant à des comportements de résolution de problèmes innovants [6] [7].

Avantages clés de GRPO dans Deepseek R1

- Élimination du modèle de critique: En supprimant le critique, le GRPO réduit les coûts de calcul et la complexité associés au maintien de deux réseaux neuronaux distincts (acteur et critique), qui est typique des configurations de RL traditionnelles [3] [9].
- Calcul de récompense basé sur le groupe: l'algorithme utilise les performances moyennes d'un groupe de sorties comme référence pour calculer les avantages, s'alignant mieux sur la nature de la formation du modèle de récompense qui implique souvent plusieurs sorties pour une seule entrée [1] [5].
- Efficacité améliorée: le processus rationalisé améliore non seulement l'efficacité d'apprentissage, mais permet également à Deepseek R1 d'atteindre des performances comparables aux modèles plus grands tout en étant beaucoup moins cher à s'entraîner et à fonctionner [2] [6].

En résumé, GRPO fait partie intégrante de la formation de Deepseek R1, ce qui lui permet d'apprendre efficacement les compétences de raisonnement grâce à un cadre d'apprentissage de renforcement plus efficace et plus évolutif. Cette innovation positionne Deepseek R1 en tant que modèle compétitif dans des tâches de raisonnement complexes, rivalisant avec les systèmes d'IA établis tout en favorisant l'accessibilité dans le développement de l'IA.

Citations:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeays-from-the-deepseek-r1-model-2dli
[4] https://myedgech.com/deepseek-r1-r-r/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-source-easoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-budget-13ik