Ottimizzazione delle politiche relative del gruppo (GRPO) in DeepSeek R1: miglioramento del ragionamento AI

Quale ruolo svolge l'algoritmo di Ottimizzazione delle politiche relative del gruppo (GRPO) nella formazione di DeepSeek R1

L'algoritmo GRPO (Group Policy Policy Optimization (GRPO) svolge un ruolo fondamentale nella formazione di DeepSeek R1, migliorando le sue capacità di ragionamento attraverso un approccio di apprendimento di rinforzo aerodinamico (RL).

Panoramica di GRPO

GRPO è un nuovo algoritmo di apprendimento di rinforzo che modifica metodi tradizionali come l'ottimizzazione delle politiche prossimali (PPO) eliminando la necessità di un modello di funzione di valore separato, che semplifica il processo di formazione e riduce l'utilizzo della memoria. Invece di fare affidamento su un modello di critico per valutare gli output, GRPO utilizza confronti statistici tra output generati multipli per valutare le prestazioni rispetto alle medie del gruppo [1] [3]. Questo metodo consente al modello di apprendere in modo più efficiente concentrandosi sui vantaggi basati su gruppi piuttosto che sui singoli valutazioni di output.

Processo di formazione in DeepSeek R1

Nel contesto di DeepSeek R1, GRPO facilita l'apprendimento di rinforzo su larga scala senza la necessità di mettere a dura prova la messa a punto. Il modello genera più soluzioni candidate per ciascun prompt e calcola i premi in base alla loro accuratezza e aderenza a formati specifici. Questo sistema di ricompensa basato sulle regole garantisce che il processo di formazione sia sia efficiente in termini di risorse che scalabili [2] [4]. L'assenza di dati supervisionati consente a DeepEek R1 di sviluppare autonomamente capacità di ragionamento attraverso l'interazione con il suo ambiente, portando a comportamenti innovativi di risoluzione dei problemi [6] [7].

Chiave Vantaggi di GRPO in DeepSeek R1

- Eliminazione del modello critico: rimuovendo il critico, GRPO riduce i costi computazionali e la complessità associate al mantenimento di due reti neurali separate (attore e critico), che è tipico nelle tradizionali configurazioni RL [3] [9].
- Calcolo della ricompensa basato sul gruppo: l'algoritmo utilizza la prestazione media di un gruppo di output come base per il calcolo dei vantaggi, allineandosi meglio con la natura dell'allenamento del modello di ricompensa che spesso comporta output multipli per un singolo input [1] [5].
- Migliore efficienza: il processo semplificato non solo migliora l'efficienza dell'apprendimento, ma consente anche a DeepEek R1 di ottenere prestazioni paragonabili ai modelli più grandi pur essendo significativamente più economici da formare e operare [2] [6].

In sintesi, GRPO è parte integrante della formazione di DeepSeek R1, consentendole di apprendere efficacemente le capacità di ragionamento attraverso un quadro di apprendimento di rinforzo più efficiente e scalabile. Questa innovazione posiziona DeepSeek R1 come modello competitivo in compiti di ragionamento complessi, rivaleggiando con sistemi di intelligenza artificiale promuovendo l'accessibilità nello sviluppo dell'intelligenza artificiale.

Citazioni:
[1] https://www.philschmid.de/deepseek-r1
[2] https://compopio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgegech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-source-ramating-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-budget-13ik