Otimização de política relativa do grupo (GRPO) em Deepseek R1: Aprimorando o raciocínio da IA

Qual o papel do algoritmo de otimização de política relativa do grupo (GRPO) no treinamento do Deepseek R1

O algoritmo de otimização de política relativa do grupo (GRPO) desempenha um papel crítico no treinamento do Deepseek R1, aumentando suas capacidades de raciocínio por meio de uma abordagem de aprendizado de reforço (RL) simplificado.

Visão geral do GRPO

O GRPO é um novo algoritmo de aprendizado de reforço que modifica métodos tradicionais como otimização de política proximal (PPO), eliminando a necessidade de um modelo de função de valor separado, que simplifica o processo de treinamento e reduz o uso da memória. Em vez de confiar em um modelo crítico para avaliar os resultados, o GRPO utiliza comparações estatísticas entre vários resultados gerados para avaliar o desempenho em relação às médias do grupo [1] [3]. Esse método permite que o modelo aprenda com mais eficiência, concentrando-se nas vantagens baseadas em grupo, em vez de em avaliações individuais de saída.

Processo de treinamento em Deepseek R1

No contexto do Deepseek R1, o GRPO facilita o aprendizado de reforço em larga escala sem a necessidade de ajuste fino supervisionado. O modelo gera várias soluções candidatas para cada prompt e calcula recompensas com base em sua precisão e adesão aos formatos especificados. Esse sistema de recompensa baseado em regras garante que o processo de treinamento seja econômico e escalável [2] [4]. A ausência de dados supervisionados permite que o DeepSeek R1 desenvolva recursos de raciocínio autonomamente através da interação com seu ambiente, levando a comportamentos inovadores de solução de problemas [6] [7].

vantagens importantes do GRPO em Deepseek R1

- Eliminação do modelo crítico: ao remover o crítico, o GRPO reduz os custos computacionais e a complexidade associados à manutenção de duas redes neurais separadas (ator e crítico), o que é típico nas configurações tradicionais de RL [3] [9].
- Cálculo de recompensa baseado em grupo: o algoritmo usa o desempenho médio de um grupo de resultados como uma linha de base para o cálculo das vantagens, alinhando melhor com a natureza do treinamento do modelo de recompensa que geralmente envolve vários resultados para uma única entrada [1] [5].
- Eficiência aprimorada: o processo simplificado não apenas aumenta a eficiência da aprendizagem, mas também permite que o Deepseek R1 obtenha desempenho comparável a modelos maiores, sendo significativamente mais barato para treinar e operar [2] [6].

Em resumo, o GRPO é parte integrante do treinamento do DeepSeek R1, permitindo que ele aprenda efetivamente habilidades de raciocínio por meio de uma estrutura de aprendizado de reforço mais eficiente e escalável. Essa inovação posiciona a Deepseek R1 como um modelo competitivo em tarefas complexas de raciocínio, rivalizando com os sistemas de IA estabelecendo e promovendo a acessibilidade no desenvolvimento da IA.

Citações:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-source-reonomening-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-Budget-13IK