Optimización de políticas relativas del grupo (GRPO) en Deepseek R1: Mejora del razonamiento de IA

¿Qué papel juega el algoritmo de optimización de políticas relativas del grupo (GRPO) en el entrenamiento de Deepseek R1?

El algoritmo de optimización de políticas relativas del grupo (GRPO) juega un papel fundamental en la capacitación de Deepseek R1, mejorando sus capacidades de razonamiento a través de un enfoque de aprendizaje de refuerzo simplificado (RL).

Descripción general de GRPO

GRPO es un nuevo algoritmo de aprendizaje de refuerzo que modifica métodos tradicionales como la optimización de políticas proximales (PPO) al eliminar la necesidad de un modelo de función de valor separado, lo que simplifica el proceso de capacitación y reduce el uso de la memoria. En lugar de confiar en un modelo de crítico para evaluar los resultados, GRPO utiliza comparaciones estadísticas entre múltiples resultados generados para evaluar el rendimiento en relación con los promedios del grupo [1] [3]. Este método permite que el modelo aprenda de manera más eficiente centrándose en ventajas grupales en lugar de evaluaciones de salida individuales.

Proceso de entrenamiento en Deepseek R1

En el contexto de Deepseek R1, GRPO facilita el aprendizaje de refuerzo a gran escala sin la necesidad de ajustar el ajuste supervisado. El modelo genera múltiples soluciones candidatas para cada aviso y calcula recompensas en función de su precisión y adherencia a los formatos especificados. Este sistema de recompensas basado en reglas garantiza que el proceso de capacitación sea a la vez eficiente de recursos y escalables [2] [4]. La ausencia de datos supervisados permite a Deepseek R1 desarrollar de forma autónoma capacidades de razonamiento a través de la interacción con su entorno, lo que lleva a comportamientos innovadores de resolución de problemas [6] [7].

Ventajas clave de Grpo en Deepseek R1

- Eliminación del modelo crítico: al eliminar el crítico, GRPO reduce los costos computacionales y la complejidad asociadas con el mantenimiento de dos redes neuronales separadas (actor y crítico), que es típico en las configuraciones de RL tradicionales [3] [9].
- Cálculo de recompensas basado en grupos: el algoritmo utiliza el rendimiento promedio de un grupo de salidas como línea de base para calcular las ventajas, alineándose mejor con la naturaleza del entrenamiento del modelo de recompensa que a menudo involucra múltiples salidas para una sola entrada [1] [5].
- Eficiencia mejorada: el proceso simplificado no solo mejora la eficiencia del aprendizaje, sino que también permite que Deepseek R1 alcance el rendimiento comparable a los modelos más grandes, mientras que es significativamente más barato para entrenar y operar [2] [6].

En resumen, GRPO es parte integral de la capacitación de Deepseek R1, lo que permite aprender de manera efectiva las habilidades de razonamiento a través de un marco de aprendizaje de refuerzo más eficiente y escalable. Esta innovación posiciona a Deepseek R1 como un modelo competitivo en tareas de razonamiento complejos, rivalizando los sistemas de IA establecidos al tiempo que promueve la accesibilidad en el desarrollo de la IA.

Citas:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-thedeepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revoluticizing-ai-open-source-razoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-raking- on-a-budget-13ik