Групповая относительная оптимизация политики (GRPO) в DeepSeek R1: Улучшение рассуждений AI

Какую роль играет алгоритм относительной политики (GRPO) в обучении DeepSeek R1

Алгоритм группы относительной политики (GRPO) играет важную роль в обучении DeepSeek R1, расширяя его возможности рассуждений с помощью подхода к оптимизированному подходу к подкреплению (RL).

Обзор Grpo

GRPO - это новый алгоритм обучения подкрепления, который изменяет традиционные методы, такие как оптимизация проксимальной политики (PPO), путем устранения необходимости отдельной модели функции значения, которая упрощает обучающий процесс и снижает использование памяти. Вместо того, чтобы полагаться на критическую модель для оценки выходов, GRPO использует статистические сравнения между несколькими генерируемыми выходами для оценки эффективности относительно средних групп [1] [3]. Этот метод позволяет модели более эффективно учиться, сосредоточившись на групповых преимуществах, а не на индивидуальных оценках выхода.

тренировочный процесс в Deepseek R1

В контексте DeepSeek R1 GRPO облегчает масштабное обучение подкреплению без необходимости контролируемой точной настройки. Модель генерирует несколько решений для кандидатов для каждой подсказки и рассчитывает вознаграждения на основе их точности и соблюдения указанных форматов. Эта система вознаграждения на основе правил гарантирует, что процесс обучения является как ресурсным, так и масштабируемым [2] [4]. Отсутствие контролируемых данных позволяет DeepSeek R1 автономно разрабатывать возможности рассуждений посредством взаимодействия с окружающей средой, что приводит к инновационному поведению в решении проблем [6] [7].

Ключевые преимущества GRPO в DeepSeek R1

- Устранение критической модели: удаление критика, GRPO снижает вычислительные затраты и сложность, связанную с поддержанием двух отдельных нейронных сетей (актера и критика), что типично для традиционных настройки RL [3] [9].
- Расчет вознаграждения на основе группы: Алгоритм использует среднюю производительность группы выходов в качестве базовой линии для расчета преимуществ, что лучше выравнивается с характером обучения модели вознаграждения, которая часто включает в себя несколько выходов для одного входа [1] [5].
- Повышенная эффективность: оптимизированный процесс не только повышает эффективность обучения, но также позволяет DeepSeek R1 достигать производительности, сравнимой с более крупными моделями, в то же время значительно дешевле для обучения и эксплуатации [2] [6].

Таким образом, GRPO является неотъемлемой частью обучения DeepSeek R1, что позволяет эффективно изучать навыки рассуждений посредством более эффективной и масштабируемой структуры обучения подкрепления. Эта инновация позиционирует DeepSeek R1 как конкурентную модель в сложных задачах, соперничая с установленными системами ИИ, одновременно способствуя доступности в разработке ИИ.

Цитаты:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-takingwes-on-a-budget-13ik