Групова відносна оптимізація політики (GRPO) у DeepSeek R1: Підвищення міркувань AI

Яку роль відіграє алгоритм оптимізації відносної політики (GRPO) у навчанні DeepSeek R1

Алгоритм оптимізації відносної політики (GRPO) відіграє вирішальну роль у навчанні DeepSeek R1, покращуючи його можливості міркування за допомогою спрощеного підходу до підкріплення (RL).

Огляд grpo

GRPO - це новий алгоритм навчання підкріплення, який модифікує традиційні методи, такі як оптимізація проксимальної політики (PPO), усуваючи потребу в окремої моделі функції цінностей, яка спрощує навчальний процес та зменшує використання пам'яті. Замість того, щоб покладатися на критику для оцінки результатів, GRPO використовує статистичні порівняння між декількома генерованими результатами для оцінки продуктивності відносно середніх груп [1] [3]. Цей метод дозволяє моделі навчитися ефективніше, зосереджуючись на групових перевагах, а не на індивідуальних оцінках результатів.

Навчальний процес у DeepSeek R1

У контексті DeepSeek R1 GRPO сприяє масштабному підкріпленому навчанню без необхідності контрольованої тонкої настройки. Модель генерує декілька рішень -кандидатів для кожного підказки та обчислює винагороду на основі їх точності та дотримання визначених форматів. Ця система винагороди на основі правил забезпечує, що навчальний процес є як ефективним ресурсами, так і масштабованими [2] [4]. Відсутність контрольованих даних дозволяє DeepSeek R1 автономно розвивати можливості міркувань через взаємодію зі своїм середовищем, що призводить до інноваційної поведінки вирішення проблем [6] [7].

Ключові переваги GRPO в DeepSeek R1

- Усунення критичної моделі: Видаляючи критику, GRPO зменшує обчислювальні витрати та складність, пов'язані з підтримкою двох окремих нейронних мереж (актор та критика), що є типовим для традиційних налаштувань RL [3] [9].
- Груповий розрахунок винагороди: Алгоритм використовує середню продуктивність групи результатів як базову лінію для обчислення переваг, що краще узгоджується з природою тренувань на винагороду, яка часто включає кілька результатів для одного введення [1] [5].
- Підвищена ефективність: впорядкований процес не тільки підвищує ефективність навчання, але й дозволяє DeepSeek R1 досягти продуктивності, порівнянних з більшими моделями, при цьому значно дешевші для тренувань та роботи [2] [6].

Підсумовуючи це, GRPO є невід'ємною частиною навчання DeepSeek R1, що дозволяє йому ефективно засвоїти навички міркувань за допомогою більш ефективної та масштабованої основи підкріплення. Ця інновація позиціонує DeepSeek R1 як конкурентну модель у складних завданнях міркувань, що конкурує в створенні систем AI, сприяючи доступності розвитку ШІ.

Цитати:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionalizing-ai-open-source-resoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-taking-waves-on-a-budget-13ik