تحسين السياسة النسبية (GRPO) في Deepseek R1: تعزيز التفكير في الذكاء الاصطناعي

ما هو الدور الذي تلعبه خوارزمية تحسين السياسة النسبية (GRPO) في تدريب Deepseek R1

تلعب خوارزمية السياسة النسبية للمجموعة (GRPO) دورًا مهمًا في تدريب Deepseek R1 ، مما يعزز قدراتها المنطقية من خلال نهج التعلم التعزيز المبسطة (RL).

نظرة عامة على GRPO

GRPO هي خوارزمية تعلم تعزيز جديدة تعدل الأساليب التقليدية مثل تحسين السياسة القريبة (PPO) من خلال التخلص من الحاجة إلى نموذج وظيفة قيمة منفصلة ، مما يبسط عملية التدريب ويقلل من استخدام الذاكرة. بدلاً من الاعتماد على نموذج الناقد لتقييم المخرجات ، تستخدم GRPO مقارنات إحصائية بين المخرجات التي تم إنشاؤها المتعددة لتقييم الأداء بالنسبة إلى متوسطات المجموعة [1] [3]. تسمح هذه الطريقة للنموذج بالتعرف بشكل أكثر كفاءة من خلال التركيز على المزايا المستندة إلى المجموعة بدلاً من تقييمات الإخراج الفردية.

عملية التدريب في Deepseek R1

في سياق Deepseek R1 ، يسهل GRPO التعلم التعزيز على نطاق واسع دون الحاجة إلى التثبيت الخاضع للإشراف. يولد النموذج حلولًا مرشحًا متعددة لكل موجه ويحسب المكافآت بناءً على دقتها والتزامها بالتنسيقات المحددة. يضمن نظام المكافآت المستند إلى القواعد أن تكون عملية التدريب موفرة للموارد وقابلة للتطوير [2] [4]. يسمح غياب البيانات الخاضعة للإشراف على تطوير قدرات التفكير بشكل مستقل من خلال التفاعل مع بيئتها ، مما يؤدي إلى سلوكيات مبتكرة لحل المشكلات [6] [7].

المزايا الرئيسية لـ GRPO في Deepseek R1

- القضاء على النموذج الناقد: عن طريق إزالة الناقد ، يقلل GRPO من التكاليف الحسابية والتعقيد المرتبط بالحفاظ على شبكتين عصبيتين منفصلتين (ممثلان وناقد) ، وهو أمر نموذجي في إعدادات RL التقليدية [3] [9].
- حساب المكافآت المستندة إلى المجموعة: تستخدم الخوارزمية متوسط أداء مجموعة من المخرجات كخط أساسي لحساب المزايا ، والمواءمة بشكل أفضل مع طبيعة تدريب نموذج المكافآت الذي يتضمن غالبًا مخرجات متعددة لإدخال واحد [1] [5].
- تحسين الكفاءة: لا تعزز العملية المبسطة كفاءة التعلم فحسب ، بل تتيح أيضًا Deepseek R1 تحقيق الأداء المشابه للنماذج الأكبر مع كونها أرخص بكثير لتدريب وتشغيل [2] [6].

باختصار ، يعد GRPO جزءًا لا يتجزأ من تدريب Deepseek R1 ، مما يمكّنه من تعلم مهارات التفكير بشكل فعال من خلال إطار تعلم تعزيز أكثر كفاءة وقابل للتطوير. يضع هذا الابتكار Deepseek R1 كنموذج تنافسي في مهام التفكير المعقدة ، مما ينافس أنظمة الذكاء الاصطناعى المعدلة مع تعزيز إمكانية الوصول في تطوير الذكاء الاصطناعي.

الاستشهادات:
[1] https://www.philschmid.de/deepeek-r1
[2]
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepeek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9)