تظهر بيانات التدريب الخاصة بـ DeepSeek-R1 و LLAMA 3.1 العديد من الاختلافات الرئيسية ، مما يعكس مناهج مميزة لتطوير النموذج.
Deepseek-R1 بيانات التدريب
يتم تدريب Deepseek-R1 باستخدام عملية متعددة المراحل تجمع بين التعلم التعزيز (RL) مع الضبط الخاضع للإشراف (SFT). يبدأ النموذج بمرحلة "بداية باردة" ، حيث يتم ضبطه على مجموعة صغيرة من الأمثلة المصنوعة بعناية لتحسين الوضوح وقابلية القراءة. يتبع ذلك RL Pure لتعزيز مهارات التفكير ، على غرار R1-Zero. بالقرب من تقارب RL ، يستخدم النموذج أخذ عينات الرفض لإنشاء بيانات اصطناعية عن طريق تحديد أفضل الأمثلة من عمليات RL السابقة. ثم يتم دمج هذه البيانات الاصطناعية مع بيانات خاضعة للإشراف من Deepseek-V3-base في مجالات مثل الكتابة ، و QA الواقعية ، والاعتراف الذاتي. تتضمن المرحلة النهائية جولة أخرى من RL عبر مطالبات وسيناريوهات متنوعة لزيادة تعميم قدرات النموذج [1] [4].
Llama 3.1 بيانات التدريب
من ناحية أخرى ، تم تدريب Llama 3.1 على مجموعة ضخمة تبلغ حوالي 15 تريليون رمز من مصادر متوفرة للجمهور ، مع تاريخ قطع المعرفة في ديسمبر 2023 [8]. تتضمن مجموعة بيانات التدريب مزيجًا متوازنًا من المجالات العامة ، والبيانات الرياضية والمنطق ، والنصوص المتعددة اللغات ، والرمز من لغات البرمجة المختلفة لتعزيز إمكانيات الفهم [5]. يخضع النموذج للتدريب الأولي قبل التدريب باستخدام هدف التنبؤ المقبل ، يليه التدريب الطويل المسبق للتعامل مع المستندات الطويلة ومهام التفكير المعقدة. يتم تعديل مزيج البيانات بعناية لتحسين الأداء في مهام محددة ، مثل زيادة البيانات غير الإنجليزية للقدرات متعددة اللغات والبيانات الرياضية لأخذ أخذ العينات لأعطاء تفكير أفضل [2] [5].
الاختلافات الرئيسية
1. نهج التدريب: يعتمد Deepseek-R1 بشكل كبير على التعلم التعزيز وتوليد البيانات الاصطناعية ، في حين يستخدم Llama 3.1 نهجًا تعليميًا أكثر تقليدية مع مجموعة بيانات ضخمة قبل التدريب.
2. مصادر البيانات: يستخدم DeepSeek-R1 مجموعة من بيانات البداية الباردة الأولية والبيانات الاصطناعية التي تم إنشاؤها أثناء عملية RL. في المقابل ، تم تدريب Llama 3.1 على مجموعة كبيرة من البيانات المتاحة للجمهور.
3. حجم البيانات والجودة: يتم تدريب Llama 3.1 على مجموعة بيانات أكبر بكثير (حوالي 15 تريليون رموز) مقارنة بمجموعة البيانات الأولية الصغيرة المستخدمة في DeepSeek-R1. ومع ذلك ، فإن استخدام Deepseek-R1 للبيانات الاصطناعية يسمح له بتحقيق أداء عالي في مهام التفكير على الرغم من مجموعة البيانات الأولية الأصغر.
4. مجالات التركيز: يركز كلا النموذجين على تحسين قدرات التفكير والمعرفة ، لكن Deepseek-R1 يركز بشكل قوي على التفكير من خلال RL ، بينما يركز Llama 3.1 أيضًا على قدرات الترميز المتعددة اللغات.
بشكل عام ، تعكس بيانات التدريب الخاصة بـ Deepseek-R1 و LLAMA 3.1 استراتيجيات مختلفة في تطوير النماذج ، مع الاستفادة من DeepSeek-R1 RL والبيانات الاصطناعية لتحقيق قدرات التفكير القوية و LAMA 3.1 بالاعتماد على نهج التعلم الخاضع للإشراف على نطاق واسع لتغطية مجموعة واسعة من المهام.
الاستشهادات:
[1] https://www.vellum.ai/blog/the-training-of-deepeseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepeek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-about-about-s-new-405b-model-and-its-its
[6] https://docsbot.ai/models/compare/deepeek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-t-ranks-against-openais-o1