تحسين نشر DeepSeek-R1 على AWS: توصيات مثيل ودليل الإعداد

يتطلب تشغيل DeepSeek-R1 بكفاءة على AWS تحديد أنواع المثيلات الصحيحة بناءً على متغير النموذج المحدد والأداء المطلوب. فيما يلي نظرة عامة مفصلة على مثيلات AWS الموصى بها لنماذج Deepseek-R1 المختلفة:

Deepseek-R1 (نموذج كامل)

يتطلب نموذج DeepSeek-R1 الكامل ، الذي يحتوي على 671 مليار معلمة ، موارد حسابية كبيرة. من أجل الأداء الأمثل ، يوصى بإعداد متعدد GPU ، مثل استخدام وحدات معالجة الرسومات NVIDIA A100. ومع ذلك ، لا تقدم AWS مباشرة وحدات معالجة الرسومات A100 في مثيلات EC2 القياسية. بدلاً من ذلك ، يمكنك التفكير في استخدام مثيلات مثل `inf2.48xlarge` لتلبية احتياجات الحوسبة عالية الأداء المماثلة ، على الرغم من أنها أكثر ملاءمة لتسريع الاستدلال بدلاً من تدريب نماذج كبيرة مثل Deepseek-R1 [4].

Deepseek-R1 نماذج مقطرة

بالنسبة للإصدارات المقطرة من Deepseek-R1 ، والتي تكون أكثر كفاءة وتتطلب أقل من VRAM ، يمكن استخدام مثيلات AWS المختلفة:

-Deepseek-R1-Distill-Qwen-1.5b: يمكن تشغيل هذا النموذج بكفاءة على مثيل GPU واحد. يوصى بمثيل `ml.g5.xlarge` لاستضافة هذا النموذج بسبب مقاييس أدائه [3].

-Deepseek-R1-Distill-Qwen-7B و Deepseek-R1-Distill-Llama-8B: هذه النماذج تعمل بشكل جيد على مثيلات مثل `ml.g6e.xlarge` ، والتي توفر توازنًا جيدًا في قوة وتكلفة GPU. مثيلات "ML.G5.2XLARGE` و` ML.G5.XLARGE` هي أيضًا خيارات قابلة للحياة [3].

-Deepseek-R1-Distill-Qwen-14B: بالنسبة لهذا النموذج ، هناك حاجة إلى مثيل مع وحدة معالجة الرسومات الأكثر قوة. قد لا يكون مثيل `g4dn.xlarge` ، الذي يتميز بـ Nvidia T4 GPUs ، كافيًا بسبب قيود VRAM. بدلاً من ذلك ، فكر في استخدام مثيلات مع وحدات معالجة الرسومات الأكثر قوة مثل تلك الموجودة في عائلة `ml.g6` أو اختيار إعداد مخصص مع وحدات معالجة الرسومات الراقية إذا كان ذلك متاحًا [1] [2].

-Deepseek-R1-Distill-Qwen-32b و Deepseek-R1-Distill-Llama-70b: تتطلب هذه النماذج الأكبر وحدات معالجة الرسومات الأكثر قوة. من أجل الأداء الأمثل ، ينصح بمثيلات مع وحدات معالجة الرسومات الراقية مثل NVIDIA RTX 4090 ، على الرغم من أن وحدات معالجة الرسومات المحددة هذه غير متوفرة مباشرة في مثيلات AWS EC2 القياسية. ومع ذلك ، يمكنك استخدام مثيلات مثل `inf2.48xlarge` لمهام الاستدلال عالية الأداء [4] [6].

النشر القائم على وحدة المعالجة المركزية

بالنسبة لمهام معالجة الدُفعات التي لا يكون فيها الكمون عاملاً حاسماً ، يمكن أن تقدم مثيلات AWS Graviton4 حلاً فعالًا من حيث التكلفة. مثيل `c8g.16xlarge` ، مع العدد العالي والعديد من النطاق الترددي للذاكرة ، مناسب لتشغيل نماذج مثل Deepseek-R1-distill-llama-70b في بيئة وحدة المعالجة المركزية فقط [6].

الحلول المدارة بالكامل

بالنسبة للمستخدمين الذين يفضلون عدم إدارة البنية التحتية ، يتوفر Deepseek-R1 أيضًا كنموذج بدون خادم مُدار بالكامل في Amazon Bedrock. يتيح لك هذا الخيار الاستفادة من قدرات النموذج دون القلق بشأن تعقيدات البنية التحتية الأساسية [9].

باختصار ، يعتمد اختيار مثيل AWS لتشغيل DeepSeek-R1 بكفاءة على متغير النموذج المحدد ، ومستوى الأداء المطلوب ، وما إذا كان تسارع GPU ضروريًا. بالنسبة لمعظم النماذج المقطرة ، يوصى بالحالات التي تحتوي على وحدات معالجة الرسومات القوية ، في حين أن مثيلات القائمة على وحدة المعالجة المركزية يمكن أن تكون مناسبة لمهام معالجة الدُفعات.

الاستشهادات:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2؟lang=en
[2] https://dev.to/askyt/deepseek-r1-archecture-training-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai//
[4] https://huggingface.co/blog/deepeek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-distill-lam-70b-for-batch-in-on-aws-graviton4؟lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-distilled-models-on-amazon-sagemaker-use-a-large-model-inference-container/
[8]
[9]

هل هناك أي حالات AWS الموصى بها لتشغيل Deepseek-R1 بكفاءة

Deepseek-R1 (نموذج كامل)

Deepseek-R1 نماذج مقطرة

النشر القائم على وحدة المعالجة المركزية

الحلول المدارة بالكامل