Deepseek-V3: إطلاق العنان للاستدلال السريع على M4 Mac Minis مع 671B معلمات

أظهر Deepseek-V3 ، وخاصة نموذج المعلمة 671 مليار ، أداءً مثيرًا للإعجاب عند تشغيل مجموعة من M4 Mac Minis. يستفيد هذا الإعداد من قدرات Apple Silicon لتحقيق الاستدلال السريع ، مما يجعله إنجازًا ملحوظًا في مجال نماذج اللغة الكبيرة (LLMs). إليك كيفية مقارنة أدائها بنماذج الذكاء الاصطناعى الأخرى:

الأداء على مجموعة M4 MAC

يوضح Deepseek-V3 على M4 Mac Minis كفاءة ملحوظة بسبب بنية الخبرة (MOE). تتيح هذه البنية للنموذج تنشيط مجموعة فرعية فقط من معلماته لكل مهمة ، مما يقلل بشكل كبير من المتطلبات الحسابية مقارنة بالنماذج الكثيفة مثل Llama 70b. على الرغم من وجود 671 مليار معلمة ، قد يستخدم Deepseek-V3 فقط حوالي 37 مليار لإنشاء رمز واحد ، والذي يساهم في أدائه السريع [1].

مقارنة مع LLAMA 70B

في منعطف مفاجئ ، تتفوق Deepseek-V3 على 671 مليار معلمة LLAMA 70B على نفس إعداد M4 MAC. ويعزى ذلك إلى بنية MOE ، والتي تمكن Deepseek-V3 من توليد الرموز بشكل أسرع من خلال استخدام مجموعة فرعية أصغر من معلماتها لكل مهمة. يستخدم Llama 70b ، كونه نموذجًا كثيفًا ، جميع معلماته لكل جيل رمزي ، مما يؤدي إلى أداء أبطأ مقارنة بـ Deepseek-V3 في هذا الإعداد المحدد [1].

مقارنة مع GPT-4O

أظهر Deepseek-V3 نتائج تنافسية ضد GPT-4O في مناطق معينة. لقد أظهر أداءً فائقاً في مهام التفكير في التفكير والرياضيات ، وهو أمر ملحوظ نظرًا لتطويره الفعال من حيث التكلفة والكفاءة التشغيلية. ومع ذلك ، لا يزال GPT-4O معيارًا لمهام الترميز ، على الرغم من أن Deepseek-V3 يوفر بديلاً قابلاً للتطبيق [3].

مقارنة مع Deepseek-R1

تم تصميم Deepseek-R1 لمهام حل المشكلات والتفكير المعقدة ، مما يجعلها أكثر ملاءمة للمهام التي تتطلب تحليلًا منطقيًا وحلولًا منظمة. في المقابل ، تتفوق Deepseek-V3 في التفاعلات في الوقت الفعلي بسبب بنية MOE ، والتي تتيح أوقات استجابة أسرع. على الرغم من أن V3 مثالي للمهام مثل إنشاء المحتوى والإجابة على الأسئلة العامة ، فإن R1 أكثر ملاءمة للمهام التي تتطلب التفكير الأعمق والخصومات المنطقية [2].

الكفاءة التشغيلية والتكلفة

يوفر Deepseek-V3 مزايا كبيرة في التكلفة ، حيث تقدر تكلفة التدريب بنحو 5.5 مليون دولار ، أي أقل بكثير من النماذج المماثلة. تؤدي كفاءتها التشغيلية أيضًا إلى انخفاض استهلاك الطاقة وأوقات معالجة أسرع ، مما يجعلها خيارًا جذابًا للبيئات ذات قيود الموارد [3]. ومع ذلك ، من حيث السرعة والكمون ، يكون Deepseek-V3 أبطأ بشكل عام من النماذج المتوسطة ، مع انخفاض سرعة الإخراج وارتفاع الكمون مقارنة ببعض نماذج الذكاء الاصطناعى الأخرى [5].

بشكل عام ، تعرض Deepseek-V3 على M4 Mac أداءً مثيرًا للإعجاب بسبب بنيةها الفعالة وقدرات سيليكون Apple. على الرغم من أنه قد لا تتفوق في جميع المجالات مقارنة بالنماذج الأخرى ، فإن نقاط قوته في مهام محددة وفعالية من حيث التكلفة تجعلها خيارًا قيمًا لمختلف التطبيقات.

الاستشهادات:
[1] https://digialps.com
[2] https://www.datacamp.com/blog/deepeek-r1-vs-v3
[3]
[4] https://forum.devtalk.com/t/deepseek-671b-running-on-a-cluster-of-8-mac-mini-pros-pros-with-64gb-ram-ech/185709
[5] https://artificialanalysis.ai/models/deepseek-v3
[6] https://thezvi.substack.com/p/deekseek-v3-the-six-million-dollar
[7]
[8]

كيف يقارن أداء Deepseek-V3 على M4 Mac بنماذج الذكاء الاصطناعي الأخرى

الأداء على مجموعة M4 MAC

مقارنة مع LLAMA 70B

مقارنة مع GPT-4O

مقارنة مع Deepseek-R1

الكفاءة التشغيلية والتكلفة