تم تصميم NVIDIA GB10 Superchip ، المميز في أنظمة مثل DGX Spark و Project Project ، باستخدام نموذج ذاكرة CPU+GPU-Coherent باستخدام تقنية NVIDIA NVLINK-C2C المترابطة. توفر هذه البنية دفعة كبيرة في عرض النطاق الترددي للذاكرة مقارنة بواجهات PCIe التقليدية ، مما يوفر خمسة أضعاف عرض النطاق الترددي من PCIe من الجيل الخامس [1] [4]. ومع ذلك ، فإن عرض النطاق الترددي للذاكرة الدقيق لـ GB10 SuperChip لم يتم ذكره بشكل صريح في المعلومات المتاحة.
بالمقارنة ، فإن وحدات معالجة الرسومات الأخرى التي تستخدم عادة مع TensorFlow لها عرض نطاق نادي للذاكرة الموثوق جيدًا:
- NVIDIA A100 GPU: يحتوي وحدة معالجة الرسومات هذا على عرض النطاق الترددي للذاكرة تبلغ 1555 جيجابايت/ثانية ، وهو أعلى بكثير من العديد من وحدات معالجة الرسومات على مستوى المستهلك. تم تصميم A100 لمهام الحوسبة عالية الأداء والتعلم العميق ، مما يجعلها واحدة من أسرع الخيارات المتاحة [2] [6].
- NVIDIA V100 GPU: مع عرض النطاق الترددي للذاكرة 900 جيجابايت/ثانية ، يعد V100 وحدة معالجة الرسومات القوية الأخرى المستخدمة في تطبيقات التعلم العميق. إنه أقل من A100 ولكنه لا يزال يقدم أداءًا كبيرًا للمهام الصعبة [2] [6].
- NVIDIA RTX 3090: يحتوي وحدة معالجة الرسومات على مستوى المستهلك هذه على عرض ترددي للذاكرة يبلغ حوالي 936.2 جيجابايت/ثانية ، وهو مرتفع لقياس وحدة معالجة الرسومات المستهلك ولكن أقل من A100 و V100 [3].
- NVIDIA RTX 5090: يتميز وحدة معالجة الرسومات هذا بعرض النطاق الترددي للذاكرة قدره 1792 جيجابايت/ثانية ، مما يجعلها واحدة من أسرع وحدات معالجة الرسومات على مستوى المستهلك المتاحة للمهام مثل التعلم العميق واستدلال الذكاء الاصطناعي [7].
من حيث الأداء لتطبيقات TensorFlow ، فإن عرض النطاق الترددي للذاكرة أمر بالغ الأهمية لأنه يحدد مدى سرعة نقل البيانات بين الذاكرة والنوى الحسابية. في حين لم يتم تحديد عرض النطاق الترددي للذاكرة الدقيق لـ GB10 SuperChip ، فإن استخدامه لتكنولوجيا NVLink-C2C يشير إلى أنه تم تحسينه لتطبيقات عرض النطاق الترددي العالي ، مما قد يقدم مزايا الأداء على غرار أو تجاوز بعض من وحدات معالجة الرسومات الراقية مثل A100 في سيناريوهات معينة بسبب نموذج الذاكرة الأكثر شيوعًا. ومع ذلك ، بدون أرقام عرض ترددي محددة ، فإن المقارنات المباشرة صعبة.
تم تصميم SuperChip GB10 لتطوير الذكاء الاصطناعي ويوفر ذاكرة موحدة متماسكة ، والتي يمكن أن تكون مفيدة بشكل خاص للمهام التي تتطلب الوصول إلى البيانات السلس بين وحدة المعالجة المركزية و GPU ، مثل التدريب على نموذج AI على نطاق واسع. تتيح هذه البنية النماذج الأولية الفعالة ونشر نماذج الذكاء الاصطناعى عبر منصات مختلفة ، بما في ذلك بيئات السحابة ومركز البيانات [1] [4].
الاستشهادات:
[1] https://nvidianews.nvidia.com/news/nvidia-announces-dgx-spark-and-dgx-tation-personal-ai-copters
[2]
[3] https://stackoverflow.com/questions/67760118/incorrect-memory-bandwidth-when-using-tensorflow
[4] https://nvidianews.nvidia.com/news/nvidia-puts-grace-lackwell-on-every-desk-and-at-avery-aide-developers-fingerpiptips
[5] https://forums.developer.nvidia.com/t/difference-of-memory-us-at-each-mpu-model-during-tensorflow-c-
[6] https://www.digitalocean.com/community/tutorials/gpu-memory-bandwidth
[7] https://forums.fast.ai/t/nvidia-project-digits-vs-rtx-5090-dilemma/115883
[8] https://blog.tensorflow.org/2022/01/improved-tensorflow-27-operations-for.html
[9] https://ms.codes/blogs/computer-hardware/tensorflow-cpu-faster-than-gpu