Технология NVLINK-C2C играет решающую роль в усилении пропускной способности памяти в таких системах, как DGX Spark, путем обеспечения взаимосвязи с низкой задержкой с высокой пропускной способностью между графическим процессором и процессором. Эта технология особенно полезна в системах, которые требуют частой связи между этими компонентами, такими как AI и высокопроизводительные рабочие нагрузки вычислений (HPC).
Улучшения ключей
1. Высокая полоса пропускания: NVLink-C2C предлагает максимальную полосу пропускания 900 ГБ/с, что значительно выше, чем традиционные соединения PCIe. Например, PCIe Gen4 предоставляет только 64 Гбит/с двунаправленную полосу пропускания, в то время как NVLINK-C2C достигает 14-кратного увеличения по сравнению с этим [1]. Эта высокая пропускная способность позволяет быстро переносить данные между графическим процессором и процессором, что важно для крупных моделей ИИ или наборов данных, которые превышают емкость памяти графического процессора.
2. Низкая задержка: задержка в NVLINK-C2C значительно снижается по сравнению с соединениями на основе PCIE. В то время как графический процессор H100 с использованием PCIe Gen5 имеет задержку около 400-600 наносекунд для доступа к памяти ЦП-GPU, NVLINK-C2C снижает это до менее чем 20 наносекунд, достигая снижения задержки примерно на 95-97%[1]. Эта низкая задержка имеет решающее значение для задач, требующих жесткой координации ЦП-GPU и быстрой передачи данных.
3. Unified Memory Pool: NVLINK-C2C позволяет создавать унифицированный пул памяти, позволяя графическому процессору напрямую доступ к памяти ЦП. Это означает, что графический процессор может использовать DRAM ЦП, как если бы это была дополнительная локальная память с высокой пропускной способностью, эффективно устраняя традиционные ограничения емкости памяти GPU [1] [2]. Эта функция особенно полезна для крупных моделей ИИ или наборов данных, которые требуют большей памяти, чем то, что доступно на графическом процессоре.
4. Последовательность памяти: NVLINK-C2C поддерживает когерентность памяти, которая гарантирует, что данные будут согласованы как для процессора, так и в памяти GPU. Это обеспечивает эффективную синхронизацию примитивов и уменьшает необходимость в явном управлении памятью разработчиками [2]. Когерентность памяти также обеспечивает легкую синхронизацию в потоках графических процессоров и процессоров, улучшая общее использование системы.
5. Масштабируемость и эффективность питания: NVLINK-C2C поддерживает масштабируемость, позволяя эффективным настройкам с несколькими GPU и предназначены для эффективности энергосбережения, используя расширенные методы сигнализации для минимизации потребления мощности [3] [4]. Это делает его подходящим для крупномасштабных вычислительных сред, где как производительность, так и энергоэффективность имеют решающее значение.
Таким образом, технология NVLink-C2C в таких системах, как DGX Spark, значительно повышает пропускную способность памяти, обеспечивая высокоскоростную связь с низкой задержкой между графическим процессором и процессором. Это обеспечивает более эффективную обработку больших наборов данных и рабочих нагрузок искусственного интеллекта путем создания унифицированного пула памяти и уменьшив необходимость в явном управлении памяти.
Цитаты:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture и evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergedigest.com/think-of-nvidia-lackwell-as-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
[6] https://www.atlantic.net/gpu-server-hosting/nvidia-nvlink-how-it-works-use-cases-and-critical-best-practices/
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-speed-road-f-gpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-bandwidth-and-nvlink speeds-in-hopper-not-so-simple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf