Підвищення пропускної здатності пам'яті за допомогою технології NVLINK-C2C в DGX Spark Systems

Технологія NVLINK-C2C відіграє вирішальну роль у підвищенні пропускної здатності пам'яті в таких системах, як DGX Spark, забезпечуючи високу пропускну здатність, низькопроникний взаємозв'язок між GPU та процесором. Ця технологія особливо корисна в системах, які потребують частого спілкування між цими компонентами, такими як навантаження AI та високоефективні обчислення (HPC).

Ключові вдосконалення

1. Висока пропускна здатність: NVLINK-C2C пропонує максимальну пропускну здатність 900 ГБ/с, що значно вище, ніж традиційні з'єднання PCIE. Наприклад, PCIE Gen4 забезпечує лише 64 ГБ/с двонаправлену пропускну здатність, тоді як NVLink-C2C досягає 14-кратного збільшення порівняно з цим [1]. Ця висока пропускна здатність дозволяє швидко передати дані між GPU та процесором, що є важливим для великих моделей AI або наборів даних, що перевищують ємність пам'яті GPU.

2. Низька затримка: Затримка NVLink-C2C різко знижується порівняно з підключеннями на основі PCIE. Хоча GPU H100 за допомогою PCIE GEN5 має затримку близько 400-600 наносекунд для доступу до пам'яті CPU-TO-GPU, NVLINK-C2C зменшує це до менше 20 наносекунд, досягаючи зниження затримки приблизно на 95-97%[1]. Ця низька затримка є критичною для завдань, що вимагають тісної координації процесора-ГПУ та швидких передач даних.

3. Уніфікований пул пам'яті: NVLink-C2C дозволяє створити єдиний пул пам'яті, дозволяючи GPU безпосередньо отримувати доступ до пам'яті процесора. Це означає, що GPU може використовувати DRAM CPU так, як ніби це була додаткова локальна пам'ять з високою пропускною здатністю, ефективно усунувши традиційні обмеження ємності пам'яті GPU [1] [2]. Ця функція особливо корисна для великих моделей AI або наборів даних, які потребують більшої пам’яті, ніж те, що доступне на GPU.

4. Когерентність пам'яті: NVLINK-C2C підтримує когерентність пам'яті, що забезпечує послідовність даних як у пам'яті процесора, так і для GPU. Це дозволяє ефективно синхронізувати примітиви та зменшує потребу в явному управлінні пам'яттю розробниками [2]. Когерентність пам'яті також забезпечує легку синхронізацію через ними GPU та процесора, вдосконалюючи загальне використання системи.

5. Масштабованість та ефективність потужності: NVLink-C2C підтримує масштабованість, забезпечуючи ефективні налаштування мульти-GPU і розроблений як ефективність потужності, використовуючи вдосконалені методи сигналізації для мінімізації споживання електроенергії [3] [4]. Це робить його придатним для масштабних обчислювальних середовищ, де як продуктивність, так і енергоефективність мають вирішальне значення.

Підсумовуючи, технологія NVLink-C2C в таких системах, як DGX Spark, значно підвищує пропускну здатність пам'яті, забезпечуючи швидкісну, низькопроцентну комунікацію між GPU та процесором. Це забезпечує більш ефективну обробку великих наборів даних та робочих навантажень AI шляхом створення єдиного пулу пам'яті та зменшення потреби в явному управлінні пам'яттю.

Цитати:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergegest.com/think-of-nvidia-blackwell-as-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
[6] https://www.atlantic.net/gpu-server-hosting/nvidia-nvlink-how-it-works-use-case-and-critical-best-practices/
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-peed-road-of-gpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-bandwidth-and-nvlink-speeds-in-hopper-not-sy-simple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf

Як технологія NVLink-C2C покращує пропускну здатність пам'яті в DGX Spark

Ключові вдосконалення