Zvyšování šířky pásma paměti pomocí technologie NVLink-C2C v systémech DGX Spark

Jak technologie NVLINK-C2C zlepšuje šířku pásma paměti v DGX Spark

Technologie NVLINK-C2C hraje klíčovou roli při zvyšování šířky pásma paměti v systémech, jako je DGX Spark, poskytnutím propojení s nízkou latencí mezi GPU a CPU. Tato technologie je obzvláště výhodná v systémech, které vyžadují častou komunikaci mezi těmito komponenty, jako je pracovní zátěž AI a vysoce výkonná výpočetní zátěž (HPC).

Klíčová vylepšení

1. Vysoká šířka pásma: NVLink-C2C nabízí maximální šířku pásma 900 GB/s, což je výrazně vyšší než tradiční připojení PCIE. Například PCIe Gen4 poskytuje pouze 64 GB/S obousměrnou šířku pásma, zatímco NVLINK-C2C dosáhne oproti tomuto nárůstu 14x [1]. Tato vysoká šířka pásma umožňuje rychlý přenos dat mezi GPU a CPU, což je nezbytné pro velké modely AI nebo datové sady, které překračují paměťovou kapacitu GPU.

2. Nízká latence: Latence v NVLink-C2C je ve srovnání s připojeními na bázi PCIe dramaticky snížena. Zatímco GPU H100 pomocí PCIe Gen5 má latenci přibližně 400-600 nanosekund pro přístup k paměti CPU-to-GPU, NVLINK-C2C to snižuje na méně než 20 nanosekund, což dosahuje latence přibližně 95–97%[1]. Tato nízká latence je kritická pro úkoly vyžadující těsnou koordinaci CPU-GPU a rychlé převody dat.

3. Unified Memory Pool: NVLink-C2C umožňuje vytvoření fondu sjednoceného paměti tím, že umožňuje GPU přímo přístup k paměti CPU. To znamená, že GPU může využívat CPU DRAM, jako by to byla další místní paměť s vysokou šířkou šířky, což účinně eliminuje tradiční omezení paměťové kapacity GPU [1] [2]. Tato funkce je obzvláště prospěšná pro velké modely AI nebo datové sady, které vyžadují více paměti, než co je k dispozici na GPU.

4. Koherence paměti: NVLink-C2C podporuje koherenci paměti, která zajišťuje, že data jsou konzistentní v paměti CPU i GPU. To umožňuje účinné primitivy synchronizace a snižuje potřebu explicitní správy paměti vývojáři [2]. Koherence paměti také umožňuje lehkou synchronizaci napříč vlákny GPU a CPU, což zlepšuje celkové využití systému.

5. Škálovatelnost a energetická účinnost: NVLINK-C2C podporuje škálovatelnost umožněním efektivních nastavení multi-GPU a je navržen tak, aby byl účinný, pomocí pokročilých signalizačních technik k minimalizaci spotřeby energie [3] [4]. Díky tomu je vhodný pro rozsáhlé výpočetní prostředí, kde jsou rozhodující výkon i energetická účinnost.

Stručně řečeno, technologie NVLINK-C2C v systémech, jako je DGX Spark, významně zvyšuje šířku pásma paměti tím, že poskytuje vysokorychlostní komunikaci s nízkou latencí mezi GPU a CPU. To umožňuje efektivnější zpracování velkých datových sad a pracovní zátěže AI vytvořením sjednoceného fondu paměti a snížením potřeby explicitní správy paměti.

Citace:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergegegest.com/think-of-nvidia-lackwell-as-aplatfor/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
[6] https://www.atlantic.net/gpu-server-hosting/nvidia-nvlink-it-works-use-ases-and-critical-best-tractices/
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-hegh-speed-road-of-gpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-pandWidth-and-nvlink-Speeds-n-SOSImple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf