Vylepšenie šírky pásma pamäte pomocou technológie NVLink-C2C v systémoch DGX Spark

Technológia NVLink-C2C hrá rozhodujúcu úlohu pri zvyšovaní šírky pásma pamäte v systémoch, ako je DGX Spark poskytovaním vzájomného prepojenia s nízkou latenciou medzi GPU a CPU. Táto technológia je obzvlášť prospešná v systémoch, ktoré si vyžadujú častú komunikáciu medzi týmito komponentmi, ako sú pracovné zaťaženie AI a vysokovýkonné výpočty (HPC).

Kľúčové vylepšenia

1. Vysoká šírka pásma: NVLink-C2C ponúka maximálnu šírku pásma 900 GB/s, ktorá je výrazne vyššia ako tradičné pripojenia PCIe. Napríklad PCIe Gen4 poskytuje iba 64 GB/s obojsmernú šírku pásma, zatiaľ čo NVLINK-C2C dosahuje oproti tomu 14x zvýšenie [1]. Táto vysoká šírka pásma umožňuje rýchly prenos údajov medzi GPU a CPU, ktorý je nevyhnutný pre veľké modely AI alebo súbory údajov, ktoré presahujú kapacitu pamäte GPU.

2. Nízka latencia: latencia v NVLink-C2C sa v porovnaní s pripojeniami založenými na PCIe dramaticky zníži. Zatiaľ čo H100 GPU používajúci PCIe Gen5 má latenciu približne 400-600 nanosekúnd pre prístup k pamäti CPU-GPU, NVLink-C2C to redukuje na menej ako 20 nanosekúnd, čím sa dosiahne zníženie latencie približne o 95-97%[1]. Táto nízka latencia je rozhodujúca pre úlohy, ktoré si vyžadujú prísnu koordináciu CPU-GPU a rýchle prenosy údajov.

3. Unifikovaná pamäťová fond: NVLink-C2C umožňuje vytvorenie zjednotenej pamäťovej skupiny tým, že umožňuje GPU priamo prístup k pamäti CPU. To znamená, že GPU môže využívať DRAM CPU, akoby to bola ďalšia lokálna pamäť s vysokým pásmom, čo účinne eliminuje tradičné obmedzenia kapacity pamäte GPU [1] [2]. Táto funkcia je obzvlášť prospešná pre veľké modely AI alebo súbory údajov, ktoré vyžadujú viac pamäte, ako je to, čo je k dispozícii na GPU.

4. Koherencia pamäte: NVLink-C2C podporuje koherenciu pamäte, ktorá zaisťuje, že údaje sú konzistentné v rámci pamäte CPU aj GPU. To umožňuje účinné synchronizačné primitívy a znižuje potrebu explicitnej správy pamäte vývojármi [2]. Koherencia pamäte tiež umožňuje ľahkú synchronizáciu naprieč vláknami GPU a CPU, čím sa zlepšuje celkové využitie systému.

5. Škálovateľnosť a výkonová účinnosť: NVLink-C2C podporuje škálovateľnosť tým, že umožňuje efektívne nastavenie viacerých GPU a je navrhnutá tak, aby bola výkonná, pomocou pokročilých signalizačných techník na minimalizáciu spotreby energie [3] [4]. Vďaka tomu je vhodné pre rozsiahle výpočtové prostredia, v ktorých sú rozhodujúce výkonnosť aj energetická účinnosť.

Stručne povedané, technológia NVLink-C2C v systémoch, ako je DGX iskry, významne zvyšuje šírku pásma pamäte poskytovaním vysokorýchlostnej komunikácie s nízkou latenciou medzi GPU a CPU. To umožňuje efektívnejšie spracovanie veľkých súborov údajov a pracovného zaťaženia AI vytvorením zjednotenej oblasti pamäte a znížením potreby explicitnej správy pamäte.

Citácie:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-dpth/
[3] https://www.fiberall.com/blog/dgx-gh200.htm
[4] https://convergedigest.com/think-of-nvidia-blackwell-as-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_underStand_the_project_digits_desktop_128_gb/
[6] https://www.atlantic.net/gpu-server-hosting/nvidia-nvlink-how-it-works-use-cases-cases--critical-best-practices/
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-High-Peed-road-of-gpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-bandwidth-and-nvlink-Speeds-in-hopper-o-so-simple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf

Ako technológia NVLink-C2C zlepšuje šírku pásma pamäte v DGX Spark

Kľúčové vylepšenia