Förbättra minnesbandbredd med NVLINK-C2C-teknik i DGX Spark Systems

Hur förbättrar NVLINK-C2C-tekniken minnesbandbredden i DGX Spark

NVLINK-C2C-teknik spelar en avgörande roll för att förbättra minnesbandbredden i system som DGX-gnistan genom att tillhandahålla en högbandbredd, låg-latens-sammankoppling mellan GPU och CPU. Denna teknik är särskilt fördelaktig i system som kräver ofta kommunikation mellan dessa komponenter, såsom AI och HPC-arbetsbelastningar med hög prestanda (HPC).

Nyckelförbättringar

1. Hög bandbredd: NVLINK-C2C erbjuder en maximal bandbredd på 900 GB/s, vilket är betydligt högre än traditionella PCIe-anslutningar. Till exempel tillhandahåller PCIe Gen4 endast 64 GB/s dubbelriktad bandbredd, medan NVLINK-C2C uppnår en 14x-ökning jämfört med detta [1]. Denna höga bandbredd möjliggör snabb dataöverföring mellan GPU och CPU, vilket är viktigt för stora AI -modeller eller datasätt som överskrider GPU: s minneskapacitet.

2. Låg latens: Latensen i NVLINK-C2C reduceras dramatiskt jämfört med PCIe-baserade anslutningar. Medan H100 GPU som använder PCIe Gen5 har en latens på cirka 400-600 nanosekunder för CPU-till-GPU-minnesåtkomst, minskar NVLINK-C2C detta till mindre än 20 nanosekunder, vilket uppnår en latensreduktion på cirka 95-97%[1]. Denna låga latens är avgörande för uppgifter som kräver tät CPU-GPU-samordning och snabba dataöverföringar.

3. Unified Memory Pool: NVLINK-C2C möjliggör skapandet av en enhetlig minnespool genom att låta GPU komma åt CPU-minnet direkt. Detta innebär att GPU kan använda CPU-DRAM som om det var ytterligare lokalt högbandbreddminne, vilket effektivt eliminerar traditionella GPU-minneskapacitetsbegränsningar [1] [2]. Denna funktion är särskilt fördelaktig för stora AI -modeller eller datasätt som kräver mer minne än vad som finns tillgängligt på GPU.

4. Minneskoherens: NVLINK-C2C stöder minneskoherens, vilket säkerställer att data är konsekvent i både CPU- och GPU-minne. Detta möjliggör effektiva synkroniseringsprimitiv och minskar behovet av uttrycklig minneshantering av utvecklare [2]. Minneskoherens möjliggör också lätt synkronisering över GPU- och CPU -trådar, vilket förbättrar det övergripande systemanvändningen.

5. Skalbarhet och effekteffektivitet: NVLINK-C2C stöder skalbarhet genom att möjliggöra effektiva multi-GPU-inställningar och är utformade för att vara effekteffektiva med hjälp av avancerade signaleringstekniker för att minimera kraftförbrukningen [3] [4]. Detta gör det lämpligt för storskaliga datormiljöer där både prestanda och energieffektivitet är avgörande.

Sammanfattningsvis förbättrar NVLINK-C2C-teknik i system som DGX-gnisten avsevärt minnesbandbredd genom att tillhandahålla höghastighetskommunikation mellan GPU och CPU. Detta möjliggör effektivare behandling av stora datasätt och AI -arbetsbelastningar genom att skapa en enhetlig minnespool och minska behovet av uttrycklig minneshantering.

Citeringar:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-volution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-arkitectectecy-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergedigest.com/think-of-nvidia-backwell-as-a-platform/
[5] https://www.reddit.com/r/localllamama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
]
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-speed-low-of-gpus
]
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf