Forbedring af hukommelsesbåndbredde med NVLINK-C2C-teknologi i DGX Spark Systems

Hvordan forbedrer NVLINK-C2C-teknologi hukommelsesbåndbredde i DGX-gnist

NVLINK-C2C-teknologi spiller en afgørende rolle i forbedring af hukommelsesbåndbredde i systemer som DGX-gnisten ved at tilvejebringe en høj båndbredde, lav-latensforbindelse mellem GPU og CPU. Denne teknologi er især fordelagtig i systemer, der kræver hyppig kommunikation mellem disse komponenter, såsom AI og højtydende computing (HPC) arbejdsbelastning.

Nøgleforbedringer

1. høj båndbredde: NVLINK-C2C tilbyder en maksimal båndbredde på 900 GB/s, hvilket er markant højere end traditionelle PCIe-forbindelser. F.eks. Tilvejebringer PCIe Gen4 kun 64 GB/s tovejsbåndbredde, mens NVLINK-C2C opnår en 14X stigning i forhold til dette [1]. Denne høje båndbredde giver mulighed for hurtig dataoverførsel mellem GPU og CPU, hvilket er vigtigt for store AI -modeller eller datasæt, der overskrider GPU's hukommelseskapacitet.

2. lav latenstid: Latenstiden i NVLINK-C2C reduceres dramatisk sammenlignet med PCIe-baserede forbindelser. Mens H100 GPU ved hjælp af PCIe Gen5 har en latenstid på ca. 400-600 nanosekunder til CPU-til-GPU-hukommelsesadgang, reducerer NVLINK-C2C dette til mindre end 20 nanosekunder, hvilket opnå en latensreduktion på ca. 95-97%[1]. Denne lave latenstid er kritisk for opgaver, der kræver tæt CPU-GPU-koordination og hurtige dataoverførsler.

3. Unified Memory Pool: NVLINK-C2C muliggør oprettelse af en samlet hukommelsespool ved at give GPU adgang til CPU-hukommelsen direkte. Dette betyder, at GPU'en kan bruge CPU-DRAM, som om det var yderligere lokal høj båndbreddehukommelse, hvilket effektivt eliminerer traditionelle GPU-hukommelseskapacitetsbegrænsninger [1] [2]. Denne funktion er især fordelagtig for store AI -modeller eller datasæt, der kræver mere hukommelse end hvad der er tilgængeligt på GPU.

4. hukommelseskohæren: NVLINK-C2C understøtter hukommelseskohæren, hvilket sikrer, at data er konsistente på tværs af både CPU og GPU-hukommelse. Dette muliggør effektiv synkroniseringsprimitiver og reducerer behovet for eksplicit hukommelsesstyring fra udviklere [2]. Hukommelseskohæren muliggør også let synkronisering på tværs af GPU- og CPU -tråde, hvilket forbedrer den samlede systemudnyttelse.

5. Skalerbarhed og effekteffektivitet: NVLINK-C2C understøtter skalerbarhed ved at muliggøre effektive multi-GPU-opsætninger og er designet til at være effekteffektive ved hjælp af avancerede signaleringsteknikker til at minimere strømforbruget [3] [4]. Dette gør det velegnet til store computermiljøer, hvor både ydeevne og energieffektivitet er afgørende.

I sammendraget forbedrer NVLINK-C2C-teknologi i systemer som DGX Spark markant hukommelsesbåndbredde ved at tilvejebringe højhastighedskommunikation med lav latens mellem GPU og CPU. Dette muliggør mere effektiv behandling af store datasæt og AI -arbejdsbelastninger ved at skabe en samlet hukommelsespool og reducere behovet for eksplicit hukommelsesstyring.

Citater:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergedigest.com/think-of-nvidia- Blackwell-as-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
)
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-peed-road-of-gpus
)
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf