Atminties pralaidumo patobulinimas naudojant „NVLINK-C2C“ technologiją „DGX Spark Systems“

Kaip „NVLINK-C2C“ technologija pagerina atminties pralaidumą DGX kibirkštyje

„NVLINK-C2C Technology“ vaidina lemiamą vaidmenį gerinant atminties pralaidumą tokiose sistemose kaip DGX kibirkštis, užtikrinant didelio juostos pločio, mažo latentinio ryšį tarp GPU ir CPU. Ši technologija yra ypač naudinga sistemoms, kurioms reikalingas dažnai ryšys tarp šių komponentų, tokių kaip AI ir aukštos kokybės skaičiavimo (HPC) darbo krūviai.

Pagrindiniai patobulinimai

1. Didelis pralaidumas: „NVLINK-C2C“ siūlo maksimalų pralaidumą-900 GB/s, kuris yra žymiai didesnis nei tradicinės PCIE jungčių. Pavyzdžiui, „Pcie Gen4“ suteikia tik 64 GB/s dvikryptį pralaidumą, o „NVLINK-C2C“ padidėja 14x padidėjęs per šį [1]. Šis didelis pralaidumas leidžia greitai perduoti duomenis iš GPU ir CPU, kuris yra būtinas dideliems AI modeliams ar duomenų rinkiniams, viršijantiems GPU atminties talpą.

2. Mažas latentinis latentinis: „NVLINK-C2C“ delsos dramatiškai sumažėja, palyginti su PCIe pagrįstomis jungtimis. Nors „H100 GPU“, naudojant „PCIE Gen5“, yra maždaug 400–600 nanosekundžių, skirtų prieigai prie CPU iki GPU, „NVLINK-C2C“ sumažina tai iki mažiau nei 20 nanosekundžių, padidindamas maždaug 95–97%[1] vėlavimą. Šis mažas vėlavimas yra labai svarbus atliekant užduotis, kurioms reikalingas griežtas CPU-GPU koordinavimas ir greitas duomenų perdavimas.

3. Vieningas atminties fondas: „NVLINK-C2C“ leidžia sukurti vieningą atminties fondą, nes GPU leistų tiesiogiai pasiekti CPU atmintį. Tai reiškia, kad GPU gali naudoti CPU DRAM taip, lyg tai būtų papildoma vietinė aukšto lygio atmintis, veiksmingai pašalinant tradicinius GPU atminties talpos apribojimus [1] [2]. Ši funkcija yra ypač naudinga dideliems AI modeliams ar duomenų rinkiniams, kuriems reikia daugiau atminties nei tai, kas yra GPU.

4. Atminties nuoseklumas: „NVLINK-C2C“ palaiko atminties darną, kuri užtikrina, kad duomenys yra vienodi tiek CPU, tiek GPU atmintyje. Tai leidžia efektyviai sinchronizuoti primityvius ir sumažina kūrėjų aiškaus atminties valdymo poreikį [2]. Atminties nuoseklumas taip pat leidžia lengvą sinchronizaciją per GPU ir CPU sriegius, pagerindama bendrą sistemos panaudojimą.

5. Mastelio ir energijos efektyvumas: „NVLINK-C2C“ palaiko mastelio keitimą, įgalindamas efektyvias kelių GPU sąrankas ir yra sukurtas kaip efektyvus energiją, naudojant patobulintus signalizacijos metodus, kad būtų sumažintas energijos suvartojimas [3] [4]. Dėl to jis tinka didelio masto skaičiavimo aplinkai, kur labai svarbu ir našumas, ir energijos vartojimo efektyvumas.

Apibendrinant galima pasakyti, kad „NVLINK-C2C“ technologija tokiose sistemose kaip DGX kibirkštis žymiai padidina atminties pralaidumą, teikdama greitą, mažo vėlavimo ryšį tarp GPU ir CPU. Tai leidžia efektyviau apdoroti didelius duomenų rinkinius ir AI darbo krūvius, sukuriant vieningą atminties fondą ir sumažinant aiškaus atminties valdymo poreikį.

Citatos:
[1] https://www.supercluster.blog/p/nvidia-gpu-architcture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architcture-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergedigest.com/think-of-nvidia-blackwell-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
[6] https://www.atlantic.net/gpu-server-hosting/nvidia-nlink-how-it-works-use-cess-and-critical-best-praktices/
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-cige-road-road-gpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-bandwidth-and-nvlink-spartos-in-hopper-not-so-psple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitePaper.pdf