„NVLink 5.0“: patobulintas AI ir HPC GPU iki GPU ryšys

Kaip „NVLINK 5.0“ tvarko duomenų perdavimą iš kelių GPU

„NVLINK 5.0“ yra naujausia „NVIDIA“ iteracija dėl savo ypač didelio greičio „Interconnect“ technologijos, skirtos sustiprinti tiesioginį ryšį tarp kelių GPU sistemoje. Ši technologija yra ypač svarbi GPU reikalaujantiems darbo krūviams, tokiems kaip AI mokymas ir aukštos kokybės skaičiavimas. Štai kaip „NVLink 5.0“ tvarko duomenų perdavimą tarp kelių GPU:

Architektūra ir pralaidumas

„NVLink 5.0“ yra sukurtas „Blackwell“ architektūrai ir pasižymi žymiai padidėjusiu pralaidumu, palyginti su jo pirmtakais. Kiekvienas „Blackwell GPU“ palaiko iki 18 NVLINK jungčių, kiekviena nuoroda suteikia dvikryptį pralaidumą 100 GB/s. Dėl to bendras pralaidumas yra 1,8 TB/s kiekvienam GPU, tai yra dvigubai didesnis nei ankstesnės kartos ir daugiau nei 14 kartų didesnis nei PCIE Gen5 juostos plotis [1] [2] [4].

Tiesioginis GPU iki GPU ryšys

„NVLINK“ įgalina tiesioginį ryšį tarp GPU, nereikalaujant CPU tarpininko, sumažinant delsą ir maksimaliai padidinti našumą. Ši ryšio su tašku architektūra užtikrina, kad kiekvienas GPU turi tam skirtą nuorodą su kiekvienu kitu GPU, leidžiančia greitai perduoti duomenis be pralaidumo dalijimosi [7].

„NVLink“ jungiklis, skirtas masteliui

„NVLink Switch“ lustas vaidina svarbų vaidmenį mažinant „NVLink“ ryšius keliuose GPU, tiek serverio lentynose, tiek tarp jų. Tai palengvina visišką GPU ryšį visu „NVLink“ greičiu, veiksmingai paverčiant duomenų centrą milžinišku GPU. Ši sąranka palaiko iki 576 visiškai sujungtų GPU neužblokuojamu skaičiavimo audiniu, įgalinant didelio masto AI ir HPC programas [1] [2] [4].

kolektyvinės operacijos su „Sharp“

Kiekvienas „NVLink“ jungiklis apima „NVIDIA“ keičiamo mastelio hierarchinės agregacijos ir redukcijos protokolo (aštrių) variklius, kurie pagreitina tinklų redukcijas ir daugialypės terpės operacijas. Tai labai svarbu atliekant didelės spartos kolektyvines užduotis AI ir HPC aplinkoje, leidžiančiai efektyviai apdoroti didelius duomenų rinkinius ir sudėtingus modelius [2] [4].

Programos ir nauda

„NVLink 5.0“ yra skirtas palaikyti trilijonų parametrų AI modelių ir „Exascale“ skaičiavimo programų kūrimą ir diegimą. Pateikdamas greitą, efektyvų ryšį tarp GPU, jis įgalina greitesnį keitimąsi duomenimis ir apdoroti, o tai yra labai svarbu atliekant sudėtingas skaičiavimo užduotis. Ši technologija yra neatsiejama „NVIDIA“ duomenų centro sprendimų, siūlančių precedento neturintį AI ir HPC platformų mastelį ir našumą [1] [2] [4].

Citatos:
[1] https://hardwarenation.com/resources/blog/nvidia-nvlink-5-0-accelering-multi-gpu-communication/
[2] https://www.amax.com/fifth-generation-nvidia-nvlink/
[3] https://www.fibermall.com/blog/nvidia-nvlink.htm
[4] https://www.nvidia.com/en-us/data-center/nvlink/
[5] https://www.fs.com/blog/fs-an-overview-of-nvidia-nvlink-2899.html
[6] https://massedcompute.com/faq-answers/?question=how+does+nvlink+handle+data+transfer+between+gpus+in+a+system+With+multlus+gpus%3F
[7] https://www.amax.com/unleashing-next-level gpu-performance-with-nvidia-nvlink/
[8] https://forums.developer.nvidia.com/t/nvlink-spport-for-connecting-4-gpus/253975