„NVLink Switch“: daugialypės GPU mastelio ir našumo patobulinimas

Kokį vaidmenį vaidina „NVLink“ jungiklis

„NVLink“ jungiklis vaidina pagrindinį vaidmenį mažinant kelių GPU sistemas, įgalinant didelę spartą, mažo latentinį ryšį tarp daugybės GPU. Ši technologija yra labai svarbi programoms, reikalaujančioms didžiulės skaičiavimo galios, tokios kaip AI mokymai, moksliniai modeliavimai ir duomenų analizė.

„NVLink“ jungiklio funkcionalumas

„NVLink“ jungiklis veikia kaip fizinis jungiklis, jungiantis kelias „NVLink“ sąsajas, leidžiančias keičiamą ryšį tarp didesnio GPU skaičiaus. Tai palaiko visišką GPU ryšį visu „NVLink“ greičiu tiek viename serveryje, tiek tarp kelių serverių ar lentynų [1] [3]. Ši galimybė yra būtina norint pamaitinti didelius duomenų rinkinius į modelius ir palengvinti greitą duomenų mainus tarp GPU, o tai yra labai svarbi norint pasiekti optimalų AI darbo krūvio našumą ir didelio masto GPU diegimą [2] [5].

mastelio ir našumo patobulinimas

„NVLink“ jungiklis žymiai padidina GPU klasterių mastelį, leisdamas lengvai išplėsti papildomus GPU. Paprasčiausiai pridedant daugiau „nvswitches“, sistema gali sklandžiai pritaikyti daugiau GPU, taip išplėsti skaičiavimo pajėgumus, neprarandant našumo [6] [7]. Šis mastelio keitimas yra ypač naudingas sudėtingoms programoms, kurioms reikalingos kelių GPU sąrankos, kai būtina nepertraukiama duomenų srautas ir optimalus išteklių panaudojimas [1] [6].

Techninės galimybės

Kiekvienas „NVLink“ jungiklis integruoja „NVIDIA“ keičiamo mastelio hierarchinės agregacijos ir redukcijos protokolo (aštrių) variklius, kurie pagreitina tinklų redukcijas ir daugialypės terpės operacijas. Šios operacijos yra būtinos atliekant didelės spartos kolektyvines užduotis, dar labiau padidinant kelių GPU sistemų efektyvumą [2] [3]. Penktosios kartos „NVLink“, palaikomas „NVLink“ jungiklio, siūlo bendrą pralaidumą iki 1,8 terabaitų per sekundę per GPU, tai yra daugiau nei 14 kartų didesnis nei PCIE gen5 pralaidumas [2] [3]. Šis greitas sujungimas yra labai svarbus norint pasiekti optimalų AI darbo krūvio našumą ir didelio masto GPU diegimus.

Programos ir poveikis

„NVLink Switch“ technologija praplečia „NVLink“ jungtis per mazgus, sukurdama vientisą, aukšto lygio plotį, kelių mazgų GPU klasterį. Tai iš tikrųjų paverčia duomenų centrą milžinišku GPU, įgalindamas didelį modelio paralelizmą ir palaikant iki devynių kartų daugiau GPU nei įprasta aštuonių GPU sistema [2] [3]. Ši galimybė yra ypač naudinga mokant kelių trilijonų parametrų modelius, kai būtina greitas ir efektyvus ryšys visuose GPU serverio klasteryje [2] [3]. „NVLink“ jungiklis yra kritinis šiuolaikinės HPC aplinkos komponentas, palengvinantis precedento neturintį pagreitį kiekvienoje skalėje ir sudarantis iki šiol galingiausių AI ir HPC platformų stuburą [2] [3].

Citatos:
[1] https://www.fibermall.com/blog/nvidia-nvlink.htm
[2] https://www.amax.com/fifth-generation-nvidia-nvlink/
[3] https://www.nvidia.com/en-us/data-center/nvlink/
[4] https://developer.nvidia.com/blog/nvidia-nlink-and-nvidia-nvswitch-suppercke-large-language-model-inference/
[5] https://training.continuumlabs.ai/infrastructure/servers-and-chips/nvlink-switch
[6] https://www.amax.com/modernizing-gpu-network-data-transfer-with-nvidia-nvswitch/
[7] https://www.fibermall.com/blog/analysis-nv-switch.htm
[8] https://www.reddit.com/r/localllama/comments/1br6yol/myth_about_nvlink/