NVIDIA GB10 Superchip, vystupujúci v systémoch, ako je DGX Spark a projektové číslice, je navrhnutý s modelom pamäťového modelu CPU+GPU pomocou technológie NVLINK-C2C NVLINK-C2C. Táto architektúra poskytuje významné zvýšenie šírky pásma pamäte v porovnaní s tradičnými rozhraniami PCIe a ponúka päťkrát väčšiu šírku pásma PCIe piatej generácie [1] [4]. Presná šírka pásma pamäte GB10 Superchip však nie je výslovne uvedená v dostupných informáciách.
V porovnaní s tým, že iné GPU bežne používané s Tensorflow majú dobre zdokumentované šírky pásma pamäte:
- NVIDIA A100 GPU: Tento GPU má šírku pásma pamäte 1 555 GB/s, čo je výrazne vyššie ako mnohí GPU spotrebiteľa. A100 je navrhnutý pre vysoko výkonné výpočtové a hlboké vzdelávacie úlohy, vďaka čomu je jednou z najrýchlejších dostupných možností [2] [6].
- NVIDIA V100 GPU: S šírkou pásma pamäte 900 GB/s je V100 ďalším výkonným GPU používaným v aplikáciách hlbokého učenia. Je menej ako A100, ale stále ponúka podstatný výkon pre náročné úlohy [2] [6].
- NVIDIA RTX 3090: Tento GPU spotrebiteľa má šírku pásma pamäte približne 936,2 GB/s, čo je vysoké pre spotrebiteľský GPU, ale nižšiu ako A100 a V100 [3].
- NVIDIA RTX 5090: Tento GPU má šírku pásma pamäte 1 792 GB/s, vďaka čomu je jedným z najrýchlejších GPU spotrebiteľa, ktorý je k dispozícii pre úlohy, ako je hlboké učenie a inferencia AI [7].
Pokiaľ ide o výkon aplikácií TensorFlow, šírka pásma pamäte je rozhodujúca, pretože určuje, ako rýchlo sa dá údaje pohybovať medzi pamäťovými a výpočtovými jadrami. Aj keď nie je špecifikovaná presná šírka pásma pamäte GB10 SuperChip, jej použitie technológie NVLink-C2C naznačuje, že je optimalizovaná pre aplikácie s vysokou šírkou šírky, čo potenciálne ponúka výkonnostné výhody podobné alebo prekonanie niektorých z vysokokvalitných GPU, ako je A100, v určitých scenároch A100, v dôsledku svojho koherentného modelu pamäte. Bez konkrétnych čísel šírky pásma sú však priame porovnania náročné.
GB10 SuperChip je navrhnutý pre vývoj AI a ponúka zjednotenú koherentnú pamäť, ktorá môže byť obzvlášť prospešná pre úlohy, ktoré vyžadujú plynulý prístup k údajom medzi CPU a GPU, ako je napríklad rozsiahly tréning modelov AI a inferencia. Táto architektúra umožňuje efektívne prototypovanie a nasadenie modelov AI na rôznych platformách vrátane prostredí cloudových a dátových centier [1] [4].
Citácie:
[1] https://nvidianews.nvidia.com/news/nvidia-annunces-dgx-park-and-dgx-station-station-ational-ational-ai-computers
[2] https://timdettmers.com/2023/01/30/wich-gpu-fordeep-learning/
[3] https://stackoverflow.com/questions/67760118/incorrect-memory-bandwidth-hen-using-tensorflowflow
[4] https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-ver-desk-and-and-at-at-every-ai-ai-developers-fingertrips
[5] https://forums.developer.nvidia.com/t/difference-of-memory-usage-at-each-gpu-model-during-tensorflow-c-inference/84392
[6] https://www.digitalocean.com/community/tutorials/gpu-memory-bandidth
[7] https://forums.fast.ai/t/nvidia-project-digits-vs-rtx-5090-dilemma/115883
[8] https://blog.tensorflow.org/2022/01/improved-tensorflow-27-perations-for.html
[9] https://ms.codes/blogs/computer-thardware/tensorflow-cpu-forster---gpu