Technológia GPU (MIG) NVIDIA A100 (MIG) ponúka významné výhody v niekoľkých scenároch v porovnaní so systémami, ako sú DGX Spark, ktoré nemusia využívať MIG alebo podobné možnosti rozdelenia. Tu je niekoľko kľúčových scenárov, v ktorých MIG poskytuje podstatnú výhodu:
1. Využívanie a efektívnosť zdrojov: MIG umožňuje rozdeliť jediný A100 GPU do siedmich nezávislých inštancií GPU, z ktorých každý má vlastné vyhradené zdroje, ako sú pamäť, výpočet a vyrovnávacia pamäť. To umožňuje viacerým pracovným zaťažením spúšťať súčasne na rovnakom GPU bez rušenia, maximalizovať využitie zdrojov a zabezpečiť konzistentný výkon. Naopak, systémy bez MIG nemusia byť schopné dosiahnuť takú vysokú úroveň využitia, čo vedie k zbytočným zdrojom pri vykonávaní menších alebo menej náročných úloh [2] [4].
2. Zaručená kvalita služieb (QoS): MIG zaisťuje, že každá inštancia dostane zaručenú úroveň výkonu, čo je rozhodujúce pre aplikácie vyžadujúce predvídateľné a stabilné časy vykonávania. Toto je obzvlášť prospešné v prostrediach, v ktorých viac používatelia alebo úloh zdieľajú rovnaké zdroje GPU, pretože bráni akejkoľvek jednotlivej úlohe monopolizovať GPU a ovplyvniť výkonnosť iných úloh [2] [6].
3. Bezpečnosť a izolácia: MIG poskytuje silnú izoláciu medzi inštanciami, čo je nevyhnutné na ochranu citlivých údajov a pracovného zaťaženia pred neoprávneným prístupom. Táto izolácia zaisťuje, že aj v prípade, že na rovnakom GPU spustí viac používateľov alebo aplikácií, ich údaje zostávajú bezpečné a oddelené [8].
4. Flexibilita pri nasadení: MIG podporuje rôzne možnosti nasadenia vrátane spustenia aplikácií CUDA na holých kovoch, kontajneroch alebo použitia Kubernetes na škálovateľnú správu. Táto flexibilita umožňuje používateľom efektívne spravovať a alokovať zdroje GPU v rôznych pracovných zaťaženiach a prostrediach, ktoré nemusia byť také jednoduché so systémami bez MIG [4].
5. Škálovateľnosť a podpora používateľov: V systémoch ako DGX A100, kde sú všetky GPU podporované MIG, môže až 56 používateľov súčasne využívať nezávisle zrýchlenie GPU. To je obzvlášť výhodné v zdieľaných výpočtových prostrediach, kde viacerí používatelia potrebujú prístup k zdrojom GPU pre úlohy, ako sú školenie, inferencia alebo analýza údajov [3] [4].
6. Pracovné zaťaženie inferencie a malého modelu: MIG je obzvlášť prospešná pre splnenie viacerých inferenčných úloh s malými modelmi s nízkou latenciou, ktoré nevyžadujú plnú kapacitu GPU. Rozdelením GPU do menších prípadov sa tieto úlohy môžu efektívne vykonávať bez straty zdrojov, čo je spoločnou výzvou v systémoch bez MIG [3] [4].
Celkovo ponúka technológia MIG A100 významné výhody, pokiaľ ide o efektívnosť zdrojov, bezpečnosť, flexibilitu a škálovateľnosť v porovnaní so systémami, ktoré nevyužívajú podobné schopnosti rozdelenia.
Citácie:
[1] https://www.fiberall.com/blog/nvidia-a100.htm
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/using-mig.html
[3] https://www.weka.io/wp-content/uploads/2023/04/weka-nvidia-dgx-a100-Systems.pdf
[4] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architurt.pdf
[5] https://www.cudocompute.com/blog/comparative-analysis-of-nvidia-a100-vs-h100-gpus
[6] https://aws.amazon.com/blogs/containers/maximizing-gpu-utilization-with-nvidias-multi-instance-gpu-mig-on-on-amazon-eks-- running-more-pods-pods-per-gpu-for-enhanced-performance/
Https://sourcesup.renater.fr/wiki/atelieromp/_media/new_a100_et_dgxa100_nvidia_rjosien_28juillet20202020.pdf
[8] https://massedcompute.com/faq-answers/?question=What+are+The+BeneFits+of+Using+Multi-instanti-instance+GPU+%28MIG%29+On+NVIDIA+A100+-GPUS+AIN+A+CLOUND