Stanice NVIDIA DGX A100 je navržena se sofistikovaným systémem monitorování teploty, aby byla zajištěna optimální výkon a spolehlivost. Zde je způsob, jak zpracovává monitorování teploty pro své komponenty:
1. Rozhraní monitorování teploty: Stanice DGX A100 je vybavena webovým uživatelským rozhraním prostřednictvím řadiče správy základní desky (BMC). Toto rozhraní umožňuje uživatelům sledovat teploty kritických součástí, jako jsou GPU, paměťové DIMM, CPU, zobrazovací karta a základní deska. Poskytuje čtení v reálném čase a historické grafy pro tyto komponenty, což umožňuje administrátorům sledovat teplotní trendy v průběhu času [1].
2. Sledování komponent: Systém je vybaven pro sledování nejen teplot, ale také jiných vitálních parametrů, jako jsou rychlosti ventilátoru, spotřeba energie a napětí systému. Toto komplexní monitorování pomáhá při identifikaci potenciálních problémů dříve, než se eskalují do hlavních problémů [1].
3. Vzdálená správa: BMC také podporuje možnosti vzdáleného správy, včetně sériového over LAN (Sol) pro přístup k sériové konzole systému. To umožňuje správcům na dálku správu nastavení BIOS nebo nainstalovaný operační systém. BMC navíc poskytuje funkčnost vzdálené klávesnice, video, myši (KVM), což uživatelům umožňuje prohlížet a spravovat systém z dálky [1].
4. chladicí systém: Stanice DGX A100 používá chladicí systém založený na chladivu, který je navržen tak, aby byl bez údržby. Tento systém zahrnuje studené destičky namontované na GPU a CPU, cirkulační čerpadlo, instalatérství a výměník tepla. Chladicí systém je ekologicky bezpečný a netoxický, což eliminuje potřebu kontrol vody nebo doplňování hladiny vody [1].
5. Rozsah provozních teplot: Systém pracuje v nominálním teplotním rozsahu 5 ° C až 30 ° C, ačkoli okolní provozní rozsah je o něco širší při 10 ° C až 35 ° C [4] [7]. Tento rozsah zajišťuje, že systém může efektivně fungovat v typických kancelářských prostředích, aniž by vyžadoval specializovanou chladicí infrastrukturu.
Celkově je navržen systém teploty a chlazení stanice DGX A100, aby poskytoval spolehlivý provoz v kancelářských prostředích, takže je vhodný pro týmy pro vědu o datech a pracovní skupiny AI bez nutnosti rozsáhlé IT infrastruktury.
Citace:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://massedcompute.com/faq-answers/?Question=How+Monitor+ a+Manage+TEMPEMPERY+In+NVIDIA+A100+GPU%3F
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardware-specifications-station-a100.html
[5] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporeTech.com/document/nvidia-Dgx-station-a100-instalation-and-use
[8] https://www.comspecta.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/