„NVIDIA DGX Station A100“ yra sukurta su sudėtinga temperatūros stebėjimo sistema, kad būtų užtikrintas optimalus našumas ir patikimumas. Štai kaip jis tvarko savo komponentų temperatūros stebėjimą:
1. Temperatūros stebėjimo sąsaja: „DGX Station A100“ yra internetinė vartotojo sąsaja per savo grindjuostės valdymo valdiklį (BMC). Ši sąsaja leidžia vartotojams stebėti kritinių komponentų, tokių kaip GPU, atminties DIMM, CPU, ekrano kortelės ir pagrindinės plokštės, temperatūrą. Tai pateikia šių komponentų rodmenis ir istorinius grafikus, leidžiančius administratoriams laikui bėgant sekti temperatūros tendencijas [1].
2. Komponentų stebėjimas: Sistema yra pasirengusi stebėti ne tik temperatūrą, bet ir kitus gyvybiškai svarbius parametrus, tokius kaip ventiliatoriaus greitis, energijos suvartojimas ir sistemos įtampos. Šis išsamus stebėjimas padeda nustatyti galimas problemas, kol jie neperspėja į pagrindines problemas [1].
3. Nuotolinis valdymas: BMC taip pat palaiko nuotolinio valdymo galimybes, įskaitant „Serial Over Lan“ (SOL), kad galėtų pasiekti sistemos serijinę konsolę. Tai leidžia administratoriams valdyti BIOS nustatymus arba įdiegtą operacinę sistemą nuotoliniu būdu. Be to, BMC teikia nuotolinę klaviatūrą, vaizdo įrašą, pelės (KVM) funkcijas, leidžiančias vartotojams peržiūrėti ir valdyti sistemą iš tolo [1].
4. Aušinimo sistema: „DGX Station A100“ naudojama šaltnešio pagrindu pagaminta aušinimo sistema, kuri yra skirta be priežiūros. Ši sistema apima šaltas plokšteles, pritvirtintas prie GPU ir CPU, cirkuliacijos siurblį, santechniką ir šilumokaitį. Aušinimo sistema yra ekologiška ir netoksiška, pašalinanti vandens lygio patikrinimų ar papildymo poreikį [1].
5. Darbinė temperatūros diapazonas: Sistema veikia nominalioje temperatūros diapazone nuo 5 ° C iki 30 ° C, nors aplinkos veikimo diapazonas yra šiek tiek platesnis 10 ° C iki 35 ° C [4] [7]. Šis diapazonas užtikrina, kad sistema gali efektyviai veikti tipinėje biurų aplinkoje, nereikalaujant specializuotos aušinimo infrastruktūros.
Apskritai, „DGX Station A100“ temperatūros stebėjimo ir aušinimo sistema yra skirta užtikrinti patikimą veikimą biurų aplinkoje, todėl ji yra tinkama duomenų mokslo komandoms ir AI darbo grupėms, nereikalaujant plataus IT infrastruktūros.
Citatos:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-tation-a100-system-architcture-white-paper_publed.pdf
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://massedcompute.com/faq-answers/?question=how+To+Monitor+and+Manage+temperature+in+nvidia+a100+gpu%3F
[4] https://docs.nvidia.com/dgx/dgx-tation-a100-user-guide/hardware-pecifications-stiation-a100.html
[5] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporeTech.com/document/nvidia-dgx-tation-a100-installation-and-use
[8] https://www.compecta.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/