NVIDIA DGX stacija A100 ir izstrādāta ar sarežģītu temperatūras uzraudzības sistēmu, lai nodrošinātu optimālu veiktspēju un uzticamību. Lūk, kā tas apstrādā tās komponentu temperatūras uzraudzību:
1. Temperatūras uzraudzības interfeiss: DGX stacijā A100 ir tīmekļa lietotāja interfeiss, izmantojot savu bisboard Management Controller (BMC). Šī saskarne ļauj lietotājiem uzraudzīt kritisko komponentu, piemēram, GPU, atmiņas DIMM, CPU, displeja kartes un mātesplates, temperatūru. Tas nodrošina šo komponentu lasījumus reāllaikā un vēsturiskos grafikus, ļaujot administratoriem laika gaitā izsekot temperatūras tendencēm [1].
2. Komponentu uzraudzība: sistēma ir aprīkota, lai uzraudzītu ne tikai temperatūru, bet arī citus būtiskus parametrus, piemēram, ventilatora ātrumu, enerģijas patēriņu un sistēmas spriegumus. Šī visaptverošā uzraudzība palīdz identificēt iespējamās problēmas, pirms tās pāriet uz galvenajām problēmām [1].
3. Attālā pārvaldība: BMC atbalsta arī attālās pārvaldības iespējas, ieskaitot seriālo virs LAN (SOL), lai piekļūtu sistēmas sērijas konsolei. Tas ļauj administratoriem no attāluma pārvaldīt BIOS iestatījumus vai instalēto operētājsistēmu. Turklāt BMC nodrošina attālo tastatūru, video, peles (KVM) funkcionalitāti, ļaujot lietotājiem apskatīt un pārvaldīt sistēmu no attāluma [1].
4. Dzesēšanas sistēma: DGX stacija A100 izmanto dzesēšanas dzesēšanas sistēmu, kas paredzēta dzesēšanas sistēmai, kas ir paredzēta bez apkopes. Šajā sistēmā ietilpst aukstās plāksnes, kas uzstādītas uz GPU un CPU, cirkulācijas sūkni, santehniku un siltummaini. Dzesēšanas sistēma ir videi droša un netoksiska, novēršot nepieciešamību pēc ūdens līmeņa pārbaudes vai uzpildīšanas [1].
5. Darba temperatūras diapazons: sistēma darbojas nominālajā temperatūras diapazonā no 5 ° C līdz 30 ° C, lai gan apkārtējā darba diapazons ir nedaudz plašāks no 10 ° C līdz 35 ° C [4] [7]. Šis diapazons nodrošina, ka sistēma var efektīvi darboties tipiskā biroja vidē, neprasot specializētu dzesēšanas infrastruktūru.
Kopumā DGX stacija A100 temperatūras uzraudzības un dzesēšanas sistēma ir paredzēta, lai nodrošinātu uzticamu darbību biroja vidē, padarot to piemērotu datu zinātnes komandām un AI darba grupām, bez nepieciešamības pēc plašas IT infrastruktūras.
Atsauces:
[1.]
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://masedcompute.com/faq-answers/?question=how+toMonitor+and+manage+Temperature+in+nvidia+
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardware-fecifations-station-a100.html
[5] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_dataSheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use
[8] https://www.compecta.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/