DGX stacija A100 izseko un parāda sistēmas spriegumu, izmantojot tā pamatbordas pārvaldības kontrolieri (BMC), kas nodrošina visaptverošu uzraudzības sistēmu. Šis BMC piedāvā tīmekļa lietotāja saskarni, kas lietotājiem ļauj droši piekļūt un pārskatīt sensoru rādījumus, ieskaitot sistēmas spriegumu, kā arī citas kritiskās sistēmas metrikas, piemēram, temperatūru, ventilatora ātrumu un enerģijas patēriņu. Šīs funkcijas ir pieejamas arī, izmantojot IPMI saskarnes, nodrošinot automatizētu uzraudzību bez lietotāja iejaukšanās.
BMC saskarnē ir iekļauti vēsturiskie grafiki un pašreizējie šo metrikas lasījumi, sniedzot detalizētu pārskatu par sistēmas veiktspēju un veselību. Šī spēja ir būtiska, lai saglabātu optimālus sistēmas apstākļus, jo īpaši vidē, kur stabilai darbībai ir nepieciešama precīza sprieguma kontrole. Turklāt BMC atbalsta attālās pārvaldības funkcijas, piemēram, sērijveida virs LAN (SOL) un tastatūras, video, peles (KVM) funkcionalitātes, ļaujot attālā sistēmas pārvaldībai un problēmu novēršanai.
Lai iegūtu detalizētu izsekošanu un analīzi, lietotāji var integrēt BMC datus ar ārējiem uzraudzības rīkiem vai datu bāzēm, lai laika gaitā savāktu un analizētu vēsturiskos datus. Šī pieeja palīdz noteikt tendences un anomālijas sistēmas spriegumos, kas ir svarīgi, lai saglabātu DGX stacijas A100 uzticamību un efektivitāti.
Rezumējot, DGX stacija A100 sistēmas spriegums tiek izsekots un parādīts, apvienojot tās BMC tīmekļa saskarni un IPMI iespējas, nodrošinot gan reālā laika, gan vēsturiskos datus efektīvai sistēmas pārvaldībai.
Atsauces:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_engergy_monitoring/
[2] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
.
[5.]
[6.]
.
[8] https://www.youtube.com/watch?v=i6nx74lqtca
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use