NVIDIA DGX stacija A100 sistēma nodrošina visaptverošas uzraudzības iespējas, kas pārsniedz temperatūru. Līdztekus GPU, atmiņas DIMM, CPU, displeja kartes un mātesplates temperatūras uzraudzībai sistēma izseko arī vairākus citus kritiskus komponentus un veiktspējas metriku. Tie ietver:
- Ventilatora ātrums: sistēma uzrauga ventilatoru ātrumu, lai nodrošinātu optimālu gaisa plūsmu un dzesēšanas efektivitāti, kas ir būtiska veiktspējas saglabāšanai un pārkaršanas novēršanai.
- Jaudas patēriņš: enerģijas patēriņa uzraudzība palīdz pārvaldīt enerģijas patēriņu un nodrošināt, ka sistēma darbojas drošās robežās. Tas ir īpaši svarīgi sistēmai, kas paredzēta izmantošanai biroja vidē bez specializētas enerģijas infrastruktūras.
- Sistēmas spriegumi: Sprieguma uzraudzība ir būtiska stabilas sistēmas darbības uzturēšanai. Tas palīdz noteikt visas sprieguma svārstības, kas varētu ietekmēt sistēmas veiktspēju vai ilgmūžību.
Šīs uzraudzības iespējas ir pieejamas, izmantojot tīmekļa lietotāja interfeisu un IPMI (inteliģenta platformas pārvaldības interfeisa) saskarnes. Tīmekļa saskarne nodrošina šo metrikas vēsturiskos grafikus un pašreizējos rādījumus, ļaujot veikt detalizētu sistēmas veiktspējas analīzi un pārvaldību. Turklāt sistēma atbalsta attālās pārvaldības funkcijas, ieskaitot seriālo virs LAN (SOL), lai piekļūtu sērijveida konsolei un attālā tastatūrai, video, peles (KVM) iespējām sistēmas pārvaldībai no attāluma [1].
Atsauces:
[1.]
[2] https://www.horizoniq.com/blog/nvidia-a100-specs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
.
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[6.]
[7] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_engergy_monitoring/
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use