Jaudas uzraudzības iestatīšana NVIDIA DGX stacijā A100 ietver vairākas labākās prakses, lai nodrošinātu precīzu un efektīvu enerģijas patēriņa izsekošanu. Šeit ir daži detalizēti soļi un apsvērumi:
Izpratne par sistēmas jaudas arhitektūru
DGX stacija A100 ir izstrādāta ar spēcīgām enerģijas pārvaldības iespējām, ieskaitot ventilatora ātruma uzraudzību, enerģijas patēriņu un sistēmas spriegumu. Šīs funkcijas ir pieejamas, izmantojot Geisboard Management Controller (BMC) interfeisu, kas nodrošina tīmekļa lietotāja saskarni sistēmas komponentu uzraudzībai un pārvaldībai [7].BMC izmantošana enerģijas uzraudzībai
1. Piekļuve BMC: BMC ļauj uzraudzīt enerģijas patēriņu un citu sistēmas metriku. Jūs varat piekļūt tam, izmantojot tīmekļa saskarni vai izmantojot IPMI komandas. Pārliecinieties, ka BMC ir konfigurējis statisku IP adresi, lai atvieglotu attālinātu piekļuvi [3] [7].2. IPMI konfigurēšana: izmantojiet tādus rīkus kā `ipmitool`, lai konfigurētu un izgūtu sensora rādījumus no BMC. Tas ietver datus par enerģijas patēriņu, kurus var savākt ar regulāriem intervāliem [7].
laikrindu datu vākšanas ieviešana
Lai laika gaitā uzraudzītu enerģijas patēriņu, dati regulāri jāapkopo un jāuzglabā laikrindu datu bāzē. Lūk, kā jūs to varat izdarīt:1. Paraugu ņemšanas jaudas dati: izmantojiet skriptus vai rīkus, lai izlasītu enerģijas patēriņa datus no BMC vai citām uzraudzības saskarnēm ar iestatītajiem intervāliem (piemēram, katru minūti).
2. Laika rindu datu bāze: savākto datu glabāšanai iestatiet tādas laika rindu datu bāzi kā Prometheus vai InfluxDB. Šīs datu bāzes ir optimizētas, lai efektīvi apstrādātu lielu daudzumu laika apzīmogotu datu [1].
3. Vizualizācija ar Grafana: izmantojiet Grafana, lai izveidotu informācijas paneļus, kas laika gaitā vizualizē enerģijas patēriņa datus. Tas ļauj ērti uzraudzīt un analizēt enerģijas izmantošanas modeļus [1].
Papildu apsvērumi
- Tālvadība: Izmantojiet BMC attālās pārvaldības iespējas, ieskaitot seriālo virs LAN (SOL) un KVM funkcijas, lai pārvaldītu sistēmu bez fiziskas piekļuves [7].- Barošanas avota pārvaldība: pārliecinieties, vai barošanas avota rokera slēdzis tiek pareizi pārvaldīts, lai darbības laikā izvairītos no enerģijas problēmām [8].
- Drošības piesardzības pasākumi: vienmēr izmantojiet piegādāto strāvas kabeli un izvairieties no mājsaimniecības pagarinājuma kabeļu izmantošanas, jo tiem trūkst pārslodzes aizsardzības [8].
Atsevišķu komponentu uzraudzība
Kamēr BMC nodrošina sistēmas līmeņa jaudas datus, iespējams, vēlēsities arī uzraudzīt atsevišķus komponentus, piemēram, GPU. Tādi rīki kā NVIDIA DCGM var palīdzēt pārvaldīt un uzraudzīt GPU veiktspēju un enerģijas patēriņu [1].Datu centra integrācija
Ja DGX stacija A100 ir daļa no lielāka datu centra iestatīšanas, apsveriet iespēju integrēt enerģijas uzraudzību ar datu centra infrastruktūru. Tas varētu būt saistīts ar darbu ar datu centra komandu, lai piekļūtu enerģijas datiem no augšupējām enerģijas sadales vienībām (PDU) [1].Atsauces:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_engergy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-pracices-dgx.pdf
.
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html