Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kokia yra geriausia galios stebėjimo nustatymo „DGX Station A100“ praktika


Kokia yra geriausia galios stebėjimo nustatymo „DGX Station A100“ praktika


NVIDIA DGX stoties A100 galios stebėjimo nustatymas apima keletą geriausių praktikų, kad būtų užtikrintas tikslus ir efektyvus energijos suvartojimo stebėjimas. Čia yra keletas išsamių žingsnių ir svarstymų:

Sistemos galios architektūros supratimas

„DGX Station A100“ yra sukurta su patikimomis galios valdymo galimybėmis, įskaitant ventiliatoriaus greičio stebėjimą, energijos suvartojimą ir sistemos įtampą. Šios funkcijos yra prieinamos per grindjuostės valdymo valdiklio (BMC) sąsają, kuri suteikia internetinę vartotojo sąsają sistemos komponentų stebėjimo ir valdymo sąsajai [7].

BMC naudojimas energijos stebėjimui

1. Prieiga prie BMC: BMC leidžia stebėti energijos suvartojimą ir kitą sistemos metriką. Galite pasiekti jį naudodamiesi žiniatinklio sąsaja arba naudodamiesi IPMI komandomis. Įsitikinkite, kad sukonfigūravote statinį IP adresą BMC, kad palengvintumėte nuotolinę prieigą [3] [7].

2. IPMI konfigūravimas: naudokite tokius įrankius kaip „IPMITOOL“, kad sukonfigūruotumėte ir gautumėte jutiklių rodmenis iš BMC. Tai apima energijos suvartojimo duomenis, kurie gali būti renkami reguliariais intervalais [7].

Laiko eilučių duomenų rinkimas

Norėdami stebėti energijos suvartojimą laikui bėgant, turite reguliariai rinkti duomenis ir laikyti juos laiko eilučių duomenų bazėje. Čia galite tai padaryti:

1. Mėginių ėmimo galios duomenys: naudokite scenarijus ar įrankius, norėdami imti energijos suvartojimo duomenis iš BMC ar kitų stebėjimo sąsajų nustatytais intervalais (pvz., Kiekvieną minutę).

2. Laiko eilučių duomenų bazė: Nustatykite laiko eilučių duomenų bazę, tokią kaip „Prometheus“ arba „InfluxDB“, kad būtų galima saugoti surinktus duomenis. Šios duomenų bazės yra optimizuotos efektyviai tvarkyti didelius laiko antspauduotų duomenų kiekius [1].

3. Vizualizacija naudojant „Grafana“: naudokite „Grafana“, kad sukurtumėte prietaisų skydelius, kurie laikui bėgant vizualizuoja energijos suvartojimo duomenis. Tai leidžia lengvai stebėti ir analizuoti energijos suvartojimo modelius [1].

Papildomi aspektai

- Nuotolinis valdymas: Pasinaudokite BMC nuotolinio valdymo galimybėmis, įskaitant seriją LAN (SOL) ir KVM funkcijas, kad būtų galima valdyti sistemą be fizinės prieigos [7].
- Maitinimo šaltinio valdymas: įsitikinkite, kad maitinimo šaltinio rokerio jungiklis tinkamai pavyksta išvengti energijos problemų veikimo metu [8].
- Saugos atsargumo priemonės: Visada naudokite pateiktą maitinimo laidą ir venkite namų apyvokos ilginamųjų kabelių, nes jiems trūksta apsaugos nuo perkrovos [8].

Atskirų komponentų stebėjimas

Nors BMC teikia sistemos lygio galios duomenis, taip pat galbūt norėsite stebėti atskirus komponentus, tokius kaip GPU. Tokios priemonės kaip „NVIDIA DCGM“ gali padėti valdyti ir stebėti GPU našumą ir energijos suvartojimą [1].

Duomenų centro integracija

Jei „DGX Station A100“ yra didesnės duomenų centro sąrankos dalis, apsvarstykite galimybę integruoti galios stebėjimą su duomenų centro infrastruktūra. Tai gali apimti darbą su „Data Center“ komanda, norint pasiekti energijos duomenis iš aukštupio energijos paskirstymo vienetų (PDU) [1].

Citatos:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitorting/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-tation-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-praktices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-tation-a100-system-architcture-white-paper_publed.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-tation-a100-user-guide/getting-started-tation-a100.html