Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Katere so najboljše prakse za nastavitev spremljanja moči na postaji DGX A100


Katere so najboljše prakse za nastavitev spremljanja moči na postaji DGX A100


Nastavitev spremljanja moči na postaji NVIDIA DGX postaje A100 vključuje več najboljših praks za zagotovitev natančnega in učinkovitega sledenja porabe energije. Tu je nekaj podrobnih korakov in premislekov:

Razumevanje arhitekture moči sistema

Postaja DGX A100 je zasnovana z močnimi zmogljivostmi upravljanja električne energije, vključno s spremljanjem hitrosti ventilatorja, porabo energije in sistemskimi napetosti. Te funkcije so dostopne prek vmesnika za upravljanje baze za upravljanje (BMC), ki ponuja spletni uporabniški vmesnik za spremljanje in upravljanje sistemskih komponent [7].

Uporaba BMC za spremljanje moči

1. Dostop do BMC: BMC vam omogoča spremljanje porabe energije in drugih sistemskih meritev. Do njega lahko dostopate prek spletnega vmesnika ali prek ukazov IPMI. Prepričajte se, da ste za BMC konfigurirali statični IP naslov za olajšanje oddaljenega dostopa [3] [7].

2. Konfiguriranje IPMI: za konfiguriranje in pridobivanje odčitkov senzorjev iz BMC uporabite orodja, kot je `ipmimiol`. To vključuje podatke o porabi energije, ki jih je mogoče zbrati v rednih presledkih [7].

Izvajanje zbiranja podatkov časovnih vrst

Če želite spremljati porabo energije sčasoma, morate v rednih presledkih zbrati podatke in jih shraniti v bazo podatkov o časovnih vrstah. Tukaj je, kako lahko to storite:

1. Podatki o moči vzorčenja: Uporabite skripte ali orodja za vzorčenje podatkov o porabi energije iz BMC ali drugih nadzornih vmesnikov v nastavljenih intervalih (npr. Vsako minuto).

2. Za shranjevanje zbranih podatkov nastavite bazo podatkov, kot sta Prometheus ali InferxDB, za shranjevanje zbranih podatkov nastavite časovno serijo. Te baze podatkov so optimizirane za učinkovito ravnanje z velikimi količinami podatkov, ki jih je treba učinkovito odpraviti [1].

3. Vizualizacija z Grafano: z Grafano ustvarite nadzorne plošče, ki sčasoma vizualizirajo podatke o porabi energije. To omogoča enostavno spremljanje in analizo vzorcev porabe energije [1].

Dodatni premisleki

- Upravljanje na daljinskem upravljalniku: Za upravljanje sistema brez fizičnega dostopa uporabite zmogljivosti oddaljenega upravljanja BMC, vključno s serijami funkcije LAN (Sol) in KVM [7].
- Upravljanje napajanja: Prepričajte se, da se stikalo za napajanje pravilno upravlja, da se izognete težavam z energijo med delovanjem [8].
- Varnostni ukrepi: Vedno uporabite priloženi napajalni kabel in se izogibajte uporabi kablov za razširitev gospodinjstva, saj nimajo zaščite pred preobremenitvijo [8].

Spremljanje posameznih komponent

Medtem ko BMC ponuja podatke o napajanju na sistemski ravni, boste morda želeli spremljati tudi posamezne komponente, kot so GPU-ji. Orodja, kot je NVIDIA DCGM, lahko pomagajo pri upravljanju in spremljanju učinkovitosti GPU in porabe energije [1].

Integracija podatkovnega centra

Če je DGX postaja A100 del večje nastavitve podatkovnih centrov, razmislite o integraciji spremljanja moči z infrastrukturo podatkovnega centra. To lahko vključuje sodelovanje z ekipo podatkovnega centra za dostop do podatkov o moči iz enot za distribucijo moči (PDU) [1].

Navedbe:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robustthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_publish.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-start-station-a100.html