Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Aké sú osvedčené postupy na nastavenie monitorovania energie na stanici DGX A100


Aké sú osvedčené postupy na nastavenie monitorovania energie na stanici DGX A100


Nastavenie monitorovania energie na stanici NVIDIA DGX A100 zahŕňa niekoľko osvedčených postupov na zabezpečenie presného a efektívneho sledovania spotreby energie. Tu je niekoľko podrobných krokov a úvah:

Pochopenie architektúry energie systému

Stanica DGX A100 je navrhnutá s robustnými schopnosťami riadenia výkonu vrátane monitorovania rýchlosti ventilátora, spotreby energie a systémového napätia. Tieto funkcie sú prístupné prostredníctvom rozhrania Baseboard Management Controller (BMC), ktoré poskytuje webové používateľské rozhranie na monitorovanie a správu komponentov systému [7].

Využitie BMC na monitorovanie energie

1. Prístup k BMC: BMC vám umožňuje monitorovať spotrebu energie a ďalšie metriky systému. Môžete k nemu pristupovať prostredníctvom webového rozhrania alebo prostredníctvom príkazov IPMI. Uistite sa, že ste nakonfigurovali statickú adresu IP pre BMC na uľahčenie vzdialeného prístupu [3] [7].

2. Konfigurácia IPMI: Na konfiguráciu a načítanie snímačov z BMC použite nástroje ako `ipmitool`. Zahŕňa to údaje o spotrebe energie, ktoré je možné zbierať v pravidelných intervaloch [7].

Implementácia časových radov zberu údajov

Na monitorovanie spotreby energie v priebehu času musíte zhromažďovať údaje v pravidelných intervaloch a uložiť ich do databázy časových radov. Takto to môžete urobiť:

1. Vzorkovacie údaje: Použite skripty alebo nástroje na vzorkovanie údajov o spotrebe energie z BMC alebo iných monitorovacích rozhraní v nastavených intervaloch (napr. Každá minúta).

2. Databáza časových radov: Na ukladanie zozbieraných údajov je nastavená databáza časových radov, ako je Prometheus alebo InfluxDB. Tieto databázy sú optimalizované na efektívne zaobchádzanie s veľkými množstvami údajov o časovo vyrovnaných údajoch [1].

3. Vizualizácia s Grafanou: Použite Grafana na vytvorenie dashboardov, ktoré vizualizujú údaje o spotrebe energie v priebehu času. To umožňuje ľahké monitorovanie a analýzu vzorcov spotreby energie [1].

Ďalšie úvahy

- Vzdialená správa: Využite schopnosti vzdialenej správy BMC, vrátane funkcií Serial Over LAN (SOL) a KVM, na správu systému bez fyzického prístupu [7].
- Správa napájania: Uistite sa, že prepínač napájacieho zdroja je správne spravovaný, aby sa predišlo problémom s energiou počas prevádzky [8].
- Bezpečnostné opatrenia: Vždy používajte dodávaný napájací kábel a vyhnite sa používaniu káblov na predĺženie domácnosti, pretože im chýba ochrana proti preťaženiu [8].

Monitorovanie jednotlivých komponentov

Aj keď BMC poskytuje výkonové údaje na úrovni systému, možno budete chcieť monitorovať jednotlivé komponenty, ako je GPU. Nástroje ako NVIDIA DCGM môžu pomôcť spravovať a monitorovať výkon GPU a spotrebu energie [1].

Integrácia dátového centra

Ak je stanica DGX A100 súčasťou väčšieho nastavenia dátového centra, zvážte integráciu monitorovania energie s infraštruktúrou dátového centra. To by mohlo zahŕňať spoluprácu s tímom dátových centier na prístupe k výkonovým údajom z distribučných jednotiek Power Distribution (PDU) [1].

Citácie:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-tation-ation-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f688a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
Https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-tation-ation-a100-System-architutec-wite-wite-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-tation-a100-user-guide/getting-started-tation-a100.html