Nastavenie monitorovania energie na stanici NVIDIA DGX A100 zahŕňa niekoľko osvedčených postupov na zabezpečenie presného a efektívneho sledovania spotreby energie. Tu je niekoľko podrobných krokov a úvah:
Pochopenie architektúry energie systému
Stanica DGX A100 je navrhnutá s robustnými schopnosťami riadenia výkonu vrátane monitorovania rýchlosti ventilátora, spotreby energie a systémového napätia. Tieto funkcie sú prístupné prostredníctvom rozhrania Baseboard Management Controller (BMC), ktoré poskytuje webové používateľské rozhranie na monitorovanie a správu komponentov systému [7].Využitie BMC na monitorovanie energie
1. Prístup k BMC: BMC vám umožňuje monitorovať spotrebu energie a ďalšie metriky systému. Môžete k nemu pristupovať prostredníctvom webového rozhrania alebo prostredníctvom príkazov IPMI. Uistite sa, že ste nakonfigurovali statickú adresu IP pre BMC na uľahčenie vzdialeného prístupu [3] [7].2. Konfigurácia IPMI: Na konfiguráciu a načítanie snímačov z BMC použite nástroje ako `ipmitool`. Zahŕňa to údaje o spotrebe energie, ktoré je možné zbierať v pravidelných intervaloch [7].
Implementácia časových radov zberu údajov
Na monitorovanie spotreby energie v priebehu času musíte zhromažďovať údaje v pravidelných intervaloch a uložiť ich do databázy časových radov. Takto to môžete urobiť:1. Vzorkovacie údaje: Použite skripty alebo nástroje na vzorkovanie údajov o spotrebe energie z BMC alebo iných monitorovacích rozhraní v nastavených intervaloch (napr. Každá minúta).
2. Databáza časových radov: Na ukladanie zozbieraných údajov je nastavená databáza časových radov, ako je Prometheus alebo InfluxDB. Tieto databázy sú optimalizované na efektívne zaobchádzanie s veľkými množstvami údajov o časovo vyrovnaných údajoch [1].
3. Vizualizácia s Grafanou: Použite Grafana na vytvorenie dashboardov, ktoré vizualizujú údaje o spotrebe energie v priebehu času. To umožňuje ľahké monitorovanie a analýzu vzorcov spotreby energie [1].
Ďalšie úvahy
- Vzdialená správa: Využite schopnosti vzdialenej správy BMC, vrátane funkcií Serial Over LAN (SOL) a KVM, na správu systému bez fyzického prístupu [7].- Správa napájania: Uistite sa, že prepínač napájacieho zdroja je správne spravovaný, aby sa predišlo problémom s energiou počas prevádzky [8].
- Bezpečnostné opatrenia: Vždy používajte dodávaný napájací kábel a vyhnite sa používaniu káblov na predĺženie domácnosti, pretože im chýba ochrana proti preťaženiu [8].
Monitorovanie jednotlivých komponentov
Aj keď BMC poskytuje výkonové údaje na úrovni systému, možno budete chcieť monitorovať jednotlivé komponenty, ako je GPU. Nástroje ako NVIDIA DCGM môžu pomôcť spravovať a monitorovať výkon GPU a spotrebu energie [1].Integrácia dátového centra
Ak je stanica DGX A100 súčasťou väčšieho nastavenia dátového centra, zvážte integráciu monitorovania energie s infraštruktúrou dátového centra. To by mohlo zahŕňať spoluprácu s tímom dátových centier na prístupe k výkonovým údajom z distribučných jednotiek Power Distribution (PDU) [1].Citácie:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-tation-ation-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f688a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
Https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-tation-ation-a100-System-architutec-wite-wite-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-tation-a100-user-guide/getting-started-tation-a100.html