Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jaké jsou osvědčené postupy pro nastavení monitorování energie na stanici DGX A100


Jaké jsou osvědčené postupy pro nastavení monitorování energie na stanici DGX A100


Nastavení monitorování výkonu na stanici NVIDIA DGX A100 zahrnuje několik osvědčených postupů pro zajištění přesného a efektivního sledování spotřeby energie. Zde je několik podrobných kroků a úvah:

Porozumění energetické architektuře systému

Stanice DGX A100 je navržena s robustními schopnostmi správy energie, včetně sledování rychlostí ventilátoru, spotřeby energie a napětí systému. Tyto funkce jsou přístupné prostřednictvím rozhraní Management Controller (BMC), které poskytuje webové uživatelské rozhraní pro monitorování a správu systémových komponent [7].

Využití BMC pro monitorování energie

1. Přístup k BMC: BMC umožňuje sledovat spotřebu energie a další metriky systému. K tomu máte přístup prostřednictvím webového rozhraní nebo prostřednictvím příkazů IPMI. Ujistěte se, že jste nakonfigurovali statickou IP adresu pro BMC pro usnadnění vzdáleného přístupu [3] [7].

2. Konfigurace IPMI: Použijte nástroje jako `ipmitool` pro konfiguraci a načítání odečtů senzorů z BMC. To zahrnuje údaje o spotřebě energie, které lze shromažďovat v pravidelných intervalech [7].

Implementace sběru dat časových řad

Chcete -li sledovat spotřebu energie v průběhu času, musíte shromažďovat data v pravidelných intervalech a uložit je v databázi časových řad. Jak to dokážete:

1. Údaje o výkonu vzorkování: Použijte skripty nebo nástroje ke vzorku údajů o spotřebě energie z BMC nebo jiných monitorovacích rozhraní v nastavených intervalech (např. Každou minutu).

2. databáze časových řad: Nastavte databázi časových řad, jako je Prometheus nebo InfluxDB pro ukládání shromážděných dat. Tyto databáze jsou optimalizovány pro efektivní manipulaci s velkým množstvím časově označených dat [1].

3. vizualizace s Grafana: Pomocí Grafany vytvořte dashboardy, které si vizualizují data spotřeby energie v průběhu času. To umožňuje snadné monitorování a analýzu vzorců využití energie [1].

Další úvahy

- Vzdálená správa: Využijte možnosti vzdáleného správy BMC, včetně sériových funkcí LAN (Sol) a KVM, pro správu systému bez fyzického přístupu [7].
- Správa napájení: Ujistěte se, že spínač kolébky napájení je správně zvládnuto, aby se zabránilo problémům s napájením během provozu [8].
- Bezpečnostní opatření: Vždy používejte dodaný napájecí kabel a vyhýbejte se používání prodlužovacích kabelů domácnosti, protože jim chybí ochrana přetížení [8].

Monitorování jednotlivých komponent

Zatímco BMC poskytuje napájecí data na úrovni systému, možná budete také chtít sledovat jednotlivé komponenty, jako jsou GPU. Nástroje, jako je NVIDIA DCGM, mohou pomoci spravovat a sledovat výkon a spotřebu energie GPU [1].

Integrace datového centra

Pokud je stanice DGX A100 součástí většího nastavení datového centra, zvažte integraci monitorování výkonu s infrastrukturou datového centra. To by mohlo zahrnovat práci s týmem Data Center pro přístup k datům napájení z jednotek distribuce energie proti proudu (PDU) [1].

Citace:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-Dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2F6888A0-063F-4D76-94E4-8666B7619DFD.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-pactices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html