Nastavení monitorování výkonu na stanici NVIDIA DGX A100 zahrnuje několik osvědčených postupů pro zajištění přesného a efektivního sledování spotřeby energie. Zde je několik podrobných kroků a úvah:
Porozumění energetické architektuře systému
Stanice DGX A100 je navržena s robustními schopnostmi správy energie, včetně sledování rychlostí ventilátoru, spotřeby energie a napětí systému. Tyto funkce jsou přístupné prostřednictvím rozhraní Management Controller (BMC), které poskytuje webové uživatelské rozhraní pro monitorování a správu systémových komponent [7].Využití BMC pro monitorování energie
1. Přístup k BMC: BMC umožňuje sledovat spotřebu energie a další metriky systému. K tomu máte přístup prostřednictvím webového rozhraní nebo prostřednictvím příkazů IPMI. Ujistěte se, že jste nakonfigurovali statickou IP adresu pro BMC pro usnadnění vzdáleného přístupu [3] [7].2. Konfigurace IPMI: Použijte nástroje jako `ipmitool` pro konfiguraci a načítání odečtů senzorů z BMC. To zahrnuje údaje o spotřebě energie, které lze shromažďovat v pravidelných intervalech [7].
Implementace sběru dat časových řad
Chcete -li sledovat spotřebu energie v průběhu času, musíte shromažďovat data v pravidelných intervalech a uložit je v databázi časových řad. Jak to dokážete:1. Údaje o výkonu vzorkování: Použijte skripty nebo nástroje ke vzorku údajů o spotřebě energie z BMC nebo jiných monitorovacích rozhraní v nastavených intervalech (např. Každou minutu).
2. databáze časových řad: Nastavte databázi časových řad, jako je Prometheus nebo InfluxDB pro ukládání shromážděných dat. Tyto databáze jsou optimalizovány pro efektivní manipulaci s velkým množstvím časově označených dat [1].
3. vizualizace s Grafana: Pomocí Grafany vytvořte dashboardy, které si vizualizují data spotřeby energie v průběhu času. To umožňuje snadné monitorování a analýzu vzorců využití energie [1].
Další úvahy
- Vzdálená správa: Využijte možnosti vzdáleného správy BMC, včetně sériových funkcí LAN (Sol) a KVM, pro správu systému bez fyzického přístupu [7].- Správa napájení: Ujistěte se, že spínač kolébky napájení je správně zvládnuto, aby se zabránilo problémům s napájením během provozu [8].
- Bezpečnostní opatření: Vždy používejte dodaný napájecí kabel a vyhýbejte se používání prodlužovacích kabelů domácnosti, protože jim chybí ochrana přetížení [8].
Monitorování jednotlivých komponent
Zatímco BMC poskytuje napájecí data na úrovni systému, možná budete také chtít sledovat jednotlivé komponenty, jako jsou GPU. Nástroje, jako je NVIDIA DCGM, mohou pomoci spravovat a sledovat výkon a spotřebu energie GPU [1].Integrace datového centra
Pokud je stanice DGX A100 součástí většího nastavení datového centra, zvažte integraci monitorování výkonu s infrastrukturou datového centra. To by mohlo zahrnovat práci s týmem Data Center pro přístup k datům napájení z jednotek distribuce energie proti proudu (PDU) [1].Citace:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-Dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2F6888A0-063F-4D76-94E4-8666B7619DFD.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-pactices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html