Konfigurowanie monitorowania energii na stacji NVIDIA DGX A100 obejmuje kilka najlepszych praktyk w celu zapewnienia dokładnego i wydajnego śledzenia zużycia energii. Oto kilka szczegółowych kroków i rozważań:
Zrozumienie architektury mocy systemu systemu
Stacja DGX A100 została zaprojektowana z solidnymi możliwościami zarządzania energią, w tym monitorowaniem prędkości wentylatora, zużycia energii i napięć systemowych. Funkcje te są dostępne za pośrednictwem interfejsu Basoard Management Controller (BMC), który zapewnia interfejs użytkownika internetowego do monitorowania i zarządzania komponentami systemu [7].Wykorzystanie BMC do monitorowania zasilania
1. Dostęp do BMC: BMC pozwala monitorować zużycie energii i inne wskaźniki systemu. Możesz uzyskać do niego dostęp za pośrednictwem interfejsu internetowego lub za pośrednictwem poleceń IPMI. Upewnij się, że skonfigurowałeś statyczny adres IP dla BMC, aby ułatwić zdalny dostęp [3] [7].2. Konfigurowanie IPMI: Użyj narzędzi takich jak `ipmiTool`, aby skonfigurować i pobierać odczyty czujników z BMC. Obejmuje to dane zużycia energii, które można gromadzić w regularnych odstępach czasu [7].
wdrażanie kolekcji danych szeregów czasowych
Aby monitorować zużycie energii w czasie, musisz gromadzić dane w regularnych odstępach czasu i przechowywać je w bazie danych szeregów czasowych. Oto jak możesz to zrobić:1. Dane zasilania próbkowania: Użyj skryptów lub narzędzi do próbkowania danych zużycia energii z BMC lub innych interfejsów monitorowania w ustalonych odstępach (np. Każda minuta).
2. Baza danych szeregów czasowych: Skonfiguruj bazę danych szeregów czasowych, taką jak Prometheus lub LifluxDB do przechowywania zebranych danych. Te bazy danych są zoptymalizowane do efektywnego obsługi dużych ilości danych z czasem [1].
3. Wizualizacja za pomocą Grafana: Użyj Grafana, aby stworzyć pulpity nawigacyjne, które wizualizują dane zużycia energii w czasie. Umożliwia to łatwe monitorowanie i analiza wzorców zużycia energii [1].
Dodatkowe rozważania
- Zarządzanie zdalnym: wykorzystaj możliwości zdalnego zarządzania BMC, w tym szeregowe funkcje LAN (SOL) i KVM, aby zarządzać systemem bez dostępu fizycznego [7].- Zarządzanie zasilaczami: Upewnij się, że przełącznik wahacza zasilacza jest odpowiednio zarządzany, aby uniknąć problemów z zasilaniem podczas pracy [8].
- Środki ostrożności: Zawsze używaj dostarczonego kabla zasilającego i unikaj korzystania z kabli rozszerzenia gospodarstwa domowego, ponieważ brakuje im ochrony przeciążenia [8].
Monitorowanie poszczególnych elementów
Chociaż BMC zapewnia dane zasilania na poziomie systemowym, możesz również chcieć monitorować poszczególne komponenty, takie jak GPU. Narzędzia takie jak NVIDIA DCGM mogą pomóc w zarządzaniu wydajnością i zużyciem energii i zużyciu energii [1].Integracja centrum danych
Jeśli stacja DGX A100 jest częścią większej konfiguracji centrum danych, rozważ integrację monitorowania energii z infrastrukturą centrum danych. Może to obejmować współpracę z zespołem centrum danych w celu uzyskania dostępu do danych zasilania z jednostek dystrybucji mocy w górę (PDU) [1].
Cytaty:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f68888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-System-archite-paper_publisted.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-goide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html