Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jakie są najlepsze praktyki konfigurowania monitorowania energii na stacji DGX A100


Jakie są najlepsze praktyki konfigurowania monitorowania energii na stacji DGX A100


Konfigurowanie monitorowania energii na stacji NVIDIA DGX A100 obejmuje kilka najlepszych praktyk w celu zapewnienia dokładnego i wydajnego śledzenia zużycia energii. Oto kilka szczegółowych kroków i rozważań:

Zrozumienie architektury mocy systemu systemu

Stacja DGX A100 została zaprojektowana z solidnymi możliwościami zarządzania energią, w tym monitorowaniem prędkości wentylatora, zużycia energii i napięć systemowych. Funkcje te są dostępne za pośrednictwem interfejsu Basoard Management Controller (BMC), który zapewnia interfejs użytkownika internetowego do monitorowania i zarządzania komponentami systemu [7].

Wykorzystanie BMC do monitorowania zasilania

1. Dostęp do BMC: BMC pozwala monitorować zużycie energii i inne wskaźniki systemu. Możesz uzyskać do niego dostęp za pośrednictwem interfejsu internetowego lub za pośrednictwem poleceń IPMI. Upewnij się, że skonfigurowałeś statyczny adres IP dla BMC, aby ułatwić zdalny dostęp [3] [7].

2. Konfigurowanie IPMI: Użyj narzędzi takich jak `ipmiTool`, aby skonfigurować i pobierać odczyty czujników z BMC. Obejmuje to dane zużycia energii, które można gromadzić w regularnych odstępach czasu [7].

wdrażanie kolekcji danych szeregów czasowych

Aby monitorować zużycie energii w czasie, musisz gromadzić dane w regularnych odstępach czasu i przechowywać je w bazie danych szeregów czasowych. Oto jak możesz to zrobić:

1. Dane zasilania próbkowania: Użyj skryptów lub narzędzi do próbkowania danych zużycia energii z BMC lub innych interfejsów monitorowania w ustalonych odstępach (np. Każda minuta).

2. Baza danych szeregów czasowych: Skonfiguruj bazę danych szeregów czasowych, taką jak Prometheus lub LifluxDB do przechowywania zebranych danych. Te bazy danych są zoptymalizowane do efektywnego obsługi dużych ilości danych z czasem [1].

3. Wizualizacja za pomocą Grafana: Użyj Grafana, aby stworzyć pulpity nawigacyjne, które wizualizują dane zużycia energii w czasie. Umożliwia to łatwe monitorowanie i analiza wzorców zużycia energii [1].

Dodatkowe rozważania

- Zarządzanie zdalnym: wykorzystaj możliwości zdalnego zarządzania BMC, w tym szeregowe funkcje LAN (SOL) i KVM, aby zarządzać systemem bez dostępu fizycznego [7].
- Zarządzanie zasilaczami: Upewnij się, że przełącznik wahacza zasilacza jest odpowiednio zarządzany, aby uniknąć problemów z zasilaniem podczas pracy [8].
- Środki ostrożności: Zawsze używaj dostarczonego kabla zasilającego i unikaj korzystania z kabli rozszerzenia gospodarstwa domowego, ponieważ brakuje im ochrony przeciążenia [8].

Monitorowanie poszczególnych elementów

Chociaż BMC zapewnia dane zasilania na poziomie systemowym, możesz również chcieć monitorować poszczególne komponenty, takie jak GPU. Narzędzia takie jak NVIDIA DCGM mogą pomóc w zarządzaniu wydajnością i zużyciem energii i zużyciu energii [1].

Integracja centrum danych
Jeśli stacja DGX A100 jest częścią większej konfiguracji centrum danych, rozważ integrację monitorowania energii z infrastrukturą centrum danych. Może to obejmować współpracę z zespołem centrum danych w celu uzyskania dostępu do danych zasilania z jednostek dystrybucji mocy w górę (PDU) [1].

Cytaty:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f68888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-System-archite-paper_publisted.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-goide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html