Die Einrichtung der Stromüberwachung auf der NVIDIA -DGX -Station A100 beinhaltet mehrere Best Practices, um eine genaue und effiziente Verfolgung des Energieverbrauchs zu gewährleisten. Hier sind einige detaillierte Schritte und Überlegungen:
Verständnis der Stromarchitektur des Systems
Die DGX Station A100 ist mit robusten Leistungsverwaltungsfunktionen ausgelegt, einschließlich der Überwachung von Lüftergeschwindigkeiten, Stromverbrauch und Systemspannungen. Diese Funktionen sind über die BMC-Schnittstelle (Baseboard Management Controller) zugänglich, die eine webbasierte Benutzeroberfläche zum Überwachen und Verwalten von Systemkomponenten bietet [7].Verwenden von BMC für die Leistungsüberwachung
1. Zugriff auf BMC: Mit dem BMC können Sie Stromverbrauch und andere Systemmetriken überwachen. Sie können darüber über eine Weboberfläche oder über IPMI -Befehle darauf zugreifen. Stellen Sie sicher, dass Sie eine statische IP -Adresse für den BMC konfiguriert haben, um den Remote -Zugriff zu erleichtern [3] [7].2. Konfigurieren von IPMI: Verwenden Sie Tools wie "ipmitool", um Sensorwerte aus dem BMC zu konfigurieren und abzurufen. Dies umfasst Datenverbrauchsdaten, die in regelmäßigen Abständen erfasst werden können [7].
Implementierung der Zeitreihendatenerfassung
Um den Stromverbrauch im Laufe der Zeit zu überwachen, müssen Sie Daten in regelmäßigen Abständen sammeln und in einer Zeitreihendatenbank speichern. So können Sie es tun:1. Probenahmungsdaten: Verwenden Sie Skripte oder Tools, um Stromverbrauchsdaten von BMC oder anderen Überwachungsschnittstellen in festgelegten Intervallen (z. B. in jeder Minute) zu probieren.
2. Zeitreihendatenbank: Richten Sie eine Zeitreihendatenbank wie Prometheus oder InfluxDB ein, um die gesammelten Daten zu speichern. Diese Datenbanken sind optimiert, um große Mengen an zeitgestempelten Daten effizient zu behandeln [1].
3. Visualisierung mit Grafana: Verwenden Sie Grafana, um Dashboards zu erstellen, die die Stromverbrauchsdaten im Laufe der Zeit visualisieren. Dies ermöglicht eine einfache Überwachung und Analyse von Energieverbrauchsmustern [1].
Zusätzliche Überlegungen
- Remote -Management: Nutzen Sie die Remote -Management -Funktionen des BMC, einschließlich serieller Over LAN (SOL) und KVM -Funktionen, um das System ohne physischen Zugriff zu verwalten [7].- Stromversorgungsmanagement: Stellen Sie sicher, dass der Stromversorgungsschalter ordnungsgemäß verwaltet wird, um Leistungsprobleme während des Betriebs zu vermeiden [8].
- Sicherheitsvorkehrungen: Verwenden Sie immer das mitgelieferte Stromkabel und vermeiden Sie die Verwendung von Haushaltserweiterungskabeln, da es ihnen keinen Überlastschutz hat [8].
Überwachen einzelner Komponenten
Während das BMC Power-Daten auf Systemebene liefert, möchten Sie möglicherweise auch einzelne Komponenten wie GPUs überwachen. Tools wie Nvidia DCGM können dazu beitragen, die GPU -Leistung und den Stromverbrauch zu verwalten und zu überwachen [1].Integration des Rechenzentrums
Wenn die DGX -Station A100 Teil eines größeren Rechenzentrums -Setups ist, sollten Sie die Leistungsüberwachung in die Infrastruktur des Rechenzentrums integrieren. Dies kann die Zusammenarbeit mit dem Rechenzentrumsteam beinhalten, um auf Kraftdaten von vorgelagerten Stromverteilungseinheiten (PDUs) zuzugreifen [1].Zitate:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/inTroduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-System-architecture-white-paper_publish.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html