Het opzetten van stroommonitoring op de NVIDIA DGX -station A100 omvat verschillende best practices om een nauwkeurige en efficiënte energieverbruik te garanderen. Hier zijn enkele gedetailleerde stappen en overwegingen:
Inzicht in de krachtarchitectuur van het systeem
Het DGX -station A100 is ontworpen met robuuste vermogensbeheermogelijkheden, waaronder monitoring van ventilatorsnelheden, stroomverbruik en systeemspanningen. Deze functies zijn toegankelijk via de interface van de Butting Management Controller (BMC), die een webgebaseerde gebruikersinterface biedt voor het monitoren en beheren van systeemcomponenten [7].BMC gebruiken voor stroommonitoring
1. Toegang tot BMC: met de BMC kunt u het stroomverbruik en andere systeemstatistieken volgen. U kunt het toegang krijgen via een webinterface of via IPMI -opdrachten. Zorg ervoor dat u een statisch IP -adres hebt geconfigureerd voor de BMC om toegang op afstand te vergemakkelijken [3] [7].2. IPMI configureren: gebruik tools zoals `ipmitool` om sensorwaarden te configureren en op te halen uit de BMC. Dit omvat stroomverbruiksgegevens, die met regelmatige tussenpozen kunnen worden verzameld [7].
Implementeren van tijdreeks gegevensverzameling
Om het stroomverbruik in de loop van de tijd te controleren, moet u gegevens met regelmatige intervallen verzamelen en opslaan in een tijdreeksdatabase. Hier is hoe u het kunt doen:1. Bemonsteringsstroomgegevens: gebruik scripts of tools om stroomverbruiksgegevens van de BMC of andere bewakingsinterfaces met ingestelde intervallen (bijvoorbeeld elke minuut) te proeven.
2. Tijdreeksdatabase: Stel een tijdreeksdatabase in zoals Prometheus of InfluxDB om de verzamelde gegevens op te slaan. Deze databases zijn geoptimaliseerd voor het efficiënt omgaan met grote hoeveelheden tijdgestempelde gegevens [1].
3. Visualisatie met Grafana: gebruik Grafana om dashboards te maken die de gegevens van het stroomverbruik in de loop van de tijd visualiseren. Dit zorgt voor eenvoudige monitoring en analyse van energieverbruikpatronen [1].
Aanvullende overwegingen
- Beheer op afstand: gebruik van de externe managementmogelijkheden van de BMC, waaronder seriële over LAN (SOL) en KVM -functies, om het systeem te beheren zonder fysieke toegang [7].- Voedingsbeheer: zorg ervoor dat de schakelaar van de stroomvoorziening goed wordt beheerd om stroomproblemen tijdens de werking te voorkomen [8].
- Veiligheidsmaatregelen: gebruik altijd de meegeleverde stroomkabel en vermijd het gebruik van huishoudelijke extensiekabels, omdat ze geen overbelastingsbescherming hebben [8].
Monitoring van individuele componenten
Hoewel de BMC stroomgegevens op systeemniveau biedt, wilt u misschien ook individuele componenten zoals GPU's controleren. Tools zoals NVIDIA DCGM kunnen de GPU -prestaties en stroomverbruik helpen beheren en bewaken [1].Integratie van datacenter
Als het DGX -station A100 deel uitmaakt van een grotere datacenteropstelling, overweeg dan om stroommonitoring te integreren met de infrastructuur van het datacenter. Dit kan inhouden dat het samenwerken met het datacenter -team toegang tot stroomgegevens van Upstream Power Distribution Units (PDU's) [1].Citaten:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2F6888A0-063F-4D76-94E4-8666B7619DFD.PDF
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-witing-paper_publiced.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html