Å sette opp strømovervåking på NVIDIA DGX -stasjonen A100 innebærer flere beste praksis for å sikre nøyaktig og effektiv sporing av energiforbruk. Her er noen detaljerte trinn og hensyn:
Forstå systemets kraftarkitektur
DGX -stasjonen A100 er designet med robuste strømstyringsfunksjoner, inkludert overvåking av viftehastigheter, strømforbruk og systemspenninger. Disse funksjonene er tilgjengelige via baseboard Management Controller (BMC) -grensesnittet, som gir et nettbasert brukergrensesnitt for overvåking og administrasjon av systemkomponenter [7].Bruke BMC for strømovervåking
1. Å få tilgang til BMC: BMC lar deg overvåke strømforbruk og andre systemmålinger. Du kan få tilgang til det via et nettgrensesnitt eller gjennom IPMI -kommandoer. Forsikre deg om at du har konfigurert en statisk IP -adresse for BMC for å lette ekstern tilgang [3] [7].2. Konfigurere IPMI: Bruk verktøy som `IPMITOOL` for å konfigurere og hente sensoravlesninger fra BMC. Dette inkluderer data om strømforbruk, som kan samles med jevne mellomrom [7].
Implementering av tidsserie datainnsamling
For å overvåke strømforbruket over tid, må du samle inn data med jevne mellomrom og lagre dem i en tidsseriedatabase. Her er hvordan du kan gjøre det:1. Prøvetaking av strømdata: Bruk skript eller verktøy for å prøve strømforbruksdata fra BMC eller andre overvåkningsgrensesnitt med angitte intervaller (f.eks. Hvert minutt).
2. Tidsserie -database: Sett opp en tidsseriedatabase som Prometheus eller InfluxDB for å lagre de innsamlede dataene. Disse databasene er optimalisert for å håndtere store mengder tidsstemplede data effektivt [1].
3. Visualisering med Grafana: Bruk Grafana til å lage dashbord som visualiserer strømforbruksdataene over tid. Dette gir enkel overvåking og analyse av energibruksmønstre [1].
Tilleggshensyn
- Fjernhåndtering: Utnytt BMCs eksterne styringsfunksjoner, inkludert Serial Over LAN (SOL) og KVM -funksjoner, for å administrere systemet uten fysisk tilgang [7].- Strømforsyningsstyring: Forsikre deg om at strømforsynings -rockerbryteren er riktig styrt for å unngå strømproblemer under drift [8].
- Sikkerhetsforholdsregler: Bruk alltid den medfølgende strømkabelen og unngå å bruke husholdningsforlengelseskabler, da de mangler overbelastningsbeskyttelse [8].
overvåke individuelle komponenter
Mens BMC gir strømdata på systemnivå, kan det være lurt å overvåke individuelle komponenter som GPUer. Verktøy som NVIDIA DCGM kan bidra til å administrere og overvåke GPU -ytelse og strømforbruk [1].Datasenterintegrasjon
Hvis DGX -stasjonen A100 er en del av et større datasenteroppsett, kan du vurdere å integrere strømovervåking med datasenterets infrastruktur. Dette kan innebære å jobbe med datasenterteamet for å få tilgang til strømdata fra oppstrøms strømfordelingsenheter (PDUer) [1].Sitasjoner:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-bruker-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-bruker-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robustpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-hwite-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html