Opsætning af strømovervågning på NVIDIA DGX Station A100 involverer flere bedste praksis for at sikre nøjagtig og effektiv energiforbrugssporing. Her er nogle detaljerede trin og overvejelser:
Forståelse af systemets magtarkitektur
DGX -stationen A100 er designet med robuste strømstyringsfunktioner, herunder overvågning af ventilatorhastigheder, strømforbrug og systemspændinger. Disse funktioner er tilgængelige via Baseboard Management Controller (BMC) -grænsefladen, som giver en webbaseret brugergrænseflade til overvågning og styring af systemkomponenter [7].Brug BMC til strømovervågning
1. adgang til BMC: BMC giver dig mulighed for at overvåge strømforbrug og andre systemmetrics. Du kan få adgang til det via en webgrænseflade eller gennem IPMI -kommandoer. Sørg for, at du har konfigureret en statisk IP -adresse til BMC for at lette fjernadgang [3] [7].2. Konfiguration af IPMI: Brug værktøjer som `ipmitool` til at konfigurere og hente sensorlæsninger fra BMC. Dette inkluderer strømforbrugsdata, som kan indsamles med regelmæssige intervaller [7].
Implementering af dataindsamling af tidsserier
For at overvåge strømforbrug over tid skal du indsamle data med regelmæssige intervaller og gemme dem i en tidsseriedatabase. Sådan kan du gøre det:1. prøveudtagning af strømdata: Brug scripts eller værktøjer til at prøve strømforbrugsdata fra BMC eller andre overvågningsgrænseflader med indstillede intervaller (f.eks. Hvert minut).
2. Tidsserie -database: Opret en tidsserie -database som Prometheus eller InfluxDB til at gemme de indsamlede data. Disse databaser er optimeret til håndtering af store mængder tidsstemplede data effektivt [1].
3. visualisering med Grafana: Brug Grafana til at oprette dashboards, der visualiserer strømforbrugsdata over tid. Dette muliggør let overvågning og analyse af energiforbrugsmønstre [1].
Yderligere overvejelser
- Fjernstyring: Udnyt BMCs fjernstyringsfunktioner, herunder serie over LAN (SOL) og KVM -funktioner, til at styre systemet uden fysisk adgang [7].- Strømforsyningsstyring: Sørg for, at strømforsyningsrockerafbryderen styres korrekt for at undgå strømproblemer under drift [8].
- Sikkerhedsforholdsregler: Brug altid det medfølgende strømkabel og undgå at bruge husholdningsforlængelseskabler, da de mangler overbelastningsbeskyttelse [8].
Overvågning af individuelle komponenter
Mens BMC leverer effektdata på systemniveau, kan du også overvåge individuelle komponenter som GPU'er. Værktøjer som NVIDIA DCGM kan hjælpe med at styre og overvåge GPU -ydelse og strømforbrug [1].Datacenterintegration
Hvis DGX -stationen A100 er en del af et større datacenteropsætning, kan du overveje at integrere strømovervågning med datacentrets infrastruktur. Dette kan involvere arbejde med Data Center -teamet for at få adgang til strømdata fra opstrøms strømdistributionsenheder (PDU'er) [1].Citater:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduktion-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_publiceret.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html