Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Mitkä ovat parhaat käytännöt virranvalvonnan asettamiseksi DGX -asemalle A100


Mitkä ovat parhaat käytännöt virranvalvonnan asettamiseksi DGX -asemalle A100


NVIDIA DGX -aseman A100 virranvalvonnan asettaminen sisältää useita parhaita käytäntöjä tarkan ja tehokkaan energiankulutuksen seurannan varmistamiseksi. Tässä on joitain yksityiskohtaisia ​​vaiheita ja näkökohtia:

Järjestelmän voimaarkkitehtuurin ymmärtäminen

DGX -aseman A100 on suunniteltu vankalla virranhallintaominaisuuksilla, mukaan lukien tuulettimen nopeuksien, virrankulutuksen ja järjestelmän jännitteiden seuranta. Näihin ominaisuuksiin pääsee Baseboard Management Controller (BMC) -rajapinnan kautta, joka tarjoaa verkkopohjaisen käyttöliittymän järjestelmän komponenttien seurantaan ja hallintaan [7].

BMC: n hyödyntäminen virranvalvontaan

1. BMC: n käyttö: BMC antaa sinun seurata virrankulutusta ja muita järjestelmämittareita. Voit käyttää sitä verkkoliittymän kautta tai IPMI -komentojen kautta. Varmista, että olet määrittänyt staattisen IP -osoitteen BMC: lle etäkäytön helpottamiseksi [3] [7].

2. IPMI: n määrittäminen: Käytä työkaluja, kuten `ipmitool`, määrittää ja hakea anturin lukemat BMC: stä. Tämä sisältää virrankulutustiedot, jotka voidaan kerätä säännöllisin väliajoin [7].

Aikasarjojen tiedonkeruun toteuttaminen

Virrankulutuksen seuraamiseksi ajan myötä sinun on kerättävä tietoja säännöllisin väliajoin ja tallennettava se aikasarjatietokantaan. Tässä miten voit tehdä sen:

1. Näytteenottovirtatiedot: Käytä skriptejä tai työkaluja näytteitäksesi BMC: n tai muiden valvontarajapintojen virrankulutustiedot asetetulla aikavälillä (esim. Joka minuutti).

2. Aikasarjatietokanta: Aseta aikasarjatietokanta, kuten Prometheus tai InffuxdB, kerättyjen tietojen tallentamiseksi. Nämä tietokannat on optimoitu suurten määrien aikaleimattujen tietojen käsittelemiseen tehokkaasti [1].

3. Visualisointi Grafanalla: Luo Grafanaa kojetaulujen luomiseen, jotka visualisoivat virrankulutustiedot ajan myötä. Tämä mahdollistaa energiankäyttömallien helpon seurannan ja analysoinnin [1].

Muita näkökohtia

- Etähallinta: Hyödyntämällä BMC: n etähallintaominaisuuksia, mukaan lukien sarja LAN: n (SOL) ja KVM -ominaisuuksien, järjestelmän hallitsemiseksi ilman fyysistä pääsyä [7].
- Virtalähteen hallinta: Varmista, että virtalähde -keinukytkimessä on asianmukaisesti hallittu virrankysymyksiä toiminnan aikana [8].
- TURVALLISUUDEN VAROITUKSET: Käytä aina toimitettua virtajohtoa ja vältä kotitalouksien laajennuskaapeleiden käyttöä, koska niistä puuttuu ylikuormitussuojaus [8].

Yksittäisten komponenttien seuranta

Vaikka BMC tarjoaa järjestelmätason virtatiedot, kannattaa ehkä myös seurata yksittäisiä komponentteja, kuten GPU: ta. Työkalut, kuten NVIDIA DCGM, voivat auttaa hallitsemaan ja seuraamaan GPU: n suorituskykyä ja virrankulutusta [1].

Tietokeskuksen integrointi

Jos DGX -asema A100 on osa suurempaa tietokeskuksen asennusta, harkitse virranvalvonnan integrointia tietokeskuksen infrastruktuuriin. Tähän voi kuulua työskentelyä tietokeskuksen ryhmän kanssa päästäksesi virtatietojen virtatietojen (PDU) (PDU) käyttötietojen saamiseksi [1].

Viittaukset:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
.
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html