Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Melyek a legjobb gyakorlatok az energiamonitorozás beállításához az A100 DGX állomáson


Melyek a legjobb gyakorlatok az energiamonitorozás beállításához az A100 DGX állomáson


Az NVIDIA DGX Station A100 -on történő energiafigyelés beállítása számos bevált gyakorlatot foglal magában a pontos és hatékony energiafogyasztás nyomon követése érdekében. Íme néhány részletes lépés és megfontolások:

A rendszer hatalmi architektúrájának megértése

Az A100 DGX állomást robusztus energiagazdálkodási képességekkel tervezték, ideértve a ventilátor sebességének, az energiafogyasztás és a rendszer feszültségének megfigyelését. Ezek a funkciók a Baseboard Management Controller (BMC) felületen keresztül érhetők el, amely web-alapú felhasználói felületet biztosít a rendszer összetevőinek megfigyeléséhez és kezeléséhez [7].

A BMC felhasználása az energiafigyeléshez

1. A BMC hozzáférése: A BMC lehetővé teszi az energiafogyasztás és más rendszermérők figyelését. Hozzáférhet hozzá egy webes felületen vagy az IPMI parancsokon keresztül. Győződjön meg arról, hogy konfigurált egy statikus IP -címet a BMC számára a távoli hozzáférés megkönnyítése érdekében [3] [7].

2. Az IPMI konfigurálása: Használjon olyan eszközöket, mint az `ipMitool 'az érzékelő leolvasásainak konfigurálásához és letöltéséhez a BMC -ből. Ez magában foglalja az energiafogyasztási adatokat, amelyeket rendszeres időközönként össze lehet gyűjteni [7].

Az idősorok adatgyűjtése végrehajtása

Az energiafogyasztás időbeli figyelemmel kíséréséhez rendszeres időközönként összegyűjtenie kell az adatokat, és idősoros adatbázisban kell tárolnia azt. Itt lehet, hogyan lehet ezt megtenni:

1. Mintavételi energiaadatok: Használjon szkripteket vagy eszközöket a BMC vagy más megfigyelő interfészek energiafogyasztási adatainak mintavételéhez beállított időközönként (például minden percben).

2. idősoros adatbázis: Állítson be egy olyan idősoros adatbázist, mint a Prometheus vagy az InfluxDB az összegyűjtött adatok tárolására. Ezeket az adatbázisokat optimalizálják a nagy mennyiségű időbélyegű adatok hatékony kezelésére [1].

3. Megjelenítés Grafanával: A Grafana segítségével olyan műszerfalak készítéséhez, amelyek idővel megjelenítik az energiafogyasztási adatokat. Ez lehetővé teszi az energiafelhasználási minták egyszerű megfigyelését és elemzését [1].

További megfontolások

- Távoli menedzsment: Használja ki a BMC távoli kezelési képességeit, beleértve a Serial Over LAN (SOL) és a KVM funkciókat, hogy a rendszer fizikai hozzáférés nélkül kezelje [7].
- Teljesítménykezelés: Győződjön meg arról, hogy a tápegység -rocker kapcsoló megfelelően sikerült elkerülni az energiaügyi problémákat a működés közben [8].
- Biztonsági óvintézkedések: Mindig használja a mellékelt tápkábelt, és kerülje a háztartási hosszabbító kábelek használatát, mivel nincsenek túlterhelésvédelem [8].

Az egyes alkatrészek megfigyelése

Míg a BMC rendszerszintű energiadatokat szolgáltat, érdemes figyelemmel kísérni az egyes összetevőket, például a GPU-kat. Az olyan eszközök, mint az NVIDIA DCGM, segíthetnek a GPU teljesítményének és energiafogyasztásának kezelésében és figyelésében [1].

Adatközpont -integráció

Ha az A100 DGX állomás egy nagyobb adatközpont -beállítás részét képezi, fontolja meg az energiafigyelés integrálását az adatközpont infrastruktúrájával. Ez magában foglalhatja az adatközpont -csapattal való együttműködést az upstream energiaelosztó egységek (PDU) energiadatainak elérése érdekében [1].

Idézetek:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practes-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-chitecture-white-paper_publised.pdf.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-ala-a100.html