Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hogyan kezeli az A100 DGX állomás az alkatrészek hőmérsékleti megfigyelését


Hogyan kezeli az A100 DGX állomás az alkatrészek hőmérsékleti megfigyelését


Az NVIDIA DGX Station A100 -at egy kifinomult hőmérséklet -megfigyelő rendszerrel tervezték az optimális teljesítmény és megbízhatóság biztosítása érdekében. Így kezeli az alkatrészek hőmérsékleti megfigyelését:

1. Hőmérséklet-megfigyelő felület: Az A100 DGX állomás web-alapú felhasználói felületet tartalmaz a Baseboard Management Controller (BMC) segítségével. Ez a felület lehetővé teszi a felhasználók számára, hogy figyelemmel kísérjék a kritikus alkatrészek, például a GPU -k, a memória DIMM -ek, a CPU, a Display Card és az alaplap hőmérsékleteit. Valós idejű leolvasásokat és történelmi grafikonokat biztosít ezekhez az összetevőkhöz, lehetővé téve az adminisztrátorok számára, hogy nyomon kövessék a hőmérsékleti trendeket az idő múlásával [1].

2. Komponensek megfigyelése: A rendszer nemcsak a hőmérséklet, hanem más létfontosságú paraméterek, például a ventilátor sebessége, az energiafogyasztás és a rendszer feszültségének megfigyelésére van felszerelve. Ez az átfogó megfigyelés elősegíti a lehetséges problémák azonosítását, mielőtt azok jelentős problémákká alakulnának [1].

3. Távoli menedzsment: A BMC támogatja a távoli kezelési képességeket is, beleértve a Serial Over Lan -t (SOL) a rendszer sorkonzoljának eléréséhez. Ez lehetővé teszi az adminisztrátorok számára, hogy távolról kezeljék a BIOS beállításokat vagy a telepített operációs rendszert. Ezenkívül a BMC távoli billentyűzetet, video-, egér (KVM) funkciókat biztosít, lehetővé téve a felhasználók számára a rendszer távolságának megtekintését és kezelését [1].

4. hűtőrendszer: A DGX állomás A100 hűtőközeg-alapú hűtőrendszert alkalmaz, amelyet karbantartásmentesnek terveztek. Ez a rendszer magában foglalja a GPU -khoz és a CPU -hoz felszerelt hideglemezeket, egy keringési szivattyút, vízvezeték -szerelvényt és egy hőcserélőt. A hűtőrendszer környezeti szempontból biztonságos és nem mérgező, kiküszöböli a vízszint-ellenőrzések vagy újratöltések szükségességét [1].

5. Működési hőmérsékleti tartomány: A rendszer 5 ° C és 30 ° C névleges hőmérsékleti tartományon belül működik, bár a környezeti működési tartomány kissé szélesebb, 10 ° C -tól 35 ° C -on [4] [7]. Ez a tartomány biztosítja, hogy a rendszer hatékonyan működjön a tipikus irodai környezetben, anélkül, hogy speciális hűtési infrastruktúrát igényelne.

Összességében a DGX Station A100 hőmérséklet -megfigyelő és hűtési rendszerét úgy tervezték, hogy megbízható működést biztosítson irodai környezetben, így alkalmassá teszi az adattudományi csapatok és az AI munkacsoportok számára, anélkül, hogy kiterjedt informatikai infrastruktúra lenne.

Idézetek:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-chitecture-white-paper_publised.pdf.pdf
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://massedcompute.com/faq-answers/?question=how+monitor+and+anduperaturature+innvidia+a100+gpu%3f
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardwarespecifications-station-a100.html
[5] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use
[8] https://www.compecta.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/