Az NVIDIA DGX Station A100 -at egy kifinomult hőmérséklet -megfigyelő rendszerrel tervezték az optimális teljesítmény és megbízhatóság biztosítása érdekében. Így kezeli az alkatrészek hőmérsékleti megfigyelését:
1. Hőmérséklet-megfigyelő felület: Az A100 DGX állomás web-alapú felhasználói felületet tartalmaz a Baseboard Management Controller (BMC) segítségével. Ez a felület lehetővé teszi a felhasználók számára, hogy figyelemmel kísérjék a kritikus alkatrészek, például a GPU -k, a memória DIMM -ek, a CPU, a Display Card és az alaplap hőmérsékleteit. Valós idejű leolvasásokat és történelmi grafikonokat biztosít ezekhez az összetevőkhöz, lehetővé téve az adminisztrátorok számára, hogy nyomon kövessék a hőmérsékleti trendeket az idő múlásával [1].
2. Komponensek megfigyelése: A rendszer nemcsak a hőmérséklet, hanem más létfontosságú paraméterek, például a ventilátor sebessége, az energiafogyasztás és a rendszer feszültségének megfigyelésére van felszerelve. Ez az átfogó megfigyelés elősegíti a lehetséges problémák azonosítását, mielőtt azok jelentős problémákká alakulnának [1].
3. Távoli menedzsment: A BMC támogatja a távoli kezelési képességeket is, beleértve a Serial Over Lan -t (SOL) a rendszer sorkonzoljának eléréséhez. Ez lehetővé teszi az adminisztrátorok számára, hogy távolról kezeljék a BIOS beállításokat vagy a telepített operációs rendszert. Ezenkívül a BMC távoli billentyűzetet, video-, egér (KVM) funkciókat biztosít, lehetővé téve a felhasználók számára a rendszer távolságának megtekintését és kezelését [1].
4. hűtőrendszer: A DGX állomás A100 hűtőközeg-alapú hűtőrendszert alkalmaz, amelyet karbantartásmentesnek terveztek. Ez a rendszer magában foglalja a GPU -khoz és a CPU -hoz felszerelt hideglemezeket, egy keringési szivattyút, vízvezeték -szerelvényt és egy hőcserélőt. A hűtőrendszer környezeti szempontból biztonságos és nem mérgező, kiküszöböli a vízszint-ellenőrzések vagy újratöltések szükségességét [1].
5. Működési hőmérsékleti tartomány: A rendszer 5 ° C és 30 ° C névleges hőmérsékleti tartományon belül működik, bár a környezeti működési tartomány kissé szélesebb, 10 ° C -tól 35 ° C -on [4] [7]. Ez a tartomány biztosítja, hogy a rendszer hatékonyan működjön a tipikus irodai környezetben, anélkül, hogy speciális hűtési infrastruktúrát igényelne.
Összességében a DGX Station A100 hőmérséklet -megfigyelő és hűtési rendszerét úgy tervezték, hogy megbízható működést biztosítson irodai környezetben, így alkalmassá teszi az adattudományi csapatok és az AI munkacsoportok számára, anélkül, hogy kiterjedt informatikai infrastruktúra lenne.
Idézetek:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-chitecture-white-paper_publised.pdf.pdf
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://massedcompute.com/faq-answers/?question=how+monitor+and+anduperaturature+innvidia+a100+gpu%3f
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardwarespecifications-station-a100.html
[5] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use
[8] https://www.compecta.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/