Станция NVIDIA DGX A100 разработана из сложной системы мониторинга температуры для обеспечения оптимальной производительности и надежности. Вот как он обрабатывает мониторинг температуры для своих компонентов:
1. Интерфейс мониторинга температуры: на станции DGX A100 оснащен веб-интерфейс пользовательского интерфейса через контроллер управления основной платой (BMC). Этот интерфейс позволяет пользователям контролировать температуру критических компонентов, таких как графические процессоры, DIMM памяти, ЦП, дисплей и материнская плата. Он предоставляет показания в реальном времени и исторические графики для этих компонентов, что позволяет администраторам отслеживать температурные тенденции с течением времени [1].
2. Мониторинг компонентов: система оснащена для мониторинга не только температур, но и других жизненно важных параметров, таких как скорость вентилятора, энергопотребление и напряжения системы. Этот комплексный мониторинг помогает в выявлении потенциальных проблем, прежде чем они перерастут в серьезные проблемы [1].
3. Удаленное управление: BMC также поддерживает возможности удаленного управления, в том числе сериал над LAN (SOL) для доступа к серийной консоли системы. Это позволяет администраторам управлять настройками BIOS или установленной операционной системой удаленно. Кроме того, BMC предоставляет функциональность удаленной клавиатуры, видео, мыши (KVM), что позволяет пользователям просматривать и управлять системой с расстояния [1].
4. Система охлаждения: на станции DGX A100 используется система охлаждения на основе хладагента, которая предназначена для технического обслуживания. Эта система включает в себя холодные пластины, установленные на графические процессоры, и ЦП, насос циркуляции, сантехника и теплообменник. Система охлаждения является экологически безопасной и нетоксичной, что устраняет необходимость в проверке или пополнении уровня воды [1].
5. Диапазон рабочей температуры: система работает в пределах номинального диапазона температур от 5 ° C до 30 ° C, хотя диапазон эксплуатации окружающей среды немного шире при 10 ° C до 35 ° C [4] [7]. Этот диапазон гарантирует, что система может эффективно функционировать в типичных офисных средах, не требуя специализированной инфраструктуры охлаждения.
В целом, система мониторинга и охлаждения DGX Station A100 предназначена для обеспечения надежной работы в офисных средах, что делает ее подходящей для групп по науке о данных и рабочих группах ИИ без необходимости обширной ИТ -инфраструктуры.
Цитаты:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://massedcompute.com/faq-answers/?question=how+to+monitor+ и Manage+temperature+in+nvidia+A100+Gpu%3F
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardware-priceciations-station-a100.html
[5] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use
[8] https://www.compecta.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/