NVIDIA DGX 스테이션 A100의 BMC (Baseboard Management Controller) 인터페이스는 다양한 시스템 구성 요소에 대한 포괄적 인 온도 모니터링을 제공합니다. 여기에는 GPU의 온도, 메모리 DIMMS, CPU, 디스플레이 카드 및 마더 보드 모니터링이 포함됩니다. BMC를 통해 시스템 관리자는 안전한 웹 기반 인터페이스를 통해 이러한 온도 판독 값에 원격으로 액세스 할 수 있습니다. 이 인터페이스는 역사적 그래프 및 온도, 팬 속도, 전력 소비 및 시스템 전압에 대한 현재 판독 값을 포함한 시스템 센서에 대한 자세한 정보를 제공합니다 [1] [6].
BMC는 또한 IPMI (Intelligent Platform Management Interface) 인터페이스를 지원하므로 모니터링 소프트웨어가 사용자 개입없이 로그, 통계 및 센서 판독 값을 자동으로 수집 할 수 있습니다. 이를 통해 시스템의 열 조건을 지속적으로 모니터링하고 관리하여 최적의 성능을 보장하고 과열 문제를 방지 할 수 있습니다 [1] [6].
또한 BMC는 SOL (Serial Over LAN) 인터페이스를 제공하여 관리자가 BIOS 설정 또는 설치된 운영 체제 관리를위한 시스템의 직렬 콘솔에 액세스 할 수 있도록합니다. 이 원격 액세스 기능은 시스템의 건강 및 성능을 유지하는 데 중요합니다. 특히 물리적 접근이 제한 될 수있는 환경 [1] [6].
DGX 스테이션 A100의 혁신적인 냉장 기반 냉각 시스템은 수위 검사 또는 리필과 같은 유지 보수 없이도 높은 구성 요소 온도를 효율적으로 처리함으로써 온도 관리를 더욱 향상시킵니다. 이 설계는 시스템이 사무실 환경에서 조용하고 안전하게 작동하여 모든 구성 요소에 대한 최적의 온도를 유지합니다 [1].
인용 :
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architection--paper_published.pdf
[2] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[3] http://cdn.cnetcontent.com/2f/68/2f688a0-063f-4d76-94e4-8666b7619dfd.pdf
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/hardware-specifications--100.html
[5] https://www.mdpi.com/1996-1073/14/2/376
[6] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/using-bmc.html
[7] https://nanoporetech.com/document/nvidia-dgx-station-installation-and-use
[8] https://mcomputers.cz/en/products-and-services/nvidia/dgx-systems/nvidia-dgx-station-a100/