Hệ thống NVIDIA DGX Station A100 cung cấp khả năng giám sát toàn diện vượt quá nhiệt độ. Bên cạnh việc theo dõi nhiệt độ GPU, DIMM bộ nhớ, CPU, thẻ hiển thị và bo mạch chủ, hệ thống cũng theo dõi một số thành phần quan trọng khác và số liệu hiệu suất. Chúng bao gồm:
- Tốc độ của quạt: Hệ thống giám sát tốc độ của quạt để đảm bảo luồng khí và hiệu quả làm mát tối ưu, điều này rất quan trọng để duy trì hiệu suất và ngăn ngừa quá nóng.
- Tiêu thụ năng lượng: Giám sát mức tiêu thụ năng lượng giúp quản lý việc sử dụng năng lượng và đảm bảo rằng hệ thống hoạt động trong giới hạn an toàn. Điều này đặc biệt quan trọng đối với một hệ thống được thiết kế để sử dụng trong môi trường văn phòng mà không có cơ sở hạ tầng năng lượng chuyên dụng.
- Điện áp hệ thống: Giám sát điện áp là điều cần thiết để duy trì hoạt động hệ thống ổn định. Nó giúp phát hiện bất kỳ biến động điện áp nào có thể ảnh hưởng đến hiệu suất của hệ thống hoặc tuổi thọ.
Các khả năng giám sát này có thể truy cập được thông qua giao diện người dùng dựa trên web và giao diện IPMI (Giao diện quản lý nền tảng thông minh). Giao diện web cung cấp các biểu đồ lịch sử và các bài đọc hiện tại cho các số liệu này, cho phép phân tích và quản lý chi tiết về hiệu suất hệ thống. Ngoài ra, hệ thống hỗ trợ các tính năng quản lý từ xa, bao gồm cả LAN (SOL) nối tiếp để truy cập vào bảng điều khiển nối tiếp và bàn phím từ xa, video, chuột (KVM) để quản lý hệ thống từ xa [1].
Trích dẫn:
[1] https://www.robusthpc.com/wp-content/uploads/201
[2] https://www.horizoniq.com/blog/nvidia-a100-pecs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[6] https://www.pny.com/en-eu/File%20Library/Professional/DATASHEET/DGX/DGX_Station_A100_Datasheet_PNY-WEB.pdf
.
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use