Để thiết lập một đơn vị phân phối năng lượng thông minh (PDU) để giám sát điện trên Trạm A100 NVIDIA DGX, hãy làm theo các bước chi tiết sau:
1. Gắn PDU thông minh **
- Tùy chọn gắn: PDU thông minh có thể được gắn theo chiều dọc hoặc chiều ngang trong giá đỡ. Để gắn ngang, chọn các điểm lắp khung thích hợp để đảm bảo độ sâu thích hợp trong giá. Gắn các dấu ngoặc L với ốc vít và lắp bao vây vào các khe cắm giá, cho phép một số khả năng thích ứng ngang [3].- Gắn dọc: Sử dụng bộ gắn nút được cung cấp với PDU thông minh. Phân phối các nút theo chiều dọc và gắn chúng vào PDU khi cần thiết. Đảm bảo có đủ giải phóng mặt bằng ở trên cùng để các nút gắn vào các lỗ khóa [3].
2. Kết nối với nguồn điện **
- Kết nối PDU thông minh với nguồn năng lượng phù hợp. Đảm bảo rằng nguồn năng lượng phù hợp với các thông số kỹ thuật của Trạm DGX A100 và chính PDU thông minh. Thông thường, trạm DGX A100 yêu cầu một nguồn năng lượng có thể cung cấp 100V đến 240V AC, với xếp hạng hiện tại cụ thể [1] [7].3. Thiết bị kết nối **
- Kết nối trạm DGX A100 với PDU thông minh bằng cách sử dụng các dây cáp nguồn thích hợp. Các hệ thống DGX A100 sử dụng dây nguồn khóa để đảm bảo an toàn và tuân thủ [1].- Đảm bảo rằng tất cả các thiết bị được kết nối và tắt nguồn đúng cách trước khi tiến hành.
4. Cảm biến kết nối **
- Nếu PDU thông minh của bạn hỗ trợ các cảm biến bổ sung (ví dụ: cảm biến nhiệt độ hoặc độ ẩm), hãy kết nối chúng theo hướng dẫn của nhà sản xuất. Các cảm biến này có thể cung cấp dữ liệu môi trường có giá trị để giám sát và duy trì các điều kiện vận hành tối ưu [3].5. Định cấu hình PDU thông minh **
- Đăng nhập: Truy cập giao diện web của PDU thông minh bằng thông tin đăng nhập của quản trị viên mặc định (ví dụ: quản trị viên/quản trị viên). Thay đổi các thông tin đăng nhập này cho bảo mật [3].- Cài đặt mạng: Định cấu hình cài đặt mạng để bật giám sát từ xa. Đặt địa chỉ IP, mặt nạ mạng con, cổng và máy chủ DNS theo yêu cầu cho môi trường mạng của bạn [6].
- Tài khoản người dùng: Tạo tài khoản người dùng quản trị mới và xóa tài khoản quản trị mặc định để bảo mật nâng cao [3].
- Tên cảm biến: Nếu có thể, hãy định cấu hình tên cho bất kỳ cảm biến được kết nối nào để dễ dàng xác định các nguồn dữ liệu [3].
6. Kết nối với mạng **
- Kết nối PDU thông minh với mạng của bạn. Điều này cho phép truy cập từ xa để giám sát và cấu hình. Đảm bảo rằng kết nối mạng ổn định và bảo mật [3].7. Tiêu thụ năng lượng giám sát **
- Sử dụng giao diện web của PDU thông minh hoặc các công cụ IPMI để giám sát mức tiêu thụ điện. PDU có thể cung cấp dữ liệu thời gian thực và lịch sử về việc sử dụng sức mạnh, điều này rất quan trọng để quản lý hiệu quả năng lượng và năng lực lập kế hoạch [4].- Đối với các số liệu tiêu thụ năng lượng chi tiết (ví dụ: tổng năng lượng kể từ khi bật nguồn), bạn có thể cần sử dụng các công cụ bên ngoài như Prometheus hoặc InfluxDB để thu thập và phân tích dữ liệu theo thời gian [4].
8. Tích hợp với Trạm DGX A100 **
- Đảm bảo rằng trạm DGX A100 được kết nối đúng với PDU thông minh và tất cả các cáp nguồn đều bị khóa an toàn để ngăn chặn sự mất kết nối tình cờ [1].-Sử dụng các công cụ như NVIDIA DCGM hoặc `NVIDIA-SMI` để theo dõi mức tiêu thụ năng lượng cụ thể của GPU nếu cần [4].
Bằng cách làm theo các bước này, bạn có thể thiết lập một PDU thông minh một cách hiệu quả để theo dõi điện trên Trạm DGX A100 của bạn, đảm bảo quản lý năng lượng hiệu quả và độ tin cậy của hệ thống.
Trích dẫn:
[1] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robusthpc.com/wp-content/uploads/201
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_Smart_PDU_RevV.pdf?1493072227
.
[5] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[6] https://www.ibm.com/docs/8335-GTG/p9hbf/p9hbf_configutility_isp.htm
[7] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[8] https://www.youtube.com/watch?v=I6NX74LQTCA