Trạm A100 NVIDIA DGX được thiết kế để xử lý hiệu quả nhiều người dùng và truy cập từ xa, biến nó thành một giải pháp lý tưởng cho các nhóm và tổ chức khoa học dữ liệu yêu cầu tài nguyên AI tập trung. Đây là cách nó quản lý các khả năng này:
Xử lý nhiều người dùng
- GPU đa cấp (MIG): Trạm DGX A100 hỗ trợ MIG, cho phép tối đa 28 thiết bị GPU riêng biệt được phân bổ cho người dùng hoặc công việc cá nhân. Điều này có nghĩa là nhiều người dùng có thể chia sẻ cùng một GPU đồng thời mà không ảnh hưởng đến hiệu suất hệ thống. MIG cho phép từng phiên bản GPU có bộ nhớ, bộ đệm và bộ xử lý phát trực tuyến riêng, đảm bảo việc sử dụng tài nguyên hiệu quả [1] [2].
- Khối lượng công việc song song: Hệ thống có khả năng chạy đào tạo, suy luận và khối lượng công việc phân tích song song. Điều này cho phép nhiều người dùng làm việc đồng thời trên các dự án khác nhau, tận dụng toàn bộ tiềm năng của bốn GPU NVIDIA A100 được kết nối với nhau [1] [4].
- Chia sẻ tài nguyên: MIG tạo điều kiện chia sẻ tài nguyên giữa nhiều người dùng, chẳng hạn như sinh viên hoặc thành viên của các nhóm khoa học dữ liệu. Tính năng này đặc biệt hữu ích để đánh giá nhiều công việc suy luận hoặc sử dụng máy tính xách tay Jupyter để khám phá mô hình [2].
Truy cập và quản lý từ xa
- Quản lý từ xa: Trạm DGX A100 cung cấp khả năng quản lý từ xa mạnh mẽ. Người dùng có thể quản lý hệ thống từ xa bằng giao diện dựa trên web cung cấp nhật ký hệ thống chi tiết, đọc cảm biến và giám sát hiệu suất. Điều này bao gồm giám sát nhiệt độ GPU, DIMM bộ nhớ, CPU và các thành phần khác [2].
- IPMI và KVM: Hệ thống hỗ trợ IPMI (Giao diện quản lý nền tảng thông minh) để giám sát và quản lý tự động. Ngoài ra, nó cung cấp chức năng KVM (bàn phím, video, chuột), cho phép người dùng truy cập từ xa màn hình của hệ thống và quản lý nó như thể chúng có mặt vật lý. Điều này bao gồm các khả năng lưu trữ ảo để khởi động từ xa hoặc cài đặt lại hệ thống [2].
- Các giao thức bảo mật: Các giao thức bảo mật như SSH có thể được thiết lập để cho phép truy cập từ xa vào trạm DGX từ các máy khác nhau. Điều này cho phép người dùng quản lý khối lượng công việc AI của họ một cách linh hoạt từ bất cứ đâu [5].
-Giao diện quản lý hệ thống NVIDIA: Người dùng có thể sử dụng công cụ dòng lệnh giao diện quản lý hệ thống NVIDIA (NVIDIA-SMI) để giám sát và quản lý hiệu suất GPU, bao gồm tỷ lệ phần trăm sử dụng và giá trị nhiệt độ [5].
Nhìn chung, DGX Station A100 cung cấp một giải pháp mạnh mẽ, thân thiện với văn phòng cho nhiều người dùng và truy cập từ xa, giúp nó phù hợp với nhiều môi trường khác nhau, từ các văn phòng công ty đến các cơ sở nghiên cứu.
Trích dẫn:
[1] https://www.compecta.com/dgxstation-a100.html
[2] https://www.robusthpc.com/wp-content/uploads/201
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-station-a100-datasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-supercomputers
.
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-cloud-advantages-configurations-and-setup-guide