Tăng cường băng thông bộ nhớ với công nghệ NVLink-C2C trong các hệ thống tia lửa DGX

Công nghệ NVLink-C2C cải thiện băng thông bộ nhớ trong DGX Spark như thế nào

Công nghệ NVLink-C2C đóng một vai trò quan trọng trong việc tăng cường băng thông bộ nhớ trong các hệ thống như DGX Spark bằng cách cung cấp kết nối băng thông thấp, có độ trễ thấp giữa GPU và CPU. Công nghệ này đặc biệt có lợi trong các hệ thống yêu cầu giao tiếp thường xuyên giữa các thành phần này, chẳng hạn như AI và khối lượng công việc điện toán hiệu suất cao (HPC).

Cải tiến chính

1. Băng thông cao: NVLink-C2C cung cấp băng thông tối đa 900 GB/s, cao hơn đáng kể so với các kết nối PCIe truyền thống. Chẳng hạn, PCIe Gen4 chỉ cung cấp băng thông hai chiều GB/s, trong khi NVLINK-C2C đạt được mức tăng 14 lần so với điều này [1]. Băng thông cao này cho phép truyền dữ liệu nhanh giữa GPU và CPU, điều này rất cần thiết cho các mô hình AI hoặc bộ dữ liệu lớn vượt quá dung lượng bộ nhớ của GPU.

2. Độ trễ thấp: Độ trễ trong NVLink-C2C giảm đáng kể so với các kết nối dựa trên PCIE. Trong khi GPU H100 sử dụng PCIe Gen5 có độ trễ khoảng 400-600 nano giây để truy cập bộ nhớ CPU-to GPU, NVLINK-C2C giảm xuống dưới 20 nano giây, đạt được độ trễ giảm khoảng 95-97%[1]. Độ trễ thấp này là rất quan trọng đối với các nhiệm vụ yêu cầu phối hợp CPU-GPU chặt chẽ và chuyển dữ liệu nhanh chóng.

3. Nhóm bộ nhớ thống nhất: NVLink-C2C cho phép tạo nhóm bộ nhớ thống nhất bằng cách cho phép GPU truy cập trực tiếp bộ nhớ CPU. Điều này có nghĩa là GPU có thể sử dụng CPU DRAM như thể nó là bộ nhớ băng thông cao cục bộ bổ sung, loại bỏ hiệu quả các ràng buộc dung lượng bộ nhớ GPU truyền thống [1] [2]. Tính năng này đặc biệt có lợi cho các mô hình hoặc bộ dữ liệu AI lớn yêu cầu nhiều bộ nhớ hơn những gì có sẵn trên GPU.

4. Sự kết hợp bộ nhớ: NVLink-C2C hỗ trợ tính kết hợp bộ nhớ, đảm bảo rằng dữ liệu phù hợp trên cả bộ nhớ CPU và GPU. Điều này cho phép các nguyên thủy đồng bộ hóa hiệu quả và giảm nhu cầu quản lý bộ nhớ rõ ràng của các nhà phát triển [2]. Sự kết hợp bộ nhớ cũng cho phép đồng bộ hóa nhẹ qua các luồng GPU và CPU, cải thiện việc sử dụng hệ thống tổng thể.

5. Khả năng mở rộng và hiệu quả năng lượng: NVLINK-C2C hỗ trợ khả năng mở rộng bằng cách cho phép các thiết lập đa GPU hiệu quả và được thiết kế để tiết kiệm năng lượng, sử dụng các kỹ thuật báo hiệu tiên tiến để giảm thiểu tiêu thụ điện tử [3] [4]. Điều này làm cho nó phù hợp cho các môi trường điện toán quy mô lớn trong đó cả hiệu suất và hiệu quả năng lượng là rất quan trọng.

Tóm lại, công nghệ NVLink-C2C trong các hệ thống như DGX Spark giúp tăng cường đáng kể băng thông bộ nhớ bằng cách cung cấp giao tiếp có độ trễ thấp, tốc độ cao giữa GPU và CPU. Điều này cho phép xử lý hiệu quả hơn các bộ dữ liệu lớn và khối lượng công việc AI bằng cách tạo một nhóm bộ nhớ thống nhất và giảm nhu cầu quản lý bộ nhớ rõ ràng.

Trích dẫn:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
.
[3] https://www.fibermall.com/blog/dgx-gh200.htm
.
.
.
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-peed-road-of-gpus
[9] https://www.hpcwire.com/2024/07/15/Researchers
[10] https://www.amax.com/content/files/2023/12/NVIDIA_Grace_CPU_Superchip_Enhanced_Computing_Whitepaper.pdf