Teknologi NVLink-C2C memainkan peran penting dalam meningkatkan bandwidth memori dalam sistem seperti DGX Spark dengan menyediakan interkoneksi bandwidth tinggi, latensi rendah antara GPU dan CPU. Teknologi ini sangat bermanfaat dalam sistem yang sering membutuhkan komunikasi antara komponen-komponen ini, seperti AI dan beban kerja komputasi kinerja tinggi (HPC).
Perbaikan utama
1. Bandwidth Tinggi: NVLink-C2C menawarkan bandwidth maksimum 900 GB/s, yang secara signifikan lebih tinggi daripada koneksi PCIe tradisional. Misalnya, PCIe Gen4 hanya menyediakan bandwidth dua gb/s dua gb/s, sedangkan NVLink-C2C mencapai peningkatan 14x atas ini [1]. Bandwidth tinggi ini memungkinkan transfer data yang cepat antara GPU dan CPU, yang sangat penting untuk model atau kumpulan data AI besar yang melebihi kapasitas memori GPU.
2. Latensi Rendah: Latensi di NVLink-C2C berkurang secara dramatis dibandingkan dengan koneksi berbasis PCIe. Sementara GPU H100 menggunakan PCIe Gen5 memiliki latensi sekitar 400-600 nanodetik untuk akses memori CPU-ke-GPU, NVLink-C2C mengurangi ini menjadi kurang dari 20 nanodetik, mencapai pengurangan latensi sekitar 95-97%[1]. Latensi rendah ini sangat penting untuk tugas yang membutuhkan koordinasi CPU-GPU yang ketat dan transfer data yang cepat.
3. Pool memori terpadu: NVLink-C2C memungkinkan pembuatan kumpulan memori terpadu dengan memungkinkan GPU mengakses memori CPU secara langsung. Ini berarti GPU dapat memanfaatkan CPU DRAM seolah-olah itu adalah tambahan memori bandwidth tinggi lokal, secara efektif menghilangkan batasan kapasitas memori GPU tradisional [1] [2]. Fitur ini sangat bermanfaat untuk model atau dataset AI besar yang membutuhkan lebih banyak memori daripada apa yang tersedia di GPU.
4. Koherensi Memori: NVLink-C2C mendukung koherensi memori, yang memastikan bahwa data konsisten di kedua memori CPU dan GPU. Hal ini memungkinkan primitif sinkronisasi yang efisien dan mengurangi kebutuhan untuk manajemen memori eksplisit oleh pengembang [2]. Koherensi memori juga memungkinkan sinkronisasi ringan di seluruh utas GPU dan CPU, meningkatkan pemanfaatan sistem secara keseluruhan.
5. Skalabilitas dan Efisiensi Daya: NVLink-C2C mendukung skalabilitas dengan memungkinkan pengaturan multi-GPU yang efisien dan dirancang untuk menjadi hemat daya, menggunakan teknik pensinyalan canggih untuk meminimalkan konsumsi daya [3] [4]. Ini membuatnya cocok untuk lingkungan komputasi skala besar di mana kinerja dan efisiensi energi sangat penting.
Singkatnya, teknologi NVLink-C2C dalam sistem seperti DGX Spark secara signifikan meningkatkan bandwidth memori dengan menyediakan komunikasi latensi rendah berkecepatan tinggi antara GPU dan CPU. Ini memungkinkan pemrosesan dataset besar dan beban kerja AI yang lebih efisien dengan membuat kumpulan memori terpadu dan mengurangi kebutuhan untuk manajemen memori eksplisit.
Kutipan:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-lepth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://convergidigest.com/think-of-nvidia-blackwell-as-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
[6] https://www.atlantic.net/gpu-server-hostting/nvidia-nvlink-how-it-works-use-cases-and-critical-best-practices/
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-speed-road-of-fpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-bandwidth-and-nvlink-speed-in-hopper-so-so-simple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_combuting_whitepaper.pdf