Zwiększenie przepustowości pamięci dzięki technologii NVLink-C2C w systemach DGX Spark

Jak technologia NVLink-C2C poprawia przepustowość pamięci w DGX Spark

Technologia NVLINK-C2C odgrywa kluczową rolę w zwiększaniu przepustowości pamięci w systemach takich jak DGX Spark, zapewniając wzajemne połączenie o wysokiej przepustowości i niskiej opóźnieniu między GPU i CPU. Technologia ta jest szczególnie korzystna w systemach, które wymagają częstej komunikacji między tymi komponentami, takimi jak obciążenia AI i wysokowydajne obliczenia (HPC).

Kluczowe ulepszenia

1. Wysoka przepustowość: NVLink-C2C oferuje maksymalną przepustowość 900 GB/s, co jest znacznie wyższe niż tradycyjne połączenia PCIE. Na przykład PCIE Gen4 zapewnia tylko dwukierunkową przepustowość 64 GB/s, podczas gdy NVLink-C2C osiąga wzrost o 14-krotny [1]. Ta wysoka przepustowość pozwala na szybkie przesyłanie danych między GPU i CPU, co jest niezbędne dla dużych modeli AI lub zestawów danych przekraczających pojemność pamięci GPU.

2. Niskie opóźnienie: opóźnienie w NVLink-C2C jest znacznie zmniejszone w porównaniu z połączeniami opartymi na PCIE. Podczas gdy GPU H100 za pomocą PCIE Gen5 ma opóźnienie około 400-600 nanosekund dla dostępu do pamięci CPU do GPU, NVLink-C2C zmniejsza to do mniej niż 20 nanosekund, osiągając zmniejszenie opóźnienia o około 95–97%[1]. To niskie opóźnienie ma kluczowe znaczenie dla zadań wymagających ścisłej koordynacji CPU-GPU i szybkich transferów danych.

3. Ujednolicona pula pamięci: NVLINK-C2C umożliwia tworzenie zjednoczonej puli pamięci, umożliwiając GPU bezpośredni dostęp do pamięci procesora. Oznacza to, że GPU może wykorzystywać DRAM CPU, jakby to była dodatkowa lokalna pamięć o dużej przepustowości, skutecznie eliminując tradycyjne ograniczenia pojemności pamięci GPU [1] [2]. Ta funkcja jest szczególnie korzystna dla dużych modeli AI lub zestawów danych, które wymagają więcej pamięci niż dostępna na GPU.

4. Spójność pamięci: NVLINK-C2C obsługuje spójność pamięci, która zapewnia, że dane są spójne zarówno w pamięci CPU, jak i GPU. Umożliwia to wydajne prymitywację synchronizacji i zmniejsza potrzebę jawnego zarządzania pamięcią przez programistów [2]. Spójność pamięci umożliwia również lekką synchronizację w gwintach GPU i CPU, poprawiając ogólne wykorzystanie systemu.

5. Skalowalność i wydajność energetyczna: NVLINK-C2C obsługuje skalowalność, umożliwiając wydajne konfiguracje MultI-GPU i jest zaprojektowane tak, aby były wydajne, przy użyciu zaawansowanych technik sygnalizacji w celu zminimalizowania zużycia energii [3] [4]. To sprawia, że nadaje się do środowisk obliczeniowych na dużą skalę, w których kluczowe są zarówno wydajność, jak i wydajność energetyczna.

Podsumowując, technologia NVLINK-C2C w systemach takich jak DGX Spark znacznie zwiększa przepustowość pamięci poprzez zapewnienie szybkiej komunikacji o niskiej opóźnieniu między GPU a CPU. Umożliwia to bardziej wydajne przetwarzanie dużych zestawów danych i obciążeń AI poprzez tworzenie zjednoczonej puli pamięci i zmniejszając potrzebę jawnego zarządzania pamięcią.

Cytaty:
[1] https://www.supercluster.blog/p/nvidia-gpu-architecture-and-evolution
[2] https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/
[3] https://www.fibermall.com/blog/dgx-gh200.htm
[4] https://converdegest.com/think-of-nvidia-blackwell-as-a-platform/
[5] https://www.reddit.com/r/localllama/comments/1hvlow/to_understand_the_project_digits_desktop_128_gb/
[6] https://www.atlantant
[7] https://chipsandcheese.com/p/grace-hopper-nvidias-halfway-apu
[8] https://www.naddod.com/blog/the-high-speed-road-of-gpus
[9] https://www.hpcwire.com/2024/07/15/researchers-say-memory-bandwidth-and-nvlink-speeds-hopper-not-so-simple/
[10] https://www.amax.com/content/files/2023/12/nvidia_grace_cpu_superchip_enhanced_computing_whitepaper.pdf