Optymalizacja wydajności pamięci z wieloma utajoną uwagą w Deepseek-V3

Jaką rolę odgrywa wyrafinowany MLA w zarządzaniu wzrostem pamięci w Deepseek-V3

Wyrafinowany mechanizm ulegającej utajonej uwagi (MLA) w Deepseek-V3 odgrywa kluczową rolę w zarządzaniu wzrostem pamięci poprzez znaczne zmniejszenie wymagań pamięci podczas procesu wnioskowania modelu. Oto, w jaki sposób przyczynia się do wydajności pamięci:

1. Dynamiczna projekcja niskiego poziomu: MLA dostosowuje kompresję wektorów klucza/wartości w oparciu o długość sekwencji. W przypadku krótszych sekwencji stosuje się mniej kompresji do zachowania wierności, podczas gdy w przypadku dłuższych sekwencji (do 128 tokenów) do zarządzania wzrostem pamięci stosuje się głębszą kompresję. To adaptacyjne podejście zapewnia, że użycie pamięci pozostaje możliwe do zarządzania, nawet przy bardzo długich sekwencjach wejściowych [2] [3].

2. Adaptacyjna kompresja zapytania: w przeciwieństwie do DeepSeek-V2, która zastosowała stały wymiar do kompresji zapytania, DeepSeek-V3 stosuje adaptacyjne skalowanie zapytań na różnych głębokościach warstw. Wczesne warstwy używają pytań o wyższej wymiaru dla lepszej ekspresji, podczas gdy głębsze warstwy bardziej agresywnie kompresują zapytań, aby zapisać pamięć aktywacyjną. Ta strategia optymalizuje użycie pamięci poprzez równoważenie ekspresji z wydajnością [2] [3].

3. Ulepszone obsługa linii: Deepseek-V3 rozszerza koncepcję oddzielania kluczy, która została częściowo wdrożona w wersji 2. Śledząc „oddzielony współdzielony klucz”, model zmniejsza dryf numeryczny u długich pokoleń, zapewniając stabilną wydajność w rozszerzonych sekwencjach [2].

4. Wspólne magazyn KV: W przeciwieństwie do V2, który osobno przechowywał skompresowane klawisze i wartości, V3 łączy je w wspólną reprezentację sprężoną. Zmniejsza to ruch pamięci podczas wnioskowania o wielu węzłach, dodatkowo zwiększając wydajność pamięci [2].

5. Warstwowa pamięć podręczna adaptacyjna: Zamiast buforować wszystkie przeszłe tokeny dla wszystkich warstw, V3 przyspiesza starsze wpisy KV w głębszych warstwach. Pomaga to utrzymać zużycie pamięci w ramach możliwych do zarządzania limitami w przypadku dużych systemów kontekstowych [2].

Wdrażając te udoskonalenia, MLA znacznie zmniejsza ślad pamięci Deepseek-V3, dzięki czemu jest w stanie skutecznie obsługiwać długie sekwencje bez uszczerbku dla wydajności. Osiąga się to poprzez ściskanie par kluczowych w utajonych wektorach, co zmniejsza ilość danych, które muszą być przechowywane i przetwarzane, przyspieszając w ten sposób wnioskowanie i zwiększając możliwości aplikacji w czasie rzeczywistym [3] [5] [8].

Cytaty:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-ing-crazy-how-deepseek
[4] https://machinearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-hey-achieved-big-results-with-Small-Compute-FB694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-deepseek-v3-you-should-know/