Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jaką rolę odgrywa wyrafinowany MLA w zarządzaniu wzrostem pamięci w Deepseek-V3


Jaką rolę odgrywa wyrafinowany MLA w zarządzaniu wzrostem pamięci w Deepseek-V3


Wyrafinowany mechanizm ulegającej utajonej uwagi (MLA) w Deepseek-V3 odgrywa kluczową rolę w zarządzaniu wzrostem pamięci poprzez znaczne zmniejszenie wymagań pamięci podczas procesu wnioskowania modelu. Oto, w jaki sposób przyczynia się do wydajności pamięci:

1. Dynamiczna projekcja niskiego poziomu: MLA dostosowuje kompresję wektorów klucza/wartości w oparciu o długość sekwencji. W przypadku krótszych sekwencji stosuje się mniej kompresji do zachowania wierności, podczas gdy w przypadku dłuższych sekwencji (do 128 tokenów) do zarządzania wzrostem pamięci stosuje się głębszą kompresję. To adaptacyjne podejście zapewnia, że ​​użycie pamięci pozostaje możliwe do zarządzania, nawet przy bardzo długich sekwencjach wejściowych [2] [3].

2. Adaptacyjna kompresja zapytania: w przeciwieństwie do DeepSeek-V2, która zastosowała stały wymiar do kompresji zapytania, DeepSeek-V3 stosuje adaptacyjne skalowanie zapytań na różnych głębokościach warstw. Wczesne warstwy używają pytań o wyższej wymiaru dla lepszej ekspresji, podczas gdy głębsze warstwy bardziej agresywnie kompresują zapytań, aby zapisać pamięć aktywacyjną. Ta strategia optymalizuje użycie pamięci poprzez równoważenie ekspresji z wydajnością [2] [3].

3. Ulepszone obsługa linii: Deepseek-V3 rozszerza koncepcję oddzielania kluczy, która została częściowo wdrożona w wersji 2. Śledząc „oddzielony współdzielony klucz”, model zmniejsza dryf numeryczny u długich pokoleń, zapewniając stabilną wydajność w rozszerzonych sekwencjach [2].

4. Wspólne magazyn KV: W przeciwieństwie do V2, który osobno przechowywał skompresowane klawisze i wartości, V3 łączy je w wspólną reprezentację sprężoną. Zmniejsza to ruch pamięci podczas wnioskowania o wielu węzłach, dodatkowo zwiększając wydajność pamięci [2].

5. Warstwowa pamięć podręczna adaptacyjna: Zamiast buforować wszystkie przeszłe tokeny dla wszystkich warstw, V3 przyspiesza starsze wpisy KV w głębszych warstwach. Pomaga to utrzymać zużycie pamięci w ramach możliwych do zarządzania limitami w przypadku dużych systemów kontekstowych [2].

Wdrażając te udoskonalenia, MLA znacznie zmniejsza ślad pamięci Deepseek-V3, dzięki czemu jest w stanie skutecznie obsługiwać długie sekwencje bez uszczerbku dla wydajności. Osiąga się to poprzez ściskanie par kluczowych w utajonych wektorach, co zmniejsza ilość danych, które muszą być przechowywane i przetwarzane, przyspieszając w ten sposób wnioskowanie i zwiększając możliwości aplikacji w czasie rzeczywistym [3] [5] [8].

Cytaty:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-ing-crazy-how-deepseek
[4] https://machinearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-hey-achieved-big-results-with-Small-Compute-FB694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-deepseek-v3-you-should-know/