Механізм вдосконаленої багато голови латентної уваги (MLA) у DeepSeek-V3 відіграє вирішальну роль у управлінні зростанням пам'яті, значно зменшуючи вимоги пам'яті під час процесу висновку моделі. Ось як це сприяє ефективності пам'яті:
1. Динамічна проекція низького рангу: MLA регулює стиснення векторів ключів/значень на основі довжини послідовності. Для коротших послідовностей для збереження вірності застосовується менше стиснення, тоді як для більш тривалих послідовностей (до 128 тис. Жетонів) глибше стиснення використовується для управління ростом пам'яті. Цей адаптивний підхід гарантує, що використання пам'яті залишається керованим навіть при дуже довгих вхідних послідовностях [2] [3].
2. Адаптивне стиснення запитів: на відміну від DeepSeek-V2, який використовував фіксований вимір для стиснення запитів, DeepSeek-V3 використовує адаптивне масштабування запитів на різних глибинах шару. Ранні шари використовують запити з більш високими розмірами для кращої виразності, а глибші шари більш агресивно стискають запити, щоб зберегти пам'ять активації. Ця стратегія оптимізує використання пам'яті, врівноважуючи виразність з ефективністю [2] [3].
3. Покращена обробка мотузки: DeepSeek-V3 розширює концепцію клавіш роз'єднання, яка була частково реалізована у V2. Відстежуючи "роз'єднаний спільний ключ", модель зменшує числовий дрейф у довгих поколіннях, забезпечуючи стабільну продуктивність над розширеними послідовностями [2].
4. Спільне зберігання KV: На відміну від V2, який зберігав стислими клавішами та значеннями окремо, V3 об'єднує їх у спільне стиснене зображення. Це зменшує трафік пам’яті під час багато вузлового висновку, ще більше підвищуючи ефективність пам'яті [2].
5. Адаптивний кеш-шаром: замість кешування всіх минулих жетонів для всіх шарів, V3 обрізки старіші записи KV на більш глибоких шарах. Це допомагає підтримувати використання пам'яті в керованих межах при роботі з великими контекстними Windows [2].
Реалізуючи ці вдосконалення, MLA значно зменшує слід пам’яті DeepSeek-V3, що робить його здатним ефективно обробляти довгі послідовності, не погіршуючи продуктивність. Це досягається шляхом стиснення пар ключових значень у приховані вектори, що зменшує кількість даних, які потрібно зберігати та обробляти, тим самим прискорюючи висновок та підвищуючи можливості застосування в режимі реального часу [3] [5] [8].
Цитати:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-pering crazy-how-deepseek
[4] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-ahieved-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-criped-hardware/
[8] https://618media.com/en/blog/top-5features-of-deepseek-v3-you-should-know/