Оптимизация эффективности памяти с помощью многопользовательского скрытого внимания в DeepSeek-V3

Рафинированный механизм с несколькими головными латентными внимания (MLA) в DeepSeek-V3 играет решающую роль в управлении ростом памяти путем значительного снижения требований к памяти в процессе вывода модели. Вот как это способствует эффективности памяти:

1. Динамическая проекция с низким уровнем ранга: MLA регулирует сжатие векторов ключа/значения на основе длины последовательности. Для более коротких последовательностей применяется меньшее сжатие для сохранения верности, в то время как для более длинных последовательностей (до 128 тыс. Токенов), более глубокое сжатие используется для управления ростом памяти. Этот адаптивный подход гарантирует, что использование памяти остается управляемым даже с очень длинными входными последовательностями [2] [3].

2. Адаптивное сжатие запросов: в отличие от DeepSeek-V2, в котором использовалось фиксированное измерение для сжатия запросов, DeepSeek-V3 использует адаптивное масштабирование запросов на разных глубинах слоя. Ранние слои используют более высокие запросы для лучшей выразительности, в то время как более глубокие слои более агрессивно сжимают запросы для сохранения памяти активации. Эта стратегия оптимизирует использование памяти, сбалансируя выразительность с эффективностью [2] [3].

3. Улучшенная обработка веревки: DeepSeek-V3 расширяет концепцию развязки клавиш, которая была частично реализована в V2. Отслеживая «отдельный общий ключ», модель уменьшает числовой дрейф в длительном поколении, обеспечивая стабильную производительность по расширенным последовательностям [2].

4. Совместное хранилище KV: в отличие от V2, который хранился сжатые клавиши и значения отдельно, V3 объединяет их в общее сжатое представление. Это уменьшает трафик памяти во время мультизлеточного вывода, что еще больше повышает эффективность памяти [2].

5. Адаптивный кэш с слоем: вместо кэширования всех прошлых токенов для всех слоев v3 чернокожие старые записи KV на более глубоких слоях. Это помогает поддерживать использование памяти в управляемых пределах при работе с большими контекстными окнами [2].

Внедряя эти усовершенствования, MLA значительно снижает след DeepSeek-V3, что делает его способным эффективно обрабатывать длинные последовательности без ущерба для производительности. Это достигается путем сжатия паров ключевых значений в скрытые векторы, что уменьшает объем данных, которые необходимо хранить и обрабатывать, тем самым ускоряя вывод и расширяя возможности применения в реальном времени [3] [5] [8].

Цитаты:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-coing-razy-how-deepseek
[4] https://machinelearningtscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-ced-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-ars-and-drappled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-deepseek-v3-you-should-conging/

Какую роль играет изысканный MLA в управлении ростом памяти в DeepSeek-V3