Otimizando a eficiência da memória com atenção latente de várias cabeças em Deepseek-V3

Qual o papel do MLA refinado no gerenciamento do crescimento da memória em Deepseek-V3

O mecanismo refinado de atenção latente de várias cabeças (MLA) no Deepseek-V3 desempenha um papel crucial no gerenciamento do crescimento da memória, reduzindo significativamente os requisitos de memória durante o processo de inferência do modelo. Veja como isso contribui para a eficiência da memória:

1. Projeção dinâmica de baixo rank: MLA ajusta a compressão dos vetores de chave/valor com base no comprimento da sequência. Para sequências mais curtas, menos compactação é aplicada para preservar a fidelidade, enquanto para sequências mais longas (até 128k tokens), a compressão mais profunda é usada para gerenciar o crescimento da memória. Essa abordagem adaptativa garante que o uso da memória permaneça gerenciável mesmo com sequências de entrada muito longas [2] [3].

2. Compressão de consulta adaptativa: Ao contrário do Deepseek-V2, que usou uma dimensão fixa para compressão de consulta, o Deepseek-V3 emprega escala adaptativa de consultas em diferentes profundidades da camada. As camadas iniciais usam consultas de alta dimensão para melhor expressividade, enquanto camadas mais profundas compactam mais agressivamente consultas para salvar a memória de ativação. Essa estratégia otimiza o uso da memória, equilibrando a expressividade com a eficiência [2] [3].

3. Manuseio de corda aprimorado: Deepseek-V3 estende o conceito de dissociação de chaves, que foi parcialmente implementada na V2. Ao rastrear uma "chave compartilhada desacoplada", o modelo reduz o desvio numérico em longas gerações, garantindo o desempenho estável em sequências estendidas [2].

4. Armazenamento de KV junta: Ao contrário da V2, que armazenava teclas e valores compactados separadamente, a V3 as mescla em uma representação compactada compartilhada. Isso reduz o tráfego de memória durante a inferência de vários nó, aumentando ainda mais a eficiência da memória [2].

5. Cache adaptável em camadas: em vez de armazenar em cache todos os tokens anteriores para todas as camadas, as podas de KV mais antigas v3 em camadas mais profundas. Isso ajuda a manter o uso da memória dentro de limites gerenciáveis ao lidar com grandes janelas de contexto [2].

Ao implementar esses refinamentos, o MLA reduz significativamente a pegada de memória do Deepseek-V3, tornando-o capaz de lidar com sequências longas eficientemente sem comprometer o desempenho. Isso é conseguido compactando os pares de valor-chave em vetores latentes, o que reduz a quantidade de dados que precisam ser armazenados e processados, acelerando assim a inferência e aprimorando os recursos de aplicação em tempo real [3] [5] [8].

Citações:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valley-wer-wer-crazy-how-deepseek
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-hey-achieved-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-deepseek-tain-its-ai-model-on-a-lot-less-and-crippled-hardware/
[8] https://618media.com/en/blog/top-5-features-ofdeepseek-v3-you-hould-nok/