Comparando mecanismos de roteamento de especialistas em Deepseek-V2 e Deepseek-V3

Quais são as principais diferenças entre os mecanismos de roteamento de especialistas em Deepseek-V2 e Deepseek-V3

As principais diferenças entre os mecanismos de roteamento de especialistas em Deepseek-V2 e Deepseek-V3 podem ser resumidos da seguinte forma:

Deepseek-V2 Roteamento de especialistas

-Mecanismo de roteamento limitado pelo dispositivo: Deepseek-V2 emprega um mecanismo de roteamento limitado pelo dispositivo para distribuir especialistas em vários dispositivos. Essa abordagem garante que os especialistas alvo de cada token estejam espalhados por um número limitado de dispositivos, normalmente selecionando os principais especialistas da K desses dispositivos. Essa estratégia ajuda a gerenciar a sobrecarga de comunicação e garante processamento paralelo eficiente [1] [5].

-Perdas auxiliares para balanço de carga: Deepseek-V2 apresenta três tipos de perdas auxiliares de nível especializado, nível de dispositivo e nível de comunicação para manter o equilíbrio de carga durante o treinamento. Essas perdas ajudam a evitar o colapso do roteamento, garantindo que nenhum especialista seja utilizado excessivamente enquanto outros permanecem subutilizados [1] [6].

- Número de especialistas e ativação: Deepseek-V2 possui 160 especialistas mais dois especialistas compartilhados, com apenas seis especialistas ativados durante a inferência. Essa ativação seletiva reduz significativamente o número de parâmetros ativos, tornando o modelo mais eficiente [5].

Deepseek-V3 Routing de especialista

- Maior especialização de especialistas: Deepseek-V3 se baseia na arquitetura MOE, aumentando o número de especialistas roteados por camada em 60%, de 160 para 256. Esse aumento aumenta a capacidade de conhecimento e memória do modelo [2].

- Especialistas compartilhados: Deepseek-V3 mantém o conceito de especialistas compartilhados, que são sempre ativados. Cada camada de rede de feed-forward (FFN) possui um especialista compartilhado e há três camadas em que todos os especialistas são ativados, melhorando a capacidade do modelo de capturar o conhecimento comum entre os contextos [2] [4].

-Afinidade de token-to-Expert: a atribuição de tokens a especialistas é baseada na afinidade de token-to-expert no espaço de incorporação. No entanto, o Deepseek-V3 enfrenta desafios relacionados ao colapso do roteamento, onde os tokens podem ser consistentemente roteados para os mesmos especialistas, potencialmente dificultando o treinamento de outros especialistas [2].

- Estratégia agressiva de MOE: Deepseek-V3 adota uma estratégia MOE mais agressiva, utilizando a precisão do FP8 para o treinamento, o que permite computação e escala mais eficientes. Essa abordagem permite que o modelo alavanca de maneira eficaz a ativação escassa, otimizando o uso de parâmetros durante a inferência [2] [4].

Em resumo, enquanto ambos os modelos usam arquiteturas MOE para roteamento eficiente e ativação escassa, o Deepseek-V3 aprimora essa abordagem com maior especialização especializada, estratégias MOE mais agressivas e ajustes para configurações de especialistas compartilhados. Deepseek-V2 concentra-se em treinamento econômico e inferência eficiente por meio de perdas auxiliares de roteamento e balanceamento de carga.

Citações:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-eficiente
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda