O processo de seleção de especialistas da Deepseek-V3 é projetado para garantir uma distribuição equilibrada e eficiente das tarefas em seus especialistas, alavancando a mistura de arquitetura de especialistas (MOE). Esse processo é crucial para alcançar uma mistura perfeita de habilidades, ativando dinamicamente os especialistas mais relevantes para cada token de entrada.
Arquitetura da mistura de especialistas (MOE)
O Deepseek-V3 emprega uma arquitetura MOE, que envolve a divisão do modelo em vários "especialistas", cada um especializado em diferentes tarefas ou domínios de conhecimento. O modelo possui 1 especialista compartilhado e 256 especialistas roteados, com 8 especialistas roteados selecionados como ativos para cada token de entrada com base em sua relevância [1]. Essa abordagem permite que o modelo processe os insumos com mais eficiência, ativando apenas uma fração de seus parâmetros totais - 37 bilhões de 671 bilhões para cada tarefa [6] [7].
Processo de seleção de especialistas
A seleção de especialistas em Deepseek-V3 é baseada em uma pontuação de afinidade, que é calculada como o produto DOT da incorporação do token de entrada e do centróide de um especialista específico. Essa pontuação determina o quão bem um especialista corresponde às necessidades do token de entrada [1]. O modelo usa uma estratégia de seleção de K Top-K, onde os especialistas em pontuação superior são escolhidos para processamento. Para evitar o colapso do roteamento, onde muitos tokens são enviados para alguns especialistas, o DeepSeek-V3 emprega uma estratégia de balanceamento de carga livre de perdas auxiliares.
Balanceamento de carga Auxiliar-Loss-Free Free
Essa estratégia envolve adicionar um viés à pontuação de afinidade durante o roteamento. O viés é ajustado dinamicamente com base no uso de cada especialista em um lote. Se um especialista estiver sobrecarregado, seu viés é reduzido para desencorajar outras tarefas, enquanto os especialistas subutilizados têm seu viés aumentado para incentivar mais uso [1] [3]. Essa abordagem garante que a carga de trabalho seja distribuída uniformemente entre especialistas sem a necessidade de funções de perda adicionais, o que às vezes pode prejudicar o desempenho do modelo [4].
benefícios do processo de seleção de especialistas
O processo de seleção de especialistas no Deepseek-V3 oferece vários benefícios:
-Eficiência: ao ativar apenas especialistas relevantes, o modelo reduz a sobrecarga computacional, tornando-o mais econômico e eficiente em termos de energia [6] [9].
- Especialização: Cada especialista pode se especializar em tarefas específicas ou áreas de conhecimento, levando a um processamento mais sutil e preciso de diversos insumos [1] [9].
- Escalabilidade: a arquitetura MOE permite modelos maiores sem custos computacionais excessivos, permitindo o desenvolvimento de sistemas de IA mais complexos e capazes [4] [6].
No geral, o processo de seleção de especialistas da DeepSeek-V3 garante uma mistura perfeita de habilidades, alocando dinamicamente tarefas a especialistas especializados, otimizando a eficiência e aprimorando o desempenho do modelo.
Citações:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolutionizing-global-recruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts--models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technological-innovations-a-deep-dive-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-deepseek-what-does-deepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-e beyond