No Deepseek-V3, a pontuação de afinidade desempenha um papel crucial no processo de seleção de especialistas dentro de sua arquitetura de mistura de especialistas (MOE). Essa arquitetura foi projetada para lidar com eficiência às tarefas de modelagem de idiomas em larga escala, ativando dinamicamente um subconjunto de especialistas com base nos tokens de entrada.
Cálculo da pontuação de afinidade
A pontuação de afinidade é calculada como o produto DOT da incorporação do token de entrada e do centróide de um especialista específico. O centróide pode ser considerado um vetor representativo para cada especialista, que pode ser derivado das ativações ou entradas médias que o especialista processa. Este produto DOT mede o quão alinhado o token está intimamente com a experiência de cada especialista disponível.
Processo de seleção de especialistas
1. Roteamento Top-K: Para cada token de entrada, o Deepseek-V3 seleciona os 8 principais especialistas com as mais altas pontuações de afinidade. Esse processo é conhecido como roteamento Top-K, onde K é corrigido em 8 neste caso [1] [7].
2. Ajuste do viés: Para evitar o colapso do roteamento, onde muitos tokens são roteados para os mesmos especialistas, o Deepseek-V3 introduz um ajuste de viés dinâmico. Cada especialista possui um termo de polarização $$ b_i $$ que é adicionado à sua pontuação de afinidade durante o roteamento. Se um especialista estiver sobrecarregado, seu viés será reduzido e, se for subutilizado, seu viés será aumentado. Esse ajuste ajuda a manter uma carga de trabalho equilibrada em todos os especialistas sem usar perdas auxiliares explícitas [1] [3].
3. Mecanismo de bloqueio: o mecanismo de bloqueio calcula uma pontuação para cada token e seleciona os especialistas roteados mais relevantes com base nessas pontuações. Isso garante que o modelo aloce com eficiência recursos computacionais ativando apenas os especialistas necessários para cada token [3].
benefícios da pontuação de afinidade
- Eficiência: ao selecionar especialistas com base nas pontuações de afinidade, o Deepseek-V3 reduz os custos computacionais, ativando apenas uma fração dos parâmetros totais do modelo para cada token. Isso resulta em processos de inferência e treinamento mais eficientes [4] [8].
- Especialização: a pontuação de afinidade permite uma melhor especialização entre os especialistas. Cada especialista pode se concentrar em padrões ou tarefas específicas, aprimorando o poder representacional geral do modelo e a capacidade de lidar com diferentes insumos [1] [2].
- Estabilidade: o ajuste de viés dinâmico garante que nenhum especialista esteja sobrecarregado, mantendo a estabilidade durante o treinamento e a inferência. Isso impede que o modelo solte os tokens devido à sobrecarga, o que foi um problema nas versões anteriores [2] [3].
Em resumo, a pontuação de afinidade no Deepseek-V3 é crucial para selecionar dinamicamente os especialistas mais relevantes para cada token de entrada, garantindo processamento eficiente e especializado, mantendo a estabilidade do modelo.
Citações:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts--models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-Juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrações- are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamicalmente seleção-number-expert-models-like-Deepseek-rosi%C4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-e beyond