Deepseek-V3: Aprimorando o roteamento especializado com a função sigmóide na mistura de arquitetura de especialistas

Como a função sigmóide afeta o cálculo da pontuação de afinidade em Deepseek-V3

No Deepseek-V3, a função sigmóide desempenha um papel crucial no cálculo dos escores de afinidade para roteamento de especialistas na mistura de especialistas (MOE). Ao contrário dos modelos MOE tradicionais que geralmente usam a função Softmax para normalizar os escores de afinidade, o Deepseek-V3 emprega a função sigmóide. Esta mudança afeta o modelo de várias maneiras:

1. Normalização e roteamento: A função sigmóide é usada para calcular os escores de afinidade, que são normalizados entre todos os escores de afinidade selecionados para produzir os valores de bloqueio. Essa abordagem permite um mecanismo de roteamento mais flexível e diferenciado em comparação com o softmax, o que às vezes pode levar ao colapso do roteamento onde certos especialistas são excessivamente favorecidos [4] [7].

2. Evitando o colapso do roteamento: o colapso do roteamento ocorre quando a maioria dos tokens é roteada para um pequeno subconjunto de especialistas, levando ao uso ineficiente de recursos computacionais. Deepseek-V3 mitiga isso usando o sigmóide Gating e a introdução de termos de viés que se ajustam dinamicamente durante o treinamento. Esses termos de viés ajudam a equilibrar a carga entre os especialistas sem depender de perdas auxiliares que podem afetar negativamente o desempenho do modelo [4] [9].

3. Termos de viés e ajuste dinâmico: o modelo incorpora termos de polarização para cada especialista, que são adicionados às pontuações de afinidade antes de selecionar os principais especialistas. Esses termos de viés são ajustados dinamicamente com base na carga de cada especialista. Se um especialista estiver sobrecarregado, seu termo de viés diminuirá e, se for submarcado, o termo de polarização aumenta. Isso garante uma distribuição equilibrada de tokens entre especialistas sem a necessidade de perdas adicionais [4] [8].

4. Perda auxiliar complementar em sequência: embora o Deepseek-V3 evite principalmente perdas auxiliares, inclui uma pequena perda de equilíbrio em sequência para evitar casos extremos em que uma única sequência favorece fortemente um pequeno subconjunto de especialistas. Essa perda atua como uma salvaguarda sem afetar significativamente a dinâmica geral do treinamento [4].

5 Routamento limitado por nó: para controlar os custos de comunicação, o Deepseek-V3 emprega roteamento limitado por nó, onde cada token é enviado para a maioria dos nós M com base nas mais altas pontuações de afinidade. Essa estratégia permite a sobreposição de comunicação de computação quase cheia durante o treinamento, aumentando a eficiência [4].

No geral, o uso da função sigmóide no Deepseek-V3 permite um mecanismo de roteamento mais flexível e eficiente, contribuindo para a capacidade do modelo de equilibrar a utilização de especialistas sem sacrificar o desempenho.

Citações:
[1] https://www.linkedin.com/postss/srijanie-dey_aibyhand-deeplearnning-neuralnetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-ultput.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-expline-3-auxiliar-loss-free-load-balancing-4beeB734Ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details