Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Qual o papel da função de ativação sigmóide no processo de roteamento de especialistas de Deepseek-V3


Qual o papel da função de ativação sigmóide no processo de roteamento de especialistas de Deepseek-V3


No Deepseek-V3, a função de ativação sigmóide desempenha um papel crucial no processo de roteamento de especialistas, modificando como os tokens são atribuídos a especialistas. Ao contrário das versões anteriores que usaram uma função Softmax, o Deepseek-V3 emprega uma função sigmóide para calcular os escores de afinidade entre tokens e especialistas. Essa mudança ajuda a evitar probabilidades extremas de seleção de especialistas, o que pode levar ao colapso do roteamento - uma situação em que o modelo favorece alguns especialistas em relação a outros, diminuindo os benefícios da especialização e eficiência.

Função de ativação sigmóide no roteamento de especialistas

A função sigmóide, indicada como $$ \ sigma (\ cdot) $$, é usada para calcular a pontuação de afinidade entre um token e um especialista. Especificamente, a pontuação $$ s_ {i, t} $$ para token $$ t $$ e especialista $$ i $$ é calculado como:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Onde $$ u_t $$ é a incorporação de token e $$ e_i $$ é o vetor centróide do especialista $$ i $$. Essa pontuação reflete o quão bem o token se alinha com a especialidade do especialista.

Normalização e seleção

Após calcular essas pontuações, o DeepSeek-V3 os normaliza e seleciona os especialistas em topo-$$ k_r $$ com base nessas pontuações normalizadas. Esse processo garante que cada token seja roteado para um subconjunto de especialistas mais relevantes para ele, promovendo processamento eficiente e especializado.

Termos de viés para balanceamento de carga

Para evitar o colapso do roteamento e garantir a distribuição de carga equilibrada entre os especialistas, o Deepseek-V3 introduz termos de viés ajustável dinamicamente. Esses termos de viés são adicionados às pontuações de afinidade antes de selecionar os principais especialistas. Se um especialista estiver sobrecarregado, seu termo de viés será reduzido e, se for subcarregado, o termo de viés será aumentado. Esse mecanismo garante que a carga permaneça equilibrada sem depender das funções de perda auxiliar, que podem afetar negativamente o desempenho do modelo [1] [3].

benefícios do sigmóide sobre o softmax

O uso de uma função sigmóide em vez do softmax ajuda a dissociar as probabilidades de seleção de diferentes especialistas. Na Softmax, as probabilidades são normalizadas para somar um, o que pode levar a probabilidades extremas quando um especialista é significativamente favorecido. O sigmóide, por outro lado, permite atribuições de probabilidade mais flexíveis e independentes, reduzindo a probabilidade de rotear o colapso e promover a utilização de especialistas mais equilibrados [4].

No geral, a função de ativação sigmóide no Deepseek-V3 aprimora a capacidade do modelo de percorrer os tokens de maneira eficiente para especialistas relevantes, mantendo uma carga de trabalho equilibrada, o que é crucial para alcançar o alto desempenho e a eficiência computacional em arquiteturas de mistura de exércitos em larga escala (MOE).

Citações:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-função