O uso de bloqueio sigmóide no Deepseek-V3 oferece vários benefícios importantes, particularmente no contexto dos modelos de mistura de especialistas (MOE). Aqui estão as vantagens detalhadas:
1. Pontuações do roteador de desacoplamento: Ao contrário do bloqueio tradicional de max softmax, que normaliza as pontuações em todos os especialistas, o bloqueio sigmóide permite que a pontuação de cada especialista seja calculada de forma independente. Isso dissocia as pontuações do roteador, o que significa que a ativação de um especialista não influencia diretamente a ativação de outros. Isso pode levar a decisões de roteamento mais flexíveis e diferenciadas, pois a pontuação de cada especialista não é restringida pelas pontuações dos outros [5].
2. Evitar o excesso de confiança: o bloqueio do softmax às vezes pode levar ao excesso de confiança nas decisões de roteamento, onde um único especialista é escolhido com probabilidade muito alta, potencialmente ignorando outros especialistas relevantes. O bloqueio sigmóide atenua isso, permitindo que vários especialistas sejam ativados com altas probabilidades, promovendo uma utilização mais equilibrada de especialistas em todo o modelo [5].
3. Preservando contribuições de especialistas: Ao usar o bloqueio sigmóide, a contribuição de cada especialista é preservada de maneira mais eficaz. Os valores de bloqueio, que são multiplicados com as saídas de especialistas, são derivadas das pontuações originais de afinidade sem normalização. Isso garante que a integridade da contribuição de cada especialista seja mantida, mesmo quando vários especialistas são ativados [3].
4. Flexibilidade no roteamento: o bloqueio sigmóide fornece mais flexibilidade nas decisões de roteamento, pois não aplica uma normalização estrita em todos os especialistas. Essa flexibilidade pode ser particularmente benéfica em cenários em que vários especialistas são igualmente relevantes para o processamento de um determinado token de entrada, permitindo que o modelo alavanca diversas fontes de conhecimento com mais eficiência [5].
5. Risco reduzido de colapso de roteamento: o colapso do roteamento ocorre quando o modelo favorece consistentemente um pequeno subconjunto de especialistas, revertendo efetivamente para um modelo denso. O bloqueio sigmóide, combinado com outras estratégias de balanceamento de carga, como termos de viés dinâmico, ajuda a evitar isso, incentivando uma distribuição mais equilibrada de tokens entre especialistas sem penalizar diretamente o desequilíbrio por meio de perdas auxiliares [3].
No geral, o uso do bloqueio sigmóide no Deepseek-V3 aprimora a capacidade do modelo de gerenciar especialização e compartilhamento de conhecimento especializados, contribuindo para seu forte desempenho e eficiência computacional.
Citações:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://ai.gopubby.com/deepseek-v3-expling-2-deepseekmoe-106cffcc56c1
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://www.linkedin.com/postss/niccolo-gentile-phd-02208160_there- is-entenderavelmente- quite-lot-of-ativity-728995142669949376-q1ob
[5] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[6] https://metr.org/blog/2025-02-14-measuring-automated-kernel-engineering/
[7] https://arxiv.org/html/2412.19437v1
[8] https://stackoverflow.com/questions/56318636/what-are-the-benefits-onsing-using-a-sigmoid-função