Gatagem sigmóide em Deepseek-V3: impedindo o colapso do roteamento em modelos de mistura de especialistas

Como o Sigmoid Gating ajuda a prevenir o colapso do roteamento em Deepseek-V3

O bloqueio sigmóide no Deepseek-V3 desempenha um papel crucial na prevenção do colapso do roteamento, um problema comum nos modelos de mistura de especialistas (MOE), onde alguns especialistas são sempre favorecidos em relação a outros, levando a treinamento ineficiente e utilização de recursos modelo. Aqui está como o bloqueio sigmóide ajuda:

Tradicional Softmax Gating vs. Sigmoid Gating

Os modelos tradicionais de MOE geralmente usam o softmax bloqueio, o que pode levar a um cenário de "vencedor-takes-tudo". As saídas SoftMax são normalizadas para garantir que elas somem 1, o que pode resultar em probabilidades extremas em que um especialista é escolhido quase exclusivamente, especialmente se seus pesos iniciais forem um pouco melhores. Isso pode fazer com que outros especialistas sejam subutilizados e subestimados, levando ao colapso do roteamento.

Por outro lado, o bloqueio sigmóide atribui a cada especialista uma pontuação entre 0 e 1 de forma independente, sem normalização entre os especialistas. Isso significa que vários especialistas podem ter pontuações altas simultaneamente, permitindo uma distribuição mais equilibrada de tokens entre os especialistas. O bloqueio sigmóide não aplica uma competição estrita entre especialistas, reduzindo a probabilidade de rotear o colapso, garantindo que cada especialista tenha uma chance justa de contribuir [1] [4] [6].

ajuste de viés dinâmico

O Deepseek-V3 aprimora ainda mais o bloqueio sigmóide, introduzindo termos de viés dinâmico para cada especialista. Esses vieses são ajustados durante o treinamento com base na carga de cada especialista. Se um especialista estiver sobrecarregado, seu viés diminui para desencorajar o roteamento adicional para ele, enquanto os especialistas submarcados têm seus vieses aumentados para atrair mais tokens. Esse ajuste dinâmico ajuda a manter uma carga equilibrada em todos os especialistas, impedindo que qualquer especialista domine as decisões de roteamento e, assim, impedindo o colapso do roteamento [2] [4] [6].

Gatagem hierárquica

O Deepseek-V3 também emprega um bloqueio hierárquico, que aplica restrições de esparsidade em vários níveis. Inicialmente, é feita uma seleção grossa de especialistas, seguida pela filtragem mais fina em grupos selecionados. Essa abordagem hierárquica garante que um conjunto diversificado de especialistas seja ativado para cada token, reduzindo ainda mais o risco de rotear o colapso, impedindo a superpecialização excessiva e incentivando a generalização em diferentes domínios [1] [6].

roteamento limitado por nó

Além disso, o Deepseek-V3 usa o roteamento limitado pelo nó, o que restringe o número de nós que cada token pode se comunicar. Essa estratégia minimiza a sobrecarga de comunicação entre nós, garantindo treinamento e inferência eficientes, mantendo a utilização de especialistas equilibrados [6].

Em resumo, o bloqueio sigmóide no Deepseek-V3 ajuda a evitar o colapso do roteamento, permitindo que vários especialistas sejam ativados simultaneamente sem forçar uma competição estrita entre eles. O ajuste de viés dinâmico e o bloqueio hierárquico garantem ainda que cada especialista seja utilizado de maneira eficaz, mantendo uma carga equilibrada e impedindo que qualquer especialista domine as decisões de roteamento.

Citações:
[1] https://www.linkedin.com/postss/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-ativity-7287631625310412800-nCyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improted-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-possts/why-deepseek-v3-matters-in-the-world-of-llms