Funzione di attivazione sigmoidea nel routing di esperti DeepSeek-V3

Quale ruolo svolge la funzione di attivazione del sigmoide nel processo di routing di esperti di DeepSeek-V3

In DeepSeek-V3, la funzione di attivazione sigmoidee svolge un ruolo cruciale nel processo di routing di esperti modificando il modo in cui i token vengono assegnati agli esperti. A differenza delle versioni precedenti che utilizzavano una funzione Softmax, DeepSeek-V3 impiega una funzione sigmoide per calcolare i punteggi di affinità tra token ed esperti. Questo cambiamento aiuta a prevenire le probabilità di selezione degli esperti estremi, che possono portare al routing del crollo - una situazione in cui il modello favorisce alcuni esperti rispetto ad altri, diminuendo i benefici della specializzazione ed efficienza.

funzione di attivazione sigmoidea nel routing di esperti

La funzione sigmoide, indicata come $$ \ Sigma (\ CDOT) $$, viene utilizzata per calcolare il punteggio di affinità tra un token e un esperto. In particolare, il punteggio $$ s_ {i, t} $$ per token $$ t $$ ed esperto $$ i $$ è calcolato come:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
dove $$ u_t $$ è l'incorporamento del token e $$ e_i $$ è il vettore del centroide dell'esperto $$ i $$. Questo punteggio riflette quanto bene il segno si allinea con la specialità dell'esperto.

normalizzazione e selezione

Dopo aver calcolato questi punteggi, DeepSeek-V3 li normalizza e seleziona gli esperti top-$$ K_R $$ in base a questi punteggi normalizzati. Questo processo garantisce che ogni token sia instradato a un sottoinsieme di esperti che sono più rilevanti per esso, promuovendo un'elaborazione efficiente e specializzata.

Termini di polarizzazione per il bilanciamento del carico

Per evitare il collasso del routing e garantire una distribuzione del carico bilanciata tra gli esperti, DeepSeek-V3 introduce termini di pregiudizio dinamicamente regolabili. Questi termini di bias vengono aggiunti ai punteggi di affinità prima di selezionare i migliori esperti. Se un esperto viene sovraccarico, il suo termine di pregiudizio viene ridotto e, se è sottovalutato, il termine di pregiudizio è aumentato. Questo meccanismo garantisce che il carico rimanga bilanciato senza fare affidamento su funzioni di perdita ausiliaria, che possono influire negativamente sulle prestazioni del modello [1] [3].

Vantaggi di sigmoide su Softmax

L'uso di una funzione sigmoidea anziché Softmax aiuta a disaccoppiarsi le probabilità di selezione di diversi esperti. In Softmax, le probabilità sono normalizzate per somma a una, il che può portare a probabilità estreme quando un esperto è significativamente favorito. Il sigmoide, d'altra parte, consente incarichi di probabilità più flessibili e indipendenti, riducendo la probabilità di instradare il crollo e promuovere un utilizzo di esperti più equilibrato [4].

Nel complesso, la funzione di attivazione dei sigmoidi in DeepSeek-V3 migliora la capacità del modello di instradare in modo efficiente i token verso esperti pertinenti mantenendo un carico di lavoro equilibrato, che è cruciale per ottenere elevate prestazioni ed efficienza computazionale nelle architetture della miscela di esperti (MOE) su larga scala.

Citazioni:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatascale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function