Función de activación sigmoidea en Deepseek-V3 Ruting de expertos

¿Qué papel juega la función de activación sigmoide en el proceso de enrutamiento experto de Deepseek-V3?

En Deepseek-V3, la función de activación sigmoidea juega un papel crucial en el proceso de enrutamiento de expertos al modificar cómo se asignan los tokens a los expertos. A diferencia de las versiones anteriores que utilizaron una función Softmax, Deepseek-V3 emplea una función sigmoidea para calcular los puntajes de afinidad entre tokens y expertos. Este cambio ayuda a evitar probabilidades extremas de selección de expertos, lo que puede conducir a un colapso de enrutamiento en una situación en la que el modelo favorece a algunos expertos sobre otros, disminuyendo los beneficios de la especialización y la eficiencia.

Función de activación sigmoidea en enrutamiento de expertos

La función sigmoidea, denotada como $$ \ Sigma (\ cDot) $$, se usa para calcular el puntaje de afinidad entre un token y un experto. Específicamente, el puntaje $$ S_ {i, t} $$ para token $$ t $$ y experto $$ i $$ se calcula como:
$$ S_ {i, t} = \ sigma (u_t^t e_i) $$
Donde $$ u_t $$ es el token incrustación y $$ e_i $$ es el vector centralide de experto $$ I $$. Este puntaje refleja qué tan bien se alinea el token con la especialidad del experto.

Normalización y selección

Después de calcular estos puntajes, Deepseek-V3 los normaliza y selecciona los expertos superior-$$ k_r $$ en función de estos puntajes normalizados. Este proceso asegura que cada token se enruta a un subconjunto de expertos que son más relevantes para él, promoviendo un procesamiento eficiente y especializado.

Términos de sesgo para el equilibrio de carga

Para evitar el colapso de enrutamiento y garantizar la distribución de carga equilibrada entre los expertos, Deepseek-V3 presenta términos de sesgo ajustables dinámicamente. Estos términos de sesgo se agregan a los puntajes de afinidad antes de seleccionar los principales expertos. Si un experto está sobrecargado, su término de sesgo disminuye y si está subcargado, el término de sesgo aumenta. Este mecanismo asegura que la carga permanezca equilibrada sin depender de las funciones de pérdida auxiliar, lo que puede afectar negativamente el rendimiento del modelo [1] [3].

Beneficios de Sigmoid sobre Softmax

El uso de una función sigmoidea en lugar de Softmax ayuda a desacoplar las probabilidades de selección de diferentes expertos. En Softmax, las probabilidades se normalizan para sumar a una, lo que puede conducir a probabilidades extremas cuando un experto se favorece significativamente. Sigmoid, por otro lado, permite asignaciones de probabilidad más flexibles e independientes, reduciendo la probabilidad de enrutar el colapso y promover la utilización de expertos más equilibrada [4].

En general, la función de activación sigmoidea en Deepseek-V3 mejora la capacidad del modelo para enrutar eficientemente los tokens a expertos relevantes mientras se mantiene una carga de trabajo equilibrada, lo cual es crucial para lograr una eficiencia de alto rendimiento y computacional en las arquitecturas de mezcla a gran escala (MOE).

Citas:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-ramework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-letarning/sigmoid-activation-function