Deepseek-v3: Mejora de la enrutamiento de expertos con la función sigmoidea en la mezcla de la arquitectura de expertos

¿Cómo impacta la función sigmoide el cálculo de la puntuación de afinidad en Deepseek-V3

En Deepseek-V3, la función sigmoide juega un papel crucial en el cálculo de los puntajes de afinidad para el enrutamiento de expertos en la mezcla de la arquitectura de expertos (MOE). A diferencia de los modelos MOE tradicionales que a menudo usan la función Softmax para normalizar los puntajes de afinidad, Deepseek-V3 emplea la función sigmoidea. Este cambio afecta el modelo de varias maneras:

1. Normalización y enrutamiento: la función sigmoidea se usa para calcular las puntuaciones de afinidad, que luego se normalizan entre todos los puntajes de afinidad seleccionados para producir los valores de activación. Este enfoque permite un mecanismo de enrutamiento más flexible y matizado en comparación con Softmax, lo que a veces puede conducir al colapso de enrutamiento donde ciertos expertos son demasiado favorecidos [4] [7].

2. Evitar el colapso de enrutamiento: el colapso de enrutamiento ocurre cuando la mayoría de los tokens se enrutan a un pequeño subconjunto de expertos, lo que lleva al uso ineficiente de los recursos computacionales. Deepseek-v3 mitiga esto mediante el uso de la activación sigmoidea y la introducción de términos de sesgo que se ajustan dinámicamente durante el entrenamiento. Estos términos de sesgo ayudan a equilibrar la carga entre los expertos sin depender de las pérdidas auxiliares que pueden afectar negativamente el rendimiento del modelo [4] [9].

3. Términos de sesgo y ajuste dinámico: el modelo incorpora términos de sesgo para cada experto, que se agregan a los puntajes de afinidad antes de seleccionar los expertos en Top-K. Estos términos de sesgo se ajustan dinámicamente en función de la carga de cada experto. Si un experto está sobrecargado, su término de sesgo disminuye y si está subcargado, el término de sesgo aumenta. Esto garantiza una distribución equilibrada de tokens en todos los expertos sin la necesidad de pérdidas adicionales [4] [8].

4. Pérdida auxiliar de secuencia complementaria: aunque Deepseek-V3 evita principalmente las pérdidas auxiliares, incluye una pequeña pérdida de balance de secuencia para evitar casos extremos en el que una secuencia única favorezca en gran medida un pequeño subconjunto de expertos. Esta pérdida actúa como una salvaguardia sin afectar significativamente la dinámica general de entrenamiento [4].

5. Enrutamiento de nodo limitado: para controlar los costos de comunicación, Deepseek-V3 emplea el enrutamiento de nodo limitado, donde cada token se envía a la mayoría de los nodos M en función de los puntajes de afinidad más altos. Esta estrategia permite una superposición de comunicación de computación casi llena durante el entrenamiento, mejorando la eficiencia [4].

En general, el uso de la función sigmoide en Deepseek-V3 permite un mecanismo de enrutamiento más flexible y eficiente, contribuyendo a la capacidad del modelo para equilibrar la utilización de expertos sin sacrificar el rendimiento.

Citas:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-729147904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways--fromseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11- keypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explane-3-auxiliary-loss- liber-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/ponter/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details