Actualización sigmoidea en Deepseek-V3: Prevención del colapso de enrutamiento en modelos de mezcla de expertos

¿Cómo ayuda a la activación de sigmoides para prevenir el colapso de enrutamiento en Deepseek-V3

La activación de sigmoides en Deepseek-V3 juega un papel crucial en la prevención del colapso de enrutamiento, un problema común en los modelos de mezcla de expertos (MOE) donde algunos expertos son constantemente favorecidos sobre otros, lo que lleva a una capacitación y utilización ineficientes de los recursos del modelo. Así es como ayuda la activación de sigmoides:

Reacción tradicional de softmax versus activación sigmoidea

Los modelos MOE tradicionales a menudo usan la activación de Softmax, lo que puede conducir a un escenario de "ganador-tomado todo". Las salidas Softmax se normalizan para garantizar que suman 1, lo que puede dar como resultado probabilidades extremas donde un experto se elige casi exclusivamente, especialmente si sus pesos iniciales son ligeramente mejores. Esto puede hacer que otros expertos estén subutilizados y no entrenados, lo que lleva al colapso de enrutamiento.

Por el contrario, la activación de sigmoides asigna a cada experto un puntaje entre 0 y 1 independientemente, sin normalización entre los expertos. Esto significa que múltiples expertos pueden tener puntajes altos simultáneamente, lo que permite una distribución más equilibrada de tokens entre expertos. La activación de sigmoides no hace cumplir una competencia estricta entre los expertos, reduciendo la probabilidad de enrutamiento de colapso al garantizar que cada experto tenga una oportunidad justa de contribuir [1] [4] [6].

Ajuste de sesgo dinámico

Deepseek-V3 mejora aún más la activación sigmoidea mediante la introducción de términos de sesgo dinámico para cada experto. Estos sesgos se ajustan durante el entrenamiento en función de la carga de cada experto. Si un experto está sobrecargado, su sesgo disminuye para desalentar un mayor enrutamiento hacia él, mientras que los expertos subcargados tienen sus sesgos aumentados para atraer más tokens. Este ajuste dinámico ayuda a mantener una carga equilibrada en todos los expertos, evitando que cualquier experto domine las decisiones de enrutamiento y, por lo tanto, evite el colapso de enrutamiento [2] [4] [6].

Compilación jerárquica

Deepseek-V3 también emplea actividades jerárquicas, lo que aplica limitaciones de escasez en múltiples niveles. Inicialmente, se realiza una selección gruesa de expertos, seguida de un filtrado más fino dentro de los grupos seleccionados. Este enfoque jerárquico asegura que se active un conjunto diverso de expertos para cada token, reduciendo aún más el riesgo de enrutar el colapso al prevenir la especialización excesiva y fomentar la generalización en diferentes dominios [1] [6].

Enrutamiento de nodo limitado

Además, Deepseek-V3 utiliza el enrutamiento de nodo limitado, lo que restringe el número de nodos con los que cada token puede comunicarse. Esta estrategia minimiza la sobrecarga de comunicación de nodos cruzados, asegurando una capacitación e inferencia eficientes mientras se mantiene la utilización equilibrada de expertos [6].

En resumen, la activación de sigmoides en Deepseek-V3 ayuda a evitar el colapso de enrutamiento al permitir que múltiples expertos se activen simultáneamente sin forzar una competencia estricta entre ellos. El ajuste de sesgo dinámico y la activación jerárquica aseguran aún más que cada experto se utilice de manera efectiva, manteniendo una carga equilibrada y evitando que cualquier experto domine las decisiones de enrutamiento.

Citas:
[1] https://www.linkedin.com/posts/sathiyakerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-ransformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms