Comparación de mecanismos de enrutamiento expertos en Deepseek-V2 y Deepseek-V3

¿Cuáles son las principales diferencias entre los mecanismos de enrutamiento de expertos en Deepseek-V2 y Deepseek-V3

Las principales diferencias entre los mecanismos de enrutamiento de expertos en Deepseek-V2 y Deepseek-V3 se pueden resumir de la siguiente manera:

Deepseek-v2 Ruting de expertos

-Mecanismo de enrutamiento limitado por dispositivo: Deepseek-V2 emplea un mecanismo de enrutamiento limitado por dispositivo para distribuir expertos en múltiples dispositivos. Este enfoque asegura que los expertos objetivo para cada token se extiendan a través de un número limitado de dispositivos, típicamente seleccionando a los expertos de Top-K de estos dispositivos. Esta estrategia ayuda a administrar la sobrecarga de comunicación y garantiza un procesamiento paralelo eficiente [1] [5].

-Pérdidas auxiliares para el saldo de carga: Deepseek-V2 presenta tres tipos de pérdidas auxiliares de pérdidas a nivel de experto, nivel de dispositivo y a nivel de comunicación para mantener el equilibrio de carga durante el entrenamiento. Estas pérdidas ayudan a prevenir el colapso de enrutamiento asegurando que ningún experto se utilice demasiado, mientras que otros permanecen subutilizados [1] [6].

- Número de expertos y activación: Deepseek-V2 tiene 160 expertos más dos expertos compartidos, con solo seis expertos activados durante la inferencia. Esta activación selectiva reduce significativamente el número de parámetros activos, lo que hace que el modelo sea más eficiente [5].

Deepseek-v3 enrutamiento de expertos

- Aumento de la especialización de expertos: Deepseek-V3 se basa en la arquitectura MOE al aumentar el número de expertos enrutados por capa en un 60%, de 160 a 256. Este aumento mejora la capacidad del modelo de conocimiento y memoria [2].

- Expertos compartidos: Deepseek-V3 conserva el concepto de expertos compartidos, que siempre se activan. Cada capa de red de avance (FFN) tiene un experto compartido, y hay tres capas donde se activan todos los expertos, mejorando la capacidad del modelo para capturar el conocimiento común en los contextos [2] [4].

-Afinidad de token a experiencia: la asignación de tokens a expertos se basa en la afinidad de token a experto en el espacio de incrustación. Sin embargo, Deepseek-V3 enfrenta desafíos relacionados con el colapso de enrutamiento, donde los tokens pueden ser enrutados constantemente a los mismos expertos, lo que potencialmente obstaculiza la capacitación de otros expertos [2].

- Estrategia agresiva del MOE: Deepseek-V3 adopta una estrategia MOE más agresiva, utilizando la precisión de FP8 para el entrenamiento, lo que permite un cálculo y escala más eficiente. Este enfoque permite que el modelo aproveche la activación dispersa de manera efectiva, optimizando el uso de parámetros durante la inferencia [2] [4].

En resumen, si bien ambos modelos utilizan arquitecturas MOE para un enrutamiento eficiente y activación escasa, Deepseek-V3 mejora este enfoque con una mayor especialización de expertos, estrategias de MOE más agresivas y ajustes a configuraciones expertas compartidas. Deepseek-V2 se centra en la capacitación económica y la inferencia eficiente a través de las pérdidas auxiliares de equilibrio y equilibrio de carga.

Citas:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipsstrat.com/p/deepseek-mee-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-eficiente
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda