Proceso de selección de expertos de Deepseek-V3 y arquitectura MOE

¿Cómo el proceso de selección de expertos en Deepseek-v3 garantiza una combinación perfecta de habilidades?

El proceso de selección de expertos de Deepseek-V3 está diseñado para garantizar una distribución equilibrada y eficiente de las tareas entre sus expertos, aprovechando la mezcla de la arquitectura de expertos (MOE). Este proceso es crucial para lograr una combinación perfecta de habilidades activando dinámicamente solo los expertos más relevantes para cada token de entrada.

Mezcla de expertos (MOE) Arquitectura

Deepseek-V3 emplea una arquitectura MOE, que implica dividir el modelo en múltiples "expertos", cada uno especializado en diferentes tareas o dominios de conocimiento. El modelo tiene 1 experto compartido y 256 expertos enrutados, con 8 expertos enrutados seleccionados como activos para cada token de entrada en función de su relevancia [1]. Este enfoque permite que el modelo procese las entradas de manera más eficiente activando solo una fracción de sus 37 mil millones de parámetros totales de 671 mil millones para cada tarea [6] [7].

Proceso de selección de expertos

La selección de expertos en Deepseek-V3 se basa en una puntuación de afinidad, que se calcula como el producto DOT de la incrustación de token de entrada y un centroide de expertos específico. Este puntaje determina qué tan bien un experto coincide con las necesidades de los tokens de entrada [1]. El modelo utiliza una estrategia de selección de Top-K, donde se eligen los expertos en puntuación de mejor puntaje para su procesamiento. Para evitar el colapso de enrutamiento, donde se envían demasiados tokens a algunos expertos, Deepseek-V3 emplea una estrategia de equilibrio de carga libre de pérdida auxiliar.

Balancio de carga sin pérdida auxiliar

Esta estrategia implica agregar un sesgo al puntaje de afinidad durante el enrutamiento. El sesgo se ajusta dinámicamente en función del uso de cada experto dentro de un lote. Si un experto está sobrecargado, su sesgo se reduce para desalentar las tareas adicionales, mientras que los expertos infrautilizados tienen su sesgo aumentado para fomentar más uso [1] [3]. Este enfoque asegura que la carga de trabajo se distribuya uniformemente entre los expertos sin la necesidad de funciones de pérdida adicionales, lo que a veces puede perjudicar el rendimiento del modelo [4].

Beneficios del proceso de selección de expertos

El proceso de selección de expertos en Deepseek-V3 ofrece varios beneficios:
-Eficiencia: al activar solo expertos relevantes, el modelo reduce la sobrecarga computacional, lo que lo hace más rentable y eficiente en energía [6] [9].
- Especialización: cada experto puede especializarse en tareas específicas o áreas de conocimiento, lo que lleva a un procesamiento más matizado y preciso de diversas entradas [1] [9].
- Escalabilidad: la arquitectura MOE permite modelos más grandes sin costos computacionales excesivos, lo que permite el desarrollo de sistemas AI más complejos y capaces [4] [6].

En general, el proceso de selección de expertos de Deepseek-V3 garantiza una combinación perfecta de habilidades mediante la asignación dinámica de tareas a expertos especializados, optimizando la eficiencia y la mejora del rendimiento del modelo.

Citas:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolutionizing-global-ruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/whatmain-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technological-innovations-a-deep-dive-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-eepseek-what-does-deepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-v3-to-r1-and-beyond