Token Dropping Prevention in Deepseek Training: Moe Architecture and Strategies

¿Qué medidas se toma Deepseek para evitar la caída de los tokens durante el entrenamiento?

Deepseek emplea varias estrategias para evitar la caída de tokens durante la capacitación, particularmente en su arquitectura de mezcla de expertos (MOE). Aquí están las medidas clave:

1. Estrategia de token: Deepseek utiliza un enfoque de caída de token basado en probabilidades de enrutamiento, similar a los modelos MOE convencionales. Esto significa que los tokens se eliminan de acuerdo con sus puntajes, asegurando que solo se descarten las fichas menos importantes cuando el conteo de tokens excede una cierta capacidad. La capacidad se calcula de manera diferente dependiendo de si el enfoque está en el experto o la dimensión del dispositivo, lo que ayuda a administrar cómo los tokens son procesados por diferentes expertos o dispositivos de manera efectiva [1].

2. Dropping de token a nivel de dispositivo: la estrategia funciona principalmente a nivel de dispositivo donde se ordenan todas las puntuaciones de expertos, y se reducen las tokens con las probabilidades más bajas. Esto garantiza que cada dispositivo pueda administrar su carga sin abrumar a ningún experto, al tiempo que mantiene la eficiencia general del rendimiento [1].

3. Retención de token garantizado: Deepseek ha implementado una estrategia específica para garantizar que aproximadamente el 10% de los tokens de las secuencias de capacitación nunca se eliminarán. Esto es crucial para mantener la integridad de los datos de capacitación y garantizar que se conserve información importante durante todo el proceso de capacitación [2] [6].

4. Equilibrio de carga: en su última versión, Deepseek-V3, se emplea una estrategia de equilibrio de carga efectiva que elimina la necesidad de caerse por completo durante la capacitación. Al ajustar dinámicamente las cargas de expertos y utilizar un objetivo de predicción de token múltiple, Deepseek-V3 mantiene una distribución equilibrada de tokens entre expertos, evitando así cualquier pérdida de datos durante la capacitación [2].

Estas medidas reflejan el compromiso de Deepseek de optimizar sus procesos de capacitación al tiempo que minimizan la pérdida de datos y maximiza la eficiencia computacional.

Citas:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto- osting-down-fake-deepseek-tokens-affect- thilmasss-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/crypptocurrency/why-is-crypto-ling- down-fake-deepseek-tokens-affect-th milss-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716