Confrontare i meccanismi di routing di esperti in DeepSeek-V2 e DeepSeek-V3

Quali sono le principali differenze tra i meccanismi di routing di esperti in DeepSeek-V2 e DeepSeek-V3

Le principali differenze tra i meccanismi di routing di esperti in DeepSeek-V2 e DeepSeek-V3 possono essere riassunte come segue:

deepseek-v2 routing di esperti

-Meccanismo di routing limitato dal dispositivo: DeepSeek-V2 impiega un meccanismo di routing limitato dal dispositivo per distribuire esperti su più dispositivi. Questo approccio garantisce che gli esperti target per ciascun token siano distribuiti su un numero limitato di dispositivi, selezionando in genere gli esperti Top-K da questi dispositivi. Questa strategia aiuta a gestire le spese generali di comunicazione e garantisce un'efficace elaborazione parallela [1] [5].

-Perdite ausiliarie per l'equilibrio del carico: DeepSeek-V2 introduce tre tipi di perdite ausiliarie a livello di esperti, livelli di dispositivo e a livello di comunicazione per mantenere il bilancio del carico durante la formazione. Queste perdite aiutano a prevenire il collasso del routing assicurando che nessun singolo esperto venga eccessivamente utilizzato mentre altri rimangono sottoutilizzati [1] [6].

- Numero di esperti e attivazione: DeepSeek-V2 ha 160 esperti più due esperti condivisi, con solo sei esperti attivati durante l'inferenza. Questa attivazione selettiva riduce significativamente il numero di parametri attivi, rendendo il modello più efficiente [5].

deepseek-v3 routing di esperti

- Aumento della specializzazione di esperti: DeepSeek-V3 si basa sull'architettura MOE aumentando il numero di esperti rotti per strato del 60%, da 160 a 256. Questo aumento migliora la capacità del modello di conoscenza e memoria [2].

- Esperti condivisi: DeepSeek-V3 mantiene il concetto di esperti condivisi, che sono sempre attivati. Ogni livello di rete di feed-forward (FFN) ha un esperto condiviso e ci sono tre livelli in cui tutti gli esperti sono attivati, migliorando la capacità del modello di acquisire conoscenze comuni attraverso i contesti [2] [4].

-Affinità token-to-esperta: l'assegnazione di token agli esperti si basa sull'affinità token-to-esperta nello spazio di incorporamento. Tuttavia, DeepEek-V3 affronta sfide relative al crollo del routing, in cui i token possono essere costantemente indirizzati agli stessi esperti, ostacolando potenzialmente la formazione di altri esperti [2].

- Strategia MOE aggressiva: DeepSeek-V3 adotta una strategia MOE più aggressiva, utilizzando la precisione FP8 per la formazione, che consente un calcolo e un ridimensionamento più efficienti. Questo approccio consente al modello di sfruttare efficacemente l'attivazione sparsa, ottimizzando l'uso di parametri durante l'inferenza [2] [4].

In sintesi, mentre entrambi i modelli utilizzano architetture MOE per routing efficiente e attivazione sparsa, DeepSeek-V3 migliora questo approccio con una maggiore specializzazione di esperti, strategie MOE più aggressive e aggiustamenti alle configurazioni esperte condivise. DeepSeek-V2 si concentra sull'allenamento economico e sull'efficace inferenza attraverso il routing limitato e le perdite ausiliarie a bilanciamento del carico.

Citazioni:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai- revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficiente
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda