Vergelijking van deskundige routeringsmechanismen in Deepseek-V2 en Deepseek-V3

Wat zijn de belangrijkste verschillen tussen de deskundige routeringsmechanismen in Deepseek-V2 en Deepseek-V3

De belangrijkste verschillen tussen de deskundige routingsmechanismen in Deepseek-V2 en Deepseek-V3 kunnen als volgt worden samengevat:

Deepseek-V2 Expert Routing

-Device-beperkte routeringsmechanisme: Deepseek-V2 maakt gebruik van een apparaatbeperking routeringsmechanisme om experts over meerdere apparaten te distribueren. Deze benadering zorgt ervoor dat de doelexperts voor elk token zich over een beperkt aantal apparaten verspreiden, waardoor de top-K-experts van deze apparaten meestal worden geselecteerd. Deze strategie helpt bij het beheren van communicatie overhead en zorgt voor efficiënte parallelle verwerking [1] [5].

-Hulpverliezen voor laadsaldo: DeepSeek-V2 introduceert drie soorten hulpverliezen op expertniveau, apparaatniveau en communicatieniveau om tijdens de training de belastingbalans te behouden. Deze verliezen helpen de instorting van routing te voorkomen door ervoor te zorgen dat geen enkele expert te gebruikt wordt, terwijl anderen onderbenut blijven [1] [6].

- Aantal experts en activering: Deepseek-V2 heeft 160 experts plus twee gedeelde experts, met slechts zes experts geactiveerd tijdens de gevolgtrekking. Deze selectieve activering vermindert het aantal actieve parameters aanzienlijk, waardoor het model efficiënter is [5].

Deepseek-V3 Expert Routing

- Verhoogde specialisatie van experts: Deepseek-V3 bouwt voort op de MOE-architectuur door het aantal gerouteerde experts per laag met 60%te vergroten, van 160 tot 256. Deze toename verhoogt de capaciteit van het model tot kennis en geheugen [2].

- Gedeelde experts: Deepseek-V3 behoudt het concept van gedeelde experts, die altijd worden geactiveerd. Elke FFN-laag (FFN) -laag heeft één gedeelde expert en er zijn drie lagen waarbij alle experts worden geactiveerd, waardoor het vermogen van het model wordt verbeterd om gemeenschappelijke kennis over contexten te veroveren [2] [4].

-Token-to-Expert affiniteit: de toewijzing van tokens aan experts is gebaseerd op token-tot-expert affiniteit in de inbeddingsruimte. Deepseek-V3 staat echter voor uitdagingen met betrekking tot instorting van de routing, waarbij tokens consequent naar dezelfde experts kunnen worden geleid, waardoor de training van andere experts mogelijk wordt belemmerd [2].

- Agressieve MOE-strategie: Deepseek-V3 neemt een agressievere MOE-strategie aan, met behulp van FP8-precisie voor training, wat een efficiëntere berekening en schaling mogelijk maakt. Deze benadering stelt het model in staat om schaarse activering effectief te benutten, waardoor het gebruik van parameters tijdens inferentie [2] [4] wordt geoptimaliseerd.

Samenvattend, hoewel beide modellen MOE-architecturen gebruiken voor efficiënte routing en schaarse activering, verbetert DeepSeek-V3 deze aanpak met verhoogde expertspecialisatie, agressievere MOE-strategieën en aanpassingen aan gedeelde deskundige configuraties. DeepSeek-V2 richt zich op economische training en efficiënte inferentie door apparaat-beperkte routing en load-balancing hulpverliezen.

Citaten:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-lm-withefficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda