Sammenligning af ekspertrutemekanismer i DeepSeek-V2 og DeepSeek-V3

Hvad er de største forskelle mellem ekspertrutemekanismerne i Deepseek-V2 og Deepseek-V3

De vigtigste forskelle mellem ekspertrutemekanismerne i DeepSeek-V2 og DeepSeek-V3 kan sammenfattes som følger:

Deepseek-V2-ekspert routing

-Enhedsbegrænset routingmekanisme: DeepSeek-V2 anvender en enhedsbegrænset routingmekanisme til at distribuere eksperter på tværs af flere enheder. Denne tilgang sikrer, at måleksperterne for hvert token spredes over et begrænset antal enheder, typisk vælger top-K-eksperterne fra disse enheder. Denne strategi hjælper med at styre kommunikationsomkostninger og sikrer effektiv parallel behandling [1] [5].

-Hjælpetab for belastningsbalance: DeepSeek-V2 introducerer tre typer hjælpetabs ekspertniveau, enhedsniveau og kommunikationsniveau for at opretholde belastningsbalance under træning. Disse tab hjælper med at forhindre routing sammenbrud ved at sikre, at ingen enkelt ekspert bruges for, mens andre forbliver underudnyttet [1] [6].

- Antal eksperter og aktivering: Deepseek-V2 har 160 eksperter plus to delte eksperter, med kun seks eksperter aktiveret under inferensen. Denne selektive aktivering reducerer antallet af aktive parametre markant, hvilket gør modellen mere effektiv [5].

Deepseek-V3-ekspert routing

- Øget ekspertspecialisering: Deepseek-V3 bygger på MOE-arkitekturen ved at øge antallet af rutede eksperter pr. Lag med 60%fra 160 til 256. Denne stigning forbedrer modellens kapacitet til viden og hukommelse [2].

- Delte eksperter: Deepseek-V3 bevarer begrebet delte eksperter, som altid er aktiveret. Hvert feed-forward netværk (FFN) lag har et delt ekspert, og der er tre lag, hvor alle eksperter er aktiveret, hvilket forbedrer modellens evne til at fange fælles viden på tværs af sammenhænge [2] [4].

-Token-til-ekspert-affinitet: Tildelingen af tokens til eksperter er baseret på token-til-ekspert-affinitet i det indlejringsrum. Imidlertid står Deepseek-V3 overfor udfordringer relateret til routing-sammenbrud, hvor tokens konsekvent kan dirigeres til de samme eksperter, hvilket potentielt hindrer uddannelsen af andre eksperter [2].

- Aggressiv MOE-strategi: Deepseek-V3 vedtager en mere aggressiv MOE-strategi ved hjælp af FP8-præcision til træning, som giver mulighed for mere effektiv beregning og skalering. Denne tilgang gør det muligt for modellen at udnytte sparsom aktivering effektivt, optimering af brugen af parametre under inferens [2] [4].

Sammenfattende, mens begge modeller bruger MOE-arkitekturer til effektiv routing og sparsom aktivering, forbedrer DeepSeek-V3 denne tilgang med øget ekspertspecialisering, mere aggressive MOE-strategier og justeringer af delte ekspertkonfigurationer. Deepseek-V2 fokuserer på økonomisk træning og effektiv inferens gennem enhedsbegrænset routing og belastningsbalancerende hjælpetab.

Citater:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-arkitecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the- open-cource-i-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-effektiv
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda