Sammenligning av ekspertrutingsmekanismer i DeepSeek-V2 og DeepSeek-V3

Hva er de viktigste forskjellene mellom ekspertrutingsmekanismene i DeepSeek-V2 og DeepSeek-V3

Hovedforskjellene mellom ekspertrutingsmekanismene i DeepSeek-V2 og DeepSeek-V3 kan oppsummeres som følger:

DeepSeek-V2 Expert Routing

-Enhetsbegrenset rutingmekanisme: DeepSeek-V2 bruker en enhetsbegrenset rutingmekanisme for å distribuere eksperter på tvers av flere enheter. Denne tilnærmingen sikrer at målekspertene for hvert token er spredt over et begrenset antall enheter, og vanligvis velger topp-K-ekspertene fra disse enhetene. Denne strategien hjelper til med å håndtere kommunikasjonskostnader og sikrer effektiv parallell prosessering [1] [5].

-Hjelpeapstap for belastningsbalanse: DeepSeek-V2 introduserer tre typer hjelpetap, ekspertnivå, enhetsnivå og kommunikasjonsnivå for å opprettholde belastningsbalanse under trening. Disse tapene hjelper til med å forhindre at ruting kollapser ved å sikre at ingen enkelt ekspert blir altfor utnyttet mens andre forblir underutnyttet [1] [6].

- Antall eksperter og aktivering: DeepSeek-V2 har 160 eksperter pluss to delte eksperter, med bare seks eksperter som er aktivert under slutning. Denne selektive aktiveringen reduserer antall aktive parametere betydelig, noe som gjør modellen mer effektiv [5].

DeepSeek-V3 Expert Routing

- Økt ekspertspesialisering: DeepSeek-V3 bygger på MOE-arkitekturen ved å øke antall rutede eksperter per lag med 60%, fra 160 til 256. Denne økningen forbedrer modellens kapasitet for kunnskap og hukommelse [2].

- Delte eksperter: DeepSeek-V3 beholder konseptet med delte eksperter, som alltid er aktivert. Hvert FFN-lag (FFN) lag har en delt ekspert, og det er tre lag der alle eksperter er aktivert, noe som forbedrer modellens evne til å fange felles kunnskap på tvers av kontekster [2] [4].

-Token-to-Expert Affinity: Tildelingen av symboler til eksperter er basert på symbol på symbolsk-til-ekspert i innebygningsrommet. Imidlertid står DeepSeek-V3 overfor utfordringer relatert til rutingkollaps, der symboler konsekvent kan bli dirigert til de samme ekspertene, og potensielt hindrer opplæringen av andre eksperter [2].

- Aggressiv MOE-strategi: DeepSeek-V3 vedtar en mer aggressiv MOE-strategi, og bruker FP8-presisjon for trening, noe som gir mulighet for mer effektiv beregning og skalering. Denne tilnærmingen gjør at modellen kan utnytte sparsom aktivering effektivt, og optimalisere bruken av parametere under inferens [2] [4].

Oppsummert, mens begge modellene bruker MOE-arkitekturer for effektiv ruting og sparsom aktivering, forbedrer DeepSeek-V3 denne tilnærmingen med økt ekspertspesialisering, mer aggressive MOE-strategier og justeringer av delte ekspertkonfigurasjoner. DeepSeek-V2 fokuserer på økonomisk trening og effektiv inferens gjennom enhetsbegrenset ruting og belastningsbalansering av tilleggstap.

Sitasjoner:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-arkitektur
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-lm-withefficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA