Jämförelse av expertruttmekanismer i Deepseek-V2 och Deepseek-V3

Vilka är de viktigaste skillnaderna mellan expertruttmekanismerna i Deepseek-V2 och Deepseek-V3

De viktigaste skillnaderna mellan expertruttmekanismerna i Deepseek-V2 och Deepseek-V3 kan sammanfattas enligt följande:

Deepseek-V2 Expert Routing

-Enhetsbegränsad routingmekanism: Deepseek-V2 använder en enhetsbegränsad routingmekanism för att distribuera experter över flera enheter. Detta tillvägagångssätt säkerställer att målexperterna för varje token är spridda över ett begränsat antal enheter, vanligtvis väljer TOP-K-experter från dessa enheter. Denna strategi hjälper till att hantera kommunikationskostnader och säkerställer effektiv parallellbehandling [1] [5].

-Hjälpförluster för belastningsbalans: Deepseek-V2 introducerar tre typer av hjälpförluster och enhetsnivå och kommunikationsnivå för att upprätthålla belastningsbalans under träning. Dessa förluster hjälper till att förhindra routingskollaps genom att säkerställa att ingen enda expert används alltför medan andra förblir underutnyttjade [1] [6].

- Antal experter och aktivering: Deepseek-V2 har 160 experter plus två delade experter, med endast sex experter aktiverade under slutsatser. Denna selektiva aktivering minskar antalet aktiva parametrar avsevärt, vilket gör modellen mer effektiv [5].

Deepseek-V3 Expert Routing

- Ökad expertspecialisering: Deepseek-V3 bygger på MOE-arkitekturen genom att öka antalet dirigerade experter per lager med 60%, från 160 till 256. Denna ökning förbättrar modellens kapacitet för kunskap och minne [2].

- Delade experter: Deepseek-V3 behåller konceptet med delade experter, som alltid är aktiverade. Varje Feed-Forward Network (FFN) -lager har en delad expert, och det finns tre lager där alla experter är aktiverade, vilket förbättrar modellens förmåga att fånga gemensam kunskap i sammanhang [2] [4].

-Token-till-expert-affinitet: Tilldelningen av tokens till experter är baserad på token-till-expertaffinitet i inbäddningsutrymmet. Deepseek-V3 står emellertid inför utmaningar relaterade till routingskollaps, där tokens konsekvent kan dirigeras till samma experter, vilket potentiellt hindrar utbildningen av andra experter [2].

- Aggressiv MOE-strategi: Deepseek-V3 antar en mer aggressiv MOE-strategi som använder FP8 Precision for Training, vilket möjliggör effektivare beräkning och skalning. Detta tillvägagångssätt gör det möjligt för modellen att utnyttja gles aktivering effektivt och optimera användningen av parametrar under inferens [2] [4].

Sammanfattningsvis, medan båda modellerna använder MOE-arkitekturer för effektiv routing och gles aktivering, förbättrar Deepseek-V3 denna strategi med ökad expertspecialisering, mer aggressiva MOE-strategier och justeringar av delade expertkonfigurationer. Deepseek-V2 fokuserar på ekonomisk utbildning och effektiv inferens genom enhetsbegränsad routing och lastbalansering av hjälpförluster.

Citeringar:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-effektiv
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA