Hlavní rozdíly mezi odbornými směrovacími mechanismy v Deepseek-V2 a Deepseek-V3 lze shrnout takto:
DeepSeek-V2 Expert směrování
-Směrovací mechanismus omezený na zařízení: DeepSeek-V2 využívá směrovací mechanismus omezený na zařízení k distribuci odborníků na více zařízení. Tento přístup zajišťuje, že cíloví odborníci pro každý token jsou rozloženi na omezeném počtu zařízení, obvykle vybírají odborníky na top-K z těchto zařízení. Tato strategie pomáhá řídit režijní náklady komunikace a zajišťuje efektivní paralelní zpracování [1] [5].
-Pomocné ztráty pro rovnováhu zatížení: DeepSeek-V2 představuje tři typy pomocných ztrát na úrovni odborníků, úrovně zařízení a na úrovni komunikace, aby se během tréninku udržovala rovnováhu zatížení. Tyto ztráty pomáhají zabránit kolapsu směrování tím, že zajistí, že žádný jediný odborník není příliš využíván, zatímco ostatní zůstanou nedostatečně využívány [1] [6].
- Počet odborníků a aktivace: DeepSeek-V2 má 160 odborníků plus dva sdílené odborníky, přičemž během závěru aktivovali pouze šest odborníků. Tato selektivní aktivace významně snižuje počet aktivních parametrů, což zefektivňuje model [5].
DeepSeek-V3 Expert směrování
- Zvýšená specializace odborníků: DeepSeek-V3 staví na architektuře MOE zvýšením počtu směrovaných odborníků na vrstvu o 60%, ze 160 na 256. Toto zvýšení zvyšuje kapacitu znalostí a paměti modelu [2].
- Sdílené odborníci: DeepSeek-V3 si zachovává koncept sdílených odborníků, kteří jsou vždy aktivováni. Každá vrstva sítě pro krmení vpřed (FFN) má jednoho sdíleného odborníka a existují tři vrstvy, kde jsou aktivováni všichni odborníci, což zlepšuje schopnost modelu zachytit běžné znalosti napříč kontexty [2] [4].
-Afinita token-to-expert: Přiřazení tokenů odborníkům je založeno na afinitě tokenu k expert do vložení. Deepseek-V3 však čelí výzvám souvisejícím se směrovacím kolapsem, kde mohou být tokeny důsledně směrovány ke stejným odborníkům, což potenciálně brání školení ostatních odborníků [2].
- Agresivní strategie MOE: DeepSeek-V3 přijímá agresivnější strategii MOE a využívá přesnost FP8 pro školení, což umožňuje efektivnější výpočet a škálování. Tento přístup umožňuje modelu efektivně využívat řídkou aktivaci a optimalizovat použití parametrů během závěru [2] [4].
Stručně řečeno, zatímco oba modely používají architektury MOE pro efektivní směrování a řídkou aktivaci, DeepSeek-V3 zvyšuje tento přístup se zvýšenou specializací odborníků, agresivnějšími strategiemi MOE a úpravy sdílených odborných konfigurací. DeepSeek-V2 se zaměřuje na ekonomické trénink a efektivní inference prostřednictvím směrování omezeného na zařízení a pomocné ztráty.
Citace:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efektivní
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda