A szakértői útválasztási mechanizmusok összehasonlítása a DeepSeek-V2-ben és a DeepSeek-V3-ban

Melyek a fő különbségek a DeepSeek-V2 és a DeepSeek-V3 szakértői útválasztási mechanizmusai között

A DeepSeek-V2 és a DeepSeek-V3 szakértői útválasztási mechanizmusainak fő különbségei a következők:

DeepSeek-V2 szakértői útválasztás

-Eszköz korlátozott útválasztási mechanizmus: A DeepSeek-V2 egy eszköz korlátozott útválasztási mechanizmust alkalmaz a szakértők több eszközön történő terjesztésére. Ez a megközelítés biztosítja, hogy az egyes tokenekre vonatkozó célszakértők korlátozott számú eszközön vannak elosztva, jellemzően a Top-K szakértőit ezen eszközökből. Ez a stratégia elősegíti a kommunikáció általános költségeit, és biztosítja a hatékony párhuzamos feldolgozást [1] [5].

-Kiegészítő veszteségek a terhelés egyenlege szempontjából: A DeepSeek-V2 három típusú kiegészítő veszteséget vezet be szakértői szintű, eszköz-szintű és kommunikációs szintet, hogy fenntartsa a terhelés egyensúlyát az edzés során. Ezek a veszteségek megakadályozzák az útválasztás összeomlását, biztosítva, hogy egyetlen szakértőt sem használnak túlságosan túlzottan, míg mások továbbra is kihasználatlanok [1] [6].

- Szakértők száma és aktiválása: A DeepSeek-V2 160 szakértővel és két megosztott szakértővel rendelkezik, csak hat szakértő aktiválva a következtetés során. Ez a szelektív aktiválás jelentősen csökkenti az aktív paraméterek számát, így a modell hatékonyabb [5].

DeepSeek-V3 szakértői útválasztás

- Megnövekedett szakértői specializáció: A MEBSEEK-V3 a MOE architektúrára épül, azáltal, hogy növeli a réteges szakértők számát 60%-kal, 160-ról 256-ra. Ez a növekedés javítja a modell tudás- és memória képességét [2].

- Közös szakértők: A DeepSeek-V3 megtartja a megosztott szakértők fogalmát, amelyek mindig aktiválódnak. Minden egyes adagolási hálózat (FFN) rétegnek van egy megosztott szakértője, és három réteg van, ahol minden szakértő aktiválódik, javítva a modell azon képességét, hogy a közismert kontextusban rögzítse [2] [4].

-Token-szakértő affinitás: A tokenek szakértőkhöz történő hozzárendelése a beágyazási térben a token-szakértő affinitásán alapul. A DeepSeek-V3 azonban az útválasztás összeomlásával kapcsolatos kihívásokkal szembesül, ahol a tokeneket következetesen ugyanazon szakértőkhöz vezethetik, potenciálisan akadályozva más szakértők képzését [2].

- Agresszív MOE stratégia: A DeepSeek-V3 egy agresszívebb MOE stratégiát fogad el, az FP8 pontosság felhasználásával, amely lehetővé teszi a hatékonyabb számítás és a méretezést. Ez a megközelítés lehetővé teszi a modell számára, hogy hatékonyan kihasználja a ritka aktiválást, optimalizálva a paraméterek használatát a következtetés során [2] [4].

Összefoglalva: míg mindkét modell MOE architektúrákat használ a hatékony útválasztáshoz és a ritka aktiváláshoz, a DeepSeek-V3 fokozza ezt a megközelítést a megnövekedett szakértői specializációval, agresszívebb MOE stratégiákkal és a megosztott szakértői konfigurációk kiigazításaival. A DeepSeek-V2 a gazdasági edzésre és a hatékony következtetésekre összpontosít az eszköz korlátozott útválasztás és a terhelés kiegyensúlyozó kiegészítő veszteségei révén.

Idézetek:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-effient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda