Основні відмінності між механізмами маршрутизації експертів у DeepSeek-V2 та DeepSeek-V3 можна узагальнити наступним чином:
DeepSeek-V2 Експертна маршрутизація
-Механізм маршрутизації, обмежений пристроєм: DeepSeek-V2 використовує механізм маршрутизації, обмежений пристроєм для розподілу експертів на різних пристроях. Цей підхід гарантує, що цільові експерти для кожного маркера розповсюджуються на обмеженій кількості пристроїв, як правило, вибираючи експертів Top-K з цих пристроїв. Ця стратегія допомагає керувати комунікаційними накладними та забезпечує ефективну паралельну обробку [1] [5].
-Допоміжні втрати для балансу навантаження: DeepSeek-V2 вводить три типи допоміжних втрат на рівні експертів, рівня пристрою та рівня комунікації для підтримки балансу навантаження під час навчання. Ці втрати допомагають запобігти руйнуванню маршрутизації, гарантуючи, що жоден експерт не використовується, а інші залишаються недостатньо використаними [1] [6].
- Кількість експертів та активації: DeepSeek-V2 має 160 експертів плюс два спільні експерти, лише шість експертів активуються під час висновку. Ця селективна активація значно зменшує кількість активних параметрів, що робить модель більш ефективною [5].
DeepSeek-V3 Експертна маршрутизація
- Підвищена експертна спеціалізація: DeepSeek-V3 ґрунтується на архітектурі МО, збільшуючи кількість експертів з маршрутизації на шар на 60%, з 160 до 256. Це збільшення підвищує здатність моделі до знань та пам'яті [2].
- Спільні експерти: DeepSeek-V3 зберігає концепцію спільних експертів, які завжди активуються. Кожен шар мережі подачі (FFN) має один спільний експерт, і є три шари, де всі експерти активуються, покращуючи здатність моделі фіксувати загальні знання в контекстах [2] [4].
-АФІТНІТНІСТЬ ТАКЕННЯ ДО ЕКСПЕРТ: Призначення жетонів експертам засноване на спорідненості токен-Експерта в вбудовуваному просторі. Однак DeepSeek-V3 стикається з проблемами, пов’язаними з руйнуванням маршрутизації, де жетони можуть послідовно направлятися до тих самих експертів, що потенційно перешкоджає підготовці інших експертів [2].
- Агресивна стратегія MOE: DeepSeek-V3 приймає більш агресивну стратегію MOE, використовуючи точність FP8 для навчання, що дозволяє більш ефективно обчислювати та масштабувати. Цей підхід дозволяє моделі ефективно використовувати розріджену активацію, оптимізуючи використання параметрів під час висновку [2] [4].
Підсумовуючи це, хоча обидві моделі використовують архітектури МО для ефективної маршрутизації та рідкісної активації, DeepSeek-V3 покращує цей підхід із посиленою спеціалізацією експертів, більш агресивними стратегіями МО та коригуванням спільних конфігурацій експертів. DeepSeek-V2 фокусується на економічній підготовці та ефективному висновку за допомогою маршрутизації, що обмежується пристроєм та допоміжних втратах, що балансують навантаження.
Цитати:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-eficive
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda