Сравнение экспертных механизмов маршрутизации в DeepSeek-V2 и DeepSeek-V3

Основные различия между экспертными механизмами маршрутизации в DeepSeek-V2 и DeepSeek-V3 могут быть обобщены следующим образом:

DeepSeek-V2 Экспертная маршрутизация

-Основной для устройства механизм маршрутизации: DeepSeek-V2 использует механизм маршрутизации с ограниченным устройством для распределения экспертов по нескольким устройствам. Этот подход гарантирует, что целевые эксперты для каждого токена распространяются на ограниченное количество устройств, обычно выбирая экспертов Top K из этих устройств. Эта стратегия помогает управлять накладными расходом общения и обеспечивает эффективную параллельную обработку [1] [5].

-вспомогательные потери для баланса нагрузки: DeepSeek-V2 вводит три типа вспомогательных потерь на уровне эксперта, уровня устройства и уровня связи, чтобы поддерживать баланс нагрузки во время обучения. Эти потери помогают предотвратить коллапс маршрутизации, гарантируя, что ни один эксперт не используется, в то время как другие остаются недоиспользуемыми [1] [6].

- Количество экспертов и активации: DeepSeek-V2 имеет 160 экспертов плюс два общих эксперта, а только шесть экспертов активированы во время вывода. Эта селективная активация значительно уменьшает количество активных параметров, что делает модель более эффективной [5].

DeepSeek-V3 Экспертная маршрутизация

- Повышенная специализация экспертов: DeepSeek-V3 опирается на архитектуру MOE, увеличивая количество маршрутизированных экспертов на уровень на 60%, с 160 до 256. Это увеличение повышает способность модели к знаниям и памяти [2].

- Общие эксперты: DeepSeek-V3 сохраняет концепцию общих экспертов, которые всегда активируются. Каждый уровень Feed-Forward Network (FFN) имеет один общий эксперт, и существует три уровня, где все эксперты активируются, улучшая способность модели отражать общие знания в разных контекстах [2] [4].

-Токен-эксперт-аффинность: назначение токенов экспертам основано на сродстве токена к эксперту в пространстве встраивания. Тем не менее, DeepSeek-V3 сталкивается с проблемами, связанными с коллапсом маршрутизации, где токены могут последовательно направляться к тем же экспертам, что потенциально препятствует обучению других экспертов [2].

- Агрессивная стратегия MOE: DeepSeek-V3 принимает более агрессивную стратегию MOE, используя точность FP8 для обучения, что позволяет обеспечить более эффективные вычисления и масштабирование. Этот подход позволяет модели эффективно использовать разреженную активацию, оптимизируя использование параметров во время вывода [2] [4].

Таким образом, в то время как обе модели используют архитектуры MOE для эффективной маршрутизации и разреженной активации, DeepSeek-V3 усиливает этот подход благодаря повышенной специализации экспертов, более агрессивными стратегиями MOE и корректировками в общие конфигурации экспертов. DeepSeek-V2 фокусируется на экономическом обучении и эффективном выводе с помощью ограниченных устройств маршрутизации и вспомогательных потерь-балансировки нагрузки.

Цитаты:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-effial
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda

Каковы основные различия между экспертными механизмами маршрутизации в DeepSeek-V2 и DeepSeek-V3

DeepSeek-V2 Экспертная маршрутизация

DeepSeek-V3 Экспертная маршрутизация