Маршрутизація, обмежена вузлом (NLR) у DeepSeek-V3-це стратегія, призначена для оптимізації накладних витрат на спілкування під час тренінгу з масштабною сумішшю експертів (МОЕ). Цей підхід ґрунтується на більш ранніх методах, таких як обмежена пристрої маршрутизація, що використовується в DeepSeek-V2, але з акцентом на зменшення витрат на зв'язок між вузлом.
Ключові компоненти NLR
1. Обмеження взаємодій вузла: У NLR кожен маркер надсилається щонайменше $$ M $$ вузлів, де $$ M $$ зазвичай встановлюється на невелику кількість, наприклад, 4 [7]. Це обмеження гарантує, що жетони не спілкуються з надмірною кількістю вузлів по всій моделі, значно зменшуючи синхронізацію між вузлом та накладні комунікації [2] [5].
2. Вибір експертів: Процес відбору передбачає ідентифікацію топ -$$ M $$ вузлів, які містять експертів з найвищими показниками спорідненості для заданого маркера. Останні експерти $$ k_r $$ потім вибираються з цих вибраних вузлів [3]. Цей метод гарантує, що комунікація зосереджена та ефективна, мінімізуючи непотрібну передачу даних між вузлами.
3. Врівноваження навантаження: Поки сам NLR не безпосередньо не стосується балансування навантаження, DeepSeek-V3 інтегрує його з іншими стратегіями балансування навантаження. Наприклад, він використовує умови зміщення для динамічного коригування експертного використання, гарантуючи, що жоден експерт не перевантажується, а інші залишаються бездіяльними [1] [5]. Цей підхід допомагає підтримувати ефективність обчислень, не покладаючись на велику кількість допоміжних втрат, які можуть поставити під загрозу продуктивність моделі.
Переваги НЛР
- Зменшена накладна комунікація: обмежуючи кількість вузлів, з якими може спілкуватися, NLR значно зменшує кількість даних, які потрібно перенести між вузлами. Це скорочення накладних витрат призводить до швидшого навчання та виступу [2] [5].
-Поліпшена масштабованість: NLR дозволяє DeepSeek-V3 більш ефективно масштабувати, оскільки пом'якшує вузькі місця, спричинені надмірною між вузловою комунікацією. Ця масштабованість має вирішальне значення для обробки масштабних моделей МО та обробки величезної кількості даних [3] [5].
- Підвищена ефективність обчислень: Забезпечуючи обробку жетонів у обмеженому наборі вузлів, NLR допомагає підтримувати збалансоване обчислювальне навантаження по всій системі. Цей баланс є важливим для максимізації використання ресурсів та мінімізації вузьких місць продуктивності [4].
Підводячи підсумок, маршрутизація обмеженої вузлом у DeepSeek-V3 оптимізує накладні витрати на зв'язок, обмежуючи кількість вузлів, з якими кожен жетон може взаємодіяти, тим самим зменшуючи між вузловими витратами зв'язку та підвищенням загальної ефективності системи. Цей підхід доповнюється динамічними стратегіями балансування навантаження для забезпечення оптимального використання ресурсів під час тренувань та умовивод моделі.
Цитати:
[1] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://martinfowler.com/articles/deepseek-papers.html
[4] https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceeek/day_6_one_thing_theepseekv3r1_inference_system_oview.md
[5] https://gonzoml.substack.com/p/deepseek-v3-technical-details
.
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/artificial-intelligence/how-implement-deepeek-locally