Оцінка спорідненості в DeepSeek-V3: Вибір експертів у архітектурі суміші експертів

У DeepSeek-V3 оцінка спорідненості відіграє вирішальну роль у процесі відбору експертів у межах своєї архітектури суміші-експертів (МО). Ця архітектура розроблена для ефективного вирішення масштабних завдань моделювання мови, динамічно активуючи підмножину експертів на основі вхідних жетонів.

Розрахунок оцінки спорідненості

Оцінка спорідненості обчислюється як точковий продукт вбудовування вхідного маркера та центроїд конкретного експерта. Центроїд можна вважати репрезентативним вектором для кожного експерта, який може бути отриманий із середніх активацій або входів, які обробляє експерт. Цей точковий продукт вимірює те, наскільки тісно вирівнюється маркер з досвідом кожного доступного експерта.

Процес вибору експертів

1. Top-K маршрутизація: Для кожного вхідного маркера DeepSeek-V3 вибирає 8 найкращих експертів з найвищими показниками спорідненості. Цей процес відомий як маршрутизація Top-K, де k фіксується на 8 у цьому випадку [1] [7].

2. Налаштування зміщення: Щоб запобігти руйнуванню маршрутизації, де занадто багато жетонів направляються до тих самих експертів, DeepSeek-V3 вводить динамічне коригування зміщення. Кожен експерт має термін зміщення $$ B_i $$, який додається до його оцінки спорідненості під час маршрутизації. Якщо експерт перевантажений, його зміщення зменшується, і якщо він недостатньо використовується, його зміщення збільшується. Це коригування допомагає підтримувати збалансовану навантаження у всіх експертів без використання явних допоміжних втрат [1] [3].

3. Механізм решітки: Механізм решітки обчислює бал за кожен маркер і вибирає найбільш релевантних експертів з маршрутизації на основі цих балів. Це гарантує, що модель ефективно виділяє обчислювальні ресурси, лише активуючи необхідні експерти для кожного маркера [3].

Переваги оцінки спорідненості

- Ефективність: Вибір експертів на основі балів спорідненості, DeepSeek-V3 зменшує обчислювальні витрати, активуючи лише частину загальних параметрів моделі для кожного маркера. Це призводить до більш ефективного висновку та навчальних процесів [4] [8].

- Спеціалізація: Оцінка спорідненості дозволяє покращити спеціалізацію між експертами. Кожен експерт може зосередитись на конкретних моделях або завданнях, покращуючи загальну репрезентативну потужність моделі та здатність обробляти різноманітні входи [1] [2].

- Стабільність: Динамічна коригування зміщення забезпечує перевантаження жодного експерта, підтримуючи стабільність як під час навчання, так і у висновку. Це заважає моделі скинути жетони через перевантаження, що було проблемою в попередніх версіях [2] [3].

Підсумовуючи, оцінка спорідненості в DeepSeek-V3 має вирішальне значення для динамічного вибору найбільш релевантних експертів для кожного вхідного маркера, забезпечуючи ефективну та спеціалізовану обробку, зберігаючи стабільність моделі.

Цитати:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technic-innovations-question-cost-statton-jplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-tegrations-are-now-latenode
[7] https://www.linkedin.com/pulse/dynamicialselelecting-number-expert-moe-models-like-deepkeek-rosi%C4%
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-cumplete-guide-to-deepseek-models-from-v3-to-r1-and-beyond

Чи можете ви пояснити роль оцінки спорідненості в процесі відбору експертів DeepSeek-V3

Розрахунок оцінки спорідненості

Процес вибору експертів

Переваги оцінки спорідненості