Процес відбору експертів DeepSeek-V3 та архітектура МО

Процес відбору експертів DeepSeek-V3 розроблений для забезпечення збалансованого та ефективного розподілу завдань у своїх експертів, використовуючи суміш архітектури експертів (MOE). Цей процес має вирішальне значення для досягнення ідеальної суміші навичок, динамічно активуючи лише найрелевантніші експерти для кожного маркера введення.

суміш експертів (МО) архітектура

DeepSeek-V3 використовує архітектуру МО, яка передбачає ділення моделі на декілька "експертів", кожна спеціалізується на різних завданнях або областях знань. Модель має 1 спільного експертів та 256 маршрутивних експертів, 8 маршрукованих експертів вибрані як активні для кожного вхідного маркера на основі їх актуальності [1]. Цей підхід дозволяє моделі більш ефективно обробляти входи, активуючи лише частину загальних параметрів 37 мільярдів із 671 мільярда для кожного завдання [6] [7].

Процес вибору експертів

Вибір експертів у DeepSeek-V3 заснований на оцінці спорідненості, який обчислюється як точковий продукт вбудовування вхідного маркера та центроїд конкретного експерта. Цей показник визначає, наскільки добре експерт відповідає потребам вхідного маркера [1]. Модель використовує стратегію вибору Top-K, де для обробки вибираються експерти з найвищих балів. Щоб уникнути колапсу маршрутизації, де занадто багато жетонів надсилаються декільком експертам, DeepSeek-V3 використовує стратегію збалансування навантаження, що не містить втрати,.

Допоміжне врівноваження навантаження

Ця стратегія передбачає додавання упередженості до оцінки спорідненості під час маршрутизації. Упередженість динамічно коригується на основі використання кожного експерта в межах партії. Якщо експерт перевантажений, його зміщення зводиться до відштовхування подальших завдань, тоді як недостатньо використані експерти збільшуються, щоб заохотити більше використання [1] [3]. Цей підхід гарантує, що навантаження рівномірно розподіляється між експертами без необхідності додаткових функцій втрат, що іноді може зашкодити продуктивності моделі [4].

Переваги процесу відбору експертів

Процес відбору експертів у DeepSeek-V3 пропонує кілька переваг:
-Ефективність: Активуючи лише відповідні експерти, модель зменшує обчислювальні накладні витрати, що робить її більш економічною та енергоефективною [6] [9].
- Спеціалізація: Кожен експерт може спеціалізуватися на конкретних завданнях або областях знань, що призводить до більш нюансованої та точної обробки різноманітних входів [1] [9].
- Масштабованість: Архітектура МО дозволяє забезпечити більші моделі без надмірних обчислювальних витрат, що дозволяє розробити більш складні та здібні системи AI [4] [6].

Загалом, процес відбору експертів DeepSeek-V3 забезпечує ідеальну суміш навичок, динамічно розподіляючи завдання для спеціалізованих експертів, оптимізації ефективності та підвищення продуктивності моделі.

Цитати:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolutionalizing-global-recruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepeek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technology-inovations-deep-dive-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-deepeek-what-does-deepeek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-cumplete-guide-to-deepseek-models-from-v3-to-r1-and-beyond

Як процес відбору експертів у DeepSeek-V3 забезпечує ідеальну суміш навичок

суміш експертів (МО) архітектура

Процес вибору експертів

Допоміжне врівноваження навантаження

Переваги процесу відбору експертів