DeepSeek-V3: Динамічна коригування зміщення та сигмоїдна решітка для ефективного використання експертів

У DeepSeek-V3 динамічне коригування умовних термінів та сигмоїдного нараховування спільно працює над підвищенням ефективності та продуктивності моделі шляхом вирішення питання дисбалансу навантаження серед експертів. Ось детальне пояснення того, як ці компоненти доповнюють один одного:

Динамічне коригування термінів зміщення

DeepSeek-V3 вводить термін зміщення для кожного експерта, який динамічно коригується під час навчання для підтримки балансу навантаження. Цей підхід дозволяє уникнути необхідності допоміжних втрат, які можуть негативно вплинути на продуктивність моделі, змушуючи її визначити пріоритетність балансу навантаження над оптимальними рішеннями про маршрутизацію. Термін зміщення додається до показника експертної спорідненості, перш ніж приймати рішення про маршрутизацію Top-K, але це не впливає на вартість гриба, яка походить від початкової оцінки спорідненості. Це гарантує, що внесок експерта залишається недоторканим, сприяючи збалансованій маршрутизації.

- Механізм коригування: Якщо експерт перевантажений (отримуючи більше жетонів, ніж середній), його термін зміщення зменшується. І навпаки, якщо експерт недостатньо завантажений, його термін зміщення збільшується. Це коригування допомагає запобігти колапсу маршрутизації, де модель може надати перевагу кількома експертами, що призводить до неефективних обчислень та зменшення переваг спеціалізації.

Сигмоїд

DeepSeek-V3 замінює традиційне витяжку Softmax на сигмоїдну решітку для експертної маршрутизації. Ця зміна дозволяє кожному експерту мати справедливі шанси бути обраним, оскільки сигмоїдна функція відображає будь-яке реальне число до значення між 0 і 1. На відміну від Softmax, який може створити конкурентне середовище серед експертів (де прибуток одного експерта є втратою іншого), сигмоїдне ворота гарантує, що оцінка кожного експерта не є незалежною від інших, що зменшує суперництво.

- Переваги сигмоподібного решітки: Цей підхід заважає моделі надмірно сприяти кількома експертами, що може призвести до недостатнього використання інших експертів та зниження продуктивності моделі. Даючи кожному експерту справедливий постріл, Sigmoid Gating сприяє більш збалансованому та різноманітному використанню експертів, підвищуючи загальну здатність та ефективність моделі.

допоміжна втрата додаткової послідовності

Незважаючи на те, що первинний механізм-це допоміжне втрата, DeepSeek-V3 також включає додаткову втрату балансу. Ця втрата, контрольована дуже невеликим гіперпараметром, діє як гарантія для запобігання екстремальних випадків, коли одна послідовність може сильно сприяти невеликому підмножину експертів. Це забезпечує баланс у кожній послідовності, не впливаючи на загальну динаміку тренувань.

Як динамічне налаштування зміщення та сигмоїдна решітка доповнюють один одного

1. Збалансоване використання експертів: Динамічне коригування термінів зміщення гарантує, що жоден експерт не надає перевагу чи недостатньо, підтримуванню збалансованого навантаження для всіх експертів. Сигмоїдна решітка підтримує це, надаючи кожному експерту незалежну оцінку, зменшуючи конкуренцію та забезпечуючи, щоб кожен експерт мав можливість внести свій внесок.

2. Ефективна маршрутизація: Динамічно коригуючи терміни зміщення, засновані на використанні експертів, модель може ефективно направляти маркери до найбільш підходящих експертів, не покладаючись на допоміжні втрати, які можуть поставити під загрозу продуктивність. Зигмоїдна решітка сприяє цій ефективній маршрутизації, дозволяючи більш нюансованому процесу відбору.

3. Поліпшена продуктивність моделі: поєднання динамічного коригування зміщення та сигмоїдного решітки підвищує продуктивність моделі, забезпечуючи обробку кожного маркера найбільш відповідним набором експертів. Це призводить до кращої спеціалізації та обміну знаннями між експертами, вдосконалюючи здатність моделі ефективно вирішувати різноманітні завдання.

Підводячи підсумок, динамічне коригування умовних термінів та сигмоподібного вибору в DeepSeek-V3 працює разом для досягнення збалансованого використання експертів, ефективної маршрутизації та покращення продуктивності моделі, все, уникаючи недоліків традиційних допоміжних втрат.

Цитати:
[1] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[3] https://proceckes.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f01a284c574110b7e3b9-paper-conference.pdf
[4] https://www.linkedin.com/posts/josif-grabocka-7651b37_241219437v1-activity-7289784195130781696-dm_v
[5] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/configuration_deepseek.py
[6] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8v2l6sjecw4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architecture

Як динамічне коригування умовних термінів доповнює сигмоїдну решітку в DeepSeek-V3

Динамічне коригування термінів зміщення

Сигмоїд

допоміжна втрата додаткової послідовності

Як динамічне налаштування зміщення та сигмоїдна решітка доповнюють один одного