Зигмоподібне решітка в DeepSeek-V3: запобігання руйнуванню маршрутизації в моделях суміші-експертів

Зигмоїдне введення в DeepSeek-V3 відіграє вирішальну роль у запобіганні руйнування маршрутизації, поширеній проблемі в моделях суміші експертів (МОЕ), де кілька експертів постійно віддають перевагу іншим, що призводить до неефективного навчання та використання модельних ресурсів. Ось як допомагає сигмоподібне ворота:

Традиційне ґрунтовування Softmax проти сигмоїдного решітки

Традиційні моделі MOE часто використовують косинг Softmax, що може призвести до сценарію "переможця". Виходи SoftMax нормалізуються, щоб переконатися, що вони підсумовують 1, що може призвести до надзвичайних ймовірностей, де один експерт вибирається майже виключно, особливо якщо його початкові ваги трохи кращі. Це може призвести до недостатнього та недооціненого інших експертів, що призведе до руйнування маршрутизації.

На відміну від цього, сигмоїдна решітка призначає кожному експерту оцінку між 0 і 1 незалежно, без нормалізації для експертів. Це означає, що кілька експертів можуть мати високі оцінки одночасно, що дозволяє більш збалансованому розподілу жетонів у експертів. Сигмоїдна решітка не застосовує суворої конкуренції між експертами, зменшуючи ймовірність руйнування маршрутизації, гарантуючи, що кожен експерт отримав справедливий шанс зробити внесок [1] [4] [6].

Динамічне регулювання зміщення

DeepSeek-V3 додатково посилює сигмоїдну решітку, вводячи динамічні терміни зміщення для кожного експерта. Ці упередження коригуються під час навчання на основі навантаження кожного експерта. Якщо експерт перевантажений, його зміщення зменшується, щоб перешкодити подальшій маршрутизації до неї, тоді як у перевантажених експертів збільшується, щоб залучити більше жетонів. Це динамічне коригування допомагає підтримувати збалансоване навантаження у всіх експертів, заважаючи будь -якому експерту домінувати над рішеннями про маршрутизацію і, таким чином, запобігти руйнуванню маршрутизації [2] [4] [6].

Ієрархічний збір

DeepSeek-V3 також використовує ієрархічну решітку, яка застосовує обмеження рідкості на декількох рівнях. Спочатку проводиться грубий вибір експертів з подальшим більш тонкою фільтруванням у вибраних групах. Цей ієрархічний підхід гарантує, що для кожного маркера активовано різноманітний набір експертів, що ще більше знижує ризик руйнування маршрутизації, запобігаючи надмірній спеціалізації та заохочуючи узагальнення в різних областях [1] [6].

Маршрутизація

Крім того, DeepSeek-V3 використовує обмежену вузлом маршрутизацію, яка обмежує кількість вузлів, з якими може спілкуватися. Ця стратегія мінімізує накладні витрати на між вузлею, забезпечуючи ефективну підготовку та висновок, зберігаючи збалансоване використання експертів [6].

Підсумовуючи це, сигмоподібне решітка в DeepSeek-V3 допомагає запобігти колапсу маршрутизації, дозволяючи одночасно активізуватися декількох експертів, не примушуючи до них суворої конкуренції. Динамічне коригування зміщення та ієрархічна решітка надалі гарантують, що кожен експерт ефективно використовується, підтримуючи збалансоване навантаження та заважаючи будь -якому експерту домінувати над рішеннями про маршрутизацію.

Цитати:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms

Як сигмоїдна решітка допомагає запобігти руйнуванню маршрутизації в DeepSeek-V3

Традиційне ґрунтовування Softmax проти сигмоїдного решітки

Динамічне регулювання зміщення

Ієрархічний збір

Маршрутизація