DeepSeek-V3: Посилення експертної маршрутизації із сигмоїдною функцією в суміші експертів архітектури

У DeepSeek-V3 сигмоїдна функція відіграє вирішальну роль у розрахунку балів спорідненості для експертної маршрутизації в суміші експертів (МО) архітектури. На відміну від традиційних моделей MOE, які часто використовують функцію SoftMax для нормалізації балів спорідненості, DeepSeek-V3 використовує сигмоїдну функцію. Ця зміна впливає на модель декількома способами:

1. Нормалізація та маршрутизація: Зигмоїдна функція використовується для обчислення балів спорідненості, які потім нормалізуються серед усіх вибраних балів спорідненості для отримання значень. Такий підхід дозволяє більш гнучкий і нюансований механізм маршрутизації порівняно з Softmax, що іноді може призвести до руйнування маршрутизації, де певні експерти надмірно сприяють [4] [7].

2. Уникнення колапсу маршрутизації: колапс маршрутизації відбувається, коли більшість жетонів направляються до невеликої підмножини експертів, що призводить до неефективного використання обчислювальних ресурсів. DeepSeek-V3 пом'якшує це, використовуючи сигмоїдну решітку та впроваджуючи терміни зміщення, які динамічно коригуються під час навчання. Ці терміни зміщення допомагають збалансувати навантаження для експертів, не покладаючись на допоміжні втрати, які можуть негативно вплинути на продуктивність моделі [4] [9].

3. Терміни зміщення та динамічне коригування: Модель включає умови зміщення для кожного експерта, які додаються до балів Affinity перед вибором експертів Top-K. Ці терміни зміщення динамічно коригуються на основі навантаження кожного експерта. Якщо експерт перевантажений, термін його зміщення зменшується, і якщо він занижений, термін зміщення збільшується. Це забезпечує збалансований розподіл жетонів у експертів без необхідності додаткових втрат [4] [8].

4. Допоміжна втрата допоміжної послідовності: Хоча DeepSeek-V3 в першу чергу уникає допоміжних втрат, він включає невелику послідовність втрат балансу, щоб запобігти екстремальним випадкам, коли одна послідовність сильно сприяє невеликому підмножині експертів. Ця втрата діє як гарантія, не впливаючи на загальну динаміку тренувань [4].

5. Маршрутизація обмеженого вузлом: Для контролю витрат на спілкування DeepSeek-V3 використовує маршрутизацію, обмежену вузлом, де кожен маркер надсилається до більшості M вузлів на основі найвищих балів спорідненості. Ця стратегія дозволяє майже повному обчислювальному комунікації перекриття під час навчання, підвищення ефективності [4].

Загалом, використання сигмоїдної функції в DeepSeek-V3 дозволяє більш гнучкий та ефективний механізм маршрутизації, сприяючи здатності моделі збалансувати використання експертів, не жертвуючи продуктивністю.

Цитати:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-nuernetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-utput.html
[4] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-uxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details

Як функція сигмоїдів впливає на обчислення оцінки спорідненості в DeepSeek-V3