Функція активації сигмоїдів у експертній маршрутизації DeepSeek-V3

У DeepSeek-V3 функція активації сигмоїдів відіграє вирішальну роль у процесі експертної маршрутизації, змінюючи, як жетони присвоюються експертам. На відміну від попередніх версій, які використовували функцію Softmax, DeepSeek-V3 використовує сигмоїдну функцію для обчислення балів спорідненості між жетонами та експертами. Ця зміна допомагає запобігти екстремальній ймовірності вибору експертів, що може призвести до руйнування маршрутизації ситуації, коли модель надає перевагу кількома експертами над іншими, зменшуючи переваги спеціалізації та ефективності.

функція активації сигмоїдів у маршрутизації експертів

Зигмоїдна функція, позначена як $$ \ sigma (\ cdot) $$, використовується для обчислення показника спорідненості між маркером та експертом. Зокрема, бал $$ S_ {i, t} $$ для Token $$ T $$ та експерт $$ I $$ обчислюється як:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
де $$ u_t $$ - це вбудовування маркера, а $$ e_i $$ - центр вектор експертів $$ i $$. Цей бал відображає, наскільки добре витончений узгоджується зі спеціальністю експерта.

Нормалізація та вибір

Після обчислення цих балів DeepSeek-V3 нормалізує їх і вибирає топ-експерти $$ K_R $$ на основі цих нормалізованих балів. Цей процес гарантує, що кожен маркер направляється на підмножину експертів, які є найбільш актуальними для нього, сприяючи ефективній та спеціалізованій обробці.

Умови упередження для балансування навантаження

Щоб запобігти руйнуванню маршрутизації та забезпечити збалансований розподіл навантаження серед експертів, DeepSeek-V3 вводить динамічно регульовані терміни зміщення. Ці терміни зміщення додаються до балів Affinity перед вибором найкращих експертів. Якщо експерт перевантажений, термін його зміщення зменшується, і якщо він занижений, термін зміщення збільшується. Цей механізм гарантує, що навантаження залишається врівноваженим, не покладаючись на функції допоміжних втрат, що може негативно вплинути на продуктивність моделі [1] [3].

Переваги сигмоїду над Softmax

Використання сигмоїдної функції замість Softmax допомагає відкликати ймовірності вибору різних експертів. У Softmax ймовірності нормалізуються на підсумок до одного, що може призвести до надзвичайних ймовірностей, коли один експерт суттєво сприяє. З іншого боку, Sigmoid дозволяє отримати більш гнучкі та незалежні завдання ймовірності, зменшуючи ймовірність руйнування маршрутизації та сприяння більш збалансованому експертному використанню [4].

В цілому функція активації сигмоїдів у DeepSeek-V3 посилює здатність моделі ефективно проводити марки до відповідних експертів, зберігаючи збалансоване навантаження, що має вирішальне значення для досягнення високої ефективності та обчислювальної ефективності у великих масштабних сумішшях (МОЕ) архітектури.

Цитати:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/erstanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function

Яку роль відіграє функція активації сигмоїдної

функція активації сигмоїдів у маршрутизації експертів

Нормалізація та вибір

Умови упередження для балансування навантаження

Переваги сигмоїду над Softmax