В DeepSeek-V3 функция активации сигмоида играет решающую роль в процессе эксперта маршрутизации путем изменения того, как токены назначаются экспертам. В отличие от более ранних версий, в которых использовалась функция Softmax, DeepSeek-V3 использует сигмоидную функцию для вычисления баллов сродства между токенами и экспертами. Это изменение помогает предотвратить вероятности отбора экспертов, что может привести к тому, что маршрутизация обрушивается на ситуацию, когда модель способствует нескольким экспертам по сравнению с другими, уменьшая преимущества специализации и эффективности.
Сигмоидальная функция активации в экспертной маршрутизации
Сигмоидальная функция, обозначенная как $$ \ sigma (\ cdot) $$, используется для расчета оценки сродства между токеном и экспертом. В частности, оценка $$ s_ {i, t} $$ для токена $$ t $$ и эксперт $$ i $$ вычисляется как:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
где $$ u_t $$ - это встраивание токенов, а $$ e_i $$ - центроид вектор эксперта $$ i $$. Этот балл отражает, насколько хорошо токен соответствует специальности эксперта.
Нормализация и выбор
После вычисления этих результатов DeepSeek-V3 нормализует их и выбирает экспертов Top-$$ K_R $$ на основе этих нормализованных результатов. Этот процесс гарантирует, что каждый токен направляется в подмножество экспертов, которые наиболее актуальны для него, способствуя эффективной и специализированной обработке.
Условия смещения для балансировки нагрузки
Чтобы предотвратить коллапс маршрутизации и обеспечить сбалансированное распределение нагрузки среди экспертов, DeepSeek-V3 вводит динамически регулируемые термины смещения. Эти термины смещения добавляются к оценкам аффинности, прежде чем выбирать лучших экспертов. Если эксперт перегружен, его термин смещения уменьшается, и если он недооценен, термин смещения увеличивается. Этот механизм гарантирует, что нагрузка остается сбалансированной, не полагаясь на функции вспомогательных потерь, что может негативно влиять на производительность модели [1] [3].
Преимущества сигмоида над Softmax
Использование сигмоидной функции вместо Softmax помогает отделить вероятности выбора различных экспертов. В Softmax вероятности нормализованы до одного, что может привести к экстремальным вероятностям, когда один эксперт значительно пользуется. Sigmoid, с другой стороны, обеспечивает более гибкие и независимые вероятности назначения, снижая вероятность обрушения маршрутизации и способствуя более сбалансированному использованию экспертов [4].
В целом, функция активации сигмоида в DeepSeek-V3 повышает способность модели эффективно маршрутизировать токены для соответствующих экспертов, сохраняя при этом сбалансированную рабочую нагрузку, что имеет решающее значение для достижения высокой производительности и вычислительной эффективности в широкомасштабных архитектурах сочетания экспертов (МО).
Цитаты:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-cunction