В DeepSeek-V3 функция сигмоида играет решающую роль в расчете показателей аффинности для экспертной маршрутизации в смеси архитектуры экспертов (MOE). В отличие от традиционных моделей MOE, которые часто используют функцию SoftMax для нормализации показателей аффинности, DeepSeek-V3 использует сигмоидную функцию. Это изменение влияет на модель несколькими способами:
1. Нормализация и маршрутизация: сигмоидальная функция используется для вычисления баллов аффинности, которые затем нормализуются среди всех выбранных показателей аффинности для получения значений стробирования. Этот подход обеспечивает более гибкий и нюансированный механизм маршрутизации по сравнению с Softmax, который иногда может привести к коллапсу маршрутизации, когда определенные эксперты чрезмерно предпочтительны [4] [7].
2. Избегание обрушения маршрутизации: обрушение маршрутизации происходит, когда большинство токенов направляются в небольшой подмножество экспертов, что приводит к неэффективному использованию вычислительных ресурсов. DeepSeek-V3 смягчает это, используя сигмоидное стробирование и вводя термины смещения, которые динамически приспосабливаются во время обучения. Эти термины смещения помогают сбалансировать нагрузку на экспертов, не полагаясь на вспомогательные потери, которые могут негативно повлиять на производительность модели [4] [9].
3. Условия смещения и динамическая корректировка: модель включает в себя термины смещения для каждого эксперта, которые добавляются к оценкам аффинности, прежде чем выбирать экспертов Top-K. Эти термины смещения динамически корректируются на основе нагрузки каждого эксперта. Если эксперт перегружен, его термин смещения уменьшается, и если он недооценен, член смещения увеличивается. Это обеспечивает сбалансированное распределение токенов по экспертам без необходимости дополнительных потерь [4] [8].
4. Дополнительные вспомогательные потери последовательности: хотя DeepSeek-V3 в первую очередь избегает вспомогательных потерь, он включает в себя небольшую потерю баланса с точки зрения последовательности, чтобы предотвратить экстремальные случаи, когда одна последовательность в значительной степени способствует небольшому подмножеству экспертов. Эта потеря действует как защита без значительного влияния на общую динамику обучения [4].
5. Маршрутизация с ограниченной узлом: Для контроля затрат на связь DeepSeek-V3 использует ограниченную узлом маршрутизацию, где каждый токен отправляется на максимально M узлов на основе самых высоких показателей аффинности. Эта стратегия обеспечивает почти полное перекрытие вычислений во время обучения, повышая эффективность [4].
В целом, использование сигмоидного функции в DeepSeek-V3 обеспечивает более гибкий и эффективный механизм маршрутизации, способствуя способности модели сбалансировать экспертное использование без жертвоприношения.
Цитаты:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neralnetworks-actionbity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-withput.html
[4] https://machinelearningtscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliariary-loss-ree-colad-doad-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details