В DeepSeek-V3 динамическая корректировка терминов смещения и сигмоидного стробирования работает вместе, чтобы повысить эффективность и производительность модели путем решения проблемы дисбаланса нагрузки среди экспертов. Вот подробное объяснение того, как эти компоненты дополняют друг друга:
Динамическая корректировка терминов смещения
DeepSeek-V3 вводит термин смещения для каждого эксперта, который динамически корректируется во время обучения для поддержания баланса нагрузки. Этот подход позволяет избежать необходимости вспомогательных потерь, которые могут негативно повлиять на производительность модели, заставляя его определить приоритет баланса нагрузки по сравнению с оптимальными решениями по маршрутизации. Срок смещения добавляется к оценке сродства эксперта, прежде чем принимать решение о маршрутизации Top-K, но он не влияет на ценность стробирования, которое происходит от первоначальной оценки аффинности. Это гарантирует, что вклад эксперта остается нетронутым при содействии сбалансированной маршрутизации.
- Механизм корректировки: если эксперт перегружен (получает больше токенов, чем в среднем), его термин смещения уменьшается. И наоборот, если эксперт недооценен, его термин смещения увеличивается. Эта корректировка помогает предотвратить обезболивание маршрутизации, где модель может отказаться от нескольких экспертов, что приводит к неэффективным вычислениям и снижению преимуществ специализации.
сигмоидное стробирование
DeepSeek-V3 заменяет традиционное стробирование Softmax на сигмоидное стробирование для экспертной маршрутизации. Это изменение позволяет каждому эксперту иметь справедливую вероятность выбора, так как сигмоидальная функция отображает любое реальное число по значению от 0 до 1. В отличие от Softmax, что может создать конкурентную среду среди экспертов (где выигрыш одного эксперта является потерями чужой), Sigmoid-стробирование гарантирует, что оценка каждого эксперта не зависит от других, что снижает принудительное соперничество.
- Преимущества сигмоидного стробирования: этот подход не позволяет модели чрезмерно предпочтительнее нескольких экспертов, что может привести к недостаточным использованию других экспертов и снижению производительности модели. Сделав справедливой выстрел каждому эксперту, сигмоидное стробирование способствует более сбалансированному и разнообразному экспертам, повышая общую способность и эффективность модели.
дополнительные вспомогательные потери последовательности
В то время как основной механизм не содержит вспомогательного потери, DeepSeek-V3 также включает в себя дополнительную потерю баланса с точки зрения дополнительной последовательности. Эта потеря, контролируемая очень маленьким гиперпараметром, действует как защита, чтобы предотвратить экстремальные случаи, когда одна последовательность может в значительной степени способствовать небольшому подмножеству экспертов. Это обеспечивает баланс в каждой последовательности без значительного влияния на общую динамику обучения.
###, как регулировка динамического смещения и сигмоидальный стробирование дополняют друг друга
1. Сбалансированное использование экспертов: динамическая корректировка терминов смещения гарантирует, что ни один эксперт не является чрезмерно благоприятным или недостаточно используемым, поддерживая сбалансированную нагрузку для всех экспертов. Сигмоидальное стробирование поддерживает это, предоставляя каждому эксперту независимую оценку, снижая конкуренцию и обеспечивая возможность внести свой вклад.
2. Эффективная маршрутизация: динамически корректируя термины смещения на основе использования экспертов, модель может эффективно направлять токены для наиболее подходящих экспертов, не полагаясь на вспомогательные потери, которые могут поставить под угрозу производительность. Сигмоидальное стробирование облегчает эту эффективную маршрутизацию, позволяя более нюансированному процессу отбора.
3. Улучшенная производительность модели: комбинация корректировки динамического смещения и сигмоидного стробирования повышает производительность модели, гарантируя, что каждый токен обрабатывается наиболее подходящим набором экспертов. Это приводит к лучшему специализации и совместному использованию знаний среди экспертов, улучшая способность модели эффективно выполнять различные задачи.
Таким образом, динамическая корректировка терминов смещения и сигмоидного стробирования в DeepSeek-V3 работает вместе для достижения сбалансированного использования экспертов, эффективной маршрутизации и улучшения производительности модели, и все это избегая недостатков традиционных вспомогательных потерь.
Цитаты:
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-ideepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[3] https://proceedings.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f01a284c574110b7e3b9-paper-conference.pdf
[4] https://www.linkedin.com/posts/josif-grabocka-7651b37_241219437V1-Activity-7289784195130781696-dm_v
[5] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/configuration_deepseek.py
[6] https://ai.gopubby.com/deepseek-v3-xplained-2-deepseekmoe-106cffcc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8V2L6SJECW4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architecture