Сигмоидальное стробирование в DeepSeek-V3: предотвращение коллапса маршрутизации в моделях смеси экспертов

Сигмоидное стробирование в DeepSeek-V3 играет решающую роль в предотвращении обрушения маршрутизации, что является общей проблемой в моделях смеси экспертов (MOE), где некоторые эксперты постоянно пользуются другими, что приводит к неэффективному обучению и использованию модельных ресурсов. Вот как помогает сигмоидное стробирование:

Традиционное стробирование Softmax против сигмоидного стробирования

Традиционные модели MOE часто используют стробирование SoftMax, что может привести к сценарию «победителя-победителя». Выходы SoftMax нормализованы, чтобы убедиться, что они суммируют до 1, что может привести к крайним вероятностям, когда один эксперт выбирается почти исключительно, особенно если его начальные веса немного лучше. Это может привести к недостаточным использованию других экспертов и недостаточной подготовки, что приведет к краху маршрутизации.

Напротив, Sigmoid gating назначает каждому эксперту оценку от 0 до 1 независимо, без нормализации экспертов. Это означает, что несколько экспертов могут иметь высокие оценки одновременно, что позволяет более сбалансированному распределению токенов по экспертам. Сигмоидальное стробирование не обеспечивает строгого конкуренции среди экспертов, снижая вероятность коллапса маршрутизации, гарантируя, что каждый эксперт получает справедливый шанс внести свой вклад [1] [4] [6].

Регулировка динамического смещения

DeepSeek-V3 дополнительно улучшает стробирование сигмоида, внедряя динамические термины смещения для каждого эксперта. Эти предубеждения корректируются во время обучения на основе нагрузки каждого эксперта. Если эксперт перегружен, его смещение уменьшается, чтобы препятствовать дальнейшей маршрутизации, в то время как эксперты под недостатками увеличились, чтобы привлечь больше токенов. Эта динамическая корректировка помогает поддерживать сбалансированную нагрузку для всех экспертов, не позволяя любому отдельному эксперту доминировать в решениях по маршрутизации и, таким образом, предотвращает коллапс маршрутизации [2] [4] [6].

Иерархическое стробирование

DeepSeek-V3 также использует иерархическое стробирование, которое применяет разреженные ограничения на нескольких уровнях. Первоначально производится грубый выбор экспертов, за которым следует более тонкая фильтрация в выбранных группах. Этот иерархический подход гарантирует, что для каждого токена активируется разнообразный набор экспертов, что еще больше снижает риск обрушения маршрутизации путем предотвращения чрезмерной специфиолизации и поощрения обобщения в разных областях [1] [6].

ограниченная узлом маршрутизация

Кроме того, DeepSeek-V3 использует ограниченную узлом маршрутизацию, которая ограничивает количество узлов, с которыми может общаться каждый токен. Эта стратегия сводит к минимуму перекрестные накладные расходы, обеспечивая эффективное обучение и вывод, сохраняя при этом сбалансированное использование экспертов [6].

Таким образом, сигмоидное стробирование в Deepseek-V3 помогает предотвратить коллапс маршрутизации, позволяя активировать нескольких экспертов одновременно, не вынуждая строгого конкуренции между ними. Динамическая корректировка смещения и иерархическое стробирование дополнительно гарантируют, что каждый эксперт эффективно используется, поддерживая сбалансированную нагрузку и не позволяя любому эксперту доминировать в решениях по маршрутизации.

Цитаты:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-ideepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-impred-the-transformer
[4] https://machinelearningtscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-ollms

Как сигмоидное стробирование помогает в предотвращении коллапса маршрутизации в DeepSeek-V3

Традиционное стробирование Softmax против сигмоидного стробирования

Регулировка динамического смещения

Иерархическое стробирование

ограниченная узлом маршрутизация