Сигмоидное стробирование и многопользовательское скрытое внимание в DeepSeek-V3

Чтобы понять, как сигмоидное стробирование взаимодействует с архитектурой мульти-головного скрытого внимания (MLA) в DeepSeek-V3, давайте разберем как компоненты, так и их роли в модели.

Многопользовательское скрытое внимание (MLA)

** MLA является ключевым компонентом DeepSeek-V3, предназначенного для оптимизации механизма внимания в моделях на основе трансформатора. В отличие от традиционного многоугольного внимания, MLA использует сжатие с низким уровнем смещения для клавиш и значения внимания. Это сжатие уменьшает размерность векторов запроса (q), ключа (k) и значения (v), прежде чем они введут механизм внимания. Например, если вход имеет форму (длина последовательности ã 2000), MLA может уменьшить векторы Q, K и V до формы (длина последовательности ã 100). Это сокращение значительно минимизирует кэш ключевой стоимости (KV) во время вывода, что приводит к более быстрому времени обработки без жертвы производительности [5] [9].

сигмоидное стробирование в Deepseek-V3

В контексте DeepSeek-V3 сигмоидное стробирование используется в сочетании со смесей экспертов (MOE). MOE Framework делит большую нейронную сеть на специализированные подсчеты, называемые «экспертами». Для каждого ввода активируется только подмножество этих экспертов. Сигмоидальное стробирование применяется к механизму маршрутизации, который решает, какие эксперты активируются.

взаимодействие с MLA

В то время как MLA в первую очередь сосредоточена на оптимизации процесса внимания, сигмоидное стробирование играет роль в структуре MOE, которая является отдельным, но дополнительным компонентом DeepSeek-V3. MOE Framework использует сигмоидное стробирование, чтобы управлять тем, как токены направляются для разных экспертов. В отличие от традиционного стробирования Softmax, что может привести к крайним случаям, когда некоторые эксперты пользуются другими, Sigmoid gating помогает поддерживать более сбалансированное распределение токенов по экспертам. Этот баланс имеет решающее значение для предотвращения коллапса маршрутизации, где модель может вернуться к ведению себя как плотная модель, теряя преимущества эффективности архитектуры МО [5].

Регулировка динамического смещения

DeepSeek-V3 вводит динамические корректировки смещения, чтобы обеспечить баланс нагрузки среди экспертов. Условия предвзятости добавляются к оценкам экспертов, прежде чем принимать решения по маршрутизации. Эти смещения динамически скорректируются во время обучения: если эксперт перегружен, его смещение уменьшается, и если он недооценен, его смещение увеличивается. Этот механизм гарантирует, что нагрузка остается сбалансированной, не полагаясь на функции вспомогательных потерь, что может негативно повлиять на производительность модели [5].

Таким образом, в то время как MLA оптимизирует механизм внимания для более быстрого вывода, сигмоидное стробирование в структуре MOE помогает управлять маршрутизацией токенов для экспертов, обеспечивая эффективное и сбалансированное использование вычислительных ресурсов. Эта комбинация повышает общую производительность и эффективность DeepSeek-V3.

Цитаты:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-explained/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050

Можете ли вы объяснить, как сигмоидное стробирование взаимодействует с архитектурой MLA в DeepSeek-V3

Многопользовательское скрытое внимание (MLA)

сигмоидное стробирование в Deepseek-V3

взаимодействие с MLA

Регулировка динамического смещения