В DeepSeek-V3 балл с аффинностью играет решающую роль в процессе экспертного отбора в своей архитектуре смеси экспертов (MOE). Эта архитектура предназначена для эффективной обработки крупномасштабных задач моделирования языка путем динамической активации подмножества экспертов на основе входных токенов.
Расчет аффинной оценки
Оценка аффинности рассчитывается как точечный продукт внедрения входного токена и центроид конкретного эксперта. Центроид можно рассматривать как репрезентативный вектор для каждого эксперта, который может быть получен из средних активаций или входов, которые процессы процесса обрабатывает. Этот точечный продукт измеряет, насколько близко выровнен токен с опытом каждого доступного эксперта.
Процесс отбора экспертов
1. Маршрутизация Top-K: для каждого входного токена DeepSeek-V3 выбирает 8 лучших экспертов с самыми высокими показателями аффинности. Этот процесс известен как маршрутизация Top-K, где k фиксируется в 8 в этом случае [1] [7].
2. Регулировка смещения. Чтобы предотвратить коллапс маршрутизации, где слишком много токенов направляются к тем же экспертам, DeepSeek-V3 вводит динамическую корректировку смещения. Каждый эксперт имеет срок смещения $$ b_i $$, который добавляется к его сфере сродства во время маршрутизации. Если эксперт перегружен, его смещение уменьшается, и если он недостаточно используется, его смещение увеличивается. Эта корректировка помогает поддерживать сбалансированную рабочую нагрузку для всех экспертов, не используя явные вспомогательные потери [1] [3].
3. Механизм стробирования: механизм стробирования вычисляет оценку для каждого токена и выбирает наиболее релевантных маршрутизированных экспертов на основе этих баллов. Это гарантирует, что модель эффективно выделяет вычислительные ресурсы, активируя только необходимых экспертов для каждого токена [3].
Преимущества сродства
- Эффективность: выбирая экспертов на основе показателей аффинности, DeepSeek-V3 снижает вычислительные затраты, активируя лишь часть общих параметров модели для каждого токена. Это приводит к более эффективному выводу и учебным процессам [4] [8].
- Специализация: оценка аффинности обеспечивает лучшую специализацию среди экспертов. Каждый эксперт может сосредоточиться на конкретных шаблонах или задачах, улучшая общую репрезентативную силу модели и способность обрабатывать различные входы [1] [2].
- Стабильность: Динамическая корректировка смещения гарантирует, что ни один эксперт не перегружен, поддерживая стабильность как во время обучения, так и при выводе. Это предотвращает снижение токенов из -за перегрузки модели, что было проблемой в более ранних версиях [2] [3].
Таким образом, оценка аффинности в DeepSeek-V3 имеет решающее значение для динамического выбора наиболее релевантных экспертов для каждого входного токена, обеспечивая эффективную и специализированную обработку при сохранении стабильности модели.
Цитаты:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamical-seleting-number-expert-models-like-deepseek-rosi%C4%87-CKYTF
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond