Щоб зрозуміти, як сигмоподібне котлет взаємодіє з архітектурою багато голови латентної уваги (MLA) у DeepSeek-V3, давайте розберемо як компоненти, так і їх ролі в моделі.
Мульти-голова латентна увага (MLA)
** MLA є ключовим компонентом DeepSeek-V3, призначеним для оптимізації механізму уваги в моделях на основі трансформаторів. На відміну від традиційної багато голови, MLA використовує стиснення суглобів з низьким рівнем для ключів уваги та цінностей. Це стиснення зменшує розмірність запиту (q), ключа (k) та значення (v) векторів, перш ніж вони вступають у механізм уваги. Наприклад, якщо вхід має форму (довжина послідовності Ã 2000), MLA може зменшити вектори Q, K та V до форми (довжина послідовності Ã 100). Це зниження значно мінімізує кеш ключового значення (KV) під час висновку, що призводить до більш швидкого часу обробки без жертви продуктивності [5] [9].
Зигмоподібне ворота в DeepSeek-V3
У контексті DeepSeek-V3 сигмоїдна решітка використовується спільно з рамками суміші-експертів (МОЕ). Фреймворк МО поділяє велику нейронну мережу на спеціалізовані підзавантаження під назвою "експерти". Для кожного введення активовано лише підмножину цих експертів. Зигмоподібне решітка застосовується до механізму маршрутизації, який вирішує, які експерти активувати.
Взаємодія з MLA
Незважаючи на те, що MLA в основному зосереджена на оптимізації процесу уваги, сигмоїдна решітка відіграє роль у рамках MOE, яка є окремою, але додатковою складовою DeepSeek-V3. Фреймворк MOE використовує сигмоїдну решітку, щоб керувати тим, як жетони направляються на різних експертів. На відміну від традиційного розбиття Softmax, що може призвести до екстремальних випадків, коли певні експерти надають перевагу іншим, сигмоїдна решітка допомагає підтримувати більш збалансований розподіл жетонів у експертів. Цей баланс має вирішальне значення для запобігання колапсу маршрутизації, де модель може повернутися до поведінки як щільна модель, втрачаючи переваги ефективності архітектури МО [5].
Динамічне регулювання зміщення
DeepSeek-V3 вводить динамічні коригування зміщення для забезпечення балансування навантаження серед експертів. Умови зміщення додаються до балів експертної спорідненості перед прийняттям рішень щодо маршрутизації. Ці упередження динамічно коригуються під час навчання: якщо експерт перевантажений, його зміщення зменшується, а якщо він занижений, його зміщення збільшується. Цей механізм гарантує, що навантаження залишається врівноваженим, не покладаючись на функції допоміжних втрат, що може негативно вплинути на продуктивність моделі [5].
Підсумовуючи це, хоча MLA оптимізує механізм уваги для більш швидкого висновку, сигмоїдне вибивання в рамках МО допомагає керувати маршрутизацією жетонів до експертів, забезпечуючи ефективне та збалансоване використання обчислювальних ресурсів. Ця комбінація підвищує загальну продуктивність та ефективність DeepSeek-V3.
Цитати:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technic-architecture-of-deepseek-v3-explained/
[5] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_impred/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardai.net/deepseek-r1-model-architecture-853fefac7050