Gating sigmoïde et attention latente multi-tête dans Deepseek-V3

Pouvez-vous expliquer comment le déclenchement sigmoïde interagit avec l'architecture MLA dans Deepseek-V3

Pour comprendre comment le déclenchement sigmoïde interagit avec l'architecture d'attention latente multi-tête (MLA) dans Deepseek-V3, décomposons les deux composants et leurs rôles dans le modèle.

Attention latente multi-tête (MLA)

** MLA est un composant clé de Deepseek-V3, conçu pour optimiser le mécanisme d'attention dans les modèles basés sur les transformateurs. Contrairement à l'attention traditionnelle multi-tête, MLA utilise une compression conjointe de bas rang pour les clés et les valeurs d'attention. Cette compression réduit la dimensionnalité des vecteurs de requête (q), de clé (k) et de valeur (v) avant d'entrer dans le mécanisme d'attention. Par exemple, si l'entrée a une forme de (longueur de séquence ã 2000), MLA pourrait réduire les vecteurs Q, K et V à une forme de (longueur de séquence ã 100). Cette réduction minimise considérablement le cache de valeur clé (KV) pendant l'inférence, conduisant à des temps de traitement plus rapides sans sacrifier les performances [5] [9].

Gating sigmoïde dans Deepseek-V3

Dans le contexte de Deepseek-V3, la déclenchement sigmoïde est utilisée en conjonction avec le cadre du mélange des experts (MOE). Le cadre MOE divise le grand réseau de neurones en sous-réseaux spécialisés appelés «experts». Pour chaque entrée, seul un sous-ensemble de ces experts est activé. Le déclenchement sigmoïde est appliqué au mécanisme de routage qui décide quels experts activer.

Interaction avec MLA

Alors que le MLA se concentre principalement sur l'optimisation du processus d'attention, le déclenchement sigmoïde joue un rôle dans le cadre MOE, qui est une composante distincte mais complémentaire de Deepseek-V3. Le framework MOE utilise la déclenchement sigmoïde pour gérer la façon dont les jetons sont acheminés vers différents experts. Contrairement à la déclenchement traditionnel Softmax, qui peut conduire à des cas extrêmes où certains experts sont favorisés par rapport à d'autres, le déclenchement sigmoïde aide à maintenir une distribution plus équilibrée de jetons entre les experts. Cet équilibre est crucial pour prévenir l'effondrement du routage, où le modèle pourrait revenir à se comporter comme un modèle dense, perdant les avantages de l'efficacité de l'architecture MOE [5].

Réglage du biais dynamique

Deepseek-V3 introduit des ajustements de biais dynamiques pour garantir l'équilibrage de la charge entre les experts. Les termes de biais sont ajoutés aux scores d'affinité experts avant de prendre des décisions de routage. Ces biais sont ajustés dynamiquement pendant la formation: si un expert est surchargé, son biais est diminué et s'il est sous -chargé, son biais est augmenté. Ce mécanisme garantit que la charge reste équilibrée sans s'appuyer sur les fonctions de perte auxiliaires, ce qui peut avoir un impact négatif sur les performances du modèle [5].

En résumé, alors que MLA optimise le mécanisme d'attention pour une inférence plus rapide, le déclenchement sigmoïde dans le cadre MOE aide à gérer le routage des jetons aux experts, assurant une utilisation efficace et équilibrée des ressources de calcul. Cette combinaison améliore les performances globales et l'efficacité de Deepseek-V3.

Citations:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-epseek-v3-explated/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/intesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explagé-2-epseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050