Optimisation de l'efficacité de la mémoire avec une attention latente multi-tête dans Deepseek-V3

Quel rôle joue le député raffiné dans la gestion de la croissance de la mémoire dans Deepseek-V3

Le mécanisme d'attention latent (MLA) raffiné dans la tête de la tête (MLA) dans Deepseek-V3 joue un rôle crucial dans la gestion de la croissance de la mémoire en réduisant considérablement les exigences de la mémoire pendant le processus d'inférence du modèle. Voici comment cela contribue à l'efficacité de la mémoire:

1. Projection dynamique de faible rang: MLA ajuste la compression des vecteurs de clé / valeur en fonction de la longueur de séquence. Pour les séquences plus courtes, moins de compression est appliquée pour préserver la fidélité, tandis que pour des séquences plus longues (jusqu'à 128K jetons), une compression plus profonde est utilisée pour gérer la croissance de la mémoire. Cette approche adaptative garantit que l'utilisation de la mémoire reste gérable même avec de très longues séquences d'entrée [2] [3].

2. Compression de requête adaptative: Contrairement à Deepseek-V2, qui a utilisé une dimension fixe pour la compression de requête, Deepseek-V3 utilise une mise à l'échelle adaptative des requêtes à différentes profondeurs de couche. Les premières couches utilisent des requêtes plus dimensionnelles pour une meilleure expressivité, tandis que les couches plus profondes compressent plus agressivement les requêtes pour enregistrer la mémoire d'activation. Cette stratégie optimise l'utilisation de la mémoire en équilibrant l'expressivité avec l'efficacité [2] [3].

3. Amélioration de la gestion de la corde: Deepseek-V3 étend le concept de clés de découplage, qui a été partiellement implémentée dans la V2. En suivant une «clé partagée découplée», le modèle réduit la dérive numérique dans les générations longues, garantissant des performances stables sur des séquences étendues [2].

4. Stockage conjoint KV: Contrairement à V2, qui a stocké les clés et les valeurs compressées séparément, V3 les fusionne dans une représentation comprimée partagée. Cela réduit le trafic de mémoire pendant l'inférence multi-nœuds, améliorant encore l'efficacité de la mémoire [2].

5. Cache adaptative par couche: Au lieu de mettre en cache tous les jetons passés pour toutes les couches, V3 Prunes Entrées KV plus anciennes à des couches plus profondes. Cela aide à maintenir l'utilisation de la mémoire dans les limites gérables lorsqu'il s'agit de grandes fenêtres de contexte [2].

En mettant en œuvre ces raffinements, MLA réduit considérablement l'empreinte mémoire de Deepseek-V3, ce qui le rend capable de gérer efficacement les séquences longues sans compromettre les performances. Ceci est réalisé en compressant les paires de valeurs clés dans des vecteurs latents, ce qui réduit la quantité de données qui doivent être stockées et traitées, accélérant ainsi l'inférence et améliorant les capacités d'application en temps réel [3] [5] [8].

Citations:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-ging-crazy-how-deepseek
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-hey-achieved-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-epseek-v3-you-sould-know/