Gating sigmoid și atenție latentă cu mai multe cap în Deepseek-V3

Puteți explica cum interacționează sigmoid gating cu arhitectura MLA în Deepseek-V3

Pentru a înțelege modul în care interacționează sigmoid gating cu arhitectura cu atenție latentă cu mai multe capete (MLA) din Deepseek-V3, să descompunem atât componentele, cât și rolurile lor în cadrul modelului.

Atenție latentă cu mai multe cap (MLA)

** MLA este o componentă cheie a Deepseek-V3, concepută pentru a optimiza mecanismul de atenție în modelele bazate pe transformatoare. Spre deosebire de atenția tradițională multi-cap, MLA folosește o compresie articulară de rang scăzut pentru tastele și valorile de atenție. Această compresie reduce dimensionalitatea vectorilor de interogare (q), cheie (k) și valoare (v) înainte de a intra în mecanismul de atenție. De exemplu, dacă intrarea are o formă de (lungimea secvenței ã 2000), MLA ar putea reduce vectorii q, k și v la o formă de (lungimea secvenței ã 100). Această reducere minimizează semnificativ cache-ul cu valoare cheie (KV) în timpul inferenței, ceea ce duce la timp de procesare mai rapid, fără a sacrifica performanța [5] [9].

Sigmoid Gating în Deepseek-V3

În contextul DeepSeek-V3, se utilizează sigmoid gating în combinație cu cadrul amestecului de experți (MOE). Cadrul MOE împarte rețeaua neuronală mare în sub-rețele specializate numite „experți”. Pentru fiecare intrare, este activat doar un subset al acestor experți. Gatingul sigmoid se aplică mecanismului de rutare care decide ce experți să activeze.

Interacțiune cu MLA

În timp ce MLA se concentrează în primul rând pe optimizarea procesului de atenție, sigmoid gating joacă un rol în cadrul MOE, care este o componentă separată, dar complementară a Deepseek-V3. Cadrul MOE folosește sigmoid gating pentru a gestiona modul în care token -urile sunt dirijate către diferiți experți. Spre deosebire de închiderea tradițională softMax, care poate duce la cazuri extreme în care anumiți experți sunt favorizați față de alții, sigmoidul ajută la menținerea unei distribuții mai echilibrate a jetoanelor între experți. Acest echilibru este crucial pentru prevenirea prăbușirii rutelor, unde modelul ar putea reveni la a se comporta ca un model dens, pierzând beneficiile de eficiență ale arhitecturii MOE [5].

Reglarea dinamică a prejudecății

Deepseek-V3 introduce ajustări dinamice ale prejudecății pentru a asigura echilibrarea sarcinii în rândul experților. Termenii de prejudecăți sunt adăugați la scorurile de afinitate expert înainte de a lua decizii de rutare. Aceste prejudecăți sunt ajustate dinamic în timpul antrenamentului: dacă un expert este supraîncărcat, prejudecata acestuia este scăzută și, dacă este subîncărcat, prejudecata sa este crescută. Acest mecanism asigură că sarcina rămâne echilibrată fără a se baza pe funcții de pierdere auxiliară, care pot avea impact negativ asupra performanței modelului [5].

În rezumat, în timp ce MLA optimizează mecanismul de atenție pentru o inferență mai rapidă, sigmoid -ul în cadrul MOE ajută la gestionarea rudării jetoanelor către experți, asigurând utilizarea eficientă și echilibrată a resurselor de calcul. Această combinație îmbunătățește performanța generală și eficiența Deepseek-V3.

Citări:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-AI/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technic-architecture-of-eepseek-v3-explained/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
.
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853FEFAC7050