Sigmoidna ganta in več glava latentna pozornost v Deepseek-V3

Ali lahko pojasnite, kako Sigmoid Gating deluje z arhitekturo MLA v Deepseek-V3

Da bi razumeli, kako Sigmoid Gating deluje z več glavno latentno pozornostjo (MLA) v Deepseek-V3, razčlenimo tako komponente kot njihove vloge znotraj modela.

Več glava latentna pozornost (MLA)

** MLA je ključni sestavni del Deepseek-V3, zasnovan za optimizacijo mehanizma pozornosti v modelih, ki temeljijo na transformatorjih. Za razliko od tradicionalne več glave pozornosti MLA za ključe in vrednosti pozornosti uporablja nizko ranško stiskanje sklepov. Ta kompresija zmanjšuje dimenzionalnost vektorjev poizvedbe (q), ključa (k) in vrednosti (v), preden vnesejo mehanizem pozornosti. Na primer, če ima vhod oblike (dolžina zaporedja Ã 2000), lahko MLA zmanjša vektorje Q, K in V na obliko (dolžina zaporedja Ã 100). To zmanjšanje bistveno zmanjša predpomnilnik ključne vrednosti (KV) med sklepanjem, kar vodi v hitrejši čas obdelave, ne da bi pri tem žrtvoval uspešnost [5] [9].

Sigmoid Gating v Deepseek-V3

V kontekstu Deepseek-V3 se v povezavi z okvirjem mešanic eksperit (MOE) uporablja sigmoidno gatiranje. Okvir MOE razdeli veliko nevronsko omrežje na specializirana podvrsta, imenovana "strokovnjaki". Za vsak vhod se aktivira le podskupina teh strokovnjakov. Sigmoidno gatiranje se uporablja za mehanizem usmerjanja, ki odloča, kateri strokovnjaki naj aktivirajo.

Interakcija z MLA

Medtem ko je MLA osredotočena predvsem na optimizacijo procesa pozornosti, ima Sigmoid Gating vlogo v okviru MOE, ki je ločena, a dopolnilna sestavina Deepseek-V3. Framework MOE uporablja Sigmoid Gating za upravljanje, kako se žetone preusmerijo na različne strokovnjake. Za razliko od tradicionalnega softmax -a, kar lahko privede do skrajnih primerov, ko so nekateri strokovnjaki naklonjeni drugim, Sigmoid Gating pomaga ohranjati bolj uravnoteženo porazdelitev žetonov med strokovnjaki. To ravnovesje je ključnega pomena za preprečevanje propada usmerjanja, kjer bi se model lahko vrnil v obnašanje kot gost model, izgubil koristi od učinkovitosti arhitekture MO [5].

Dinamična prilagoditev pristranskosti

Deepseek-V3 uvaja dinamične prilagoditve pristranskosti, da se zagotovi uravnoteženje obremenitve med strokovnjaki. Pogoji pristranskosti so dodani v ocene strokovne afinitete, preden sprejmejo odločitve o usmerjanju. Te pristranskosti so med treningom dinamično prilagojene: če je strokovnjak preobremenjen, se njegova pristranskost zmanjša in če je podrejena, se njegova pristranskost poveča. Ta mehanizem zagotavlja, da obremenitev ostane uravnotežena, ne da bi se zanašala na funkcije pomožne izgube, kar lahko negativno vpliva na delovanje modela [5].

Če povzamemo, medtem ko MLA optimizira mehanizem pozornosti za hitrejši sklep, Sigmoid Gating v okviru MOE pomaga upravljati usmerjanje žetonov do strokovnjakov in tako zagotavlja učinkovito in uravnoteženo uporabo računskih virov. Ta kombinacija izboljšuje splošno delovanje in učinkovitost Deepseek-V3.

Navedbe:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/sl/blog/technical-architecture-of-deepseek-v3-explained/
[5] https://machinelearnAtscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improves/
[7] https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffccc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050