Sigmoid Gating în Deepseek-V3: Prevenirea prăbușirii rutelor în modelele de amestec de experți

Cum ajută zilnicul sigmoid în prevenirea prăbușirii rutelor în Deepseek-V3

Sigmoid Gating în Deepseek-V3 joacă un rol crucial în prevenirea prăbușirii rutării, o problemă comună în modelele de amestec de experți (MOE) în care câțiva experți sunt favorizați în mod constant față de alții, ceea ce duce la o pregătire ineficientă și la utilizarea resurselor model. Iată cum ajută Sigmoid Gating:

Gating tradițional SoftMax vs. Sigmoid Gating

Modelele MOE tradiționale folosesc adesea portbagaj softmax, ceea ce poate duce la un scenariu „câștigător-luare-all”. Ieșirile SoftMax sunt normalizate pentru a se asigura că suma la 1, ceea ce poate duce la probabilități extreme în care un expert este ales aproape exclusiv, mai ales dacă greutățile sale inițiale sunt puțin mai bune. Acest lucru poate face ca alți experți să fie subutilizați și să fie instruiți, ceea ce duce la prăbușirea rutării.

În schimb, sigmoid gating atribuie fiecărui expert un scor între 0 și 1 independent, fără normalizare între experți. Aceasta înseamnă că mai mulți experți pot avea scoruri mari simultan, permițând o distribuție mai echilibrată a jetoanelor între experți. Sigmoid Gating nu impune o concurență strictă între experți, reducând probabilitatea de a se prăbuși în drum, asigurându -se că fiecare expert are o șansă corectă de a contribui [1] [4] [6].

Reglarea dinamică a prejudecății

Deepseek-V3 îmbunătățește în continuare închiderea sigmoidă prin introducerea de termeni de prejudecăți dinamice pentru fiecare expert. Aceste prejudecăți sunt ajustate în timpul antrenamentului pe baza încărcării fiecărui expert. Dacă un expert este supraîncărcat, prejudecata sa este scăzută pentru a descuraja rutarea ulterioară a acesteia, în timp ce experții sub -încărcați au crescut prejudecățile lor pentru a atrage mai multe jetoane. Această ajustare dinamică ajută la menținerea unei sarcini echilibrate la toți experții, împiedicând orice expert unic să domine deciziile de rutare și, astfel, să împiedice prăbușirea rutelor [2] [4] [6].

Gating ierarhic

Deepseek-V3 folosește, de asemenea, o închidere ierarhică, care aplică constrângeri de sparsitate la mai multe niveluri. Inițial, se face o selecție grosieră de experți, urmată de o filtrare mai fină în cadrul grupurilor selectate. Această abordare ierarhică asigură activarea unui set divers de experți pentru fiecare simbol, reducând în continuare riscul de a se prăbuși prin prevenirea excesului de specializare și încurajarea generalizării pe diferite domenii [1] [6].

rutare limitată de nod

În plus, Deepseek-V3 folosește rutarea limitată de nod, care restricționează numărul de noduri cu care fiecare jeton poate comunica. Această strategie minimizează comunicarea încrucișată deasupra capului, asigurând o formare și o inferență eficientă, menținând în același timp o utilizare echilibrată a experților [6].

În rezumat, sigmoidul în Deepseek-V3 ajută la prevenirea prăbușirii rutării, permițând activarea mai multor experți simultan, fără a forța o competiție strictă între ei. Reglarea dinamică a prejudecății și închiderea ierarhică se asigură în continuare că fiecare expert este utilizat eficient, menținând o sarcină echilibrată și împiedicând orice expert să domine deciziile de rutare.

Citări:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-atails
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms