Deepseek-V3: Îmbunătățirea rutelor de experți cu funcție sigmoidă în amestecul de arhitectură experți

Cum afectează funcția sigmoidă calculul scorului de afinitate în Deepseek-V3

În Deepseek-V3, funcția sigmoidă joacă un rol crucial în calculul scorurilor de afinitate pentru rutarea experților în amestecul de arhitectură de experți (MOE). Spre deosebire de modelele MOE tradiționale care folosesc adesea funcția SoftMax pentru a normaliza scorurile de afinitate, Deepseek-V3 folosește funcția sigmoidă. Această schimbare afectează modelul în mai multe moduri:

1. Normalizare și rutare: Funcția sigmoidă este utilizată pentru a calcula scorurile de afinitate, care sunt apoi normalizate între toate scorurile de afinitate selectate pentru a produce valorile de închidere. Această abordare permite un mecanism de rutare mai flexibil și mai nuanțat în comparație cu SoftMax, care poate duce uneori la prăbușirea de rutare, unde anumiți experți sunt favorizați excesiv [4] [7].

2. Evitarea prăbușirii rutării: prăbușirea de rutare are loc atunci când majoritatea jetoanelor sunt dirijate către un subset mic de experți, ceea ce duce la utilizarea ineficientă a resurselor de calcul. Deepseek-V3 atenuează acest lucru prin utilizarea sigmoidului și introducerea de termeni de prejudecăți care se ajustează dinamic în timpul antrenamentului. Acești termeni de prejudecăți ajută la echilibrarea încărcării între experți fără a se baza pe pierderi auxiliare care pot afecta negativ performanța modelului [4] [9].

3. Termeni de prejudecăți și ajustare dinamică: modelul încorporează termeni de prejudecăți pentru fiecare expert, care sunt adăugați la scorurile de afinitate înainte de a selecta experții Top-K. Acești termeni de prejudecăți sunt ajustați dinamic pe baza încărcării fiecărui expert. Dacă un expert este supraîncărcat, termenul său de prejudecată scade și, dacă este subîncărcat, termenul de prejudecată crește. Acest lucru asigură o distribuție echilibrată a jetoanelor între experți, fără a fi nevoie de pierderi suplimentare [4] [8].

4. Pierderea auxiliară a secvenței complementare: deși Deepseek-V3 evită în primul rând pierderile auxiliare, include o mică pierdere de echilibru înțelept pentru a preveni cazurile extreme în care o singură secvență favorizează puternic un mic subset de experți. Această pierdere acționează ca o garanție fără a avea un impact semnificativ asupra dinamicii generale a instruirii [4].

5. Ruting nod-limited: Pentru a controla costurile de comunicare, DeepSeek-V3 folosește rutarea limitată de noduri, unde fiecare jeton este trimis la majoritatea M nodurilor pe baza celor mai mari scoruri de afinitate. Această strategie permite suprapunerea aproape completă a comunicării de calcul în timpul antrenamentului, îmbunătățind eficiența [4].

În general, utilizarea funcției sigmoide în Deepseek-V3 permite un mecanism de rutare mai flexibil și mai eficient, contribuind la capacitatea modelului de a echilibra utilizarea experților fără a sacrifica performanța.

Citări:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-atity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explaining-3-auxiliary-soss-fre-fre-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-adails