Deepseek-V3: Verbetering van deskundige routing met sigmoïde functie in de mix van experts-architectuur

Hoe heeft de Sigmoid-functie invloed op de berekening van de affiniteitsscore in Deepseek-V3

In Deepseek-V3 speelt de sigmoïde functie een cruciale rol in de berekening van affiniteitsscores voor deskundige routing in de combinatie van experts (MOE) -architectuur. In tegenstelling tot traditionele MOE-modellen die vaak de SoftMax-functie gebruiken om affiniteitsscores te normaliseren, maakt DeepSeek-V3 gebruik van de sigmoïde functie. Deze verandering beïnvloedt het model op verschillende manieren:

1. Normalisatie en routering: de sigmoïde functie wordt gebruikt om de affiniteitsscores te berekenen, die vervolgens worden genormaliseerd tussen alle geselecteerde affiniteitsscores om de poortwaarden te produceren. Deze benadering zorgt voor een flexibeler en genuanceerd routingsmechanisme in vergelijking met softmax, wat soms kan leiden tot instorting van de routering waarbij bepaalde experts overdreven de voorkeur hebben [4] [7].

2. Het vermijden van instorting van routing: instorting van routing treedt op wanneer de meeste tokens worden geleid naar een kleine subset van experts, wat leidt tot inefficiënt gebruik van computationele bronnen. Deepseek-V3 vermindert dit door sigmoid pating te gebruiken en biastermen te introduceren die zich dynamisch aanpassen tijdens de training. Deze bias -termen helpen de belasting in evenwicht te brengen tussen experts zonder te vertrouwen op hulpverliezen die de prestaties van het model negatief kunnen beïnvloeden [4] [9].

3. Bias-termen en dynamische aanpassing: het model bevat biastermen voor elke expert, die worden toegevoegd aan de affiniteitsscores voordat de top-K-experts worden geselecteerd. Deze vooringenomen termen worden dynamisch aangepast op basis van de belasting van elke expert. Als een expert overbelast wordt, neemt de vooringenomenheid af en als deze wordt ondergebracht, neemt de bias -term toe. Dit zorgt voor een evenwichtige verdeling van tokens tussen experts zonder extra verliezen [4] [8].

4. Aanvullend sequentiegeise hulpverlies: hoewel Deepseek-V3 voornamelijk hulpverliezen vermijdt, omvat het een klein sequentie-verstandig evenwichtsverlies om extreme gevallen te voorkomen waarin een enkele reeks zwaar een kleine subset van experts bevordert. Dit verlies fungeert als een beveiliging zonder de algehele trainingsdynamiek aanzienlijk te beïnvloeden [4].

5. Knooppuntbeperkte routering: om de communicatiekosten te regelen, maakt Deepseek-V3 gebruik van knooppuntbeperkte routing, waarbij elk token wordt verzonden naar de meeste M-knooppunten op basis van de hoogste affiniteitsscores. Deze strategie maakt het mogelijk om bijna volle berekeningscommunicatie te overlappen tijdens de training, waardoor de efficiëntie wordt verbeterd [4].

Over het algemeen zorgt het gebruik van de sigmoid-functie in DeepSeek-V3 voor een flexibeler en efficiënter routeringsmechanisme, wat bijdraagt aan het vermogen van het model om het gebruik van deskundigen in evenwicht te brengen zonder prestaties op te offeren.

Citaten:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deplaring-neuranetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explad-3-auxiliary-loss-free-load-balancing-4Beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details