DeepSeek-V3: A szakértői útválasztás javítása a szigmoid funkcióval a szakértői architektúra keverékében

Hogyan befolyásolja a szigmoid funkció az affinitási pontszám kiszámítását a DeepSeek-V3-ban

A DeepSeek-V3-ban a Sigmoid funkció döntő szerepet játszik a szakértői útválasztás affinitás pontszámának kiszámításában a szakértői (MOE) architektúra keverékében. A hagyományos MOE modellekkel ellentétben, amelyek gyakran a softmax függvényt használják az affinitás pontszáma normalizálására, a DeepSeek-V3 a Sigmoid funkciót alkalmazza. Ez a változás többféle módon befolyásolja a modellt:

1. Normalizálás és útválasztás: A szigmoid függvényt az affinitás pontszámának kiszámításához használják, amelyeket az összes kiválasztott affinitási pontszám között normalizálnak a kapuértékek előállításához. Ez a megközelítés lehetővé teszi a rugalmasabb és árnyaltabb útválasztási mechanizmust, összehasonlítva a SoftMax -hoz, ami néha az útválasztás összeomlásához vezethet, ha egyes szakértők túlzottan kedvelik [4] [7].

2. Az útválasztás összeomlásának elkerülése: Az útválasztás összeomlása akkor fordul elő, amikor a legtöbb zsetont a szakértők kis részhalmazába vezetik, ami a számítási erőforrások nem hatékony felhasználásához vezet. A DeepSeek-V3 enyhíti ezt a Sigmoid Gating használatával és az olyan torzítási kifejezések bevezetésével, amelyek dinamikusan alkalmazkodnak az edzés során. Ezek az elfogultsági kifejezések elősegítik a szakértők közötti terhelést anélkül, hogy támaszkodnának a kiegészítő veszteségekre, amelyek negatívan befolyásolhatják a modell teljesítményét [4] [9].

3. torzítás kifejezések és dinamikus beállítás: A modell magában foglalja az egyes szakértők torzítási kifejezéseit, amelyeket az affinitási pontszámokhoz adnak, mielőtt kiválasztanák a Top-K szakértőket. Ezeket az elfogultsági kifejezéseket az egyes szakértők terhelése alapján dinamikusan beállítják. Ha egy szakértő túlterhelt, az torzítási kifejezés csökken, és ha alá van töltve, akkor az torzítás kifejezés növekszik. Ez biztosítja a tokenek kiegyensúlyozott eloszlását a szakértők között, további veszteségek nélkül [4] [8].

4. Komplementer szekvencia-bölcs kiegészítő veszteség: Noha a DeepSeek-V3 elsősorban elkerüli a kiegészítő veszteségeket, ez magában foglal egy kis szekvencia-egyensúlyvesztést, hogy megakadályozza a szélsőséges eseteket, amikor az egyetlen sorozat erősen támogatja a szakértők kis részhalmazát. Ez a veszteség biztosítékként működik, anélkül, hogy jelentősen befolyásolná az általános képzési dinamikát [4].

5. A csomópont korlátozott útválasztás: A kommunikációs költségek ellenőrzése érdekében a DeepSeek-V3 a csomópont-korlátozott útválasztást alkalmazza, ahol minden tokent a legtöbb M csomópontra küldenek a legmagasabb affinitási pontszámok alapján. Ez a stratégia lehetővé teszi a szinte teljes számítás-kommunikációs átfedést az edzés során, javítva a hatékonyságot [4].

Összességében a Sigmoid funkció használata a DeepSeek-V3-ban lehetővé teszi a rugalmasabb és hatékonyabb útválasztási mechanizmust, amely hozzájárul a modell képességéhez, hogy kiegyensúlyozza a szakértői felhasználást a teljesítmény feláldozása nélkül.

Idézetek:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-reepleanning-neuralnetworks-acivity-729147904792657920-LYE_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-deepseek-v3?lang=en=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3- explain-3-uxiliary-loss-fload-balancing-4Beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details