Deepseek-V3: Zvýšenie odborného smerovania so sigmoidnou funkciou v zmesi architektúry odborníkov

Ako ovplyvňuje sigmoidná funkcia výpočet skóre afinity v Deepseek-V3

V Deepseek-V3 hrá sigmoidná funkcia rozhodujúcu úlohu pri výpočte skóre afinity pre odborné smerovanie v zmesi architektúry expertov (MOE). Na rozdiel od tradičných modelov MOE, ktoré často používajú funkciu softmax na normalizáciu skóre afinity, Deepseek-V3 využíva sigmoidnú funkciu. Táto zmena ovplyvňuje model niekoľkými spôsobmi:

1. Normalizácia a smerovanie: Sigmoidná funkcia sa používa na výpočet skóre afinity, ktoré sa potom normalizujú medzi všetkými vybranými afinitačnými skóre, aby sa vytvorili hodnoty hradlovania. Tento prístup umožňuje flexibilnejší a odtieňnejší mechanizmus smerovania v porovnaní s softmaxom, ktorý niekedy môže viesť k smerovaniu kolapsu, keď sú niektorí odborníci príliš uprednostňovaní [4] [7].

2. Vyhýbanie sa kolapsu smerovania: K kolapsu smerovania nastane, keď je väčšina tokenov smerovaná do malej podskupiny odborníkov, čo vedie k neefektívnemu využívaniu výpočtových zdrojov. Deepseek-V3 to zmierňuje pomocou sigmoidného hradlovania a zavedením predpätia pojmov, ktoré sa dynamicky prispôsobujú počas tréningu. Tieto podmienky zaujatosti pomáhajú vyvážiť zaťaženie medzi odborníkmi bez toho, aby sa spoliehali na pomocné straty, ktoré môžu negatívne ovplyvniť výkon modelu [4] [9].

3. Podmienky zaujatosti a dynamické úpravy: Model obsahuje pojmy zaujatosti pre každého odborníka, ktoré sa pridajú k skóre afinity pred výberom odborníkov Top-K. Tieto podmienky zaujatosti sú dynamicky upravené na základe zaťaženia každého odborníka. Ak je expert preťažený, jeho zaujatosť sa zníži a ak je nedostatočne zaťažená, zvýši sa termín zaujatosti. To zaisťuje vyvážené rozdelenie žetónov medzi odborníkmi bez potreby ďalších strát [4] [8].

4. Doplnková sekvenčná pomocná strata: Aj keď DeepSEEK-V3 sa predovšetkým vyhýba pomocným stratám, zahŕňa malú stratu rovnováhy sekvencie, aby sa zabránilo extrémnym prípadom, keď jediný sekvencia silne uprednostňuje malú podskupinu odborníkov. Táto strata pôsobí ako ochrana bez toho, aby výrazne ovplyvnila celkovú dynamiku tréningu [4].

5. Zamestnanie obmedzené uzolmi: Na kontrolu nákladov na komunikáciu, DeepSEEK-V3 používa smerovanie obmedzené uzolmi, kde každý token sa posiela do väčšiny M uzlov na základe najvyššieho afinitného skóre. Táto stratégia umožňuje počas tréningu prekrývanie takmer plného výpočtu, čím sa zvýši účinnosť [4].

Celkovo použitie sigmoidnej funkcie v Deepseek-V3 umožňuje flexibilnejší a efektívnejší mechanizmus smerovania, ktorý prispieva k schopnosti modelu vyvážiť využívanie odborníkov bez obetovania výkonu.

Citácie:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deplearning-euralNetworks-activity-ctivity-ctivity-ctivity-ctivity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfSiibHwxeqmf1/four-unique-takaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-KeyPoint-detection-with-terput.html
[4] https://machinearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-Loss-free-Load-aling-balancing-4Beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
Https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details