Deepseek-V3: Izboljšanje strokovnega usmerjanja s sigmoidno funkcijo v mešanici arhitekture strokovnjakov

Kako sigmoidna funkcija vpliva na izračun ocene afinitete v Deepseek-V3

V Deepseek-V3 ima sigmoidna funkcija ključno vlogo pri izračunu ocen afinitete za strokovno usmerjanje v mešanici arhitekture strokovnjakov (MOE). Za razliko od tradicionalnih modelov MO, ki pogosto uporabljajo funkcijo softmax za normalizacijo rezultatov afinitete, Deepseek-V3 uporablja funkcijo sigmoida. Ta sprememba vpliva na model na več načinov:

1. Normalizacija in usmerjanje: Sigmoidna funkcija se uporablja za izračun rezultatov afinitete, ki se nato normalizirajo med vsemi izbranimi rezultati afinitete za izdelavo vrednosti za ganting. Ta pristop omogoča bolj prožen in niansiran mehanizem usmerjanja v primerjavi z Softmaxom, kar lahko včasih privede do propada usmerjanja, kjer so nekateri strokovnjaki preveč naklonjeni [4] [7].

2. Izogibanje propadu usmerjanja: Propad usmerjanja se zgodi, ko je večina žetonov usmerjena v majhno podskupino strokovnjakov, kar vodi v neučinkovito uporabo računskih virov. Deepseek-V3 to ublaži z uporabo Sigmoid Gating in uvaja izraze pristranskosti, ki se med treningom dinamično prilagodijo. Ti izrazi pristranskosti pomagajo uravnotežiti obremenitev med strokovnjaki, ne da bi se zanašali na pomožne izgube, ki lahko negativno vplivajo na uspešnost modela [4] [9].

3. Pristranskosti in dinamična prilagoditev: Model vključuje izraze pristranskosti za vsakega strokovnjaka, ki so dodani v ocene afinitete, preden izberejo strokovnjake Top-K. Ti izrazi pristranskosti so dinamično prilagojeni glede na obremenitev vsakega strokovnjaka. Če je strokovnjak preobremenjen, se njegov pristranskost zmanjšuje in če je podrejen, se izraz pristranskosti poveča. To zagotavlja uravnoteženo porazdelitev žetonov med strokovnjaki brez potrebe po dodatnih izgubah [4] [8].

4. Dopolnjevalna pomožna izguba v zaporedju: Čeprav se Deepseek-V3 predvsem izogne pomožnim izgubam, vključuje majhno izgubo ravnotežja, ki preprečuje ekstremne primere, ko enotno zaporedje močno daje prednost majhni podskupini strokovnjakov. Ta izguba deluje kot varovanec, ne da bi znatno vplivala na splošno dinamiko treninga [4].

5. Usmerjanje, omejeno na vozlišče: Za nadzor stroškov komunikacije Deepseek-V3 uporablja usmerjanje z omejenim vozliščem, kjer se vsak žeton pošlje na največ m vozlišč, ki temeljijo na najvišjih ocenah afinitete. Ta strategija omogoča skoraj popolno prekrivanje računanja, ki se prekriva med treningom in poveča učinkovitost [4].

Na splošno uporaba sigmoidne funkcije v Deepseek-V3 omogoča bolj prilagodljiv in učinkovit mehanizem usmerjanja, kar prispeva k sposobnosti modela za uravnoteženje uporabe strokovnjakov brez žrtvovanja uspešnosti.

Navedbe:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralNetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearnAtscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details