„Deepseek-V3“: Ekspertų maršruto gerinimas naudojant „Sigmoid“ funkciją ekspertų architektūros mišinyje

Kaip sigmoidinė funkcija veikia afiniteto balo skaičiavimą „DeepSeeek-V3“

„Deepseeek-V3“ funkcija „Sigmoid“ vaidina lemiamą vaidmenį apskaičiuojant afiniteto balus ekspertų maršruto nustatymui ekspertų (MOE) architektūros mišinyje. Skirtingai nuo tradicinių MOE modelių, kurie dažnai naudoja „SoftMax“ funkciją, kad normalizuotų afiniteto balus, „Deepseeek-V3“ naudoja „Sigmoid“ funkciją. Šis pakeitimas daro įtaką modeliui keliais būdais:

1. Normalizavimas ir maršrutas: Sigmoido funkcija naudojama apskaičiuoti afiniteto balus, kurie vėliau normalizuojami tarp visų pasirinktų afinitetų balų, kad būtų gautos vartų vertės. Šis metodas leidžia naudoti lankstesnį ir niuansuotą maršruto parinkimo mechanizmą, palyginti su „SoftMax“, o tai kartais gali sukelti maršruto griūtį ten, kur tam tikri ekspertai yra per daug palankūs [4] [7].

2. Vengiant maršruto žlugimo: maršruto parinkimo žlugimas įvyksta, kai dauguma žetonų yra nukreipiami į nedidelį ekspertų pogrupį, todėl neefektyviai naudojami skaičiavimo ištekliai. „Deepseek-V3“ tai sušvelnina naudodama „Sigmoid“ vartus ir įvedant šališkumo terminus, kurie dinamiškai koreguojami mokymo metu. Šie šališkumo terminai padeda subalansuoti ekspertų apkrovą, nesitikėdami pagalbinių nuostolių, kurie gali neigiamai paveikti modelio našumą [4] [9].

3. Šalutiniai terminai ir dinaminis koregavimas: modelis apima kiekvieno eksperto šališkumo terminus, kurie pridedami prie afiniteto balų prieš pasirinkdami „Top-K“ ekspertus. Šie šališkumo terminai yra dinamiškai koreguojami atsižvelgiant į kiekvieno eksperto apkrovą. Jei ekspertas yra perkrautas, jo šališkumo terminas mažėja, o jei jis yra nepakankamas, šališkumo terminas padidėja. Tai užtikrina subalansuotą žetonų pasiskirstymą tarp ekspertų, nereikia papildomų nuostolių [4] [8].

4. Papildomas sekos požiūris į pagalbinį praradimą: Nors „Deepseeek-V3“ pirmiausia išvengia pagalbinių nuostolių, tai apima nedidelį sekos pusiausvyros praradimą, kad būtų išvengta ekstremalių atvejų, kai viena seka labai palankiai palaiko nedidelį ekspertų pogrupį. Šis praradimas veikia kaip apsauga, nedarant didelės įtakos bendrai mokymo dinamikai [4].

5. Mazgų ribotas maršrutas: Norėdami kontroliuoti ryšio sąnaudas, „Deepseeek-V3“ naudoja mazgų ribotą maršrutą, kur kiekvienas prieigos raktas siunčiamas daugumai M mazgų, atsižvelgiant į aukščiausius afinitetų balus. Ši strategija įgalina beveik pilną skaičiavimo komunikaciją sutapti mokymo metu, padidindama efektyvumą [4].

Apskritai, naudojant „Sigmoid“ funkciją „Deepseek-V3“, galima naudoti lankstesnį ir efektyvesnį maršruto nustatymo mechanizmą, prisidedantį prie modelio gebėjimo subalansuoti ekspertų panaudojimą neprarandant atlikimo.

Citatos:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-actity-7291477904792657920-Rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-akeaways-from-seepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-xplained-3-auxiliary-loss-free-load-balansing-4beeb734ab1f
[6] https://neurips.cc/virlutual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details