„Sigmoid“ vartai „Deepseeek-V3“ vaidina lemiamą vaidmenį gerinant modelio skaičiavimo efektyvumą, ypač jo ekspertų mišinyje (MOE) sistemoje. Skirtingai nuo tradicinių MOE modelių, kurie naudoja „SoftMax“ vartus, kurie gali sukurti ekspertų konkurencingą aplinką, „Deepseek-V3“ naudoja „Sigmoid“ vartus, kad kiekvienam ekspertui suteiktų teisingą taškų skaičiavimo galimybę. Šis požiūris kiekvienam ekspertui priskiria balą nuo 0 iki 1, leidžiantį labiau niuansuotą atrankos procesą, nepriverčiant tarp jų konkurencijos.
Kaip veikia „Sigmoid Gating“
1. Ekspertų taškų skaičiavimas: Kiekvienam MOE sistemos ekspertui priskiriamas balas naudojant „Sigmoid“ funkciją. Šis balas parodo eksperto tikimybę, kad bus išrinktas konkrečiai užduotis. Skirtingai nuo „SoftMax“, kuris normalizuoja balus, kad būtų užtikrinta, jog jie sumuoja iki 1, „Sigmoid“ vartai leidžia keliems ekspertams vienu metu turėti aukštus balus, palengvindamas labiau bendradarbiavimo aplinką.
2. Hierarchinis vargas: Sigmoidinio vartų naudojimas yra hierarchinio vartų mechanizmo dalis. Tai apima kelis atrankos sluoksnius, pradedant nuo grupės filtravimo, kai svarstomos tik pačios aktualiausios ekspertų grupės, po to pasirenkama ekspertų atranka, kur pasirinktos aukščiausio lygio tų grupių ekspertai. Šis hierarchinis požiūris užtikrina, kad kiekvienai užduočiai būtų pasirinktas geriausias ekspertų derinys.
3. Apkrovos balansavimas: Nors pats „Sigmoid“ vartai tiesiogiai nenagrinėja apkrovos balansavimo, jis veikia kartu su „Deepseeek-V3“ pagalbiniu apkrovos balansavimo strategija. Ši strategija naudoja dinaminius šališkumo pakeitimus, kad įsitikintų, jog nė vienas ekspertas nebus perkrautas, išlaikant skaičiavimo efektyvumą, užkertant kelią kliūtims.
indėlis į skaičiavimo efektyvumą
- Sumažinta skaičiavimo pridėtinė vertė: Pasirinkus tik pačius tinkamiausius kiekvienos užduoties ekspertus, „Sigmoid“ vartai padeda sumažinti skaičiavimo pridėtines išlaidas, susijusias su nereikalingų modelio dalių suaktyvinimu. Šis selektyvus aktyvavimas yra pagrindinė MOE architektūros savybė, leidžianti „Deepseeek-V3“ naudoti tik dalį savo visų parametrų bet kuriai užduotims.
- Patobulintas išteklių panaudojimas: „Sigmoid“ vartų derinys su dinaminiu šališkumo koregavimu užtikrina, kad skaičiavimo ištekliai būtų efektyviai naudojami. Tai neleidžia perkrauti tam tikrų ekspertų, o tai gali sukelti skaičiavimo kliūtis ir sumažinti bendrą efektyvumą.
- Patobulintas mastelio keitimas: optimizuodamas išteklių paskirstymą ir užtikrinant subalansuoto ekspertų panaudojimo užtikrinimą, „Sigmoid Gating“ prisideda prie modelio mastelio. „Deepseek-V3“ gali efektyviai tvarkyti didelio masto skaičiavimus, todėl jis yra tinkamas įvairioms programoms, nereikalaujant per didelių skaičiavimo išteklių.
Apibendrinant galima pasakyti, kad „Deepseek-V3“ „Sigmoid“ sustiprina skaičiavimo efektyvumą, palengvindamas niuansuotą ir bendradarbiaujantį ekspertų atrankos procesą, kuris, derinant su kitomis naujovėmis, tokiomis kaip dinaminis šališkumo koregavimas ir MOE sistema, lemia optimizuotą išteklių panaudojimą ir pagerintą mastelio mastelio keitimą. Šis metodas leidžia „Deepseek-V3“ pasiekti aukštą našumą išlaikant žymiai sumažintą skaičiavimo pėdsaką, palyginti su tradiciniais modeliais [1] [3] [4].
Citatos:
[1] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[2] https://alliedinsight.com/blog/deepseeks-technological-inovations-a--se-dve-into-the-v3-model/
[3] https://618Media.com/en/blog/technical-architcture-of-deepseek-v3-explange/
[4] https://www.linkedin.com/posts/sathiyakeerthi_how-sepseek-v3-picks-perfect-experts-activity-7287631625310412800-NCYV
[5] https://www.swiftask.ai/blog/deepseek-v3-the-next-generation-ai
[6] https://ai.gopubby.com/deepseek-v3-xplained-2-deepseekmoe-106cffcc56c1
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://www.nextplatform.com/2025/01/27/how-dids-deepseek-rain-its-ai-model-on-a-lot-less-and-oppled-hardware/