Sigmoidse värava kasutamine DeepSEEK-V3-s pakub mitmeid peamisi eeliseid, eriti ekspertide segu (MOE) mudelite kontekstis. Siin on üksikasjalikud eelised:
1. Ruuteri lagenemine: erinevalt traditsioonilisest softmaxi väravast, mis normaliseerib kõigi ekspertide hindeid, võimaldab Sigmoid Gating iga eksperdi tulemust iseseisvalt arvutada. See lahutab ruuteri hinded, mis tähendab, et ühe eksperdi aktiveerimine ei mõjuta otseselt teiste aktiveerimist. See võib viia paindlikumate ja nüansseeritumate marsruutimisotsusteni, kuna iga eksperdi tulemust ei piira teiste hinded [5].
2. Üle enesekindluse vältimine: Softmaxi värav võib mõnikord põhjustada marsruutimisotsuste ülemäärast enesekindlust, kus üks ekspert valitakse väga suure tõenäosusega, ignoreerides teisi asjakohaseid eksperte. Sigmoidvärav leevendab seda, võimaldades mitme eksperdi aktiveerida suure tõenäosusega, edendades ekspertide tasakaalustatumat kasutamist mudelis [5].
3. Ekspertide panuse säilitamine: sigmoidsete väravate kasutamisel säilitatakse iga eksperdi panus tõhusamalt. Väravad väärtused, mis on korrutatud ekspertide väljunditega, tulenevad algsest afiinsuse skoorist ilma normaliseerumiseta. See tagab iga eksperdi panuse terviklikkuse, isegi kui aktiveeritakse mitu eksperti [3].
4. Paindlikkus marsruutimisel: Sigmoid Gating pakub marsruutimisotsuste tegemisel suuremat paindlikkust, kuna see ei jõusta ranget normaliseerimist kõigis ekspertides. See paindlikkus võib olla eriti kasulik stsenaariumides, kus mitmed eksperdid on antud sisendmärgi töötlemisel võrdselt olulised, võimaldades mudelil tõhusamalt mitmekesiseid teadmisteallikaid kasutada [5].
5. Vähendatud marsruutimisriski kokkuvarisemise oht: marsruutimise kokkuvarisemine toimub siis, kui mudel soosib pidevalt väikest ekspertide alamhulka, pöördudes tõhusalt tiheda mudeli juurde. Sigmoidsed väravad koos teiste koormuse tasakaalustamisstrateegiatega, näiteks dünaamiliste eelarvamuste mõistetega, aitab seda ära hoida, julgustades ekspertide vahel tasakaalustatumat jaotust, ilma et oleks otseselt karistamatust abistava kaotuse kaudu [3].
Üldiselt suurendab sigmoidse värava kasutamine DeepSEEK-V3-s mudeli võimet juhtida ekspertide spetsialiseerumist ja teadmiste jagamist tõhusalt, aidates kaasa selle tugevale jõudlusele ja arvutuslikule tõhususele.
Tsitaadid:
]
]
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
]
]
]
[7] https://arxiv.org/html/2412.19437v1
]