Sigmoidsed väravad ja mitmepeaga varjatud tähelepanu Deepseek-V3-s

Kas saate selgitada, kuidas sigmoidne värav interakteerub Deepseek-V3 MLA arhitektuuriga

Et mõista, kuidas sigmoidne värav interakteerub Deepseek-V3 mitmepealise latentse tähelepanu (MLA) arhitektuuriga, lagundame nii komponendid kui ka nende rollid mudelis.

Mitmepeaga varjatud tähelepanu (MLA)

** MLA on Deepseek-V3 põhikomponent, mis on loodud trafopõhiste mudelite tähelepanu mehhanismi optimeerimiseks. Erinevalt traditsioonilisest mitmepeaga tähelepanust kasutab MLA tähelepanuvõtmete ja väärtuste jaoks madala astme liigese tihendamist. See kokkusurumine vähendab enne tähelepanu mehhanismi sisenemist päringu (Q), võtme (K) ja väärtuse (v) vektorite mõõtmelisust. Näiteks kui sisendi kuju on (järjestuse pikkus ã 2000), võib MLA vähendada Q, K ja V vektorit kuju (järjestuse pikkus ã 100). See vähendamine minimeerib märkimisväärselt võtmeväärtuse (KV) vahemälu järelduste ajal, mis viib kiirema töötlemisajani, ilma et see ohverdaks jõudlust [5] [9].

Sigmoid värav Deepseek-V3

Deepseek-V3 kontekstis kasutatakse sigmoidset väravat koos ekspertide segu (MOE) raamistikuga. MOE raamistik jagab suure närvivõrgu spetsiaalseks alamvõrguks, mida nimetatakse ekspertideks. Iga sisendi jaoks aktiveeritakse ainult nende ekspertide alamhulk. Sigmoidset väravat rakendatakse marsruutimismehhanismile, mis otsustab, milliseid eksperte aktiveerida.

MLA -ga suhtlemine

Kui MLA keskendub peamiselt tähelepanuprotsessi optimeerimisele, mängib sigmoidne värav rolli MOE raamistikus, mis on Deepseek-V3 eraldi, kuid täiendav komponent. MOE raamistik kasutab sigmoidset väravat, et hallata, kuidas märke suunatakse erinevatele ekspertidele. Erinevalt traditsioonilisest softmaxi väravast, mis võib viia ekstreemsete juhtumiteni, kui teatud eksperdid eelistatakse teiste suhtes, aitab sigmoidne värav säilitada märkide tasakaalustatum jaotus ekspertide vahel. See tasakaal on marsruutimise kokkuvarisemise ärahoidmiseks ülioluline, kus mudel võib pöörduda käitumiseni nagu tiheda mudeli, kaotades MOE arhitektuuri tõhususe eelised [5].

Dünaamiline eelarvamuste kohandamine

Deepseek-V3 tutvustab dünaamilisi eelarvamusi, et tagada ekspertide koormuse tasakaalustamine. Enne marsruutimisotsuste tegemist lisatakse ekspertide afiinsuskooridele eelarvamused. Neid eelarvamusi kohandatakse dünaamiliselt koolituse ajal: kui ekspert on ülekoormatud, väheneb selle kallutatus ja kui see on koormatud, suureneb selle kallutatus. See mehhanism tagab, et koormus jääb tasakaalus ilma lisakao funktsioonidele tuginemata, mis võib mudeli jõudlust negatiivselt mõjutada [5].

Kokkuvõtlikult võib öelda, et kuigi MLA optimeerib kiirema järelduste tähelepanu mehhanismi, aitab sigmoidsed väravad MOE raamistikus juhtida märkide marsruuti ekspertidele, tagades arvutuslike ressursside tõhusa ja tasakaalustatud kasutamise. See kombinatsioon suurendab DeepSEEK-V3 üldist jõudlust ja tõhusust.

Tsitaadid:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
]
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
]
[7] https://en.wikipedia.org/wiki/transformer_(Deep_Learning_architecture)
]
]