„Sigmoid“ vartų ir kelių galvučių latentinis dėmesys „Deepseek-V3“

Ar galite paaiškinti, kaip „Sigmoid Gation“ sąveikauja su MLA architektūra „Deepseek-V3“

Norėdami suprasti, kaip „Sigmoid Gation“ sąveikauja su daugiafunkciniu latentinio dėmesio (MLA) architektūra „Deepseeek-V3“, suskaidykime tiek komponentus, tiek jų vaidmenis modelyje.

Kelių galvos latentinis dėmesys (MLA)

** MLA yra pagrindinis „Deepseek-V3“ komponentas, skirtas optimizuoti „Transformer“ pagrįstų modelių dėmesio mechanizmą. Skirtingai nuo tradicinio daugiafunkcinio dėmesio, MLA naudoja žemo rango sąnario glaudinimą dėmesio raktams ir vertėms. Šis suspaudimas sumažina užklausos (q), rakto (k) ir vertės (V) vektorių matmenis prieš įeinant į dėmesio mechanizmą. Pvz., Jei įvesties forma yra (sekos ilgis ã 2000), MLA gali sumažinti Q, k ir V vektorių iki formos (sekos ilgio ã 100). Šis sumažinimas žymiai sumažina pagrindinės vertės (KV) talpyklą išvados metu, todėl greitesnis apdorojimo laikas neprarandant našumo [5] [9].

„Sigmoid“ vartai „Deepseek-V3“

Atsižvelgiant į „Deepseek-V3“, „Sigmoid“ vartai naudojami kartu su ekspertų mišinio (MOE) sistema. MOE sistema padalija didelį neuroninį tinklą į specializuotus sub-tinklelius, vadinamus „ekspertais“. Kiekvienam įvestims suaktyvinamas tik šių ekspertų pogrupis. „Sigmoid“ vartai taikomi maršruto parinkimo mechanizmui, kuris nusprendžia, kuriuos ekspertus suaktyvinti.

sąveika su MLA

Nors MLA pirmiausia orientuojasi į dėmesio proceso optimizavimą, „Sigmoid Gating“ vaidina svarbų vaidmenį MOE sistemoje, kuris yra atskiras, bet papildomas „Deepseeek-V3“ komponentas. „Moe Framework“ naudoja „Sigmoid“ vartus, kad būtų galima valdyti, kaip žetonai nukreipiami į skirtingus ekspertus. Skirtingai nuo tradicinio „SoftMax“ vartų, o tai gali sukelti ekstremalius atvejus, kai kai kurie ekspertai yra palankūs kitiems, „Sigmoid“ vartai padeda išlaikyti labiau subalansuotą žetonų pasiskirstymą tarp ekspertų. Ši pusiausvyra yra labai svarbi siekiant užkirsti kelią maršruto žlugimui, kai modelis gali grįžti į elgesį kaip tankus modelis, prarasti MOE architektūros naudą [5].

dinaminis šališkumo reguliavimas

„Deepseek-V3“ pateikia dinaminius šališkumo pakeitimus, kad būtų užtikrintas ekspertų apkrovos balansavimas. Prieš priimant sprendimus dėl maršruto parinkimo. Šie šališkumai treniruotėse yra dinamiškai koreguojami: jei ekspertas yra perkrautas, jo paklaida sumažėja, o jei jis yra nepakankamas, jo paklaida padidėja. Šis mechanizmas užtikrina, kad apkrova išlieka subalansuota, nepasikliaujant pagalbinėmis nuostolių funkcijomis, o tai gali neigiamai paveikti modelio našumą [5].

Apibendrinant galima pasakyti, kad nors MLA optimizuoja greitesnių išvadų dėmesio mechanizmą, „Sigmoid“ vartai MOE sistemoje padeda valdyti žetonų maršrutą ekspertams, užtikrinant efektyvų ir subalansuotą skaičiavimo išteklių panaudojimą. Šis derinys padidina bendrą „Deepseek-V3“ našumą ir efektyvumą.

Citatos:
[1] https://fireworks.ai/blog/deepseek-model-architcture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618Media.com/en/blog/technical-architcture-of-deepseek-v3-explange/
[5] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architektūra)
[8] https://ai.gopubby.com/deepseek-v3-xplained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseeek-r1-model-architcture-853FEFAC7050