Sigmoid ventilācija un vairāku galvu latenta uzmanība DeepSeek-V3

Vai varat paskaidrot, kā sigmoid gating mijiedarbojas ar MLA arhitektūru DeepSeek-V3

Lai saprastu, kā sigmoid gating mijiedarbojas ar vairāku galvu latento uzmanības (MLA) arhitektūru DeepSeek-V3, sadalīsim gan komponentus, gan to lomas modeļa ietvaros.

Vairāku galvu latenta uzmanība (MLA)

** MLA ir galvenā DeepSEEK-V3 sastāvdaļa, kas paredzēta, lai optimizētu uzmanības mehānismu uz transformatoru bāzes modeļiem. Atšķirībā no tradicionālās vairāku galvas uzmanības, MLA izmanto zema līmeņa locītavas saspiešanu uzmanības taustiņiem un vērtībām. Šī saspiešana samazina vaicājuma (Q), atslēgas (k) un vērtības (v) vektoru dimensiju, pirms tie nonāk uzmanības mehānismā. Piemēram, ja ieejai ir forma (secības garums ã 2000), MLA varētu samazināt Q, K un V vektorus līdz formai (secības garums ã 100). Šis samazinājums secinājumu laikā ievērojami samazina atslēgas vērtības (KV) kešatmiņu, izraisot ātrāku apstrādes laiku, neupurējot veiktspēju [5] [9].

sigmoid vārti DeepSeek-V3

DeepSEEK-V3 kontekstā sigmoid vārti tiek izmantoti kopā ar ekspertu maisījuma (MOE) ietvaru. MOE ietvars lielo neironu tīklu sadala specializētos apakštorkos, ko sauc par “ekspertiem”. Par katru ievadi tiek aktivizēta tikai šo ekspertu apakškopa. Sigmoid vārti tiek piemēroti maršrutēšanas mehānismam, kas izlemj, kurus ekspertus aktivizēt.

Mijiedarbība ar MLA

Kaut arī MLA galvenokārt ir vērsta uz uzmanības procesa optimizēšanu, Sigmoid Gating ir loma MOE ietvarā, kas ir atsevišķs, bet papildinošs DeepSeek-V3 sastāvdaļa. MOE ietvars izmanto sigmoid vārtus, lai pārvaldītu to, kā žetoni tiek novirzīti uz dažādiem ekspertiem. Atšķirībā no tradicionālās Softmax vārtu gājiena, kas var izraisīt ārkārtējus gadījumus, kad daži eksperti tiek atbalstīti pār citiem, sigmoid vārti palīdz saglabāt līdzsvarotāku žetonu sadalījumu starp ekspertiem. Šis līdzsvars ir izšķirošs, lai novērstu maršrutēšanas sabrukumu, kur modelis varētu atgriezties, lai izturētos kā blīvs modelis, zaudējot MOE arhitektūras efektivitātes ieguvumus [5].

dinamiska novirzes pielāgošana

DeepSEEK-V3 ievieš dinamiskas novirzes pielāgojumus, lai nodrošinātu kravas līdzsvarošanu ekspertu vidū. Pirms maršrutēšanas lēmumu pieņemšanas tiek pievienoti aizspriedumu termini ekspertu radniecības rādītājiem. Šie aizspriedumi tiek dinamiski pielāgoti apmācības laikā: ja eksperts ir pārslogots, tā novirze tiek samazināta, un, ja tas ir nepietiekami ielādēts, tā novirze tiek palielināta. Šis mehānisms nodrošina, ka slodze paliek līdzsvarota, nepaļaujoties uz palīgdarbības zaudēšanas funkcijām, kas var negatīvi ietekmēt modeļa veiktspēju [5].

Rezumējot, lai gan MLA optimizē uzmanības mehānismu ātrākam secinājumam, sigmoid vārti MOE sistēmā palīdz pārvaldīt marķieru maršrutēšanu ekspertiem, nodrošinot efektīvu un līdzsvarotu skaitļošanas resursu izmantošanu. Šī kombinācija uzlabo DeepSEEK-V3 kopējo veiktspēju un efektivitāti.

Atsauces:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
.
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explated-2-depseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050