Ekspertu maršrutēšanas mehānismu salīdzināšana DeepSEEK-V2 un DeepSEEK-V3

Kādas ir galvenās atšķirības starp ekspertu maršrutēšanas mehānismiem DeepSEEK-V2 un DeepSEEK-V3

Galvenās atšķirības starp ekspertu maršrutēšanas mehānismiem DeepSEEK-V2 un DeepSEEK-V3 var apkopot šādi:

Deepseek-V2 ekspertu maršrutēšana

-ierobežots ierīces maršrutēšanas mehānisms: DeepSEEK-V2 izmanto ierobežotu ierīces maršrutēšanas mehānismu, lai ekspertiem izplatītu vairākās ierīcēs. Šī pieeja nodrošina, ka katra marķiera mērķa eksperti tiek izplatīti ierobežotā skaitā ierīču, parasti izvēloties labākos K ekspertus no šīm ierīcēm. Šī stratēģija palīdz pārvaldīt komunikācijas pieskaitāmās izmaksas un nodrošina efektīvu paralēlu apstrādi [1] [5].

-Slodzes līdzsvara palīgdarbības zaudējumi: DeepSEEK-V2 ievieš trīs veidu palīgu zaudējumu ekspertu līmeņa, ierīces līmeņa un komunikācijas līmeni, lai apmācības laikā saglabātu slodzes līdzsvaru. Šie zaudējumi palīdz novērst maršrutēšanas sabrukumu, nodrošinot, ka neviens eksperts netiek pārāk izmantots, kamēr citi paliek nepietiekami izmantoti [1] [6].

- Ekspertu skaits un aktivizēšana: DeepSEEK-V2 ir 160 eksperti, kā arī divi kopīgi eksperti, un secinājumu laikā tika aktivizēti tikai seši eksperti. Šī selektīvā aktivācija ievērojami samazina aktīvo parametru skaitu, padarot modeli efektīvāku [5].

Deepseek-V3 ekspertu maršrutēšana

- Palielināta ekspertu specializācija: DeepSEEK-V3 balstās uz MOE arhitektūru, palielinot maršrutēto ekspertu skaitu uz vienu slāni par 60%, no 160 līdz 256. Tas palielina modeļa zināšanu un atmiņas spēju [2].

- Kopīgi eksperti: DeepSEEK-V3 saglabā kopīgu ekspertu koncepciju, kas vienmēr tiek aktivizēti. Katram plūsmas virziena tīklam (FFN) slānim ir viens kopīgs eksperts, un ir trīs slāņi, kur visi eksperti tiek aktivizēti, uzlabojot modeļa spēju uztvert vispārējās zināšanas dažādos kontekstos [2] [4].

-Affinitāte ar marķieri līdz eksemplāram: žetonu piešķiršana ekspertiem ir balstīta uz afinitāti ar marķieri-expert afinitāti iegulšanas telpā. Tomēr DeepSEEK-V3 saskaras ar izaicinājumiem, kas saistīti ar maršrutēšanas sabrukumu, kur žetoni var konsekventi novirzīt uz tiem pašiem ekspertiem, potenciāli kavējot citu ekspertu apmācību [2].

- Agresīva MOE stratēģija: DeepSEEK-V3 pieņem agresīvāku MOE stratēģiju, izmantojot FP8 precizitāti apmācībai, kas ļauj efektīvāk aprēķināt un mērogot. Šī pieeja ļauj modelim efektīvi izmantot nelielu aktivizēšanu, optimizējot parametru izmantošanu secinājumu laikā [2] [4].

Rezumējot, lai gan abi modeļi izmanto MOE arhitektūras efektīvai maršrutēšanai un mazai aktivizēšanai, DeepSEEK-V3 uzlabo šo pieeju ar pastiprinātu ekspertu specializāciju, agresīvākām MOE stratēģijām un pielāgojumiem kopīgām ekspertu konfigurācijām. DeepSEEK-V2 koncentrējas uz ekonomisku apmācību un efektīviem secinājumiem, izmantojot ierobežotu ierīču maršrutēšanu un slodzes līdzsvarošanu.

Atsauces:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efifit
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda