Lyginant ekspertų maršrutų mechanizmus „Deepseek-V2“ ir „Deepseek-V3“

Kokie yra pagrindiniai skirtumai tarp ekspertų nukreipimo mechanizmų „Deepseek-V2“ ir „Deepseeek-V3“

Pagrindinius skirtumus tarp ekspertų maršruto mechanizmų, esančių „Deepseek-V2“ ir „Deepseek-V3“, galima apibendrinti taip:

„Deepseek-V2“ ekspertų maršrutas

-Apribotas įrenginio maršruto nustatymo mechanizmas: „Deepseek-V2“ naudoja ribotą įrenginio maršruto mechanizmą, kad būtų paskirstytas ekspertus įvairiuose įrenginiuose. Šis požiūris užtikrina, kad kiekvieno žetono tiksliniai ekspertai būtų pasklidę per ribotą skaičių prietaisų, paprastai pasirenkant aukščiausio lygio K ekspertus iš šių įrenginių. Ši strategija padeda valdyti komunikacijos pridėtines išlaidas ir užtikrina efektyvų lygiagrečių apdorojimą [1] [5].

-Pagalbiniai apkrovos balanso nuostoliai: „Deepseek-V2“ pristato trijų tipų pagalbinius nuostolius ekspertų lygio, įrenginio lygio ir komunikacijos lygio, kad būtų išlaikytas apkrovos balansas treniruotėse. Šie nuostoliai padeda išvengti maršruto žlugimo užtikrinant, kad nė vienas ekspertas nebus per daug naudojamas, o kiti lieka nepakankamai išnaudojami [1] [6].

- Ekspertų skaičius ir aktyvinimas: „Deepseek-V2“ turi 160 ekspertų ir du bendrus ekspertus, tik šeši ekspertai suaktyvinti išvados metu. Šis selektyvus aktyvavimas žymiai sumažina aktyvių parametrų skaičių, todėl modelis tampa efektyvesnis [5].

„Deepseek-V3“ ekspertų maršrutas

- Padidėjusi ekspertų specializacija: „Deepseek-V3“ remiasi MOE architektūra, padidindama nukreiptų ekspertų skaičių viename sluoksnyje 60%, nuo 160 iki 256. Šis padidinimas padidina modelio žinių ir atminties pajėgumą [2].

- Bendri ekspertai: „Deepseek-V3“ išlaiko bendrų ekspertų, kurie visada yra suaktyvinti, sąvoką. Kiekviename tiekimo tinklo (FFN) sluoksnyje yra vienas bendras ekspertas, ir yra trys sluoksniai, kuriuose suaktyvinti visi ekspertai, pagerindami modelio gebėjimą užfiksuoti bendrąsias žinias visuose kontekstuose [2] [4].

-Ženklo ir eksperto afinitetas: Žetonų priskyrimas ekspertams grindžiamas žetonų ir eksperto giminingumu įterpimo erdvėje. Tačiau „Deepseeek-V3“ susiduria su iššūkiais, susijusiais su maršruto žlugimu, kur žetonai gali būti nukreipti į tuos pačius ekspertus, kurie gali trukdyti kitų ekspertų mokymui [2].

- Agresyvi MOE strategija: „Deepseek-V3“ priima agresyvesnę MOE strategiją, naudodama FP8 tikslumą mokymui, kuris leidžia efektyviau apskaičiuoti ir mastelio keitimą. Šis metodas leidžia modeliui efektyviai panaudoti nedaug aktyvavimą, optimizuodamas parametrų naudojimą išvadų metu [2] [4].

Apibendrinant galima pasakyti, kad nors abu modeliai naudoja MOE architektūras efektyviam maršruto parinkimui ir nedaug aktyvinimui, „Deepseeek-V3“ sustiprina šį požiūrį padidinant ekspertų specializaciją, agresyvesnes MOE strategijas ir bendrų ekspertų konfigūracijų pakeitimus. „Deepseek-V2“ sutelkia dėmesį į ekonominį mokymą ir veiksmingą išvadą, susijusią su įtaiso ribotu maršruto parinkimu ir apkrovos balansavimo pagalbiniais nuostoliais.

Citatos:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architcture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-ource-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficfick
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA